AI姿勢推定とは — 基本概念と仕組み
AI姿勢推定(ポーズ推定)は、画像や動画から人体の関節位置をコンピュータビジョンで自動的に特定し、骨格構造として表現する技術です。深層学習の進歩によって、手作業では不可能だった精度とスピードで関節点を検出できるようになりました[12]。
トップダウンとボトムアップ
AI姿勢推定のアプローチは、大きく2つに分かれます[3]。
- トップダウン方式: まず画面から人物を検出し、そのうえで一人ずつ関節を推定します。精度を高めやすい一方、映像内の人数が増えると処理時間もそれに比例して増えます。
- ボトムアップ方式: 画面全体の関節候補を先にまとめて検出し、あとから人物ごとに組み合わせます。人数が増えても処理時間がほぼ一定に保たれるため、多人数シーンに強みがあります。
ベンチマークと関節点
AI姿勢推定の精度を競う代表的なデータセットに、COCO keypointとMPII Human Poseがあります。COCOは17個、MPIIは16個の関節点を標準的に扱い、どちらも研究・開発のベンチマークとして広く使われています[1][2]。
2D姿勢推定と3D姿勢推定
推定する情報の次元によって、技術は2つに分けられます。2D姿勢推定は画像平面上の関節座標(x, y)を出力します。3D姿勢推定はこれに深さ方向(z)を加え、3次元空間での関節位置を推定します。単眼カメラから3Dを推定する場合、一枚の画像だけでは深さの情報が一意に決まらない「深度曖昧性」が主要な課題になります[12]。
OpenPose — リアルタイム複数人推定の先駆け
OpenPoseは、2017年にカーネギーメロン大学のCaoらが発表したボトムアップ型の2D姿勢推定システムです[3]。複数人が映っていても画面全体を一度で処理できるため、発表当時から現在に至るまで多くの研究・アプリケーションで利用されています。
Part Affinity Fieldsの仕組み
OpenPoseの核となる技術がPart Affinity Fields(PAF)です。これは各ピクセルに「四肢がどの向きに走っているか」を示す2次元のベクトル場を割り当てる仕組みで、関節点の位置マップと同時に推定されます。このベクトル場をたどることで、どの肩とどの肘、どの肘とどの手首が同じ人物に属するかを効率的に判定できます[3]。
ベンチマーク性能
OpenPoseはCOCO 2016キーポイントチャレンジで首位を獲得し、MPII multi-personベンチマークでは75.6%のmAPを達成しました[3]。画面内の人数が増えても処理時間がほぼ変わらない設計は、リアルタイム多人数推定の現実解として広く採用されるきっかけになりました。
ライセンスの注意点
OpenPoseを商用利用する際には注意が必要です。公式ライセンスは学術・非営利研究向けの非商用ライセンスで、商用プロジェクトにそのまま組み込むことはできません[4]。商用利用が前提なら、後述のMediaPipeなどライセンス条件の緩いフレームワークを検討するか、CMUとの個別ライセンス契約が必要になります。
MediaPipeと主要フレームワークの比較
OpenPose以降、姿勢推定のフレームワークは急速に多様化しました。主要な選択肢を整理します。
| フレームワーク | 特徴 | COCO mAP | 主な用途 |
|---|---|---|---|
| OpenPose | ボトムアップ、多人数リアルタイム | MPII 75.6%[3] | 多人数シーン、研究用途 |
| MediaPipe(BlazePose) | モバイル最適化、33ランドマーク | —(単一人物特化)[5] | モバイル・ウェブアプリ |
| HRNet | 高解像度特徴を全段保持 | 75.5[6] | 高精度が必要な研究 |
| ViTPose | Vision Transformerベース | 81.1[7] | 最新精度の活用 |
| AlphaPose(RMPE) | 人物検出枠のズレに頑健 | MPII 76.7%[8] | 多人数シーン |
MediaPipe(BlazePose)
Googleが開発したMediaPipeは、モバイル端末や軽量環境での動作を重視した姿勢推定フレームワークです。中核となるBlazePoseは単一人物向けに設計された軽量CNNで、33個のランドマークを出力します。Pixel 2のようなスマートフォン上でも30fpsを超える処理速度が報告されており、オンデバイス推論の現実解として広く使われています[5]。商用利用に関するライセンスも比較的柔軟で、モバイルアプリ開発の第一候補になることが多い選択肢です。
HRNet — 高精度志向
HRNet(High-Resolution Network)は、処理の全段階で高解像度の特徴表現を保持する設計が特徴です。従来のネットワークが一度低解像度に落としてから復元するのに対し、HRNetは高解像度のまま並列に処理することで細かい関節位置を正確に捉えます。COCO test-devで75.5AP、MPIIで92.3%([email protected])を達成しました[6]。
ViTPose — Transformerの参入
ViTPoseは、画像認識で広く使われるVision Transformer(ViT)をそのまま姿勢推定に適用した手法です。シンプルな設計ながら、COCO test-devで81.1mAPという高い精度を示し、Transformer系が姿勢推定の新たな主流になる可能性を示しました[7]。
AlphaPose(RMPE)
AlphaPoseの元となったRMPEは、トップダウン方式の弱点である「人物検出の枠ズレ」に強い手法として提案されました。検出精度が多少悪くても関節推定の精度を保てる設計で、MPII multi-personで76.7mAPを達成しています[8]。
使い分けの目安
実務での使い分けは、だいたい次のように整理できます。単一人物でモバイル・低遅延が必要ならMediaPipe、多人数シーンにはOpenPoseやAlphaPose、精度を最優先する研究用途にはHRNetやViTPoseが有力な候補です。
3D姿勢推定の技術動向
2D姿勢推定が成熟したことで、研究の中心は3D姿勢推定に移りつつあります。3D化にはいくつかのアプローチがあります。
単眼・マルチビュー・深度カメラ
- 単眼3D推定: 1台のカメラ映像だけから3D関節位置を推定する方式。機材が不要ですが深度曖昧性の課題があります。
- マルチビュー推定: 複数カメラの映像を統合して3Dを復元する方式。精度は高いものの、カメラ配置とキャリブレーションの手間がかかります。
- 深度カメラ方式: KinectのようなRGB-Dカメラを使う方式。深度情報が直接得られる反面、屋外での利用に制限があります。
Human3.6MベンチマークとMPJPE
3D姿勢推定の代表的な評価指標は、推定関節位置と正解位置の平均誤差であるMPJPE(Mean Per Joint Position Error)です。ベンチマークとして広く使われるHuman3.6Mデータセットでは、近年のモデルが急速に精度を伸ばしています[9]。
Transformer系モデル
2021年以降、Transformerを使った3D推定が主流になっています。PoseFormerは空間方向と時間方向のTransformerを分けて適用する構造で、Human3.6MでMPJPE 44.3mm級を達成しました[9]。続くMotionBERTは、空間と時間を一体で扱うDSTformerを導入し、スクラッチ学習で39.2mm、ファインチューニングで37.5mm級まで誤差を縮めています[10]。
マルチビューはさらに高精度
単眼で40mm前後の誤差が残るのに対し、マルチビュー方式はさらに高い精度を実現します。Iskakovらの学習可能な三角測量(Learnable Triangulation)では、Human3.6Mでマルチビュー20mm台、単一視点でも49.9mm級の精度が報告されました[11]。精密な計測が必要な場面では、今もマルチカメラ構成が有利です。
3D姿勢推定の全体像は2023年の系統的レビューで整理されており、単眼画像・動画・マルチビューの各アプローチと代表手法が横断的にまとめられています[12]。
精度検証 — マーカーレスは光学式の代わりになるか
AI姿勢推定を「計測ツール」として使えるかは、光学式モーションキャプチャーとの比較でどこまで精度が出るかにかかっています。近年は査読論文での検証が進み、具体的な誤差値が見えてきました。
歩行でのOpenPose精度
複数のオープンソース姿勢推定手法を歩行キネマティクスで比較した研究では、OpenPoseが既存手法の中で最も精度の高い部類に入りました。膝関節角度の平均誤差は5.1±2.5度、股関節角度は3.7±1.3度という結果です[13]。臨床歩行分析で求められる精度(おおむね5度以内)に近い水準に達しつつあることがわかります。
3Dマーカーレスワークフロー Pose2Sim
OpenPoseとOpenSimを組み合わせた3Dマーカーレスワークフロー「Pose2Sim」の精度検証では、平均角度誤差が歩行で3.0度、走行で4.1度、自転車で4.0度と報告されました[14]。スポーツバイオメカニクスの一般的な許容誤差(5度程度)に収まっており、実用段階に入っていることがうかがえます。
失敗パターン
一方、系統的なズレも残っています。Pose2Simの検証では、走行時の股関節に約15度のオフセット(系統誤差)、サイクリングでは足関節の部分オクルージョンでCMC(曲線一致度)が0.75まで低下する場面が報告されました[14]。カメラに体の一部が隠れる「オクルージョン」と、骨が周囲の方向と区別しにくい「回旋」の2つが、現時点の主な弱点です。
近年は、MYoACTやTheia3D、KinaTraxといった商用マーカーレスモーションキャプチャーサービスも、これらのAI姿勢推定技術を基盤に活用の幅を広げています。
応用領域 — スポーツ、リハビリ、産業安全
スポーツ
スポーツ分野では、OpenPoseやOpenSimを組み合わせたワークフローが歩行・走行・自転車の3Dマーカーレスキネマティクス解析に応用されています。従来のマーカー貼付を省略できるため、選手への負担を減らしながら競技動作を分析できるのが大きな利点です[14]。
リハビリ・臨床
リハビリや臨床歩行の現場でも、AI姿勢推定の活用が検証段階から実用段階へと進みつつあります。健常者の歩行キネマティクスを対象とした比較研究では、OpenPoseが光学式の代替計測として十分な精度を持つことが示され、臨床・研究両面での活用可能性が示唆されました[13]。専門のラボがない地域でも、通常のビデオカメラから歩行指標を取得できる意義は大きいと言えます。
産業ergonomics
工場や物流現場での姿勢評価にもAI姿勢推定が使われています。OpenPoseから算出した関節角度を、RULA(Rapid Upper Limb Assessment)やREBA(Rapid Entire Body Assessment)など既存の姿勢リスク評価手法に接続する取り組みが査読論文で報告されました[15]。この研究では、OpenPoseベースの評価が非前額面の撮影や一部のオクルージョンといった「現場の厳しい条件」でも、Kinect系の深度センサーより頑健に動作することが示されています。
