動作解析・動作分析

AI姿勢推定技術の最新動向：OpenPose・MediaPipe・深層学習

2026-04-24

OpenPoseの登場をきっかけに、映像から人の関節位置を自動で取り出すAI姿勢推定は急速に広がりました。今ではMediaPipeやHRNet、ViTPose、さらに3D姿勢推定のMotionBERTなど、選択肢は一気に増えています。精度はどこまで出るのか、光学式モーションキャプチャーの代わりに使えるのか、商用利用できるのか。本記事では、主要フレームワークの仕組みと性能、最新ベンチマーク、スポーツ・リハビリ・産業現場での応用を、査読付き論文に基づいて整理します。

AI姿勢推定とは — 基本概念と仕組み

AI姿勢推定（ポーズ推定）は、画像や動画から人体の関節位置をコンピュータビジョンで自動的に特定し、骨格構造として表現する技術です。深層学習の進歩によって、手作業では不可能だった精度とスピードで関節点を検出できるようになりました[12]。

トップダウンとボトムアップ

AI姿勢推定のアプローチは、大きく2つに分かれます[3]。

トップダウン方式: まず画面から人物を検出し、そのうえで一人ずつ関節を推定します。精度を高めやすい一方、映像内の人数が増えると処理時間もそれに比例して増えます。
ボトムアップ方式: 画面全体の関節候補を先にまとめて検出し、あとから人物ごとに組み合わせます。人数が増えても処理時間がほぼ一定に保たれるため、多人数シーンに強みがあります。

ベンチマークと関節点

AI姿勢推定の精度を競う代表的なデータセットに、COCO keypointとMPII Human Poseがあります。COCOは17個、MPIIは16個の関節点を標準的に扱い、どちらも研究・開発のベンチマークとして広く使われています[1][2]。

2D姿勢推定と3D姿勢推定

推定する情報の次元によって、技術は2つに分けられます。2D姿勢推定は画像平面上の関節座標（x, y）を出力します。3D姿勢推定はこれに深さ方向（z）を加え、3次元空間での関節位置を推定します。単眼カメラから3Dを推定する場合、一枚の画像だけでは深さの情報が一意に決まらない「深度曖昧性」が主要な課題になります[12]。

OpenPose — リアルタイム複数人推定の先駆け

OpenPoseは、2017年にカーネギーメロン大学のCaoらが発表したボトムアップ型の2D姿勢推定システムです[3]。複数人が映っていても画面全体を一度で処理できるため、発表当時から現在に至るまで多くの研究・アプリケーションで利用されています。

Part Affinity Fieldsの仕組み

OpenPoseの核となる技術がPart Affinity Fields（PAF）です。これは各ピクセルに「四肢がどの向きに走っているか」を示す2次元のベクトル場を割り当てる仕組みで、関節点の位置マップと同時に推定されます。このベクトル場をたどることで、どの肩とどの肘、どの肘とどの手首が同じ人物に属するかを効率的に判定できます[3]。

ベンチマーク性能

OpenPoseはCOCO 2016キーポイントチャレンジで首位を獲得し、MPII multi-personベンチマークでは75.6%のmAPを達成しました[3]。画面内の人数が増えても処理時間がほぼ変わらない設計は、リアルタイム多人数推定の現実解として広く採用されるきっかけになりました。

ライセンスの注意点

OpenPoseを商用利用する際には注意が必要です。公式ライセンスは学術・非営利研究向けの非商用ライセンスで、商用プロジェクトにそのまま組み込むことはできません[4]。商用利用が前提なら、後述のMediaPipeなどライセンス条件の緩いフレームワークを検討するか、CMUとの個別ライセンス契約が必要になります。

MediaPipeと主要フレームワークの比較

OpenPose以降、姿勢推定のフレームワークは急速に多様化しました。主要な選択肢を整理します。

フレームワーク	特徴	COCO mAP	主な用途
OpenPose	ボトムアップ、多人数リアルタイム	MPII 75.6%[3]	多人数シーン、研究用途
MediaPipe（BlazePose）	モバイル最適化、33ランドマーク	—（単一人物特化）[5]	モバイル・ウェブアプリ
HRNet	高解像度特徴を全段保持	75.5[6]	高精度が必要な研究
ViTPose	Vision Transformerベース	81.1[7]	最新精度の活用
AlphaPose（RMPE）	人物検出枠のズレに頑健	MPII 76.7%[8]	多人数シーン

MediaPipe（BlazePose）

Googleが開発したMediaPipeは、モバイル端末や軽量環境での動作を重視した姿勢推定フレームワークです。中核となるBlazePoseは単一人物向けに設計された軽量CNNで、33個のランドマークを出力します。Pixel 2のようなスマートフォン上でも30fpsを超える処理速度が報告されており、オンデバイス推論の現実解として広く使われています[5]。商用利用に関するライセンスも比較的柔軟で、モバイルアプリ開発の第一候補になることが多い選択肢です。

HRNet — 高精度志向

HRNet（High-Resolution Network）は、処理の全段階で高解像度の特徴表現を保持する設計が特徴です。従来のネットワークが一度低解像度に落としてから復元するのに対し、HRNetは高解像度のまま並列に処理することで細かい関節位置を正確に捉えます。COCO test-devで75.5AP、MPIIで92.3%（[email protected]）を達成しました[6]。

ViTPose — Transformerの参入

ViTPoseは、画像認識で広く使われるVision Transformer（ViT）をそのまま姿勢推定に適用した手法です。シンプルな設計ながら、COCO test-devで81.1mAPという高い精度を示し、Transformer系が姿勢推定の新たな主流になる可能性を示しました[7]。

AlphaPose（RMPE）

AlphaPoseの元となったRMPEは、トップダウン方式の弱点である「人物検出の枠ズレ」に強い手法として提案されました。検出精度が多少悪くても関節推定の精度を保てる設計で、MPII multi-personで76.7mAPを達成しています[8]。

使い分けの目安

実務での使い分けは、だいたい次のように整理できます。単一人物でモバイル・低遅延が必要ならMediaPipe、多人数シーンにはOpenPoseやAlphaPose、精度を最優先する研究用途にはHRNetやViTPoseが有力な候補です。

3D姿勢推定の技術動向

2D姿勢推定が成熟したことで、研究の中心は3D姿勢推定に移りつつあります。3D化にはいくつかのアプローチがあります。

単眼・マルチビュー・深度カメラ

単眼3D推定: 1台のカメラ映像だけから3D関節位置を推定する方式。機材が不要ですが深度曖昧性の課題があります。
マルチビュー推定: 複数カメラの映像を統合して3Dを復元する方式。精度は高いものの、カメラ配置とキャリブレーションの手間がかかります。
深度カメラ方式: KinectのようなRGB-Dカメラを使う方式。深度情報が直接得られる反面、屋外での利用に制限があります。

Human3.6MベンチマークとMPJPE

3D姿勢推定の代表的な評価指標は、推定関節位置と正解位置の平均誤差であるMPJPE（Mean Per Joint Position Error）です。ベンチマークとして広く使われるHuman3.6Mデータセットでは、近年のモデルが急速に精度を伸ばしています[9]。

Transformer系モデル

2021年以降、Transformerを使った3D推定が主流になっています。PoseFormerは空間方向と時間方向のTransformerを分けて適用する構造で、Human3.6MでMPJPE 44.3mm級を達成しました[9]。続くMotionBERTは、空間と時間を一体で扱うDSTformerを導入し、スクラッチ学習で39.2mm、ファインチューニングで37.5mm級まで誤差を縮めています[10]。

マルチビューはさらに高精度

単眼で40mm前後の誤差が残るのに対し、マルチビュー方式はさらに高い精度を実現します。Iskakovらの学習可能な三角測量（Learnable Triangulation）では、Human3.6Mでマルチビュー20mm台、単一視点でも49.9mm級の精度が報告されました[11]。精密な計測が必要な場面では、今もマルチカメラ構成が有利です。

3D姿勢推定の全体像は2023年の系統的レビューで整理されており、単眼画像・動画・マルチビューの各アプローチと代表手法が横断的にまとめられています[12]。

精度検証 — マーカーレスは光学式の代わりになるか

AI姿勢推定を「計測ツール」として使えるかは、光学式モーションキャプチャーとの比較でどこまで精度が出るかにかかっています。近年は査読論文での検証が進み、具体的な誤差値が見えてきました。

歩行でのOpenPose精度

複数のオープンソース姿勢推定手法を歩行キネマティクスで比較した研究では、OpenPoseが既存手法の中で最も精度の高い部類に入りました。膝関節角度の平均誤差は5.1±2.5度、股関節角度は3.7±1.3度という結果です[13]。臨床歩行分析で求められる精度（おおむね5度以内）に近い水準に達しつつあることがわかります。

3Dマーカーレスワークフロー Pose2Sim

OpenPoseとOpenSimを組み合わせた3Dマーカーレスワークフロー「Pose2Sim」の精度検証では、平均角度誤差が歩行で3.0度、走行で4.1度、自転車で4.0度と報告されました[14]。スポーツバイオメカニクスの一般的な許容誤差（5度程度）に収まっており、実用段階に入っていることがうかがえます。

失敗パターン

一方、系統的なズレも残っています。Pose2Simの検証では、走行時の股関節に約15度のオフセット（系統誤差）、サイクリングでは足関節の部分オクルージョンでCMC（曲線一致度）が0.75まで低下する場面が報告されました[14]。カメラに体の一部が隠れる「オクルージョン」と、骨が周囲の方向と区別しにくい「回旋」の2つが、現時点の主な弱点です。

近年は、MYoACTやTheia3D、KinaTraxといった商用マーカーレスモーションキャプチャーサービスも、これらのAI姿勢推定技術を基盤に活用の幅を広げています。

応用領域 — スポーツ、リハビリ、産業安全

スポーツ

スポーツ分野では、OpenPoseやOpenSimを組み合わせたワークフローが歩行・走行・自転車の3Dマーカーレスキネマティクス解析に応用されています。従来のマーカー貼付を省略できるため、選手への負担を減らしながら競技動作を分析できるのが大きな利点です[14]。

リハビリ・臨床

リハビリや臨床歩行の現場でも、AI姿勢推定の活用が検証段階から実用段階へと進みつつあります。健常者の歩行キネマティクスを対象とした比較研究では、OpenPoseが光学式の代替計測として十分な精度を持つことが示され、臨床・研究両面での活用可能性が示唆されました[13]。専門のラボがない地域でも、通常のビデオカメラから歩行指標を取得できる意義は大きいと言えます。

産業ergonomics

工場や物流現場での姿勢評価にもAI姿勢推定が使われています。OpenPoseから算出した関節角度を、RULA（Rapid Upper Limb Assessment）やREBA（Rapid Entire Body Assessment）など既存の姿勢リスク評価手法に接続する取り組みが査読論文で報告されました[15]。この研究では、OpenPoseベースの評価が非前額面の撮影や一部のオクルージョンといった「現場の厳しい条件」でも、Kinect系の深度センサーより頑健に動作することが示されています。

よくある質問

Q. OpenPoseとMediaPipeはどう使い分ければよいですか？

画面内に複数人が映り、全員の動きを同時に追いたい場合はOpenPoseが有力です。一方、単一人物の動きをスマートフォンやウェブアプリで軽快に処理したい場合はMediaPipeが向いています。また、OpenPoseは学術・非営利用途の非商用ライセンスである点にも注意が必要で、商用プロジェクトではMediaPipeのほうが導入しやすい傾向があります。

Q. 3D姿勢推定はどこまで精度が出ますか？

単眼カメラからの3D推定では、最新のMotionBERTなどがHuman3.6Mベンチマークで平均誤差40mm前後を達成しています。複数カメラを使うマルチビュー方式では20mm台まで精度が上がります。臨床やスポーツでの関節角度評価では、歩行で3〜5度程度の誤差が報告されており、用途によっては光学式モーションキャプチャーの代替として使える水準に達しつつあります。

Q. AI姿勢推定は商用利用できますか？

フレームワークごとにライセンス条件が異なります。OpenPoseは学術・非営利研究向けの非商用ライセンスで、商用利用には個別契約が必要です。一方、MediaPipeやHRNet、ViTPoseなどは商用利用しやすいライセンスで公開されているものが多く、導入前に各リポジトリのLICENSEファイルを必ず確認することをおすすめします。

Q. AI姿勢推定の限界は何ですか？

現時点の主な弱点は2つあります。1つ目は「オクルージョン」で、カメラに体の一部が隠れると関節推定の精度が大きく下がります。2つ目は「回旋動作」で、骨の回転を画像だけから判別するのが難しく、系統的な誤差が残りやすい傾向があります。これらを補うには、複数カメラ構成や、IMUなど別センサーとの併用が有効です。

Q. AI姿勢推定を初めて試すなら何から始めればよいですか？

まずは商用利用しやすく、環境構築が簡単なMediaPipeから試すのが現実的です。Webカメラとノートパソコン（またはスマートフォン）があれば、単一人物の関節トラッキングをすぐに体験できます。その後、用途に応じて多人数対応のOpenPoseや高精度なHRNet/ViTPose、3D解析のPose2Simなどに広げていくとよいでしょう。

参考文献

[1]Lin TY, Maire M, Belongie S, et al.. Microsoft COCO: Common Objects in Context, ECCV 2014 / arXiv (2014) DOI: 10.48550/arXiv.1405.0312
[2]Andriluka M, Pishchulin L, Gehler P, Schiele B. 2D Human Pose Estimation: New Benchmark and State of the Art Analysis, CVPR 2014 (2014)
[3]Cao Z, Simon T, Wei SE, Sheikh Y. Realtime Multi-Person 2D Pose Estimation Using Part Affinity Fields, CVPR 2017 (2017) DOI: 10.1109/CVPR.2017.143
[4]CMU Perceptual Computing Lab. OpenPose LICENSE, GitHub (2020)
[5]Bazarevsky V, Grishchenko I, Raveendran K, et al.. BlazePose: On-device Real-time Body Pose tracking, CVPR Workshops 2020 / arXiv (2020) DOI: 10.48550/arXiv.2006.10204
[6]Sun K, Xiao B, Liu D, Wang J. Deep High-Resolution Representation Learning for Human Pose Estimation, CVPR 2019 (2019)
[7]Xu Y, Zhang J, Zhang Q, Tao D. ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation, NeurIPS 2022 / arXiv (2022) DOI: 10.48550/arXiv.2204.12484
[8]Fang HS, Xie S, Tai YW, Lu C. RMPE: Regional Multi-Person Pose Estimation, ICCV 2017 (2017) DOI: 10.1109/ICCV.2017.256
[9]Zheng C, Zhu S, Mendieta M, et al.. 3D Human Pose Estimation With Spatial and Temporal Transformers, ICCV 2021 (2021)
[10]Zhu W, Ma X, Liu Z, et al.. MotionBERT: A Unified Perspective on Learning Human Motion Representations, ICCV 2023 / arXiv (2023) DOI: 10.48550/arXiv.2210.06551
[11]Iskakov K, Burkov E, Lempitsky V, Malkov Y. Learnable Triangulation of Human Pose, ICCV 2019 (2019) DOI: 10.1109/ICCV.2019.00781
[12]El Kaid A, Baïna K. A Systematic Review of Recent Deep Learning Approaches for 3D Human Pose Estimation, Journal of Imaging (2023) DOI: 10.3390/jimaging9120275
[13]Washabaugh EP, Shanmugam TA, Ranganathan R, Krishnan C. Comparing the Accuracy of Open-Source Pose Estimation Methods for Measuring Gait Kinematics, Gait & Posture (2022) DOI: 10.1016/j.gaitpost.2022.08.008
[14]Pagnon D, Domalain M, Reveret L. Pose2Sim: An End-to-End Workflow for 3D Markerless Sports Kinematics-Part 2: Accuracy, Journal of Applied Biomechanics (2022)
[15]Kim W, Sung J, Saakes D, Huang C, Xiong S. Ergonomic Postural Assessment Using a New Open-Source Human Pose Estimation Technology (OpenPose), International Journal of Industrial Ergonomics (2021) DOI: 10.1016/j.ergon.2021.103164

MYoACT — マーカーレス動作解析プラットフォーム

動画をアップロードするだけで関節角度・筋活動・重心・床反力を3D可視化できるクラウドサービス。マーカー装着不要で、スマートフォンの撮影映像にも対応しています。

公式サイトで詳細を見る