人体运动姿态估计/行为识别

浏览：时间：2021-12-27 分类：核心技术

人体姿态估计（Pose Estimation）：可以视为图像或视频中人体关节位置（也称为关键点，如手肘、膝盖、肩膀等）的定位问题，因此也被称为人体关键点检测。人体姿态估计示例如图1所示。

当前的人体姿态估计包括两种：单人姿态估计（single person pose estimation，SPPE）与多人姿态估计（multi person pose estimation， MPPE），如图2所示。姿态估计方法最初集中于SPPE，随着更多的MPPE数据集出现，针对MPPE的研究工作越来越多。

图1 人体姿态估计示例

图2 单人姿态估计与多人姿态估计

当前主流的姿态估计算法有DeepPose（如图3）、AlphaPose等。

图3 DeepPose网络架构图

人体行为识别任务旨在从视频剪辑中识别人体不同的动作/行为，可以视为图像分类任务在多个帧（视频）上的扩展。人体行为识别有两种常见的方法：一种方法是直接将视频帧作为输入，利用深度学习模型提取具有判别性的空间特征和时序特征，然后进行行为识别，如Two-Stream类方法和C3D类方法，但是该类方法无法很好解决复杂背景、光照变化等问题；另一种方法是基于骨架的行为识别，即首先利用前面介绍的姿态估计算法对视频中人的骨架姿态进行估计（一般进行3D姿态估计），再利用LSTM对序列骨架特征进行时序建模。基于骨架的方法更朴素地表现了人的动作轨迹，能很好克服复杂背景、光照变化等问题，但其效果也过度依赖姿态估计算法的好坏。常见的人体行为识别算法有ST-GCN（如图4）、PoseC3D（如图5）等。