Multi-Modal Gait Recognition via Effective Spatial-Temporal Feature Fusion

CVPR 2023

Abstract

步态识别是一种通过人的步态特征进行身份识别的技术。然而，现有的步态识别方法主要基于两种数据：轮廓和骨架。轮廓数据易受到服装遮挡的影响，骨架数据则缺乏身体外形信息。为了解决这些问题，论文提出了一种融合这两种数据的步态识别方法，从而获得更健壮和全面的步态表示。

论文提出了一个基于Transformer的步态识别框架 MMGaitFormer。该框架通过以下两个关键模块来实现多模态的融合：

空间融合模块（Spatial Fusion Module, SFM）：该模块通过注意力机制，将步态的细粒度空间特征（如骨架关节和轮廓身体部分）进行融合。
时间融合模块（Temporal Fusion Module, TFM）：该模块通过一种称为循环位置嵌入（Cycle Position Embedding, CPE）的技术，结合步态序列的时间信息进行建模和融合。

1.Introduction

如图1（a）所示，虽然剪影保留了大部分身体形状信息，但当身体区域重叠时会出现自遮挡问题。此外，当衣服条件发生变化时，如图1（b）所示，衣服遮蔽会导致外部身体形状发生显着变化。

骨架只保留内部身体结构信息，有效解决了衣服遮挡和自我遮挡问题，但完全忽略了辨别性的身体形状信息导致性能不佳。

因此，我们可以观察到剪影保留了外部身体形状信息并省略了一些身体结构线索，而骨骼保留了内部身体结构信息。这两种数据模式是互补的，它们的组合有望成为更全面的步态表示

我们提出了一种名为 MMGaitFormer 的基于 Transformer 的步态识别框架，它有效地融合和聚合了骨骼和轮廓的时空信息。

1.1 模型整体架构

MMGaitFormer 主要由以下三个阶段组成：

预处理阶段：从原始视频中提取轮廓序列和骨架序列。轮廓是通过图像分割方法从RGB视频中获得，骨架是通过姿态估计模型提取出来的。
编码阶段：轮廓和骨架序列分别输入独立的编码模块，提取它们各自的空间和时间特征。
融合阶段：引入了空间融合模块（SFM）和时间融合模块（TFM），分别用于空间和时间层次的特征融合，最终将这些特征融合为一个统一的步态表示。

1.2 关键模块介绍

1.2.1 轮廓编码模块（Silhouette Encoding Module, SiEM）

目的：用于从轮廓图像中提取空间和时间特征。
结构：SiEM 主要使用 3D 卷积神经网络（CNN）以及其他特征提取层，如最大池化层和微运动捕捉模块（Micro-motion Capture Module, MCM），以捕捉轮廓的局部和全局步态特征。

1.2.2 骨架编码模块（Skeleton Encoding Module, SkEM）

目的：用于从骨架数据中提取空间和时间特征。
结构：SkEM 使用图卷积网络（Graph Convolutional Network, GCN）来从骨架的关节点序列中提取空间和时间信息。由于骨架和轮廓数据的性质不同，SkEM 和 SiEM 是分开的编码模块。

1.2.3 空间融合模块（Spatial Fusion Module, SFM）

目的：融合骨架和轮廓的空间信息，利用它们的互补性来获得更加完整的步态表示。
机制：SFM 通过一种共注意力机制（Co-Attention Mechanism）实现，将骨架关节和轮廓部位的细粒度特征进行匹配和融合。这一过程被称为细粒度身体部位融合（Fine-grained Body Parts Fusion, FBPF），基于人体的先验知识，将头部、躯干和腿部分别进行特征融合。
- 共注意力机制：它使用双重交叉注意力模块（Cross-attention blocks）来实现骨架和轮廓之间的交互，并通过预定义的注意力掩码，确保相应的身体部位（如头、躯干、腿）之间的特征能够准确匹配。

1.2.4 时间融合模块（Temporal Fusion Module, TFM）

目的：对步态序列的时间信息进行建模和融合。
机制：TFM 提出了循环位置嵌入（Cycle Position Embedding, CPE），用于捕捉步态序列中的周期性特征。CPE 能够模拟步态的周期过程，并且适应任意长度的步态序列，有效提高时间建模的准确性。
- 时间共注意力机制：与 SFM 类似，TFM 也使用共注意力机制来融合骨架和轮廓的时间信息，确保步态序列中的时间特征能够有效地进行融合和增强。

2.1 基于外观的方法（Appearance-based Methods）

基于外观的步态识别方法通常依赖于从视频中提取的轮廓图像，即通过分割得到的二值化的轮廓图来描述人体的外部形态。这类方法的核心是利用这些轮廓图像来消除外部因素（如背景噪声）的干扰，专注于人体形状和运动模式。这类方法在文献中得到了广泛应用，主要包括以下几种代表性方法：

GaitSet：将步态看作一组轮廓图像序列，通过帧级特征提取模块获取空间特征，再通过时空聚合模块获取步态表示。
GaitPart：引入了微运动捕捉模块（Micro-motion Capture Module, MCM），以捕获局部的微运动特征。
GaitGL：基于3D卷积神经网络（3D CNN），同时捕获局部和全局的时空特征。

尽管这些基于轮廓的方法在步态识别中表现优异，但它们在面对服装遮挡和自遮挡问题时表现出局限性，识别性能会受到一定影响。

2.2 基于模型的方法（Model-based Methods）

这类方法通过建模人体的物理结构，从而以一种更加可解释的方式来表达步态信息。模型化的方法通常会提取骨架信息，使用姿态估计模型从视频中获取人体关节的位置信息，并基于这些关节节点的动态特征进行步态识别。

PoseGait：利用人体的先验知识设计姿态特征，使用卷积神经网络（CNN）提取步态特征。
GaitGraph：通过图卷积网络（Graph Convolutional Network, GCN）来处理骨架关节的时空关系，生成步态特征。

骨架信息的优势在于它对外观变化（如服装变化）有更好的鲁棒性，但由于缺少人体的外部形态信息，这类方法的区分性有时不如基于外观的方法。

多模态步态识别尝试通过融合多种数据源（如深度图、视频、骨架数据等）来提升识别性能。早期研究探索了深度图像、惯性传感器数据和视频数据的融合，但基于同源视频数据的多模态方法尚未被充分开发。现有方法大多采用简单的特征拼接或全局特征融合，这种融合方式无法充分利用细粒度的空间和时间信息。

BiFusion：一种融合骨架和轮廓信息的步态识别方法，通过简单地拼接全局特征进行融合，但无法捕捉细粒度的时空特征。
TransGait：使用多模态学习的方法，利用 Set Transformer 实现骨架和轮廓的融合，但融合过程仍然较为简单，缺乏对细节的深度挖掘。

这些多模态融合方法尽管在识别准确率上有一定提升，但由于缺乏细粒度的空间和时间融合手段，仍未能充分发挥多模态数据的潜力。

3. Methods

3.1 Pipeline

预处理阶段：分别通过分割方法和姿态估计方法从原始RGB视频中提取剪影序列和骨架序列。

编码阶段：我们将输入轮廓和骨架分别输入轮廓编码模块（SiEM）和骨架编码模块（SkEM）以学习时空特征图。

融合阶段：提出了空间融合模块（SFM）和时间融合模块（TFM），分别用于有效的细粒度空间和细对齐时间特征融合。

ATT表示交叉注意力块，两个ATT形成共同注意力结构，用于特征融合。 TFM 中的嵌入建模 (EM) 用于时间建模。单独的全连接层（SFC）用于编码和融合阶段的特征映射。

3.2 SiEM和SkEM

3.2.1 motivation

两种模态表示的数据结构差异太大，很难在数据层面上直接融合。因此，我们设计独立的编码模块来捕获每个模态的独特判别信息，并增强后续融合的时空特征表示。为了加速模型收敛，我们专门进行了轮廓损失Lsil和骨架损失Lske来分别监督每个模态特征的学习。

3.2.2 实现方式

SiEM 网络由 3D CNN 块、最大池化层和微动作捕捉模块 (MCM) 组成。

SkEM我们引入图卷积网络（GCN）来从骨架图序列中提取时空步态特征。

这两个模块的输出通道数被设定为相同（128个通道），以便于后续的融合处理。

SiEM 和 SkEM 模块在框架中可以替换为其他步态识别网络。更复杂的结构可能会带来更好的性能提升，但这并不是该论文提出方法的优先目标，因此它们可以被视为一种基线方法。

3.3 SFM(空间融合模块Spatial Fusion Module)

1. 设计动机 (Motivation)：

论文指出，之前的方法在融合多个步态模态（例如轮廓和骨架）时，通常采用全局特征级别的简单融合方法（例如特征拼接），这种融合方式缺乏解释性和灵活性。
这些方法通常依赖于每种模态的预训练模型，更像是“集成模型”而不是“多模态融合模型”。

为了应对这些问题，论文提出了基于共注意力的融合模块，该模块通过注意力机制来解释身体部位的外部形状（轮廓）和内部结构（骨架）的融合（即细粒度身体部位融合）。

2. 细粒度身体部位融合 (Fine-grained Body Parts Fusion)：

人体在行走时，头部、躯干和腿部等不同部位有着明显的不同形状和运动模式。论文认为，空间特征融合应该是细粒度的。
论文提出了一种基于人体先验知识的简单但有效的策略，将人体的不同部位（头、躯干、腿部）进行分区，并限制轮廓和骨架的特征在对应的身体部位之间进行交互，来实现更加精细的空间特征融合。
这种方法不仅能够更好地利用人体的先验信息，提高融合的解释性，还可以通过减少计算量降低模型的复杂性，并有效减少过拟合的风险。

3. 空间共注意力聚合 (Spatial Co-attention Aggregation)：

该模块通过共注意力机制实现轮廓和骨架的交互。这种机制能够在轮廓部分和骨架关节之间建立各种空间关系，利用两种数据模态的互补优势，形成更鲁棒的步态特征表示。
与单独使用交叉注意力的模块相比，共注意力结构可以更好地融合骨架和轮廓的互补信息。
通过构造注意力掩码（Attention Mask）来限制注意力的计算范围，不仅减少了基于Transformer的方法过拟合的风险，还提升了模型的可解释性。

4. 操作流程 (Operation)：

该模块的输入是轮廓的空间特征嵌入 $f_s^S$ 和骨架的空间特征嵌入 $f_k^S$ ，然后利用基于注意力的机制对两者进行交互。
交互的结果通过一个前馈神经网络（FFN）层，最终生成空间特征表示 $Y_s$ 。
具体操作中，首先通过最大池化层在时间轴上进行池化，得到用于空间融合的特征嵌入。然后将这些嵌入输入到共注意力结构中进行特征融合，最后生成空间特征表示。
图五我们提出的空间融合模块（a）和时间融合模块（b）的网络结构，两者都包含共同注意结构。每个共同注意结构由两个互连的交叉注意块组成。

3.4 时间融合模块（Temporal Fusion Module）

1. 设计动机 (Motivation)：

步态识别作为基于视频的识别任务，时间帧之间的关系包含了独特的生物特征，这对于识别是非常关键的。
在该部分中，论文提出了一个基于注意力机制的时间融合模块（TFM），用于聚合来自轮廓和骨架的时间特征。
由于步态是一个周期性且对称的过程，论文提出了周期位置嵌入（CPE，Cycle Position Embedding），用于更好地建模和对齐两个模态的时间信息。

2. 周期位置嵌入 (Cycle Position Embedding, CPE)：

周期位置嵌入 (Cycle Position Embedding, CPE) 是第3.4节中介绍的一个重要概念，用于步态识别中的时间建模。它的目的是通过引入步态的周期性特征，提升模型捕捉时间信息的能力。
普通的注意力机制不能区分输入序列中特征的位置信息。现有的视觉Transformer方法（例如ViT）通常使用位置嵌入来指示输入特征的顺序，但这对步态识别任务不太理想，因为步态是一个周期性的过程。
论文提出了一种周期位置嵌入（CPE）来应对这一问题。CPE通过模拟步态周期过程，重复位置嵌入，直到它与特征嵌入序列的长度相同。这样，模型能够处理任意长度的序列。
该方法不仅模拟了步态周期过程，更有效地捕捉了步态中的周期性特征。此外，CPE通过限制可学习参数的数量，降低了过拟合风险，帮助模型更好地收敛。

3. 时间共注意力聚合 (Temporal Co-attention Aggregation)：

与空间融合模块类似，时间融合模块也设计了一个共注意力模块，用于融合和聚合两个模态的时间信息。
由于轮廓和骨架的时间特征差异较大，模型使用了两个单独的前馈神经网络（FFN）层来分别映射这两个模态的时间特征。
最终，模型会为轮廓和骨架生成相应的时间融合特征表示。

Multi-Modal Gait Recognition via Effective Spatial-Temporal Feature Fusion

Abstract

1.Introduction

1.1 模型整体架构

1.2 关键模块介绍

1.2.1 轮廓编码模块（Silhouette Encoding Module, SiEM）

1.2.2 骨架编码模块（Skeleton Encoding Module, SkEM）

1.2.3 空间融合模块（Spatial Fusion Module, SFM）

1.2.4 时间融合模块（Temporal Fusion Module, TFM）

2. Related Work

2.1 基于外观的方法（Appearance-based Methods）

2.2 基于模型的方法（Model-based Methods）

2.3 多模态步态识别方法（Multi-modal Gait Recognition Methods）

3. Methods

3.1 Pipeline

3.2 SiEM和SkEM

3.2.1 motivation

3.2.2 实现方式

3.3 SFM(空间融合模块Spatial Fusion Module)

1. 设计动机 (Motivation)：

2. 细粒度身体部位融合 (Fine-grained Body Parts Fusion)：

3. 空间共注意力聚合 (Spatial Co-attention Aggregation)：

4. 操作流程 (Operation)：

3.4 时间融合模块（Temporal Fusion Module）

1. 设计动机 (Motivation)：

2. 周期位置嵌入 (Cycle Position Embedding, CPE)：

3. 时间共注意力聚合 (Temporal Co-attention Aggregation)：