Real-Time Driver Cognitive Workload Recognition Attention-Enabled Learning With Multimodal Information Fusion


No.10

标签:多模态信息融合与注意力机制用于驾驶员认知工作负荷实时识别

前言

《Real-Time Driver Cognitive Workload Recognition: Attention-Enabled Learning With Multimodal Information Fusion》
期刊:IEEE TRANSACTIONS ON INDUSTRIAL ELECTRONICS
年份:2024
分区:Q1,一区Top;IF:7.2
作者:Haohan Yang, Jingda Wu, Zhongxu Hu, Member, IEEE, and Chen Lv, Senior Member, IEEE
主要单位:School of Mechanical and Aerospace Engineering, Nanyang Technological University

用“动态时序建模(HyperLSTM)+ 决策层注意力融合”来解决多模态 workload 识别中的个体差异 + 信息冗余问题

一、研究背景与问题定位

1. 背景

  • 问题: 驾驶员在驾驶过程中同时处理导航、娱乐等任务会显著增加认知负荷,增加事故风险。
  • 目标: 实时识别驾驶员的认知负荷水平(轻度、中度、高度),以支持人机协同驾驶、预警和接管控制。

2. 挑战

  • 单一模态(如仅用EEG或车辆状态)信息不足;
  • 个体差异大,传感器信号易受噪声干扰;
  • 实时性要求高,模型需具备良好的时序建模能力。

二、模型构建

1. 整体架构

架构

多模态输入(EEG + Eye + Vehicle)

HyperLSTM ×3(每个模态一个)

Cross-Attention(模态间关系建模)

Decision-level Fusion(max pooling)

Classifier(MLP)

👉 关键:不是 feature-level fusion,而是 decision-level fusion

2. HyperLSTM 模块

✔️ 本质

普通 LSTM:权重是固定的
HyperLSTM:用一个“小网络”动态生成主网络的权重
👉 公式核心:
主LSTM参数:W,I,b=f(HyperLSTM hidden)
👉 含义:模型可以“根据输入动态改变自身结构”

✔️ 为什么重要?

论文明确指出问题:不同驾驶员之间差异大(pattern variation)
👉 传统 LSTM:一个固定模型 → 泛化差
👉 HyperLSTM:自适应个体差异

3. Cross-Attention 模块

✔️ 实现方式

$Matt=softmax(s^Ts)$
👉 本质:模态之间做相似度矩阵
然后:hatt=maxpool([hw,hm,hv]⋅Matt)
❗ 这不是 Transformer attention
❗ 只是一个 3×3 模态关系矩阵
👉 非常“轻量级 attention”

✔️ 真正作用

👉 实际效果:做了一点 模态重加权,并不是结构创新

3. Decision-level Fusion(亮点)

传统多模态:early fusion(拼接特征)
这篇论文:late fusion(决策级)
👉 流程:
每个模态独立编码,最后再融合
✔️ 为什么有效?

方法 问题
early fusion 模态噪声互相污染
decision fusion 每个模态先“干净学习”

4. 训练策略(亮点)

✔️ Seq2Seq loss
Seq2Seq loss

👉 特点:越后面的时间权重越高,同时利用 early information
👉 本质:early prediction + temporal consistency

三、实验设计

1. 实验平台与设备

  • 驾驶模拟器:Logitech G29
  • 眼动仪:Tobii Pro(红外)
  • EEG设备:EMOTIVE EPOC Flex(32通道)
  • 场景模拟:Carla 模拟器,三种天气:晴天中午、雾霾黄昏、雨夜
实验平台

2. 认知负荷调控方式

采用 n-back 任务变体,分为三个等级:

负荷等级 任务描述
轻度 仅驾驶任务(避障 + 到达目的地)
中度 驾驶 + 视觉任务(回忆前一个障碍物颜色类别)
高度 驾驶 + 视觉任务 + 听觉任务(识别连续字母中重复出现的字母对)
  • 所有实验中都存在音频刺激,但仅高负荷组需响应;
  • 障碍物位置采用自定义离散分布,避免长时间无障碍物。

四、数据分析与主要结果

1. 模态对比(图5)

模态对比
  • 多模态融合显著优于单模态(EEG、眼动、车辆状态单独使用);
  • 在低可见度场景(雨夜)中,单模态性能下降明显,但融合模型保持稳定。

2. 历史窗口长度影响(图6)

历史窗口长度影响
  • 随着 tw 从 1s 增加到 4s,识别准确率从约 78–87% 提升至 95%;
  • 轻度与高度负荷容易被误判为中度,提示可设计自适应阈值。

3. 决策阈值与 PR 曲线(图7)

决策阈值与 PR 曲线
  • 不同负荷等级的最优决策阈值不同;
  • 可个性化调整阈值以平衡安全性与驾驶体验(如降低高负荷阈值以提高安全性)。

4. 与基线模型对比(表 I)

模型 特点 F1 分数(t_w=1s)
MTS-CNN 多变量时序CNN 较低
DecNet 单LSTM 中等
CNN-LSTM 卷积+循环 中等
m-HyperLSTM 特征级融合 HyperLSTM 较高
ARecNet(本文) 决策级融合 + 注意力 最高(+3.32%以上)
ARecNet架构

5. 消融研究(表 II、图8)

消融研究
消融研究
  • HyperLSTM 显著优于普通 LSTM(p < 0.01);
  • 交叉注意力 在短历史窗口(1s)下提升显著(p < 0.05)。

6. 鲁棒性测试(表 III)

ARecNet架构
  • 在信息缺失(10–30%)和高斯白噪声(σ=0.2)下,ARecNet 性能下降最小;
  • 长历史窗口(4s)对噪声更具鲁棒性;
  • 决策级融合 + 注意力机制在短窗口下提升鲁棒性更明显。

7. 实时推理与优化(图9)

ARecNet架构
  • 实时推理准确率略低于离线测试(下降约 1.8–3.0%);
  • 采用“多数投票”优化(当前+前两步预测)可提升准确率最多 7.2%。

五、论文亮点总结

亮点1:HyperLSTM(最核心):动态参数 → 适应个体差异,比普通LSTM强很多
亮点2:Decision-level fusion:避免模态干扰,实验证明优于 early fusion
亮点3:完整实验体系:多场景;多时间窗口;阈值分析;实时测试;鲁棒性测试
亮点4:工程导向强:可实时;可调阈值;可部署 ✔️ TIE很看重


文章作者: zhen666wua
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 zhen666wua !
  目录