网站地图
中国首家网上媒体 1995年 1 月 12 日创办
社内媒体
官方微信
官方微博
当前位置: 首页 > 学术 > 深度追踪 > 正文
FCS | 前沿研究:基于累积声学传感与分析的运输方式检测
发布时间: 来源: 高教学术公众号

原文信息

  ·标题:

  Transportation mode detection using cumulative acoustic sensing and analysis  

  ·原文链接:

  https://journal.hep.com.cn/fcs/EN/10.1007/s11704-019-9200-3

  ·引用格式:

  Dinesh VIJ, Naveen AGGARWAL. Transportation mode detection using cumulative acoustic sensing and analysis. Front. Comput. Sci., 2021, 15(1): 151311

  01 导读

  智能传感已经成为研究人员感兴趣的一个活跃领域,它们越来越多地用于智能交通服务。本文研究了一种基于车辆监控系统的智能手机,即交通模式检测系统(Transportation Mode Detection)。

  检测通勤者的交通模式通常是通过运动传感器(如加速计)和位置传感器(如GPS)组合来进行的。近年来,很少有研究人员提出使用单一智能手机传感器(如加速度计),以消耗更少的能量来检测交通方式。这种检测方式存在两个问题:第一个问题,这些技术是通过检测运动和分析通勤者在一定时间内的速度来工作的,使用速度估计并不可靠,因为通勤者的速度可能取决于各种方面,如交通状态,因此,不同的车辆在特定条件下可能会产生相似的速度特征。另一个问题,是它们需要大量的时间来推断最终的车辆类别标签。此外,大多数算法分两个阶段工作。第一阶段,算法检测用户何时从一种传输模式切换到另一种传输模式。第二阶段,它对识别的开关进行分类,并给它贴上标签。因此,传输模式检测精度受模式切换检测精度的制约。

  2014年,Garg等人提出了一种结合加速度计、陀螺仪、方位、GPS、磁强计、光和麦克风传感器的检测方法,需要智能手机连续传感五分钟、来推断自行车、机动人力车、公共汽车和汽车四种车辆类别(平均检测准确率:92.88%)。2018年,Vij和Aggarwal提出使用基于智能手机的累积声学传感,而不是特定种类的声学噪声。不过,他们这样做是为了交通状态检测,而不是运输模式检测。

  本文继承了上述研究者们所做的工作,提出利用通勤者智能手机上无处不在的麦克风传感器和累积声学传感来确定交通方式,它只需要30秒的累积声波感应就能预测最终的运输方式。声学传感器相对便宜,工作效率高,磨损相对较小,传感器不受照明条件、方向和视觉遮挡的影响,这种方法甚至适用于不需要基于车道的交通场景。此外,基于声学的检测不依赖于GIS数据或预先记录的家庭和工作地点等语义信息。此外,在任何时刻捕获的声学记录都不依赖于之前的声学数据,因此可以独立地进行分类,不需要进行模式切换检测来实际预测当前的运输模式,进一步减少了对连续传感的需要。

  02 模型介绍

  运输模式检测系统概述

  本文将整个运输模式检测系统分为两个模块:在第一个模块中,本文考虑了三种主要的交通方式,分别是“飞机”、“公路”和“火车”。这些运输方式的声学特征差别很大,很容易区分。相比之下,在道路上行驶的车辆,除了车辆特有的噪音,如车辆轮胎与地面的摩擦、碰撞、被不同车辆驶过、交通噪音等,其声学特征则相对相似,包括多种噪音信号。因此,在第二个模块中,我们将“公路”交通方式分为四大类:“公交车”(公共交通工具)、“汽车”(四轮车)、“机动人力车”(三轮车)和“步行”模式。图1描述了运用基于累积声学传感和分析的交通模式检测系统的概述,从通勤移动客户端的麦克风传感器获得的输入声信号,并通过窗口化的过程被划分为更小的可管理的块,然后从这些窗口中提取MFCC特征,作为捕获不同运输模式特征的基线方法。

图1 基于累积声学传感和分析的交通模式检测系统

  主要方法介绍

  ①WPT特性

  语音频谱特性是MFCC特征的基础,实验结果表明MFCC在有效区分不同类别方面的能力有限。对于在上下班途中获得的非平稳音频信号,小波变换在调整时频分辨率具有更好的适应性。因此,为了对频谱进行详细分析,本文建议运用WPT特性,因为它提供了更好的灵活性,并且能够更好地掌控不同频谱带的时间和频率分辨率。然后,本文使用Z值归一化(Z-score Normalization)的方法,首先将提取的特征向量归一化为标准尺度,并将其输入分类器(标准的基于SVM方法)。接着,经过训练的分类模型为输入的特征向量分配一个类标签,这个标签信息以及时间标记和智能手机客户端的位置(通过GPS传感器的触发获得)被传入后端数据库服务器。当几个在不同地点以不同方式通勤的用户提供这种类型的信息时,交通规划者可以使用不同类型的分析以各种有意义的方式将其组合起来,以帮助他们做出战略决策。

  ②深度学习

  在本文中,我们提出了一种结合累积声传感的高效深度神经网络体系结构来学习各种交通方式。本文提出的DNN是一种全连接的神经网络,具有两层隐含层,每层隐含单元为400个。本文采用Xavier初始化方法对神经网络的权值进行初始化,为了在神经模型中引入非线性,本文使用了Leaky ReLU激活函数,因为它比sigmoid函数或是tanh函数收敛得更快。标准的ReLU激活函数有一个问题,如果在正向传递过程中,ReLU神经元输出为零(即保持不活跃),那么在向后传递的过程中,因负x轴上的斜率为零,所以梯度会消失。而Leaky ReLU激活函数解决了这个问题,从而实现了更好的收敛。为了优化神经网络,本文采用学习率为1e−3的Adam优化器,而不是使用当前的梯度。Adam使用前期梯度的衰减和来提高收敛性和稳定梯度的方向,为了防止过拟合层与层之间采用dropout算法作为正则化准则,批量大小设置为256,纪元数量设置为30。在输出层,使用softmax函数预测类概率,其大小等于类数量的概率。

  03 主要贡献

  本文确立了使用智能手机的麦克风和声学分析作为一种经济、节能、更容易和更快捷的识别交通方式的方法。通过使用在MFCC基准之上所提出的WPT特征,模块一和模块二的运输方式分类准确率分别获得了6.73%和11.67%的绝对增益。本文所提出的基于深度神经网络的检测方法进一步提高了正常数据集和噪声数据集的分类精度,这清楚地表明,基于深度学习的检测模型比手动设计的特征提取具有更好的泛化能力和特征表示能力。

  04 实验结果总结

  本文进行了各种现场实验,并收集不同城市不同条件下使用不同智能手机的声音通勤数据。数据是在不同的交通条件下收集的,如拥堵、中等流量和自由流量。在每一种运输方式下,经过后处理后,总共获得了342个录音(模块1)和456个录音(模块2),每个录音的持续时间约为30秒。为了确定所提出的基于深度学习的技术的稳健性和有效性,本文在两个数据集(“正常数据集”和“噪声数据集”)上进行了测试。

  对于普通数据集,通过使用深度学习和手动设计的特征(MFCCs、WPTs以及它们的结合),对模块1和模块2的结果进行详细的分类比较,如图2所示,其中x轴括号中表示特征向量的大小。

图二 (a)模块1和(b)模块2使用不同的技术获得的运输模式分类精度(正常数据集)

  对于噪声数据集,本文通过改变训练集来进行两种评估,分别是使用正常数据集训练的分类模型和使用有噪声数据集训练的分类模型。评价结果见表1。

表1 运输模式分类准确率/%(噪声数据集)

  研究发现,所提出的基于深度学习的方法比性能最好的手工工程特征集(WPT)具有更强的泛化能力,这是因为即使在不同的数据集上训练分类模型,使用DNN相较于WPT特征,在有噪声的数据集上测试也能得到更好的结果。进一步观察到,在“飞机”模式下,由于发动机噪声和空气湍流噪声,语音噪声对模式检测精度没有影响。同样,在“行人”模式下,由于开放的录音环境,语音或其他不必要的噪音对模式检测精度也没有影响。然而在“火车”和“公路”两种运输模式下,检测精度略有下降。


责任编辑:施惠文

文章中观点仅代表作者个人观点,不代表本网站的观点和看法。

神州学人杂志及神州学人网原创文章转载说明:如需转载,务必注明出处,违者本网将依法追究。