来源: 发布时间:2024-07-19 14:12:44 浏览:
本研究自制了带有倾角传感器的图片采集装置,在采集鼠洞图片的同时保存有屏幕与水平方向的倾角信息。首先,在草原区域以不同的拍摄角度采集图片,通过对角度进行聚类,评估拍摄角度对鼠洞识别性能的影响;然后,分别选用目前广受关注的YOLOv3和YOLOv4两种目标识别模型,设置416pixel×416pixel、608pixel×608pixel、1024pixel×1024pixel共3种图片尺寸对模型进行训练并测试,评估图片尺寸对模型性能的影响;最后,与近3年鼠洞识别的相关方法进行对比分析,验证本文方法的性能先进性。
1 材料与方法
1.1 采集设备
自制了一种带有倾斜角度传感器的鼠洞拍照设备。该设备由中心处理器、摄像头、倾角传感器、存储器和电源模块组成(图1、图2),其中,摄像头用于采集图片(采集图片的分辨率为1920pixel×2560pixel),倾角传感器用于采集摄像头与水平面的角度,存储器用于存储采集的图片,电源模块负责为设备提供电能。
图1 草原鼠洞图片采集设备的系统组成
图2 草原鼠洞图片采集设备结构示意图
1.2 图片采集与数据集建立
本研究的图片采集于农业农村部锡林郭勒草原有害生物科学观测实验站,主要涉及的鼠害种类为长爪沙鼠和达乌尔鼠兔。为了保证试验结果的可靠性和泛化性,选取具有不同植被盖度的多个地点采集数据以保证数据的多源性,共涉及4个不同的草原区域,从每个区域选取具有不同鼠洞密度的若干地块,采集时涉及晴天、多云等多种气象条件以保证光照的多样性。考虑到实际应用时的易操作性和人员多样性,由3名以上的人员同时采集图片,采集时两手自然托举设备,分别从20°、30°、40°、50°这4个角度进行图片拍摄。由于倾角传感器具有较高的灵敏度,加上主观判断的差异,拍摄角度会有-2°~2°的误差。共采集图片2325张。首先,采用手工标注的方法对鼠洞进行标注;然后,将标注图片集随机按照4:1:1的比例划分为训练集、验证集和测试集。对每张图片都独立随机判断其所属的集合,保证图片集的数据多样性。
1.3 YOLOv3和YOLOv4目标检测模型
YOLOv3是YOLO系列的第三代算法,在多种实际场景中运用比较广泛。YOLOv3采用FPN(特征金字塔,feature pyramid network)进行多尺度融合预测,极大提升了预测框的数量,对不同尺寸目标的适应能力更强。同时,YOLOv3将原来的Darknet19替换成了Darknet53,并结合ResNet的残差结构思想,显著提升了模型的识别精度。YOLOv4是目前实时性较强的单阶段端对端目标检测算法,借鉴了近年来目标检测领域比较优秀的算法模型思想和训练技巧,采取相应的优化策略对YOLOv3进行改进,在保证原有识别速度的条件下提高了识别精度。YOLOv4由3个部分组成。主干特征网络结合了CSPNet的算法思想,对YOLOv3的主干Darknet-53加以改进得到了CSPDarknet53网络,在降低网络计算量的同时提高了网络的学习能力。在多尺度特征提取网络中,将SPP(空间金字塔池化,spatial pyramid pooling)和路径聚合网络PANet(path aggregation network)相结合,极大提高了目标的特征表达能力。与YOLOv3相比,YOLOv4具有更复杂的网络结构,计算量增加,对于单张图片的推理时间增加,但YOLOv4具有学习能力更强的主干网和更优秀的特征融合能力,目标识别性能显著提高。
1.4 试验方案
本研究选择3种图片输入尺寸——416pixel×416pixel、608pixel×608pixel、1024pixel×1024pixel,调整输入图片的尺寸并计算相应的鼠洞位置坐标,分别在这3种图片大小下训练YOLOv3和YOLOv4网络模型,获得3种输入图片尺寸下的YOLOv3和YOLOv4模型权重,然后将测试集调整为同样的图片大小,分别采用对应尺寸的模型进行推理,并通过NMS(非极大值抑制)处理后获得鼠洞信息,计算其精度、召回率和识别速度,分别从图片大小和模型种类两个维度评估性能。为了保证评估结果的一致性,NMS设置同样的目标框置信度阈值、IOU阈值和NMS阈值,采用同样的算法流程计算模型的精度、召回率和计算速度。
在同一检测点,分别设置摄像头与地面的不同倾斜角度采集鼠洞图片。使用训练集训练模型获得模型权重,然后提取测试集中每个图片的倾斜角度,并采用k-means聚类方法将其划分为4类,采用训练得到的模型分别对这4类测试集上进行鼠洞识别,计算其精度和召回率等评价指标,对其识别性能进行分析。
2 结果与分析
2.1 图片大小对识别性能的影响
表1 不同图片尺寸下YOLOv3和YOLOv4的性能指标
总的来看,图片的传输和计算成本与图片尺寸呈正相关,然而鼠洞目标的识别性能并不一定随着图片尺寸的增加而显著提高。采用YOLOv4网络结构,当输入图片的大小为416pixel×416pixel时,其召回率和精度分别较YOLOv3高出8.8、2.5百分点,但对单张图片的识别时间较YOLOv3多约10ms。也就是说,在这种情况下,采用较小的图片尺寸,牺牲较少的单张图片识别时间就能换取更高的识别精度和召回率。
2.2 不同倾角对识别性能的影响
表2 不同拍摄倾角下YOLOv4模型的鼠洞识别性能
试验结果表明,当拍摄倾角为41°时,模型的识别性能最优,与拍摄倾角较小时可能会取得最优性能的经验预期完全不同。这可能得益于YOLOv4模型较强的特征提取性能和小目标适应能力,也再次说明目标尺度过大并一定能取得最优的性能。
2.3 YOLOv3和YOLOv4模型的性能对比分析
YOLOv4模型具有较强的特征提取和分类能力,当图片大小为416pixel×416pixel时能够充分提取鼠洞的特征,牺牲较少的时间换取最优的识别性能。YOLOv3的特征提取能力弱于YOLOv4,当输入图片的尺寸为416pixel×416pixel时,对于鼠洞大小的目标不具备足够的目标特征提取和分类能力,其召回率和精度随着图片尺寸和目标尺寸的变大而提高。
将YOLOv3和YOLOv4模型在3种图片尺寸下的鼠洞识别结果分别展示于图3和图4。YOLOv4在输入图片尺寸为416pixel×416pixel和608pixel×608pixel时均能识别出鼠洞1和鼠洞3,但当输入图片的尺寸扩大到1024pixel×1024pixel时却出现了漏检,这可能和输入尺寸扩大造成的模型训练不充分有关,同时也说明YOLOv4在输入图片的尺寸较小时就已经对鼠洞具有了较优的特征提取和分类性能。YOLOv3的表现则与之相反,当输入尺寸为416pixel×416pixel时,不能识别出鼠洞1和鼠洞2;但当输入图片的尺寸扩大到608pixel×608pixel和1024pixel×1024pixel时均能正确识别。对于图片3,YOLOv4在3种尺度下均能正确识别出鼠洞,而YOLOv3的识别性能随着图片尺寸的增加而明显提高。
综上,YOLOv4模型在输入图片的尺寸为416pixel×416pixel时,鼠洞识别的性能优越。在手持设备与远程服务器进行通信时,在图片传输前将其尺寸调整为416pixel×416pixel,不仅能降低传输成本,也能在服务器端的鼠洞上获得优异的性能。
图 3 不同图片输入尺寸下 YOLOv4 的鼠洞识别效果
图 4 不同图片输入尺寸下 YOLOv3 的鼠洞识别效果
免责声明:以上部分图片和资料均来源于网络,由我方整理,版权归原作者所有;内容如有不妥之处,请联系改正或删除。
文章节选自:郭秀明,王大伟,刘升平,等.基于深度学习的近地面草原鼠洞识别计数关键问题研究与应用[J/OL].浙江农业学报,1-11[2024-07-19].http://kns.cnki.net/kcms/detail/33.1151.S.20240701.1507.014.html.