基于YOLOv5s的番茄果实检测模型改进.pdf
自 动 化 与 仪 表 2025 40 4 基于 YOLOv5s 的番茄果实检测模型改进 DOI 10 19557 ki 1001 9944 2025 04 022 赵 真 青岛大学 自动化学院 青岛 266000 摘要 为了提升采摘机器人采摘番茄果实的识别准确率 减少误判和漏检的情况 该文提 出一种基于 YOLOv5s的番茄检测改进模型 首先将 CA注意力机制加入到 YOLOv5s模型的 特征提取环节 为了进一步提高模型的泛化能力 实现多尺度特征融合 引入了 BiFPN结构 替换原有的 PANet结构 同时结合损失函数 IoU进一步优化模型的训练过程 从而提高检测 精度 经过试验验证 提出的模型在番茄果实检测任务中获得了显著成果 相比 YOLOv5s 模型 改进后的模型准确率 召回率 F 1 分数和平均精度分别上升 2 2 2 1 2 2 和 1 3 改 进后的模型可以应用于番茄采摘机器人 并可以对成熟番茄与未成熟番茄进行分类 与原 YOLOv5s算法相比 有效提升了检测的精度 关键词 YOLOv5s 注意力机制 采摘机器人 BiFPN 目标检测 中图分类号 TP391 文献标识码 A 文章编号 1001 9944 2025 04 0109 04 Improvement of Tomato Fruit Detection Model Based on YOLOv5s ZHAO Zhen School of Automation Qingdao University Qingdao 266000 China Abstract In order to improve the recognition accuracy of tomato fruit picking robots and reduce misjudgments and missed detections this paper proposes an improved tomato detection model based on YOLOv5s Firstly the CA atten tion mechanism is added to the feature extraction stage of the YOLOv5s model In order to further improve the gen eralization ability of the model and achieve multi scale feature fusion the BiFPN structure is introduced to replace the original PANet structure and the training process of the model is further optimized by combining the loss func tion IoU thereby improving the detection accuracy After experimental verification the proposed model has achieved significant results in tomato fruit detection tasks Compared to the YOLOv5s model the improved model has increased accuracy recall F 1 score and average precision by 2 2 2 1 2 2 and 1 3 respectively The improved model can be applied to tomato harvesting robots and can classify mature and immature tomatoes Compared with the original YOLOv5s algorithm it effectively improves the detection accuracy Key words YOLOv5s attention mechanism picking robot BiFPN object detection 收稿日期 2024 11 05 修订日期 2025 03 24 作者简介 赵真 1997 男 硕士 研究方向为果实采摘机器人设计 在当今农业现代化的进程中 精准农业是发展 的必然趋势 其中对于农作物的精准检测是重要组 成部分 我国是世界最大的番茄生产国 但在番茄 采摘过程中 人工采摘仍是主要方式 不仅采摘效 率低 而且质量无法保证 为了实现高效的果蔬采 摘 精准的目标检测技术是必要的 随着计算机视 觉技术和深度学习的蓬勃发展 使用目标检测算法 对番茄进行自动化检测成为现实 目标检测算法旨在从图像或者视频中找出特 定目标的类别和位置信息 主要可以分为两阶段和 检测技术与数据处理 109 Automation Instrumentation 2025 40 4 一阶段算法 两阶段算法以 R CNN 为典型 这类算 法首先通过区域提议网络 如 Selective Search 生成 可能包含目标的候选区域 再对这些区域进行特征 提取 分类和边界框回归 从而精准定位到目标的 位置与类别 算法精度较高 但计算速度慢 实时性 较差 另一类则是以 YOLO you only look once 1 和 SSD single shot multibox detector 2 为代表的一阶 段算法 直接在整个图像的特征图上预测目标的类 别和位置 精度稍逊 但计算速度快 实时性较好 目前广泛应用于目标检测领域 文献 3 采用 YOLOv3 模型结合深度相机实现 了番茄目标的检测 文献 4 提出了一种基于 Shuf flenetv2 YOLOX 的苹果目标检测方法 文献 5 去掉 了 YOLOv5 模型中的 FPN PAN 部分 采用浅层网 络来对荔枝果实小目标进行检测 识别准确度基本 不变 且提高了检测速度 基于检测速度和性能的要求 本文提出一种基 于改进 YOLOv5s 的目标检测算法对番茄进行识别 并对成熟番茄和未成熟番茄进行分类 通过添加注 意力机制 替换 Backbone 主干网络 更换 IoU inter section over union 等手段 提高番茄果实检测的准 确性与实时性 1 基于改进 YOLOv5s 的番茄检测算法 1 1 YOLOv5s 检测算法 YOLOv5s 网络结构如图 1 所示 输入端 Input 的作用是对图片进行尺寸调整等操作 保证后续特 征提取顺利进行 主干网络 Backbone 的作用是对 图像进行特征提取 Focus 模块对输入图像进行切 片操作 重新排列输入端输入的特征图 获取多个 图像特征 Conv 模块通过卷积操作提取图片中的空 间和通道信息 C3 网络和 SPPF 的作用都是增强特 征提取能力 前者增加网络深度和感受野 后者则 是使用多尺度池化技术 实现自适应尺寸输出 Neck 部分使用 FPN PAN 结构进行多尺度特征处理 促 进特征融合 输出端 Head 的作用是目标类别预 测 目标位置确定和置信度评估 1 2 YOLOv5s 改进方案 YOLOv5 提供了不同的模型大小 使其能够适 应不同的应用场景和计算资源 模型有 n s m l x 等 5 种 随着架构的增大 模型的复杂度也会增加 检测精度会有所提高 但训练的时间也会增加 储 存效率和识别速度也会降低 为了更好地满足实时 检测的需求 保证检测速度 本研究选择复杂度较 低的 YOLOv5s 作为基础模型 改进后的网络结构如 图 2 所示 1 2 1 添加 CA 注意力机制 注意力机制可以显著提升模型的性能 可以分 为空间注意力机制和通道注意力机制 典型的通道 注意力机制如 SENet 可以明显提升模型的效果 但 是忽略位置信息是常态 而 CBAM 模块虽然引入了 空间信息编码 但是没有建立通道与空间注意力之 图 1 YOLOv5s 检测算法网络结构 Fig 1 YOLOv5s detection algorithm network structure 输入端 主干网络 Focus Conv C3 Conv C3 Conv C3 Conv C3 SPPF Concat Upsample Conv C3 Concat Upsample Conv Neck 网络 C3 Conv Concat C3 Conv Concat C3 输出端 Detect Detect Detect 图 2 改进 YOLOv5s 网络结构 Fig 2 Improve YOLOv5s network structure 输入端 主干网络 Focus Conv C3 CA Conv C3 CA Conv C3 CA Conv C3 CA SPPF Concat Upsample Conv C3 Concat BiFPN Upsample Conv Neck 网络 C3 Conv Concat BiFPN C3 Conv Concat BiFPN C3 输出端 Detect Detect Detect 检测技术与数据处理 110 自 动 化 与 仪 表 2025 40 4 间的联系 CA coordinate attention 模块则是兼顾了 空间与通道注意力的特点 有效应对了这一问题 CA 分为两步 首先是坐标嵌入 coordinateem bedding 具体表现是对每个位置的精确信息进行 编码 具体方法则是使用一维池化核对特征图在宽 和高上进行池化 得到的是一对编码后的一维向 量 坐标注意力对整个特征图在空间维度上进行平 均池化 例如对一个输入大小为 c h w 的特征图 X 使用池化核 x c 沿着水平 垂直方向对每个通道进 行编码 得到在宽度 w 上第 c 个通道特征映射 Z w 和高度 h 上第 c 个通道特征映射 Z h 从而获取待检 测目标的特征信息 高度为 h 的第 c 个通道输出为 Z c h h 1 w null 0nulli w x c h i 1 宽度为 w 上的第 c 个通道输出为 x c w w 1 H null 0nullj H x c j w 2 然后是坐标注意力 CA 生成 基于第 1 步的编 码结果 通过全连接网络学习后生成每个位置的注 意力权重 从而通过编码获得精确的坐标信息 首 先使用张量连接对获取的两个特征映射进行处理 再经过 1 1 的卷积变换函数 F 1 和非线性激活函数 处理后可以得到中间映射 f 公式为 f F 1 Z h Z w null nullnull null 3 再将 f 按空间维度拆分为特征张量 f h 和 f w 经 过卷积变换后得到新的特征张量 F h f h null null和 F w f w null null 再经过 Sigmoid 函数处理后得到特征张量在宽度 w 和高度 h 上的注意权重 g w 和 g h 公式为 g w F w f w null nullnull null g h F h f h null nullnull null 4 最后用通道注意权重对原始输出图 X 进行加 权处理 处理后的加权特征图输出公式为 y c i j x c i j g c h i g c w j 5 CA 坐标注意力结构如图 3 所示 1 2 2 BiFPN 网络结构替换 在实际采摘中 番茄经常处于被遮挡的环境 这就大大增加了果实检测的难度 为了解决这一难 题 本文在模型的 Neck 层运用 BiFPN 结构替代了 PANet 结构 通过多尺度特征融合大幅提升模型的 检测性能 BiFPN 结构如图 4 所示 BiFPN 模块首先使用小尺寸卷积核降维 然后 通过渐进的注意力机制从信息里面筛选所需要的 特征 这样能够自动选择最佳的特征 同时减少模 型复杂度 降低计算的复杂性 但是如果在所有阶 段都使用会大大增加模型层数和检测时间 所以只 在 Neck 层进行模块替换 1 2 3 损失函数优化 目标检测算法的性能深受损失函数的影响 传 统的损失函数 如 CIoU DIoU 等 会造成模型收敛 缓慢 训练时易导致预测框漂移 针对 CIoU 存在的 问题 使用 EIoU 来替换 CIoU EIoU 提出直接对 w 和 h 的预测结果进行惩罚的损失函数 将损失函数 分为 3 部分 IoU 损失 距离损失 L dis 以及方向损失 L asp 这样 就可以保留这次损失的完整特征 同时 图 3 CA 坐标注意力结构 Fig 3 CA coordinate attention structure Input Residual c h w c h 1 X Avg Pool Y Avg Pool c 1 w Concat Conv2d c r 1 w h BatchNorm Non linear c r 1 w h c h 1 Conv2d Conv2d c 1 w c h 1 Sigmoid Sigmoid c 1 w Re weight c h w Output Repeated blocks P 7 P 6 P 5 P 4 P 3 图 4 BiFPN 结构 Fig 4 BiFPN structure 检测技术与数据处理 111 Automation Instrumentation 2025 40 4 EIoU 直接最小化了目标框和锚框的宽度和高度的 差异 收敛速度更快 定位效果更好 公式为 L EIoU L IoU L dis L asp 1 IoU 2 b b gt null null c 2 2 w w gt null null c w 2 2 h h gt null null c h 2 6 式中 c w 和 c h 是 2 个矩形闭包的宽度和高度 b 为预 测框的中心点 b gt 是真实框的中心点 w 和 h 分别为 预测框的宽和高 w gt 和 h gt 分别为真实框的宽与高 2 模型训练与结果分析 2 1 试验环境 本文中训练和测试使用的电脑配置 GPU 型号 为 Nvidia GeForce RTX3050 CPU 型号为 Intel R Corei5 12500H 程序编译环境为 Window11 系统 Pytorch1 12 0 python3 8 5 CUDA 版本为 11 3 2 2 数据集的获取及处理 本研究采用的数据集来源于网络上公开的番 茄生长图片集 从角度 距离 遮挡程度 果实数量 等各方面筛选出合适的图像 共 1009 张 然后使用 Labelimg 对数据集进行标注 按照分类 0 对应成熟 番茄果实 mature 1 则对应未成熟番茄果实 immature 训练集与测试集比例为 8 2 2 3 评判指标 本研究主要采用准确率 P precision 召回率 R recall F 1 分 数 以 及 平 均 精 度 均 值 mAP mean average precision 作为评判指标 准确率计算公式为 P T p T p F p 7 召回率计算公式为 R T p T p F n 8 F 1 分数是准确率和召回率的调平均数 公式为 F 1 2 P R P R 9 AP average precision 为平均精度 公式为 AP 1 0 null P R dR 10 式中 F p 是错误预测的目标数量 T p 是正确预测的 数量 F n 是省略的要预测的目标数量 在检测类别大于一种的情况下 mAP 相较于 AP 更能全面代表模型的性能 mAP 通过计算每个 类别的平均精度并取其平均值 能够提供一个更加 全面的评价指标 本试验的评价标准为 mAP 0 5 即阈值为 0 5 时的 mAP 公式为 mAP null n 1 AP n 11 式中 n 是检测类别的数量 2 4 消融试验 消融试验旨在通过增加或减少模块来体现模 块的必要性 在初始的 YOLOv5s 模型基础上 开展 针对 4 种改进模型的消融试验 其中 模型 2 在原 始模型中增加了 CA 模块 模型 3 将原有的模块替 换为 BiFPN 模块 模型 4 则使用 EIoU 损失函数 而 模型 5 集成了模型 2 3 4 的所有改动 即同时包含 CA 模块 BiFPN 模块和 EIoU 损失函数 为了验证 改进效果 本文运用这 5 种模型对相同的图像进行 检测 并将这 5 种模型的评价指标进行整理 如表 1 所示 由试验数据可知 在相同的试验条件下 添加 CA 模块 模型准确率 召回率 F 1 分数和平均精度 分别上升 1 7 1 5 1 6 和 0 8 使用 BiFPN 结 构替换 PANet 结构 模型准确率 召回率 F 1 分数和 平均精度分别上升 1 1 1 1 1 4 和 0 2 更换 损失函数为 EIoU 后 模型准确率 召回率 F 1 分数和 平均精度分别上升 1 8 1 1 1 4 和 0 4 相比 YOLOv5s 模型 改进后的模型准确率 召回率 F 1 分 数和平均精度分别上升 2 2 2 1 2 2 和 1 3 2 5 不同损失函数对比 在完成消融试验进行结果对比之后 进一步在 CA BiFPN YOLOv5s 的基础上比较了使用 CIoU EIoU 和 AlphaIoU 损失函数的效果 现将评价指标 整理 如表 2 所示 表 1 消融试验结果对比 Tab 1 Comparison of ablation test results 模型 添加 CA BiFPN 替换 EIoU 替换 准确率 召回率 F 1 分数 mAP 0 5 1 90 0 91 6 90 8 95 0 2 null 91 7 93 1 92 4 95 8 3 null 91 1 92 7 91 9 95 2 4 null 91 8 92 7 92 2 95 4 5 null null null 92 2 93 7 93 0 96 3 检测技术与数据处理 下转第 117 页 112 自 动 化 与 仪 表 2025 40 4 3 结语 本实验通过在某变电站部署本文设计的温度 监控系统 成功实现了对变压器 高压断路器 隔离 开关及关键设备的温度进行实时监控与异常预警 实验结果表明 该系统依托分布式拉曼光纤温度传 感器构建的无线传感器网络 具备高精度 高可靠 性的温度数据采集能力 系统能够根据生产环境的 实际需求 灵活布置传感节点 确保了对关键区域 和设备的全面覆盖 从而有效提升了温度监测的效 率和准确性 参考文献 1 李诗勇 谢荣斌 靳斌 等 基于射频技术的开关柜无源无线温度 测量系统 J 高压电器 2024 60 7 138 147 2 刘苗苗 谢军 耿攀 等 改进自适应加权融合的综合管廊环境温 度监测 J 地下空间与工程学报 2022 18 S1 497 505 3 冯双林 程丽红 基于无线网络的农产品冷链物流温度监测系统 研究 J 农机化研究 2024 46 2 212 215 220 4 王培强 李新玉 曹昊举 基于 DSP 的煤井多点温度检测系统设 计 J 煤炭技术 2022 41 10 200 202 5 刘忠超 丁签华 范灵燕 等 基于 WiFi 和云端的奶牛体温监测 系统设计 J 黑龙江畜牧兽医 2022 8 55 59 132 8 石云东 廉原原 鞠丽 等 基于无线网络煤矿远程安全监测系统 的设计 J 煤炭技术 2023 42 6 251 254 9 刘斌 孙艺哲 李秀杰 等 基于无线传感网络的温室环境低功耗 监测系统设计 J 吉林农业大学学报 2022 44 4 495 504 10 门雅范 基于无线传感网络的矿井提升设备工况监测系统 J 煤 炭技术 2023 42 7 199 202 11 胡子昂 王强 谷小红 等 基于分布式光纤传感的合成气管道温 度在线监测研究 J 激光与红外 2023 53 1 90 96 12 陈燎 孙文慧 李仲兴 机载无线传感器网络的传输可靠性研究 J 电子设计工程 2023 31 24 90 94 99 13 李运甲 陈川 关桐 等 基于柔性电阻式温度传感器的 GIS 无线 测温系统 J 中国测试 2023 49 2 126 132 14 于志刚 胡振超 宋立志 等 井下分布式光纤井筒温度校正技术 研究与试验 J 钻采工艺 2022 45 6 70 74 15 夏凤 杨乃凡 林倩如 等 基于微纳光纤谐振环的温度传感器研 究 J 仪器仪表学报 2024 45 2 224 232 null 表 2 异常报警记录表 Tab 2 Abnormal alarm record 时间戳 监测点 当前温度 预警 级别 备注 10 00 00 变压器 A 120 紧急 油箱侧壁超温 立即检查 10 15 32 变压器 B 101 紧急 严重过热 需紧急降温 10 23 02 隔离开关 C 89 紧急 检查隔离开关的绝缘材 料老化 10 32 41 高压断路器 D 80 警告 查断路器的触头部分和 负荷电流情况 10 45 02 变压器 E 95 紧急 散热器出口温度过高 检查风扇的工作状态 10 50 00 隔离开关 F 60 警告 隔离开关温度异常 可 能影响稳定性 10 59 45 高压断路器 G 75 警告 触头弹簧温度过高 增 加接触电阻 使用 EIoU 损失函数的模型实现了最高的准确 率 比 CIoU 损失函数和 AlphaIoU 高 0 1 其 F 1 分 数和平均精度均值也是最高 虽然召回率并非最 优 但综合考虑各评价指标 EIoU 损失函数在综 合分数上表现最好 因此选择 EIoU 损失函数作为 模型的损失函数 3 结语 基于深度学习的目标检测算法在果实检测领 域得到了广泛应用 但在番茄果实检测方面 现有 的模型难以兼顾高准确率和快速检测的需求 因 此 本研究着力于番茄果实检测模型的研究与改进 目的是提高模型的检测准确率 经过研究与试验 成功完成了对基于 YOLOv5s 的番茄果实检测模型 的改进 在检测精度方面 改进后的模型平均精度 达到 96 3 能够准确识别番茄果实 有效减少了误 检和漏检的情况 参考文献 1 Redmon J Divvala S Girshick R et al You only look once Unified real time object detection C Computer Vision Pattern Recognition 2016 2 Liu W Anguelov D Erhan D et al SSD Single shot multibox detecto C Computer Vision ECCV 2016 14th European Confe rence 2016 3 Jun J Kim J Seol J et al Towards an efficient tomato harvesting robot 3D perception manipulation and end effector J IEEE Access 2021 9 17631 17640 4 Ji W Pan Y Xu B et al A real time apple targets detection method for picking robot based on ShuffleNetV2 YOLOX J Agriculture 2022 12 6 856 874 5 王萍叶 毛亮 基于 YOLOv5 的荔枝果实小目标检测算法研究 J 山西电子技术 2023 4 74 77 null 表 2 评判指标对比 Tab 2 Comparison of evaluation indicators 损失函数 准确率 召回率 F 1 分数 mAP 0 5 CIoU 92 1 92 4 92 2 95 8 EIoU 92 2 93 7 93 0 96 3 AlphaIoU 92 1 93 8 92 9 96 1 上接第 112 页 仪表与自动化装置 nullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnull 117