YOLO的全拼是You Only Look Once,顾名思义就是只看一次,把目标区域预测和目标类别预测合二为一,该方法采用单个神经网络直接预测物品边界和类别概率,实现端到端的物品检测。

Yolo v1

这是YOLO系列的第一篇,文章发表在CVPR2016上,论文链接:YOLOV1.

摘要指出了文章的主要创新之处:把分类问题转换为回归问题,使用一个卷积神经网络就可以直接预测物体的bounding box和类别概率。
算法的优点有很多:

  1. 速度快,Titan X: 45fps。加速版则能达到150fps。
  2. 基于全局信息检测而不是生成region proposal的方法,可以将背景误检率降低一半(把背景识别成物体)。
  3. 泛化能力较强,在艺术作品上有较好的结果。

Yolo v2

Yolo v3

Yolo v4

  1. 主干特征提取网络:DarkNet53 => CSPDarkNet53
  2. 特征金字塔:SPP,PANet
  3. 分类回归层:YOLOv3(未改变)
  4. 训练用到的小技巧:Mosaic数据增强、Label Smoothing平滑、CIOU、学习率余弦退火衰减
  5. 激活函数:使用Mish激活函数

参考:

12.YOLO系列算法详解1:YOLOV1