一种基于YOLOv3/4的混合模态行人检测算法

一、项目特性

一种基于YOLOv3/4的双流混合模态道路行人检测方法：将可见光和红外光模态图像分别送入双流并行主干提取网络并通过特征共享学习网络进行混合模态特征融合，最后进入FPN/PANet进行特征聚合加强，最后预测层进行目标检测输出边界框回归参数、置信度和类别分数。同时考虑到网络的实时性和轻量化，引入MobileNetv2/3替换主干特征提取网络，使用深度可分离卷积替换普通3x3卷积，在较少地减少性能指标的前提下将网络参数量减少到原模型的1/6。

论文主要工作包括：

在YOLOv4 Mosaic数据增广方法的基础上引入雪花变换、CLAHE以及伪目标嵌入等方法，提高网络泛化能力。
使用双流并行的CSPDarknet53网络从可见光和红外光图像中提取出各自的特征图。
设计了基于特征共享网络FSNet的混合模态特征融合方法，通过相互指导的方式实现红外光图像特征与可见光图像特征图的有效融合。
借鉴CSPNet的思路，在原先YOLOv4的SPP结构基础上改造成SPP-CSPNet来优化网路结构。
使用基于最大最小边界比MMBR适应度函数的遗传算法来优化锚定框的设置。
加入了MobileNetv2/3作为主干网络的轻量化实现，并对后续的加强特征提取网络中的3x3普通卷积替换成深度可分离卷积，将参数量减少到原先的1/6。

二、数据集说明

本文采用的是KAIST数据集，该数据集是于2015年由Hwang等人所构建的多光谱检测数据集，主要目的就是解决夜间环境下行人检测数据缺乏的问题。数据集本身分为12个子集，其中set00~set05为训练数据（set00~set02为白天场景，set03~set05为夜间场景），set06~set11为测试数据（set06~set08为白天场景，set09~set11为夜间场景），图像分辨率大小640x512，总共包含95328张图片，每张图片都包含RGB彩色图像和红外光图像两个版本。数据集分别在白天和夜间捕获了包括校园、街道以及乡下等多个常规交通场景，并含有103108个密集标注，其中较好区分的行人个体被标注为person，不太好分辨的多个个体则被标注为people，骑行的人则被标注为cyclist。

但考虑到标注的people包含多个行人目标，对于网络模型的学习可能会产生不良的影响；且骑行者cyclist本身也是分辨良好的人体，因此在实际的数据清洗中会忽略people标注，并将cyclist替换成person。除此之外，数据集中的图片由于都是从视频上截取下来，编号相近的图片所记录的画面几乎含有相同的信息，因此在数据清洗的时候会以一定步距抽样方式对有效使用的数据进行筛选，防止模型重复学习。

实际实验时，采用上面指定的部分数据集作为训练数据集和验证集，两者随机按照3：1分配，最后剩下的数据集作为测试集（由白天数据集和夜间数据集组成）。所有的下面实验得到的性能数据都是在测试数据集上得到的。

Train：

Set 00 / Day / Campus / 5.92GB / 17,498 frames / 11,016 objects [jpg] 0.6296 objects/frame 1759
Set 01 / Day / Road / 2.82GB / 8,035 frames / 8,550 objects [jpg] 1.0641 objects/frame 913
Set 02 / Day / Downtown / 3.08GB / 7,866 frames / 11,493 objects [jpg] 1.4611 objects/frame 1624
Set 03 / Night / Campus / 2.40GB / 6,668 frames / 7,418 objects [jpg] 1.1125 objects/frame 1009
Set 04 / Night / Road / 2.88GB / 7,200 frames / 17,579 objects [jpg] 2.4415 objects/frame 956
Set 05 / Night / Downtown / 1.01GB / 2,920 frames / 4,655 objects [jpg] 1.5942 objects/frame 503

Test：

Set 06 / Day / Campus / 4.78GB / 12,988 frames / 12,086 objects [jpg] 0.9306 objects/frame 1876
Set 07 / Day / Road / 3.04GB / 8,141 frames / 4,225 objects [jpg] 0.5190 objects/frame 726
Set 08 / Day / Downtown / 3.50GB / 8,050 frames / 23,309 objects [jpg] 2.8955 objects/frame 2054
Set 09 / Night / Campus / 1.38GB / 3,500 frames / 3,577 objects [jpg] 1.0220 objects/frame 483
Set 10 / Night / Road / 3.75GB / 8,902 frames / 4,987 objects [jpg] 0.5602 objects/frame 683
Set 11 / Night / Downtown / 1.33GB / 3,560 frames / 6,655 objects [jpg] 1.8694 objects/frame 785

数据集下载地址：链接：https://pan.baidu.com/s/1h1e3rZQqIR9MIdiF0W7nXQ 提取码：67iz

三、使用说明

使用前需要下载上述Kaist数据集到Kaist目录下，解压并通过trans_kaist2voc.py转换成VOC格式的Kaist数据集（之所以不直接转换到YOLO格式是因为前期的一些工作是在VOC格式的数据集上做的），然后使用trans_kaistvoc2yolo.py将VOC格式的数据集转换成YOLO格式的数据集，接着使用dataset_calculate.py从转换得到的数据集中获取相关数据写入到data目录下的文件中。然后从U版的YOLOv3、WongKinYiu版的YOLOv4中下载对应的yolov3.pt和yolov4.weights权重文件，方便通过迁移学习的方式加载到自己的网络中进行训练。

训练Training：

# 以训练kaist-visible-yolov3为例
python train.py --epochs 300 --batch-size 16 --cfg config/kaist_yolov3.cfg --weights weights/pretrained_yolov3.pt --name kaist_yolov3 --freeze-layers -1 --anchor-cluster

推理Detecting：

# 以使用kaist-visible-yolov3推理为例
python detect.py --model-name Visible-YOLov3 --cfg config/kaist_yolov3.cfg --weights weights/kaist_yolov3_best.pt --src imgs/ori/I0020_lwir.jpg --save imgs/res
# 使用时只要给出一张可见光或者红外光图像的路径它就会自动的去找另一张图像的

使用测试集获取模型性能指标Evaluating：

# 以获取kaist-visible-yolov3在夜间测试集上的性能为例，并将结果保存在rec-prec.fppi-mr.npy文件中
python evaluate.py --cfg config/kaist_yolov3.cfg --weights weights/kaist_yolov3_best.pt --batch-size 64 --test-type night_test --npy-path rec-prec.fppi-mr.npy

四、实验结果

实验设备采用CPU：Intel(R) Xeon(R) Silver 4210R CPU @ 2.40GHz，内存：192G DDR4-3200MHz，GPU：Quadro RTX 6000@24220MiB × 2。实验参数设置：超参数：hyp['box']: 3.540, hyp['obj']: 102.880. hyp['cls']: 0.468；初始学习率为0.001，采用余弦退火策略按轮次减少学习率到0.0001，总训练轮数50，batch size为16。

基于YOLOv3改进算法的实验以及对照实验的结果如下表所示：

算法模型名	全天候测试集AP@IoU=0.5	全天候测试集LAMR@IoU=0.5	白天测试集AP@IoU=0.5	白天测试集LAMR@IoU=0.5	夜间测试集AP@IoU=0.5	夜间测试集LAMR@IoU=0.5	检测速度FPS
Visible-YOLOv3-Normal	82.42%	33.40%	87.72%	26.84%	76.15%	40.05%	72.14
Double-YOLOv3-Add-SL	89.69%	24.11%	90.34%	22.31%	88.94%	26.24%	43.94
Double-YOLOv3-CSE	89.05%	24.34%	90.02%	22.24%	87.88%	26.91%	42.19
Double-YOLOv3-Concat-Inception-SE	89.13%	24.86%	89.63%	23.59%	88.56%	26.12%	34.56
Double-YOLOv3-Fshare-CSE	89.17%	23.84%	90.46%	21.43%	87.66%	26.57%	33.69
Double-YOLOv3-Global-Fshare-CSE	89.47%	24.51%	90.10%	22.44%	88.80%	27.15%	38.70
Double-YOLOv3-Global-Fshare-CSE3	89.58%	22.65%	89.93%	21.60%	89.15%	24.12%	42.57
Double-YOLOv3-Global-Fshare-Add-SL	89.14%	23.70%	89.44%	22.56%	88.88%	24.83%	41.07

上述实验中较好算法模型得到的P-R曲线和FPPI-MR曲线如下图所示：

基于YOLOv4改进算法的实验以及对照实验的结果如下表所示：

算法模型名	全天候测试集AP@IoU=0.5	全天候测试集LAMR@IoU=0.5	白天测试集AP@IoU=0.5	白天测试集LAMR@IoU=0.5	夜间测试集AP@IoU=0.5	夜间测试集LAMR@IoU=0.5	检测速度FPS
Visible-YOLOv4-Normal	84.72%	30.05%	89.07%	24.58%	79.57%	35.42%	51.62
Double-YOLOv4-Add-SL	89.09%	23.54%	88.96%	22.58%	89.28%	24.23%	30.30
Double-YOLOv4-CSE	89.79%	23.13%	90.05%	21.94%	89.50%	24.55%	29.91
Double-YOLOv4-Fshare-Global-CSE3	90.22%	20.31%	90.89%	18.71%	89.47%	22.25%	29.04

尝试使用MobileNet来轻量化目标检测网络的参数量和计算耗时性：

算法模型名	全天候测试集AP@IoU=0.5	全天候测试集LAMR@IoU=0.5	白天测试集AP@IoU=0.5	白天测试集LAMR@IoU=0.5	夜间测试集AP@IoU=0.5	夜间测试集LAMR@IoU=0.5	检测速度FPS
Visible-YOLOv4-MobileNetv2-Normal	81.68%	35.27%	86.68%	29.69%	75.75%	40.91%	72.69
Visible-YOLOv4-MobileNetv3-Normal	80.80%	36.45%	85.93%	30.96%	74.75%	42.32%	71.03
Double-YOLOv4-MobileNetv2-Fshare-Global-CSE3	88.42%	27.23%	89.30%	25.59%	87.40%	29.07%	44.95
Double-YOLOv4-MobileNetv3-Fshare-Global-CSE3	87.26%	30.10%	87.28%	29.93%	87.33%	29.78%	41.17

所有模型性能对比图：

上述实验得到的网络权重下载地址：

Visible-YOLOv3：https://pan.baidu.com/s/1e_n-V-mP-yxG2GYs9xJ0_Q 提取码：wasp
Double-YOLOv3-ASL：https://pan.baidu.com/s/1k445GqCrwjrdCLhSoeJOlg 提取码：d13n
Double-YOLOv3-CSE：https://pan.baidu.com/s/13pnX5GS9ik9uDJ3jPzonyg 提取码：0eij
Double-YOLOv3-FSCSE3：https://pan.baidu.com/s/1V5Hu8NyCd0KwypP8y8fvNA 提取码：1d7e
Visible-YOLOv4：https://pan.baidu.com/s/1E36snCK2_xZI-EeOOhCeLQ 提取码：dnwm
Double-YOLOv4-ASL：https://pan.baidu.com/s/1lb4VvGQWPA07SyXSquDQrQ 提取码：4yp8
Double-YOLOv4-CSE：https://pan.baidu.com/s/1nq3JJVzA-zo2LsCS_HauvQ 提取码：pl9s
Double-YOLOv4-FSCSE3：https://pan.baidu.com/s/1jYt3pxuAJ8WrmiWzRMKkVA 提取码：7z2y
Visible-YOLOv4-MNv2：https://pan.baidu.com/s/1BGSESBYhg4THBmTkdqvFYg 提取码：go8n
Visible-YOLOv4-MNv3：https://pan.baidu.com/s/1FmJECmiiepD8Ue4jFny_RA 提取码：aph0
Double-YOLOv4-MNv2-FSHCSE3：https://pan.baidu.com/s/1G1yr-sbEEGCnzGVUEHpUtg 提取码：uovy
Double-YOLOv4-MNv3-FSHCSE3：https://pan.baidu.com/s/1uU05oKy4ofzF7EgOaZ-UkQ 提取码：zsw1

在Double-YOLOv4-Fshare-Global-CSE3模型的部分推理结果：

五、参考资料

WongKinYiu版YOLOv4 Pytorch实现：https://github.com/WongKinYiu/PyTorch_YOLOv4
Ultralytics版YOLOv3 Pytorch实现：https://github.com/ultralytics/yolov3
Kaist数据集所属项目：https://github.com/SoonminHwang/rgbt-ped-detection
多类别平均准确度计算：https://github.com/Cartucho/mAP
《动手学深度学习》：https://zh.d2l.ai/

Name		Name	Last commit message	Last commit date
Latest commit History 14 Commits
Kaist		Kaist
build_utils		build_utils
config		config
data		data
docs		docs
imgs		imgs
other_utils		other_utils
runs		runs
train_utils		train_utils
.gitignore		.gitignore
README.md		README.md
dataset_calculate.py		dataset_calculate.py
dataset_test.py		dataset_test.py
detect.py		detect.py
draw_pr_fm.py		draw_pr_fm.py
evaluate.py		evaluate.py
models.py		models.py
requirements.txt		requirements.txt
train.py		train.py
trans_kaistvoc2yolo.py		trans_kaistvoc2yolo.py

Ye-zixiao/Double-YOLO-Kaist

Folders and files

Latest commit

History

Repository files navigation

一种基于YOLOv3/4的混合模态行人检测算法

一、项目特性

二、数据集说明

三、使用说明

四、实验结果

五、参考资料

About

Topics

Resources

Stars

Watchers

Forks

Languages