花卉分类技术报告

一、模型架构

1.1 整体架构

基于YOLO11-cls-m构建的100类花卉分类模型，针对细粒度花卉识别任务进行专项优化。

1.2 核心模块设计

通道注意力模块 (ChannelAttention)

功能：强化颜色特征，适配花卉RGB通道差异
实现：并行平均池化+最大池化 → 共享FC层 → Sigmoid激活
参数：reduction=16，压缩比平衡性能与效率

空间注意力模块 (SpatialAttention)

功能：聚焦花朵主体区域，抑制背景干扰
实现：通道维度统计（均值+最大值）→ 7×7卷积 → Sigmoid
优势：大卷积核捕捉更广空间依赖

花卉注意力模块 (FlowerAttention)

设计理念：通道注意力（颜色）+ 空间注意力（形态）串联
适用场景：细粒度花卉分类的判别性特征提取

多尺度花卉特征块 (MultiScaleFlowerBlock)

三分支并行结构：
- 小尺度（3×3）：捕捉花瓣纹理、边缘细节
- 中尺度（5×5等效）：提取单个花瓣结构
- 大尺度（7×7等效）：建模整体花朵形态
特征融合：Concatenation → 1×1卷积压缩 → FlowerAttention
残差连接：保留低层特征，缓解梯度消失

颜色增强卷积 (ColorEnhancedConv)

核心创新：RGB三通道差异化处理
实现方式：全局池化 → 逐通道权重学习 → 自适应加权
应用位置：Backbone首层，优先增强颜色判别力

花卉优化C3k2 (FlowerC3k2)

基础结构：保留YOLO11原生C3k2的Bottleneck设计
增强点：在输出端串联FlowerAttention
平衡点：复用成熟架构 + 针对性改进

花卉分类头 (FlowerClassifyHead)

双池化策略：AdaptiveAvgPool + AdaptiveMaxPool并行
特征判别增强：
- 特征维度扩展（2倍拼接）
- BatchNorm + ReLU + Dropout(0.3)正则化
- 全连接降维后分类
对比优势：相比单一池化，捕捉更丰富全局特征

1.3 网络配置

# Backbone分阶段设计
Stage 1: ColorEnhancedConv (64通道) - RGB颜色增强
Stage 2: C3k2 (256通道) + FlowerAttention - 纹理特征
Stage 3: FlowerC3k2 (512通道) - 花瓣结构
Stage 4: MultiScaleFlowerBlock (512通道) - 多尺度融合
Stage 5: MultiScaleFlowerBlock (1024通道) + FlowerAttention - 高层语义

# Head
FlowerClassifyHead - 双池化分类头

关键设计：

浅层注重颜色和纹理（低分辨率损失小）
深层引入多尺度建模（大感受野捕捉整体）
多处注意力机制（3个FlowerAttention插入点）

二、训练策略

2.1 预训练权重

加载策略：YOLO11x-cls预训练权重迁移
优势：利用ImageNet学到的通用视觉特征，加速收敛

2.2 优化器配置

optimizer: AdamW
lr0: 0.001           # 初始学习率
lrf: 0.01            # 最终学习率 = lr0 \* lrf
weight\_decay: 0.0005 # L2正则化
momentum: 0.937      # 动量因子

AdamW选择：解耦权重衰减，泛化性优于Adam
学习率调度：余弦退火（cos_lr=True），平滑衰减避免震荡

2.3 Warmup策略

warmup\_epochs: 5.0
warmup\_momentum: 0.8
warmup\_bias\_lr: 0.1

作用：前5个epoch线性增大学习率，稳定初期训练
细节：偏置层使用小学习率，防止梯度爆炸

2.4 数据增强（针对花卉优化）

颜色增强

hsv\_h: 0.015  # 色调微调（花卉颜色敏感）
hsv\_s: 0.7    # 饱和度大幅变化（模拟光照）
hsv\_v: 0.4    # 亮度适度调整

设计理念：保留色调特征（0.015小扰动），增强光照鲁棒性

几何变换

degrees: 15.0     # 旋转角度
translate: 0.1    # 平移10%
scale: 0.5        # 缩放范围0.5-1.5倍
fliplr: 0.5       # 水平翻转
flipud: 0.0       # 禁用垂直翻转（花朵有上下方向性）

关键决策：禁用透视变换（perspective=0），避免花朵形态失真

混合增强

mosaic: 1.0   # 马赛克拼接
mixup: 0.15   # 图像混合

Mosaic：强制模型学习多尺度和遮挡场景
Mixup：轻量使用（0.15），防止过度混合丢失细节

2.5 正则化

label\_smoothing: 0.1  # 标签平滑
dropout: 0.3          # 分类头Dropout

Label Smoothing：缓解过拟合，提升泛化（100类细粒度任务易过拟合）

2.6 训练参数

epochs: 200
imgsz: 600    # 高分辨率保留细节特征
batch: 32

高分辨率输入：600×600相比常规224/384，显著提升纹理辨识度

三、创新点总结

3.1 领域自适应设计

颜色感知架构：ColorEnhancedConv首层增强RGB通道差异
多尺度并行提取：MultiScaleFlowerBlock三分支捕捉从纹理到形态的全尺度特征
双注意力机制：通道+空间注意力联合建模颜色与形态

3.2 训练策略优化

保守的颜色增强：hsv_h=0.015保护色调特征
高分辨率训练：600×600输入保留花瓣细节
禁用破坏性变换：关闭垂直翻转和透视变换

3.3 架构平衡

效率：复用YOLO11骨干（C3k2/C2PSA）+ 轻量注意力
性能：关键位置插入领域模块（4处花卉特定设计）

四、实验配置

配置项	参数值	说明
模型规模	YOLO11-m	10.5M参数，平衡精度与速度
输入尺寸	600×600	高分辨率保留细节
类别数	100	细粒度花卉分类
训练轮数	200	充分收敛
批次大小	32	内存-性能平衡
学习率范围	1e-3 → 1e-5	余弦衰减
数据增强强度	中等	保护花卉关键特征

五、关键技术对比

技术点	YOLO11原生	本方案改进	优势
颜色建模	通用卷积	ColorEnhancedConv	RGB通道自适应加权
尺度建模	单一感受野	三分支并行（3/5/7）	捕捉多层次特征
注意力	C2PSA仅1处	FlowerAttention×3	全流程特征增强
分类头	单池化+FC	双池化+深层FC	判别性更强
输入分辨率	224	600	纹理信息保留
色调增强	0.05	0.015	保护颜色特征

六、模型特色

优势

细粒度适配：专为花卉小类间差异设计（如不同玫瑰品种）
多尺度融合：从2mm花瓣纹理到20cm整体形态的全覆盖
轻量高效：相比ResNet/ViT等分类模型，推理速度快3-5倍
迁移友好：基于YOLO生态，易于部署和工程化

Name		Name	Last commit message	Last commit date
Latest commit History 16 Commits
code		code
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
requirements.txt		requirements.txt

Folders and files

Latest commit

History

Repository files navigation

花卉分类技术报告

一、模型架构

1.1 整体架构

1.2 核心模块设计

通道注意力模块 (ChannelAttention)

空间注意力模块 (SpatialAttention)

花卉注意力模块 (FlowerAttention)

多尺度花卉特征块 (MultiScaleFlowerBlock)

颜色增强卷积 (ColorEnhancedConv)

花卉优化C3k2 (FlowerC3k2)

花卉分类头 (FlowerClassifyHead)

1.3 网络配置

二、训练策略

2.1 预训练权重

2.2 优化器配置

2.3 Warmup策略

2.4 数据增强（针对花卉优化）

颜色增强

几何变换

混合增强

2.5 正则化

2.6 训练参数

三、创新点总结

3.1 领域自适应设计

3.2 训练策略优化

3.3 架构平衡

四、实验配置

五、关键技术对比

六、模型特色

优势

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages