基于YOLO11-cls-m构建的100类花卉分类模型,针对细粒度花卉识别任务进行专项优化。
- 功能:强化颜色特征,适配花卉RGB通道差异
- 实现:并行平均池化+最大池化 → 共享FC层 → Sigmoid激活
- 参数:reduction=16,压缩比平衡性能与效率
- 功能:聚焦花朵主体区域,抑制背景干扰
- 实现:通道维度统计(均值+最大值)→ 7×7卷积 → Sigmoid
- 优势:大卷积核捕捉更广空间依赖
- 设计理念:通道注意力(颜色)+ 空间注意力(形态)串联
- 适用场景:细粒度花卉分类的判别性特征提取
-
三分支并行结构:
- 小尺度(3×3):捕捉花瓣纹理、边缘细节
- 中尺度(5×5等效):提取单个花瓣结构
- 大尺度(7×7等效):建模整体花朵形态
-
特征融合:Concatenation → 1×1卷积压缩 → FlowerAttention
-
残差连接:保留低层特征,缓解梯度消失
- 核心创新:RGB三通道差异化处理
- 实现方式:全局池化 → 逐通道权重学习 → 自适应加权
- 应用位置:Backbone首层,优先增强颜色判别力
- 基础结构:保留YOLO11原生C3k2的Bottleneck设计
- 增强点:在输出端串联FlowerAttention
- 平衡点:复用成熟架构 + 针对性改进
-
双池化策略:AdaptiveAvgPool + AdaptiveMaxPool并行
-
特征判别增强:
- 特征维度扩展(2倍拼接)
- BatchNorm + ReLU + Dropout(0.3)正则化
- 全连接降维后分类
-
对比优势:相比单一池化,捕捉更丰富全局特征
# Backbone分阶段设计
Stage 1: ColorEnhancedConv (64通道) - RGB颜色增强
Stage 2: C3k2 (256通道) + FlowerAttention - 纹理特征
Stage 3: FlowerC3k2 (512通道) - 花瓣结构
Stage 4: MultiScaleFlowerBlock (512通道) - 多尺度融合
Stage 5: MultiScaleFlowerBlock (1024通道) + FlowerAttention - 高层语义
# Head
FlowerClassifyHead - 双池化分类头关键设计:
- 浅层注重颜色和纹理(低分辨率损失小)
- 深层引入多尺度建模(大感受野捕捉整体)
- 多处注意力机制(3个FlowerAttention插入点)
- 加载策略:YOLO11x-cls预训练权重迁移
- 优势:利用ImageNet学到的通用视觉特征,加速收敛
optimizer: AdamW
lr0: 0.001 # 初始学习率
lrf: 0.01 # 最终学习率 = lr0 \* lrf
weight\_decay: 0.0005 # L2正则化
momentum: 0.937 # 动量因子- AdamW选择:解耦权重衰减,泛化性优于Adam
- 学习率调度:余弦退火(cos_lr=True),平滑衰减避免震荡
warmup\_epochs: 5.0
warmup\_momentum: 0.8
warmup\_bias\_lr: 0.1- 作用:前5个epoch线性增大学习率,稳定初期训练
- 细节:偏置层使用小学习率,防止梯度爆炸
hsv\_h: 0.015 # 色调微调(花卉颜色敏感)
hsv\_s: 0.7 # 饱和度大幅变化(模拟光照)
hsv\_v: 0.4 # 亮度适度调整- 设计理念:保留色调特征(0.015小扰动),增强光照鲁棒性
degrees: 15.0 # 旋转角度
translate: 0.1 # 平移10%
scale: 0.5 # 缩放范围0.5-1.5倍
fliplr: 0.5 # 水平翻转
flipud: 0.0 # 禁用垂直翻转(花朵有上下方向性)- 关键决策:禁用透视变换(perspective=0),避免花朵形态失真
mosaic: 1.0 # 马赛克拼接
mixup: 0.15 # 图像混合- Mosaic:强制模型学习多尺度和遮挡场景
- Mixup:轻量使用(0.15),防止过度混合丢失细节
label\_smoothing: 0.1 # 标签平滑
dropout: 0.3 # 分类头Dropout- Label Smoothing:缓解过拟合,提升泛化(100类细粒度任务易过拟合)
epochs: 200
imgsz: 600 # 高分辨率保留细节特征
batch: 32- 高分辨率输入:600×600相比常规224/384,显著提升纹理辨识度
- 颜色感知架构:ColorEnhancedConv首层增强RGB通道差异
- 多尺度并行提取:MultiScaleFlowerBlock三分支捕捉从纹理到形态的全尺度特征
- 双注意力机制:通道+空间注意力联合建模颜色与形态
- 保守的颜色增强:hsv_h=0.015保护色调特征
- 高分辨率训练:600×600输入保留花瓣细节
- 禁用破坏性变换:关闭垂直翻转和透视变换
- 效率:复用YOLO11骨干(C3k2/C2PSA)+ 轻量注意力
- 性能:关键位置插入领域模块(4处花卉特定设计)
| 配置项 | 参数值 | 说明 |
|---|---|---|
| 模型规模 | YOLO11-m | 10.5M参数,平衡精度与速度 |
| 输入尺寸 | 600×600 | 高分辨率保留细节 |
| 类别数 | 100 | 细粒度花卉分类 |
| 训练轮数 | 200 | 充分收敛 |
| 批次大小 | 32 | 内存-性能平衡 |
| 学习率范围 | 1e-3 → 1e-5 | 余弦衰减 |
| 数据增强强度 | 中等 | 保护花卉关键特征 |
| 技术点 | YOLO11原生 | 本方案改进 | 优势 |
|---|---|---|---|
| 颜色建模 | 通用卷积 | ColorEnhancedConv | RGB通道自适应加权 |
| 尺度建模 | 单一感受野 | 三分支并行(3/5/7) | 捕捉多层次特征 |
| 注意力 | C2PSA仅1处 | FlowerAttention×3 | 全流程特征增强 |
| 分类头 | 单池化+FC | 双池化+深层FC | 判别性更强 |
| 输入分辨率 | 224 | 600 | 纹理信息保留 |
| 色调增强 | 0.05 | 0.015 | 保护颜色特征 |
- 细粒度适配:专为花卉小类间差异设计(如不同玫瑰品种)
- 多尺度融合:从2mm花瓣纹理到20cm整体形态的全覆盖
- 轻量高效:相比ResNet/ViT等分类模型,推理速度快3-5倍
- 迁移友好:基于YOLO生态,易于部署和工程化