Kaggle比赛: https://www.kaggle.com/c/planet-understanding-the-amazon-from-space
图像多标签多分类问题,图像为亚马逊丛林高空俯视卫星图片,图像标签为图片中包含的气候、地貌(多云、河流、农田、矿井等17类),训练集4万,测试集6万。
知乎文章:Kaggle求生:亚马逊热带雨林篇
注:这个目录只是我那部分的代码,也没有做整理,所以比较混乱
- 包依赖:torch, torchvision, PIL, pandas, (hyperboard)
- OS: linux
- 注意事项:
1.项目文件夹下不包含数据
2.省略了很多预处理
3.不含ensemble部分代码
4.训练时要新建与模型名字一样的文件夹 ,文件夹下保存着这个模型生成的所有文件
5.可以使用hyperboard,不过在代码里已经被注释了
Model.py: 记录了使用的各种模型,及其修改版本
Datahelper2.py: 数据加载器,其中lables.pkl是预先处理好的label
process.py: 统一执行环境,其实只是把各个模块封装好放到这里执行
train.py: 训练模型,生成每个fold对应的模型
train_2epoch.py : 训练两个epoch
eval.py: 评估模型,保存中间变量,生成validation,best_threshold
predict.py: 对数据进行预测,保存中间变量,生成预测文件*_result
process_data: 将模型生成的中间变量保存成npy格式的概率矩阵
bagging.py: 模型bagging
kdf.pkl: kfold的划分
kfold.pkl: 另一种kfold的划分
labels.pkl: 预处理的labels