Skip to content

2020数字中国创新赛-阿里天池-智慧海洋建设,64/3275

Notifications You must be signed in to change notification settings

Live5/2020_DCIC_TianChi

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

11 Commits
 
 
 
 
 
 

Repository files navigation

2020_DCIC_TianChi

2020数字中国创新赛-阿里天池-智慧海洋建设,64/3275

赛题说明

  • 本赛题基于位置数据对海上目标进行智能识别和作业行为分析,要求选手通过分析渔船北斗设备位置数据,得出该船的生产作业行为,具体判断出是拖网作业、围网作业还是流刺网作业。初赛将提供11000条(其中7000条训练数据、2000条testA、2000条testB)渔船轨迹北斗数据。
  • 复赛考虑以往渔船在海上作业时主要依赖AIS数据,北斗相比AIS数据,数据上报频率和数据质量均低于AIS数据,因此复赛拟加入AIS轨迹数据辅助北斗数据更好的做渔船类型识别,其中AIS数据与北斗数据的匹配需选手自行实现,具体细节复赛开赛时更新。同时,希望选手通过数据可视化与分析,挖掘更多海洋通信导航设备的应用价值。
  • https://tianchi.aliyun.com/competition/entrance/231768/introduction

初赛B榜 62/3275 | 复赛B榜 Rank64 | 祈祷落幕时

文件目录

Season1:初赛

  • Data.py: 对每个渔船数据的粗糙处理以及合并
  • Data_Preprocess.py: 数据清洗以及时间特征工程
  • main.py: 特征工程以及模型训练

Season2:复赛

  • Data.py: 对每个渔船数据的粗糙处理以及合并
  • Data_Preprocess.py: 数据清洗以及时间特征工程
  • xgb_model.py: 特征工程以及模型训练

特征构造:其实都是一些简单的特征构造(..)

具体的特征代码里面都写的比较清楚了,就不赘述了,几个有意思的提分点:

  • 初赛数据,清洗的时候只保留了速度在(0,10]之间的数据,筛掉了许多无用数据,有提分效果;但在复赛测试集存在一些渔船速度恒为0,就没有做这个清洗
  • 发现初赛的渔船中有几艘渔船一直没动,且坐标都是(6165599.368591921,5202659.922186158),盲猜是港口点,这里构造了相关距离特征
  • 初赛用了embedding提分效果很差,赛后听大佬说用这个是一个稳定得分点,可能是自己使用的方法有问题
  • 复赛针对数据类别不平衡的问题,重采样小类别,填充特征缺失值,这几处可能是基本操作不过也提了一些分数
  • 初赛过细的绝对位置会掉分,复赛使用差分特征能提分,说明本题绝对特征钻太深可以会陷进去,毕竟本身是时空数据,赛后也从大佬的分享中证实了,不过自己太菜不知道怎么做相对特征orz

总结

这是自己第一次参加这样的数据挖掘算法赛,感觉还是学到了很多知识和技巧的,感恩。之前一直觉得别人打比赛好厉害啊,望而却步。现在自己参加了以后觉得自己真的菜,前排大佬比想象中的还要厉害,万幸可以多学习学习思路和技巧自己也是还有进步空间的嘛=w=

About

2020数字中国创新赛-阿里天池-智慧海洋建设,64/3275

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Python 100.0%