Skip to content
No description, website, or topics provided.
Branch: master
Clone or download
Fetching latest commit…
Cannot retrieve the latest commit at this time.
Permalink
Type Name Latest commit message Commit time
Failed to load latest commit information.
code
data
notebook
submit
.gitignore
README.md
versions.txt

README.md

美年健康 AI

说在前面

第一次参加天池的比赛(实际上是第一次参加机器学习的比赛)。从零开始学到了很多,虽然复赛大部分时间在搞平台了。推荐入门还是不要搞天池的平台赛。

b 榜得分

  • 初赛 0.0291/rank67
  • 复赛 0.0323/rank22

初赛简单思路

  • 数据清洗data_cleaning.py:把原数据整理成 vid-feature 的形式,感谢 Mt.Zhang 在技术圈的分享
  • 数值数据的转换data_preprocessing_num.py:有些特征有混合类型的数据(比如 60次/分),判定纯数值大于0.5的为数值列,正则匹配提取转换
  • 文字数据转换data_preprocessing_cate.py:方法比较蠢,把缺失值比较少的文字特征一个个看过去,用正则匹配分类
  • 输入模型,调参,验证,预测

复赛的一些改进

  • 分类数据用热编码(lgb可以处理类别数据,但是复赛用的sklearn的不行)
  • 调整和增加了一些文字分类特征,去掉冗余的不必要的分类,能二分类就二分类,因为复赛数据比较少
  • 进行了特征筛选。这个很重要,初赛用了太多的冗余特征。

运行

cd code
python main.py
You can’t perform that action at this time.