Skip to content
forked from apachecn/Interview

Kaggle 项目实战(教程) = 文档 + 代码 + 视频

License

Notifications You must be signed in to change notification settings

moviwhat/kaggle

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Kaggle

欢迎任何人参与和完善:一个人可以走的很快,但是一群人却可以走的更远

Note:

机器学习比赛,奖金很高,业界承认分数。
现在我们已经准备好尝试 Kaggle 竞赛了,这些竞赛分成以下几个类别。

第1部分:课业比赛 InClass

课业比赛 InClass 是学校教授机器学习的老师留作业的地方,这里的竞赛有些会向public开放参赛,也有些仅仅是学校内部教学使用。

第2部分:入门比赛 Getting Started

入门比赛 Getting Started 给萌新们一个试水的机会,没有奖金,但有非常多的前辈经验可供学习。很久以前Kaggle这个栏目名称是101的时候,比赛题目还很多,但是现在只保留了4个最经典的入门竞赛:手写数字识别、沉船事故幸存估计、脸部识别、Julia语言入门。

第3部分:训练场 Playground

训练场 Playground里的题目以有趣为主,比如猫狗照片分类的问题。现在这个分类下的题目不算多,但是热度很高。

第4部分: 研究项目(少奖金) Research

研究型 Research 竞赛通常是机器学习前沿技术或者公益性质的题目。竞赛奖励可能是现金,也有一部分以会议邀请、发表论文的形式奖励。

第5部分:人才征募 Recruitment

人才征募 Recruitment 竞赛是赞助企业寻求数据科学家、算法设计人才的渠道。只允许个人参赛,不接受团队报名。

第6部分: 大型组织比赛(大奖金) Featured

推荐比赛 Featured 是瞄准商业问题带有奖金的公开竞赛。如果有幸赢得比赛,不但可以获得奖金,模型也可能会被竞赛赞助商应用到商业实践中呢。

其他部分

  • 数据集: 数据集,可直接用于机器学习。
  • 核心思想: 在线编程。(猜测,基于 jupyter 实现)
  • 论坛: 发帖回帖讨论的平台
  • 招聘: 企业招聘数据科学家的位置

机器学习算法

常用算法选择

常用工具选择

解决问题的流程

  1. 链接场景和目标
  2. 链接评估准则
  3. 认识数据
  4. 数据预处理(清洗、调权)
  5. 特征工程
  6. 模型调参
  7. 模型状态分析
  8. 模型融合

数据预处理

  • 数据清洗
    • 去掉样本数据的异常数据。(比如连续型数据中的离群点)
    • 去除缺失大量特征的数据
  • 数据采样
    • 下/上采样(假设正负样本比例1:100,把正样本的数量重复100次,这就叫上采样,也就是把比例小的样本放大。下采样同理,把比例大的数据抽取一部分,从而使比例变得接近于1;1)
    • 保证样本均衡
  • 工具 sql、pandas等

特征工程

特征处理

  • 数值型:连续型数据离散化或者归一化、数据变化(log、指数、box-cox)
  • 类别型:做编码,eg:one-hot编码,如果类别数据有缺失,把缺失也作为一个类别即可。
  • 时间类:间隔化(距离某个节日多少天)、与其他特征(eg:次数)融合,变成一周登陆几次、离散化(eg:外卖,把时间分为【饭店、非饭店】)
  • 文本类:N-gram、Bag-of-words、TF-IDF
  • 统计型:与业务强关联
  • 组合特征

活动时间

时间段:2017-11-15 ~ 2017-11-30

联系方式

项目负责人

项目发起人

项目贡献者(请手动添加)

加入方式

有任何建议反馈, 或想参与文档翻译, 麻烦联系下面的企鹅

  • 企鹅: 529815144(片刻) 1042658081(那伊抹微笑) 190442212(瑶妹)
  • ApacheCN - 学习机器学习群【629470233】ApacheCN - 学习机器学习群【629470233】
  • Kaggle (数据科学竞赛平台) | ApacheCN(apache中文网)

kaggle: 机器学习竞赛

深度学习 机器学习 大数据 运维工具
TensorFlow R1.2 中文文档 机器学习实战-教学 Spark 2.2.0和2.0.2 中文文档 Zeppelin 0.7.2 中文文档
Pytorch 0.3 中文文档 Sklearn 0.19 中文文档 Storm 1.1.0和1.0.1 中文文档 Kibana 5.2 中文文档
LightGBM 中文文档 Kudu 1.4.0 中文文档
XGBoost 中文文档 Elasticsearch 5.4 中文文档
Beam 中文文档

About

Kaggle 项目实战(教程) = 文档 + 代码 + 视频

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Jupyter Notebook 99.0%
  • Python 1.0%