Skip to content

lyastro/steps_of_ML

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

5 Commits
 
 

Repository files navigation

机器学习工作流程

Dr. Liang

1. 数据清洗

第一步进行数据清洗。

缺失值处理

  • 缺失值超过50%的特征,且无法通过其他特征进行填充的可以考虑删除
  • 存在少部分缺失值的特征进行补充

异常值处理

  • 剔除极端异常离群值
  • 分布异常的进行特征转换

重复数据和无效数据处理

  • 超高相关性的特征筛选
  • 无效数据剔除

2. 特征工程

label encoding or onehot encoding

  • 选择使用label encoding 或者 onehot encoding

手动对特征进行编码

  • 不适宜用以上方式的选择手动对特征进行编码

特征挖掘

  • 挖掘新特征
  • 特征的数学扩展,如平方、三次方等

3. Cross Validation

  • 根据算法和数据情况设计交叉验证方案

4. 算法模型

选取模型基础参数

  • 以XGBOOST为例,设定基础参数

逐步调参

  • 以XGBOOST为例,将参数分组分别进行调试

ENSEMBLING

  • 将模型进行融合

5. 模型发布

  • 整合运算环境
  • 发布上线预测系统

About

机器学习工作流程

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published