Dr. Liang
第一步进行数据清洗。
- 缺失值超过50%的特征,且无法通过其他特征进行填充的可以考虑删除
- 存在少部分缺失值的特征进行补充
- 剔除极端异常离群值
- 分布异常的进行特征转换
- 超高相关性的特征筛选
- 无效数据剔除
- 选择使用label encoding 或者 onehot encoding
- 不适宜用以上方式的选择手动对特征进行编码
- 挖掘新特征
- 特征的数学扩展,如平方、三次方等
- 根据算法和数据情况设计交叉验证方案
- 以XGBOOST为例,设定基础参数
- 以XGBOOST为例,将参数分组分别进行调试
- 将模型进行融合
- 整合运算环境
- 发布上线预测系统