Skip to content

xixici/datawhale-data-mining-season-8

Repository files navigation

datawhale-data-mining-season-8

任务1 - 数据分析(2天)

数据集下载

这是我们本次实践数据的下载地址 https://pan.baidu.com/s/1wO9qJRjnrm8uhaSP67K0lw

说明:这份数据集是金融数据(非原始数据,已经处理过了),我们要做的是预测贷款用户是否会逾期。表格中 "status" 是结果标签:0表示未逾期,1表示逾期。

数据集涉密,不要开源到网上,谢谢~

要求:数据切分方式 - 三七分,其中测试集30%,训练集70%,随机种子设置为2018

任务1:对数据进行探索和分析。时间:2天

  • 数据类型的分析
  • 无关特征删除
  • 数据类型转换
  • 缺失值处理
  • ……以及你能想到和借鉴的数据分析处理

任务2 - 特征工程(2天)

任务2:对数据特征进行衍生和进行特征挑选。时间:2天

  • 特征衍生
  • 特征挑选:分别用IV值和随机森林等进行特征选择
  • ……以及你能想到特征工程处理

任务3 - 模型构建(2天)

任务3:用逻辑回归、svm和决策树;随机森林和XGBoost进行模型构建,评分方式任意,如准确率等。(不需要考虑模型调参)时间:2天

任务4 - 模型评估(2天)

任务4:记录5个模型(逻辑回归、SVM、决策树、随机森林、XGBoost)关于accuracy、precision,recall和F1-score、auc值的评分表格,并画出ROC曲线。时间:2天

可以参照以下格式:图片

参考答案

任务5 - 模型调优(2天)

任务5:使用网格搜索法对5个模型进行调优(调参时采用五折交叉验证的方式),并进行模型评估,记得展示代码的运行结果。 时间:2天

任务6 - 模型融合(2天)

任务6:模型融合,模型融合方式任意,并结合Task5给出你的最优结果。时间:2天

  • 例如Stacking融合,用你目前评分最高的模型作为基准模型,和其他模型进行stacking融合,得到最终模型及评分结果。

参考答案

Releases

No releases published

Packages

No packages published