datawhale-data-mining-season-8

任务1 - 数据分析（2天）

数据集下载

这是我们本次实践数据的下载地址 https://pan.baidu.com/s/1wO9qJRjnrm8uhaSP67K0lw

说明：这份数据集是金融数据（非原始数据，已经处理过了），我们要做的是预测贷款用户是否会逾期。表格中 "status" 是结果标签：0表示未逾期，1表示逾期。

数据集涉密，不要开源到网上，谢谢~

要求：数据切分方式 - 三七分，其中测试集30%，训练集70%，随机种子设置为2018

任务1：对数据进行探索和分析。时间：2天

数据类型的分析
无关特征删除
数据类型转换
缺失值处理
……以及你能想到和借鉴的数据分析处理

任务2 - 特征工程（2天）

任务2：对数据特征进行衍生和进行特征挑选。时间：2天

特征衍生
特征挑选：分别用IV值和随机森林等进行特征选择
……以及你能想到特征工程处理

任务3 - 模型构建（2天）

任务3：用逻辑回归、svm和决策树；随机森林和XGBoost进行模型构建，评分方式任意，如准确率等。（不需要考虑模型调参）时间：2天

任务4 - 模型评估（2天）

任务4：记录5个模型（逻辑回归、SVM、决策树、随机森林、XGBoost）关于accuracy、precision，recall和F1-score、auc值的评分表格，并画出ROC曲线。时间：2天

可以参照以下格式：

参考答案

任务5 - 模型调优（2天）

任务5：使用网格搜索法对5个模型进行调优（调参时采用五折交叉验证的方式），并进行模型评估，记得展示代码的运行结果。时间：2天

任务6 - 模型融合（2天）

任务6：模型融合，模型融合方式任意，并结合Task5给出你的最优结果。时间：2天

例如Stacking融合，用你目前评分最高的模型作为基准模型，和其他模型进行stacking融合，得到最终模型及评分结果。

参考答案

Name		Name	Last commit message	Last commit date
Latest commit History 17 Commits
.ipynb_checkpoints		.ipynb_checkpoints
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
SOLUTION1.ipynb		SOLUTION1.ipynb
SOLUTION2.ipynb		SOLUTION2.ipynb
SOLUTION3.ipynb		SOLUTION3.ipynb
SOLUTION4.ipynb		SOLUTION4.ipynb
SOLUTION5.ipynb		SOLUTION5.ipynb
SOLUTION6.ipynb		SOLUTION6.ipynb
data.csv		data.csv
final.pkl		final.pkl
update.sh		update.sh

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

datawhale-data-mining-season-8

任务1 - 数据分析（2天）

任务2 - 特征工程（2天）

任务3 - 模型构建（2天）

任务4 - 模型评估（2天）

任务5 - 模型调优（2天）

任务6 - 模型融合（2天）

About

Releases

Packages

Languages

License

xixici/datawhale-data-mining-season-8

Folders and files

Latest commit

History

Repository files navigation

datawhale-data-mining-season-8

任务1 - 数据分析（2天）

任务2 - 特征工程（2天）

任务3 - 模型构建（2天）

任务4 - 模型评估（2天）

任务5 - 模型调优（2天）

任务6 - 模型融合（2天）

About

Topics

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages