Home-Credit

跟着北理的大佬参加了Kaggle数据竞赛中Home Credit default risk信贷违约分析比赛。我主要负责对前三张表application_train,previous_application和 bureau的部分特征做数据预处理，主要采用了groupby技术和one-hot编码，对于缺失值采用中位数的方法填充。然后根据我们处理完的三张表的完整数据，利用xgboost，random forest和adaboost三种模型来寻找重要的特征。并且将不重要的变量去除。两个py文件就是我写的数据预处理部分。三张表特征重要性文件夹里面的ipynb文件就是三种模型的代码。

提交的测试数据以cv计算auc值为0.799，我们小组最终取得的成绩在7198支队伍中排313名(前5%)：

最后感谢刘栋同学，马川同学，杨莎莎同学和赵建宇同学。

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
img_folder		img_folder
三张表特征重要性		三张表特征重要性
README.md		README.md
蔡睿杰-特征工程-bureau-pre-app.py		蔡睿杰-特征工程-bureau-pre-app.py
蔡睿杰_特征工程_app_train.py		蔡睿杰_特征工程_app_train.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Home-Credit

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Home-Credit

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages