字段名 | 解释 | 备注 |
---|---|---|
ID | 客户号 | 是一串纯数字字符串 |
CODE_GENDER | 性别 | M:男性 F:女性 |
FLAG_OWN_CAR | 是否有车 | Y:有 N:无 |
FLAG_OWN_REALTY | 是否有房产 | Y:有 N:无 |
CNT_CHILDREN | 孩子个数 | INT |
AMT_INCOME_TOTAL | 年收入 | INT |
NAME_INCOME_TYPE | 收入类别 | Working : 打工收入 |
NAME_EDUCATION_TYPE | 教育程度 | Higher education : 受过高等教育(本科以上) |
NAME_FAMILY_STATUS | 婚姻状态 | Married : 已结婚 |
NAME_HOUSING_TYPE | 居住方式 | House / apartment : 住在自己的房屋,公寓 |
DAYS_BIRTH | 生日 | 0为当日,日期向前计算,比如-28为28天前出生 |
DAYS_EMPLOYED | 开始工作日期 | 0为当日,日期向前计算,比如-28为28天前开始工作 |
FLAG_MOBIL | 是否有手机 | Y:有 N:无 |
FLAG_WORK_PHONE | 是否有工作电话 | Y:有 N:无 |
FLAG_PHONE | 是否有电话 | Y:有 N:无 |
FLAG_EMAIL | 是否有 email | Y:有 N:无 |
OCCUPATION_TYPE | 职业 | Laborers : 打工者 |
CNT_FAM_MEMBERS | 家庭人数 | INT |
字段名 | 解释 | 备注 |
---|---|---|
ID | 客户号 | |
MONTHS_BALANCE | 记录月份 | 已抽取数据月份为起点,向前倒退,0为当月,-1为前一个月,依次类推 |
STATUS | 状态 | 0:1-29 天逾期 1:30-59 天逾期 2:60-89 天逾期 3:90-119 天逾期 4:120-149 天逾期 5:150天以上逾期或坏账、核销 C: 当月已还清 X: 当月无借款 |
├─.DS_Store
├─introduction.ipynb //说明文件
├─README.md
├─src
| ├─trainedModel //各个模型训练好之后导出的外部存储文件
| | ├─dnn.pt
| | ├─lightgbm.pickle
| | ├─lr.pickle
| | ├─rf.pickle
| | ├─svc.pickle
| | └xg.pickle
| ├─TraditionalAlgorithm //传统机器学习算法
| | ├─.DS_Store
| | ├─fraud_detection.ipynb //各个算法的ipy
| | ├─fraud_detection.py //各个算法的py
| | ├─ml_detection.ipynb //数据统计和处理的ipy
| | ├─xb_fraud_detection.ipynb //xgboost
| | ├─.ipynb_checkpoints
| | | └fraud_detection-checkpoint.ipynb //运行结果
| ├─DNN //DNN多层神经网络
| | ├─annealingTuning.py //退火超参数寻优
| | ├─bpNeuralNetworks.py //bp神经网络
| | ├─confusionMatrix.py //混淆矩阵
| | ├─originalDataInfo.py //原数据信息统计
| | ├─transCoding.py //编码
├─data //数据
| ├─credit.csv //原始数据的合并
| ├─featureEngineering.csv //特征工程之后的数据
| ├─undersampling.csv //欠采样数据
| ├─UNDERSAMPLING //欠采样数据的DataFrames直接导出
| | ├─X_b.csv
| | ├─X_test.csv
| | ├─Y_b.csv
| | └Y_test.csv
| ├─SMOTEENN //SMOTE+ENN的DataFrames直接导出
| | ├─X_b.csv
| | ├─X_test.csv
| | ├─Y_b.csv
| | └Y_test.csv
| ├─ORIGIN //原始数据
| | ├─application_record.csv
| | └credit_record.csv