In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import copy
from scipy import stats
from sklearn.ensemble import RandomForestRegressor
import warnings

warnings.filterwarnings('ignore')

理解数据

In [2]:
data=pd.read_csv("data/cs-training.csv")
data=data.iloc[:,1:] #去掉第一列无用序号
data.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150000 entries, 0 to 149999
Data columns (total 11 columns):
 #   Column                                Non-Null Count   Dtype  
---  ------                                --------------   -----  
 0   SeriousDlqin2yrs                      150000 non-null  int64  
 1   RevolvingUtilizationOfUnsecuredLines  150000 non-null  float64
 2   age                                   150000 non-null  int64  
 3   NumberOfTime30-59DaysPastDueNotWorse  150000 non-null  int64  
 4   DebtRatio                             150000 non-null  float64
 5   MonthlyIncome                         120269 non-null  float64
 6   NumberOfOpenCreditLinesAndLoans       150000 non-null  int64  
 7   NumberOfTimes90DaysLate               150000 non-null  int64  
 8   NumberRealEstateLoansOrLines          150000 non-null  int64  
 9   NumberOfTime60-89DaysPastDueNotWorse  150000 non-null  int64  
 10  NumberOfDependents                    146076 non-null  float64
dtype

各个数据之间的关系

| Variable Name                        | Description                                                  |
| ------------------------------------ | ------------------------------------------------------------ |
| SeriousDlqin2yrs                     | 两年内超过90天或更糟的逾期拖欠（是/否）                                    |
| RevolvingUtilizationOfUnsecuredLines | 贷款及信用卡可用额度与总额度比例                             |
| age                                  | 借款人当时的年龄                                             |
| NumberOfTime30-59DaysPastDueNotWorse | 30-59天逾期但不糟糕次数                                      |
| DebtRatio                            | 负债比率                                                     |
| MonthlyIncome                        | 月收入                                                       |
| NumberOfOpenCreditLinesAndLoans      | 开放式信贷和贷款数量，开放式贷款（分期付款如汽车贷款或抵押贷款）和信贷（如信用卡）的数量 |
| NumberOfTimes90DaysLate              | 90天逾期次数                                                 |
| NumberRealEstateLoansOrLines         | 不动产贷款或额度数量：抵押贷款和不动产放款包括房屋净值信贷额度 |
| NumberOfTime60-89DaysPastDueNotWorse | 60-89天逾期但不糟糕次数：借款人在过去两年内有60-89天逾期还款但不糟糕的次数 |
| NumberOfDependents                   | 不包括本人在内的家属数量                                     |

共有11个特征共以下几类：
1. 逾期相关特征：逾期超过一个月次数，逾期超过两个月次数，逾期超过三个月次数，是否属于严重逾期
2. 个人特征：年龄，月收入，家属数量
3. 个人贷款信息： 贷款可用额度和总额度比例，负债比率，开放贷款数量，不动产额度数量

通过data.info可以看出，月收入和家属数量存在缺失值。
月收入缺失值较多且特征较为重要，选择随机森林算法进行缺失值填充。
家属数量缺失值较少，选择直接删除。

同时，需要注意到，在部分特征中，空值存在意义，不可以被删除或修改。

In [9]:
# 用随机森林对确实之预测填充函数
from sklearn.ensemble import RandomForestRegressor
from sklearn.datasets import make_regression

def set_missing(df):
    process_df = df.iloc[:,[5,0,1,2,3,4,6,7,8,9]] # 把已有的数值型特征取出来
    # 分成已知该特征和未知该特征两部分
    known = process_df[process_df.MonthlyIncome.notnull()].values
    unknown = process_df[process_df.MonthlyIncome.isnull()].values
    X = known[:, 1:]    # X为特征属性值
    y = known[:, 0]    # y为结果标签值
    rfr = RandomForestRegressor(random_state=0, n_estimators=200,max_depth=3,n_jobs=-1)
    rfr.fit(X,y)
    # 用得到的模型进行未知特征值预测 月收入
    predicted = rfr.predict(unknown[:, 1:]).round(0)
    print(predicted)
    # 用得到的预测结果填补原缺失数据
    df.loc[df.MonthlyIncome.isnull(), 'MonthlyIncome'] = predicted
    return df
data=set_missing(data)#用随机森林填补比较多的缺失值
data=data.dropna()#删除比较少的缺失值 ：NumberOfDependents
data = data.drop_duplicates()#删除重复项
data.info()

[8311. 1159. 8311. ... 1159. 2554. 2554.]
<class 'pandas.core.frame.DataFrame'>
Int64Index: 145563 entries, 0 to 149999
Data columns (total 11 columns):
 #   Column                                Non-Null Count   Dtype  
---  ------                                --------------   -----  
 0   SeriousDlqin2yrs                      145563 non-null  int64  
 1   RevolvingUtilizationOfUnsecuredLines  145563 non-null  float64
 2   age                                   145563 non-null  int64  
 3   NumberOfTime30-59DaysPastDueNotWorse  145563 non-null  int64  
 4   DebtRatio                             145563 non-null  float64
 5   MonthlyIncome                         145563 non-null  float64
 6   NumberOfOpenCreditLinesAndLoans       145563 non-null  int64  
 7   NumberOfTimes90DaysLate               145563 non-null  int64  
 8   NumberRealEstateLoansOrLines          145563 non-null  int64  
 9   NumberOfTime60-89DaysPastDueNotWorse  145563 non-null  int64  
 10  NumberOfDependents        

上述代码的一些问题：
dataframe中部分函数进行了替换
ix -> iloc
as_matrix -> values
