# 使用随机森林预测德国人信贷风险

*数据集解释*
- NO.：数据序号
- Age：数值类型；年龄
- Sex：字符串类型；性别；有2个值，分别为male（男性）和female（女性）
- Job：数值类型；工作状态；有4个值，分别为0、1、2、3；0：unskilled and non-resident（无特长且非本地居民），1：unskilled and resident（无特长且是本地居民），2：skilled（有特长），3：highly skilled（技艺高超）
- Housing：字符串类型；有3个值，分别为own（有房子），rent（租房子），free（自己没房子也不租房，比如政府的救济房、比如住在别人家里）
- Saving accounts：字符串类型；活期储蓄账户存款多少（有固定利率）；有4个值，分别是little（几乎没有），moderate（中等），rich（富有），quite rich（非常富有）；如果有缺失数据，很大可能是这个人没有银行账户
- Checking account：字符串类型；普通支票账户存款多少（一般无息）；有3个值，分别是little（几乎没有），moderate（中等），rich（富有）；如果有缺失数据，很大可能是这个人没有银行账户
- Credit amount：数值类型；信贷额度（单位DM，即马克）
- Duration：数值类型；信贷时间（单位月）
- Purpose：字符串类型；贷款目的；有8个值，分别是car（买车），furniture/equipment（家具/装备），radio/TV（收音机/电视），domestic appliances（家用电器），repairs（维修），education（教育），business（做生意），vacation/others（度假/其它）
- Risk：字符串类型；信用风险等级；有2个值，分别为good（无风险），bad（有风险）


## 导入包

In [14]:
import numpy as np
import pandas as pd 
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import LabelEncoder

## 导入数据

In [3]:
data=pd.read_csv("./data/german_credit_data.csv")
data.info()
data.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 11 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   NO.               1000 non-null   int64 
 1   Age               1000 non-null   int64 
 2   Sex               1000 non-null   object
 3   Job               1000 non-null   int64 
 4   Housing           1000 non-null   object
 5   Saving accounts   817 non-null    object
 6   Checking account  606 non-null    object
 7   Credit amount     1000 non-null   int64 
 8   Duration          1000 non-null   int64 
 9   Purpose           1000 non-null   object
 10  Risk              1000 non-null   object
dtypes: int64(5), object(6)
memory usage: 86.1+ KB


Unnamed: 0,NO.,Age,Sex,Job,Housing,Saving accounts,Checking account,Credit amount,Duration,Purpose,Risk
0,0,67,male,2,own,,little,1169,6,radio/TV,good
1,1,22,female,2,own,little,moderate,5951,48,radio/TV,bad
2,2,49,male,1,own,little,,2096,12,education,good
3,3,45,male,2,free,little,little,7882,42,furniture/equipment,good
4,4,53,male,2,free,little,little,4870,24,car,bad


## 数据预处理

In [4]:
### 删除无关列NO.
data.drop(["NO."],axis=1,inplace=True)
data.head()


Unnamed: 0,Age,Sex,Job,Housing,Saving accounts,Checking account,Credit amount,Duration,Purpose,Risk
0,67,male,2,own,,little,1169,6,radio/TV,good
1,22,female,2,own,little,moderate,5951,48,radio/TV,bad
2,49,male,1,own,little,,2096,12,education,good
3,45,male,2,free,little,little,7882,42,furniture/equipment,good
4,53,male,2,free,little,little,4870,24,car,bad


In [7]:
### 统计空数据
def calcNull(data):
    nullSum=data.isnull().sum()
    nullSum=nullSum.drop(nullSum[nullSum.values==0].index)
    return nullSum

print(calcNull(data))


Saving accounts     183
Checking account    394
dtype: int64


In [8]:
### 将Saving accounts和Checking account填充为最高频率的值(可能是由于隐私问题未填，将其设置为众数)
data["Saving accounts"]=data["Saving accounts"].fillna(data["Saving accounts"].mode()[0])
data["Checking account"]=data["Checking account"].fillna(data["Checking account"].mode()[0])
print(calcNull(data))

Series([], dtype: int64)


In [21]:
## 使用独热码分离类别变量
data = pd.get_dummies(data, drop_first = True) 
data.head()

Unnamed: 0,Age,Job,Credit amount,Duration,Sex_male,Housing_own,Housing_rent,Saving accounts_moderate,Saving accounts_quite rich,Saving accounts_rich,Checking account_moderate,Checking account_rich,Purpose_car,Purpose_domestic appliances,Purpose_education,Purpose_furniture/equipment,Purpose_radio/TV,Purpose_repairs,Purpose_vacation/others,Risk_good
0,67,2,1169,6,1,1,0,0,0,0,0,0,0,0,0,0,1,0,0,1
1,22,2,5951,48,0,1,0,0,0,0,1,0,0,0,0,0,1,0,0,0
2,49,1,2096,12,1,1,0,0,0,0,0,0,0,0,1,0,0,0,0,1
3,45,2,7882,42,1,0,0,0,0,0,0,0,0,0,0,1,0,0,0,1
4,53,2,4870,24,1,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0


In [22]:
## 分离自变量与因变量
X=data.iloc[:,:-1]
Y=data.iloc[:,-1]
Y

0      1
1      0
2      1
3      1
4      0
      ..
995    1
996    1
997    1
998    0
999    1
Name: Risk_good, Length: 1000, dtype: uint8

In [24]:
## 特征缩放
SC= StandardScaler()
X=SC.fit_transform(X)
X

array([[ 2.76645648,  0.14694918, -0.74513141, ...,  1.60356745,
        -0.14998296, -0.11020775],
       [-1.19140394,  0.14694918,  0.94981679, ...,  1.60356745,
        -0.14998296, -0.11020775],
       [ 1.18331231, -1.38377145, -0.41656241, ..., -0.62360956,
        -0.14998296, -0.11020775],
       ...,
       [ 0.21583532,  0.14694918, -0.87450324, ...,  1.60356745,
        -0.14998296, -0.11020775],
       [-1.10345149,  0.14694918, -0.50552769, ...,  1.60356745,
        -0.14998296, -0.11020775],
       [-0.75164167,  0.14694918,  0.46245715, ..., -0.62360956,
        -0.14998296, -0.11020775]])

In [39]:
## 拆分训练集和测试集
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size = 0.3)
print(X_train.shape,X_test.shape,Y_train.shape,Y_test.shape)
print("训练集Y为有风险占比",Y_train.sum()/Y_train.shape[0])
print("测试集Y为有风险占比",Y_test.sum()/Y_test.shape[0])

(700, 19) (300, 19) (700,) (300,)
训练集Y为有风险占比 0.6928571428571428
测试集Y为有风险占比 0.7166666666666667


## 构建随机森林模型

```python
class sklearn.ensemble.RandomForestClassifier(n_estimators=10, crite-rion=’gini’, max_depth=None,  
min_samples_split=2, min_samples_leaf=1,  
min_weight_fraction_leaf=0.0,  
max_features=’auto’,  
max_leaf_nodes=None, bootstrap=True,  
oob_score=False, n_jobs=1, ran-dom_state=None, verbose=0,  
warm_start=False, class_weight=None)  
```
[api参数详解](https://blog.csdn.net/u012102306/article/details/52228516)
> criterion: ”gini” or “entropy”(default=”gini”)是计算属性的gini(基尼不纯度)还是entropy(信息增益)，来选择最合适的节点。
> 
> splitter: ”best” or “random”(default=”best”)随机选择属性还是选择不纯度最大的属性，建议用默认。
> 
> max_features: 选择最适属性时划分的特征不能超过此值。当为整数时，即最大特征数；当为小数时，训练集特征数*小数；
> 
> - if “auto”, then max_features=sqrt(n_features).
> - If “sqrt”, thenmax_features=sqrt(n_features).
> - If “log2”, thenmax_features=log2(n_features).
> - If None, then max_features=n_features.
> 
> max_depth: (default=None)设置树的最大深度，默认为None，这样建树时，会使每一个叶节点只有一个类别，或是达到min_samples_split。
> 
> min_samples_split:根据属性划分节点时，每个划分最少的样本数。
> min_samples_leaf:叶子节点最少的样本数。
> 
> max_leaf_nodes: (default=None)叶子树的最大样本数。
> 
> min_weight_fraction_leaf: (default=0) 叶子节点所需要的最小权值
> 
> verbose:(default=0) 是否显示任务进程
> 
> n_estimators=10：决策树的个数，越多越好，但是性能就会越差，至少100左右（具体数字忘记从哪里来的了）可以达到可接受的性能和误差率。 
> bootstrap=True：是否有放回的采样。  
> oob_score=False：oob（out of band，带外）数据，即：在某次决策树训练中没有被bootstrap选中的数据。多单个模型的参数训练，我们知道可以用cross validation（cv）来进行，但是特别消耗时间，而且对于随机森林这种情况也没有大的必要，所以就用这个数据对决策树模型进行验证，算是一个简单的交叉验证。性能消耗小，但是效果不错。  
> 
> n_jobs=1：并行job个数。这个在ensemble算法中非常重要，尤其是bagging（而非boosting，因为boosting的每次迭代之间有影响，所以很难进行并行化），因为可以并行从而提高性能。1=不并行；n：n个并行；-1：CPU有多少core，就启动多少job
> 
> warm_start=False：热启动，决定是否使用上次调用该类的结果然后增加新的。  
> 
> class_weight=None：各个label的权重。  

In [40]:
###导入模型训练
from sklearn.ensemble import RandomForestClassifier
cf = RandomForestClassifier(n_estimators=50,max_depth=9, max_features='auto', min_samples_leaf=5)
cf.fit(X_train, Y_train)
### 预测模型
Y_pre=cf.predict(X_test)
Y_pre

array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1,
       1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1,
       1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 0, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 0, 0, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 0,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 0, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1], d

In [41]:
### 预测模型
Y_pre=cf.predict(X_test)
Y_pre

array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1,
       1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1,
       1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 0, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 0, 0, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 0,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 0, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1], d

In [42]:
### 生成混淆矩阵
from sklearn.metrics import confusion_matrix
cm = confusion_matrix(Y_test, Y_pre)
print("混淆矩阵:",cm)
print("准确度:",(cm[0][0]+cm[1][1])/cm.sum())

混淆矩阵: [[ 15  70]
 [  9 206]]
准确度: 0.7366666666666667


In [43]:
### 挑选最优参
def search_best_estimators(st,ed):
    best_score=0
    best_i=0;
    for i in range(st,ed+1):
        cf = RandomForestClassifier(n_estimators=i,max_depth=20, max_features='auto', min_samples_leaf=5,n_jobs=-1)
        cf.fit(X_train, Y_train)
        Y_pre=cf.predict(X_test)
        Y_pre
        cm = confusion_matrix(Y_test, Y_pre)
        print("--------estimators="+str(i)+"--------")
        print("准确度:",(cm[0][0]+cm[1][1])/cm.sum())
        print("混淆矩阵:",cm)
        if((cm[0][0]+cm[1][1])/cm.sum()>best_score):
            best_i=i
            best_score=(cm[0][0]+cm[1][1])/cm.sum()
    return best_i,best_score
        
best_i,best_score=search_best_estimators(70,110)
print("最优的estimators为%d,准确度为%.3f"%(best_i,best_score))

--------estimators=70--------
准确度: 0.7233333333333334
混淆矩阵: [[ 13  72]
 [ 11 204]]
--------estimators=71--------
准确度: 0.7466666666666667
混淆矩阵: [[ 17  68]
 [  8 207]]
--------estimators=72--------
准确度: 0.73
混淆矩阵: [[ 15  70]
 [ 11 204]]
--------estimators=73--------
准确度: 0.7433333333333333
混淆矩阵: [[ 17  68]
 [  9 206]]
--------estimators=74--------
准确度: 0.7133333333333334
混淆矩阵: [[ 13  72]
 [ 14 201]]
--------estimators=75--------
准确度: 0.7366666666666667
混淆矩阵: [[ 17  68]
 [ 11 204]]
--------estimators=76--------
准确度: 0.7433333333333333
混淆矩阵: [[ 16  69]
 [  8 207]]
--------estimators=77--------
准确度: 0.7366666666666667
混淆矩阵: [[ 17  68]
 [ 11 204]]
--------estimators=78--------
准确度: 0.7333333333333333
混淆矩阵: [[ 15  70]
 [ 10 205]]
--------estimators=79--------
准确度: 0.7366666666666667
混淆矩阵: [[ 14  71]
 [  8 207]]
--------estimators=80--------
准确度: 0.7333333333333333
混淆矩阵: [[ 17  68]
 [ 12 203]]
--------estimators=81--------
准确度: 0.7366666666666667
混淆矩阵: [[ 14  71]
 [  8 207]]
--------estimators

In [None]:
## 分析发现当准确度不高时，可能是训练集测试集划分不均，要尽可能让Y=0或1占比在一半