# 基于Python的信用评分模型开发-附数据和代码

![image.png](attachment:image.png)

![%E5%BE%AE%E4%BF%A1%E5%9B%BE%E7%89%87_20190918211452.jpg](attachment:%E5%BE%AE%E4%BF%A1%E5%9B%BE%E7%89%87_20190918211452.jpg)

典型的信用评分模型如图1-1所示。信用风险评级模型的主要开发流程如下： 

1.数据获取，包括获取存量客户及潜在客户的数据。存量客户是指已开展相关业务的客户；潜在客户是指未来拟开展相关业务的客户。

2.数据预处理，主要工作包括数据清洗、缺失值处理、异常值处理，主要是为了将获取的原始数据转化为可用作模型开发的格式化数据。

#3.探索性数据分析，该步骤主要是获取样本总体的大概情况，描述样本总体情况的指标主要有直方图、箱形图等。

4.变量选择，该步骤主要是通过统计学的方法，筛选出对违约状态影响最显著的指标。主要有单变量特征选择方法和基于机器学习模型的方法。

5.模型开发，该步骤主要包括变量分段、变量的WOE（证据权重）变换和逻辑回归估算三部分。

6.模型评估，该步骤主要是评估模型的区分能力、预测能力、稳定性，并形成模型评估报告，得出模型是否可以使用的结论。

7.信用评分，根据逻辑回归的系数和WOE等确定信用评分的方法。将Logistic模型转换为标准评分的形式

# 数据获取

数据来自Kaggle的Give Me Some Credit：https://www.kaggle.com/c/GiveMeSomeCredit/data，有15万条的样本数据，下图可以看到这份数据的大致情况。

# 数据预处理

#1 在对数据处理之前，需要对数据的缺失值和异常值情况进行了解。Python内有describe()函数，可以了解数据集的缺失值、均值和中位数等。

In [6]:
import pandas as pd

In [18]:
#宅如数据
data=pd.read_csv('cs-training.csv')
#数据集确实和分布情况,主要看数据的中位数，众数
data.describe().to_csv('DataDescribe.csv')

In [19]:
#读取DataDescribe.csv文件
df1=pd.read_csv('DataDescribe.csv')
df1

Unnamed: 0.2,Unnamed: 0,Unnamed: 0.1,SeriousDlqin2yrs,RevolvingUtilizationOfUnsecuredLines,age,NumberOfTime30-59DaysPastDueNotWorse,DebtRatio,MonthlyIncome,NumberOfOpenCreditLinesAndLoans,NumberOfTimes90DaysLate,NumberRealEstateLoansOrLines,NumberOfTime60-89DaysPastDueNotWorse,NumberOfDependents
0,count,150000.0,150000.0,150000.0,150000.0,150000.0,150000.0,120269.0,150000.0,150000.0,150000.0,150000.0,146076.0
1,mean,75000.5,0.06684,6.048438,52.295207,0.421033,353.005076,6670.221,8.45276,0.265973,1.01824,0.240387,0.757222
2,std,43301.414527,0.249746,249.755371,14.771866,4.192781,2037.818523,14384.67,5.145951,4.169304,1.129771,4.155179,1.115086
3,min,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
4,25%,37500.75,0.0,0.029867,41.0,0.0,0.175074,3400.0,5.0,0.0,0.0,0.0,0.0
5,50%,75000.5,0.0,0.154181,52.0,0.0,0.366508,5400.0,8.0,0.0,1.0,0.0,0.0
6,75%,112500.25,0.0,0.559046,63.0,0.0,0.868254,8249.0,11.0,0.0,2.0,0.0,1.0
7,max,150000.0,1.0,50708.0,109.0,98.0,329664.0,3008750.0,58.0,98.0,54.0,98.0,20.0


1. data.describe() #基本统计量
count   195.000000  #数量
mean   2744.595385 #均值
std     424.739407 #标准差
min     865.000000 #最小值
25%    2460.600000 #下四分位
50%    2655.900000 #中位数
75%    3023.200000 #上四分位
max    4065.200000 #最大值

range  3200.200000 #极差max-min
var       0.154755 #变异系数 std/mean

dis     562.600000 #四分位间距 75%-25%


# 3.1缺失值处理：随机森林

这种情况在现实问题中非常普遍，这会导致一些不能处理缺失值的分析方法无法应用，因此，在信用风险评级模型开发的第一步我们就要进行缺失值处理。缺失值处理的方法，包括如下几种。

１．直接删除含有缺失值的样本。

２．根据样本之间的相似性填补缺失值。

３．根据变量之间的相关关系填补缺失值。随机森林法

变量 MonthlyIncome 缺失率比较大，所以我们根据变量之间的相关关系填补缺失值，我们采用随机森林法：

#1 相关知识的补充

https://blog.csdn.net/weixin_38070397/article/details/80431546
#df.at的用法
#作用：获取某个位置的值，例如，df=df.at[0, 'a']获取第0行，第a列的值，即：index=0，columns='a'

df.ix的用法
作用：修改df指定位置的值，例如，df.in[(df.a==6),'c']=df['c']+20 将第a列值为6时，c列的值加上20，即：

In [20]:
import numpy as np
np.round(0.6)#取整数

1.0

In [23]:
# 用随机森林对缺失值预测填充函数
from sklearn.ensemble import RandomForestRegressor
def set_missing(df):
    # 把已有的数值型特征取出来
    process_df = df.ix[:,[5,0,1,2,3,4,6,7,8,9]]
    # 分成已知该特征和未知该特征两部分
#   known = process_df[process_df.MonthlyIncome.notnull()].as_matrix()##将表格转换为矩阵
#   unknown = process_df[process_df.MonthlyIncome.isnull()].as_matrix()#将表格转换为矩阵
    known = process_df[process_df.MonthlyIncome.notnull()].values()##将表格转换为矩阵
    unknown = process_df[process_df.MonthlyIncome.isnull()].values()#将表格转换为矩阵
    # X为特征属性值
    X = known[:, 1:]
    # y为结果标签值
    y = known[:, 0]
    # fit到RandomForestRegressor之中
    rfr = RandomForestRegressor(random_state=0,
    n_estimators=200,max_depth=3,n_jobs=-1)
    rfr.fit(X,y)
    # 用得到的模型进行未知特征值预测
    predicted = rfr.predict(unknown[:, 1:]).round(0)
    print(predicted)
    # 用得到的预测结果填补原缺失数据
    df.loc[(df.MonthlyIncome.isnull()), 'MonthlyIncome'] = predicted
    return df

NumberOfDependents 变量缺失值比较少，直接删除，对总体模型不会造成太大影响。对缺失值处理完之后，删除重复项。

In [24]:
data=set_missing(data)#用随机森林填补比较多的缺失值


.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  """


TypeError: 'numpy.ndarray' object is not callable

In [None]:
data=data.dropna()#删除比较少的缺失值
data = data.drop_duplicates()#删除重复项
data.to_csv('MissingData.csv',index=False)

#2 是否保留行索引 index:  whether to write row (index) names (default True)
dt.to_csv('C:/Users/think/Desktop/Result1.csv',index=0) #不保存行索引

# 3.2 异常值处理

缺失值处理完毕后，我们还需要进行异常值处理。异常值是指明显偏离大多数抽样数据的数值，比如个人客户的年龄为0时，通常认为该值为异常值。找出样本总体中的异常值，通常采用离群值检测的方法。

首先，我们发现变量age中存在0，显然是异常值，直接剔除：

In [None]:
# 年龄等于0的异常值进行剔除
data = data[data['age'] > 0]

In [None]:
#剔除异常值
data = data[data['NumberOfTime30-59DaysPastDueNotWorse'] < 90]  
#变量SeriousDlqin2yrs取反
data['SeriousDlqin2yrs']=1-data['SeriousDlqin2yrs']

# 3.3数据切分

#为了验证模型的拟合效果，我们需要对数据集进行切分，分成训练集和测试集。


In [None]:
from sklearn.cross_validation import train_test_split
    Y = data['SeriousDlqin2yrs']
    X = data.ix[:, 1:]
    #测试集占比30%
    X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.3, random_state=0)
    # print(Y_train)
    train = pd.concat([Y_train, X_train], axis=1)
    test = pd.concat([Y_test, X_test], axis=1)
    clasTest = test.groupby('SeriousDlqin2yrs')['SeriousDlqin2yrs'].count()
    train.to_csv('TrainData.csv',index=False)
    test.to_csv('TestData.csv',index=False)

 # 4 探索性分析 

在建立模型之前，我们一般会对现有的数据进行 EDA(Exploratory Data Analysis,探索性数据分析) 。EDA 是指对已有的数据（特别是调查或观察得来的原始数据）在尽量少的先验假定下进行探索。常用的探索性数据分析方法有：直方图、散点图和箱线图等。

# 5变量选择

特征变量选择(排序)对于数据分析、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能，更能帮助我们理解数据的特点、底层结构，这对进一步改善模型、算法都有着重要作用。至于Python的变量选择代码实现可以参考结合Scikit-learn介绍几种常用的特征选择方法：https://www.cnblogs.com/hhh5460/p/5186226.html。

在本文中，我们采用信用评分模型的变量选择方法，通过 WOE分析方法，即是通过比较指标分箱和对应分箱的违约概率来确定指标是否符合经济意义。首先我们对变量进行离散化（分箱）处理。

#5.1分箱处理

变量分箱(binning)是对连续变量离散化(discretization)的一种称呼。信用评分卡开发中一般有常用的等距分段、等深分段、最优分段。

其中等距分段(Equval length intervals)是指分段的区间是一致的，比如年龄以十年作为一个分段；

等深分段(Equal frequency intervals)是先确定分段数量，然后令每个分段中数据数量大致相等；

最优分段(Optimal Binning)又叫监督离散化(supervised discretizaion)，使用递归划分(Recursive Partitioning)将连续变量分为分段，背后是一种基于条件推断查找较佳分组的算法。

#5.11 我们首先选择对连续变量进行最优分段，在连续变量的分布不满足最优分段的要求时，再考虑对连续变量进行等距分段。最优分箱的代码如下：

In [None]:
# 定义自动分箱函数
def mono_bin(Y, X, n = 20):
    r = 0
    good=Y.sum()
    bad=Y.count() - good
    while np.abs(r) < 1:
        d1 = pd.DataFrame({"X": X, "Y": Y, "Bucket": pd.qcut(X, n)})
        d2 = d1.groupby('Bucket', as_index = True)
        r, p = stats.spearmanr(d2.mean().X, d2.mean().Y)
        n = n - 1
    d3 = pd.DataFrame(d2.X.min(), columns = ['min'])
    d3['min']=d2.min().X
    d3['max'] = d2.max().X
    d3['sum'] = d2.sum().Y
    d3['total'] = d2.count().Y
    d3['rate'] = d2.mean().Y
    d3['woe']=np.log((d3['rate']/(1-d3['rate']))/(good/bad))
    d4 = (d3.sort_index(by = 'min')).reset_index(drop=True)
    print("=" * 60)
    print(d4)
    return d4

针对我们将使用最优分段对于数据集中的 RevolvingUtilizationOfUnsecuredLines 、age、 DebtRatio和MonthlyIncome 进行分类。

In [None]:
#针对不能最优分箱的变量，分箱如下：
# 连续变量离散化
cutx3 = [ninf, 0, 1, 3, 5, pinf]
cutx6 = [ninf, 1, 2, 3, 5, pinf]
cutx7 = [ninf, 0, 1, 3, 5, pinf]
cutx8 = [ninf, 0,1,2, 3, pinf]
cutx9 = [ninf, 0, 1, 3, pinf]
cutx10 = [ninf, 0, 1, 2, 3, 5, pinf]