# <h1 align = "center">分析影响 credit risk 的因素</h1>

In [None]:
import pandas as pd
import numpy as np
import researchpy as rp
import matplotlib.pyplot as plt
import seaborn as sns

# 导入数据
df = pd.read_csv(r"E:\\credit risk.csv",encoding="UTF-8")

np.round(df.describe(),4)
df.info()

#  数据可视化与分析

## 分类型变量

In [None]:
df["Loan Purpose"].value_counts()

In [None]:
plt.barh(df["Loan Purpose"].value_counts().index,df["Loan Purpose"].value_counts())

In [None]:
df["Loan Purpose"].value_counts()/len(df["Loan Purpose"])*100

In [None]:
labels=['Small Appliance','New Car','Furniture','Business','Used Car','Education','Repairs','Other','Large Appliance','Retraining']
plt.pie(df["Loan Purpose"].value_counts(),labels=labels, radius=2.6,autopct='%.2f%%')

贷款目的（Loan Purpose）有Small Appliance、New Car、Furniture、Business、Used Car、Education、Repairs、Other、Large Appliance、Retraining。最多的是Small Appliance，有105人，占比约为24.71%；最少的是Retraining，有2人，占比约为0.47%。  

In [None]:
df["Gender"].value_counts()

In [None]:
plt.barh(df["Gender"].value_counts().index,df["Gender"].value_counts())

In [None]:
df["Gender"].value_counts()/len(df["Gender"])*100

In [None]:
plt.pie(df["Gender"].value_counts(),labels=['M','F'],autopct='%.2f%%')

性别（Gender）有M（男性）和F（女性）。最多的是M（男性），有290人，占比约为68.24%；最少的是F（女性），有135人，占比约为31.76%。  

In [None]:
df["Marital Status"].value_counts()

In [None]:
plt.barh(df["Marital Status"].value_counts().index,df["Marital Status"].value_counts())

In [None]:
df["Marital Status"].value_counts()/len(df["Marital Status"])*100

In [None]:
plt.pie(df["Marital Status"].value_counts(),labels=['Single','Divorced','Married'],autopct='%.2f%%')

婚姻状况（Marital Status）有Single、Divorced、Married。最多的是Single，有233人，占比约为54.82%；最少的是Married，有36人，占比约为8.47%。

In [None]:
df["Housing"].value_counts()

In [None]:
plt.barh(df["Housing"].value_counts().index,df["Housing"].value_counts())

In [None]:
df["Housing"].value_counts()/len(df["Housing"])*100

In [None]:
plt.pie(df["Housing"].value_counts(),labels=['Own','Rent','Other'],autopct='%.2f%%')

住房（Housing）有Own、Rent、Other。最多的是Own，有292人，占比约为68.71%；最少的是Other，有52人，占比约为12.24%。

In [None]:
df["Job"].value_counts()

In [None]:
plt.barh(df["Job"].value_counts().index,df["Job"].value_counts())

In [None]:
df["Job"].value_counts()/len(df["Job"])*100

In [None]:
plt.pie(df["Job"].value_counts(),labels=['Skilled','Unskilled','Management','Unemployed'],autopct='%.2f%%')

工作（Job）有Skilled、Unskilled、Management、Unemployed。最多的是Skilled，有271人，占比约为63.76%；最少的是Unemployed，有11人，占比约为2.59%。

In [None]:
df["Credit Risk"].value_counts()

In [None]:
plt.barh(df["Credit Risk"].value_counts().index,df["Credit Risk"].value_counts())

In [None]:
df["Credit Risk"].value_counts()/len(df["Credit Risk"])*100

In [None]:
plt.pie(df["Credit Risk"].value_counts(),labels=['Low','High'],autopct='%.2f%%')

信用风险（Credit Risk）有Low、High。最多的是Low，有214人，占比约为50.35%；最少的是High，有211人，占比约为49.65%。

## 数值型变量

In [None]:
rp.summary_cont(df['Checking'])
skew=df['Checking'].skew()
print(f'skew={skew}')
kurtosis=df['Checking'].kurtosis()
print(f'kurtosis={kurtosis}')
df['Checking'].plot.hist()

Checking的均值为1048.0141，标准差为3147.1835，标准误为152.6608，95%置信区间为[747.9479,1348.0804]，偏度为4.1610071105941495，峰度为17.832994351312074。由于偏度系数大于0，说明数据存在右偏分布；峰度系数大于0，说明数据较为集中。

In [None]:
rp.summary_cont(df['Savings'])
skew=df['Savings'].skew()
print(f'skew={skew}')
kurtosis=df['Savings'].kurtosis()
print(f'kurtosis={kurtosis}')
df['Savings'].plot.hist()

Savings的均值为1812.5624，标准差为3597.285，标准误为174.494，95%置信区间为[1469.5815，2155.5433]，偏度为3.032593683497407，峰度为8.937463585276333。由于偏度系数大于0，说明数据存在右偏分布；峰度系数大于0，说明数据较为集中。

In [None]:
rp.summary_cont(df['Months Customer'])
skew=df['Months Customer'].skew()
print(f'skew={skew}')
kurtosis=df['Months Customer'].kurtosis()
print(f'kurtosis={kurtosis}')
df['Months Customer'].plot.hist()

Months Customer的均值为22.8965，标准差为12.2676，标准误为0.5951，95%置信区间为[21.7268，24.0661]，偏度为0.9390916407003154，峰度为0.4724334565250361。由于偏度系数大于0，说明数据存在右偏分布；峰度系数大于0，说明数据较为集中。

In [None]:
rp.summary_cont(df['Months Employed'])
skew=df['Months Employed'].skew()
print(f'skew={skew}')
kurtosis=df['Months Employed'].kurtosis()
print(f'kurtosis={kurtosis}')
df['Months Employed'].plot.hist()

Months Employed的均值为31.8965，标准差为32.2593，标准误为1.5648，95%置信区间为[28.8207，34.9722]，偏度为1.1273259492720364，峰度为0.18341185840481344。由于偏度系数大于0，说明数据存在右偏分布；峰度系数大于0，说明数据较为集中。

In [None]:
rp.summary_cont(df['Age'])
skew=df['Age'].skew()
print(f'skew={skew}')
kurtosis=df['Age'].kurtosis()
print(f'kurtosis={kurtosis}')
df['Age'].plot.hist()

Age的均值为34.3976，标准差为11.0451，标准误为0.5358，95%置信区间为[33.3446，35.4507]，偏度为0.9678156838825341，峰度为0.43878050063165785。由于偏度系数大于0，说明数据存在右偏分布；峰度系数大于0，说明数据较为集中。

In [None]:
rp.summary_cont(df['Years'])
skew=df['Years'].skew()
print(f'skew={skew}')
kurtosis=df['Years'].kurtosis()
print(f'kurtosis={kurtosis}')
df['Years'].plot.hist()

Years的均值为2.84，标准差为1.0871，标准误为0.0527，95%置信区间为[2.7363，2.9437]，偏度为-0.26505800832587145，峰度为-1.34521386807028。由于偏度系数小于0，说明数据存在左偏分布；峰度系数小于0，说明数据较为分散。

# 相关性度量

## 列联表分析

列联表分析是检验两个类别变量关系的统计方法，它通过检验两个类别变量之间是否相互独立(test of independence)来推断两个类别变量之间的关系。

In [None]:
data = df[['Loan Purpose','Credit Risk']]
tab = pd.crosstab(data['Loan Purpose'],data['Credit Risk'])
print(tab)

In [None]:
data = df[['Gender','Credit Risk']]
tab = pd.crosstab(data['Gender'],data['Credit Risk'])
print(tab)

In [None]:
data = df[['Marital Status','Credit Risk']]
tab = pd.crosstab(data['Marital Status'],data['Credit Risk'])
print(tab)

In [None]:
data = df[['Housing','Credit Risk']]
tab = pd.crosstab(data['Housing'],data['Credit Risk'])
print(tab)

In [None]:
data = df[['Job','Credit Risk']]
tab = pd.crosstab(data['Job'],data['Credit Risk'])
print(tab)

# logistic 回归模型

## 读取数据

In [None]:
#导入所需库
import numpy as np
import pandas as pd
from pandas import Series, DataFrame
import matplotlib.pyplot as plt
import seaborn as sns
from statsmodels.formula.api import glm
import statsmodels.api as sm
from scipy import stats

#读取数据
df = pd.read_csv(r"E:\\credit risk.csv",encoding="UTF-8")

#展示部分数据
df.head()

## 对数据进行基本描述统计。<br>

In [None]:
#对数据进行整体描述
np.round(df.describe(),4) 

In [None]:
#分组描述统计——Loan Purpose和Credit Risk
np.round(df[['Loan Purpose','Credit Risk']].groupby(['Credit Risk']).describe(),4)

在425名客户中，有214人信用风险低，其中，贷款目的是购买小型家电的人数最多；211人信用风险高，其中，贷款目的是购买新车的人数最多。

In [None]:
#分组描述统计——Checking和Credit Risk
np.round(df[['Checking','Credit Risk']].groupby(['Credit Risk']).describe(),4)

In [None]:
# 通过图形来描述因变量（"Credit Risk"）和自变量（"Checking"）的关系
# 因变量是类别变量（按因变量制作箱线图）
# 自变量是数值变量

# 创建一个图形窗口和坐标轴
f, ax = plt.subplots(figsize=(7, 6))

# 通过箱线图展示因变量（"Credit Risk"）和自变量（"Checking"）的关系
sns.boxplot(x="Credit Risk", y="Checking", data=df,
            whis=[0, 100], width=.6, palette="vlag")

# 添加散点图以展示每个观察值
sns.stripplot(x="Credit Risk", y="Checking", data=df,
              size=4, color=".3", linewidth=0)

# 绘制图形
ax.xaxis.grid(True)
ax.set(ylabel="")
sns.despine(trim=True, left=True)

在425名客户中，信用风险低的客户平均checking为1245.9813，信用风险高的客户平均checking为847.2322。	

In [None]:
#分组描述统计——Savings和Credit Risk
np.round(df[['Savings','Credit Risk']].groupby(['Credit Risk']).describe(),4)

In [None]:
# 通过图形来描述因变量（"Credit Risk"）和自变量（"Savings"）的关系
# 因变量是类别变量（按因变量制作箱线图）
# 自变量是数值变量

# 创建一个图形窗口和坐标轴
f, ax = plt.subplots(figsize=(7, 6))

# 通过箱线图展示因变量（"Credit Risk"）和自变量（"Savings"）的关系
sns.boxplot(x="Credit Risk", y="Savings", data=df,
            whis=[0, 100], width=.6, palette="vlag")

# 添加散点图以展示每个观察值
sns.stripplot(x="Credit Risk", y="Savings", data=df,
              size=4, color=".3", linewidth=0)

# 绘制图形
ax.xaxis.grid(True)
ax.set(ylabel="")
sns.despine(trim=True, left=True)

在425名客户中，信用风险低的客户平均Savings为2132.6168，信用风险高的客户平均Savings为1487.9573。

In [None]:
#分组描述统计——Months Customer和Credit Risk
np.round(df[['Months Customer','Credit Risk']].groupby(['Credit Risk']).describe(),4)

In [None]:
# 通过图形来描述因变量（"Credit Risk"）和自变量（"Months Customer"）的关系
# 因变量是类别变量（按因变量制作箱线图）
# 自变量是数值变量

# 创建一个图形窗口和坐标轴
f, ax = plt.subplots(figsize=(7, 6))

# 通过箱线图展示因变量（"Credit Risk"）和自变量（"Months Customer"）的关系
sns.boxplot(x="Credit Risk", y="Months Customer", data=df,
            whis=[0, 100], width=.6, palette="vlag")

# 添加散点图以展示每个观察值
sns.stripplot(x="Credit Risk", y="Months Customer", data=df,
              size=4, color=".3", linewidth=0)

# 绘制图形
ax.xaxis.grid(True)
ax.set(ylabel="")
sns.despine(trim=True, left=True)

在425名客户中，信用风险低的客户平均Months Customer为20.2009，信用风险高的客户平均Months Customer为25.6303。

In [None]:
#分组描述统计——Months Employed和Credit Risk
np.round(df[['Months Employed','Credit Risk']].groupby(['Credit Risk']).describe(),4)

In [None]:
# 通过图形来描述因变量（"Credit Risk"）和自变量（"Months Employed"）的关系
# 因变量是类别变量（按因变量制作箱线图）
# 自变量是数值变量

# 创建一个图形窗口和坐标轴
f, ax = plt.subplots(figsize=(7, 6))

# 通过箱线图展示因变量（"Credit Risk"）和自变量（"Months Employed"）的关系
sns.boxplot(x="Credit Risk", y="Months Employed", data=df,
            whis=[0, 100], width=.6, palette="vlag")

# 添加散点图以展示每个观察值
sns.stripplot(x="Credit Risk", y="Months Employed", data=df,
              size=4, color=".3", linewidth=0)

# 绘制图形
ax.xaxis.grid(True)
ax.set(ylabel="")
sns.despine(trim=True, left=True)

在425名客户中，信用风险低的客户平均Months Employed为34.9252，信用风险高的客户平均Months Employed为28.8246。

In [None]:
#分组描述统计——Gender和Credit Risk
np.round(df[['Gender','Credit Risk']].groupby(['Credit Risk']).describe(),4)

在425名客户中，信用风险低的客户中性别最多的是男性，信用风险高的客户中性别最多的也是男性。

In [None]:
#分组描述统计——Marital Status和Credit Risk
np.round(df[['Marital Status','Credit Risk']].groupby(['Credit Risk']).describe(),4)

在425名客户中，信用风险低的客户中单身人数最多，信用风险高的客户中也是单身人数最多。

In [None]:
#分组描述统计——Age和Credit Risk
np.round(df[['Age','Credit Risk']].groupby(['Credit Risk']).describe(),4)

In [None]:
# 通过图形来描述因变量（"Credit Risk"）和自变量（"Age"）的关系
# 因变量是类别变量（按因变量制作箱线图）
# 自变量是数值变量

# 创建一个图形窗口和坐标轴
f, ax = plt.subplots(figsize=(7, 6))

# 通过箱线图展示因变量（"Credit Risk"）和自变量（"Age"）的关系
sns.boxplot(x="Credit Risk", y="Age", data=df,
            whis=[0, 100], width=.6, palette="vlag")

# 添加散点图以展示每个观察值
sns.stripplot(x="Credit Risk", y="Age", data=df,
              size=4, color=".3", linewidth=0)

# 绘制图形
ax.xaxis.grid(True)
ax.set(ylabel="")
sns.despine(trim=True, left=True)

在425名客户中，信用风险低的客户平均年龄为35.3318岁，信用风险高的客户平均年龄为33.4502岁。

In [None]:
#分组描述统计——Housing和Credit Risk
np.round(df[['Housing','Credit Risk']].groupby(['Credit Risk']).describe(),4)

在425名客户中，信用风险低的客户中有房子的人数最多，信用风险高的客户中也是有房子的人数最多。

In [None]:
#分组描述统计——Years和Credit Risk
np.round(df[['Years','Credit Risk']].groupby(['Credit Risk']).describe(),4)

In [None]:
# 通过图形来描述因变量（"Credit Risk"）和自变量（"Years"）的关系
# 因变量是类别变量（按因变量制作箱线图）
# 自变量是数值变量

# 创建一个图形窗口和坐标轴
f, ax = plt.subplots(figsize=(7, 6))

# 通过箱线图展示因变量（"Credit Risk"）和自变量（"Years"）的关系
sns.boxplot(x="Credit Risk", y="Years", data=df,
            whis=[0, 100], width=.6, palette="vlag")

# 添加散点图以展示每个观察值
sns.stripplot(x="Credit Risk", y="Years", data=df,
              size=4, color=".3", linewidth=0)

# 绘制图形
ax.xaxis.grid(True)
ax.set(ylabel="")
sns.despine(trim=True, left=True)

在425名客户中，信用风险低的客户平均Years为2.7804，信用风险高的客户平均Years为2.9005。

In [None]:
#分组描述统计——Job和Credit Risk
np.round(df[['Job','Credit Risk']].groupby(['Credit Risk']).describe(),4)

在425名客户中，信用风险低的客户中Skilled人数最多，信用风险高的客户中也是Skilled人数最多。

## 建立logistic回归模型并分析结果。<br>

将分类变量转换为虚拟变量：

Credit Risk：Low=0，High=1<br>
Gender：F=0，M=1<br>
Marital Status：Married=0，Single=1，Divorced=2<br>
Housing：Own=0，Other=1，Rent=2<br>
Job：Management=0，Skilled=1，Unskilled=2，Unemployed=3

In [None]:
df = pd.read_csv("E:\credit risk1.csv",sep=',',header=0,encoding='UTF-8')

In [None]:
# 使用Logit模型进行拟合
Logit = sm.Logit(df[['Credit Risk']],df[['Checking','Savings','Months Customer','Months Employed',
                                         'Gender','Marital Status','Age','Housing','Years','Job']]).fit()

# 打印Logit模型的摘要
print(Logit.summary())

# 打印回归系数估计的结果
np.round(Logit.params,100)

Checking的回归系数为-0.000038，Savings的回归系数为-0.000057，Months Customer的回归系数为0.039319，Months Employed的回归系数为-0.004609，Gender的回归系数为-0.564546，Marital Status的回归系数为-0.069834，Age的回归系数为-0.012316，Housing的回归系数为0.251936，Years的回归系数为0.054890，Job的回归系数为0.006913。

## 计算OR值及其置信区间

In [None]:
#计算OR及其置信区间
model_odds = pd.DataFrame(np.exp(Logit.params), columns= ['OR'])
model_odds['p-value']= Logit.pvalues
model_odds[['2.5%', '97.5%']] = np.exp(Logit.conf_int())

np.round(model_odds,200)

OR列显示了每个自变量的Odds Ratio。从表中可知，客户Checking、Savings、Months Employed、Gender、Marital Status、Age的OR值均小于1，这表示这六个因素的增加会对“信用风险水平”产生负面影响；反之，其余因素为正向影响，例如Years每变化1个单位，客户信用风险的几率将增加1.056424倍。同时，客户Months Customer的p-value远小于显著性水平0.05，进一步表明其对事件信用风险高发生的几率有显著影响。

## 进行似然比检验，评估模型拟合效果。

In [None]:
#原假设模型的对数似然值
print("LR of H0:%.4f" %Logit.llnull)

#备择假设模型的对数似然值
print("LR of H1:%.4f"%Logit.llf)

#似然比
LR = -2 * (Logit.llnull -  Logit.llf)
print("LR:%.4f"%LR)

# 设置似然比检验的临界值和计算p值
stats.chisqprob = lambda chisq, df: stats.chi2.sf(chisq, df)
print("P:%.4f"%stats.chisqprob(LR, 3))

可见，原假设模型的对数似然值小于备择假设模型的对数似然值，证明模型拟合效果较好；而似然比检验的p值远小于0.05，说明全模型显著存在。