In [1]:
import pandas as pd
from scipy import stats
%matplotlib inline
import statsmodels.api as sm
from matplotlib import pyplot as plt
import warnings 
warnings.filterwarnings('ignore')


In [2]:
credit_card_exp = pd.read_csv('./creditcard_exp.csv',skipinitialspace = True)  
#skipinitialspace : boolean, default False忽略分隔符后的空白（默认为False，即不忽略）.

In [3]:
credit_card_exp = credit_card_exp.dropna(how='any')

In [4]:
credit_card_exp.head()

Unnamed: 0,id,Acc,avg_exp,avg_exp_ln,gender,Age,Income,Ownrent,Selfempl,dist_home_val,dist_avg_income,age2,high_avg,edu_class
0,19,1,1217.03,7.104169,1,40,16.03515,1,1,99.93,15.932789,1600,0.102361,3
1,5,1,1251.5,7.132098,1,32,15.8475,1,0,49.88,15.796316,1024,0.051184,2
3,86,1,856.57,6.752936,1,41,11.47285,1,0,16.1,11.275632,1681,0.197218,3
4,50,1,1321.83,7.186772,1,28,13.40915,1,0,100.39,13.346474,784,0.062676,2
5,67,1,816.03,6.704451,1,41,10.03015,0,1,119.76,10.332263,1681,-0.302113,3


In [5]:
credit_card_exp.avg_exp.groupby(credit_card_exp.gender).describe()

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
gender,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
0,50.0,925.7052,430.833365,163.18,593.3125,813.65,1204.7775,1992.39
1,20.0,1128.531,462.281389,648.15,829.86,1020.005,1238.2025,2430.03


可以看到男性（0）信用卡平均数为925.7，女性（1）信用卡消费平均数为1129，显然男女信用卡消费是有差异的，接下来可以使用双样本t检验查看这种差异是否显著

在使用双样本t检验前，有三个基本条件需要被考虑：

    a.观测之间独立
    b.两组均服从正态分布
    c.两组样本的方差是否相同，视其是否相同采用不同的统计两进行检验

因此在进行双样本t检验前需要进行方差齐性经验。

    方差齐性检验的原假设为两组样本方差相同，检验的统计量F由两组样本方差中的最大值除以最小值得到，可以证明该统计量服从F分布，若抽样结果计算的F值在分布曲线的小概率区间内，意味着差异显著（即两样本方差不同），拒绝原假设，反之相反。

综上所述：双样本t检验的流程如下：
    
    1.获取两组样本数据，计算其均值；
    
    2.进行方差齐性检验；
    
    3.若方差齐，进行方差齐的双样本t检验，若不齐，进行方差不齐的双样本t检验。
    
下面继续研究信用卡消费与性别的关系，先进行方差齐性检验如下：

In [6]:
gender_0 = credit_card_exp[credit_card_exp.gender == 0]['avg_exp']
gender_1 = credit_card_exp[credit_card_exp.gender == 1]['avg_exp']

In [7]:
leveneTestres = stats.levene(gender_0,gender_1,center = 'median')

Levene检验检验所有输入样本均来自方差相等的原假设;

'median'：建议用于偏斜（非正态）分布>

'mean'：建议用于对称，中尾分布。

'trimmed'：建议用于重尾分布。

In [8]:
print('w-value = %6.4f,p-value = %6.4f'%leveneTestres)

w-value = 0.0683,p-value = 0.7946


首先进行方差齐性检验，发现p值是0.6702，不能拒绝原假设，即男性消费样本与女性消费样本的方差是相同的。因此进行方差齐性的双样本t检验：

In [9]:
stats.stats.ttest_ind(gender_0,gender_1,equal_var = True)

Ttest_indResult(statistic=-1.742901386808629, pvalue=0.08587122878448449)

scipy.stats.ttest_ind（a，b，axis = 0，equal_var = True，nan_policy ='propagate' ）

计算两个独立样本得分的平均值的T检验。

这是针对零假设（两个独立样本具有相同的平均（预期）值）的原边检验。该测试假定总体上默认具有相同的方差

进行双样本t检验，并设定方差齐（参数equal_var = True），结果表明p值为0.08，若以0.05为显著性水平，说明男
性与女性在信用卡消费上无显著差异

# 6.4 方差分析

# 6.4.1单因素方差分析（分类变量和连续变量的关系检验）

方差分析用于检验多个样本的均值是否有显著差异，所以其用于分析多余两个分类的分类变量与连续变量的关系。

研究行用卡的消费是否受教育程度影响，可以使用单因素方差分析，其前提条件与双样本t检验相似：
    
    1.获取两组样本数据，计算其均值；
    
    2.进行方差齐性检验；
    
    3.若方差齐，进行方差齐的双样本t检验，若不齐，进行方差不齐的双样本t检验。
    
需要注意的是在方差分析中，原假设为所有组的方差相等，备择假设为至少有两组方差不等。

数据的总误差 = 组内误差 + 组间误差

在Python中进行单因素方差分析可以使用下列方法：

In [10]:
edu = []
for i in range(4):
    edu.append(credit_card_exp[credit_card_exp.edu_class == i]['avg_exp'])
stats.f_oneway(*edu)

F_onewayResult(statistic=31.825683356937645, pvalue=7.658361691248968e-13)

scipy.stats.f_oneway(*args)

Performs a 1-way ANOVA.

从结果上看，F值为31.8，p值接近与0，所以拒绝原假设，即教育程度会显著影响信用卡的消费。

# 6.4.2多因素方差分析

单因素方差分析可以检验一个分类变量与一个连续变量之间的关系（教育程度为分类变量，消费额为连续变量），多因素方差分析可以检验多个分类变量与一个连续变量的关系

# 有交互作用的多因素方差分析

    多个因素搭配在一起会对因变量产生一种新的效应

下面是一个关于信用卡消费与性别、教育程度的关系的实例：
    
    首先考虑无交互作用，代码如下：

In [19]:
from statsmodels.formula.api import ols
ana = ols('avg_exp ~ C(edu_class) + C(gender)',data = credit_card_exp).fit()

In [20]:
sm.stats.anova_lm(ana)

Unnamed: 0,df,sum_sq,mean_sq,F,PR(>F)
C(edu_class),3.0,8126056.0,2708685.0,31.578365,1.031496e-12
C(gender),1.0,41782.73,41782.73,0.487111,0.4877082
Residual,65.0,5575481.0,85776.62,,


单因素方差分析的结果可以看到不同教育程度的平均支出存在差异，而性别对支出则没有显著差异

接下来进行加入交互项的方差分析：
    
    代码如下：

In [21]:
ana1 = ols('avg_exp ~ C(edu_class) + C(gender) + C(edu_class)*C(gender)',data = credit_card_exp).fit()
sm.stats.anova_lm(ana1)

Unnamed: 0,df,sum_sq,mean_sq,F,PR(>F)
C(edu_class),3.0,8126056.0,2708685.0,33.83935,3.753889e-13
C(gender),1.0,41782.73,41782.73,0.521988,0.4726685
C(edu_class):C(gender),3.0,535579.9,178526.6,2.230316,0.09333507
Residual,63.0,5042862.0,80045.44,,


可以看到教育程度与性别的交互项对平均支出的影响是显著的。将ana1的基本信息输出：

In [22]:
ana1.summary()

0,1,2,3
Dep. Variable:,avg_exp,R-squared:,0.633
Model:,OLS,Adj. R-squared:,0.598
Method:,Least Squares,F-statistic:,18.12
Date:,"Sat, 07 Mar 2020",Prob (F-statistic):,4.35e-12
Time:,17:53:53,Log-Likelihood:,-490.8
No. Observations:,70,AIC:,995.6
Df Residuals:,63,BIC:,1011.0
Df Model:,6,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,207.3700,200.057,1.037,0.304,-192.412,607.152
C(edu_class)[T.1],417.8090,209.367,1.996,0.050,-0.577,836.195
C(edu_class)[T.2],732.2613,212.977,3.438,0.001,306.661,1157.861
C(edu_class)[T.3],1346.5708,216.086,6.232,0.000,914.757,1778.384
C(gender)[T.1],-0.0168,67.939,-0.000,1.000,-135.782,135.749
C(edu_class)[T.1]:C(gender)[T.1],192.7428,162.889,1.183,0.241,-132.765,518.251
C(edu_class)[T.2]:C(gender)[T.1],96.8755,110.846,0.874,0.385,-124.632,318.383
C(edu_class)[T.3]:C(gender)[T.1],-289.6350,109.331,-2.649,0.010,-508.115,-71.155

0,1,2,3
Omnibus:,35.697,Durbin-Watson:,2.331
Prob(Omnibus):,0.0,Jarque-Bera (JB):,98.497
Skew:,1.59,Prob(JB):,4.0900000000000002e-22
Kurtosis:,7.864,Cond. No.,2.12e+16


# 6.5 相关分析（两连续变量关系检验）

下面的示例用于探索信用卡消费与收入之间的相关关系，代码如下所示：

In [25]:
credit_card_exp[['Income','avg_exp']].corr(method='pearson')

Unnamed: 0,Income,avg_exp
Income,1.0,0.674011
avg_exp,0.674011,1.0
