# ADP 통계분석
***



In [50]:
import pandas as pd
import numpy as np

from sklearn.datasets import load_boston, load_wine, load_breast_cancer

import warnings
warnings.filterwarnings('ignore')

## 1. 상관분석

In [60]:
from scipy.stats import pearsonr, spearmanr, kendalltau

In [54]:
data = pd.DataFrame(load_boston().data, columns = load_boston().feature_names)
data['target'] = load_boston().target

#### 피어슨 상관계수

In [56]:
corr = pearsonr(data.TAX, data.target)

In [59]:
print(f'피어슨 상관수 검정 결과 상관계수는 {round(corr[0], 4)}이고 유의확률은 {round(corr[1], 4)}')

피어슨 상관수 검정 결과 상관계수는 -0.4685이고 유의확률은 0.0


#### 스피어만 상관계수

In [61]:
corr = spearmanr(data.TAX, data.target)

In [62]:
print(f'스피어만 상관수 검정 결과 상관계수는 {round(corr[0], 4)}이고 유의확률은 {round(corr[1], 4)}')

스피어만 상관수 검정 결과 상관계수는 -0.5624이고 유의확률은 0.0


#### 켄달 상관계수

In [63]:
corr = kendalltau(data.TAX, data.target)

In [64]:
print(f'켄달 상관수 검정 결과 상관계수는 {round(corr[0], 4)}이고 유의확률은 {round(corr[1], 4)}')

켄달 상관수 검정 결과 상관계수는 -0.4146이고 유의확률은 0.0


## 2. T-검정

In [51]:
from scipy.stats import ttest_1samp, shapiro, ttest_ind, ttest_rel, ttest_ind, bartlett

### 1) 일표본 t-검정

- 모집단의 데이터가 정규분포를 이룬다는 가정하에 계산함.

In [10]:
data = pd.DataFrame(load_boston().data, columns = load_boston().feature_names)
data['target'] = load_boston().target

#### 데이터의 target의 <font color = 'red'>평균이 15<font color = 'black'>라고 하고 <font color = 'red'> **일표본 t-검정** <font color = 'black'>실행

In [28]:
s_test = shapiro(data.target)

In [29]:
print(f'shapiro의 통계량은 {round(s_test.statistic, 5)}이고 p-value는 {round(s_test.pvalue, 7)}')

shapiro의 통계량은 0.91717이고 p-value는 0.0


#### shpiro 검정 결과 유의확률이 0에 근사하므로 '데이터는 정규분포를 따른다'는 귀무가설을 기각한다.

In [34]:
one_sample_t_test = ttest_1samp(data.target, 15)

In [37]:
print(f'일표본 t-검정의 일표본 t-통계량은 {round(one_sample_t_test.statistic, 5)}이고 p-value는 {round(one_sample_t_test.pvalue, 7)}')

일표본 t-검정의 일표본 t-통계량은 18.42387이고 p-value는 0.0


In [41]:
print(f'해당 검정 결과 자유도는 {data.shape[0] - 1}이다.')

해당 검정 결과 자유도는 505이다.


#### t-통계량은 18.4이고 유의확률은 0에 근사하기 때문에 'target의 평균이 15다'라는 귀무가설을 기각한다.

### 2) 대응표본 t-검정

- 단일모집단에 대해 두 번의 처리를 가했을 때 두 방법에 따른 평균의 차이 비교

In [31]:
v1 = [3, 6, 10, 12, 45, 192, 435, 5, 67]
v2 = [294, 342, 6, 9, 15, 50, 72, 99, 33]

In [36]:
paired_t_test = ttest_rel(v1, v2)

In [39]:
print(f'대응표본 t-검정의 대응표본 t-통계량은 {round(paired_t_test.statistic, 5)}이고 p-value는 {round(paired_t_test.pvalue, 7)}')

대응표본 t-검정의 대응표본 t-통계량은 -0.22845이고 p-value는 0.8250262


#### t-통계량은 -0.23이고 유의확률은 0.83으로 유의수준(0.05) 보다 크기 때문에 '두 방법에 따른 평균의 차이는 없다'라는 귀무가설을 채택한다.

### 3) 독립표본 t-검정
- 두 개의 독립된 모집단의 평균을 비교

<가정>
1. 두 집단 모두 정규성을 만족.
2. 두 집단이 서로 독립
3. 두 집단이 등분산성을 만족

In [30]:
data = pd.DataFrame(load_wine().data, columns = load_wine().feature_names)
data['target'] = load_wine().target

#### class가 0과 1인 두 집단에 대해 독립표본 t-검정 시행

In [57]:
class_0 = data[data.target == 0]['alcohol']
class_1 = data[data.target == 1]['alcohol']

In [58]:
same_var_test = bartlett(class_0, class_1)

In [61]:
print(f'등분산 검정 결과 F-통계량은 {round(same_var_test.statistic, 4)}이고 p-value는 {round(same_var_test.pvalue, 4)}이다.')

등분산 검정 결과 F-통계량은 1.4342이고 p-value는 0.2311이다.


#### 등분산 검정 결과 유의수준(0.05) 보다 유의확률이 크므로 '두 집단의 데이터가 등분산을 만족한다.'라는 귀무가설을 채택한다.

#### 만약 등분산성이 만족되지 않으면 ttest_ind 인자에 equal_var = False 입력하면 된다.

In [62]:
ind_sample_t_test = ttest_ind(class_0, class_1)

In [63]:
print(f'독립표본 t-검정의 독립표본 t-통계량은 {round(ind_sample_t_test.statistic, 5)}이고 p-value는 {round(ind_sample_t_test.pvalue, 7)}')

독립표본 t-검정의 독립표본 t-통계량은 16.47855이고 p-value는 0.0


#### 독립표본 수행 결과 통계량은 16.48이고 유의확률은 0에 근사하므로 귀무가설인 '두 지역의 차이가 통계적으로 유의하지 않다'는 귀무가설을 기각한다.

## 3. 분산분석(ANOVA)

In [86]:
from statsmodels.formula.api import ols
from statsmodels.stats.anova import anova_lm
from statsmodels.stats.multicomp import pairwise_tukeyhsd

### 1) 일원배치 분산분석
- 하나의 범주형 변수의 영향 탐색
- F-통계량 이용

<가정>
1. 각 집단의 데이터가 독립이며 정규분포를 따른다.
2. 등분산을 만족한다.

In [34]:
data = pd.read_csv('/Users/kisehyun/study_code/ADP/PART 05 실습용 데이터/credit_final.csv')

In [75]:
data.head()

Unnamed: 0,credit.rating,account.balance,credit.duration.months,previous.credit.payment.status,credit.purpose,credit.amount,savings,employment.duration,installment.rate,marital.status,...,residence.duration,current.assets,age,other.credits,apartment.type,bank.credits,occupation,dependents,telephone,foreign.worker
0,1,1,18,3,2,1049,1,1,4,1,...,4,2,21,2,1,1,3,1,1,1
1,1,1,9,3,4,2799,1,2,2,3,...,2,1,36,2,1,2,3,2,1,1
2,1,2,12,2,4,841,2,3,2,1,...,4,1,23,2,1,1,2,1,1,1
3,1,1,12,3,4,2122,1,2,3,3,...,2,1,39,2,1,2,2,2,1,2
4,1,1,12,3,4,2171,1,2,4,3,...,4,2,38,1,2,2,2,1,1,2


In [35]:
data.columns = [x.replace('.', '_') for x in data.columns]

In [80]:
model = ols('credit_amount ~ C(credit_rating)', data).fit()

In [81]:
anova_lm(model)

Unnamed: 0,df,sum_sq,mean_sq,F,PR(>F)
C(credit_rating),1.0,190597400.0,190597400.0,24.482854,8.795399e-07
Residual,998.0,7769362000.0,7784932.0,,


#### SSA의 자유도는 1(집단의수 - 1 = 2 - 1)이고 SST의 자유도는 998(관측값의 수 - 집단의수 = 1000 - 2)이다.

#### 유의확률은 0에 근사하기 때문에 귀무가설을 기각한다. 즉, 집단간 모평균의 차이는 유의하다고 할 수 있다.

#### 만약 집단의 수가 3개 이상이면 어떻게 할까?

In [84]:
model = ols('credit_amount ~ C(account_balance)', data).fit()

In [85]:
anova_lm(model)

Unnamed: 0,df,sum_sq,mean_sq,F,PR(>F)
C(account_balance),2.0,119058100.0,59529060.0,7.569343,0.000546
Residual,997.0,7840901000.0,7864495.0,,


#### 특히 집단간의 차이를 확인하기 위해서는 사후검정을 수행하는데 이 경우에는 TukeyHSD를 시행한다.

In [88]:
tukey = pairwise_tukeyhsd(data.credit_amount, data.account_balance.astype('category'), alpha = .05)

In [90]:
print(tukey)

   Multiple Comparison of Means - Tukey HSD, FWER=0.05    
group1 group2  meandiff p-adj    lower      upper   reject
----------------------------------------------------------
     1      2  652.4081 0.0187    87.4128 1217.4034   True
     1      3 -173.7485 0.6799  -676.6948  329.1979  False
     2      3 -826.1565  0.001 -1332.0166 -320.2964   True
----------------------------------------------------------


#### 1집단과 2집단간의 차이가 통계적으로 유의하고 2집단과 3집단간의 차이가 통계적으로 유의한 것을 알 수 있다.

### 2) 이원배치 분산분석
- 두 개의 범주형 변수의 영향을 알아보는 방법
- 두 독립변수 사이에 상관관계가 있는지 살펴보는 교호작용 검증 반드시 진행되어야한다.

<가정>
1. 각 집단의 데이터는 정규분포를 만족한다.
2. 등분산성을 만족한다.

<교호작용>
- 있을 경우 : 주효과 검정을 진행한다.
- 없을 경우 : 검정의 의미가 없다.

In [93]:
model = ols('credit_amount ~ C(account_balance) + C(credit_rating) + C(credit_rating) : C(account_balance)', data).fit()

In [94]:
anova_lm(model)

Unnamed: 0,df,sum_sq,mean_sq,F,PR(>F)
C(account_balance),2.0,119058100.0,59529060.0,7.739908,0.000462
C(credit_rating),1.0,158038200.0,158038200.0,20.547962,7e-06
C(credit_rating):C(account_balance),2.0,37826180.0,18913090.0,2.459061,0.086035
Residual,994.0,7645037000.0,7691184.0,,


#### 두 변수간의 상호작용효과에 대해서 유의확률이 0.05 보다 크므로 두 변수간에는 교호작용이 존재하지 않는다고 할 수 있다.

#### 각 변수들의 유의확률은 0.05 보다 작기 때문에 통계적인 차이가 존재한다고 볼 수 있다.

## 4. 교차분석


In [10]:
from scipy.stats import chisquare, chi2_contingency

In [4]:
tr_value = [4, 6, 7, 16, 28, 7]
ex_value = [10, 23, 3, 9,14, 30]

In [8]:
chi = chisquare(tr_value, ex_value)

In [9]:
print(f'카이제곱 검정 결과 통계량은 {round(chi.statistic, 4)}이고 유의확률은 {round(chi.pvalue, 4)}')

카이제곱 검정 결과 통계량은 58.5763이고 유의확률은 0.0


In [44]:
data = pd.DataFrame({'X' : [324, 78], 'Y' : [371, 80], 'Z'  : [261, 212]}, index = ['남성', '여성'])

In [45]:
data

Unnamed: 0,X,Y,Z
남성,324,371,261
여성,78,80,212


In [47]:
chi_2, p, dof, expected = chi2_contingency([data.loc['남성'], data.loc['여성']])

In [48]:
print(f'통계량은 {chi_2}')
print(f'유의확률은 {p}')
print(f'자유도는 {dof}') # 3-1 = 2
print('기대도수는')
expected

통계량은 104.89015862307767
유의확률은 1.6725975335171576e-23
자유도는 2
기대도수는


array([[289.8280543 , 325.15535445, 341.01659125],
       [112.1719457 , 125.84464555, 131.98340875]])

#### 귀무가설을 기각하고 X, Y, Z에 따른 남성과 여성의 차이가 존재한다. 이는 통계적으로 유의하다.

In [40]:
df = pd.crosstab(data.credit_rating, data.account_balance)

In [41]:
df

account_balance,1,2,3
credit_rating,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,135,105,60
1,139,164,397


In [42]:
chi_2, p, dof, expected = chi2_contingency(df)

In [43]:
print(f'통계량은 {chi_2}')
print(f'유의확률은 {p}')
print(f'자유도는 {dof}') # 3-1 = 2
print('기대도수는')
expected

통계량은 120.84376361168343
유의확률은 5.7426208775458905e-27
자유도는 2
기대도수는


array([[ 82.2,  80.7, 137.1],
       [191.8, 188.3, 319.9]])

#### 귀무가설을 기각하고 credit_rating에 따른 account_balance의 차이가 존재하고 이는 통계적으로 유의하다.