## 상관분석

In [4]:
import pandas as pd
import numpy as np

a=pd.Series([1,10,6,2,5,4,16])
b=pd.Series([2,8,9,7,4,11,13])

df_corr=pd.DataFrame([a,b]).transpose()
df_corr

Unnamed: 0,0,1
0,1,2
1,10,8
2,6,9
3,2,7
4,5,4
5,4,11
6,16,13


In [5]:
df_corr.corr()

Unnamed: 0,0,1
0,1.0,0.695045
1,0.695045,1.0


기본 값은 pearson 이며, method 의 지정을 통해 방식을 변경할 수 있다.

In [6]:
# spearman

df_corr.corr(method='spearman')

Unnamed: 0,0,1
0,1.0,0.678571
1,0.678571,1.0


In [7]:
# kendall

df_corr.corr(method='kendall')

Unnamed: 0,0,1
0,1.0,0.52381
1,0.52381,1.0


SciPy 의 함수는 상관계수 뿐 아니라 p-value를 함께 반환한다

In [8]:
from scipy.stats import pearsonr
from scipy.stats import spearmanr
from scipy.stats import kendalltau

pearsonr(a,b)

(0.6950449714162763, 0.08301167018815835)

In [9]:
spearmanr(a,b)

SpearmanrResult(correlation=0.6785714285714287, pvalue=0.0937502539598313)

In [10]:
kendalltau(a,b)

KendalltauResult(correlation=0.5238095238095238, pvalue=0.1361111111111111)

## 독립성 검정

두 변수가 관계가 있는지를 알려주는 통계 기법이다.

변수가 범주형인 경우 카이제곱 검정을 사용하고,

연속형인 경우 공분산을 사용한다.

### 카이제곱 검정

관찰된 빈도가 기대되는 빈도와 유의하게 다른지 검증 (범주형 자료로 구성된 데이터)

- 귀무가설 : A, B는 관계가 없다 (독립이다)

- 대립가설 : A, B는 관계가 있다 (독립이 아니다)

In [11]:
df_ind=pd.DataFrame({'ID':['A','B','B','B','A','A','B'],
                    'YN':['Y','N','Y','Y','N','N','Y']})

from scipy.stats import chi2_contingency

df_crosstab=pd.crosstab(df_ind['ID'], df_ind['YN'])
chi2_contingency(df_crosstab)

(0.10937499999999994,
 0.7408568142938687,
 1,
 array([[1.28571429, 1.71428571],
        [1.71428571, 2.28571429]]))

검정통계량, p-value, 자유도, 기대도수 순이면

위의 항목에서는 p-value가 0.74로 유의수준(0.05) 보다 크기 때문에 귀무가설을 기각하지 못한다.

## 정규성 검정

데이터셋의 분포가 정규분포를 따르는지를 검정하는 것

### 샤피로 윌크 검정

표본이 정규분포로부터 추출된 것인지 확인하는 검정

- 귀무가설 : 표본의 모집단이 정규분포를 따른다.

- 대립가설 : 표본의 모집단이 정규분포를 따르지 않는다.

In [12]:
from scipy.stats import shapiro

normal=pd.Series([4,2,5,7,7,9,10,1,1,2,3,8,8,7,7,2,1,9,3,3,6])

shapiro(normal)

(0.9114456176757812, 0.05864328145980835)

통계량 과 po-value를 반환하며, 위의 항목에서는

p-value가 0.058로 유의수준(0.05)보다 크기에, 귀무가설을 기각하지 못한다.

## 등분산 검정

분산분석을 위해 기본적으로 만족해야하는 조건 중 한가지로,
분석하는 집단들의 분산이 같음을 의미한다.

### Bartlett's test

표본이 정규성을 만족할 때 사용,

- 귀무가설 : 등분산 만족

- 대립가설 : 등분산 만족x (이분산 o)

In [15]:
from scipy.stats import bartlett

a=pd.Series([1,10,6,2,5,4,16])
b=pd.Series([2,8,9,7,4,11,13])

bartlett(a,b)

BartlettResult(statistic=0.5127438986933136, pvalue=0.4739534497642375)

p-value가 유의수준(0.05) 보다 크므로 귀무가설을 기각하지 못한다.

### Levene's test

In [16]:
from scipy.stats import levene

levene(a,b)

LeveneResult(statistic=0.18703241895261852, pvalue=0.6730680303391181)

p-value가 유의수준(0.05)보다 크므로 귀무가설을 기각하지 못한다.

## T-test

두 집단의 평균 차이를 검정

- 귀무가설 : 두 모집단의 평균간의 차이가 없다.

- 대립가설 : 두 모집단의 평균간의 차이가 있다.

### 단일표본

In [19]:
from scipy.stats import ttest_1samp

a=pd.Series([1,10,6,2,5,4,16])
b=pd.Series([2,8,9,7,4,11,13])

ttest_1samp(a, popmean=5) # popmean : 모평균

Ttest_1sampResult(statistic=0.6558113262023012, pvalue=0.5362675724451753)

p-value가 유의수준 (0.05) 보다 크기 때문에 귀무가설을 기각할 수 없다(평균간 차이x)

In [22]:
a.mean()

6.285714285714286

### 대응표본

동일한 그룹

In [21]:
from scipy.stats import ttest_rel

ttest_rel(a,b)

Ttest_relResult(statistic=-1.0118748860323272, pvalue=0.35064953488663503)

p-value 가 유의수준 (0.05) 보다 크기 때문에 귀무가설을 기각할 수 없다

In [23]:
b.mean()

7.714285714285714

### 독립표본

다른 그룹

In [24]:
from scipy.stats import ttest_ind

ttest_ind(a,b) # 등분산을 만족하는 경우

Ttest_indResult(statistic=-0.5868830272850544, pvalue=0.5681596118564822)

p-value가 유의수준(0.05) 보다 크기때문에 귀무가설을 기각할 수 없다
(평균간의 차이가 없음)

In [25]:
ttest_ind(a,b, equal_var=False)

Ttest_indResult(statistic=-0.5868830272850544, pvalue=0.5691048457215779)

p-value가 유의수준(0.05) 보다 크기때문에 귀무가설을 기각할 수 없다 (평균간의 차이가 없음)

## ANOVA

3개 이상 다수의 집단을 비교할 때 사용하는 가설검정 방법

### One-way ANOVA

독립변수 1개, 종속변수 1개 일때, 집단간의 유의미한 차이 검정

- 귀무가설 : 모든 그룹의 평균이 같다.

- 대립가설 : 모든 그룹의 평균이 같지 않다.

In [29]:
a=pd.Series([2,5,3,4,6,2,3])
b=pd.Series([7,3,6,5,2,6,7])
c=pd.Series([9,11,4,8,2,15,3])

df_aov=pd.DataFrame([a,b,c]).transpose().melt()
df_aov

Unnamed: 0,variable,value
0,0,2
1,0,5
2,0,3
3,0,4
4,0,6
5,0,2
6,0,3
7,1,7
8,1,3
9,1,6


In [30]:
from scipy.stats import f_oneway

f_oneway(a,b,c)

F_onewayResult(statistic=2.783557046979866, pvalue=0.08844940319088185)

p-value 가 유의수준(0.05) 보다 크기 때문에 귀무가설을 기각하지 못한다.

(모든 그룹의 평균이 같음)

In [32]:
print('a의 평균 : {0:.2f}, b의 평균 : {1:.2f}, c의 평균 {2:.2f}'.format(a.mean() , b.mean() , c.mean()))

a의 평균 : 3.57, b의 평균 : 5.14, c의 평균 7.43


### 사후 검정

일원 분산분석에서 귀무가설을 기각하고 대립가설을 채택했을 경우,

어떤 집단간 평균이 유의미하게 차이가 나는지 확인하는 방법

In [33]:
from statsmodels.stats.multicomp import pairwise_tukeyhsd

print(pairwise_tukeyhsd(df_aov['value'], df_aov['variable']))

Multiple Comparison of Means - Tukey HSD, FWER=0.05
group1 group2 meandiff p-adj   lower  upper  reject
---------------------------------------------------
     0      1   1.5714 0.6082 -2.6229 5.7658  False
     0      2   3.8571 0.0746 -0.3372 8.0515  False
     1      2   2.2857 0.3675 -1.9087 6.4801  False
---------------------------------------------------


reject는 두 집단의 평균이 같다는 귀무가설을 기각하는지 여부를 알려준다.

즉, 위의 경우 모든 그룹간 평균이 유의미하게 다르다고 하기 어렵다(False).