# scipy stats 활용법

In [2]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import scipy.stats as stats
import statsmodels

## scipy에서의 집단의 평균 비교 검정

In [31]:
data = [6.03, 6.55, 6.37, 5.92, 6.16, 6.71, 5.69, 6.19]
popmean = 6.5

data1 = np.array([6.03, 6.55, 6.37, 5.92, 6.16, 6.71, 5.69, 6.19])
data2 = data1 + 0.14 + np.random.randn(8)


In [32]:
# 단일 표본 t-test
from scipy.stats import ttest_1samp
t_stat, p_value = ttest_1samp(data, popmean)
print(t_stat, p_value)


-2.5198844093376693 0.03981726614435029


In [33]:
# 독립 표본 t-test (두 표본의 분산이 다를 경우 equal_var=False)
from scipy.stats import ttest_ind
t_stat, p_value = ttest_ind(data1, data2, equal_var=True)
print(t_stat, p_value)


0.35095718300190537 0.730845629433875


In [34]:
# 대응 표본 t-test (paired t-test)
from scipy.stats import ttest_rel
t_stat, p_value = ttest_rel(data1, data2)
print(t_stat, p_value)


0.41752103435061916 0.6888056364127748


In [35]:
# 비모수 검정 (Mann-Whitney U test) (독립 표본 t-test의 비모수 검정)
from scipy.stats import mannwhitneyu
t_stat, p_value = mannwhitneyu(data1, data2)
print(t_stat, p_value)


46.0 0.1605283605283605


In [36]:
# 비모수 검정 (Wilcoxon signed-rank test) (paired t-test의 비모수 검정)
from scipy.stats import wilcoxon
t_stat, p_value = wilcoxon(data1, data2)
print(t_stat, p_value)


11.0 0.3828125


## scipy에서의 집단의 분산 비교 검정

독립 표본 t-test에서 equal_var를 어떤 값으로 주는지 정하기 위하여, 분산 비교 검정이 필요합니다.  
또한 paired t-test에서 두 분산이 다를 경우, 비모수 검정을 해야하는데, 이 때에서 분산 비교 검정을 통해 분산을 확인해야합니다.

In [39]:
from scipy.stats import bartlett
t_stat, p_value = bartlett(data1, data2)
print(t_stat, p_value)

10.582216665642523 0.001141806705696645


## scipy에서의 정규성 검정





In [47]:
from scipy.stats import shapiro
shapiro(data)

ShapiroResult(statistic=0.9868621587378561, pvalue=0.9886783489929436)

In [46]:
from scipy.stats import kstest
kstest(data, stats.norm.cdf)

KstestResult(statistic=0.9999999936480314, pvalue=5.300254773218593e-66, statistic_location=5.69, statistic_sign=-1)

In [45]:
from scipy.stats import jarque_bera
jarque_bera(data)

SignificanceResult(statistic=0.290872170672432, pvalue=0.8646451518120876)

## scipy에서의 범주형 자료 분석


In [52]:
from scipy.stats import chi2_contingency

df_titanic = pd.read_csv('https://web.stanford.edu/class/archive/cs/cs109/cs109.1166/stuff/titanic.csv')

O_conti = pd.crosstab(df_titanic['Pclass'], df_titanic['Survived'])
print(O_conti)
chi2_contingency(O_conti)

Survived    0    1
Pclass            
1          80  136
2          97   87
3         368  119


Chi2ContingencyResult(statistic=101.21674250560609, pvalue=1.0496962042983216e-22, dof=2, expected_freq=array([[132.71702368,  83.28297632],
       [113.05524239,  70.94475761],
       [299.22773393, 187.77226607]]))

In [57]:
df_norm = df_titanic[['Age', 'Fare']]
df_norm = df_norm.dropna()
df_norm['Age'] = df_norm['Age'].apply(lambda x: (x-df_norm['Age'].mean())/df_norm['Age'].std())
df_norm['Fare'] = df_norm['Fare'].apply(lambda x: (x-df_norm['Fare'].mean())/df_norm['Fare'].std())

from scipy.stats import pearsonr
pearsonr(df_norm['Age'], df_norm['Fare'])

from scipy.stats import spearmanr
spearmanr(df_norm['Age'], df_norm['Fare']) # 비선형 상관 관계의 단조 관계

from scipy.stats import kendalltau # 비선형 상관 관계의 일관성
kendalltau(df_norm['Age'], df_norm['Fare'])

SignificanceResult(statistic=0.10746585143274623, pvalue=2.485202589459607e-06)