### 라이브러리 및 데이터 로드

In [1]:
import pandas as pd
import numpy as np
from sklearn.datasets import load_wine

In [2]:
wine = load_wine()
data = pd.DataFrame(data=wine.data, columns=[wine.feature_names])
data['target'] = wine.target
data

Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline,target
0,14.23,1.71,2.43,15.6,127.0,2.80,3.06,0.28,2.29,5.64,1.04,3.92,1065.0,0
1,13.20,1.78,2.14,11.2,100.0,2.65,2.76,0.26,1.28,4.38,1.05,3.40,1050.0,0
2,13.16,2.36,2.67,18.6,101.0,2.80,3.24,0.30,2.81,5.68,1.03,3.17,1185.0,0
3,14.37,1.95,2.50,16.8,113.0,3.85,3.49,0.24,2.18,7.80,0.86,3.45,1480.0,0
4,13.24,2.59,2.87,21.0,118.0,2.80,2.69,0.39,1.82,4.32,1.04,2.93,735.0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
173,13.71,5.65,2.45,20.5,95.0,1.68,0.61,0.52,1.06,7.70,0.64,1.74,740.0,2
174,13.40,3.91,2.48,23.0,102.0,1.80,0.75,0.43,1.41,7.30,0.70,1.56,750.0,2
175,13.27,4.28,2.26,20.0,120.0,1.59,0.69,0.43,1.35,10.20,0.59,1.56,835.0,2
176,13.17,2.59,2.37,20.0,120.0,1.65,0.68,0.53,1.46,9.30,0.60,1.62,840.0,2


In [3]:
data.describe()

Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline,target
count,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0
mean,13.000618,2.336348,2.366517,19.494944,99.741573,2.295112,2.02927,0.361854,1.590899,5.05809,0.957449,2.611685,746.893258,0.938202
std,0.811827,1.117146,0.274344,3.339564,14.282484,0.625851,0.998859,0.124453,0.572359,2.318286,0.228572,0.70999,314.907474,0.775035
min,11.03,0.74,1.36,10.6,70.0,0.98,0.34,0.13,0.41,1.28,0.48,1.27,278.0,0.0
25%,12.3625,1.6025,2.21,17.2,88.0,1.7425,1.205,0.27,1.25,3.22,0.7825,1.9375,500.5,0.0
50%,13.05,1.865,2.36,19.5,98.0,2.355,2.135,0.34,1.555,4.69,0.965,2.78,673.5,1.0
75%,13.6775,3.0825,2.5575,21.5,107.0,2.8,2.875,0.4375,1.95,6.2,1.12,3.17,985.0,2.0
max,14.83,5.8,3.23,30.0,162.0,3.88,5.08,0.66,3.58,13.0,1.71,4.0,1680.0,2.0


# 1. 가설검정 - 모평균 비교(1개)
### 단일표본 t검정 | ttest_1samp(data, popmean=, alternative='two-sided') (정규성 만족 시)

Q. 회분염기도 (alcalinity_of_ash)의 모평균이 19인지 검정하라.

In [4]:
from scipy.stats import ttest_1samp

# alternative = 'two-sided', 'less', 'greater'
statistic, pvalue = ttest_1samp(data.alcalinity_of_ash, popmean=19, alternative='two-sided')

# 귀무가설 기각
print(round(pvalue[0], 4))  

0.0496


### 윌콕슨 부호순위 검정 | wilcoxon(data-popmean, alternative='two-sided') (정규성 만족 못할 시)

In [5]:
from scipy.stats import wilcoxon
# 데이터에 모수를 뺀 값으로 검정한다.

# alternative = 'two-sided', 'less', 'greater'
statistic, pvalue = wilcoxon(data.alcalinity_of_ash-19, alternative='two-sided')

# 유의수준 0.05하에선 귀무가설 채택
print(round(pvalue[0], 4))

0.0786


### 정규성 검정 | shapiro(data)

In [6]:
from scipy.stats import shapiro

statistic, pvalue = shapiro(data.alcalinity_of_ash)

# 정규성 만족
print(round(pvalue, 4))

0.2639


# 2. 가설검정 - 모평균 비교 (2개)
### 대응표본 t검정 | ttest_rel(dataB, dataA, alternative='two-sided')

동일한 개체의 실험 전과 후 차이값들의 평균으로 검정

만약 단측검정을 할 때 대립가설이 0보다 작다면: alternative = 'less' 

실험후(dataB)-실험전(dataA) < 0이라는 것을 의미한다. -> dataB < dataA 와 같은 의미 (순서 주의, 앞이 작으면 less)

Q, malic_acid과 ash 모평균이 같은지 검정하라 (예제는 부적절하지만 기능 활용을 위해 임의로 작성)



In [7]:
from scipy.stats import ttest_rel

statistic, pvalue = ttest_rel(data.malic_acid, data.ash, alternative='two-sided')

# 귀무가설 채택
print(round(pvalue[0], 4))

0.7163


### 독립표본 t검정 | ttest_ind(data1, data2, equal_var=True, alternative='two-sided')

Q. 0번 와인과 나머지 와인의 플라보노이드(flavanoids) 평균이 같은지 검정하라

In [8]:
from scipy.stats import ttest_ind

statistic, pvalue = ttest_ind(data[:59].flavanoids, data[59:].flavanoids)

# p-value가 0에 근사하므로 귀무가설 기각
print(round(statistic[0], 4), round(pvalue[0], 4))

12.0965 0.0


Q. 0이 아닌 와인의 플라보노이드 평균이 더 큰지 검정하라 

In [9]:
statistic, pvalue = ttest_ind(data[:59].flavanoids, data[59:].flavanoids, equal_var=False, alternative='less')

# pvalue가 1에 가까으므로 귀무가설을 채택한다 
print(statistic, pvalue)

[15.11828072] [1.]


### 등분산성 검정 | bartlett(data1, data2, ...) -> 데이터 간의 길이는 달라도 된다

**정규성을 만족**하는 데이터 사이의 등분산성 검정이다.

In [10]:
from scipy.stats import bartlett

statistic, pvalue = bartlett(data[:59].flavanoids.squeeze(), data[59:].flavanoids.squeeze())

# 귀무가설 기각 -> 두 데이터 간 분산이 다르다
print(round(pvalue, 4))

0.0


### 등분산성 검정 | levene(data1, data2, ...) -> 데이터 간의 길이는 달라도 된다

**정규성을 만족하지 않는** 데이터 사이의 등분산성 검정이다.

In [11]:
from scipy.stats import levene

statistic, pvalue = levene(data[:59].flavanoids.squeeze(), data[59:].flavanoids.squeeze())

# 귀무가설 기각 -> 두 데이터 간 분산이 다르다
print(statistic, round(pvalue, 4))

30.67393636136167 0.0


# 3. 가설검정 - 모평균 비교 (3개 이상)
### 일원분산분석(ANOVA) | f_oneway(data1, data2, ...)

Q. 와인0, 와인2, 와인3 색도(color_intensity)의 평균이 모두 같은지 검정하라

1. 각 데이터가 정규성을 만족하는지 확인
2. 각 데이터 간의 등분산성을 만족하는지 확인
3. 일원분산분석

**정규성을 만족하지 못하면 비모수검정(크루스칼왈리스 검정 - kruskal)을 진행**해야 하지만, 연습을 위해 정규성을 만족하지 못해도 일원분산분석을 진행한다.

In [15]:
wine0 = data[:59]
wine1 = data[59:130]
wine2 = data[130:]  

In [19]:
# wine1은 유의수준 0.05하에서 정규성을 만족하지 못한다.
# wine2는 유의수준 0.1하에서 정규성을 만족하지 못한다.

from scipy.stats import shapiro

print(shapiro(wine0.color_intensity))
print(shapiro(wine1.color_intensity))
print(shapiro(wine2.color_intensity))

ShapiroResult(statistic=0.9681947827339172, pvalue=0.12509089708328247)
ShapiroResult(statistic=0.9317483305931091, pvalue=0.0008194572874344885)
ShapiroResult(statistic=0.9584943056106567, pvalue=0.08775369822978973)


In [22]:
# 정규성을 만족하지 못하면, 등분산성 검정시 levene검정을 수행한다.
# 검정 결과 데이터 간의 등분산성을 만족하지 못한다

from scipy.stats import levene

print(levene(wine0.color_intensity.squeeze(), wine1.color_intensity.squeeze(), wine2.color_intensity.squeeze()))

LeveneResult(statistic=31.257110521834758, pvalue=2.471654106317395e-12)


In [23]:
from scipy.stats import f_oneway 

# 귀무가설 기각
print(f_oneway(wine0.color_intensity.squeeze(), wine1.color_intensity.squeeze(), wine2.color_intensity.squeeze()))

F_onewayResult(statistic=120.66401844100312, pvalue=1.162008021927618e-33)


In [24]:
# 실제로 세 집단 간의 평균은 동일하지 않다.
print(wine0.color_intensity.squeeze().mean(), wine1.color_intensity.squeeze().mean(), wine2.color_intensity.squeeze().mean())

5.528305084745763 3.086619718309859 7.396249979166666


# 4. 가설검정 - 범주형 변수 적합성 검정 (Goodness of fit test)
### 카이제곱검정 | chisquare(관측 빈도, 기대 빈도)
표본의 빈도를 이용하여 모집단의 가정된 빈도나 가정된 비율을 만족하는지를 확인하는 것

관찰빈도와 기대빈도의 차이를 이용한 검정 (value_counts)

In [26]:
import seaborn as sns
titanic = sns.load_dataset('titanic')
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [32]:
titanic['class'].value_counts()

Third     491
First     216
Second    184
Name: class, dtype: int64

In [14]:
import scipy.stats
print(dir(scipy.stats))

