#### 단일 표본 검정
- one sample t-test
- 이미 준비된 평균과 모집단 표본의 평균이 같은지 확인
- scipy.stats 의 ttest_1samp()

In [1]:
# ttest_1samp() 사용
    # ttest_1samp(a, popmean, alternative)
    # a: 모집단에서 뽑은 표본 데이터
    # popmean: 비교하려는 모집단의 평균 또는 기댓값
    # alternative: 대립가설 정의
        # greater: 주어진(알려진) 특정 값보다 표본의 평균이 큼
        # less: 주어진(알려진) 특정 값보다 표본의 평균이 작음
        # two-sided: 주어진(알려진) 특정 값과 표본의 평균이 같지 않음

In [2]:
# 팝콘 평균 120g
    # 귀무 가설: 팝콘 라지 사이즈의 평균 무게는 120g이다.
    # 대립 가설: 팝콘 라지 사이즈의 평균 무게는 120g이 아니다.
    # 유의수준: 별도의 안내가 없다면 0.05를 기준

import pandas as pd
df =pd.DataFrame({
    'weights':[122, 121, 120, 119, 125, 115, 121, 118, 117, 127,
           123, 129, 119, 124, 114, 126, 122, 124, 121, 116,
           120, 123, 127, 118, 122, 117, 124, 125, 123, 121]
})

In [3]:
# ttest_1samp 함수를 이용하면 검정 통계량과 유의확률(p-value)를 반환 받을 수 있음
from scipy import stats
alpha = 0.05

t_statistic, p_value = stats.ttest_1samp(df['weights'], 120, alternative = 'two-sided')
print('t_statistic, 통계량:', t_statistic)
print('p_value, p값:', p_value)

if p_value < alpha:
    print('귀무가설 기각, 대립가설 채택: 팝콘의 평균 무게는 120g이 아니다.')
else: print('귀무가설을 기각할 수 없음, 대립가설 기각: 팝콘의 평균 무게는 120g이다.')

# 이 과정이 양측검정(two-sided)

t_statistic, 통계량: 2.1155384372682344
p_value, p값: 0.043092957066609296
귀무가설 기각, 대립가설 채택: 팝콘의 평균 무게는 120g이 아니다.


In [4]:
# 단측 검정 해보기
    # 크거나, 작거나
    
# greater
    # 귀무가설: 팝콘의 평균은 120g이다.
    # 대립가설: 팝콘의 평균은 120g보다 크다.
    
t_statistic, p_value = stats.ttest_1samp(df['weights'], 120, alternative='greater')
print('t_statistic, 통계량:', t_statistic)
print('p_value, p값:', p_value)

if p_value < alpha :
    print('귀무가설을 기각, 대립가설을 채택: 팝콘의 평균은 120g보다 크다.')
else: print('귀무가설을 기각할 수 없음, 대립가설 기각: 팝콘의 평균은 120g이다.')
print('-'*50)

# less
    # 귀무가설: 팝콘의 평균은 120g이다.
    # 대립가설: 팝콘의 평균은 120g보다 작다.
    
t_statistic, p_value = stats.ttest_1samp(df['weights'], 120, alternative='less')
print('t_statistic, 통계량:', t_statistic)
print('p_value, p값:', p_value)

if p_value < alpha :
    print('귀무가설 기각, 대립가설 채택: 팝콘의 평균은 120g보다 작다.')
else: print('귀무가설을 기각할 수 없음, 대립가설 기각: 팝콘의 평균은 120g이다.')

t_statistic, 통계량: 2.1155384372682344
p_value, p값: 0.021546478533304648
귀무가설을 기각, 대립가설을 채택: 팝콘의 평균은 120g보다 크다.
--------------------------------------------------
t_statistic, 통계량: 2.1155384372682344
p_value, p값: 0.9784535214666953
귀무가설을 기각할 수 없음, 대립가설 기각: 팝콘의 평균은 120g이다.


In [6]:
# 심화학습: 표본 데이터가 정규 분포를 따르는가?

In [7]:
# 정규성은 scipy.stats.shapiro(data)를 사용해서 검정 가능
    # 정규성을 따른다면 > 단일 표본 t-검정 scipy.stats.ttest_1samp(data, 귀무가설 기대값)
    # 정규성을 따르지 않는다면 > Wilcoxon의 부호 순위 검정 scipy.stats.wilcoxon(data - 귀무가설 기대값)
    
# 문제: 아메리카노 한 잔의 평균은 120g보다 작다고 할 수 있을까? (유의수준 0.05)
    # 귀무가설: 아메리카노 한 잔의 평균은 120g이다.
    # 대립가설: 아메리카노 한 잔의 평균은 120g보다 작다.

# 1 정규성 검정 먼저
    # 귀무가설: 주어진 샘플 데이터는 정규 분포를 따른다.
    # 대립가설: 주어진 샘플 데이터는 정규 분포를 따르지 않는다.
alpha = 0.05
df = pd.DataFrame({
    'weights':[125, 126, 118, 124, 117, 127, 123, 122, 119, 142]
})

from scipy.stats import shapiro
t_statistic, p_value = shapiro(df['weights'])
print(p_value)
# 유의수준보다 작기 때문에, 대립가설 채택: 주어진 샘플 데이터는 정규 분포를 따르지 않는다.

# 2 정규 분포를 따르지 않을 때는 > 윌콕슨의 부호 순위 검정을 진행
    # 윌콕슨의 부호 순위 검정은 평균이 아닌 중앙값에 대한 가설을 검정
    # 때문에 데이터에서 검증하려는 값을 빼고 대입
    
from scipy.stats import wilcoxon
    # 귀무 가설: 주어진 샘플 데이터의 중앙값은 120g이다.
    # 대립 가설: 주어진 샘플 데이터의 중값값은 120g보다 작다.
t_statistic, p_value = wilcoxon(df['weights']-120, alternative='less')
print(p_value)
# alpha 보다 크므로,
    # 귀무 가설을 기각할 수 없음, 대립 가설 기각: 주어진 샘플 데이터의 중앙값은 120g이다.
    # (120g보다 클 수도 있음, 검증 해야봐야 앎)

0.022960129822451016
0.9814453125


#### 대응 표본검정

In [15]:
import pandas as pd
df = pd.DataFrame({
    'before':[85, 90, 92, 88, 86, 89, 83, 87],
    'after':[85.5,89.9,92.6,89.5,85.8,88.8,84.6,87.8]
})

In [21]:
from scipy.stats import ttest_rel
ttest_rel(df['before'], df['after'], alternative='less')
# 귀무가설: after의 평균은 before과 같다
# 대립가설: after의 평균은 before보다 작다.
    # 대립가설 채택

TtestResult(statistic=-2.2127749675452324, pvalue=0.03127028733756238, df=7)

In [22]:
from scipy.stats import ttest_rel
ttest_rel(df['before'], df['after'], alternative='greater')
# 귀무가설: after의 평균은 before과 같다.
# 대립가설: after의 평균은 before보다 크다.
    # 귀무가설 기각하지 못함

TtestResult(statistic=-2.2127749675452324, pvalue=0.9687297126624377, df=7)

In [23]:
from scipy.stats import ttest_rel
ttest_rel(df['before'], df['after'], alternative='two-sided')
# 귀무가설: after의 평균은 before와 같다.
# 대립가설: after의 평균은 before과 다르다.
    # 귀무가설 기각하지 못함

TtestResult(statistic=-2.2127749675452324, pvalue=0.06254057467512476, df=7)

In [24]:
# 심화 학습

In [30]:
# 샤피로로로 after, before 그리고 두 데이터의 차이가 정규분포를 따르는지 확인
from scipy.stats import shapiro
df['diff'] = df['before'] - df['after']

print(shapiro(df['before']))
print(shapiro(df['after']))
print(shapiro(df['diff']))
# 모두 0.05보다 크므로 정규 분포를 만족함

ShapiroResult(statistic=0.9981893537736595, pvalue=0.999986994137081)
ShapiroResult(statistic=0.9562350216607329, pvalue=0.7735708624385138)
ShapiroResult(statistic=0.885486928626845, pvalue=0.21232743678800203)


In [None]:
#### 독립 표본검정

In [31]:
import pandas as pd
class1 = [85, 90, 92, 88, 86, 89, 83, 87]
class2 = [80, 82, 88, 85, 84]

In [36]:
from scipy.stats import ttest_ind

# 귀무 가설: 두 집단의 평균이 같다.
# 대립 가설: 두 집단의 평균이 다르다.

# 두 표본의 분산이 같다는 가정
print(ttest_ind(class1, class2, equal_var=True, alternative='two-sided'))
    # 0.05보다 작으므로 귀무가설을 기각, 대립 가설 채택: 두 집단의 평균이 다르다.

# 두 표본의 분산이 다르다는 가정
print(ttest_ind(class1, class2, equal_var=False, alternative='two-sided'))
    # 0.05보다 크므로 귀무 가설을 기각하지 못함: 두 집단의 평균이 같다.

TtestResult(statistic=2.2108140580092237, pvalue=0.04914857789252186, df=11.0)
TtestResult(statistic=2.1818699281825236, pvalue=0.059589330071355334, df=8.272682358753572)
