# 대응(쌍체) 표본 검정
대응(쌍체)표본 검정은 같은 대상이나 관련된 두 집단에서 측정한 데이터를 비교할 때 사용되는 통계적 검정 방법입니다. 주로 “전후 변화”나 “처리 전/처리 후”와 같이 서로 관련 있는 두 조건 간의 평균 차이가 통계적으로 유의한지를 판단할 때 쓰입니다.

* 차이값의 정규성: 각 쌍의 차이가 정규분포를 따른다는 가정이 필요합니다. (표본의 크기가 충분히 크면 중심극한정리에 의해 이 가정이 완화될 수 있습니다.)
* 독립성: 각 쌍은 다른 쌍들과 독립적이어야 합니다.
* 데이터의 정확한 짝짓기: 각 쌍의 데이터가 올바르게 짝지어졌는지 확인해야 합니다. 잘못 짝지어진 데이터는 분석 결과에 영향을 줄 수 있습니다.

In [1]:
# 어떤 기업이 새로운 교육 프로그램을 도입해 직원의 성과를 개선하려고 한다.

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import scipy.stats as stats
import koreanize_matplotlib

# 귀무가설: 직원 교육 전후가 차이가 없다.
# 대립가설: 직원 교육 전후가 차이가 있다. (전보다 더 좋다)

df = pd.DataFrame({
    'before':[85, 90, 92, 88, 86, 89, 83, 87],
    'after':[85.5,89.9,92.6,89.5,85.8,88.8,84.6,87.8]
})

df['diff'] = df['after'] - df['before']
values, p = stats.shapiro(df['diff']) # 정규성 O. p_value가 0.05 보다 크기떄문
values, p

stats.ttest_rel(df['after'], df['before'], alternative='greater') # after가 before보다 더 크다

# p-value가 0.05보다 작으니 대립가설을 채택

TtestResult(statistic=2.2127749675452324, pvalue=0.03127028733756239, df=7)

* 만약 정규성을 따르지 않았다면?

In [3]:
stats.wilcoxon(df['after'], df['before'], alternative='greater')

WilcoxonResult(statistic=30.0, pvalue=0.0546875)

## 1. 연습문제
어떤 기업이 새로운 교육 프로그램을 도입해 직원의 성과를 개선하려고 한다. 동일한 직원 그룹에 대해 교육 전과 후의 성과를 비교했다. 새로윤 교육 프로그램은 효과가 있는지 가설검정하시오. (유의수준 0.05)

In [5]:
df = pd.DataFrame({
    'before':[85, 90, 92, 88, 86, 89, 83, 87],
    'after':[86, 92, 94, 89, 84, 90, 84, 88]
})

# 귀무가설 : 새로운 교육 프로그램은 효과가 없다
# 대립가설 : 새로운 교육 프로그램은 효과가 있다(전보다 더 좋다)

df['diff'] = df['after'] - df['before']
values, p = stats.shapiro(df['diff']) # 정규성 X. p_value가 0.05 보다 작기떄문
values, p

stats.wilcoxon(df['after'], df['before'], alternative='greater')

# p-value가 0.05보다 크므로 귀무가설을 채택

WilcoxonResult(statistic=29.0, pvalue=0.07421875)

## 2. 연습문제
한 학교에서 새로운 교육 프로그램의 효과를 평가하기 위해 15명의 학생을 대상으로 교육 전과 교육 후 시험 점수를 측정하였습니다. 교육 프로그램이 학생들의 성적에 긍정적인 영향을 주었는지 알아보기 위해, 두 시점(교육 전과 교육 후)의 시험 점수에 차이가 있는지를 대응(쌍체) 표본 t-검정을 이용하여 분석하고자 합니다. (유의수준 0.05)

In [7]:
before = [70, 68, 75, 80, 65, 72, 78, 74, 69, 77, 71, 73, 76, 79, 68]
after = [72, 70, 78, 82, 67, 75, 80, 77, 71, 79, 74, 76, 79, 81, 70]

df = pd.DataFrame({
    'before' : before,
    'after' : after
})

df['diff'] = df['after'] - df['before']
values, p = stats.shapiro(df['diff']) # 정규성 X. p_value가 0.05 보다 작기떄문
values, p

# 귀무가설 : 교육 전과 교육 후 시험점수의 차이가 없다
# 대립가설 : 교육 전과 교육 후 시험점수의 차이가 있다(큰 쪽으로)
stats.wilcoxon(df['after'], df['before'], alternative='greater')

# p-value가 0.05보다 작으므로, 대립가설을 채택한다

WilcoxonResult(statistic=120.0, pvalue=3.0517578125e-05)

In [9]:
stats.ttest_1samp(df['diff'], 0, alternative='greater')

TtestResult(statistic=18.330302779823356, pvalue=1.7468556145095e-11, df=14)

In [18]:
before = [70, 68, 75, 80, 65, 72, 78, 74, 69, 77, 71, 73, 76, 79, 68]
after = [72, 70, 78, 82, 67, 75, 80, 77, 71, 79, 74, 76, 79, 81, 70]

df = pd.DataFrame({
    'before' : before,
    'after' : after
})

df['diff'] = df['after'] - df['before']
values, p = stats.shapiro(df['diff'])
values, p

# 귀무가설 : 차이가 없다
# 대립가설 : 차이가 있다 (큰 쪽으로)
stats.wilcoxon(df['diff'], alternative='greater')

WilcoxonResult(statistic=120.0, pvalue=3.0517578125e-05)

In [20]:
stats.ttest_rel(df['after'], df['before'], alternative='greater')

TtestResult(statistic=18.330302779823356, pvalue=1.7468556145095e-11, df=14)