# 대응표본검정

퇴근후딴짓 크리에이터는 수험생의 점수 향상을 위해 새로운 교육 프로그램을 도입했다. 도입 전과 도입 후의 점수 차이를 확인하기 위해 동일한 수험생의 점수를 비교하였습니다. 다음은 교육 전과 후의 점수 데이터이다. 새로운 교육 프로그램이 효과가 있는지 검정하시오.(데이터는 정규분포를 따른다고 가정한다.)

μ<sub>d</sub> = (before – after)의 평균

- 귀무가설: μ<sub>d</sub> ≥ 0, 새로운 교육 프로그램은 효과가 없다.
- 대립가설: μ<sub>d</sub> < 0, 새로운 교육 프로그램은 효과가 있다.



## 1. 기초

In [3]:
# 데이터
import pandas as pd
df = pd.DataFrame({
    'before':[85,90,92,88,86,89,83,87,65,50],
    'after':[88,89,96,89,85,88,85,89,78,61]
})

### 대응표본검정

In [4]:
# 대응표본검정
# 단일표본검정
from scipy import stats
stats.ttest_rel(df['before'], df['after'], alternative='less')

TtestResult(statistic=-2.119860886666164, pvalue=0.03152591671694539, df=9)

μ<sub>d</sub> = (after - before)의 평균
- 귀무가설: μ<sub>d</sub> ≤ 0
- 대립가설: μ<sub>d</sub> > 0

In [5]:
# 대응표본검정
stats.ttest_rel(df['after'], df['before'], alternative='greater')

TtestResult(statistic=2.119860886666164, pvalue=0.03152591671694539, df=9)

## 2. 심화

In [6]:
# 데이터
import pandas as pd
df = pd.DataFrame({
    'before':[85,90,92,88,86,89,83,87,65,50],
    'after':[88,89,96,89,85,88,85,89,78,61]
})

μ<sub>d</sub> = (after - before)의 평균
- 귀무가설: μ<sub>d</sub> ≤ 0
- 대립가설: μ<sub>d</sub> > 0

### Shapiro-Wilk 검정

In [8]:
# Shapiro-Wilk(샤피로-윌크) 정규성 검정
df['diff'] = df['after'] - df['before']
from scipy import stats
stats.shapiro(df['diff']) # 정규분포를 따르지 않는다.

ShapiroResult(statistic=0.8106808132606462, pvalue=0.019542902973577702)

### Wilcoxon 검정 (비모수 검정)

In [9]:
# Wilcoxon(윌콕슨)의 부호 순위 검정 수행
stats.wilcoxon(df['after'], df['before'], alternative='greater')

WilcoxonResult(statistic=47.5, pvalue=0.0244140625)

In [10]:
# Wilcoxon(윌콕슨)의 부호 순위 검정 수행 (diff)
stats.wilcoxon(df['diff'], alternative='greater')

WilcoxonResult(statistic=47.5, pvalue=0.0244140625)

# 독립표본검정

다음은 빅데이터 분석기사 실기 시험 점수이다. A그룹과 B그룹의 평균 점수가 차이가 있는지 유의수준 0.05하에서 가설 검정하시오.
(데이터는 정규분포를 따르고 분산이 동일하다고 가정한다.)
- 귀무가설(H0): 그룹별 시험 평균 점수는 차이가 없다. (μ1 = μ2)
- 대립가설(H1): 그룹별 시험 평균 점수는 차이가 있다. (μ1 ≠ μ2)

## 1. 기초

In [None]:
# 데이터
A = [85, 90, 92, 88, 86, 89, 83, 87,
     84, 50, 60, 39, 28, 48, 38, 28]
B = [82, 82, 88, 85, 84, 74, 79, 69,
     78, 76, 85, 84, 79, 89]

### 독립표본검정

In [None]:
# 독립표본검정


### 등분산

In [None]:
# 두 집단의 분산이 다르다(equal_var=False)


- 귀무가설(H0): 그룹별 시험 평균 점수는 차이가 없다. (μ1 = μ2)
- 대립가설(H1): B그룹 시험 평균 점수가 더 높다. (μ1 < μ2)

In [None]:
# 독립표본검정(less)


- 귀무가설(H0): 그룹별 시험 평균 점수는 차이가 없다. (μ1 = μ2)
- 대립가설(H1): A그룹 시험 평균 점수가 더 높다. (μ1 > μ2)

In [None]:
# 독립표본검정(greater)


## 2. 심화

In [None]:
# 데이터
import pandas as pd
A = [85, 90, 92, 88, 86, 89, 83, 87,
     84, 50, 60, 39, 28, 48, 38, 28]
B = [82, 82, 88, 85, 84, 74, 79, 69,
     78, 76, 85, 84, 79, 89]

### Shapiro-Wilk 검정

In [None]:
# Shapiro-Wilk(샤피로-윌크) 정규성 검정


### Levene 검정

In [None]:
# Levene(레빈) 등분산 검정 (귀무가설: 분산이 동일하다)
stats.levene(A, B)

### 독립표본검정

- 귀무가설(H0): 그룹별 시험 평균 점수는 차이가 없다. (μ1 = μ2)
- 대립가설(H1): B그룹 시험 평균 점수가 더 높다. (μ1 < μ2)

In [None]:
# 독립표본검정


### Mann-Whitney U 검정 (비모수 검정)

- 귀무가설(H0): 그룹별 시험 중앙값 점수는 차이가 없다. (μ1 = μ2)
- 대립가설(H1): B그룹 시험 중앙값 점수가 더 높다. (μ1 < μ2)

(추가) 비모수 검정: 평균 -> 중앙값으로 변경 (중앙값도 평균값이라 동일하다고 하겠습니다.)

In [None]:
# Mann-Whitney U(만-휘트니 유) 검정
