# 2 표본 문제(two-sample problem)
- 독립표본 T 검정, 대응표본 T 검정 으로 분류 가능
  - 중요한 것은, 추론 대상이 되는 모집단의 분포가 정규분포라고 가정할수 있어야 T 검정 사용 가능
  - 정규분포 가정이 불가능하면, 윌콕슨의 부호순위검정, 맨위트니의 U검정 사용해야함
- 독립표본 T 검정(independent t-test)
  - 데이터가 서로 독립된 데이터라는 것 => 대응이 없는 표본
  - A 모집단과 B 모집단의 각각의 수학 점수 평균의 차이 검정
- 대응표본 T 검정(paired t-test)
  - 데이터가 서로 대응되는 데이터라는 것
  - A 모집단 내의 개체에 대해서 운동전 근력측정과 운동후 근력측정 결과 악력 평균의 차이 검정

In [14]:
import numpy as np
import pandas as pd
import scipy.stats as st

df = pd.read_csv("ch11_training_rel.csv")
df.shape
df.info()

df['차'] = df['후'] - df['전']
df.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   전       20 non-null     int64
 1   후       20 non-null     int64
dtypes: int64(2)
memory usage: 448.0 bytes


Unnamed: 0,전,후,차
0,59,41,-18
1,52,63,11
2,55,68,13
3,61,59,-2
4,59,84,25


In [10]:
# 대응표본 T 검정

import numpy as np
import pandas as pd
import scipy

# 귀무가설 = 평균의 차이 없음
# 대립가설 = 평균의 차이 있음

# 모집단은 정규분포를 따른다고 가정, 유의 수준 5%
# 1 샘플, 즉 대응표본 T 검정
scipy.stats.ttest_1samp(df['차'], 0)

# Ttest_1sampResult(statistic=2.204154108716127, pvalue=0.04004419061842953)

# 유의 수준 5%하에서 p-value 값은 0.04이고, p-value가 유의수준보다 작기 때문에 귀무가설을 기각하고 대립가설을 채택한다.
# 즉, 평균의 차이가 유의미하게 존재한다.


Ttest_1sampResult(statistic=2.204154108716127, pvalue=0.04004419061842953)

In [13]:
# 독립표본 T 검정
import numpy as np
import pandas as pd
import scipy

df2 = pd.read_csv('ch11_training_ind.csv')

df2.describe()

# 귀무가설 = 평균의 차이 없음
# 대립가설 = 평균의 차이 있음

# 모집단은 정규분포를 따른다고 가정, 유의 수준 5%
# 독립표본 T 검정 수행
scipy.stats.ttest_ind(df2['A'], df2['B'], equal_var=False)

# Ttest_indResult(statistic=-1.760815724652471, pvalue=0.08695731107259362)

# 유의 수준 5%하에서 p-value 값은 0.08이고, p-value가 유의수준보다 크기 때문에 귀무가설을 기각할 수 없다.
# 즉, 평균의 차이가 유의미하게 존재하지 않는다.


Ttest_indResult(statistic=-1.760815724652471, pvalue=0.08695731107259362)