In [1]:
# 예.(paint.txt) 한 페인트 제조회사에서는 새로운 유성페인트를 개발하여 기존의 페인트와의 건조속도를 비교하고자 한다.
# 이를 확인하기 위해 시중에서 가장 인기 있는 제품과 새 제품을 각각 5종류의 벽에 칠한 후 건조시간을 측정하였다.
# 이 자료들은 서로 독립된 두 모집단에서 추출된 표본이다.
# paint.txt는 그룹을 나타내는 변수(group 1=인기제품, 2=새 제품)와 검정 대상이 되는 변수 (time, 건조시간)로 구성되어 있다.
# 새로 개발한 페인트 제품은 기존의 제품보다 건조시간이 더 빠르다고 할 수 있는가? 유의수준 𝛼 = 0.05에서 검정해보자.
import pandas as pd

# groupby() 함수를 이용하여 기존페인트와 새페인트의 건조시간의 평균과 분산 비교
# -() 안에는 범주형 변수
paint = pd.read_table("paint.txt", sep=" ")
# 기존 페인트(1)와 새페인트(2) 건조시간의 평균비교 비교 : 새 페인트의 건조시간이 좀 더 짧다.
paint.groupby("group")["time"].mean()
# 기존 페인트(1)와 새페인트(2) 건조시간의 표준편차 비교 : 두 제품간의 차이가 크게 없다.
paint.groupby("group")["time"].std()

group
1    2.708013
2    2.000000
Name: time, dtype: float64

In [2]:
# ttest_ind 함수(scipy패키지 stats 모듈) : 독립 이표본 검정
# 기존페인트와 새페인트 데이터를 분리
group1 = paint[paint['group'] == 1]
group2 = paint[paint['group'] == 2]
# ttest_ind(a, b, equal_var=, alternative= )
# - 두 독립표본에 대한 t-검정 수행,
# - a=, b= : 검정을 수행할 두 변수 값을 지정
# - equal_val= : True (공통분산 가정), False(이분산 가정)
# - alternative= : “two-sided”(양측검정, 기본값) | “less” (왼쪽 단측검정) | “greater” (오른쪽 단측검정)
# - <실행결과> statistic= : t-검정통계량 값, pvalue= : 유의확률, df= : 자유도
from scipy.stats import ttest_ind

ttest_ind(group1.time, group2.time, alternative="greater", equal_var=True)
# 검정통계량의 관측값은 𝑡 = 2.818이고 pvalue=0.005694이다.
# 검정결과, 유의확률이 0.005694로 유의수준 𝛼 = 0.05보다 작으므로 귀무가설을 기각할 수 있다. 따라서 새 페인트의 건조시간은 기존 페인트의 건조시간보다 짧다고 할 수 있다.

TtestResult(statistic=np.float64(2.8180093098831724), pvalue=np.float64(0.00569415182464645), df=np.float64(18.0))

In [3]:
# 예. 다음은 두 집단에서 조사한 체질량 지수의 자료이다. 집단별로 체질량지수는 차이가 있다고 볼 수 있는가? 유의수준 𝛼 = 0.05에서 검정해보자.
import numpy as np

group1 = np.array([22, 23, 25, 26, 27, 19, 22, 28, 33, 24])
group2 = np.array([21, 25, 36, 24, 33, 28, 29, 31, 30, 32, 33, 35])
group1.mean()
group2.mean()
group1.std()
group2.std()
from scipy.stats import ttest_ind

ttest_ind(group1, group2, equal_var=True)

TtestResult(statistic=np.float64(-2.643712672303319), pvalue=np.float64(0.01557793053055382), df=np.float64(20.0))