# t 검정 - 두 집단의 평균 비교하기
t 검정(t-test) 은 두 집단의 평균에 통계적으로 유의한 차이가 있는지 알아볼 때 사용하는 통계 분석 기법이다.

In [1]:
import pandas as pd

mpg = pd.read_csv("../data/mpg.csv")
mpg.head()

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,category
0,audi,a4,1.8,1999,4,auto(l5),f,18,29,p,compact
1,audi,a4,1.8,1999,4,manual(m5),f,21,29,p,compact
2,audi,a4,2.0,2008,4,manual(m6),f,20,31,p,compact
3,audi,a4,2.0,2008,4,auto(av),f,21,30,p,compact
4,audi,a4,2.8,1999,6,auto(l5),f,16,26,p,compact


In [2]:
# 기술 통계 분석
# compact, suv 추출하기
# category 별 분리
# 빈도 구하기
# cty 평균 구하기
mpg.query('category in ["compact", "suv"]').groupby("category", as_index=False).agg(
    n=("category", "count"), mean=("cty", "mean")
)

Unnamed: 0,category,n,mean
0,compact,47,20.12766
1,suv,62,13.5


In [3]:
# compact 와 suv 자동차의 도시 연비 차이 통계적으로 유의한지
compact = mpg.query('category == "compact"')["cty"]
suv = mpg.query('category == "suv"')["cty"]

# t - test
from scipy import stats

stats.ttest_ind(compact, suv, equal_var=True)

# p-value : 유의미한 확률
# 일반적으로 유의확률 5%를 판단 기준으로 삼고, p-value가 0.05미만이면 '집단 간 차이가 통계적으로 유의하다'고 해석한다.
# 즉, compact 와 suv 간 평균 도시 연비 차이가 통계적으로 유의하다고 결론 내릴 수 있다.

TtestResult(statistic=11.917282584324107, pvalue=2.3909550904711286e-21, df=107.0)

In [4]:
# 일반 휘발유와 고급 휘발유의 도시 연비 t 검정

# 기술 통계 분석
mpg.query('fl in ["r","p"]').groupby("fl", as_index=False).agg(
    n=("fl", "count"), mean=("cty", "mean")
)

Unnamed: 0,fl,n,mean
0,p,52,17.365385
1,r,168,16.738095


In [5]:
regular = mpg.query('fl == "r"')["cty"]
premium = mpg.query('fl == "p"')["cty"]

# t - test
stats.ttest_ind(regular, premium, equal_var=True)

# p-value 가 0.05보다 큰 0.2875... 이다.
# 실제로는 차이가 없는 우연에 의해 이런 정도의 차이가 관찰될 확률이 28.75%라는 의미
# 따라서, 일반 휘발유와 고급 휘발유를 사용하는 자동차의 도시 연비 차이가 통계적으로 유의하지 않다.

TtestResult(statistic=-1.066182514588919, pvalue=0.28752051088667024, df=218.0)