# 8. 통계적 가설 검정 (Statistical Hypothesis Test)
추론통계 (Inferential Statistics) : 단순히 숫자를 요약하는 것이 아닌, 어떤 값이 발생한 확률을 계산하는 통계 분석 기법
- 데이터에서 성별에 따라 월급에 차이가 있는 것으로 나타나는 경우, 이런 차이가 우연히 발생할 확률을 계산
- 만약 이런 차이가 우연히 나타날 확률이 작다면 성별에 따른 월급 차이가 통계적으로 유의하다고 결론
- 반대로 이런 차이가 우연히 나타날 확률이 크다면 성별에 따른 월급 차이가 통계적으로 유의하지 않다고 결론

기술통계 (Descriptive Statistics) : 데이터를 요약해 설명하는 통계 분석 기법
- 사람들이 받는 월급을 집계해 전체 월급 평균을 구함

유의 확률 (p-value, Significance Probability)
- 실제로는 집단 간 차이가 없는데 우연히 차이가 있는 데이터가 추출될 확률을 의미

t검정 (t-test)
- 두 집단의 평균에 통계적으로 유의한 차이가 있는지 알아볼 때 사용하는 통계분석 기법

## compact 자동차와 suv 자동차의 도시 연비 t검정

In [19]:
# t 검정
import pandas as pd
mpg = pd.read_csv('mpg.csv')

# 기술 통계 분석
mpg.query('category in ["compact", "suv"]').groupby('category', as_index = False).agg(n = ('category', 'count'),  # compact, suv 추출 / category별 분리 / 빈도 구하기
                                                                                      mean = ('cty', 'mean'))     # cty 평균 구하기

Unnamed: 0,category,n,mean
0,compact,47,20.12766
1,suv,62,13.5


In [20]:
compact = mpg.query('category == "compact"')['cty']
suv = mpg.query('category == "suv"')['cty']

In [21]:
# t-test
from scipy import stats
stats.ttest_ind(compact, suv, equal_var = True)

TtestResult(statistic=11.917282584324107, pvalue=2.3909550904711282e-21, df=107.0)

### 결론 : compact와 suv 간 평균 도시 연비 차이가 통계적으로 유의함 (p-value가 0.05보다 작기 때문)
- 출력 결과에서 'pvalue'가 유의확률을 의미
- 일반적으로 유의확률 5%를 판단 기준으로 삼고, p-value가 0.05 미만이면 '집단 간 차이가 통계적으로 유의하다'고 해석
- 실제로는 차이가 없는데 이런 정도의 차이가 우연히 관찰될 확률이 5%보다 작다면, 이 차이를 우연이라고 보기 어렵다고 결론

## 일반 휘발유와 고급 휘발유의 도시 연비 t검정

In [22]:
# 기술 통계 분석
mpg.query('fl in ["r", "p"]').groupby('fl', as_index = False).agg(n = ('fl', 'count'),    # r, p 추출 / fl별 분리 / 빈도 구하기
                                                                  mean = ('cty', 'mean')) # cty 평균 구하기

Unnamed: 0,fl,n,mean
0,p,52,17.365385
1,r,168,16.738095


In [23]:
regular = mpg.query('fl == "r"')['cty']
premium = mpg.query('fl == "p"')['cty']

# t-test
stats.ttest_ind(regular, premium, equal_var = True)

TtestResult(statistic=-1.066182514588919, pvalue=0.28752051088667036, df=218.0)

### 결론 : 일반 휘발유와 고급 휘발유를 사용하는 자동차의 도시 연비 차이가 통계적으로 유의하지 않음 (p-value가 0.05보다 크기 때문)
- 실제로는 차이가 없는데 우연에 의해 어떤 정도의 차이가 관찰될 확률이 28.75%라는 의미
- 고급 휘발유 자동차의 도시 연비 평균이 0.6 정도 높지만 이런 정도의 차이는 우연히 발생했을 가능성이 크다고 해석