# 01. 가설 검정
--------------------------
    어떤 주장을 제기하고, 그 주장이 통계적으로 유의한지를 판단하기 위해 사용되는 것
    분석 대상을 전체를 확인하는것이 가장 좋지만 시간과 엄청난 비용이 들어가기 때문에, 모집단의 일부 표본(sample) 데이터를 통해 가설검정을 진행한다.

- 귀무가설(H0) : 기존에 알려진 사실
- 대립가설(H1) : 밝히려고(입증하려고) 하는 사실

### 가설 검정 프로세스
---------
      기각역을 이용하는 방법과 유의확률을 이용하는 방법
1. 통계적 가설 검정
        검정하려는 가설을 설정한다. 귀무가설은 기존에 알려진 또는 일반적인 사실(주장)이고 대립가설은 입증하고자 하는 가설(주장)이다.
2. 유의수준 결정
        유의수준은 귀무가설을 기각하기 위해 필요한 기준값이다. 일반적으로 0.05 또는 0.01과 같은 값이 사용된다. 유의수준은 검정 결과를 해석하는데 중요한 역할을 한다.
3. 검정 통계량 및 유의확률 계산
        표본 데이터의 검정 통계량을 계산한다. 검정 통계량은 가설을 평가하기 위해 사용되는 값으로 검정 통계량을 사용해 유의확률(P-value)을 계산한다.
4. 결과 도출
        유의확률 << 유의수준 : 귀무가설 기각
        유의확률 >> 유의수준 : 귀무가설 채택

# 02. 단일 표본 검정
-----------------------------
    단일 표본 검정(One Sample t-test)은 어떤 집단의 평균이 특정 값과 유의미하게 다른지를 검정하는 통계 방법이다.
    예를 들어 영화관에서 판매하는 팝콘의 무게는 120g으로 알려져 있다. 판매할 때마다 무게가 다른 것 같아 평균 무게가 120g 인지를 확인하고자 한다.
  
  - 표본
        팝콘
  - t-test
        표본의 크기, 표본의 평균, 표본의 표준편차 등을 활용해 기존에 알려진 120g과 다른지 t-검정을 수행한다. 검정 결과는 p_value(p-값)이 주어지는데 이 값이 얼마나 작은지에 따라 평균이 120g과 같은지 다른지를 판단할 수 있다.
        즉 평균이 120g이 아니라고 할 만한 충분한 근거가 있다는 의미다.
        이런 방식으로 단일표본 t-test는 주어진 표본 데이터가 어떤 특정 값과 다르다는 것을 통계적으로 판단하는 데 사용한다.

      - 단일 표본 검정에서는 scipy.stats의 ttest_1samp()를 활용한다.
            ttest_1samp(a, popmean, alternative)
            - a : 모집단에서 뽑은 표본 데이터
            - popmean : 비교하려는 모집단의 평균 또는 기대 값
            - alternative(대립가설 정의)
              실제 (μ) > 기존에 알려진 무게(μ₀)를 비교한다.

Q. 영화관에서 판매하는 팝콘 라지 사이즈의 무게는 일반적으로 120g으로 알려져 있다. 이제 이 데이터를 갖고 t-test를 수행한다. 가설검정 프로세스 순서로 풀어본다. (별도의 안내가 없다면 0.05를 기준으로 한다.)

In [54]:
import pandas as pd
df = pd.DataFrame({
    'weights':[122, 121, 120, 119, 125, 115, 121, 118, 117, 127,
           123, 129, 119, 124, 114, 126, 122, 124, 121, 116,
           120, 123, 127, 118, 122, 117, 124, 125, 123, 121],
})

from scipy import stats
t_statistic,p_value = stats.ttest_1samp(df['weights'],120)
print("t-statistic :",t_statistic)
print("p-value:",p_value)

t-statistic : 2.1155384372682344
p-value: 0.043092957066609296


# 03. 양측 검정과 단측 검정
-----------------------------
1. 양측 검정(Two-tailed test)
        귀무가설, 즉 기존에 알려진 사실보다 크거나 작음에 대해 모두 검정한다. 팝콘 라지 사이즈 예시에서 대립가설을
        " 팝콘 라지 사이즈의 평균 무게는 120g이 아니다."
        라고 설정한다면 양측검정이다. 평균 무게가 120g보다 클 수도 작을 수도 있다.
2. 단측 검정(One-tailed test)
        귀무가설, 즉 기존에 알려진 사실보다 크거나 작음에 대해 검정한다.
        예시에서 "팝콘 라지 사이즈의 평균 무게는 120g보다 크다"
        라고 설정한다면 이는 단측 검정이다. 여기서는 평균 무게인 120g보다 클 경우만 고려하고 있다.
        기본적으로 scipy 라이브러리의 ttest_1samp() 함수는 기본적으로 양측 검정을 수행한다. 단측 검정이 필요하다면 alternative 파라미터를 활용한다.
        alternative : two-sided(기본값)/ greater(평균보다 크다)/ less(평균보다 작다)

In [59]:
stats.ttest_1samp(df['weights'],120,alternative="two-sided")

TtestResult(statistic=2.1155384372682344, pvalue=0.043092957066609296, df=29)

In [63]:
print("크다: ",stats.ttest_1samp(df['weights'],120,alternative='greater'))
print("작다: ",stats.ttest_1samp(df['weights'],120,alternative='less'))


크다:  TtestResult(statistic=2.1155384372682344, pvalue=0.021546478533304648, df=29)
작다:  TtestResult(statistic=2.1155384372682344, pvalue=0.9784535214666953, df=29)
