# 가설과 추론

이번 비디오에서는 지금까지 배운 통계와 확률 이론을 활용하여
가설을 세우고 검정하는 방법을 배운다.

여기서 다루는 주제는 다음과 같다.

1. 통계적 가설검정
1. $p$-값
1. 신뢰구간
1. A/B 테스트
1. 베이지안 추론

## 통계적 가설 검정

통계적 가설 검정은 
모집단에 대한 가설을 세운 후 표본을 통해 얻은 통계를 이용하여 
해당 가설을 검정(test)하는 것을 의미한다.

### 귀무가설과 대립가설

검정 대상인 가설을 **귀무가설**($H_0$, null hypothesis), 
그에 대립되는 가설을 **대립가설**($H_1$, alternative hypothesis)라 부른다. 

통계를 사용하여 귀무가설 $H_0$를 받아들일지, 아니면 기각하고 대립가설 $H_1$을 받아들일지를 결정한다.
귀무가설을 검정할 때 발생할 수 있는 오류에는 두 종류가 있다. 

* **1종 오류**: 귀무가설 $H_0$가 참이지만 기각하는 오류
* **2종 오류**: 귀무가설 $H_0$가 거짓이지만 받아들이는 오류

그리고 2종 오류가 발생하지 않을 확률을 **검정력**이라 부른다.

### 동전 던지기 예제

동전 던지기를 이용하여 가설검정 방법을 설명한다. 

지금까지는 동전이 정상적인 동전인지 아니면 앞면 또는 뒷면이 보다 많이 나오는 편향된 동전인지 
알고서 특정 사건이 발생할 확률을 구했다. 

그런데 이제는 동전에 대한 정보를 모른다고 가정한다.
그리고 나서 모의실험 결과를 보고 동전에 대한 정보를 통계적으로 추정한다.
바로 **통계적 가설 검정**이라고 부르는 이유이다. 

동전을 $n$번 던져서 앞면이 나오는 횟수를 가리키는 확률 변수 $X$를 세는
모의실험을 통해 동전에 대한 가설을 검정해보자.

이전 비디오에서 살펴보았듯이 $n$값이 충분히 크면
$X$는 정규분포를 따른다. 
동전을 한 번 던져서 앞면이 나올 확률을 $p$라 할 때,
실제로 다음이 성립한다.

$$X \sim N(n\cdot p, n\cdot p\cdot (1-p))$$

즉, 평균은 $\mu = n\cdot p$ 이고 표준편차는 $\sigma = \sqrt{n \cdot p \cdot (1-p)}$ 인
정규분포이다.

이제 동전을 1,000번 던졌다고 가정하자. 
즉, $n = 1000$ 이다.

그리고 검정해야할 귀무가설 $H_0$는 '동전이 정상이다'로 정한다.

* $H_0$: $p = 0.5$

그러면 다음이 성립해야 한다.

$$X \sim N(\mu_0, \sigma_0^2) = N(500, 250) = N(500, 15.8^2)$$

$\mu_0$와 $\sigma_0$ 계산은 매우 쉽다.

In [20]:
from typing import Tuple
import math

def normal_approximation_to_binomial(n: int, p: float) -> Tuple[float, float]:
    """Returns mu and sigma corresponding to a Binomial(n, p)"""
    mu = p * n
    sigma = math.sqrt(p * (1 - p) * n)
    return mu, sigma

# '../scratch' 폴더에 있는 파이썬 모듈을 사용하기 위해 아래 명령이 필요

import os
import sys
sys.path.insert(0, os.path.abspath('..'))

from scratch.probability import normal_cdf

normal_probability_below = normal_cdf

def normal_probability_above(lo: float,
                             mu: float = 0,
                             sigma: float = 1) -> float:
    return 1 - normal_cdf(lo, mu, sigma)

def normal_probability_between(lo: float,
                               hi: float,
                               mu: float = 0,
                               sigma: float = 1) -> float:
    return normal_cdf(hi, mu, sigma) - normal_cdf(lo, mu, sigma)

def normal_probability_outside(lo: float,
                               hi: float,
                               mu: float = 0,
                               sigma: float = 1) -> float:
    return 1 - normal_probability_between(lo, hi, mu, sigma)

from scratch.probability import inverse_normal_cdf

def normal_upper_bound(probability: float,
                       mu: float = 0,
                       sigma: float = 1) -> float:
    return inverse_normal_cdf(probability, mu, sigma)

def normal_lower_bound(probability: float,
                       mu: float = 0,
                       sigma: float = 1) -> float:
    return inverse_normal_cdf(1 - probability, mu, sigma)

def normal_two_sided_bounds(probability: float,
                            mu: float = 0,
                            sigma: float = 1) -> Tuple[float, float]:
    tail_probability = (1 - probability) / 2

    upper_bound = normal_lower_bound(tail_probability, mu, sigma)

    lower_bound = normal_upper_bound(tail_probability, mu, sigma)

    return lower_bound, upper_bound

mu_0, sigma_0 = normal_approximation_to_binomial(1000, 0.5)
print(f"mu_0\t = {mu_0}",
      f"sigma_0\t = {sigma_0}", sep='\n')

mu_0	 = 500.0
sigma_0	 = 15.811388300841896


### 유의수준

귀무가설을 검정하려면 먼저 **유의수준**(significance)을 지정해야 한다.
유의수준은 보통 5% 또는 1%로 정하며, 여기서는 5%를 사용한다.

유의수준이 5%라는 것은 
귀무가설이 정말로 참이라고 해도 
발생확률이 5%가 안되는 사건이 모의실험에서 발생하면 
어쩔 수 없이 귀무가설을 기각해야 한다는 것을 의미한다.
즉, 1종오류로 인정되는 범위의 기준이 5%라는 것이다. 

### 양측검점과 단측검정

가설검정 방법에 크게 세 가지 방법이 있다.

* **양측검정**(two_sided test): 대립가설이 '...가 아니다'의 형식인 경우 주로 사용
* **단측검정**(one-sided test)
    * 하단측검정: 대립가설이 '...보다 작다'의 형식인 경우 주로 사용
    * 상단측검정: 대립가설이 '...보다 크다'의 형식인 경우 주로 사용

### 기각역

유의수준에 따라 귀무가설을 기각하기 위한 기준으로 사용되는 값들의 집합을 기각역이라 하며,
가설검정 방식에 따라 위치와 크기가 달라진다.

아래 그래프는 차례대로 유의수준 5%에서 양측검정, 하단측검정, 상단측검정의 기각역을 보여준다.

<p>
<table cellspacing="20">
<tr>
    <td><img src="../images/two-sided-region.png"></td>
    <td><img src="../images/one-sided-region-down.png"></td>
    <td><img src="../images/one-sided-region-up.png"></td>
</tr>
</table>
</p>

In [2]:
# (469, 531)
lower_bound, upper_bound = normal_two_sided_bounds(0.95, mu_0, sigma_0)


assert 468.5 < lower_bound < 469.5
assert 530.5 < upper_bound < 531.5

# 95% bounds based on assumption p is 0.5
lo, hi = normal_two_sided_bounds(0.95, mu_0, sigma_0)

# actual mu and sigma based on p = 0.55
mu_1, sigma_1 = normal_approximation_to_binomial(1000, 0.55)

# a type 2 error means we fail to reject the null hypothesis
# which will happen when X is still in our original interval
type_2_probability = normal_probability_between(lo, hi, mu_1, sigma_1)
power = 1 - type_2_probability      # 0.887


assert 0.886 < power < 0.888

hi = normal_upper_bound(0.95, mu_0, sigma_0)
# is 526 (< 531, since we need more probability in the upper tail)

type_2_probability = normal_probability_below(hi, mu_1, sigma_1)
power = 1 - type_2_probability      # 0.936


assert 526 < hi < 526.1
assert 0.9363 < power < 0.9364

In [3]:
def two_sided_p_value(x: float, mu: float = 0, sigma: float = 1) -> float:
    """
    How likely are we to see a value at least as extreme as x (in either
    direction) if our values are from a N(mu, sigma)?
    """
    if x >= mu:
        # x is greater than the mean, so the tail is everything greater than x
        return 2 * normal_probability_above(x, mu, sigma)
    else:
        # x is less than the mean, so the tail is everything less than x
        return 2 * normal_probability_below(x, mu, sigma)

two_sided_p_value(529.5, mu_0, sigma_0)   # 0.062

import random

extreme_value_count = 0
for _ in range(1000):
    num_heads = sum(1 if random.random() < 0.5 else 0    # Count # of heads
                    for _ in range(1000))                # in 1000 flips,
    if num_heads >= 530 or num_heads <= 470:             # and count how often
        extreme_value_count += 1                         # the # is 'extreme'

# p-value was 0.062 => ~62 extreme values out of 1000
assert 59 < extreme_value_count < 65, f"{extreme_value_count}"

two_sided_p_value(531.5, mu_0, sigma_0)   # 0.0463


tspv = two_sided_p_value(531.5, mu_0, sigma_0)
assert 0.0463 < tspv < 0.0464

upper_p_value = normal_probability_above
lower_p_value = normal_probability_below

upper_p_value(524.5, mu_0, sigma_0) # 0.061

upper_p_value(526.5, mu_0, sigma_0) # 0.047

p_hat = 525 / 1000
mu = p_hat
sigma = math.sqrt(p_hat * (1 - p_hat) / 1000)   # 0.0158

normal_two_sided_bounds(0.95, mu, sigma)        # [0.4940, 0.5560]

p_hat = 540 / 1000
mu = p_hat
sigma = math.sqrt(p_hat * (1 - p_hat) / 1000) # 0.0158
normal_two_sided_bounds(0.95, mu, sigma) # [0.5091, 0.5709]

from typing import List

def run_experiment() -> List[bool]:
    """Flips a fair coin 1000 times, True = heads, False = tails"""
    return [random.random() < 0.5 for _ in range(1000)]

def reject_fairness(experiment: List[bool]) -> bool:
    """Using the 5% significance levels"""
    num_heads = len([flip for flip in experiment if flip])
    return num_heads < 469 or num_heads > 531

random.seed(0)
experiments = [run_experiment() for _ in range(1000)]
num_rejections = len([experiment
                      for experiment in experiments
                      if reject_fairness(experiment)])

assert num_rejections == 46

def estimated_parameters(N: int, n: int) -> Tuple[float, float]:
    p = n / N
    sigma = math.sqrt(p * (1 - p) / N)
    return p, sigma

def a_b_test_statistic(N_A: int, n_A: int, N_B: int, n_B: int) -> float:
    p_A, sigma_A = estimated_parameters(N_A, n_A)
    p_B, sigma_B = estimated_parameters(N_B, n_B)
    return (p_B - p_A) / math.sqrt(sigma_A ** 2 + sigma_B ** 2)

z = a_b_test_statistic(1000, 200, 1000, 180)    # -1.14


assert -1.15 < z < -1.13

two_sided_p_value(z)                            # 0.254


assert 0.253 < two_sided_p_value(z) < 0.255

z = a_b_test_statistic(1000, 200, 1000, 150)    # -2.94
two_sided_p_value(z)                            # 0.003

def B(alpha: float, beta: float) -> float:
    """A normalizing constant so that the total probability is 1"""
    return math.gamma(alpha) * math.gamma(beta) / math.gamma(alpha + beta)

def beta_pdf(x: float, alpha: float, beta: float) -> float:
    if x <= 0 or x >= 1:          # no weight outside of [0, 1]
        return 0
    return x ** (alpha - 1) * (1 - x) ** (beta - 1) / B(alpha, beta)

AssertionError: 70