# Ch7. hypothesis_and_inference(가설과 추론)

In [1]:
import math, random

In [2]:
def normal_cdf(x, mu=0,sigma=1):
    return (1 + math.erf((x - mu) / math.sqrt(2) / sigma)) / 2

def inverse_normal_cdf(p, mu=0, sigma=1, tolerance=0.00001):
    """이진 검색을 사용해서 역함수를 근사"""

    # 표준정규분포가 아니라면 표준정규분포로 변환
    if mu != 0 or sigma != 1:
        return mu + sigma * inverse_normal_cdf(p, tolerance=tolerance)

    low_z, low_p = -10.0, 0            # normal_cdf(-10) 0에 접근
    hi_z,  hi_p  =  10.0, 1            # normal_cdf(10)  1에 접근
    while hi_z - low_z > tolerance:
        mid_z = (low_z + hi_z) / 2     # 중간값
        mid_p = normal_cdf(mid_z)      # 중간 값의 누적분포 값을 계산
        if mid_p < p:
            # 중간 값이 너무 작다면 더 큰 값들을 검색
            low_z, low_p = mid_z, mid_p
        elif mid_p > p:
            # 중간 값이 너무 크다면 더 작은 값들을 검색
            hi_z, hi_p = mid_z, mid_p
        else:
            break

    return mid_z

특정 가설이 사실인지 아닌지 검정해 보고 싶은 경우가 있다. 
 - 기본적인 가설을 의미하는 **귀무가설**$(H_o,null\ Hypothesis)$과 비교하고 싶은 **대립가설**$(H_1,alternative\ Hypothesis)$
 - 통계를 통해 $H_o$를 기각할지 말지를 결정한다. 

##  예시. 동전 던지기 
 - 동전이 공평한 동전인지 아닌지 검정.
 - 앞면이 나올 확률 : $p$, 공평하다는 의미는 $p=0.5$는 **귀무가설**이고 $p\neq0.5$가 **대립가설**이 된다. 

In [3]:
def normal_approximation_to_binomial(n, p):
    """Binomial(n, p)에 해당되는 평균과 표준펴차 계산"""
    mu = p * n
    sigma = math.sqrt(p * (1 - p) * n)
    return mu, sigma

확률변수가 정규분포를 따른다는 가정하에, normal_cdf를 사용하면 실제 동전던지기로부터 얻은 값이 구간 안에 존재할 확률을 계산할 수 있다.

In [4]:
# 누적분포함수는 확률변수가 특정 값보다 작을 확률을 나타낸다. 
normal_probability_below = normal_cdf

# i만약 확률변수가 특정 값보다 작지 않다면, 특정 값보다 크다는 것을 의미한다.
def normal_probability_above(lo, mu=0, sigma=1):
    return 1 - normal_cdf(lo, mu, sigma)

# 만약 확률변수가 hi보다 작고 lo보다 작지 않다면, 확률변수는 hi와 lo사이에 존재한다. 
def normal_probability_between(lo, hi, mu=0, sigma=1):
    return normal_cdf(hi, mu, sigma) - normal_cdf(lo, mu, sigma)

# 만약 확률변수가 범위 밖에 존재한다면, 범위 안에 존재하지 않는다는 것을 위미한다. 
def normal_probability_outside(lo, hi, mu=0, sigma=1):
    return 1 - normal_probability_between(lo, hi, mu, sigma)

반대로 확률이 주어졌을때는 평균을 중심으로 하는 대칭적인 구간을 구할 수도있다. 예를 들어, 분포의 60%를 차지하는 평균 중심의 구간을 구하고 <br> 싶다면 양쪽 꼬리 부분이 각각 분포의 20%를 차지하는 지점을 구하면 된다. 

In [5]:
def normal_upper_bound(probability, mu=0, sigma=1):
    """P(Z<=z) = probability, 인 z값 반환"""
    return inverse_normal_cdf(probability, mu, sigma)

def normal_lower_bound(probability, mu=0, sigma=1):
    """P(Z>=z) = probability, 인 z값 반환"""
    return inverse_normal_cdf(1 - probability, mu, sigma)

def normal_two_sided_bounds(probability, mu=0, sigma=1):
    """입력한 probability 값을 포함하고, 
    평균을 중심으로 대칭적인 구간을 반환"""
    tail_probability = (1 - probability) / 2

    # 구간의 상한은 tail_probability 값 이상의 확률 값을 갖고 있다.
    upper_bound = normal_lower_bound(tail_probability, mu, sigma)

    # 구간으 ㅣ하한은 tail_probability값 이하의 확률 값을 갖고 있다.
    lower_bound = normal_upper_bound(tail_probability, mu, sigma)

    return lower_bound, upper_bound


 - 동전 1000번 
 - 가설이 맞다면 X는 대략 평균이 500이고, 표준편차가 15.8인 정규분포를 따를 것이다. 

In [6]:
mu_0, sigma_0 = normal_approximation_to_binomial(1000, 0.5)
print("mu_0", mu_0)
print("sigma_0", sigma_0)
print("normal_two_sided_bounds(0.95, mu_0, sigma_0)", normal_two_sided_bounds(0.95, mu_0, sigma_0))
print()
print("power of a test")

mu_0 500.0
sigma_0 15.811388300841896
normal_two_sided_bounds(0.95, mu_0, sigma_0) (469.01026640487555, 530.9897335951244)

power of a test


제 1종 오류를 얼마나 허용해 줄것인지를 의미하는 유의수준을 결정해야 한다.
 - 제 1종 오류란, 비록 $H_o$가 참이지만 $H_o$를 기각하는 'false positive(가양성)' 오류를 의미한다. 
 - 보통 5%나 1%로 설정하는 경우가 많다. 

In [7]:
print("95% bounds based on assumption p is 0.5")
lo, hi = normal_two_sided_bounds(0.95, mu_0, sigma_0)
print("lo", lo)
print("hi", hi)

95% bounds based on assumption p is 0.5
lo 469.01026640487555
hi 530.9897335951244


제 2종 오류를 범하지 않을 확률을 구하면 검정력(power)을 알 수 있다. 
- 제 2종 오류란 $H_o$가 거짓이지만 $H_o$를 기각하지 않는 오류를 의미한다. 
- 제 2종 오류를 측정하기 위해서 먼저 $H_o$가 거짓이라는 것이 무엇을 의미하는지 알아볼 필요가 있다. 

예를 들어 p가 0.55, 즉 동적의 얖면이 나올 확률이 약간 평향되어 있다면 검정력은 다음과 같다. 

In [8]:
print("95% bounds based on assumption p is 0.5")
# p가 0.5라고 가정할 때, 유의수준이 5%인 구간.
lo, hi = normal_two_sided_bounds(0.95, mu_0, sigma_0)
print("lo", lo)
print("hi", hi)

95% bounds based on assumption p is 0.5
lo 469.01026640487555
hi 530.9897335951244


In [10]:
print("p = 0.55인 경우 실제 평균과 표준편차")
mu_1, sigma_1 = normal_approximation_to_binomial(1000, 0.55)
print("mu_1", mu_1)
print("sigma_1", sigma_1)

p = 0.55인 경우 실제 평균과 표준편차
mu_1 550.0
sigma_1 15.732132722552274


 - 제 2종 오류란 귀무가설($H_o$)을 기각하지 못했다는 의미 
 - 즉, X가 주어진 구간 안에 조재할 경우를 의미 

In [11]:
type_2_probability = normal_probability_between(lo, hi, mu_1, sigma_1)
power = 1 - type_2_probability # 0.887

In [14]:
print("type 2 probability", type_2_probability)
print("power", power)

type 2 probability 0.11345199870463285
power 0.8865480012953671


 - P < 0.5 즉 동전이 앞면에 편향되지 않은 경우를 귀무가설로 정한다면 X가 50편보다 크면 귀무가설을 기각하고, 50보다 작다면 기각하지 않는 단측검정이 필요해진다. 
 - 유의수준이 5%인 가설검정을 위해서는 normal_probability_below를 사용하여 분포의 95%가 해당 값 이하인 경계 값을 찾을 수 있다. 

In [15]:
hi = normal_upper_bound(0.95,mu_0,sigma_0)
hi

526.0073585242053

In [16]:
type_2_probability = normal_probability_below(hi,mu_1,sigma_1)
type_2_probability

0.06362051966928273

In [17]:
power = 1 - type_2_probability
power

0.9363794803307173