# 가설과 추론


## 어려운 개념들...

- **가설(hypothesis):** 과학적 자료에 근거하여 논리적으로 유추하여 설정한 가정. 대부분의 가설은 그동안의 통념이나 상식을 깨고 새로운 주장을 하고자 세운다.


- **가설 검정(hypothesis testing):** 가설이 옳은지 검사


- **귀무가설(null hypothesis):**통계학에서 처음부터 버릴 것(기각될 것)을 예상하는(기도하는?) 가설. 연구자가 깨버리고 싶은 기존 통념이나 상식 또는 주장을 귀무가설로 설정한다. 예를 들어 검사 입장에서 범죄 용의자가 있을 경우, 용의자가 무죄라는 가설이 **귀무가설**, 용의자가 범쥐를 저질렀다는 가설이 **대립가설** 


- **대립가설:** 귀무가설에 대립하는 명제로써, 연구자가 연구를 통해 입증되기를 기대하는 예상이나 주장하는 내용. 대립가설은 검정을 직접 수행하기는 불가능하며 반대 명제인 귀무가설을 기각함으로써 받아들여지는 반증의 과정을 통해 입증한다.


- **p-value(유의확률):** 귀무가설이 맞다는 전제에서 우리가 관찰한 실험결과(혹은 사건)이 발생할 확률. 조건부 확률입니다. 귀무가설이 참이면서 실험 결과값 또는 그보다 큰 값이 발생할 확률.


- **유의수준(significance level):** 귀무가설 기각을 판단하는 기준. 유의수준은 보통 5%,1%,10%로 설정하는데 사건이 발생할 확률이 유의수준보다 낮을 경우 귀무가설을 기각하게 된다.  

![image](http://epiville.ccnmtl.columbia.edu/assets/images/error_table.jpg)

- **제1종 오류:** 귀무가설이 참인데도 기각하는 오류


- **제2종 오류:** 대립가설이 참인데 귀무가설을 채택(참)하는 오류, 유의수준을 1%와 같이 작은 수준으로 잡으면 1종오류 가능성은 낮아지지만 반대로 2종 오류의 발생 가능성이 커집니다.


- **단측 검정:** 검정하고자 하는 내용이 '크다','작다'와 같이 방향성이 있는 검정. 귀무가설/대립가설이 '--가 크다/작다'. ex) 남자의 평균키가 여자의 평균키보다 크다.


- **양측 검정:** 검정하고자 하는 내용이 '같지 않다'인 경우. ex) 남녀의 평균 키 차이가 있다.




## 책에 나온 예시 코드




In [1]:
import math

In [2]:
def normal_approximation_to_binomial(n, p):
    """Binomial(n,p)에 해당되는 mu(평균)와 sigma(표준편차) 계산"""
    mu = p * n
    sigma = math.sqrt(p*(1-p)*n)
    return mu, sigma

In [4]:
def normal_cdf(x, mu=0, sigma=1):
    return (1 + math.erf((x-mu) / math.sqrt(2) / sigma)) / 2

In [5]:
# 누적분포함수는 확률변수가 특정 값보다 작을 확률을 나타낸다.
normal_probability_below = normal_cdf

In [6]:
# 만약 확률변수가 특정 값보다 작지 않다면, 특정값보다 크다는 것을 의미한다
def normal_probability_above(lo, mu=0, sigma=1):
    return 1 - normal_cdf(lo, mu, sigma)

In [7]:
# 만약 확률변수가 hi보다 작고 lo보다 작지 않다면, 확률변수는 hi와 lo 사이에 존재한다.
def normal_probability_between(lo, hi, mu=0, sigma=1):
    return normal_cdf(hi, mu,sigma) - normal_cdf(lo,mu,sigma)

In [None]:
# 만약 확률변수가 범위 밖에 
def normal_probability_outside()