# 밑바닥부터 시작하는 데이터 과학

- 원서명 : Data Science from Scratch: First Principles with Python
- 지은이 : Joel Grus
- 원서 : <http://shop.oreilly.com/product/0636920033400.do>
- 번역서 : <http://www.insightbook.co.kr/books/programming-insight>

![책표지](./image/cover.png)

- 출판사 예제코드 : <https://github.com/insight-book/data-science-from-scratch>

위 책을 보면서 필자가 직접 코딩하면서 정리한 내용입니다.  
책의 모든 내용을 다 포함하고 있지는 않으며, 책에 없는 부가적인 설명이 들어 갈 수 있습니다.  
필자가 작성한 `Jupyter notebook`은 다음 Link에서 다운로드하여 실행이 가능합니다.

- 본문 Jupyter notebook : <https://github.com/DevStarSJ/Study/tree/master/Blog/Python/DataScienceFromScratch>

먼저 이번장에서 사용할 모듈들 및 이전장에서 작성한 함수들을 가져오겠습니다.

In [1]:
import math, random

In [2]:
def normal_cdf(x, mu=0, sigma=1):
    return (1 + math.erf((x - mu) / math.sqrt(2) / sigma)) / 2

def inverse_normal_cdf(p, mu=0, sigma=1, tolerance=0.00001):
    
    # 무조건 표준정규분포로 검색
    if mu != 0 or sigma !=1:
        return mu + sigma * inverse_normal_cdf(p, tolerance=tolerance)
    
    low_z, low_p = -10, 0 # normal_cdf(-10) = 0
    hi_z, hi_p = 10, 1    # normal_cdf(10) = 1
    
    while hi_z - low_z > tolerance:
        mid_z = (low_z + hi_z) / 2 # 중간값
        mid_p = normal_cdf(mid_z)  # 중간값의 누적분포
        
        if mid_p < p:
            low_z, low_p = mid_z, mid_p
        elif mid_p > p:
            hi_z, hi_p = mid_z, mid_p
        else:
            break
            
    return mid_z

## 07 가설과 추론 (hypothesis and inference)

- `가설(hypothesis)` : 구체적인 주장. (ex. 동전의 앞뒤가 나올 확률은 같다.) 데이터 통계치에 대한 얘기로 변환 될 수 있음

고전적인 가설 검증에서는 `귀무가설(H0, null hypothesis)`와 `대립가설(H1, alternative hypothesis)`로 구성하여 통계를 이용해서 `H0`를 기각할지 말지 결정하는 방법을 사용합니다.

### 1. 예시: 동전 던지기

동전의 앞뒤가 나올 확률이 같다는 것을 검증하기 위해서는 동전의 앞면이 나올 확률 `p=0.5`가 귀무가설이 되고, `p!= 0.5`가 대립가설이 됩니다.

동전을 `n`번 던져서 앞면이 나온 횟수`X`를 세는 것으로 검정을 진행해 보겠습니다.
동전던지기는 `베르누이 분포`를 따를 것이므로, `X`가 이항분포를 따르는 확률변수라는 말이 됩니다.
이항분포는 정규분포에 가깝게 접근합니다.

In [3]:
def normal_approximation_to_binomial(n, p):
    mu = p * n
    sigma = math.sqrt(p * (1 - p) * n)
    return mu, sigma

확률변수가 정규분포를 따른다는 가정하에, `normal_cdf`를 사용하면 실제 동전던지기로부터 얻은 값이 해당 구간에 존재할 확률을 계산할 수 있다.

In [4]:
# 누적분포함수 : 확률변수가 특정 값보다 작을 확률
normal_probability_below = normal_cdf

# 만약 확률변ㅅ후가 특정 값보다 작지 않다면, 크다는 것을 의미
def normal_probability_above(lo, mu=0, sigma=1):
    return 1- normal_cdf(lo, mu, sigma)

# hi와 lo 사이에 존재하는 확률변수 : hi보다 작고, lo보다 큰 범위
def normal_probability_between(lo, hi, mu=0, sigma=1):
    return normal_cdf(hi, mu, sigma) - normal_cdf(lo, mu, sigma)

# 범위밖에 존재하는 확률변수
def normal_probability_outside(lo, hi, mu=0, sigma=1):
    return 1 - normal_probability_between(lo, hi, mu, sigma)

반대로 확률이 주어졌을 때 평균을 중심으로 하는 대칭적인 구간을 구할 수도 있습니다.
예를 들어 60%를 차지하는 구간을 구하고자 할 경우 양 쪽 부분에서 각각 20%를 차지하는 지점을 구하면 됩니다.

In [5]:
# P(Z <= z) = probability인 z를 return
def normal_upper_bound(probability, mu=0, sigma=1):
    return inverse_normal_cdf(probability, mu, sigma)

# P(Z >= z) = probability인 z를 return
def normal_lower_bound(probability, mu=0, sigma=1):
    return inverse_normal_cdf(1 - probability, mu, sigma)

# probability를 중심으로 대칭적인 구간을 return
def normal_two_sided_bounds(probability, mu=0, sigma=1):
    tail_probability = (1 - probability) / 2
    
    upper_bound = normal_lower_bound(tail_probability, mu, sigma)
    lower_bound = normal_upper_bound(tail_probability, mu, sigma)
    
    return lower_bound, upper_bound

이제 실제로 1000번 던져보겠습니다.

In [6]:
mu_0, sigma_0 = normal_approximation_to_binomial(1000, 0.5)

mu_0, sigma_0

(500.0, 15.811388300841896)

X는 대량 평균 500에 표준편차 15.8인 정규분포를 따를것 입니다.

#### 가설검정에서 오류의 종류

|        | H0 참      | H1참       |
|----- --|------------|------------|
|H0 채택 | 옳은 결정  | 제2종 오류 |
|H1 채택 | 제1종 오류 | 옳은 결정  |

#### 통계적 검정

1. `제1종 오류`를 범할 최대 한계치를 정함
2. `제1종 오류`가 발생할 허용활률범위(`유의수준`)을 정함 : 1%, 5%, 10% 등... 통상 5%
3. `제2종 오류`를 최소화
4. 귀무가설(`H0`)이 맞다고 보고 사건이 일어날 확률을 구하고 이를 `유의수준`과 비교 : 확률이 유의수준보다 작으면 귀무가설 기각

`제1종 오류`를 얼마나 허용해 줄 것인지를 의미하는 `유의수준(significance)`를 결정해야 합니다.
`제1종 오류`란, 비록 H0가 참이지만 H0을 기각하는 `false positive(가양성)` 오류를 의미합니다.
`유의수준`은 통상적으로 5%나 1%로 설정하는 경우가 많은데 여기서는 5%로 해 보겠습니다.

* p = 0.5라는 가정에서 유의수준이 5%인 구간

In [7]:
normal_two_sided_bounds(0.95, mu_0, sigma_0)

(469.01026640487555, 530.9897335951244)

`H0`이 참이라면 (`p = 0.5`) `X`가 주어진 범위를 벗어날 확률은 5%밖에 되지 않아야 합니다. 즉 20번 중 19번은 올바른 결과가 나올것입니다.

`제2종 오류`를 범하지 않을 확률을 구하면 `검정력(power)`을 알 수 있습니다.
`제2종 오류`란 H0가 거짓이지만 H0를 기각하지 않는 오류를 의미합니다.
H0가 거짓이란 것은 어떤 것을 의미할까요 ? 즉, P가 0.5가 아니라는 말 자체는 별 의미가 없으므로, P가 0.55일 확률에 대한 검정력을 구해보겠습니다.
(앞면이 좀 더 자주 나오도록 확률이 약간 편향된 경우의 검정력)

* p = 0.5라는 가정에서 유의수준이 5%인 구간

In [8]:
lo, hi = normal_two_sided_bounds(0.95, mu_0, sigma_0)
lo, hi

(469.01026640487555, 530.9897335951244)

* P = 0.55인 경우의 실제 평균과 표준편차

In [9]:
mu_1, sigma_1 = normal_approximation_to_binomial(1000, 0.55)
mu_1, sigma_1

(550.0, 15.732132722552274)

 `제2종 오류`란 귀무가설(H0)를 기각하지 못한다는 의미입니다.
 즉, X가 주어진 구간 안에 존재할 경우를 의미합니다.

In [10]:
type_2_probability = normal_probability_between(lo, hi, mu_1, sigma_1)
power = 1 -  type_2_probability
power

0.8865480012953671

`P <= 0.5`, 즉 동전이 앞면에 편향되지 않았다는 경우를 귀무가설로 정한다면 X가 50보다 크면 귀무가설을 기각하고, 50보다 작으면 기각하지 않는 단측검정이 필요해집니다.
유의수준이 5%인 가설검정을 위해서는 `normal_probability_below`를 사용하여 분포의 95%가 해당 값 이하인 경계 값을 찾을 수 있습니다.

In [11]:
hi = normal_upper_bound(0.95, mu_0, sigma_0)
hi

526.0073585242053

In [12]:
type_2_probability = normal_probability_below(hi, mu_1, sigma_1)
power = 1 - type_2_probability
power

0.9363794803307173

이 가설검정에서는 X가 469보다 작을때 H0를 기각하는게 아니라, X가 526에서 531 사이일때 H0를 기각하기 때문에 전보다 검정력이 더 좋아졌다고 볼 수 있습니다.

### 2. p-value

어떤 확률 값을 기준으로 구간을 선택하는 대신에, H0가 참이라고 가정하고 실제로 관측된 값보다 더 극단적인 값이 나올 확률을 구하는 것입니다.

* 양측검정
  - x가 평균보다 크면, x보다 큰 값이 나올 확률을 구하고
  - x가 평균보다 작으면, x보다 작은 값이 나올 확률을 구함

In [13]:
def two_sided_p_value(x, mu=0, sigma=1):
    if x >= mu:
        return 2 * normal_probability_above(x, mu, sigma)
    else:
        return 2 * normal_probability_below(x, mu, sigma)

만약 동전의 앞면이 나온 경우가 530번이라면, `p-value`는 다음과 같습니다.

In [14]:
two_sided_p_value(529.5, mu_0, sigma_0)

0.06207721579598857

위 계산결과가 맞는지 시뮬레이션 해보겠습니다.

In [15]:
extreme_value_count = 0
for _ in range(100000):
    num_heads = sum(1 if random.random() < 0.5 else 0 for _ in range(1000))
    if num_heads >= 530 or num_heads <= 470:
        extreme_value_count += 1

extreme_value_count / 100000

0.06306

주사위를 1000번 던져서 앞면 (혹은 뒷면)이 530번 이상 나올 경우에 대해서  10만번 테스트 한 결과 6% 정도였습니다.
즉 `p-value`가 6%이기 때문에 귀무가설을 기각하지 않습니다.
만약 앞면이 523번 나왔을 경우에는 `p-value`는 5%보다 작은 값이 되기 때문에 귀무가설을 기각합니다.

In [16]:
two_sided_p_value(531.5, mu_0, sigma_0)

0.046345287837786575

앞서 살펴본 방법과 통계를 바라보는 관점만 다를뿐 사실상 동일한 방법입니다.

In [17]:
upper_p_value = normal_probability_above
lower_p_value = normal_probability_below

앞면이 525번 나온 경우 단측검정을 위한 `p-value` 값은 ?

upper_p_value(524.5, mu_0, sigma_0)

5%보다 크므로 귀무가설을 기각하지 않을 것입니다.
만약 앞면이 527번 나왔다면 ?

In [18]:
upper_p_value(526.5, mu_0, sigma_0)

0.04686839508859242

5%보다 작으므로 귀무가설을 기각할 것입니다.

단, `normal_probability_above`로 `p-value`를 계산하는 전제조건은 주어진 데이터가 정규푼포를 따라야 한다는 것입니다.

### 3. 신뢰구간 (confidence interval)

지금까지는 `P`(앞면이 나올 미지의 분포를 나타내는 값)을 다양하게 바꿔가면서 가설검정을 해보았습니다.
만약 사건에 대한 분포를 모른다면 관측된 값에 대한 `신뢰구간(confidence interval)`을 사용해서 가설을 검정할 수 있습니다.

만약  동전을 1,000번 던져서 앞면이 525번 나왔을 경우, P는 0.525로 추정이 가능한데, 이 값에 대해서 얼마나 신뢰할 수 있을까요 ?
P의 정확한 값을 알고 있다면 중심극한정리를 사용해서 베르누이 확률변수들의 평균이 P 이고 표준편차가 다음과 같은 정규분포로 추정할 수 있을 것입니다.
(단 현재의 P는 정확한 평균이 아니라 그 추정치입니다.)

In [19]:
p_hat = 0.525
sigma_hat = math.sqrt(p_hat * (1 - p_hat) / 1000)
sigma_hat

0.015791611697353755

위에서 구한 통계치로 95% 구간을 구해보겠습니다.

In [20]:
normal_two_sided_bounds(0.95, p_hat, sigma_hat)

(0.4940490278129096, 0.5559509721870904)

위 계산값의 범위(`신뢰구간`) 안에 `P=0.5`가 있기 때문에 공평하지 않다고 결론을 내릴 수 없습니다.

만약 앞면이 540번 나왔을 경우라면 ?

In [21]:
p_hat = 540 / 1000
sigma_hat = math.sqrt(p_hat * (1 - p_hat) / 1000)
sigma_hat

0.015760710643876435

In [22]:
normal_two_sided_bounds(0.95, p_hat, sigma_hat)

(0.5091095927295919, 0.5708904072704082)

공평한 동전(`P=0.5`)은 신뢰구간 밖에 존재하기 때문에, 가설이 참이라면 모든 경우의 95%에 대한 참인 가설검정을 통과하지 못하게 됩니다.

### 4. p-value 해킹

In [23]:
def run_experiment():
    return [random.random() < 0.5 for _ in range(1000)]

def reject_fairness(experiment):
    num_heads = len([flip for flip in experiment if flip])
    return num_heads < 469 or num_heads > 531

random.seed(0)
experiments = [run_experiment() for _ in range(1000)]
num_rejections = len([experiment for experiment in experiments if reject_fairness(experiment)])

num_rejections

46

`p-value` 관점에서 추론을 하면 `p-value 해킹`이라는 문제가 발생할 수 있습니다.

데이터 과학을 제대로 하고 싶다면 다음 세 가지를 지켜야 합니다.

1. 가설은 데이터를 보기 전에 세운다.
2. 데이터를 전처리할 때는 세워둔 가설을 잠시 잊는다.
3. `p-value`는 전부가 아니다. (대안으로 베이지안 추론도 있음)

### 5. A/B test

*A*, *B* 두 가지 케이스에 대해서 *A*의 경우 *990/1,000*, *B*의 경우 *10/1,000* 처럼 차이가 명확한 경우에는 당연히 A가 더 높다고 말을 할 수 있지만, 그렇지 않은 경우에는 통계적 추론을 사용해야 합니다.

${N}_{A}$ 명의 사용자가 광고 *A*를 보았고 그중 ${n}_{A}$명이 광고를 클릭했을 경우에 대해서 살펴보겠습니다.
각각의 클릭을 **베르누이 시행**이라 볼 수 있으며 그 확률을 ${P}_{A}$라 합시다.
${n}_{A} / {N}_{A}$는 평균이 ${P}_{A}$ 이고 표준편차가 ${ \sigma  }_{ A }=\sqrt { { P }_{ A }(1-{ P }_{ A })/N_{ A } }$ 인 정규분포에 근접할 것입니다.

다른 사건인 *B*에 대해서도 동일한 수식으로 적용됩니다.

In [24]:
def estimated_parameter(N, n):
    p = n/N
    sigma = math.sqrt(p * (1-p) / N)
    return p, sigma

*A*, *B*의 정규분포가 독립이라면(각각의 베르누이 시행은 독립적), 두 정규분포의 차이 또한 평균이 ${P}_{B} - {P}_{A}$ 이고 표준편차가 $\sqrt { { { \sigma  }_{ A } }^{ 2 }+{ { \sigma  }_{ B } }^{ 2 } }$인 정규분포를 따릅니다.

(실제로는 표준편차를 미리 알기 힘드므로, 데이터의 양이 충분히 크다면 정규분포를 그대로 사용해도 상관없습니다.)

그렇다면 ${P}_{B} - {P}_{A} = 0$ 즉, 두 개가 같다는 귀무가설은 다음과 같은 통계치로 검정할 수 있습니다.

In [25]:
def a_b_test_statistic(N_A, n_A, N_B, n_B):
    p_A, sigma_A = estimated_parameter(N_A, n_A)
    p_B, sigma_B = estimated_parameter(N_B, n_B)
    return (p_B - p_A) / math.sqrt(sigma_A**2 + sigma_B**2)

예를 들어, *A*를 본 1,000명 중 200명이 클릭을 했고, *B*를 본 1,000명 중 180명이 클릭을 했을 경우

In [26]:
z = a_b_test_statistic(1000,200, 1000,180)
z

-1.1403464899034472

만약 두 분포의 평균이 같다면, 이런 차이가 발생할 확률은 다음과 같습니다.

In [27]:
two_sided_p_value(z)

0.254141976542236

값이 크기 때문에 두 분포가 다르다고 결론을 내릴 수 없습니다. 만약 *B*를 본 사람중 150명이 클릭을 했을 경우라면 다음과 같은 결론이 나올 것입니다.

In [28]:
z = a_b_test_statistic(1000,200, 1000,150)
print(z)
print(two_sided_p_value(z))

-2.948839123097944
0.003189699706216853


즉, 두 광고가 동일한 효과일 경우 이런 차이가 날 확률은 0.003이라는 것을 의미하므로, 같은 효과라고 보기 힘듭니다.

### 6. 베이지안 추론

위에서 살펴본 방법들은 통계적 검정을 확률적으로 설명하는것에 중점을 두었습니다. (예를 들어, 귀무가설이 사살일 경우 이렇게 극단적인 통계치가 발생할 확률은 3%이다.)

다른 방법으로는 알려지지 않은 파라메터를 확률변수로 보는 방법이 있습니다.

In [29]:
def B(alpha, beta):
    ''' 모든 확률 값의 합이 1이 되도록 해주는 정규화 값 '''
    return math.gamma(alpha) * math.gamma(beta) / math.gamma(alpha + beta)

def beta_pdf(x, alpha, beta):
    if x < 0 or x > 1:
        return 0
    return x**(alpha-1) * (1-x)**(beta-1) / B(alpha, beta)

일반적인 베타분포의 중심은 *alpha / (alpha + beta)*이며, *alpha*와 *beta*가 클수록, 분포는 더 중심으로 몰려 있습니다.

예를 들어 둘 다 1이라면, (중심이 0.5이고 굉장히 퍼진) 균등분포가 될 것이며, *alpha*가 훨씬 크다면 대부분은 1 근처에 있을 것이고, *beta*가 훨씬 크다면 대부분은 0 근처에 있을 것입니다.