# 확률

이번 비디오에서는 **확률**의 기초 개념을 다룬다.

확률(probability)은 특정 사건과 관련된 불확실성을 측정하는 방법이다. 
이때 특정 사건은 어떤 **사건들의 공간**의 부분집합이어야 한다.

예를 들어, 주사위 던지기에서 사건들의 공간은 1부터 6까지의 정수들의 집합이다.
이 공간의 부분집합들이 모두 사건이 된다.
예를 들어, 

* 집합 {1}: 주사위를 던져 1이 나오는 경우
* 집합 {2, 4, 6}: 주사위 던진 결과가 짝수인 경우

등을 모두 주사위 던지기의 사건으로 볼 수 있다.
사건 $E$가 발생할 확류를 $P(E)$로 나타낸다.

앞으로 많은 모델을 만들 것이며, 모델의 성능을 평가하기 위해 확률을 사용한다.
여기서 다루는 주제는 다음과 같다.

1. 종속성과 독립성
1. 조건부 확률
1. 베이즈 정리
1. 확률변수
1. 이산분포와 연속분포
1. 정규분포
1. 중심극한정리

## 종속성과 독립성

두 사건 $E$와 $F$에 대해, 두 사건사이의 관계를 종속과 독립으로 구분할 수 있다.

* 독립: 사건 $E$의 발생여부와 사건 $F$의 발생여부 사이에 아무런 연관성이 없을 때.
* 종속: 하나의 사건의 발생여부가 다른 사건의 발생여부에 영향을 줄 때.

두 사건 $E$와 $F$가 동시에 발생할 확률을 $P(E, F)$라 하자.
그러면 두 사건 사이의 종속과 독립 관계를 아래와 같이 쉽게 판단할 수 있다.


* 독립: $P(E, F) = P(E) \cdot P(F)$
* 종속: $P(E, F) \neq P(E) \cdot P(F)$

#### 독립사건 예제: 동전 두 번 던지기

* 사건 $E$: 첫 번째 동전에서 앞면 나오기
* 사건 $F$: 두 번째 동전에서 앞면 나오기

실제로

$$P(E, F) = \frac 1 4 = \frac 1 2 \cdot \frac 1 2 = P(E) \cdot P(F)$$

#### 종속사건 예제: 동전 두 번 던지기

* 사건 $E$: 첫 번째 동전에서 앞면 나오기
* 사건 $G$: 두 번 모두 뒷면 나오기

실제로

$$P(E, G) = 0 \neq \frac 1 2 \cdot \frac 1 4 = P(E) \cdot P(G)$$

## 조건부 확률

두 사건 $E$와 $F$의 독립/종속 여부를 모르고, $P(F) \neq 0$이라고 가정하자.
이때, **사건 $F$가 발생했다는 조건 하에서 사건 $E$가 발생할 확률**을 조건부 확률이라 부르며
조건부 확률 $P(E|F)$는 아래와 같다.

$$P(E|F) = \frac{P(E,F)}{P(F)}$$

위 식을 조금 변경하면 다음과 같다.

$$P(E,F) = P(E|F) \cdot P(F)$$

따라서, $E$와 $F$가 서로 독립이라면 아래 결과를 얻는다.

$$P(E|F) = P(E)$$

위 식은, 사건 $F$의 발생여부가 사건 $E$의 발생여부에 영향을 주지 않는다는 사실을 다시 확인해준다.

### 예제: 한 가족 내 두 아이들의 성별 맞추기

전제조건은 다음과 같다.

1. 각 아이가 딸이거나 아들일 확률은 모두 1/2이다.
1. 둘째 아니의 성별과 첫째 아니의 성별은 서로 독립이다.

**문제 1**: 첫째가 딸이라는 조건 하에서 두 아이 모두 딸일 확률을 구해보자.

다음 두 사건을 대상으로 해서 조건부 확률을 계산하면 된다.

* 사건 $B$: 두 아이 모두 딸인 경우
* 사건 $G$: 첫째가 딸인 경우

$$P(B|G) = \frac{B, G}{P(G)} = \frac{1/4}{1/2} = \frac 1 2$$

직관적으로 납득할만하다. 
첫째가 딸이면, 두 아이 모두 딸일 확률은, 둘째가 딸일 확률과 같기 때문이다.

**문제 2**: 딸이 1명 이상일 때, 두 아이 모두 딸일 확률을 구해보자.

다음 두 사건을 대상으로 해서 조건부 확률을 계산하면 된다.

* 사건 $B$: 두 아이 모두 딸인 경우
* 사건 $L$: 딸이 한 명 이상인 경우

$$P(B|L) = \frac{B, L}{P(L)} = \frac{1/4}{3/4} = \frac 1 3$$

딸이 한 명 이상이라면, 세 가지 경우가 가능하다. 

    (딸, 아들), (아들, 딸), (딸, 딸)

이 중에 딸 둘인 경우의 확률이기에 1/3이 나온다.

### 시뮬레이션(모의실험)

한 가족 내 두 아이들의 성별 맞추기를 파이썬으로 시뮬레이션 할 수 있다.

In [34]:
import enum, random

# An Enum is a typed set of enumerated values. We can use them
# to make our code more descriptive and readable.
class Kid(enum.Enum):
    BOY = 0
    GIRL = 1

def random_kid() -> Kid:
    return random.choice([Kid.BOY, Kid.GIRL])

both_girls = 0
older_girl = 0
either_girl = 0

random.seed(0)

for _ in range(10000):
    younger = random_kid()
    older = random_kid()
    if older == Kid.GIRL:
        older_girl += 1
    if older == Kid.GIRL and younger == Kid.GIRL:
        both_girls += 1
    if older == Kid.GIRL or younger == Kid.GIRL:
        either_girl += 1

print("P(both | older):", both_girls / older_girl)  
print("P(both | either): ", both_girls / either_girl)

P(both | older): 0.5007089325501317
P(both | either):  0.3311897106109325


## 베이즈 정리

두 사건 $E, F$에 대해 조건부 확률 $P(F|E)$가 알려져 있다고 가정하자.
이때 베이즈 정리를 이용하면 $P(E|F)$를 계산할 수 있다.

베이즈 정리의 공식은 다음과 같다.

$$
P(E|F) 
= \frac{P(F|E)\cdot P(E)}{P(F|E)\cdot P(E) + P(F|\neg E)\cdot P(\neg E)}
$$

위 식에서 $\neg E$는 사건 $E$가 발생하지 않는 경우의 사건을 가리킨다.

베이즈 정리를 유도하는 방법은 여기서는 소개하지 않는다.
대신에 아래 성질을 기억해 두어야 한다.

* $P(\neg E) = 1 - P(E)$
* $P(E,F) = P(F,E)$

### 예제: 질병 여부 판단하기

10,000명 중에 한 명이 걸리는 질병이 있다고 가정하자. 
또한 다음 사실이 알려져 있다고 가정한다.

* 해당 질병 진단 정확도: 99%

이 전제조건은 해당 질병에 걸리지 않은 사람을 판단할 때 양성으로 판단할 확률이 1%라는 사실을 의미한다.

이제 어떤 사람을 진단해 보니 해당 질병에 걸렸다는 진단이 나왔을 때, 
그 사람이 진짜 그 질병에 걸렸을 확률을 구해보자.

다음 두 사건을 대상으로 해서 조건부 확률 $P(D|T)$를 계산하면 된다.

* 사건 $D$: 질병을 정말로 갖고 있다.
* 사건 $T$: 진단 결과가 양성이다.

하지만 우리에게 알려진 확률은 다음과 같다.

* $P(T|D) = 0.99$
* $P(D) = 0.0001$
* $P(\neg D) = 0.9999$
* $P(T|\neg D) = 0.01$

따라서 

$$
P(D|T) 
= \frac{P(T|D)\cdot P(D)}{P(T|D)\cdot P(D) + P(T|\neg D)\cdot P(\neg D)}
$$

의 실제 계산결과는 아래와 같다.

In [38]:
PT_D = 0.99
PD = 0.0001
PT_negD = 0.01

numerator = PT_D * PD
denominator = numerator + PT_negD * (1 - PD)
PD_T = numerator/denomenator

print(PD_T)

0.00980392156862745


즉, 어떤 사람이 임의로 진단을 받아서 양성 판정이 나왔다 하더라도
그 사람이 정말로 질병을 갖고 있을 확률은 0.98%이며, 1%도 되지 않는다.

위 결과는 좀 놀랍다. 하지만 진단 받은 사람을 임의로 골랐기 때문에 위 결과가 성립한다.
만약에 진단받은 사람이 해당 질병의 징후를 갖고 있다면 다른 조건부 확률을 계산해야 할 것이다.

하지만 아무런 징후도 없다고 가정한다면 위 결과를 다음과 같이 설명할 수 있다.

확률에 의해 100만명 중에 100명은 질병에 걸렸을 것이고 그중에 99명은 양성 판정을 받을 것이다.
반면에 나머지 99만 9천명은 질병에 걸리지 않았을 것이며, 그중 1%인 9,999 명만 양성 판정을 받을 것이다.
즉, 100만 명 중에 양성판정을 받을 사람 수는 (99 + 9999 = 10098) 명이다.

따라서 양성판정을 받은 10098 명 중에 진짜 질병을 갖고 있는 사람의 확률은 99/10098 = 0.0098이다.

In [41]:
99/(99 + 9999)

0.00980392156862745

## 확률변수

In [24]:
def uniform_cdf(x: float) -> float:
    """Returns the probability that a uniform random variable is <= x"""
    if x < 0:   return 0    # uniform random is never less than 0
    elif x < 1: return x    # e.g. P(X <= 0.4) = 0.4
    else:       return 1    # uniform random is always less than 1

import math
SQRT_TWO_PI = math.sqrt(2 * math.pi)

def normal_pdf(x: float, mu: float = 0, sigma: float = 1) -> float:
    return (math.exp(-(x-mu) ** 2 / 2 / sigma ** 2) / (SQRT_TWO_PI * sigma))

import matplotlib.pyplot as plt
xs = [x / 10.0 for x in range(-50, 50)]
plt.plot(xs,[normal_pdf(x,sigma=1) for x in xs],'-',label='mu=0,sigma=1')
plt.plot(xs,[normal_pdf(x,sigma=2) for x in xs],'--',label='mu=0,sigma=2')
plt.plot(xs,[normal_pdf(x,sigma=0.5) for x in xs],':',label='mu=0,sigma=0.5')
plt.plot(xs,[normal_pdf(x,mu=-1)   for x in xs],'-.',label='mu=-1,sigma=1')
plt.legend()
plt.title("Various Normal pdfs")
# plt.show()


# plt.savefig('im/various_normal_pdfs.png')
plt.gca().clear()
plt.close()
plt.clf()

def normal_cdf(x: float, mu: float = 0, sigma: float = 1) -> float:
    return (1 + math.erf((x - mu) / math.sqrt(2) / sigma)) / 2

xs = [x / 10.0 for x in range(-50, 50)]
plt.plot(xs,[normal_cdf(x,sigma=1) for x in xs],'-',label='mu=0,sigma=1')
plt.plot(xs,[normal_cdf(x,sigma=2) for x in xs],'--',label='mu=0,sigma=2')
plt.plot(xs,[normal_cdf(x,sigma=0.5) for x in xs],':',label='mu=0,sigma=0.5')
plt.plot(xs,[normal_cdf(x,mu=-1) for x in xs],'-.',label='mu=-1,sigma=1')
plt.legend(loc=4) # bottom right
plt.title("Various Normal cdfs")
# plt.show()


plt.close()
plt.gca().clear()
plt.clf()

def inverse_normal_cdf(p: float,
                       mu: float = 0,
                       sigma: float = 1,
                       tolerance: float = 0.00001) -> float:
    """Find approximate inverse using binary search"""

    # if not standard, compute standard and rescale
    if mu != 0 or sigma != 1:
        return mu + sigma * inverse_normal_cdf(p, tolerance=tolerance)

    low_z = -10.0                      # normal_cdf(-10) is (very close to) 0
    hi_z  =  10.0                      # normal_cdf(10)  is (very close to) 1
    while hi_z - low_z > tolerance:
        mid_z = (low_z + hi_z) / 2     # Consider the midpoint
        mid_p = normal_cdf(mid_z)      # and the cdf's value there
        if mid_p < p:
            low_z = mid_z              # Midpoint too low, search above it
        else:
            hi_z = mid_z               # Midpoint too high, search below it

    return mid_z


import random

def bernoulli_trial(p: float) -> int:
    """Returns 1 with probability p and 0 with probability 1-p"""
    return 1 if random.random() < p else 0

def binomial(n: int, p: float) -> int:
    """Returns the sum of n bernoulli(p) trials"""
    return sum(bernoulli_trial(p) for _ in range(n))

from collections import Counter

def binomial_histogram(p: float, n: int, num_points: int) -> None:
    """Picks points from a Binomial(n, p) and plots their histogram"""
    data = [binomial(n, p) for _ in range(num_points)]

    # use a bar chart to show the actual binomial samples
    histogram = Counter(data)
    plt.bar([x - 0.4 for x in histogram.keys()],
            [v / num_points for v in histogram.values()],
            0.8,
            color='0.75')

    mu = p * n
    sigma = math.sqrt(n * p * (1 - p))

    # use a line chart to show the normal approximation
    xs = range(min(data), max(data) + 1)
    ys = [normal_cdf(i + 0.5, mu, sigma) - normal_cdf(i - 0.5, mu, sigma)
          for i in xs]
    plt.plot(xs,ys)
    plt.title("Binomial Distribution vs. Normal Approximation")
#     plt.show()

def main():
    import enum, random
    
    # An Enum is a typed set of enumerated values. We can use them
    # to make our code more descriptive and readable.
    class Kid(enum.Enum):
        BOY = 0
        GIRL = 1
    
    def random_kid() -> Kid:
        return random.choice([Kid.BOY, Kid.GIRL])
    
    both_girls = 0
    older_girl = 0
    either_girl = 0
    
    random.seed(0)
    
    for _ in range(10000):
        younger = random_kid()
        older = random_kid()
        if older == Kid.GIRL:
            older_girl += 1
        if older == Kid.GIRL and younger == Kid.GIRL:
            both_girls += 1
        if older == Kid.GIRL or younger == Kid.GIRL:
            either_girl += 1
    
    print("P(both | older):", both_girls / older_girl)     # 0.514 ~ 1/2
    print("P(both | either): ", both_girls / either_girl)  # 0.342 ~ 1/3
    
    
    
    assert 0.48 < both_girls / older_girl < 0.52
    assert 0.30 < both_girls / either_girl < 0.35
    
    def uniform_pdf(x: float) -> float:
        return 1 if 0 <= x < 1 else 0
    
if __name__ == "__main__": main()


P(both | older): 0.5007089325501317
P(both | either):  0.3311897106109325


<Figure size 432x288 with 0 Axes>