확률(probability)

확률이란, 어떤 사건의 공간에서 특정 사건이 선택될 때 발생하는 불확실성을 수치적으로 나타낸 것.

e.g. 주사위 던지기

사건의 공간은 주사위를 던졌을 때 나올 수 있는 모든 결과로 이뤄져 있다. 

이 공간의 부분 집합을 하나의 사건으로 볼 수 있다. 예로, "주사위를 던져서 1이 나오는 경우" 혹은 "주사위를 던져서 짝수가 나오는 경우"를 하나의 사건으로 볼 수 있다.

여기서 위와 같은 사건 E에 대한 확률을 P(E)라고 표시하자.

6.1 종속성(dependency)과 독립성(independency)

대략적으로,

사건E의 발생 여부가 사건F의 발생 여부에 대한 정보(혹은 반대)를 제공한다면 두 사건 E와 F는 종속사건(dependent events)로 볼 수 있고, 그렇지 않다면 두 사건은 독립 사건(independent events)이다.

e.g. 동전을 두번 던질 때, 첫 번째 동전에서 앞면이 나왔더라도 두 번째 동전에서 마찬가지로 앞면이 나올 것인지는 아무도 알 수 없다. 고로 두 사건은 독립사건이다.

하지만, 첫 번쨰 동전에서 앞면이 나왔다면 두 동전에서 모두 뒷면이 나오는 경우의 발생 여부에 대해서는 알 수 있다.(만약 첫 번째 동전에서 앞면이 나왔다면, 두 동전에서 모두 뒷면이 나올 경우는 사라지기 때문에) 그렇다면 두 사건은 종속사건이다.

수학적으로, 사건E와 F가 동시에 발생할 확률이 각각 사건이 발생할 확률의 곱과 같다면 두 사건은 독립사건을 의미.

P(E,F) = P(E)P(F)

동전 던지기 예시로 들면, 첫 번째 동전에서 앞면이 나올 확률은 1/2이고, 두 동전이 모두 뒷면이 확률은 1/4이다.

하지만 첫 번째 동전이 앞면이고 두 동전이 뒷면일 확률은 0이기 때문에 두 사건은 종속 사건이다.

6.2 조건부 확률(conditional probability)

만약 두 사건이 독립 사건이면, 정의에 따라 다음과 같은 식을 얻을 수 있다.

P(E,F) = P(E)P(F)

또, 두 사건이 반드시 "독립사건"이라는 보장이 없고 사건F의 확률이 "0"이 아닌 경우, 사건E가 발생할 조건부 확률을 다음과 같이 정의 할 수 있다.

P(E|F) = P(E,F)/P(F)

위의 식은 다음과 같이 정리되기도 한다.

P(E,F) = P(E|F)P(F)

따라서, 사건E와 F가 "독립사건"이면, 다음과 같은 식이 성립한다.

P(E|F) = P(E) ### P(E|F) = P(E,F)/P(F) = P(E)P(F)/P(F)

e.g. 한 가족 내 두 아이들의 성별을 맞추는 예시

두 조건 가정

1. 각 아이가 딸이거나 아들일 확률은 동일하다.

2. 둘째의 성별은 첫째의 성별과 독립이다.

그렇다면 '두 아이가 모두 딸이 아닌 경우'는 1/4의 확률로 발생하며 '딸 한명과 아들 한 명인 경우'는 1/2의 확률, 그리고 '두 아이가 모두 딸인 경우'는 1/4의 확률이다.

그렇다면 첫째가 딸인 경우(사건G), 두 아이가 모두 딸인 경우(사건B) 확률은?
P(B|G) = P(B,G)/P(G) = P(B)/P(G) = 1/2

사건 B와 사건G가 동시에 일어나는 확률(즉, 두 아이가 모두 딸이고 첫째가 딸일 확률)은 사건 B가 발생할 확률과 동일하기 때문이다. (만약 두 아이가 모두 딸이라면 첫째는 항상 딸이다.)

딸이 최소 한명인 경우(사건L), 두 아이가 모두 딸일 확률 또한 계산해 볼 수 있는데, 이건 이전과 다른값이다.

사건B와 L이 동시에 발생할 확률(즉, 두 아이가 모두 딸이고 적어도 하나는 딸일 경우)은 사건 B가 발생할 확률과 동일하다. 즉,

P(B|L) = P(B,L)/P(L) = P(B)/P(L) = 1/3

만약 딸이 최소 한명이라면, 딸 한 명과 아들 한 명일 확률이 두 명이 모두 딸일 확률보다 두배나 높다.

In [1]:
from collections import Counter
import math, random

In [4]:
def random_kid():
    return random.choice(["boy", "girl"])

In [7]:
kid_t_l = [random_kid() for i in range(10)]
kid_t_l

['boy', 'boy', 'girl', 'girl', 'boy', 'boy', 'boy', 'girl', 'boy', 'girl']

In [9]:
both_girls = 0
older_girl = 0
either_girl = 0

In [13]:
random.seed(0)
for _ in range(10000):
    young = random_kid()
    older = random_kid()
    
    if older == 'girl': # 큰 아이가 여자일 경우 +1
        older_girl += 1
    if older == 'girl' and young == 'girl': # 둘 다 여자일 때 +1
        both_girls += 1
    if older == 'girl' or young == 'girl': # 둘 중 하나라고 여자일 때 +1
        either_girl +=1
        
print("P(both | older):", both_girls/older_girl) # 큰 아이가 딸이고 둘 다 딸일 확률
print("P(both | either)", both_girls/either_girl) # 둘 중에 한명이 딸이면서 둘 다 딸일 확률

P(both | older): 0.5006582278481012
P(both | either) 0.3311897106109325


6.2 베이즈 정리(Bayes's Theorem)

베이즈 정리란 조건부 확률을 '반대로' 뒤짚는 것.

사건F가 발생했다는 가정하에 사건E가 발생할 확률이 필요하다고 가정.

하지만 사건E가 발생했다는 가정하에 사건F가 발생할 확률만 주어짐.

조건부 확률의 정의를 "두 번" 사용하면 다음과 같이 정리.

$$ P(E|F) = {{P(E,F)} \over {P(F)}} = {{P(F|E)P(E)} \over {P(F)}} $$

사건 F를 '사건F와 사건E가 모두 발생하는 경우'와 '사건F는 발생하지만 사건E는 발생하지 않을 경우' 두 상호 배타적인 사건으로 나눌 수 있다. 만약 '사건E가 발생하지 않을 경우'를 ㄱE로 표현한다면, 다음식으로 표현된다.

$$ P(F) = P(F,E) + P(F,\neg E)$$

- 최종 베이즈 정리는 다음과 같이 정리 된다.

$$ P(E|F) = {{P(F|E)P(E)} \over {P(F|E)P(E) + P(F|\neg E)P(\neg E)}}$$

- 10000명 중 1명이 걸리는 질병이 있다.
- 질병에 대해 "양성" 또는 "음성"의 판단을 내리는 검사가 있다.
- 검사의 정확도는 99% 이다.
- 사건T: 양성 판정
- 사건D: 질병에 걸릴 확률

양성 판정일 경우, 실제로 병에 걸렸을 확률을 베이즈 정리를 사용해 풀어본다면,

P(D|T) = P(T|D)P(D) / [P(T|D)P(D) + P(T|ㄱD)P(ㄱD)]

질병에 걸린 사람이 양성 판정을 받을 확률을 나타내는 P(T|D)가 0.99.

특정 사람이 질병에 걸릴 확률인 P(D_가 1/10000 = 0.0001

그리고, 질병이 없는 사람이 양성 판정을 받을 확률 P(T|ㄱD)는 0.01

또한, 특정 사람이 질병에 걸리지 않았을 확률 P(ㄱD)는 0.9999

이 숫자들을 베이즈 정리에 대힙하면,

P(D|T) = 0.98%

즉, 양성 판정을 받은 사람 중 실제로 질병에 걸린 사람은 1%도 안됨.

6.4 확률변수(random varible)

확률변수란 특정 확률분포와 연관되어 있는 변수를 의미.

동전의 앞면이 나오면 1이고 뒷면이 나오면 0인 확률변수를 예시로,

동전을 10번 던져서 나온 앞면의 개수나 range(10)에서 나온 값 기준.

0인 확률변수의 확률은 0.5이며, 값이 1인 확률변수 또한 0

range(10) 확률변수의 경우, 0부터 9까지 모든 변수의 값에 대한 확률은 0.1


모든 확률변수의 해당 확률변수의 값으로 가중평균한 값: 확률변수의 "기대값"

e.g. 동전던지기에서 확률변수의 기대값은 1/2( = 0*1/2 + 1*1/2).

그리고 range(10)에서 확률변수의 기대값은 4.5

확률변수 또한 조건부 확률 구할 수 있다.

조건부 확률 부분에서 다뤘던 두 아이의 성별 구분 예시에서,

만약 X라는 확률변수가 딸의 수를 나타낸다면, X가 0일 확률은 1/4, 1일 확률은 1/2, 그리고 2일 확률은 1/4.

그리고 새로운 확률변수 Y로 딸이 최소 한 명일 때 전체 딸의 수를 나타낸다면, Y가 1일 확률은 2/3이며 2일 확률은 1/3. 또한, Z로 첫째가 딸일 때 전체 딸의 수를 나타낸다면, Z가 1일 확률은 1/2이며 2일 확률 또한 1/2.

6.5 연속 분포(continuous distribution)
1. 이산형 분포(Discrete distribution): 각각의 결과에 확률을 계산해주는 분포
2. 연속 분포(Continuous distribution): 연속적인 결과에 대한 분포

    1) 균등분포(uniform distribution): 0과 1 사이의 모든 값에 동등한 비중을 준 분포. 0과 1 사이에는 무한히 많은 숫자가 존재하므로, 숫자 하나의 비중은 0임.


Reference :
1. 밑바닥부터 시작하는 데이터과학 6장,
2. https://github.com/newhiwoong/DATA_SCIENCE_FROM_SCRATCH