# 제32회 ADP 실기 대비 - 핵심만 요약한 통계와 머신러닝 파이썬 코드북

In [1]:
import pandas as pd
import numpy as np

import matplotlib.pyplot as plt
import seaborn as sns

# 시각화 설정
plt.rcParams['font.family'] = 'Malgun Gothic' # 한글 폰트 설정
plt.rcParams['axes.unicode_minus'] = False # 마이너스 부호 설정

# Colab 한글 폰트 설정
# !sudo apt-get install -y fonts-nanum
# !sudo fc-cache -fv
# !rm ~/.cache/matplotlib -rf
# plt.rc('font', family='NanumBarunGothic')

# 4장. 확률분포
- 확률변수(Random variable)는 일정한 확률을 가지고 발생하는 사상(Event)에 수치가 부여된 변수를 말한다.
- 일반적으로 확률변수는 X, Y, Z와 같이 대문자로 표기하고 확률변수의 값은 x, y, z와 같이 소문자로 표기한다.
- 확률분포에는 이산형 확률분포(Discrete probability distribution)와 연속형 확률분포(Continuous probability distribution)가 있다.

- 이산형 확률분포는 확률 변수가 가질 수 있는 값이 명확하고 셀 수 있는 이산형인 경우의 분포이다.
- 확률분포 X가 취하는 확률값은 확률질량함수(Probability mass function)를 이용하여 계산한다.
- 확률값은 항상 0 이상 1 이하이며, 모든 확률변수의 확률값의 합은 1이다.
- 베르누이, 기하분포, 이항분포, 다항분포, 포아송 분포, 초기하분포, 음이항분포 등이 있다.

- 연속형 확률분포는 확률변수가 가질 수 있는 값이 연속적인 실수여서 셀 수 없는 경우의 분포이며, 확률값은 확률밀도함수(Probability density function)를 이용하여 계산한다.
- 확률밀도함수의 그래프는 항상 수평축 위에 있고, 어떤 구간에서 그래프 아래의 면적이 확률의 의미를 가진다.
- 즉, 확률밀도함수를 적분함으로써 그래프 아래의 면적인 확률값을 계산한다.
- 또한, 연속확률변수는 한 점에서의 확률이 0이므로 구간의 끝점에서 등호를 붙이거나 떼거나 확률은 동일하다.
- 확률밀도곡선 아래의 전체 면적은 항상 1이다. 균일분포, 정규분포, 지수분포, t-분포, 카이제곱분포, F분포 등이 있다.

- 각종 확률분포의 확률값은 확률분포표를 보거나 SciPy 라이브러리를 사용하여 쉽게 얻을 수 있다.
- SciPy 라이브러리에는 특정 확률분포의 여러가지 조건 하의 확률값을 계산하는 메서드들이 있다.
- 예를 들어 **`pmf()`**는 probabilty mass function, **`cdf()`**는 cumulative distribution function, **`ppf()`**는 percent point function을 반환한다.

## 4-1. 특수한 이산형 확률분포들

### 베르누이 분포 (Bernoulli distribution)
- 동등한 실험 조건 하에서 실험의 결과가 단지 두 가지의 가능한 결과만을 가질 때 이러한 실험을 베르누이 시행이라 하는데, 성공의 횟수를 확률변수 X라 하면, 확률변수 X는 성공률이 p, 실패할 확률 q(=1-p)인 베르누이 분포를 따른다고 한다.
- 확률변수 X가 모수 p를 가지는 베르누이 시행을 다음과 같이 표현한다.
$$ X \sim B(1,p) $$

- 해당 확률분포의 확률질량함수, 기댓값, 분산을 구하는 공식은 아래와 같다.
- $f(x) = p^x(1-p)^{1-x},\ \ x=0,\ 1,\ \ 0<=p<=1$
- $E(X) = p$
- $Var(X) = p(1-p)$

In [2]:
# p, q: 성공할 확률, 실패할 확률(1-p)
p, q = 0.3, 0.7

E = p # 기댓값
V = p*q # 분산

print(f"해당 분포의 기댓값은: {round(E, 3)}, 분산은: {round(V, 3)}")

from scipy.stats import bernoulli

E2, V2 = bernoulli.stats(p)
print(f"기댓값: {E2}, 분산: {V2}")

해당 분포의 기댓값은: 0.3, 분산은: 0.21
기댓값: 0.3, 분산: 0.21


### 이항분포 (Binomial distribution)
- 어떤 실험에서 성공의 확률이 p인 베르누이 시행을 독립적으로 n번 반복 시행했을 때 성공의 횟수를 확률변수 X라 하면 확률변수 X는 시행횟수 n과 성공의 확률 p를 모수로 가지는 이항분포를 따른다.
$$ X \sim B(n, p) $$

- 이항분포 $B(n,p)$는 $n>20,\ np>=5,\ n(1-p)>=5$일 때 정규분포 $N(np,\ np(1-p))$로 근사한다.
- 또한, $p<=0.1,\ np=0.1\sim10,\ n>=50$일 때 포아송 분포 $p(np)$로 근사한다.
- $f(x) = {n \choose x}p^x(1-p)^{n-x},\ x=0,1,...,n$
- $E(X) = np$
- $Var(X) = np(1-p)$

In [3]:
# combination 함수 정의
fac = np.math.factorial
def combi(a, b):
    result = fac(a) / fac(b) / fac(a-b)
    return result

# 근로자가 내년에 회사를 떠날 확률이 0.1이라고 추정할 경우,
# 근로자 3명을 무작위로 뽑은 상황

n=3  # 근로자 샘플 갯수
p=0.1 # 떠날 확률

# 근로자가 떠날 확률에 대해 기댓값과 분산 계산하기
E = n*p
V = n*p*(1-p)
print(f"해당 분포의 기댓값은: {round(E, 3)}, 분산은: {round(V, 3)}")

from scipy.stats import binom

E2, V2 = binom.stats(n, p)
print(f"기댓값: {E2}, 분산: {V2}")

해당 분포의 기댓값은: 0.3, 분산은: 0.27
기댓값: 0.30000000000000004, 분산: 0.2700000000000001


- 확률질량함수 계산하기: 근로자 1명이 올해에 회사를 떠날 확률은?

In [4]:
x=1 # 떠날 근로자 샘플 갯수
pmf = combi(n, x) * p**x * (1-p)**(n-x)
print(f"해당 분포의 확률질량함수(pmf): {round(pmf, 3)}")
print(f"해당 분포의 확률질량함수(pmf): {binom.pmf(x, n, p)}")

해당 분포의 확률질량함수(pmf): 0.243
해당 분포의 확률질량함수(pmf): 0.243


- 누적확률질량함수 계산하기: 근로자 1명 이하로 떠날 확률은?

In [5]:
cdf = 0
for i in range(x+1): # 확률변수의 확률값들을 합함 (0명 떠날 확률 + 1명 떠날 확률)
    cdf += binom.pmf(i, n, p)

print(f"해당 분포의 누적확률질량함수(cdf): {cdf}")
print(f"해당 분포의 누적확률질량함수(cdf): {binom.cdf(x, n, p)}")

해당 분포의 누적확률질량함수(cdf): 0.9720000000000001
해당 분포의 누적확률질량함수(cdf): 0.972


- 이항분포의 정규분포 근사

In [6]:
from scipy.stats import norm

x, n, p = 10, 30, 0.5
b_result = binom.pmf(x, n, p)

E=n*p
sigma = np.sqrt(E*(1-p))
zstat1 = (x-0.5-E)/sigma # 이항분포의 x에서 -0.5
zstat2 = (x+0.5-E)/sigma # 이항분포의 x에서 +0.5
n_result = norm.cdf(zstat2) - norm.cdf(zstat1)

# 결과값이 근사한 것을 볼 수 있다.
print(f"이항분포: {round(b_result, 3)}, 정규분포: {round(n_result, 3)}")

이항분포: 0.028, 정규분포: 0.028


- 이항분포의 포아송분포 근사

In [7]:
from scipy.stats import poisson

x, n, p = 10, 100, 0.05
b_result= binom.pmf(x, n, p)

E=n*p
p_result = poisson.pmf(x, E)

# 결과값이 근사한 것을 볼 수 있다.
print(f"이항분포: {round(b_result, 3)}, 포아송분포: {round(p_result, 3)}")

이항분포: 0.017, 포아송분포: 0.018


### 음이항분포 (Negative binomial distribution)
- 성공의 확률이 p인 베르누이 시행을 독립적으로 반복 시행할 때 k번 성공할 때까지의 시행횟수를 확률변수 X로 하는 경우 (1)과 k번 성공할 때까지의 실패횟수를 확률변수 X로 하는 경우 (2)의 확률변수 X는 모두 k, p를 모수로 갖는 음이항분포를 따른다.

$$ X \sim NB(k,p)$$

- 음이항분포의 X는 셀 수 있지만 값이 무한한 무한확률변수이다. 음이항분포에서 k=1이면, 음이항분포는 기하분포가 된다.
- 음이항분포는 확률변수 X를 (1) 시행횟수로 놓거나, (2) 실패횟수로 정할 수 있다.
- 일반적으로 분석자들은 (1)번에 관심을 갖는다. 확률변수 X에 따라 해당 분포의 확률질량함수, 기댓값, 분산은 아래와 같다.

- (1) 확률변수 X = 시행횟수
    - $f(x) =  {(x-1) \choose (k-1)}{p^k}{(1-p)}^{(x-k)}, x=k, k+1, ...,\ \ k>0 $
    - $E(X) = k/p$
    - $Var(X) = k(1-p)/p^2$
    
- (2) 확률변수 X = 실패횟수
    - $f(x) = {(x+k-1)\choose(k-1)}{p^k}{(1-p)^x}, x=0, 1, 2, ... ,\ \ k>0$
    - $E(X) = k(1-p)/p$
    - $Var(X) = k(1-p)/p^2$

- (예) A가 승리할 확률이 0.3일 때, 5번 경기를 치르는 상황

In [8]:
from scipy.stats import nbinom

# combination 함수 정의
fac = np.math.factorial
def combi(a, b):
    result = fac(a) / fac(b) / fac(a-b)
    return result

n = 5   # 총 시행횟수
k = 2   # 총 성공횟수
p = 0.3 # 성공확률
q = 1-p # 실패확률

case = 2

if case == 1: # 확률변수 X가 k번 성공할 때까지의 시행횟수 x인 경우
    x = n # 확률변수
    E = k / p
    V = k*q / p**2

    pmf = combi(x-1, k-1) * p**k * q**(x-k)
    E2, V2 = np.nan, np.nan # 라이브러리 지원 안함
    pkg_pmf, pkg_cdf = np.nan, np.nan # 라이브러리 지원 안함

    cdf = 0
    for i in range(k, x+1): # 확률변수의 확률값들을 합함
        cdf += combi(i-1, k-1) * p**k * q**(i-k)

elif case == 2: # 확률변수 X가 k번 성공할 때까지의 실패횟수 x인 경우
    x = n-k # 확률변수
    E = k*q / p
    V = k*q / p**2
    pmf = combi(x+k-1, k-1) * p**k * q**(x)
    E2, V2 = nbinom.stats(k, p)
    pkg_pmf, pkg_cdf = nbinom.pmf(x, k, p), nbinom.cdf(x, k, p)

    cdf = 0
    for i in range(x+1): # 확률변수의 확률값들을 합함
        cdf += nbinom.pmf(i, k, p)

# 기댓값과 분산 계산하기
print(f"[수기] 해당 분포의 기댓값은: {round(E, 3)}, 분산은 {round(V, 3)}")
print(f"[라이브러리] 해당 분포의 기댓값은 {E2}, 분산은 {V2}")
print("-"*50)

# 확률질량함수 계산하기
print("확률질량함수 계산하기: 5번째 경기에서 2번째로 이길 확률은?")
print(f"[수기] 확률질량함수(pmf): {round(pmf, 3)}")
print(f"[라이브러리] 확률질량함수(pmf): {round(pkg_pmf, 3)}")
print("-"*50)

print("누적확률질량함수 계산하기: 2번째 이하로 이길 확률은?")
print(f"[수기] 누적확률질량함수(cdf): {round(cdf, 3)}")
print(f"[라이브러리] 누적확률질량함수(cdf): {round(pkg_cdf, 3)}")

[수기] 해당 분포의 기댓값은: 4.667, 분산은 15.556
[라이브러리] 해당 분포의 기댓값은 4.666666666666667, 분산은 15.555555555555555
--------------------------------------------------
확률질량함수 계산하기: 5번째 경기에서 2번째로 이길 확률은?
[수기] 확률질량함수(pmf): 0.123
[라이브러리] 확률질량함수(pmf): 0.123
--------------------------------------------------
누적확률질량함수 계산하기: 2번째 이하로 이길 확률은?
[수기] 누적확률질량함수(cdf): 0.472
[라이브러리] 누적확률질량함수(cdf): 0.472


### 기하분포 (Geometric distribution)
- 성공의 확률이 p인 베르누이 시행을 처음으로 성공할 때까지의 시행횟수를 확률변수 X라 하는 경우(1)과 처음 성공할 때까지의 실패횟수를 확률변수 X라 하는 경우(2)의 확률변수 X는 성공확률 p를 모수로 가지는 기하분포를 따른다.
$$X \sim G(p)$$

- 기하분포의 X는 셀 수 있지만 값이 무한한 무한확률변수이다. 기하분포는 이산확률분포 중에서 유일하게 무기억성의 성질을 가진다.
- 무기억성이란 실패를 많이 했다고 해서 실패가 앞으로 성공할 가능성에 영향을 미치지 않는다는 성질이다.
- 기하분포는 확률변수 X를 (1) 시행횟수로 놓거나, (2) 실패횟수로 정할 수 있다.
- 일반적으로 분석자들은 (1)에 관심을 가진다.
- 확률변수 X에 따라 해당 분포의 확률질량함수, 기댓값, 분산은 아래와 같다.

- (1) 확률변수 X = 시행횟수
    - $f(x) =  p(1-p)^{x-1},\ x=1, 2, 3,...$
    - $E(X) = 1/p$
    - $Var(X) = (1-p)/p^2$
    
- (2) 확률변수 X = 실패횟수
    - $f(x) = p(1-p)^x, x=0, 1, 2, ...$
    - $E(X) = (1-p)/p$
    - $Var(X) = (1-p)/p^2$

- (예) 하나의 주사위를 세 번 던질 때 세번째 시행에서 앞면 숫자가 6이 나올 확률은?

In [9]:
from scipy.stats import geom

n = 3 # 총 시행횟수
p = 1/6 # 성공확률
q = 1-p # 실패확률

case = 1

if case == 1: # 확률변수 X가 처음으로 성공할 때까지의 시행횟수 x인 경우
    x = n # **확률변수
    E = 1 / p
    V = q / p**2
    pmf = q**(x-1) * p

    E2, V2 = geom.stats(p, moments='mv') # mean, variance
    pkg_pmf, pkg_cdf = geom.pmf(x, p), geom.cdf(x, p)
    cdf = 0
    for i in range(1, x+1): # 확률변수의 확률값들을 합함
        cdf += q**(i-1) * p

elif case == 2: # 확률변수 X가 처음으로 성공할 때까지의 실패횟수 x인 경우
    x = n-1 # **확률변수
    E = q / p
    V = q / p**2
    pmf = q**x * p
    E2, V2 = np.nan, np.nan # 라이브러리 지원 안 함
    pkg_pmf, pkg_cdf = np.nan, np.nan # 라이브러리 지원 안 함
    cdf = 0
    for i in range(x+1): # 확률변수의 확률값들을 합함
        cdf += q**i * p

In [10]:
# 기댓값과 분산 계산하기
print("[수기] 해당 분포의 기댓값은 {:.3f}, 분산은 {:.3f}".format(E, V))
print("[라이브러리] 해당 분포의 기댓값은 {:.3f}, 분산은 {:.3f}".format(E2, V2), '\n')

# 확률질량함수 계산하기
print("[수기] 확률질량함수(pmf): ", pmf)
print("[라이브러리] 확률질량함수(pmf): ", pkg_pmf, '\n')

# 누적확률질량함수 계산하기: 2번째 이하로 이길 확률은?
print("[수기] 누적확률질량함수(cdf): ", cdf)
print("[라이브러리] 누적확률질량함수(cdf): ", pkg_cdf)

[수기] 해당 분포의 기댓값은 6.000, 분산은 30.000
[라이브러리] 해당 분포의 기댓값은 6.000, 분산은 30.000 

[수기] 확률질량함수(pmf):  0.11574074074074076
[라이브러리] 확률질량함수(pmf):  0.11574074074074076 

[수기] 누적확률질량함수(cdf):  0.42129629629629634
[라이브러리] 누적확률질량함수(cdf):  0.4212962962962962


### 초기하분포 (Hypergeometric distribution)
- 크기 N의 유한모집단 중 크기 n의 확률표본을 뽑은 경우, N개 중 K개는 성공으로, 나머지 (N-k)개는 실패로 분류하여 비복원으로 뽑을 때
- 성공 횟수를 X라 하면, 확률변수 X는 N, k, n을 모수로 갖는 초기하분포를 따른다고 한다.
$$ X \sim HG(N,k,n)$$

- 첫 시도 결과에 따라 시도들이 달라지는 종속 관계가 있는 경우 해당 분포를 따른다.
- 초기하분포는 모집단의 크기 N이 충분히 큰 경우, n개 시행 중 성공확률이 k/N인 이항분포 $B(n, k/N)$로 근사한다.

- 해당 분포의 확률질량함수, 기댓값, 분산을 구하는 공식은 아래와 같다.
- $f(x) = \frac{{k \choose x}{(N-k) \choose (n-x)}}{N \choose n}, x=0, 1, ..., n$
- $E(X) = nk/N$
- $Var(X) = \frac{nk}{N} \frac{(N-k)}{N} \frac{N-n}{N-1}$

- (예) 상자 속에 빨간 공이 90개 파란공이 10개 들어있다. 임의로 1개씩 두 번 꺼내고 다시 넣지 않을 때 1개가 파란 공이 될 확률은?

In [11]:
from scipy.stats import hypergeom

# combination 함수 정의
fac = np.math.factorial
def combi(a, b):
    result = fac(a) / fac(b) / fac(a-b)
    return result

N = 100 # 모집단 수 (총 공 개수)
k = 10 # 성공요소 수 (총 파란공 개수)
n = 2 # 시행횟수 (공 선택 횟수)
x = 1 # 확인하고자 하는 사건 (1개 파란공) ** 확률변수
P = k/N # 모비율

In [12]:
# 기댓값과 분산 계산하기
E = n*P
V = n*P*(1-P)*((N-n)/(N-1))
print("[수기] 해당 분포의 기댓값은 {:.3f}, 분산은 {:.3f}".format(E, V))
E2, V2 = hypergeom.stats(N, k, n)
print("[라이브러리] 해당 분포의 기댓값은 {:.3f}, 분산은 {:.3f}".format(E2, V2), '\n')

# 확률질량함수 계산하기
pmf = combi(k,x)*combi(N-k, n-x)/combi(N, n)
print("[수기] 해당 분포의 확률질량함수(pmf): %.3f" %(pmf))
print("[라이브러리] 해당 분포의 확률질량함수(pmf): %.3f" %(hypergeom.pmf(x, N, k, n)), '\n')

# 누적확률질량함수 계산하기: 파란공을 1개 이하로 선택할 확률은?
cdf = 0
for i in range(0,x+1): # 확률변수의 확률값들을 합함
    cdf += hypergeom.pmf(i, N, k, n)
print("[수기] 해당 분포의 누적확률질량함수(cdf): %.3f" %cdf)
print("[라이브러리] 해당 분포의 누적확률질량함수(cdf): %.3f" %(hypergeom.cdf(x, N, k, n)))

[수기] 해당 분포의 기댓값은 0.200, 분산은 0.178
[라이브러리] 해당 분포의 기댓값은 0.200, 분산은 0.178 

[수기] 해당 분포의 확률질량함수(pmf): 0.182
[라이브러리] 해당 분포의 확률질량함수(pmf): 0.182 

[수기] 해당 분포의 누적확률질량함수(cdf): 0.991
[라이브러리] 해당 분포의 누적확률질량함수(cdf): 0.991


- 초기하분포의 이항분포 근사

In [13]:
# 초기하 분포의 이항분포 근사
from scipy.stats import norm

b_result = binom.pmf(x, n, k/N)
h_result = hypergeom.pmf(x, N, k, n)
print("초기하분포로 계산하면 {:.3f} 이항분포로 근사계산하면 {:.3f}".format(h_result,b_result))
# 결과값이 근사한 것을 볼 수 있다.

초기하분포로 계산하면 0.182 이항분포로 근사계산하면 0.180


### 포아송분포 (Poisson distribution)
- 단위시간, 단위면적 또는 단위공간 내에서 발생하는 어떤 사건의 횟수를 확률변수 X라고 할 때
    - 확률변수 X는 $\lambda$(Lambda, 단위 시간/면적/공간 내에서 발생하는 사건의 평균값)를 모수로 가지는 포아송 분포를 따른다고 한다.
    
    $$X \sim  P(\lambda)$$

- 포아송 분포의 확률변수 X는 셀 수는 있지만 값이 무한한 무한확률변수이다.
- 또한, 단위 시간/공간에서 발생하는 사건의 횟수는 다른 시간/공간에 대해서 독립이며 평균출현횟수는 일정하다.
- 포아송분포는 $\lambda >= 5$일 때 정규분포에 근사하고 $\lambda < 5$ 일 때 왼쪽으로 치우치고 오른쪽으로 긴 꼬리가 있는 비대칭 분포를 가진다.

- 해당 분포의 확률질량함수, 기댓값, 분산을 구하는 공식은 아래와 같다.
- $f(x) = \frac{e^{-\lambda}\lambda^x}{x!}, x=0, 1, 2, ...$
- $E(X) = \lambda$
- $Var(X) = \lambda$

- (예) 주말 저녁 시간당 평균 6명이 응급실에 올 경우 어떤 주말 저녁 30분 내 4명이 도착할 확률은?

In [14]:
from scipy.stats import poisson

x = 4 # 구간 내 사건 횟수 **확률변수
lam = 3  # 단위 시간 내 평균(=lambda)

# 기댓값과 분산 계산하기
E = lam
V = lam
print("[수기] 해당 분포의 기댓값은 {:.3f}, 분산은 {:.3f}".format(E, V))
E2, V2 = poisson.stats(lam, moments='mv')
print("[라이브러리] 해당 분포의 기댓값은 {:.3f}, 분산은 {:.3f}".format(E2, V2), '\n')

# 확률질량함수 계산하기
pmf = lam**x * np.exp(-lam)/np.math.factorial(x)
print("[수기] 해당 분포의 확률질량함수(pmf): %.3f" %(pmf))
print("[라이브러리] 해당 분포의 확률질량함수(pmf): %.3f" %(poisson.pmf(x, lam)), '\n')

# 누적확률질량함수 계산하기: 4명 이하로 도착할 확률은?
cdf = 0
for i in range(0,x+1): # 확률변수의 확률값들을 합함
    cdf += poisson.pmf(i, lam)
print("[수기] 해당 분포의 누적확률질량함수(cdf): %.3f" %cdf)
print("[라이브러리] 해당 분포의 누적확률질량함수(cdf): %.3f" %(poisson.cdf(x, lam)))

[수기] 해당 분포의 기댓값은 3.000, 분산은 3.000
[라이브러리] 해당 분포의 기댓값은 3.000, 분산은 3.000 

[수기] 해당 분포의 확률질량함수(pmf): 0.168
[라이브러리] 해당 분포의 확률질량함수(pmf): 0.168 

[수기] 해당 분포의 누적확률질량함수(cdf): 0.815
[라이브러리] 해당 분포의 누적확률질량함수(cdf): 0.815


- 포아송 분포의 정규분포 근사

In [15]:
from scipy.stats import norm

X = 10
lambd = 20
E=V=lambd

# 포아송 분포의 표준편차
sigma = np.sqrt(V)

# 포아송 분포 (X - 0.5 - lambda) / sigma
zstat1 = (X - 0.5 - lambd) / sigma

# 포아송 분포 (X + 0.5 - lambda) / sigma
zstat2 = (X + 0.5 - lambd) / sigma

n_result = norm.cdf(zstat2) - norm.cdf(zstat1)
p_result = poisson.pmf(X, lambd)

# 결과값이 근사한 것을 볼 수 있다.
print(f"포아송 분포: {round(p_result, 3)}, 정규분포: {round(n_result, 3)}")

포아송 분포: 0.006, 정규분포: 0.007


## 4-2. 특수한 연속형 확률분포들

### 균일분포 (Uniform distribution)
- 일반적으로 구간(a, b)에서 확률변수 X가 균일하게 분포되어 있다면, 확률변수 X는 구간(a, b)에서 균일분포를 따른다고 한다.

$$ X \sim U(a, b)$$

- 해당 분포의 확률밀도함수, 기댓값, 분산을 구하는 공식은 아래와 같다.
- $f(x) = 1/(b-a), a<x<b$
- $E(X) = (a+b)/2$
- $Var(X) = (b-a)^2/12$

- (예) 확률변수 X가 (5, 15)에서 균일분포를 따를 때 12와 15사이의 확률은?

In [16]:
a, b = 5, 15 # 확률변수의 범위
range_ = [(12, 15)]

p = 1 / (b-a) # 확률밀도함수

cdf = 0
for (x1, x2) in range_:
    cdf += (x2-x1) * p # 누적분포함수

E = (b+a) / 2
V = (b-a)**2 / 12

print(f"범위 내 누적확률은 {round(cdf, 3)}")
print(f"해당 분포의 기댓값은 {round(E, 3)}, 분산은 {round(V, 3)}")

범위 내 누적확률은 0.3
해당 분포의 기댓값은 10.0, 분산은 8.333


- (예) 버스가 오전 7시부터 15분 간격으로 정류장을 출발한다. 한 승객이 이 정류장에 도착하는 시간은 7시에서 7시 30분 사이에 균등분포를 따른다고 할 때 이 승객이 버스를 5분 미만 기다릴 확률은?

In [17]:
a, b = 0, 30 # 확률변수의 범위

# 승객이 버스를 5분 미만으로 기다릴 구간: 7시 10분 ~ 7시 15분, 7시 25분 ~ 7시 30분
range_ = [(10, 15), (25, 30)]
p = 1 / (b-a)

cdf = 0
for (x1, x2) in range_:
    cdf += (x2-x1) * p # 누적분포 함수

E = (b+a) / 2
V = (b-a) ** 2 / 12

print(f"범위 내 누적확률은 {round(cdf, 3)}")
print(f"해당 분포의 기댓값은 {round(E, 3)}, 분산은 {round(V, 3)}")

범위 내 누적확률은 0.333
해당 분포의 기댓값은 15.0, 분산은 75.0


### 정규분포 (Normal distribution)와 표준정규분포 (Standard Normal Distribution)
- 정규분포에서 평균 $\mu$는 곡선의 중심위치를 결정하고, 표준편차 $\sigma$는 그 곡선의 퍼진 정도를 결정한다.
- 확률변수 X가 모수 $\mu, \sigma$를 갖는 정규분포를 따른다고 한다.

$$ X \sim N(\mu, \sigma^2)$$

- 정규분포의 왜도는 0이며, 첨도는 3이다.
- 정규분포의 양측꼬리는 x축에 닿지 않고 무한대로 간다.
- 정규분포의 곡선 모양은 평균과 분산에 의해 결정된다.
- 정규분포는 평균에 대해 좌우대칭이다.
- 해당 분포의 확률밀도함수, 기댓값, 분산을 구하는 공식은 아래와 같다.

- $f(x) = \frac{1}{\sqrt{2\pi\sigma}}e^{-\frac{1}{2}(\frac{x-\mu}{\sigma})^2},\ \ -\infty<x<\infty$
- $E(X) = \mu$
- $Var(X) = \sigma^2$

- 정규분포는 연속확률분포이므로 확률은 정규곡선 밑의 면적으로 주어진다.
- 하지만 정규확률밀도함수의 면적을 계산하는 것이 복잡하므로 평균과 표준편차를 이용하여 X를 표준화한 후 구한다.
- 표준화(standardize)란, 확률변수 X에 대해 $Z=(X-\mu)/\sigma$로 변환시키는 것을 뜻하고, 표준화 확률변수 Z는 평균 0과 표준편차 1인 표준정규분포를 따른다.

$$ Z \sim N(0, 1)$$

- 해당 분포의 확률밀도함수, 기댓값, 분산을 구하는 공식은 아래와 같다.
- $f(z) = \frac{1}{\sqrt{2\pi}}e^{\frac{z^2}{2}}, \ \ -\infty < z < \infty$
- $E(Z) = 0$
- $Var(Z) = 1$

- (예) 확률변수 X가 정규분포 N(30, 64)를 따를 때 26~46 구간의 확률은?

In [18]:
from scipy.stats import norm #표준정규분포

E = 30 # 평균
V = 64
S = np.sqrt(V) # 표준편차
x1 = 26
x2 = 46
zstat1 = (x1-E)/S #표준화
zstat2 = (x2-E)/S #표준화
cdf = norm.cdf(zstat2) - norm.cdf(zstat1)
print("[수기] 범위 내 누적확률은 {:.3f}".format(cdf))
print("[수기] 해당 분포의 기댓값은 {:.3f}, 분산은 {:.3f}".format(E, V))

[수기] 범위 내 누적확률은 0.669
[수기] 해당 분포의 기댓값은 30.000, 분산은 64.000


- (예) 확률변수 X가 표준정규분포를 따를 때 -1.96 ~ 1.96 구간의 확률은?

In [19]:
E = 0 # 평균
V = 1
S = np.sqrt(V) # 표준편차
zstat1 = -1.96
zstat2 = 1.96
cdf = norm.cdf(zstat2) - norm.cdf(zstat1)

print("[수기] 범위 내 누적확률은 {:.3f}".format(cdf))
print("[수기] 해당 분포의 기댓값은 {:.3f}, 분산은 {:.3f}".format(E, V))

[수기] 범위 내 누적확률은 0.950
[수기] 해당 분포의 기댓값은 0.000, 분산은 1.000


### 지수분포 (Exponential distribution)
- 포아송 분포가 단위시간 내에서 발생하는 어떤 사건의 횟수의 분포인 반면, 지수분포는 한 번의 사건이 발생할 때까지의 소요되는 시간의 분포이다.
- 지수분포는 어떤 사건이 포아송 분포에 의해서 발생될 때 지정된 시점으로부터 이 사건이 일어날 때까지 걸린 시간을 측정하는 확률분포로 확률변수 X는 한 번의 사건이 발생할 때까지 소요되는 시간이고 $\lambda$는 단위시간 동안에 평균적으로 발생한 사건의 횟수이다.
- 확률변수 X가 모수 $\lambda$를 가지는 지수분포를 따를 때 다음과 같이 표현한다.

$$ X \sim \ \epsilon (\lambda)$$

- 지수분포는 연속확률분포 중에서 유일하게 무기억성의 성질을 가진다.
- 지수분포에서 무기억성이란, 예를 들어 어떤 전구 제품이 지수분포를 따른다면 앞으로 남은 전구의 수명은 지금까지 사용한 시간과 무관하다는 의미이다.
- 지수 분포는 오른쪽 꼬리 모양을 가지며 왜도는 2이다.
- 해당 분포의 확률밀도함수, 기댓값, 분산을 구하는 공식은 다음과 같다.
- $f(x) = \lambda e^{-\lambda x}, x>0, \lambda >0$
- $E(X) = 1/\lambda$
- $Var(X) = 1/\lambda^2$

- (예)  자동차들 사이 시간 간격이 평균 3분인 지수확률 분포를 따르는 경우, 연속한 두 대의 차량이 도착하는 시간이 2분 이내일 확률은?

In [20]:
# 지수분포
from scipy.stats import expon

lam = 1/3 # lambda: 단위시간 동안 평균적으로 발생한 사건 = 3분동안 1건, 1분동안 1/3건
x = 2 # 사건이 일어날 때까지 걸린 시간

E = 1/lam
V = 1/(lam**2)

# scale에 1/lam을 입력해주어야 함
cdf = expon.cdf(x, scale = 1/lam)

print("[수기] 누적확률은 {:.3f}".format(cdf))
print("[수기] 해당 분포의 기댓값은 {:.3f}, 분산은 {:.3f}".format(E, V))

[수기] 누적확률은 0.487
[수기] 해당 분포의 기댓값은 3.000, 분산은 9.000


### 감마분포 (Gamma distribution)
- 포아송 분포는 주어진 단위시간 동안 어떤 사건의 출현횟수를 나타내는 분포이며, 지수분포는 첫 번째 사건이 발생할 때까지의 대기시간 분포이다.
- 이 개념을 확장하여 감마분포(Gamma distribution)는 $\alpha$번의 사건이 발생할 때까지의 대기시간 분포이다.
- 즉, 지수분포의 일반화된 형태이다.
- 확률변수 X가 모수 $\alpha, \beta$를 갖는 감마분포를 따를 때 다음과 같이 표현한다.

$$ X \sim \Gamma (\alpha, \beta)$$

- 감마분포에서 $\alpha=1$인 경우 $\beta=1/\lambda$인 지수분포가 된다.
- 해당 분포의 확률밀도함수, 기댓값, 분산을 구하는 공식은 다음과 같다.
- $f(x) = \frac{1}{\Gamma(\alpha)\beta^\alpha}x^{\alpha-1}e^{-\frac{x}{\beta}}, x>0,\alpha>0,\beta>0 $
- $E(X) = \alpha\beta = \alpha/\lambda$
- $Var(X) = \alpha\beta^2 = \alpha/\lambda^2$

- (예) 낚시를 하는데 어부가 물고기를 30분에 한 마리씩 잡는다. 어부가 4마리의 물고기를 잡을 때까지 걸리는 시간이 1시간에서 3시간 사이로 소요될 확률은?

In [21]:
from scipy.stats import gamma

lam = 2 # lambda: 30분에 한마리 = 1시간에 두마리 잡음
beta = 1/lam
alpha = 4 # 4마리의 물고기
E = alpha * beta
V = alpha * beta**2
range_ = (1, 3) #1시간~3시간

# scale에 beta를 입력해주어야 함
cdf = gamma.cdf(range_[1], alpha, scale=beta) - gamma.cdf(range_[0], alpha, scale=beta)

print("[수기] 누적확률은 {:.3f}".format(cdf))
print("[수기] 해당 분포의 기댓값은 {:.3f}, 분산은 {:.3f}".format(E, V))

[수기] 누적확률은 0.706
[수기] 해당 분포의 기댓값은 2.000, 분산은 1.000


- (예) 배송 시간이 alpha = 20, lambda = 1.6인 감마분포를 따를 때, 20개 철판을 배송할 때 걸리는 시간이 15분 이내일 확률은?

In [22]:
lam = 1.6 # lambda
beta = 1/lam
alpha = 20
E = alpha * beta
V = alpha * beta**2
range_ = (0, 15)

# scale에 beta를 입력해주어야 함
cdf = gamma.cdf(range_[1], alpha, scale=beta) - gamma.cdf(range_[0], alpha, scale=beta)

print("[수기] 누적확률은 {:.3f}".format(cdf))
print("[수기] 해당 분포의 기댓값은 {:.3f}, 분산은 {:.3f}".format(E, V))

[수기] 누적확률은 0.820
[수기] 해당 분포의 기댓값은 12.500, 분산은 7.812


### 카이제곱분포 (Chi-sqaure distribution)
- 카이제곱분포는 감마분포의 특수한 경우로서 $\alpha=n/2, \beta=2$인 경우를 자유도(Degree of freedom) n인 카이제곱분포라고 한다.
- 카이제곱분포는 모집단이 정규분포인 대표본에서 모분산 $\sigma^2$을 추정/검정하거나, 비모수 검정 중에서 범주형 변수들에 대한 적합도 검정(Goodness of fit test), 독립성 검정(Test of independence), 동질성 검정(Test of homogeneity)을 하는데 사용한다.
- 확률변수 X가 자유도 n인 카이제곱분포를 따를 때 다음과 같이 표현한다.

$$ X \sim \chi^2_{(n)}$$

- 해당 분포의 확률밀도함수, 기댓값, 분산을 구하는 공식은 다음과 같으며, 통계량 계산을 포함한 상세한 예제는 <5. 추정과 가설 검정>에서 다루도록 한다.

- $f(x) = \frac{1}{\Gamma (\frac{n}{2})2^{\frac{n}{2}}}x^{{\frac{n}{2}-1}}e^{-\frac{x}{2}}, x>0, n>0$
- $E(X) = n$
- $Var(X) = 2n$

### t분포 (t-distribution)
- 표본 평균을 표본 분산으로 표준화한 값이 따르는 확률분포를 t분포라고 한다. Student's t-distribution라고도 한다.
- 주로 모분산을 모르는 상황에서 표본 평균을 추정/검정할 때 사용한다.
- t분포는 자유도가 증가할수록 표준정규분포에 수렴하며, 주로 30개 이하의 소표본에 사용한다.
- 확률변수 X가 자유도 k인 t분포를 따를 때 다음과 같이 표현한다.

$$ X \sim t_{(k)} $$

- 해당 분포의 확률밀도함수, 기댓값, 분산을 구하는 공식은 다음과 같으며, 통계량 계산을 포함한 상세한 예제는 <5. 추정과 가설 검정>에서 다루도록 한다.
- $f(x) = \frac{\Gamma(\frac{k+1}{2})}{\Gamma(\frac{k}{2})\sqrt{\pi k}}(1+ \frac{x^2}{k})^{- \frac{k+1}{2}}, -\infty < x < \infty $
- $E(X) = 0$
- $Var(X) = k/(k-2), k>2$

### F분포 (F-distribution)
- F분포는 두 모집단의 모분산 비의 추정/검정과 세집단 이상의 모평균 비교에 주로 사용한다. Fisher-Snedecor distribution이라고도 한다.
- 확률변수 X가 자유도 (m, n)인 F분포를 따를 때 다음과 같이 표현한다.

$$ X \sim F_{(m, n)} $$

- 한편, 확률변수 X가 $F_{(m, n)}$을 따를 때 확률변수 1/X은 $F_{(n, m)}$을 따른다.

- 해당 분포의 기댓값, 분산을 구하는 공식은 다음과 같으며, 통계량 계산을 포함한 상세한 예제는 <5. 추정과 가설 검정>에서 다루도록 한다.
- $f(x) = \frac{\Gamma(\frac{m+n}{2})(\frac{m}{n})^{\frac{m}{2}}}{\Gamma(\frac{m}{2})\Gamma(\frac{n}{2})} \cdot \frac{x^{\frac{m}{2}-1}}{(1+\frac{m}{n}x)^{\frac{m+n}{2}}}, \ x > 0$
- $f(x) = 0,\ \ x <= 0$
- $E(X) = n/(n-2), \ n>2$
- $Var(X) = \frac{2n^2(m+n-2)}{m(n-2)^2(n-4)}, \ n>4$

## 연습문제

#### 1.
- 어느 권총 사격 선수가 과녁의 정중앙을 맞힐 확률이 80%라고 한다.
- 이 선수가 총 5번의 사격을 할 때 평균적으로 몇 번 정중앙을 맞히는지 구하시오.

In [23]:
p = 0.8
q = 1-p
n = 5

from scipy.stats import binom
E, V = binom.stats(n, p)
print("[라이브러리 계산] {:.2f}".format(E))

a = n*p
print("[수기 계산] {:.2f}".format(a))

# 이항분포 X ~ B(n, p), E(X)=np, V(X)=npq 에서 기댓값을 구하는 문제이다. 정답은 4

[라이브러리 계산] 4.00
[수기 계산] 4.00


#### 2.
- 전체 청소년의 40%가 11시 이전에 잠을 잔다고 한다면, 임의로 선택한 10명의 청소년 중에서 3명이 11시 이전에 잠을 잘 확률을 계산하시오.
- (소수점 첫째자리까지 반올림)

In [24]:
p = 0.4
q = 1-p
n = 10
x = 3

from scipy.stats import binom
print("[라이브러리 계산] {:.4f}".format(binom.pmf(x, n, p)))

from numpy import math
fac = math.factorial
def combi(a, b): #aCb
    return fac(a)/fac(b)/fac(a-b)
print("[수기 계산] {:.4f}".format(combi(n, x) * p**(x) * (1-p)**(n-x)))

# 이항분포의 특정 확률변수 x에 대한 확률질량함수를 구하는 문제이다. 정답은 21.5%

[라이브러리 계산] 0.2150
[수기 계산] 0.2150


#### 3.
- 어느 아파트 단지에서 밤 11시부터 새벽 2시 사이에 배달되는 음식 배달 건수는 시간당 평균 5건이다.
- 음식 배달 건수의 분포가 포아송분포를 따른다면 오늘 새벽 12시와 1시 사이에 배달이 1건만 발생할 확률을 구하시오.
- (소수점 둘째자리까지 반올림)

In [25]:
lam = 5
x = 1
import numpy as np
pmf = lam**x * np.exp(-lam)/np.math.factorial(x)
print("{:.4f}".format(pmf))

from scipy.stats import poisson
print("{:.4f}".format(poisson.pmf(x, lam)))
# 포아송 분포의 특정 확률변수 x에 대한 확률질량함수를 구하는 문제이다. 정답은 3.37%

0.0337
0.0337


#### 4.
- A대학교 B전공 시험의 성적 분포는 평균이 65, 표준편차 12인 정규분포를 따른다고 한다.
- 최고 점수부터 10%까지를 A+로 분류한다면, A+를 받기 위해 최소 몇 점을 받아야 하는가?

In [26]:
mu = 65
sigma = 12

from scipy.stats import norm
z = norm.ppf(1-0.1)
x = z * sigma + mu
round(x, 2)
# 정규분포 X ~ N(mu, sigma^2)를 표준정규분포 Z ~ N(0, 1)로 표준화하여 x를 구하는 문제이다. 표준화 공식은 z = (x - mu) / sigma이다. 정답: 81점

80.38