# 확률분포


누적 분포 함수(cumulative distribution function)

In [1]:
t = np.linspace(-100, 500, 100)
F = t / 360
F[t < 0] = 0
F[t > 360] = 1
plt.plot(t, F)
plt.ylim(-0.1, 1.1)
plt.xticks([0, 180, 360])
plt.title("Cumulative Distribution Function")
plt.xlabel("$x$ (deg.)")
plt.ylabel("$F(x)$")
plt.show()

<IPython.core.display.Javascript object>

확률 밀도 함수(probability density function)

In [2]:
t = np.linspace(-100, 500, 1000)
F = t / 360
F[t < 0] = 0
F[t > 360] = 1
f = np.gradient(F, 600/1000)  # 수치미분
plt.plot(t, f)
plt.ylim(-0.0001, f.max()*1.1)
plt.xticks([0, 180, 360])
plt.title("Probability Density Function")
plt.xlabel("$x$ (deg.)")
plt.ylabel("$f(x)$")
plt.show()

<IPython.core.display.Javascript object>

확률 질량 함수(probability mass funtion)
- 이산 확률 변수의 가능한 값 하나 하나에 대해 확률을 정의한 함수

In [3]:
x = np.arange(1,7)
y = np.array([0.1, 0.1, 0.4, 0.2, 0.1, 0.1])
plt.stem(x, y)
plt.xlim(0, 7)
plt.ylim(-0.01, 0.5)
plt.show()

<IPython.core.display.Javascript object>

# 분산

$\text{표준 편차} = \sqrt{\text{분산}}$

$s^2 = \dfrac{1}{N}\sum_{i=1}^{N} (x_i-m)^2$

비편향 샘플 분산(unbiased sample variance)

$s^2_{\text{unbiased}} = \dfrac{1}{N-1}\sum_{i=1}^{N} (x_i-m)^2$

$ \sigma^2 = \text{Var}[X] = \text{E}[(X - \mu)^2] $

$ \sigma^2 = \text{Var}[X] = \text{E}[(X - \mu)^2] =  \sum (x - \mu)^2 P(x) $

$ \sigma^2 = \text{Var}[X] = \text{E}[(X - \mu)^2] = \int_{-\infty}^{\infty} (x - \mu)^2 f(x)dx $

$ \text{Var}\left[ X + Y \right] =
\text{Var}\left[ X \right] + \text{Var}\left[ Y \right]+ 2\text{E}\left[ (X-\mu_X)(Y-\mu_Y) \right]$

# 샘플 평균의 분산

확률 변수  $X$ 의 샘플 평균  $\bar{X}$ 도 일종의 확률 변수

- $ \text{E}[\bar{X}] = \text{E}[{X}] $

- $ \text{Var}[\bar{X}] = \dfrac{1}{N} \text{Var}[{X}] $

\begin{eqnarray}
\text{Var}[\bar{X}]
&=& \dfrac{1}{N^2} \sum_{i=1}^N \text{E} \left[ (X_i - \mu)^2 \right] \\
&=& \dfrac{1}{N^2} \sum_{i=1}^N \text{E} \left[ (X - \mu)^2 \right] \\
&=& \dfrac{1}{N^2} N \text{E} \left[ (X - \mu)^2 \right] \\
&=& \dfrac{1}{N} \text{E} \left[ (X - \mu)^2 \right] \\
&=& \dfrac{1}{N} \text{Var}[X] \\
\end{eqnarray}

# 샘플 분산의 기댓값

$ \text{E}[s^2] = \dfrac{N-1}{N}\sigma^2 $

# 파이썬을 사용한 계산
- var()
- std()
- nanvar()
- nanstd()

In [7]:
import scipy as sp
sp.random.seed(0)
x = sp.stats.norm(0, 2).rvs(1000)  # mean=0, standard deviation=2
np.var(x)

3.8969378252486169

In [8]:
np.var(x, ddof=1)  # unbiased variance

3.9008386639125292

# 모멘트

- 1차 모멘트 =  E[X] : 기댓값 (Expectation)
- 2차 모멘트 =  E[(X−μ)2]  : 분산 (Variance)
- 3차 모멘트 =  E[(X−μ)3]  : 스큐니스 (Skewness)
- 4차 모멘트 =  E[(X−μ)4]  : 커토시스 (Kurtosis)