# Probability Theory

># 1. Definitions & Theorems

### Definitions
* **확률 표본**(sample, $\omega$): 선택된 특정한 하나의 사실
* **표본 공간**(sample space, $\Omega$): 선택될 수 있는 모든 표본의 집합
* **사건**(event, $A, B, C, ...$): 일부 표본의 집합
* **확률**(probability, $P(A)$): 사건(부분 집합)을 입력하면 숫자(확률값)가 출력되는 함수

### 콜모고로프의 공리(Kolmogorov's axioms)
* 1) 모든 사건에 대해 확률은 실수이고 양수이다.
$$P(A)\in\mathbb{R}, P(A)\geq 0 $$

* 2) 표본공간이라는 사건에 대한 확률은 1이다.

$$P(\Omega) = 1$$

* 3) 공통 원소가 없는 두 사건의 합집합의 확률은 각각의 사건의 확률의 합이다.

$$ A \cap B = \emptyset \;\;\; \rightarrow \;\;\; P(A \cup B) = P(A) + P(B) $$

### 표본의 수가 무한한 경우


* 표본의 수가 무한한 경우 특정한 하나의 표본(sample, 원소)이 나올 확률은 모든 표본에 대해서 0


$$ P(\{ \theta = 0^{\circ} \}) = 0$$


$$ P(\{ \theta = 30^{\circ} \}) = 0$$



* 확률은 표본(sample, 원소)이 아닌 사건 (event, 집합)에 대해서만 정의


$$ P(\{  0^{\circ} \leq \theta < 30^{\circ} \}) = \frac{1}{12}$$


$$ P(\{  30^{\circ} \leq \theta < 60^{\circ} \}) = \frac{1}{12}$$


$$ P(\{  0^{\circ} \leq \theta < 60^{\circ} \}) = \frac{1}{6}$$


$$ P(\{  0^{\circ} \leq \theta < 1^{\circ} \}) = \frac{1}{360}$$


### 확률의 성질
* 1) 공집합의 확률: $ P(\emptyset) = 0 $
* 2) 여집합의 확률: $ P(A^C) = 1 - P(A) $
* 3) 포함-배제 원리: $ P(A \cup B) = P(A) + P(B) – P(A \cap B) $
* 4) 전체 확률의 법칙: 
$$ C_i \cap C_j = \emptyset \text{  &  } C_1 \cup C_2 \cup \cdots  = \Omega $$
$$$$
$$ \downarrow $$
$$$$
$$ P(A) = \sum_i P(A \cap C_i) $$
* **모두 콜모고로프의 정리를 통해 증명 가능**

### 확률의 의미
* 1) **빈도주의적**(frequentist) 의미 - 반복된 샘플링을 통해 가능성을 정의
* 2) **베이지안**(Bayesian) 의미 - 이미 발생한 일이 특정한 사건에 속할 가능성 / **주장의 신뢰도**
  * 베이지안 관점에서의 사건: **"진짜 표본이 포함되어 있을 가능성이 있는 후보의 집합", "진실에 대한 어떤 가설"**
  * 베이지안 관점에서의 확률: **"진짜 표본이 그 후보 집합에 있을 가능성", "어떤 가설이 진실일 가능성"**

> # 2. Bayes' theorem

### 결합 확률과 조건부 확률
* 1) **결합 확률**(joint probability): 사건 A와 B가 동시에 발생할 확률, $ P(A \cap B) = P(A, B) $
* 2) **조건부 확률**(conditional probability): 사건 B가 사실일 경우 사건 A에 대한 확률, $ P(A | B) $

$$ P(A|B) = \dfrac{P(A,B)}{P(B)} $$

### 독립적인 사건의 조건부 확률
$$$$
$$ P(A,B) = P(A)P(B) $$
$$$$
$$ P(A|B) = \dfrac{P(A,B)}{P(B)} = \dfrac{P(A)P(B)}{P(B)} = P(A) $$


### 베이즈 정리(Bayes' theorem)
* 조건부 확률의 식이 $A$와 $B$에 대칭적임을 이용해 유도할 수 있다

$$ P(A|B) = \dfrac{P(B|A)P(A)}{P(B)} $$

* $ P(A|B) $ : 사후 확률(posterior). 사건 B가 발생한 후 갱신된 사건 A의 확률
* $ P(A) $ : 사전 확률(prior). 사건 B가 발생하기 전에 가지고 있던 사건 A의 확률
* $ P(B|A) $ : likelihood. 사건 A가 발생한 경우 사건 B의 확률
* $ P(B) $ : 정규화 상수(normalizing constant): 확률의 크기 조정

### 베이즈 정리의 확장
$$$$
$$ P(A_1|B) = \dfrac{P(B|A_1)P(A_1)}{P(B)} = \dfrac{P(B|A_1)P(A_1)}{\sum_i P(A_i, B)}= \dfrac{P(B|A_1)P(A_1)}{\sum_i P(B|A_i)P(A_i)}  $$
$$$$
* 조건1: $ A_i \cap A_j = \emptyset $
* 조건2: $ A_1 \cup A_2 \cup \cdots = \Omega $

#### 응용1: $A_1 = A$, $A_2 = A^C$ 인 경우:

$$ 
\begin{eqnarray}
P(A|B) 
&=& \dfrac{P(B|A)P(A)}{P(B)} \\
&=& \dfrac{P(B|A)P(A)}{P(B,A) + P(B,A^C)} \\
&=& \dfrac{P(B|A)P(A)}{P(B|A)P(A) + P(B|A^C)P(A^C)} \\
&=& \dfrac{P(B|A)P(A)}{P(B|A)P(A) + P(B|A^C)(1 - P(A))} 
\end{eqnarray}
$$

#### 응용2: 추가적인 사건 $C$가 발생한 경우:

$$ P(A,B,C) = P(A|B,C)P(B,C) = P(A|B,C)P(C|B)P(B)$$


$$ P(A,B,C) = P(C|A,B)P(A,B) = P(C|A,B)P(A|B)P(B) $$


$$ P(A|B,C)P(C|B)P(B) = P(C|A,B)P(A|B)P(B) $$


$$ P(A|B,C) = \dfrac{P(C|A,B)P(A|B)}{P(C|B)} $$

$$ \text{symmetrically,} $$

$$ P(A|B,C) = \dfrac{P(B|A,C)P(A|C)}{P(B|C)} $$

> # 3. Probability Model

### 확률 모형(probability model)
* 확률 변수를 이용해 데이터 분포를 수학적으로 정의하는 방법
* 확률 모형만 있으면 동일한 데이터 분포를 얻을 수 있음
* 확률 모형론에서는 데이터 그 자체에는 의미가 없으며 데이터 분포 특성만이 중요

### 확률 변수(random variable)
* 표본 공간의 모든 표본에 대해 어떤 실수 값을 붙인 것 (추상적 개념 $\rightarrow$ 계산 가능한 숫자)
>* 이산 확률 변수(discrete random variable)
>* 연속 확률 변수(continuous random variable)
* 사건에 대해 할당되는 확률과 달리 확률 변수는 표본 하나 하나에 할당됨
* 다음과 같이 표현 가능
$$$$
$$ A = \{ \omega ; a \leq X(\omega) < b \} = \{ a \leq X < b \} $$
$$$$
* 샘플링(sampling) 또는 실현(realization): 확률 변수를 통해 데이터를 생성하는 과정
  * 샘플링은 많은 수의 데이터 집합에서 일부 데이터만 선택하는 과정을 의미하기도 하니 주의

### 데이터 분석에 적용
1. 자료를 확보한다.
2. 확보된 자료를 확률 변수의 표본으로 가정한다.
3. 확률 변수가 특정한 확률 모형을 따른다고 가정한다.
4. 표본에 대한 정보로부터 확률 모형의 종류나 모수를 추정한다.
5. 구해진 확률 모형으로부터 다음에 생성될 데이터나 데이터 특성을 예측한다.

> # 4. Probability Function

### 누적 분포 함수 (cdf, cumulative distribution function)
* $\{ -\infty \leq X < x \} $ 에 할당된 확률:
$$$$
$$ F(x) = P(\{X < x\}) = P(X < x)$$
$$$$
* $F(-\infty) = 0$
* $F(+\infty) = 1$
* $F(x) \geq F(y) \;\; \text{ if } \;\; x > y $

### 확률 밀도 함수 (pdf, probability density function)
* cdf를 미분한 결과 / pdf의 값 자체는 확률이 아님
$$$$
$$ \dfrac{dF(x)}{dx} = f(x) \Leftrightarrow F(x) = \int_{-\infty}^{x} f(u) du $$
$$$$
* $-\infty$ 부터 $\infty$ 까지 적분하면 그 값은 1이 된다
* 확률 밀도 함수는 0보다 같거나 크다

### 확률 질량 함수(pmf, probability mass function)
* **이산 확률 변수**의 가능한 값 하나 하나에 대해 확률을 정의한 함수
* 확률 변수에 대해 각 값을 누적하여 더하면 이산 확률 변수의 누적 분포 함수(cumulative distribution function)를 구할 수 있다