In [1]:
%autosave 20
import numpy as np
import matplotlib.pyplot as plt

Autosaving every 20 seconds


In [2]:
def rain(before):
    """
    전날의 날씨에 따른 조건부 확률분포에 의해 다음날의 날씨를 결정해주는 함수
    input
    before : 전날의 날씨
    output 
    다음날의 날씨
    """
    if before == 1: #전날에 비가 왔다면
        return int(np.random.rand() < 0.9) #다음날에 비 올 확률은 확 깍여서 0.9
    if before == 0: #전날에 비가 안왔다면
        return int(np.random.rand() <0.2) #다음날에 비가 올 확률은 확 높아져서 0.2

In [3]:
def rain_process(today):
    result = [today]
    for i in range(10000):
        result.append(rain(result[-1])) #가장 최근날씨가 계속 input으로 들어감
    return result

# Background

## Review

- 확률과정은 시간에 따라서 결과들이 확률분포에 의해 정해지는 것이였다.
- 수학적으로는 random variable의 sequence와 같았다.

$$
\begin{aligned}
\{X(t) : t \in T\} \text{ or } \{X_t\}
\end{aligned}
$$

- 날씨 모형을 행렬형태로 표현하면 생겼었다.
    - 숫자는 약간 바뀌었음!

\begin{aligned}
&\begin{bmatrix}
P(X_t = 0) \\
P(X_t = 1) \\
\end{bmatrix} = 
\begin{bmatrix}
0.8 & 0.1 \\
0.2 & 0.9
\end{bmatrix}
\begin{bmatrix}
P(X_{t-1} = 0)\\
P(X_{t-1} = 1)
\end{bmatrix}
\\
& \Longleftrightarrow \mu_t = P\mu_{t-1}
\end{aligned}


:::{.callout-note icon=false simple=true}
## 중요한 것...Note
1. $X_t \sim \mu_t$($\boldsymbol{\mu}$는 확률분포다.)
2. $X_{t+n} \sim \boldsymbol{\mu}_{t+n} = \bf{P}^n\boldsymbol{\mu}_t$($\bf{P}$의 거듭제곱으로 n step후의 확률분포를 구한다.)
3. ${\bf{P}}^n은 현재상태가 i일 때 ,n-step후에 상태 j일 확률들을 가지고 있다.$
:::

## notation 바꾸기

- notation을 좀 바꿔보자. 양변에 Transpose ㄱㄱ

$$
\begin{aligned}
\boldsymbol{\mu}_t^T = \boldsymbol{\mu}_{t-1}^T\bf{{P}}^T
\end{aligned}
$$

- 그리고 이전에 했던 $\bf{P}$는 생각하지말고 $\bf{P}^T = \bf{P}$라 표기하자.

$$
\begin{aligned}
\boldsymbol{\mu}_t^T = \boldsymbol{\mu}_{t-1}^T\bf{{P}}
\end{aligned}
$$

- 그러면 새롭게 정의된 $\bf{P}$는 해석하기가 좀 쉬워진다.
    1. $\bf{P}$의 $(i,j)$위치의 element를 $p_{ij}$라 하자.
    2. $p_{ij} = P(X_t = j | X_{t-1} = i)$
    3. 상태가 변화할 확률을 읽기가 쉬워졌다. 상태 i에서 j로 바뀔 확률은 matrix의 (i,j)값을 읽으면 된다.

- 이 경우 $\bf{P}$는

$$
\begin{aligned}
\bf{P} = 
\begin{bmatrix}
0.8 & 0.2 \\
0.1 & 0.9
\end{bmatrix}
\end{aligned}
$$

- $0.8 = p_{00}$
- $0.1 = p_{10}$
- $0.1 = p_{01}$
- $0.1 = p_{11}$


# Markov chain

:::{.callout-note }
## Definition of Markov chain
countable한 state space $E$를 가지는 discrete-time stochastic process $\{X_t\}_{t \geq 0}$이 Markov property를 만족하면 stochestic process $\{X_t\}_{t\geq0}$을 (discrete-time) Markov Chain이라고 한다.
:::

- state space : 모든 확률과정에서 가능한 상태의 집합이다.

## Markov property

:::{.callout-note }
## Markov property
$\forall t\geq 0, \forall i_0,i_1,\dots,i_{n-1},i,j \in E :$
$$P(X_{t+1} = j|X_0 = i_0,X_1 = i_1,X_2 = i_2,\dots,X_{t}=i) = P(X_{t+1} = j,X_{t} = i)$$
:::

- 확률분포가 이전시점에 의해서만 영향을 받음을 의미한다.
- 바로 이전시점만 잘 기억하면 되며 이외의 더 오래된 정보들은 필요가 없다.

## Transition Probability

:::{.callout-note}
## Definition of transition probability
카운터블한 상태공간$V$를 가지는 HMC 를 고려하자. 상태 $i$에서 상태 $j$로 바뀌는 조건부 확률 
$$P(X_{t+1} = j | X_t = i)$$
을 $\{X_t\}_{t\geq0}$의 전이확률(transition probability)라 한다.
:::

- $p_{ij}\geq0$ (확률은 항상 0보다 크다.)
- $\sum_{j\in E}p_{ij} = 1$ (확률의 합은 1이다.)

- 만약 모든 $t$에 대하여 $P(X_{t+1} = j | X_t = i)$가  일정하다면 ${X_t}$를 homogeneous Markov Chain(HMC)라 한다.
    - 즉 확률과정이 markov property를 가지며 transition probability가 일정하다면 HMC이다.
    - 여기서부터 모든 내용은 주로 HMC에 대하여 다뤄진다.

## Transition Matrix

:::{.callout-note}
## Definition of transition matrix
카운터블한 상태공간 $V$를 가지는 HMC $\{X_t\}_{t\geq0}$를 고려하자. 다음과 같은 matrix를 transition probability matrix(전이확률행렬,전이행렬,transition matrix)라 한다.
$$
\begin{aligned}
&\bf{P} = 
\begin{bmatrix}
p_{00} \ p_{01} \ \dots \\
p_{10} \ p_{11} \ \dots \\
\vdots \ \vdots  \ \ \dots \\
\end{bmatrix}
\\
&\text {where } p_{ij} = P(X_{t+1} = i|X_t = j)
\end{aligned}
$$
:::

- 즉, (i,j)위치에 있는 element가 전이확률 $p_{ij} = P(X_{t+1} = i|X_t = j)$인 matrix $\bf{P}$인 matrix를 transition probability matrix(전이확률행렬,전이행렬,transition matrix)라 한다.
- 상태공간의 원소는 countable하므로 자연수의 갯수만 큼 무한하며 행렬로 보기 어려울 수 있다. 그러나 일반적인 행렬의 연산들은 잘 정의되므로 행과 열이 무한히 많은 행렬로 생각해도 무리가 없다.
- 전이확률은 $\sum_{j \in E}p_{ij} = 1 \to $ 각각의 row vector에서 합을 취하면 1이다.


## 기억해야 할 성질들

- Review에서 나왔던 중요한 성질들이 transpose로 인해 살짝식 바뀐다.(나머지는 동일하다.)

:::{.callout-note}
1. $X_t \sim \boldsymbol{\mu}_t^T$($\boldsymbol{\mu}_t^T$는 확률분포다.)
2. $X_{t+n} \sim \boldsymbol{\mu}_{t+n} = \boldsymbol{\mu}_t^T\bf{P}^n$($\bf{P}$의 거듭제곱으로 n step후의 확률분포를 구한다.)
3. transition matrix의 거듭제곱 ${\bf{P}}^n$은 현재상태가 i일 때 n-step후 상태 j일 n-step transition probability를 가지고 있다.
$$\text{n-step transition probability from i to j} = \text{(i,j) element of }{\bf{P}}  = P(X_{t+n} = j|X_t = i) = p_{ij}^{(n)}$$
:::

# 예시 - 날씨모형

- 날씨모형이 아래와 같다고 해보자.

$$
\begin{aligned}
P(X_t| X_{t-1} = 0) = 
\begin{cases}
0.8 \quad(X_t = 0) \\ 0.2 \quad(X_t = 1)
\end{cases}
\\
P(X_t| X_{t-1} = 1) = 
\begin{cases}
0.1 \quad(X_t = 0) \\ 0.9 \quad(X_t = 1)
\end{cases}
\end{aligned}
$$

- t일 후의 날씨는 각각 $X_t$인 random variable이다.
- 이러한 random variable의 sequence는 확률과정 $\{X_t\}_{t\geq0}$이다.
- 날씨모형에 의해 현재의 날씨는 바로 이전(전날)의 날씨에 의해서만 결정된다.
    - 날씨모형에 의해서 위와 같은 확률과정은 Markov property를 만족하는 Markov chain이다.
- 모든 t에 대해서 위와 같은 조건부확률분포는 일정하다.
    - Homogeneous Markov Chain이다.

- 이 때의 transition matrix는 다음과 같다.

In [4]:
P = np.array([0.8,0.2,0.1,0.9]).reshape(2,2)
P

array([[0.8, 0.2],
       [0.1, 0.9]])

## 여러가지 특징,현상을 살펴보자.

## 1. ${\bf{P}}$의 거듭제곱은 수렴한다.

In [5]:
np.linalg.matrix_power(P,10)

array([[0.35216502, 0.64783498],
       [0.32391749, 0.67608251]])

In [6]:
np.linalg.matrix_power(P,50)

array([[0.33333335, 0.66666665],
       [0.33333333, 0.66666667]])

In [7]:
P_star = np.linalg.matrix_power(P,100)
P_star

array([[0.33333333, 0.66666667],
       [0.33333333, 0.66666667]])

- 즉 다음과 같다.

$$lim_{n\to\infty}{\bf{P}}^n = {\bf{P}}^★$$

## 2. ${\bf{P}}^★$의 모든 row는 같다.

In [8]:
P_star

array([[0.33333333, 0.66666667],
       [0.33333333, 0.66666667]])

- ${\bf{P}}^★$의 모든 row vector들은 서로 같다.


## 3. 초기분포가 뭐던지 $X_\infty$의 분포는 항상같으며  ${\bf{P}}^★$의 row이다.

- 초기분포 $\boldsymbol{\mu_0}$를 알고있을때 $X_{\infty}$의 분포 $\mu_{\infty}$를 계산해보자. 다음과 같이 계산해볼 수 있을 것이다.
    - 확률과정은 하나의 outcome인 $\omega$에 대응한다.
    - 이때 $\omega$의 분포를 초기분포라 하며 $\boldsymbol{\mu_0}$로 표시한다.(조심하자.)
    - 이로부터 t-step 후 임의의 시점 t에서 $X_t$의 분포가 $\mu_t$(헷갈리지 말자.)

- 초기분포를 $\mu^T_0 = \begin{bmatrix} 0 & 01\end{bmatrix}^T$ 라 하자(비가 왔다). $X_{\infty}$의 분포 $\boldsymbol{\mu}_{\infty}$는 아래와 같다.

$$
\begin{aligned}
\mu_{\infty}^T = \mu_0^T \times \lim_{n\to\infty}{\bf{P}}^n
\end{aligned}
$$


In [9]:
μ0 = np.array([0.9,0.1])
μ_inf = μ0.T @ P_star
μ_inf

array([0.33333333, 0.66666667])

- 초기분포를 $\mu^T_0 = \begin{bmatrix} 0.65 & 0.35\end{bmatrix}^T$ 라 하자. $X_{\infty}$의 분포 $\boldsymbol{\mu}_{\infty}$는 아래와 같다.

In [10]:
μ0 = np.array([0.65,0.35])
μ_inf = μ0.T @ P_star
μ_inf

array([0.33333333, 0.66666667])

- 초기분포를 $\mu^T_0 = \begin{bmatrix} 1 & 0\end{bmatrix}^T$ 라 하자. $X_{\infty}$의 분포 $\boldsymbol{\mu}_{\infty}$는 아래와 같다.

In [11]:
μ0 = np.array([0.1,0.9])
μ_inf = μ0.T @ P_star
μ_inf

array([0.33333333, 0.66666667])

- 임의의 t시점에서 $X_t$의 분포를 사용하여 $X_\infty$의 분포를 구하면 아래와 같을 것이다.

$$\mu_\infty^T = \mu_t^T \times \lim_{n\to\infty}{\bf{P}}^n$$

- 왜 그럴까?

$$
\begin{aligned}
\mu_{\infty}^T &= \mu_0^T \times \lim_{n\to\infty}{\bf{P}}^n \\
&=\mu_0^T \times {\bf{P}} \times {\bf{P}} \times {\bf{P}} \times {\bf{P}} \times \dots \\
&= \mu_0^T \times {\bf{P}}^t \times {\bf{P}} \times {\bf{P}} \times {\bf{P}} \times \dots  \\
&= \mu_t^T \times \lim_{n\to\infty}{\bf{P}}^n
\end{aligned}
$$


- $t = 10$일때 $X_{10}$의 분포를 사용하여 $\mu_{\infty}^T$를 구해보자.

In [12]:
# 1. 먼저 X10의 분포구하고
mu_10 = μ0.T @ np.linalg.matrix_power(P,10) 
# 2. 그 다음 X무한대의 분포구하기
μ_inf2 = mu_10.T @ P_star 
μ_inf2

array([0.33333333, 0.66666667])

- 이는 앞에서 봤던 $P^★$의 row와 일치한다.

In [13]:
P_star[0],μ_inf

(array([0.33333333, 0.66666667]), array([0.33333333, 0.66666667]))

- 정리하자면
    1. 항상 $X_{\infty} \sim \mu_{\infty}^T = \begin{bmatrix}0.333.. & 0.666...\end{bmatrix}^T$이며
    2. 이는 $ \lim_{n\to\infty}{\bf{P}}^n = P^★$에서 아무거나 row vector와 같다.(row vector가 모두 동일했음을 상기.)

## 4. $\text{row vector}_{{\bf{P}}^★} \times P = \text{row vector}_{{\bf{P}}^★}$

- ${\bf{P}}^★$의 row vector를 $\pi^T$라 아래가 성립한다.

$$\pi^T{\bf{P}} = \pi^T$$

In [14]:
π_T = P_star[0]
π_T

array([0.33333333, 0.66666667])

In [15]:
π_T@P

array([0.33333333, 0.66666667])

- 당연하게도 다른 분포에 대해서는 성립하지 않는다.

In [16]:
_dist = [0.4,0.3]

In [17]:
_dist@P

array([0.35, 0.35])

## 5. 초기분포 ${\boldsymbol{\mu_0}} = \pi$라면 $\{X_t\}_{t\geq0}$는 모두 동일한 분포를 가진다.

- 초기분포 $\mu_0 = \pi$라 하자.

$$
\begin{aligned}
&\mu_0^T{\bf{P}} = \pi = \mu_1\\
&\mu_1^T{\bf{P}} = \pi{\bf{P}} = \pi = \mu_2\\
&\mu_2^T{\bf{P}} = \pi{\bf{P}} = \pi = \mu_3\\
&\quad\quad\quad\vdots
\end{aligned}
$$

- 따라서 $\pi = \mu_0 =\mu_1 = \mu_2 = \mu_3 = \dots$ 이다.

- 특징 5의 변형 : 사실 초기분포가 $\pi$가 아니더라도 적당한 시점 $T$이후의 $\{X_t\}_{t\geq T_0}$는 동일한 분포를 가진다.(이게 더 중요하다.)

# 정리

- 확률과정이 Markov property를 만족하면 Markov Chain이며 Markov Chain이 Homogeneous하면 Homogeneous Markov Chain이다.
- transition matrix와 확률분포에 관한 여러가지 특징들이 있다. $\to$ 왜 이런 특징들이 있을까?
- 다음포스팅에 계속 ...