# 2020.05.09 머신러닝 알고리즘 스터디
# 은닉 마르코프 모델 (Hidden Markov Model, HMM)

## Connect to Google Drive

In [1]:
from google.colab import drive
drive.mount('/content/gdrive', force_remount=True)
import sys
sys.path.append("/content/gdrive/My Drive/Colab Notebooks")

Go to this URL in a browser: https://accounts.google.com/o/oauth2/auth?client_id=947318989803-6bn6qk8qdgf4n4g3pfee6491hc0brc4i.apps.googleusercontent.com&redirect_uri=urn%3aietf%3awg%3aoauth%3a2.0%3aoob&response_type=code&scope=email%20https%3a%2f%2fwww.googleapis.com%2fauth%2fdocs.test%20https%3a%2f%2fwww.googleapis.com%2fauth%2fdrive%20https%3a%2f%2fwww.googleapis.com%2fauth%2fdrive.photos.readonly%20https%3a%2f%2fwww.googleapis.com%2fauth%2fpeopleapi.readonly

Enter your authorization code:
··········
Mounted at /content/gdrive


## 1. Markov chain (마르코프 체인)

- 정의: 마르코프 성질(Markov Property)을 지닌 이산확률과정(discrete-time stochastic process).
- 핵심: 한 state의 확률은 그 이전 state에만 의존한다.
- 즉, 다른 state로의 전이(transition)는 그 동안의 긴 이력(history)을 필요로 하지 않고, 바로 직전 상태에서의 전이로 추정할 수 있다.

### 마르코프 체인 예시

![alt text](https://drive.google.com/uc?id=1kMYb2_UQmKlrig9NFvVkjhl2U7BIGLOi)

- 날씨를 마르코프 체인으로 모델링한 에시
- 노드: state, 엣지: 전이(transition)
- 각 노드별 전이확률의 합은 1
- 일반적인 종류의 상태(HOT, COLD, WARM)이외에도 시작(START), 끝(END) 상태 존재.

## 2. 은닉 마르코프 모델(Hidden Markov Model)

- 각 상태가 마르코프 체인을 따르되, 은닉(hidden)되어 있다고 가정.

### 예시

- 100년 전 기후를 연구하고 싶은데, 주어진 데이터는 당시 아이스크림 소비 기록.
- 이 기록만으로 당시 날씨를 추측하고 싶다.
- 우리는 아이스크림 소비 기록의 연쇄를 관찰할 수 있지만, 해당 날짜의 날씨가 무엇인지는 직접적으로 관측하기 어렵다.
- 이처럼 관측치 뒤에 있는 은닉되어 있는 상태(state)를 추측하기 위해 HMM을 사용한다.

![alt text](https://drive.google.com/uc?id=1L4DU5-nzdJU2DwafuVkzM1PQR3tI62nL)

- B1(방출확률) : HOT 이라는 은닉상태와 연관이 있음.
- 날씨가 더울 때 아이스크림 1개 소비할 확률 = 0.2
- 날씨가 더울 때 아이스크림 2개 소비할 확률 = 0.4
- 날씨가 더울 때 아이스크림 3개 소비할 확률 = 0.4
<br><br>
- B2(방출확률) : COLD 라는 은닉상태와 연관이 있음.
- 날씨가 추울 때 아이스크림 1개 소비할 확률 = 0.5
- 날씨가 추울 때 아이스크림 2개 소비할 확률 = 0.4
- 날씨가 추울 때 아이스크림 3개 소비할 확률 = 0.1

## 3. HMM의 동작

HMM을 통하여 추론할 수 있는 두 가지 사항
1. 아이스크림이 [3, 1, 3]일 때, 이러한 경향이 나타날 확률 계산. <br>
2. 아이스크림이 [3, 1, 3]일 때, 이러한 경향이 나타날 확률이 가장 큰 날씨 추론.

### 3-1. Compute Likelihood (우도): Forward Algorithm(전방 확률)

1. 아이스크림이 [3, 1, 3]일 때, 이러한 경향이 나타날 확률 계산.

- 우도: 모델이 주어졌을 때 관측치 O 가 나타날 확률.
- O = [3, 1, 3]라고 가정.

![alt text](https://drive.google.com/uc?id=1-MQ61_NnL0xpMBiEaSfbBnly1UIwBbAm)

![alt text](https://drive.google.com/uc?id=1x3LKqcZlhNly3VBjtA_KObqizg5altFz)

- 고려해야 할 가짓수: 2^3 (m*n)
- 2 (m): 은닉 상태의 갯수
- 3 (n): 관측치의 길이

![alt text](https://drive.google.com/uc?id=1_Cq2UcufTCPVYM7adA5ZUxzWtZc2W19R)

- 문제점
- N개의 은닉 상태, 관측치의 길이가 T라면, N^T만큼의 가짓수를 고려. 
<br><br>
- 해결책
- 다이내믹 프로그래밍 (dynamic programming) 기법.
- 중복되는 계산을 저장해 두었다가 푼다.

![alt text](https://drive.google.com/uc?id=1Ra53ZfqTs2n8IT8HNiURBfIzQeShq6y4)

- a1(1): 첫 번째 시점(t=1)의 날씨가 추웠을 확률(q1)
- a1(2): 첫 번째 시점(t=1)의 날씨가 더웠을 확률(q2)
- a2(1): 두 번째 시점(t=2)의 날씨가 추웠을 확률
- a2(1) 계산시, a1(1), a1(2) 계산결과 활용.

![alt text](https://drive.google.com/uc?id=14GDTyOJQj-WXvkjiabkxKMwTfiMqmbGd)

#### 전방 확률(Forward Probability)의 정의

![alt text](https://drive.google.com/uc?id=1U6PsD97gH85Z7CErV3fZotEV4tGkpCno)

### 3-2. Decoding: Viterbi Algorithm(비터비 알고리즘)

2. 아이스크림이 [3, 1, 3]일 때, 이러한 경향이 나타날 확률이 가장 큰 날씨 추론.

#### 비터비 확률(Viterbi Probability)의 정의

![alt text](https://drive.google.com/uc?id=1v0yg-oO9ySBaQ_KgC2XGZwC8dEIzAFd1)

- t번째 시점은 j번째 은닉상태의 비터티 확률.
- max 값에 대해 관심이 있다.
- 디코딩 목적: 비터비 확률보다는 최적 상태열이 무엇인지에 관심이 있다.

![alt text](https://drive.google.com/uc?id=1JSakyTQ9a95znPISNqk-g9lctqMmAs5X)

- 2번째 시점(t=2) 2번째 상태 q2(HOT)의 backtrace bt2(2) : q2(HOT)
- q1 : 0.02 * 0.4 * 0.2 = 0.016
- q2 : 0.32 * 0.6 * 0.2 = 0.384
<br> <br>
- 2번째 시점(t=2) 1번쨰 상태 q1(COLD)의 backtrace bt1(2) : q2(HOT)
- q1 : 0.02 * 0.5 * 0.5 = 0.05
- q2 : 0.32 * 0.3 * 0.5 = 0.48
<br><br><br>
따라서, 아이스크림 [3,1]이 관측되었을 때, 가장 확률이 높은 은닉상태의 시퀀스는 [HOT, COLD]

![alt text](https://drive.google.com/uc?id=18se4W8sPjFjb85epmrvWx11vFpvNnnBg)

## 4. Training : EM Algorithm

#### Parameters

1. 전이확률: 상태를 바꿀 때, 필요한 확률( HOT에서 COLD로 전이할 확률 )
2. 방출확률: 은닉상태로부터 관측치가 튀어나올 확률( HOT일 때, 아이스크림 1개를 먹을 확률 )

#### 4-1. E-step


- 모델 파라미터(전이확률 A, 방출확률 B) 를 고정시킨 상태에서 관측치 O를 바탕으로 전방확률, 후방확률을 업데이트.

#### 4-2. M-step

- E-step에서 구한 확률 등을 바탕으로 모델 파라미터 A,B를 업데이트.

![alt text](https://drive.google.com/uc?id=1SVCPOEw4YofD3LJObhyIoZa_295m91qN)

## 5. 장점

- 순차적인 데이터를 다루는 데 강점
- 개체명 인식, 포스태깅 등 단어의 연쇄로 나타나는 언어구조 처리에 많은 주목.


## Reference

- https://ratsgo.github.io/machine%20learning/2017/03/18/HMMs/
- https://untitledtblog.tistory.com/97