# Ch 17 Markov and Hidden Markov Model

## 17.3 Hidden Markov Model

* discrete-time, discrete-state Markov chain 
* with hidden state and observation model

![](./images/ch17/01.png)


### 결합 확률
  * 은닉 상태 천이확률과 조건부 관측확률로 표현 가능
  
![](./images/ch17/02.png) 

### 관측(observations)
  * discrete 인 경우 observation matrix로 표현 가능 
  * continuous 인 경우 conditional gaussian으로 표현 가능

![](./images/ch17/03.png) 
![](./images/ch17/04.png) 
![](./images/ch17/05.png) 


## 17.3 HMM의 응용 

* black-box density models on sequences
* long-range dependencies between observations mediated via the latent variables

### 음성 인식

* 관측 : 음성 신호 
* 은닉 상태 : 단어
* 상태 천이 모델 : p(z_i | z_j ), language model
* 관측 모델 : p(x|z), acoustic model

### Speech tagging

* 관측 : 단어 
* 은닉 상태 : POS(part of speech, ex. noun, verb, adjective)
* 상태 천이 모델 : grammer model

### 비디오로부터 활동 인식

* 관측 : 영상 feature
* 은닉 상태 : class of activity, ex) 뛰기, 걷기, 앉기..




## 17.4 Inference in HMMs

* inference란?
  * 관측열을 보고, 내제된 은닉 상태열을 추정하는 것
  * 편의상, 모든 모델 파라미터는 안다고 가정

### 부정직한 카지노 예제

* 공평(fair) 주사위 v.s 불공정(loaded) 주사위
* 관측열(rolls)를 보고, 어느시점에 어느 주사위가 던져졌는지 추론

![](./images/ch17/06.png)
![](./images/ch17/07.png)


### 17.4.1 Inference의 종류


#### Filtering 
* 과거부터 현재까지의 관측열(x_1 ~ x_t)를 보고, 현재의 은닉 상태(z_t)를 추정하는 것
* on-line as data streams in
  
![](./images/ch17/08.png)  

#### Smoothing
* 모든 관측(과거,현재,미래)을 보고, 특정시점의 은닉 상태(z_t) 추정
* 추가적 정보를 바탕으로 필터링 결과를 smooth
* hindsight, 지나고 나서야 나중에 깨닫는 것
* offline 

![](./images/ch17/11.png)
  

#### Fixed-lag smoothing
* smoothing이기는 하지만 lag 정도의 시점의 은닉 상태 추정
* offline과 online의 특성 조합
* lag가 작아지면 판단 delay는 작아서 좋지만 정확도가 떨어진다. 
  
![](./images/ch17/10.png)    

#### Prediction
* 과거(그리고 현재) 관측을 바탕으로 미래 상태나 미래 관측 예측
  
![](./images/ch17/09.png) 
![](./images/ch17/12.png) 
![](./images/ch17/13.png) 
  

#### MAP estimation
* 모든 관측열을 바탕으로 가장 적합한 은닉 상태열을 추정하는 것
* ex) 음성으로 한 문장 듣기 => 단어열로 표현
* Viterbi-decoding

![](./images/ch17/14.png) 

#### Posterior samples
* sample from posterior

![](./images/ch17/15.png) 

#### Probability of evidence
* 관측열 자체의 발생 확률
* 모든 가능한 은닉 상태열 경로를 모두 summing up 한 것

![](./images/ch17/16.png)

### 17.4.2 Forward Algorithm

* 필터링을 얻고 싶다. p(z_t | x_1:t )

#### 첫 번째 step : one-step ahead state prediction

* local evidence from anywhere * transition prob
* act as the new prior(belief) for time t

![](./images/ch17/17.png)

#### 두번째 step : update

* update belief given observation
* one-step ahead prediction 과 local evidence 를 곱한 후 normalize
* cancel out means d-seperation

![](./images/ch17/18.png)   

![](./images/ch17/20.png)


#### 참고 : d-seperation

![](./images/ch17/19.png) 
  

### 17.4.3 Forward-Backward Algorithm

* 최종 목적은 smoothed marginal을 구하는 것
  * p( z_t | x_1:T ) 
* 아래처럼 과거로부터 오는 chain과 미래로부터 온 chain으로 분리해서 생각
  * alpha : filtered belief state
  * beta : conditional likelihood of future evidence

![](./images/ch17/21.png) 

* beta도 DP 방식으로 계산 가능
  * one-step after beta, local evidence, 상태 천이 확률
  * cancel out 은 d-seperation
  
![](./images/ch17/22.png) 

### 17.4.3.3 시공간 복잡도

* state의 cardinality : K
* end of sequence : T

#### naive 한 구현인 경우

* O( K^2 * T )의 시간 복잡도
 * 각 time-step마다 K by K matrix 를 곱해야 하므로
 * K가 매우 크면(ex. 언어 모델) 계산 어려움

#### sparse한 transition matrix 라면

* O(TK)의 시간 복잡도

#### 공간 복잡도가 더 문제

* O(KT) for storing alpha, betea
* divide-conquer 방법을 쓰면 O( K * logT ) 로 줄어듬, 반대 급부로 시간 복잡도 증가

### 17.4.4 Viterbi 알고리즘

* 모든 관측열을 바탕으로 가장 적합한 은닉 상태열을 추정하는 것
* trellis diagram에서 최단 경로에 해당

![](./images/ch17/23.png) 


#### MAP와 MPM의 차이 

* MAP
  * Maximum a posterior
  * most probable sequence of states
* MPM
  * maximization of the posterior marginals
  * sequence of (marginally) most probable states

  
![](./images/ch17/25.png)  

#### MPM은 MAP보다 robust 하다. 

![](./images/ch17/26.png)  
  



### 17.4.4.2 Viterbi 알고리즘 상세

* delta : 현재까지의 최적의 path를 거칠 확률
  * 그 이전까지의 path도 최적이어야 한다. 
  
![](./images/ch17/27.png)
![](./images/ch17/28.png)
![](./images/ch17/24.png)   

