# Chapter 16 Structured Probabilistic Models For Deep Learning

* 유주원 
<br><br>

# Chapter 16.2 Using Graphs to Describe Model Structure

* 구조적 확률 모델은 랜덤 변수 간의 상관 관계를 나타내기 위해 그래프를 사용한다.
* 그래프를 사용해서 확률 분포 내의 여러 상관관계를 설명할 수 있다.
* 다음 섹션에서 가장 인기 있고 유용한 접근법들을 설명할 것이다.

### 16.2.1 Directed Models<br>

* 구조화된 확률 모델의 한 종류로 directed graphical model이 있으며, belief network 또는 Bayesian network2로도 알려져 있다.
* directed graphical model은 "directed"라고 불리는데, edge가 한 정점에서 다른 정점으로의 방향을 가리키기 때문이다. 
* 이런 방향은 어떤 변수의 확률 분포가 다른 변수로부터 정의되었음을 나타낸다.
* a에서 b로 화살그래프가 그려진다는 것은 (b|a)를 의미한다. 즉 b의 분포는 a의 값에 의존한다.

<img src="figures/fig1.png" />

* Alice의 경주 완료 시간이 t0, Bob의 완주 시간이 t1, Carol의 완주 시간을 t2라고 가정하자.
* t1의 추정 시간은 t0에 달려 있으며, t2는 t1에 직접적으로 의존하며 t0에는 간접적으로 의존한다.

<img src="./figures/fig2.png" />

* 계산 비용을 확인해 봄으로써, 구조화된 모델이 구조화되지 않은 모델보다 더 많은 이점을 가진다는 것을 확인할 수 있다.
* 0 ~ 10분 사이를 6초 단위로 자른다고 가정하면 총 100개의 값으로 나타낼 수가 있다.
* 테이블로 p(t0, t1, t2)를 표현하려고 한다면 100 * 100 * 99로 총 999,999 개의 값을 저장할 필요가 있다. 
* 하지만 조건부 확률로 각각의 테이블을 만든다면, t0은 99개의 값을 필요로 하고 t0에 의해 주어진 t1은 9900 개의 값을 필요로 한다. 그리고 t1에 의해 주어진 t2의 값도 필요하며 결과적으로 총 19,899 개의 값이 필요하게 된다.
* 즉, directed graphical model을 사용함으로써 50개 이상의 파라미터 수를 줄일 수 있다는 것을 확인할 수 있다.

* 각각이 k값을 가지는 n개의 이산 변수를 모델링하기 위해서는 $O(k^{n})$의 복잡도가 필요하다.
* 만약에 m이 단일 조건부 확률 분호에서 나타낼 수 있는 변수의 수의 최대값일 경우에는 $O(k^{m})$의 복잡도가 소요되며, m << n 과 같은 모델을 설계할 수 있다면 매우 획기적인 절감 효과를 얻을 수 있다.
* 즉, 그래프에서 각 변수들이 적은 부모를 가지고 있다면 매우 적은 파라미터로 분포가 나타날 수 있음을 나타낸다.

### 16.2.2 Undirected Models<br>
* undirected model은 Markov random fields(MRFs) 또는 Markov networks로도 잘 알려져 있다.
* directed model의 대표적인 예로 릴레이 경주를 들 수 있다. 처음 주자는 후발 주자의 마지막 랩 타임에 영향을 주지만 후발 주자는 처음 주자의 랩 타임에 영향을 주지 않는다.
* 하지만 우리가 모델링하고자 하는 모든 상황이 이렇게 명확한 방향을 가지고 있는 것은 아니다.
* 상호 작용이 방향을 가지고 있지 않거나 양방향으로 작동하는 것처럼 보인다면 undirected model을 사용하는 것이 적합하다.
* 한 예로 내가 아픈지 아닌지, 직장동료가 아픈지 아닌지 그리고 룸메이트가 아픈지 아닌지에 대한 3가지 이진 변수에 대한 분포를 모델링한다고 생각해 보자.
* 동료와 룸메이트가 서로 모른다고 가정하면, 그들중 하나가 다른 사람에게 감기와 같은 질병을 직접 줄 가능성은 거의 없다.
* 하지만 나는 그들에게 감기를 옮길 수 있으며, 또한 그들이 나에게 감기를 옮게 할 수도 있다.
* 그러므로 동료가 나에게 감기를 전달하는 것과 내가 룸메이트에게 감기를 전달하는 것을 모델링함으로써 동료가 룸메이트에게 감기를 전달하는 것을 모델링할 수가 있다.
* 나와 룸메이트 사이에 아프게 할 수 있는 원인을 명확히 하기 힘들며, 이러한 경우에 undirected model을 사용한다.
* directed model과 달리 undirected model은 화살표가 없으며, 조건부 확률 분포와 관련도 없다.

<img src="./figures/fig3.png" /><br>
* 나의 건강을 나타내는 랜덤 변수를 hy로, 룸메이트의 건강을 나타내는 랜덤 변수를 hr, 동료의 건강을 나타내는 랜덤 변수를 hc로 정의하자.
* undirected graphical model은 undirected graph G 상에서 정의된 구조적 확률 모델이다.
* graph 내에 있는 각각의 clique C를 위해, φ(C)(clique potential)는 clique 내에 있는 변수의 연관성을 측정한다.

##### global cooriunate system
* global 좌표 시스템은 최적화 또는 선형시스템을 품으로써 얻을 수가 있다.
* 아래 그림은 어떻게 manifold가 많은 수의 locally 선형 가우시안 패치(또는 팬케이크)를  연결할 수 있는지를 보여준다.
<img src="./figures/fig6.png" />

##### difficulty with local non-parametric approaches
* local non-parametric manifold learning은 근본적인 어려움이 있다.
* manifold가 매끄럽지 않은 경우(peak와 twist가 많은 경우), 이러한 변형을 다루기 위해 많은 수의 training 예제가 필요할 수 있다.
* 사실, 이 방법은 오직 이웃 예제 간의 interpolating에 의해서만 manifold의 모양을 일반화 할 수가 있다.
* 불행하게도 AI 문제를 포함하고 있는 manifold의 경우 local interpolation으로는 포착하기 힘든 아주 복잡한 구조를 가질 수가 있다.