# 2.1. Template Models

이번에는 특정 상황을 위한 graphical model이 아니라 보다 범용적으로 사용할 수 있도록 PGM을 좀더 확장해 볼 것이다.   

### 2.1.1. Overview of Template Models

> Reference: Chapter 6.1.

###### Example: Genetic Inheritance

앞서 아래와 같은 가계도(pedigree)가 있을 때, 각 사람의 특질(trait)을 추론하는 것이 목표였고

<img  src="./_images/221_genetic2.PNG"/>

이 문제를 풀기 위해 아래와 같은 Bayesian network를 만들어볼 수 있었다.

<img  src="./_images/221_genetic3.PNG"/>

그런데 만약 가계도가 조금이라도 바뀐다면 새로운 Bayesian network를 만들어야 할 것이다.    

다만 앞서 만들었던 network의 기본 idea들을 다시 사용할 수 있을 것이다.(sharing between models) 

또한 앞서 만든 Bayesian network내에 몇가지 pattern이 존재하는데 예를들어 특정인의 Genotype은 반드시 두 parent의 Genotype에 영향을 받고, 특정인의 Bloodtype은 반드시 본인의 Genotype의 영향만을 받는데, 즉 이런 구조가 반복되고 있다. 즉 동일한 pattern의 parameter가 반복되고 이들을 하나로 표현할 수 있지 않을까?(sharing within the model).

###### Example: NLP Sequence Models

아래 graphical model은 NLP에서 사용되는 것인데, 동일 구조와 (파란색의) parameter를 공유하는 형태라서 각 (파란색) parameter들이 서로 독립이라 가정하면 어떠한 길이의 문장도 하나의 모형으로 표현할 수 있는 장점을 갖는다. (named entity recognition)

<img  src="./_images/221_nlp.PNG"/>

###### Example: Image Segmentation

아래 그림은 image segmentation 예제로서    
수많은 인접 superpixel같의 반복적인 관계를 하나의 모형으로 표현해볼 수 있다.(within sharing) 또한 다른 이미지에 대해 다른 모형을 사용하는 것이 아니라 하나의 모형을 사용할 수도 있을 것이다.(between sharing)

<img  src="./_images/221_cow.PNG"/>

###### Example: University 

*지난주에 등장 했던 university model에서 아래와 같이 Difficulty, Grade, Intelligence간의 관계만 생각해보자.

이는 한 학생이 하나의 과목을 수강하는 문제를 표현하는데, 대학교 전체의 학생들과 과목들간의 관계를 아래 두번째 network와 같이 표현해 볼 수 있다. 즉 $n$개의 과목이 있고, $m$명의 학생이 있고, 이 두 종류의 변수의 영향으로 $n \times m$개의 학점이 존재할 것이다. 여기에서도 $D \to G$, $I \to G$의 관계가 반복되므로 이들의 parameter를 공유하는 하나의 모형(아래 첫번째)을 사용할 수 있을 것이다.

<img  src="./_images/221_univ.PNG"/>

###### Example: Robot Localization

아래 예는 복잡한 지형에서 로봇의 위치를 표현하는 지도인데,   
각 시점마다 로봇의 위치는 편하게될텐데,  시간이 지나더라도 로봇이 움직이는 원칙(dynamics)은 변하지 않기를 윈한다면 이 또한 하나의 모형으로 모델링 할 수 있다. 

<img  src="./_images/221_robot.PNG"/>

로봇의 움직임을 아래와 같이 모델링해볼 수 있는데,   
$t$시점 로봇의 위치 $X_t$는 이전 시점 로봇의 위치 $X_{t-1}$와 control signal $u_{t-1}$에 영향을 받고,     
센서로 측정된 로봇의 위치 $Z_t$는 $t$시점 로봇의 위치 $X_t$와 지도에 영향을 받는다.

<img  src="./_images/221_robot_loc.PNG"/>

###### Template Variables

확률변수 $X_i$의 index $U_j$에서 instance를 $X_i^{(U_j)}$라할 때, $X_i$를 $X_i^{(U_j)}$의 template variable이라 한다. 예를들어 $U_j$가 시간이라면 확률변수 $X_i$의 $t_j$시점 instance를 $X_i^{(t_j)}$라할 때, $X_i$가 $X_i^{(t_j)}$의 template variable이다.

- $X_i^{(t_j)}$: t시점의 Location이나 Sonar
- $X_i^{(person_j)}$: $person_j$의 Genotype, Phenotype
- $X_i^{(pixel_j)}$: $pixel_j$의 Label
- ...

###### Template Models

Languages that specify how (ground) variables inherit dependency model from template.
 - Dynamic Bayesian networks: temporal processes(시간에 따른..)
 - Object-relational models: people, courses, pixels(수많은 개체들에 관한..)
  - Directed
    - Plate models
  - Undireted

### 2.1.2. Temporal Models - DBMs

> Reference: Chapter 6.2, 6.3.

동일한 패턴의 반복으로 표현할 수 있는 많은 모델들이 있다. 이런 패턴을 Template model을 이용해 표현할 수 있고, 이번 section에서는 다양한 형태의 반복 중 시간에 따라 변화하는 모델에 대해 알아보자.

###### Distribution over Trajectories

시간에 따라 변화하는 대상을 표현하고 싶은데, 연속적인 시간을 그대로 표현하기 보다는 시간을 어떤 간격으로 나눠(discretize) 각 시점의 상태를 생각해보기로 하자.

시간을 time-slice로 나눌 때 그 간격을 $\Delta$라 하고     
$t$번째 $\Delta$, 즉 시점 $t \cdot \Delta$에서 변수 $X$의 상태를 변수 $X^{t}$라 하자.   
또한 $t$번째 시점부터 $t^{'}$번째 시점까지 변수 $X$의 상태 변수 집합을 $X^{(t:t^{'})}$라 하자.

이때 $X^{(t:t^{'})}$의 결합 확률 분포를 $P(X^{(t:t^{'})})$라 한다.

그런데 알고자 하는 시점이 무수히 많다면 $P(X^{(t:t^{'})})$를 사용하고 표현하는 것이 점점 어려워진다. 따라서 $P(X^{(t:t^{'})})$를 보다 축약하여 효과적으로 사용하기 위해 몇가지 가정(Markov assumption, Time Invariance)을 도입하게 된다.

###### Markov Assumption: [1]

첫번째 가정으로 Markov assumtion을 도입하는데 이는 조건부 독립에 관한 가정으로서 그 정의는 아래와 같다.

> **Definition 6.1.** Markov assumtion, p201         
> We say that a dynamic system over the template variables $\mathcal{X}$ satisfies the Markov assumption $if$, $for ~ all ~ t \geq 0$,
$$( \mathcal{X}^{(t+1)} \perp \mathcal{X}^{(0:(t-1))} ~|~ \mathcal{X}^{(t)})$$

$t$시점의 정보 $\mathcal{X}^{(t)}$ 가 주어지면 그 이전 시점의 정보들 $\mathcal{X}^{(0:(t-1))}$은 그 다음 시점의 정보 $\mathcal{X}^{(t+1)}$와 독립이라는 것이다. 즉  $\mathcal{X}^{(t)}$이 주어지면 $\mathcal{X}^{(t+1)}$를 알기 위해서 $\mathcal{X}^{(0:(t-1))}$는 필요 없게 된다는 것이다. 

(Markov assumtion과 무관하게) Probability chain rule에 의해 $P(\mathcal{X}^{(0:T)})$를 아래와 같이 표현할 수 있다.

$$P(\mathcal{X}^{(0:T)}) = P(\mathcal{X}^{(0)}) ~ \prod_{t=0}^{T-1} P(\mathcal{X}^{(t+1)} ~|~ \mathcal{X}^{(0:t)})$$

그런데 Markov assumtion이 성립할 경우 $P(\mathcal{X}^{(0:T)})$를 아래와 같이 축약할 수 있다.

$$P(\mathcal{X}^{(0:T)}) = P(\mathcal{X}^{(0)}) ~ \prod_{t=0}^{T-1} P(\mathcal{X}^{(t+1)} ~|~ \mathcal{X}^{(t)})$$

예를들어 $t=0, 1, 3$만 있는 경우를 생각해보면    
$P(\mathcal{X}^{(0:2)})$를 probability chain rule에 의해 아래와 같이 표현할 수 있는데    

$$\begin{align}
P(\mathcal{X}^{(0:3)}) &= P(\mathcal{X}^{(0)}, \mathcal{X}^{(1)}, \mathcal{X}^{(2)}, \mathcal{X}^{(3)}) \\
&= P(\mathcal{X}^{(0)}) ~ P(\mathcal{X}^{(1)} ~|~ \mathcal{X}^{(0)}) ~ P(\mathcal{X}^{(2)} ~|~ \mathcal{X}^{(1)}, \mathcal{X}^{(0)}) ~ P(\mathcal{X}^{(3)} ~|~ \mathcal{X}^{(2)}, \mathcal{X}^{(1)}, \mathcal{X}^{(0)})
\end{align}$$

만약 이 시스템에 markov assumtion이 성립한다면 $P(\mathcal{X}^{(0:3)})$는 아래와 같이 $P(\mathcal{X}^{(0)}) ~ \prod_{t=0}^{2} P(\mathcal{X}^{(t+1)} ~|~ \mathcal{X}^{(t)})$로 축약된다.
$$\begin{align}
P(\mathcal{X}^{(0:3)}) &= P(\mathcal{X}^{(0)}) ~ P(\mathcal{X}^{(1)} ~|~ \mathcal{X}^{(0)}) ~ P(\mathcal{X}^{(2)} ~|~ \mathcal{X}^{(1)}) ~ P(\mathcal{X}^{(3)} ~|~ \mathcal{X}^{(2)}) \\
\because ~ &P(\mathcal{X}^{(2)} ~|~ \mathcal{X}^{(1)}, \mathcal{X}^{(0)}) =  P(\mathcal{X}^{(2)} ~|~ \mathcal{X}^{(1)}) \\
&P(\mathcal{X}^{(3)} ~|~ \mathcal{X}^{(2)}, \mathcal{X}^{(1)}, \mathcal{X}^{(0)})) = P(\mathcal{X}^{(3)} ~|~ \mathcal{X}^{(2)})
\end{align}
$$

**!** 그런데 이런 가정이 쉽게 성립하는 것일까? 예를들어 $X^t$를 $t$시점 로봇의 위치라면, $X^{(0:t-1)}$이 주어졌다고해서 $X^{(t+1)}$이 $X^{(0:t-1)}$와 독립일까? (Markov assumtion이 쉽게 성립할 수 있는 것일까?) 위치만을 생각한다면 독립 가정이 성립할리 없다. 최소한 $X^t$뿐만 아니라 $0:t-1$시점의 위치들이 결정하는 로봇의 속도와 가속도가 $X^{(t+1)}$에 영향을 줄것이기 때문이다. 그렇다면 Markov assumtion을 사용할 수 없는것인가?      
대신 Markov assumtion이 (근사하게라도) 성립하게 하기 위해 모형을 변형하는 접근을 취할 수 있다. 예를들어 로봇의 위치 뿐만 아니라 로봇의 속도라는 변수 $V^{(t)}$를 모형에 추가할 수 있다. 또는 semi-Markov 모형을 사용할수도 있는데 당장 다루지는 않을 것이다.


.

###### Time Invariance: [2]

두번째 가정으로 Time Invariance를 도입하게 된다.     
이는 모형의 확률분포가 시간이 지나도 변하지 않는다는 가정으로 그 정의는 아래와 같다.

> Definition 6.2 **stationary dynamical system**, p202         
> We say that a Markovian dynamic system is stationary (also called time invariant or homogeneous) if $P(\mathcal{X}^{(t+1)} ~|~ \mathcal{X}^{(t)}$ is the same for all $t$. In this case, we can represent the process using a transition model $P(\mathcal{X}^{'} ~|~ \mathcal{X})$, so that, for any $t \geq 0$.

> **transitional model**    
> $$P(\mathcal{X}^{(t+1)} = \xi^{'} ~|~ \mathcal{X}^{(t)} = \xi) = P(\mathcal{X}^{'} = \xi^{'} ~|~ \mathcal{X} = \xi)$$

**!** 그런데 이런 가정이 쉽게 성립하는 것일까? 예를들어 $X^t$를 $t$시점 차량의 교통량이라면, 시간이 지나도 교통량의 확률 분포가 변함이 없을까? 전혀 그렇지 않다. 요일이나 근처에 무슨 행사가 있는 날이면 교통량의 분포가 당연히 달라질수밖에 없다. 앞서와 마찬가지로 가정이 성립하게 하기 위해 시간에 따라 달라지는 요인들을 모형에 포함시키는 접근을 취하게 된다.

###### Template Transition Model

시간에 따른 차의 위치와 이에 영향을 주는 여러 요인들간의 관계를 아래와 같은 graphical model로 표현할 수 있다. 즉 그 시점의 날씨와 차의 속도, 위치, 위치에 대한 측정치, 측정의 실패 여부 등의 변수를 생각해볼 수 있다. 또한 $t$시점 변수들의 확률 분포를 아래와 같이 나타낼 수 있다.

$$P(W^{'}, V^{'}, L^{'}, F^{'}, O^{'} ~|~ W, V, L, F)$$

그런데 요인들간의 관계를 (아래 Bayesian network와 같이) 이미 알고 있기 때문에     
BN chain rule을 이용해 $P(W^{'}, V^{'}, L^{'}, F^{'}, O^{'} ~|~ W, V, L, F)$를 아래와 같이 표현할 수 있다.

$$\begin{align}
&P(W^{'}, V^{'}, L^{'}, F^{'}, O^{'} ~|~ W, V, L, F) \\
&= P(W^{'} ~|~ W) ~ P(V^{'} ~|~ W, V) ~ P(L^{'} ~|~ L, V) ~ P(F^{'} ~|~ F, W) ~ P(O^{'} ~|~ L^{'}, F^{'})
\end{align}$$

<img  src="./_images/222_traffc1.PNG"/>

여기에서 한가지 유심히 살펴볼 부분은 $P(F^{'} ~|~ F, W)$은 $t$시점의 변수와 $t+1$시점의 변수간의 작용을 표현하고 있고, $ P(O^{'} ~|~ L^{'}, F^{'})$의 경우 $t+1$시점 내에서 변수들간의 작용을 표현하고 있다. 그럼 어떤 변수들은 시점간의 관계로 표현하고(inter-time-slice edge) 다른 어떤 변수들의 관계는 한 시점 내의 관계(intra-time-slice edge)로 표현하는 것일까? 일반적으로 요인들간의 관계가 시점으로 나눌 수 없을 만큼 빠르게 일어나는 경우 intra-time-slice edge로 표현한다.
- inter-time-slice edge: $W^{'} \to W$, $W^{'} \to V$, ... 
- intra-time-slice edge: $(F^{'}, L^{'}) \to O^{'}$

inter-time-slice들 중 동일 변수에 대하여 $t$시점의 상태가 $t+1$시점에 영향을 주는 관계를 persistence edge라 한다. 
- persistence edge: $W^{'} \to W$, $V^{'} \to V$, $L^{'} \to L$, $F^{'} \to F$

그런데 $P(W^{'}, V^{'}, L^{'}, F^{'}, O^{'} ~|~ W, V, L, F)$에서 왜 $O$는 condition으로 주지 않았을까? 즉 이전 시점($t$)의 모든 변수가 condition으로 주어지지 않고 있는데, 이는 우리가 $t+1$시점의 상태만을 표현하려 하기 때문에 직접적인 영향을 주는 변수들만 condition으로 포함시키기 때문이다. 즉 $O$는 $t+1$시점의 변수에 직접 영향을 주지 않고 있기 때문이다. 이처럼 다음 시점에 직접 영향을 주는 변수들을 **interface variable** $\mathcal{X}_I$이라 하며 전체 변수의 subset이다.($\mathcal{X}_I \subseteq \mathcal{X}$)

###### Initial State Distribution

어떤 시스템의 전체 상태를 표현하기 위해서는 초기값(initial state)이 주어져야 한다. 앞서 traffic system의 initial state $P(W^{(0)}, V^{(0)}, L^{(0)}, F^{(0)}, O^{(0)})$을 아래와 같이 생각해볼 수 있다.

<img  src="./_images/222_init.PNG"/>

###### Ground Bayesian Network

Initial state이 주어지면 아래와 같이 그 다음의 무한한 trajectory(시간에 따른 $X^{(t)}$의 값들)를 표현할 수 있게 된다.

<img  src="./_images/222_ground.PNG"/>

###### 2-time-slice Bayesian Network, p202

이와 같은 $Time~slice~1$시점의 변수와 $Time~slice~2$시점의 변수들간의 conditional Bayesian Network를 **2-time-slice Bayesian network**(2-TBN)이라 한다.

> Definition 6.3, **2-TBN**, p202   
> A 2-time-slice Bayesian network (2-TBN) for a process over $\mathcal{X}$ is a conditional Bayesian network over $\mathcal{X}^{'}$ given $\mathcal{X}_I$, where $\mathcal{X}_I \subseteq \mathcal{X}$ is a set of interface variables.

> 2-TBN represents the conditional distribution:
$$P(\mathcal{X}^{'} ~|~ \mathcal{X}) = P(\mathcal{X}^{'} ~|~ \mathcal{X}_I) = \prod_{i=1}^n P(X_i^{'} ~|~ \mathbf{Pa}_{X_i^{'}})$$

위 정의에서 interface variable $\mathcal{X}_I$는 $t$시점의 값이 $t+1$시점의 값에 직접 영향을 주는 variable이며, $\mathcal{X}^{'}$는 현재 시점의 변수들을, $\mathrm{Pa}_{X_i^{'}}$는 $X_i^{'}$에 직접 영향을 주는 변수들을 말한다.

###### Dynamic Bayesian Network

System dynamics를 표현하는 2-TBN과   
initial state에 관한 Bayesian network $BN^{(0)}$을 묶어   
Dynamic Bayesian Network라 한다.

> Definition 6.4, **dynamic Bayesian network**, p204    
A dynamic Bayesian network(DBN) is a pair $\langle \mathcal{B}_0, \mathcal{B}_{\to} \rangle$, where $\mathcal{B}_0$ is a Bayesian network over $\mathcal{X}^{(0)}$, representing the initial distribution over states, and $\mathcal{B}_{\to}$ is a 2-TBN for the process. For any desired time span $T \geq 0$, the distribution over $\mathcal{X}^{(0:T)}$ is defined as a unrolled Bayesian network, where, for any $i = 1, \cdots , n$:
- the structure and CPDs of $X_i^{(0)}$ are the same as those for $X_i$ in $\mathcal{B}_0$,
- the structure and CPDs of $X_i^{(t)}$ for $t > 0$ are the same as those for $X_i^{'}$ in $\mathcal{B}_{\to}$.

###### Ground Network

DBN에서 $\mathcal{B}_0$을 한벌, 그리고 각 시점에 대해 
$\mathcal{B}_{\to}$를 반복적으로 복사하여 시점별로 늘어뜨린 Bayesian network를 Ground Network혹은 unrolled network라 한다.

### 2.1.3. Temporal Models - HMMs

> Reference: Chapter 6.2, 6.3.

Hidden Markov Model에 대해 알아볼텐데, HMM은 dynamic Bayesian model에 속한다고도 할 수 있지만, 그 유용성 때문에 이후 설명할 형태의 DBM을 HMM으로 따로 구분하여 사용한다.

HMM의 간단한 형태는 아래와 같은데,     
single state variable $S$와       
이것의 다음(transition) 상태 $S^{'}$,        
그리고 $S^{'}$에 대한 single observation variable $O^{'}$로 구성된다.



<img  src="./_images/223_hmm00.PNG"/>

이 baby network를 아래와 같이 unroll할 수 있다.

<img  src="./_images/223_hmm11.PNG"/>

이전 시점의 상태 변수 $S$가 현재 시점의 상태 변수 $S^{'}$로 전이(transition)하는데, 이 전이 과정은 (예를들어) 아래와 같을 수 있다.

즉 $S$는 $S_1$, $S_2$, $S_3$, $S_4$의 4가지 상태값을 갖는데, 각 상태는 아래와 같은 확률로 바뀔 수 있다. 예를들어 $S_1$은 0.3의 확률로 그대로 머무르거나 0.7의 확률로 $S_2$로 바뀌게 된다.(확률 모형이므로 각 경우의 확률을 더해 1이다.) 

<img  src="./_images/223_hmm12.PNG"/>

또한 아래와 같은 trasition은 transition matrix로 표현할 수 있다.

<img  src="./_images/223_tr_matrix1.PNG"/>

###### Numerous Applications

HMM을 활용한 예는 아래와 같은 것들이 있다.  
- Robot localization
- Speech recognition
- Biological sequence analysis
- Text annotation


###### Robot Localization

HMM을 이용해 로봇의 위치를 컨트롤하는 모형을 아래와 같이 만들어 볼 수 있다.    
로봇의 위치를 $S^{(t)}$, control signal을 $u^{(t)}$, (location에 대한) sensor observation을 $o^{(t)}$, 지도 정보를 $map$이라 하면

<img  src="./_images/223_robot_localiz.PNG"/>

###### Speech Recognition

<img  src="./_images/223_speech_recog.PNG"/>

###### Segmentation of Aucoustic Signal

<img  src="./_images/223_seg_aug.PNG"/>

###### Phonetic Alphabet

<img  src="./_images/223_pronon.PNG"/>

###### Word HMM

<img  src="./_images/223_word_hmm.PNG"/>

###### Phone HMM

<img  src="./_images/223_pron_hmm.PNG"/>

###### Recognition HMM

<img  src="./_images/223_recog_hmm.PNG"/>

### 2.1.4. Plate Models

> Reference: Chapter 6.4.1.

###### Modeling Repetition

예를들어 한 동전을 여러번 던진다고 해 보자. 동전 던지기의 결과를 'Outcome'이라 하면, 동전을 $k$번 던졌을 때 $k$개의 'Outcome' 변수가 존재할 것이다. 이렇게 반복되는 개체를 표현하기 위한 방법으로 Plate Model을 사용한다.  

그 표현 방법은 아래 그림과 같이 반복되는 개체에 사각형을 씌우는 방식으로 아래 예는 Outcome이 반복된다는 되고 그것들을 $t$로 indexing하겠다는 것이다.

그런데 우리가 던지는 하나의 동전의 bias를 결정하는 하나의 변수 $\theta$를 생각할 수 있고, 이것은 반복되는 요소가 아니므로 box 밖에 위치시키며 index $t$가 붙어 있지 않다.

box를 unroll하여 오른쪽과 같이 표현할수도 있을 것이다.

<img  src="./_images/224_modeling_repetition.PNG"/>

University example에서 이런 반복을 살펴보면,     
한 학생에 대한 Intelligence와 Grade의 관계가 있고      
여러 학생에 대하여 이런 관계는 반복된다고 할 수 있다. 

또한 Intelligence에 영향을 주는 어떤 외부 요인을 생각해볼 수 있는데, 대부분의 경우 outside all plate은 생략하고 표현한다.

<img  src="./_images/224_modeling_repetition2.PNG"/>

###### Nested Plates

반복이 반복되는 경우도 있을 것이다. University example에서 

한 과목에 대한 여러 학생의 Intelligence가 각 학생의 Grade를 결정하는 관계가 있고     
여러 과목에 대하여 이런 반복이 반복되는 구조를 생각해볼 수 있다.

또한 아래 두번째 그림과 같이 unroll하여 표현해볼 수 있다.

그런데 $I(s_1, c_1)$과 $I(s_1, c_2)$가 별도로 존재하고 각각 $G(s_1, c_1)$와 $G(s_1, c_2)$에 영향을 주는데, $I(s_1, c_1)$과 $I(s_1, c_2)$가 다르다고 하는 것이 옳은가? 결국 한 학생의 Intelligence이므로 아래 모형에 뭔가 문제가 있음을 알 수 있다. 이런 문제는 Overlapping plates를 사용해 해결할 수 있다.

<img  src="./_images/224_nested_plates.PNG"/>

###### Overlapping Plates

앞서의 모형을 수정하여 아래와 같이 Course Plate과 Student Plate으로 나누고 서로 중첩하여 각 student의 Intelligence를 Grade와 분리해낼 수 있다.

<img  src="./_images/224_overlapping_plates.PNG"/>

###### Explicit Parameter Sharing

아래와 같은 parameter($\theta_D$, $\theta_G$, $\theta_I$) sharing도 가능하다.

<img  src="./_images/224_explicit_param.PNG"/>

###### Collective Inference

<img  src="./_images/224_collective_inference.PNG"/>

###### Plate Dependency Model

> Definition 6.9, **Plate model**, p221
> A plate model $\mathcal{M}_{Plate}$ defines, for each template attribute $A \in \aleph$ with argument signature $U_1, \cdots, U_k$:
- a set of template parents
$$Pa_A = \{ B_1(\mathbf{U}_1), \cdots ,B_l(\mathbf{U}_l) \}$$
such that for each $B_i(\mathbf{U}_i)$, we have that $\mathbf{U}_i \subseteq \{  U_1, \cdots , U_k \}$. The variables $\mathbf{U}_i$ are the argument signature of the parent $B_i$.
- a template CPD $P(A ~|~ Pa_A )$.

plate model은 아래와 같이 정의되는데, 주의할점은 $B_i(U_i)$의 argument signature $U_i$가 $A$의 argument signature $U_1, \cdots, U_k$의 subset이라는 것이다.   
예를들어 $G(s, c) \to H(s)$와 같은 관계는 plate model의 정의에서 어긋나는 것이며 이는 Bayesian network가 아니다.

<img  src="./_images/224_template_model.PNG"/>

###### Ground Network

> Definition 6.10, **ground Bayesian network**, p221   
> A plate model $\mathcal{M}_{Plate}$ and object skeleton $\kappa$ define a ground Bayesian network $\mathbf{B}_{\kappa}^{\mathcal{M}_{Plate}}$ as follows.   
> Let $A(U_1, \cdots , U_k)$ be any template attributes in $\aleph$. Then for any assignment $\gamma = \langle U_1 \mapsto u_1, \cdots, U_k \mapsto u_k \rangle \in \Gamma_{\kappa}[A]$, we have a variable $A(\gamma)$ in the ground network, with parents $B(\gamma)$ for all $B \in Pa_A$, and the instantiated CPD $P(A(\gamma) ~|~ Pa_A(\gamma))$

<img  src="./_images/224_ground_network.PNG"/>

---

---

---

---

---

---

---

---

---

---

---

---

# 2.2. Structured CPDs

Text의 Chapter3에서 Bayesian network에 대해서    
그리고 Chapter4에서 Undirected Graphical Model에 대해서 다루고 있고   
이런 것들은 Graph 전체의 구조에 관한 내용이었다.

다음에 다룰 내용은 Text의 Chapter5에 해당하는 내용인데   
여기에서는 Graph를 구성하는 기본 요소인 CPD에 대해서 알아볼 것이다.

- 2.2.1. Overview: Structured CPDs
- 2.2.2. Tree-Structured CPDs
- 2.2.3. Indepencence of Causal Influence
- 2.2.4. Continuous Variables

### 2.2.1. Overview: Structured CPDs

> Reference: Chapter 5.1, 5.2.

###### Tabular Representations

이산형 확률변수로만 구성된 확률공간을 다룰 경우 보통 **tabular representation**을 사용하여 CPD를 표현하게 된다.

University example에서 $P(G ~|~ I, D)$를 아래 좌측과 같이 table로 표현할 수 있고 이런 table을 **conditional probability tables**(CPTs)라 한다. 

그런데 좀더 현실적인 예를 살펴보면, 우측 하단과 같이 Cough의 원인이 될 수 있는 것은 Pneumonia(폐렴), Flu(감기), Tuberculous(결핵), Bronchitis(기관지염) 등 다양할 수 있다. 이렇게 Parent가 많아지는 경우 가령 $k$개의 Parent가 있을 경우 (모든 변수가 binary 라고 가정하면) $2^k$개의 값이 들어가는 table이 필요하게 되는 문제가 있고 변수가 연속형일 경우 표현할 수 없는 단점도 있다.

<img  src="./_images/231_overview.PNG"/>

###### General CPD

앞서 CPD를 표현하기 위해 Tabular Representations과 같이 모든 경우에 대한 조건부 확률을 나열했었다. 하지만 CPD가 꼭 이런 table 형태인것은 아니다. Table이라기보다는 $x, y_1, \cdots, y_k$가 주어졌을 때 그 output값들의 합이 1이라는 조건을 만족하는 어떤 함수라고 보는 것이 더 옳다.

<img  src="./_images/231_general_cpd.PNG"/>

###### Many Models

General CPD의 조건을 만족하는 다양한 형태의 함수가 존재할 수 있는데, 대표적으로 아래와 같은 것들이 있고 하나식 살펴볼 것이다.

Deterministic CPDs는 부모 node 값들로 CPD의 값이 결정되는 함수($f: Val(Pa_X) \mapsto Val(X)$)로서 우리가 다뤘던 일반적인 경우를 의미한다.

나머지 내용은 아래에서 다루게 된다.

<img  src="./_images/231_many_models.PNG"/>

###### Context-Specific Independence

Deterministic CPDs에는 조금 특별한 형태의 Independence가 있는데   
$C$가 특정 값 $c$일때에만 $Z$가 주어졌을 때, $X$와 $Y$가 독립이라면    
$X$와 $Y$는 context-specific independent(CSI)한 관계이다.(Definition 5.1, p162)

<img  src="./_images/231_context_sp_ind.PNG"/>

아래 예에서 어떤 경우에 context-specific independence가 성립할까?     
(Node $X$는 deterministic OR function이다.)

<img  src="./_images/231_question.PNG"/>

.

- $Y_2 = 1$이 주어진 경우 $Y_1$의 값에 따라 $X$또한 바뀌게 된다.
- $X=0$이 주어진 경우 $Y_1 = 0$, $Y_2 = 0$이라는 것이 확정 된다. 따라서 가령 $Y_1 = 0$라는 정보가 주어진다고 해서 $P(Y_2)$가 바뀌지 않는다. ($P(Y_2 ~|~ Y_1, X=0) = P(Y_2, X=0)$)

### 2.2.2. Tree-Structured CPDs

> Reference: Chapter 5.3.

###### Tree CPD

$Pa_X$의 각 경우에 대한 확률 $P(X | pa_x)$를 할당하는 것이 결국 CPD인데,   
이러한 결정을 Tree형태로 표현할 수 있다.   
Tree CPD에서는 $Pa_X$가 갖을 수 있는 각 경우가 tree의 root부터 각 leaf를 따라가는 경로로 표현된다.

아래 예와 같이 학생이 Job을 얻을 확률은     
학생이 Job에 지원을 했느냐($a^1$) 혹은 하지 않았느냐($a^0$)           
Job에 지원을 했을 경우, SAT 성적이 높은지($s^1$) 혹은 낮은지($s^0$)    
SAT 성적이 낮은 경우, Strong letter를 받았는지($l^1$) 혹은 weak letter($l^0$)에 따라 결정된다.

Parent variable이 3개 있으므로 8개의 binary probability distribution이 필요하겠으나, 변수가 특정 값인 경우 다른 요인들이 영향을 주지 않는 상황이 존재하므로, 단지 4개의 probability distribution만 필요하다. 예를들어 $A=a^0$인 경우 $S$나 $L$의 값이 무엇이든 $P(J=j^0)=0$이다.

<img  src="./_images/232_tree_cpd1.PNG"/>

아래와 같은 tree structure CPD가 주어졌을 때 어떤 context-specific indepencence(CSI)가 성립할까?

<img  src="./_images/232_question_tree.PNG"/>

.

두번째를 제외하고 모두 성립한다.   
마지막의 경우 아래 두가지 경우를 판단해야 한다.
$$(J \perp_c L ~|~ s^1, a^1) \\
(J \perp_c L ~|~ s^1, a^0)
$$
$(J \perp_c L ~|~ s^1, a^1)$는 성립한다는 것을 알고 있고   
$(J \perp_c L ~|~ s^1, a^0)$는 $(J \perp_c L, S ~|~ , a^0)$의 한가지 경우 이므로 성립한다.

---

학생이 Job에 지원할 때     
두개의 추천서 중 하나를 선택(Choice)하여 제출한다면,   
이런 관계는 아래와 같은 tree로 표현할 수 있을 것이다.

<img  src="./_images/232_tree_cpd2.PNG"/>

이런 구조에서 $(L_1 \perp L_2 ~|~ J, C)$가 성립하는데   
지난주에 다뤘던 내용에 따르면 $J$가 주어지면 $L_2 \to J \to L_1$의 trail이 activated되고 $L_1$과 $L_2$는 dependent관계가 된다. 그러나 지금과 같이 tree-CPD가 주어진 경우 그 관계는 달라진다.

$(L_1 \perp L_2 ~|~ J, C)$에서 $C$의 각 경우를 살펴보자.
우선 $(L_1 \perp L_2 ~|~ J, c_1)$의 경우 $c_1$이 주어지면 $J$와 $L_2$는 독립이 되므로 $J$와 $L_2$사이의 연결이 사라지고, $L_1$과 $L_2$사이의 연결도 사라진다. 따라서 $(L_1 \perp L_2 ~|~ J, c_1)$이 성립하게 된다.    
$(L_1 \perp L_2 ~|~ J, c_2)$도 마찬가지로 성립함을 알 수 있다.


<img  src="./_images/232_tree_dep.PNG"/>

###### Multiplexer CPD

앞서 다뤘던 $J, C, L_1, L_2$의 CPD를 좀더 일반적으로 확장할 수 있는데,    
$A$에 의해 $Z_1, \cdots , Z_k$ 중 하나가 선택되고 그 값이 $y$에 할당되는 구조를 아래와 같이 표현할 수 있다

> Definition 5.3, **multiplexer CPD**, p165   
> A CPD $P(Y ~|~ A, Z_1, \cdots, Z_k)$ is said to be a multiplexer CPD if $Val(A)=\{ 1, \cdots , k\}$ and 
$$P(Y ~|~ a, Z_1, \cdots , Z_k) = \mathbf{1}\{ Y = Z_a\}$$   
where $a$ is the value of $A$. The variable $A$ is called the selector variable for the CPD.

즉 $A$의 값이 $a$로 결정되면 $Y=Z_a$가 되는 구조이다.

<img  src="./_images/232_multiplexer.PNG"/>

###### Microsoft Troubleshooters

MS Printer software에서 문제를 해결하는 과정은 아래와 같은 tree-CPD에 기반하고 있다.

<img  src="./_images/232_ms_tree.PNG"/>

### 2.2.3. Indepencence of Causal Influence

> Reference: Chapter 5.4.

각 요인들이 독립적으로 결과에 작용하는 CPD를 생각해볼 수 있다. 아래 Cough CPD 또한 그런 경우이고 각 질병이 독립적으로 감기를 할지 하지 않을지에 영향을 주게 된다.

<img  src="./_images/233_intro.PNG"/>

###### Noisy OR CPD

이렇게 다양한 원인이 서로 독립적으로 $Y$에 영향을 주는 모형을 다룰 수 있는 접근방법 중 하나가 **noisy-or CPD**이다.

> Definition 5.8, **noisy-or CPD**, p176   
> Let $Y$ be a binary-valued random variable with $k$ binary-valued parents $X_1, \dots, X_k$. The CPD $P(Y~|~X_1, \dots , X_k)$ is a noisy-or if there are $k+1$ noise parameters $\lambda_0, \lambda_1, \dots, \lambda_k$ such that   
> $$\begin{align} &P(y^0 ~|~ X_1, \dots, X_k) = (1 - \lambda_0) \prod_{i:X_i = x_i^1} (1-\lambda_i) \\
&P(y^1 ~|~ X_1, \dots, X_k) = 1 - \left[ (1 - \lambda_0) \prod_{i:X_i = x_i^1} (1-\lambda_i) \right] \end{align}$$

> We note that, if we interpret $x_i^1$ as 1 and $x_i^0$ as 0, we can rewrite above equation somewhat more compactly as:
$$P(y^0 ~|~ X_1, \dots, X_k) = (1 - \lambda_0) \prod_{i=1}^k (1-\lambda_i)^{x_i}$$

즉 $P(y^0 ~|~ X_1, \dots, X_k)$는 $1-\lambda_0$와 그 상태값이 True인 node의 $1-\lambda_i$의 곱으로 표현된다. ($\lambda_0$는 leak probability로서 아무런 원인이 없을때 $y$가 true일 확률이다.) 

아래 graph와 같이 $X_i$ 다음에 $Z_i$를 도입하여 $P(y^0 ~|~ X_1, \dots, X_k)$를 아래와 같이 표현할수도 있다.
$$P(y^0 ~|~ X_1, \dots, X_k) = \left(1-P(Z_0=1)\right) \prod_{i:X_i=x_i^1} (1 - P(Z_i = 1 ~|~ X_i))$$

<img  src="./_images/233_noisy_or_cpd.PNG"/>

###### Independence of Causal Influence

방금전 살펴본 Noisy-or CPD에서 각 요인들은 서로 독립적으로 $Y$에 영향을 주고 있고, $Y$는 deterministic OR function이다. 이를 보다 확장하여 $Y$에 다른 function을 사용하면  Noisy-AND, Noisy-Max 등 다양한 응용을 할 수 있다.

<img  src="./_images/233_independence_of_causal_inf.PNG"/>

###### Sigmoid CPD

> Definition 5.9, **logistic CPD**, p179   
> Let $Y$ be a binary-valued random variable with $k$ parents $X_1, \dots, X_k$ that take on numerical values. The CPD $P(Y~|~X_1, \dots, X_k)$ is a logistic CPD if there are $k+1$ weights $w_0, w_1, \dots, w_k$ such that:   
$$P(y^1 ~|~ X_1, \dots, X_k) = \mathrm{sigmoid}(w_0 + \sum_{i=1}^k w_i X_i)$$

$Z$에 deterministic sigmoid function을 사용하여        
$y=1$일 조건부 확률을 나타내는 CPD를 모델링 할 수 있다.

<img  src="./_images/233_sigmoid_cpd.PNG"/>

###### Behavior of Sigmoid CPD

모든 $X_i$에 같은 $w_i$을 사용할때,   
[$w_i$]와 [# of $X$'s true]의 값에 따른 $P(y^1)$은 아래와 같다.     
즉 $P(y^1)$는 $w_i$이 커질수록 $X$에 민감하게 반응함을 알 수 있다.

<img  src="./_images/233_behavior_of_sigmoid_cpd.PNG"/>

###### CPCS

각 방법에 따른 parameter수는     
Joint distribution의 경우 $4^{500}$개    
factorized form의 경우 134 million개     
noisy-max CPD를 사용할 경우 8000개   

<img  src="./_images/233_cpcs.PNG"/>

###### .

### 2.2.4. Continuous Variables

> Reference: Chapter 5.5.

###### Continuous Variables

현재의 온도 $T$를 측정하는 센서가 있고, 센서의 오차를 감안하여 센서의 측정치 $S$는 정규분포 $\mathcal{N}(T; \sigma_S^2)$로 모델링 할 수 있다.
$$S \sim \mathcal{N}(T; \sigma_S^2)$$
이런 모형은 Linear Gaussian model이라 한다.

미래의 온도 $T^{'}$는 현재의 온도와 밖의 온도 $O$ 그리고 문을 열었는지 여부 $D$에 의해 결정되며 defusion model을 따른다 가정하자. 만약 문을 열었다면 물을 열기 전과 외부 온도의 영향이 달라질 것이고  (여러 상황에 의해) 측정 오차($\propto \sigma_{1T}^2$)가 달라질 수 있게 된다.

$$T^{'} \sim \mathcal{N}(\alpha_0 T + (1 - \alpha_0) O; \sigma_{0T}^2) ~~ if~D=0 \\
T^{'} \sim \mathcal{N}(\alpha_1 T + (1 - \alpha_1) O; \sigma_{1T}^2) ~~ if~D=1$$
이런 모형을 conditional Gaussian model이라하며 이 경우 $D$가 condition에 해당한다.

<img  src="./_images/234_continuous_variables.PNG"/>

###### Linear Gaussian

$Y$가 연속형인 부모 노드의 가중합을 평균으로 하고, (부모와 무관한) 어떤 분산을 갖는 정규분포를 따르는 모형을 Linear Gaussian 이라 한다.

> Definition 5.14, **linear Gaussian CPD**, p187    
> Let $Y$ be a continuous variable with continuous parents $X_1, \dots , X_k$. We say that $Y$ has a linear Gaussian model if there are parameters $\beta_0, \dots, \beta_k$ and $\sigma^2$ such that 
$$p(Y ~|~ x_1, \dots, x_k) = \mathcal{N}(\beta_0 + beta_1 x_1 + \cdots + \beta_k x_k ; \sigma^2)$$.   
> In vector notation,
$$p(Y ~|~ \mathbf{x}) = \mathcal{N}(\beta_0 + \mathbf{\beta}^T \mathbf{x}; \sigma^2)$$

<img  src="./_images/234_linear_gaussian.PNG"/>

###### Conditional Linear Gaussian

Linear Gaussian에 이산형인 부모 노드(혹은 여럿)가 추가되고, 이들이 weight들을 결정하는 형태의 모델을 Conditional Linear Gaussian이라 한다.

> Definition 5.15, **conditional linear Gaussian CPD**, p190   
> Let $X$ be a continuous variable, and let $\mathbf{U} = \{ U_1, \dots, U_m \}$ be its discrete parents and $\mathbf{Y} = \{ Y_1, \dots, Y_k \}$ be its continuous parents. We say that $X$ has a conditional linear Gaussian (CLG) CPD if, for every value $\mathbf{u} \in Val(\mathbf{U})$, we have a set of $k+1$ coefficients $a_{\mathbf{u},0}, \dots, a_{\mathbf{u},k}$ and a variance $\sigma_\mathbf{u}^2$ such that
$$p(X~|~\mathbf{u}, \mathbf{y}) \sim \mathcal{N}( a_{\mathbf{u}, 0} + \sum_{i=1}^k a_{\mathbf{u},i} ~ y_i ; \sigma_{\mathbf{u}}^2)$$

<img  src="./_images/234_conditional_linear_gaussian.PNG"/>

###### Robot Localization

로봇의 위치는 연속형 변수라 할 수 있고, 사방의 장애물과의 위치를 센서로 측정한다고 해 보자.

<img  src="./_images/234_robot.PNG"/>

아래 그림에서 검은 수직선은 실제 로봇과 장애물과의 거리 이고, 분포의 평균에 위치한다.   
첫번째 그림에서 Sonar로 측정한 이상적인 거리 분포와 Laser로 측정한 이상적인 거리 분포가 함께 그려저 있는데, Laser의 정확도가 더 높기 때문에 분포의 분산이 상대적으로 작음을 확인할 있다.     
두번째 그림은 실제 측정치를 나타내는데 파란색은 Sonar로 측정한 거리의 분포이다. 그런데 모른쪽 500cm이상에 큰 값들(max range)이 존재하는데 이는 측정 방향에 장애물이 없을 경우 발생하는 수치이다. 반대로 170cm 이전에 낮지만 probability mass가 존재하는 영역이 있는데, 이는 실제 장애물 앞에 사람등 갑작스런 장애물이 나타났을 때 측정될 수 있는 값들이다. 따라서 장애물 거리에 대한 근사 모형은 0~170cm까지의 uniform distribution, Sensor model, Max range reading의 분포를 더한 분포가 된다.

<img  src="./_images/234_non_linear_gaussian.PNG"/>

###### Robot Motion Models

로봇이 오른쪽으로 정해진 거리만큼 이동한다고 할때, 실제 로봇이 향하고 있는 방향은 $\alpha$만큼의 오차를 갖을 수 있고, 그 이동한 거리 또한 어느정도의 오차를 갖는다. 따라서 이동 후 로봇의 위치는 아래 그림과 같이 바나나모양과 같은 분포를 갖게 된다. 또한 그 이동 거리가 멀어질 수록 그리고 회전을 지시한 이후 그 위치의 흩어짐은 심해지게 된다.

<img  src="./_images/234_robot_motion_model.PNG"/>

.