# Bayesian Networkとは何か？ ①
>Prof.‪Il-Chul Moon. [人工知能及び機械学習概論Ⅱ](https://www.edwith.org/machinelearning2__17). *KOOC (KAIST Open Online Course)* まとめ, via Edwith

- toc: true
- badges: false
- comments: true
- author: Jay Sung
- categories: [Bayesian_Network]
- image: images/bayesian_network.png

- - -

## ベイジアンネットワーク（BN; Bayesian Network）とは?

- - -

- 確率変数（RV;Random variables）間の条件付き独立などの関係を見せることにより、RVのfull joint distributionなどを簡潔に表現できる**グラフ表記法（Graphical Notation）**である。

<br>

### 用語の説明
- ここで **グラフ（Graph）** とは、数学においてチャート（Chart）と対照されて定義された `node`と`edge`の集合

- `edge`の方向が指定されていれば`directed`、そうでなければ`undirected`

- グラフの全ての`edge`が`directed`の時、`directed graph`

- `directed edge`において、始まる側のノードを`parent node`とし、反対側は`child node`と言う。

- つながっている複数の`directed edge`の方向が同じ場合、これを`directed path`とし、`directed path`の最初のノードは経路上のすべてのノードの`ancestor node`であり、逆に残りのノードは最初のノードの`descendant node`である。

- `directed path`の開始点と終了点が一致する場合はこれを`cyclic`、そうでない場合は`acyclic`と呼ぶ。


<br>

### ベージュアンネットワーク（BN） の条件

-  `Network`は`Node`と彼らを繋ぐ`Edge`で構成されている。

- `方向性の非循環グラフ（DAG; Directed Acyclic Graph）`である。

- 個別の`Node`はRVである$X$に対して$\bf P(X | Paranets(X))$を意味する。

- 個別の`Edge`とは親が子供に与える**直接的な影響（Direct Influence）** を意味する。

<br>


- - -

## まず確率に関する簡単な復習から
- - -

- **ベージュアンネットワーク**というものは結局**確率変数（RV）間の関係**を表現したものである。
- **確率**というのは**相対的な頻度**である。

<br>

>独立性 （Independence）

- $P(A|B) = P(A)$  
$\Leftrightarrow P(A,B) = P(A)P(B)$  
$\Leftrightarrow P(B|A) = P(B) $; A とB が独立ならば、B はA と独立である。

    - 事象Bが発生したという情報は、事象Aが発生する確率に追加的な情報を提供しない。

    - これは、下述のConditional Independence と対立する意味で Marginal Independence と言える。

<br>

> 条件付き独立（Conditional Independence）

- $P(A|B,C) = P(A|C)$

    - 事象Cが与えられたときに二つの事象AとBが独立なら、これはCという条件の下で*条件付き独立* である。

<br>

> 条件付き確率（Conditional Probability）

- $P(A= true|B=true)$

    - "Probablity of A given B"

    - Bが与えられた時、Aの確率
<br>




> 結合確率（joint Probability）

- $P(A= true, B=true)$

    - "the probability of A=true **and** B=true"

    - A=trueとB=trueが同時に満足できる確率

    - **条件付き確率と結合確率の関係**は一般に、$P(X|Y) =\cfrac{P(X,Y)}{P(Y)}$
<br>

> 総確率法則（Law of Total Probability）

- "Summing out" or "Marginalization"

- $P(A) = \sum_kP(A,B_k) = \sum_kP(A|B_k)P(B_k)$

    - $P(A) = \sum_kP(A,B_k)$は$B_1,B_2,...,B_n$がそれぞれ相互背反的な集合であり、これらの和集合が全体集合となるので成立（marginalize）

    - $\sum_kP(A,B_k) = \sum_kP(A|B_k)P(B_k)$は条件付き確率と結合確率の関係を利用すると誘導可能
<br>
- これによる利点は、$P(A)$を直接求めるより、$P(A|B_k)$のような条件付き確率を求めて合わせることが一般的により容易であることである。

- あるいは結合確率を知っている時、様々な確率が計算できる。

    - 例えば、結合確率である$P(a,b,c,d)$を知っているとき、$P(c|b)$は以下のように表せる。

    - $P(c|b) = \sum_a \sum_d P(a,c,d|b) = \cfrac{1}{P(b)}\sum_a \sum_d {\bf P(a,b,c,d)}$

    - しかし、jointの場合にはparameterの数がexponentialに増えることになる！ （Chain Ruleの必要性）

<br>

> 確率の連鎖法則（Chain Rule for probability）

- 全てのjoint distribution について、結合確率と条件付き確率の関係により常に以下のように表せる。

- $P(a,b,c,...,z) = P(a|b,c,...,z)P(b,c,....,z)$

- これを繰り返すと、$P(a,b,c,...,z) = P(a|b,c,...,z)P(b|c,...,z)P(c|d,...,z)...P(z)$で表現可能（Factorization）

<br>

>乗分解法則（Rule of product decomposition）

- Bayesian Networkでは、グラフに属するRVの結合分布（joint distribution）は、`family`のすべての条件付き分布$P(Child|Parent)$の乗$^{[*1]}$で表現できる。  
  *（次のポストのFactorization of Bayes Networkの内容を参照されたい）*

- $P(x_1,x_2,...,x_n) = \prod _iP(x_i|Parents(x_i))$  
  *（Parentsは直接的に接続されて影響を受ける変数だけを意味）*

    - 例えば、$X\rightarrow Y\rightarrow Z$ のグラフで$P(X=x,Y=y,Z=z)$を求めることを考えてみよう

    - 本来は可能なすべての組み合わせの$(x, y, z)$に該当する確率テーブルを作らなければならない

    - しかし、この法則を利用すると$P(X=x,Y=y,Z=z) = P(X=x)P(Y=y|X=x)P(Z=z|Y=y)$で簡潔に表現可能

    - このように高次元を低次元にすることで*次元の呪い（curse of dimensionality）*からも比較的自由になることができる。
    

<br>

<span style="font-size: 85%"> $^{[*1]}:$ このように表現可能な理由は、後述するベイジアンネットワークのTypical Local Structures Rules に関連している。</span> 

- - -

## ベイジアンネットワークのRules of Typical Local Structures

- - -

<br>

> Rule 1. 鎖または滝型（Chain or Cascading）

![]({{ site.baseurl }}/images/chain.png)

- 変数$X$と変数$Y$の間で一つの方向性経路だけがあって変数$Z$が当該経路を塞いでいるとき、**$Z$が条件付きで与えられると、二つの変数$X$と$Y$は条件付き独立** である。

- $X \perp Y|Z$
    $\Leftrightarrow P(Y|X,Z) = P(Y|Z)$


<br>

> Rule 2. 分岐あるいは共通の親型（Fork or Common parent）

![]({{ site.baseurl }}/images/fork.png)

- 変数$Z$が$X$と$Y$の共通原因で、$X$と$Y$の間にたった一つの経路があるとき、**$Z$の条件が与えられると、$X$と$Y$は条件付き独立** である。

- $X \perp Y|Z$
    $\Leftrightarrow P(X,Y|Z) = P(X|Z)P(Y|Z)$

<br>

> Rule 3.衝突部あるいはV-構造(Collider or V-structure)

![]({{ site.baseurl }}/images/colider.png)

- 変数$Z$が二つの変数$X$と$Y$の間の衝突ノードで、$X$と$Y$の間で*たった一つの経路*だけあるとき、**$X$と$Y$は非条件付き独立（underconditionally independent）** である。しかし、**$Z$または$Z$の`descendant`を条件付きにした場合、$X$と$Y$は従属となる可能性** がある。

- $\sim (X \perp Y|Z)$
    $\Leftrightarrow P(X,Y,Z)=P(X)P(Y)P(Z|X,Y)$

- つまり$Z$が not given の時は独立だが、逆に$Z$がgivenで与えられれば$X$、$Y$が従属となる可能性が生じてしまう。


<br>

- - -

## Bayes Ball Algorithm
- - -

- 目的：$X \perp Y | Z$（$Z$がgivenの場合、$X$と$Y$が独立）が成立するかどうかを判定するためのアルゴリズム

- $X$からボールが出発すると仮定した時、 $Y$までボールが到達するかを確認する方法

- ここでボールは`Information`を意味し、矢印はボールの動きを意味する。ノード間が直接的なedgeで結ばれていなくても、ボールが転がって到達できるなら`Indirect influence`が存在するため、2つの変数は`depedent`であることを意味する。

<br>

> Rule 1の場合

(1) $Z$がgivenでない時、ボールは通ることができる。 ($X, Y$は従属)
<img src="\images\1-1.png" width="298px"></img>

(2) $Z$が **given** の時、ボールは通れない。 ($X \perp Y|Z$)
<img src="\images\1-2.png" width="300px"></img>

<br>

> Rule 2の場合

(1) $Z$がgivenでない時、ボールは通ることができる。 ($X, Y$は従属)
<img src="\images\3-1.png" width="300px"></img>

(2) $Z$が **given** の時、ボールは通れない。 ($X \perp Y|Z$)

<img src="\images\3-2.png" width="300px"></img>

<br>

> Rule 3の場合

(1) $Z$が **givenでない時、ボールは通れない。** ($\bf X \perp Y$)
<img src="\images\2-1.png" width="300px"></img>

(2) $X_C$が**given**であるとき、逆にpathができてボールが通ることができるようになる。 ($X, Y$は**従属** $|Z$)

<img src="\images\2-2.png" width="300px"></img>


<br>

### Bayes Ball Algorithmの例題

<img src="/images/exercise.png" width="350px"></img>

<br>

- **問題 1.** $X_1\perp X_4|X_2$

 二つの経路でボールを転がすことができる。

 (1) $X_1 \rightarrow{\bf X_2} (given) \rightarrow X_4$の経路は$X_2$が鎖のgivenで塞がれているので通ることができない。

 (2) $X_1 \rightarrow X_3 \rightarrow X_5 \rightarrow X_6 \leftarrow{\bf X_2}(given) \rightarrow X_4$の経路は$X_6$が衝突部のnot givenで塞がれているので通ることができない。

 従って、いかなる経路でもボールは通れないので**$X_2$がgivenのとき$X_1$と$X_4$は独立** である。

<br>


- **問題 2.** $X_2\perp X_5|X_1$


 二つの経路でボールを転がすことができる。

 (1) $X_2 \rightarrow X_6 \leftarrow X_5$ の経路は$X_6$が衝突部のnot givenで塞がれているので通れない。

 (2) $X_2 \leftarrow{\bf X_1}(given) \rightarrow X_3 \rightarrow X_5$の経路は$X_1$が分岐のdivenで塞がれているので通れない。

 従って、どんな経路でもボールは通れないので**$X_1$がgivenのとき$X_2$と$X_5$は独立** である。

<br>

- **問題 3.** $X_1\perp X_6|\{X_2, X_3\} $


 二つの経路でボールを転がすことができる。

 (1) $X_1 \rightarrow{\bf X_2}(given) \rightarrow X_6$の経路は$X_2$が鎖のgivenで塞がれているので通ることができない。

 (2) $X_1 \rightarrow{\bf X_3}(given) \rightarrow X_5 \rightarrow X_6$の経路は$X_3$が鎖のgivenで塞がれているので通れない。

 従って、いかなる経路でもボールは通れないので、**$\{X_2, X_3\}$がgivenのとき$X_1$と$X_6$は独立** である。

<br>

- **問題 4.** $X_2\perp X_3|\{X_1, X_6\} $


 
 二つの経路でボールを転がすことができる。

 (1) $X_2\leftarrow{\bf X_1}(given)\rightarrow X_3$ の経路は$X_1$が分岐のgivenで塞がれているので通れない。

 (2) $X_2 \rightarrow{\bf X_6}(given) \leftarrow X_5 \leftarrow X_3$の経路は$X_6$が衝突部のgivenで開いているので通ることができる。

 従って、二番目のパスでボールは通過できるので、**$\{X_1, X_6\}$がgivenのとき$X_2$と$X_3$は独立が成立しない。**

<br>

- - -

## $d$-Seperationの定義
- - -

- $d$は方向性（directly）を意味する。

- Bayesian Ball Algorithmで$d$-Seperationかどうかを確認することができる。

- 整理すると、パスpが条件付き集合 $\{W\}$により$d$-Seperateされるという命題は以下と必要十分条件である。

    1.経路pは条件付き集合 $\{W\}$に属する中間ノード$Z$の鎖$X \rightarrow Z \rightarrow Y$または分岐$X \leftarrow Z \rightarrow Y$を含む。

    2.経路pは条件付き集合 $\{W\}$に属さない中間ノード$Z'$の衝突部$X \rightarrow Z' \leftarrow Y$を含む。

<br>  

- - -

## Additional reference

- - -

Judea Pearl, Madelyn Glymour, Nicholas P. Jewell (2016). [Causal Inference in Statistics: A Primer](http://bayes.cs.ucla.edu/PRIMER/)

- - -

**このシリーズの別のポストを見るには**

　　　[[Next >>]](https://jaysung00.github.io/jays_blog/datacamp/2021/02/09/Bayesian-Network-2.html)
   