# Q-State BM

多クラスのボルツマンマシンを作るためのメモ書きです.  
~~(別名お経.)~~

## 概要

<img src="image/graph.png" width="25">

## 変数の定義

確率変数$\boldsymbol{x}$はX次元の変数として定義.  
各要素は$Q$種類の状態$\{1, 2,...,Q\}$を持つクラス番号を値とする変数と定義します.  
  
$\boldsymbol{x} = \{x_i \in\{ 1,2,...,Q \} \mid i=1,2,...,X \}$

## エネルギー関数

$\displaystyle E \left( \boldsymbol{x} \mid \boldsymbol{J} \right) = - \frac{1}{X}\sum_{(i,j) \in A} J_{x_i, x_j} \delta_{x_i, x_j}$

エネルギー関数のJは隣接ノード間でどのクラス値を取りやすいかを調整するためのパラメータです.  
例えば$J_{1, 2} > 0$であれば片方のノードの値が1であるとき隣のノードの値は2を取りやすくなることを意味します.  
逆に$J_{1, 2} < 0$であればこの組み合わせになりにくくなることを表しています.
  
$\delta$はクロネッカーのデルタです.  
Aはノード間のエッジの集合です.  
1/Xは正直あってもなくてもいい気がしなくもないです.

## 分布の定義

Q-State BMはエネルギー関数を用いて  
  
$P\left(\boldsymbol{x} \mid \boldsymbol{J} \right) = \dfrac{1}{Z\left(\boldsymbol{J}\right)}\exp \left( - E \left( \boldsymbol{x} \mid \boldsymbol{J} \right) \right)$
  
と定義します.  
なお, Zは規格化定数です.
  
$
\begin{align}
\displaystyle Z\left(\boldsymbol{J}\right) &= \sum_{\boldsymbol{x}} \exp \left( - E \left( \boldsymbol{x} \mid \boldsymbol{J} \right) \right) \\
 &= \sum_{x_1} \sum_{x_2} ... \sum_{x_Q} \exp \left( - E \left( \boldsymbol{x} \mid \boldsymbol{J} \right) \right)
\end{align}
$

## 学習

学習に用いるデータ集合を$\mathcal{D}$と定義します.

$\mathcal{D} = \{ \boldsymbol{d}^{(1)}, \boldsymbol{d}^{(2)},...\boldsymbol{d}^{(N)} \}$

このデータ集合$\mathcal{D}$を当てはめる尤度関数$\mathcal{L}$を  
  
$\displaystyle \mathcal{L}\left(\boldsymbol{J}\right) = \frac{1}{N}\prod_{n=1}^N P\left(\boldsymbol{x}=\boldsymbol{d}^{(n)} \mid \boldsymbol{J}\right)$
  
と定義します.  
ただ，計算が楽なので尤度関数に対数をとってつけた対数尤度関数  
  
$\displaystyle \ln\mathcal{L}\left(\boldsymbol{J}\right) = \frac{1}{N}\sum_{n=1}^N \ln P\left(\boldsymbol{x}=\boldsymbol{d}^{(n)} \mid \boldsymbol{J}\right)$
  
を使いましょう．

対数尤度関数の勾配を求めるために書くパラメータで微分します.

$\begin{align}
\displaystyle \dfrac{\partial \ln \mathcal{L}\left(\boldsymbol{J} \right) }{\partial J_{k, l}}  &= \dfrac{1}{XN} \sum_{n=1}^N \sum_{(i,j)\in A} \delta_{d_i^{(n)}, d_j^{(n)}} - \sum_{\boldsymbol{x}} \dfrac{1}{X} \sum_{(i, j) \in A}\delta_{x_i, x_j}P\left(\boldsymbol{x} \mid \boldsymbol{J}\right) \\
 &= \left\langle \dfrac{1}{X}  \sum_{(i,j)\in A} \delta_{x_i, x_j} \right\rangle _\mathrm{DATA} - \left\langle \dfrac{1}{X}  \sum_{(i,j)\in A} \delta_{x_i, x_j} \right\rangle _\mathrm{BM}
\end{align}$ 

### ギブスサンプリング

あるひとつの変数に着目して, 他の変数を全部固定します.  
  
$
\begin{align}
P\left( x_i \mid \boldsymbol{x_{-i}} \right) &= P\left( x_i \mid \boldsymbol{x_{\partial(i)}} \right) \\
 &= \dfrac{\exp \left(\displaystyle \dfrac{1}{X} \sum_{k \in \partial(i)} J_{x_i, x_k} \delta_{x_i, x_k} \right)}{\displaystyle \sum_{x_i}\exp \left(\displaystyle \dfrac{1}{X} \sum_{k \in \partial(i)} J_{x_i, x_k} \delta_{x_i, x_k} \right)} \\
  &= \dfrac{\exp \left(\displaystyle \dfrac{1}{X} \sum_{k \in \partial(i)} J_{x_i, x_k} \delta_{x_i, x_k} \right)}{\displaystyle \sum_{q=1}^Q\exp \left(\displaystyle \dfrac{1}{X} \sum_{k \in \partial(i)} J_{q, x_k} \delta_{q, x_k} \right)}
\end{align}
$  
  
※補足  
$\boldsymbol{x_{-i}}$は$x_i$以外の全ての変数を表しています.  
$\boldsymbol{x_{\partial(i)}}$は$x_i$と隣接した全ての変数を表しています  
$\partial(i)$はi番目のノードと隣接した全てのノード番号を表しています.