# 一般化線形モデル(GLM)の基本
一般化線形モデルとは、目的変数(被説明変数)$t$の条件付き期待値$\mathbb{E}\lbrack t|\boldsymbol{x}\rbrack$が、入力変数(説明変数)$\boldsymbol{x}=x_1,\cdots,x_k$の線形結合の非線形変換$f$によって定義されるモデルのことである。
$$
\mathbb{E}\lbrack t|\boldsymbol{x}\rbrack=f(\boldsymbol{\omega}^T\boldsymbol{x})
$$
この時、非線形変換$f$を活性化関数といい、活性化関数の逆関数$f^{-1}$をリンク関数という。一般化線形モデルは目的変数が従う分布のパラメータである期待値を入力変数の線形結合の非線形変換で決めるモデルである。

例えば、目的変数が正規分布に従うとき、活性化関数は恒等関数となり、次のように普通の線形モデルとなる。
$$
\mu=\mathbb{E}\lbrack t|\boldsymbol{x}\rbrack=f(\boldsymbol{\omega}^T\boldsymbol{x})\\
f(x) = x\\
t \sim Normal(\mu, \sigma^2)
$$
目的変数が釣れた魚の数やスズメの卵の数のようなポアソン分布に従う場合は、活性化関数を指数関数としたポアソン線形モデルとなる。
$$
\lambda=\mathbb{E}\lbrack t|\boldsymbol{x}\rbrack=f(\boldsymbol{\omega}^T\boldsymbol{x})\\
f(x) = \exp(x)\\
t \sim Poisson(\lambda)\\
$$
他にも目的変数が種子の発芽率やある事故での生存率(タイタニック)、2つのクラス分類のように二項分布やベルヌーイ分布に従う時、活性化関数をロジスティック関数としたロジスティックモデルとなる。
$$
\mu=\mathbb{E}\lbrack t|\boldsymbol{x}\rbrack=f(\boldsymbol{\omega}^T\boldsymbol{x})\\
f(x) = \frac{1}{1+\exp(-x)}\\
t \sim Bernoulli(\mu)\\
or\\
t \sim Binorm(k, \mu)\\
$$
このように、一般化線形モデルでは観測値の誤差項が従う分布に正規分布以外の分布を用いることができる。

一般化線形モデルは、頻度主義的に考えると、最小二乗法や最尤推定によってパラメータの最尤推定値を得ることができるが、ベイズ主義では次のような利点がある。
1. 事前分布による事前知識の導入と正則化

    ベイズ推定ではパラメータの事前分布を導入することで、パラメータについての事前知識をモデルに反映することができる。また、最尤推定では学習データへの過学習が起きやすく、誤差関数に正則化項を追加することでこの問題を解決するが、ベイズでは適切な事前分布を選んだ際の事後分布のMAP推定量は正則化した最尤推定量に一致することがわかっている。

2. パラメータの事後分布を用いて適切な分析を提供できる

    頻度主義に基づく最尤推定では、パラメータは点推定された1点のみが得られるが、ベイズではパラメータの事後分布が得られるため、パラメータが0である確率やある範囲にパラメータがある確率が分かる。これによって分析者は意思決定のためのより豊かな分析内容を提供できる。

# 指数型分布族による活性化関数の導出(PRML上巻 p211~p212)
一般化線形モデルは指数型分布族に被説明変数が従う場合に構築することができる。この時活性化関数(リンク関数)はどのように決まるのだろう？ここでは、リンク関数として指数型分布族の正準パラメータ関数を選ぶことで、最尤推定による誤差関数が簡単な式になる事を示す。

まず、指数分布の形と最尤推定について見ていく。

指数分布族の確率分布は次のように書くことができる。
$$
p(\boldsymbol{x}|\boldsymbol{\eta}) = 
h(\boldsymbol{x}) 
g(\boldsymbol{\eta})
\exp\{\boldsymbol{\eta}^Tu(\boldsymbol{x})\}
$$
ここで、$\boldsymbol{\eta}$は自然パラメータという。この分布は正規化されているので次のように積分すると1になる。
$$
g(\boldsymbol{\eta})\int h(\boldsymbol{x}) \exp\{\boldsymbol{\eta}^Tu(\boldsymbol{x})\} d\boldsymbol{x} = 1  \quad(1)
$$
この自然パラメータを最尤推定する問題を考える。$\boldsymbol{\eta}$について(1)の両辺の勾配を取ると次のようになる。
$$
\nabla g(\boldsymbol{\eta})\int h(\boldsymbol{x}) \exp\{\boldsymbol{\eta}^Tu(\boldsymbol{x})\} d\boldsymbol{x}
+g(\boldsymbol{\eta})\int h(\boldsymbol{x}) \exp\{\boldsymbol{\eta}^Tu(\boldsymbol{x})\}u(\boldsymbol{x}) d\boldsymbol{x}=0\\
-\frac{\nabla g(\boldsymbol{\eta})}{g(\boldsymbol{\eta})}=g(\boldsymbol{\eta})\int h(\boldsymbol{x}) \exp\{\boldsymbol{\eta}^Tu(\boldsymbol{x})\}u(\boldsymbol{x}) d\boldsymbol{x}=\mathbb{E}[u(\boldsymbol{x})]
$$
よって次のようになる。
$$
-\nabla \ln g(\boldsymbol{\eta}) = \mathbb{E}[u(\boldsymbol{x})] \quad(2)


では、一般化線形モデルの活性化関数について議論していく。簡単のために、ここでは自然パラメータは1次元で、$u(x)=x$の場合を考える。

次のような尺度不変性が成り立つ場合を考える。
$$
p(x|s) = \frac{1}{s}f\Bigl(\frac{x}{s}\Bigr)
$$
この時、指数型分布族は次のように書ける。
$$
p(\boldsymbol{x}|\boldsymbol{\eta}, s) = 
\frac{1}{s}
h\Bigl(\frac{\boldsymbol{x}}{s}\Bigr) 
g(\boldsymbol{\eta})
\exp\Bigl\{\boldsymbol{\eta}^Tu\Bigl(\frac{\boldsymbol{x}}{s}\Bigr)\Bigr\}
$$

ここで、ある目的変数$t$が指数型分布族に従うと仮定すると、次のような条件付き確率になる。
$$
p(t|\eta, s) = \frac{1}{s}h\Bigl(\frac{t}{s}\Bigr) g(\eta)\exp\Bigl\{\frac{\eta t}{s}\Bigr\}
$$
この時、$t$の条件付き期待値を$y$とすると、(2)から次のように書ける。
$$
y = \mathbb{E}[t|\eta] = -s\frac{d}{d\eta}\ln g(\eta)
$$
よって$\eta$と$y$の間には何らかの関係があり、次のように表せる
$$
\eta = \psi(y)
$$

ここで、一般化線形モデルとして、目標変数の期待値$y$が入力変数$\boldsymbol{\phi}$の線形結合の非線形変換で与えられるとしてモデル化すると次のようになる。
$$
y = f(\boldsymbol{w}^T\boldsymbol{\phi})
$$
このモデルに対して次のような対数尤度を考える。
$$
\ln p(\boldsymbol{t}|\eta, s) = \sum_{k=1}^n\ln p(t_n|\eta, s)= \sum_{k=1}^n\Bigl\{\ln g(\eta_k)+\frac{\eta_kt_k}{s}\Bigr\}+const
$$
ここで、$a_k = \boldsymbol{w}^T\boldsymbol{\phi}_k$とすると、$\eta_k$は$y_k$の関数であり、$y_k$は$a_k$の関数であるので、対数尤度の$\boldsymbol{w}$での勾配は次のようになる。
$$
\nabla_{\boldsymbol{w}}\ln p(\boldsymbol{t}|\eta,s) = \sum_{k=1}^n\Bigl\{\frac{d}{d\eta_k}\ln g(\eta_k)+\frac{t_k}{s}\Bigr\}\frac{d\eta_k}{dy_k}\frac{dy_k}{da_k}\nabla a_k
=\sum_{k=1}^n \frac{1}{s}\{t_k-y_k\}\psi'(y_k)f'(a_k)\boldsymbol{\phi}_k
$$

ここで、次のように活性化関数を定義すればこの式を簡単にすることができる。
$$
f^{-1}(y) = \psi(y)
$$
これによって、$f(\eta)=f(\psi(y))=y$となり、$\psi'(y)f'(a)=1$となる。この時の誤差関数は次のように書ける。
$$
\nabla E(\boldsymbol{w})=\sum_{k=1}^n \frac{1}{s}\{t_k-y_k\}\boldsymbol{\phi}_k
$$
この時、$\psi$は各分布ごとに決まっており、正準パラメータ関数ともいう。つまり活性化関数は正準パラメータ関数の逆関数になる。正規分布、ベルヌーイ分布、二項分布、多項分布、ポアソン分布について活性化関数を示す。
$$
正規分布 \quad \mu = f(\eta)= \eta\\
ベルヌーイ分布 \quad \theta = f(\eta) = \frac{1}{1+\exp(-\eta)}\\
二項分布 \quad \theta = f(\eta) = \frac{1}{1+\exp(-\eta)}\\
多項分布 \quad \mu_k = f(\boldsymbol{\eta}) = \frac{\exp(\eta_k)}{1+\sum_j\exp(\eta_j)}\\
ポアソン分布 \quad \lambda = f(\eta) = \exp(\eta)
$$
このように正規分布の時は恒等関数、ベルヌーイ分布、二項分布の時はロジスティック関数、多項分布の時はソフトマックス関数、ポアソン分布の時は指数関数が活性化関数となる。

つまり、一般化線形モデルでは、指数型分布族の自然パラメータについて入力変数が線形結合し、各分布のパラメータに対して活性化関数で非線形変換するモデルを考えることで、目的変数の従う分布のパラメータを推定するモデルであると言える。