# ロジスティック回帰

「識別モデル」を学習することで二値分類問題を解くのがロジスティック回帰である。「回帰」という名前がついているが、回帰問題ではなく二値分類問題で利用される。

識別モデルとは、データを観測したときに、それに対するクラスの事後分布を推定するモデルである。すなわち、入力${\bf x}$に対してそれが各クラス(二値分類問題ならばクラス$C_0$とクラス$C_1$)に属する確率を出力するようなモデルである。

以下では2つのクラスを$C_0, C_1$と書くことにする。

データ${\bf x}$を観測した下でのクラス$C_1$に属する(事後)確率を次のようにモデル化する。

\begin{eqnarray*}
p(C_1 | {\bf x_i}) \equiv \sigma ({\bf w}^T {\bf x_i})
\end{eqnarray*}

ここで、$\sigma(\dot)$はシグモイド関数で、次のように定義される。

$$
\sigma(x) \equiv \frac{1}{1 + \exp(-x)}
$$

シグモイド関数は$(0, 1)$の値をとり、$x \rightarrow - \infty$のときに$\sigma(x) \rightarrow 0$、$x \rightarrow \infty$のときに$\sigma(x) \rightarrow 1$となる。

上の識別モデルにおけるパラメータ${\bf w}$がもっともらしいかどうかは、上のモデルにおいて実現値が生成される確率がどのくらい大きいかによって評価される。パラメータを${\bf w}$としたときの$y$の(条件付き)生成確率を尤度と呼ぶ。ロジスティック回帰の学習では、この尤度が大きくなるようにパラメータの学習を行う。

実際には$\log$をとって対数尤度を最大化する。さらに、対数尤度に$-1$をかけることで負の対数尤度となるが、これを損失関数として最小化することと対数尤度を最大化することは同値である。

そこで負の対数尤度を最小化することを考える。まず、尤度(${\bf y}$の生成確率)Lは

\begin{eqnarray*}
L({\bf y} | {\bf w}) = \Pi_{n=1}^N \hat{y_n}^{y_n} (1 - \hat{y_n})^{1 - y_n}
\end{eqnarray*}

である。ゆえに負の対数尤度(損失関数)Eは

\begin{eqnarray*}
E({\bf w}) \equiv - \log (L({\bf w}) = - \Sigma_{n=1}^N y_n \log \hat{y_n} + (1 - y_n) \log(1 - \hat{y_n})
\end{eqnarray*}

となる。
損失関数の({\bf w}に関する)勾配は

\begin{eqnarray*}
\frac{\partial}{\partial {\bf w}} E({\bf w}) &=&
\end{eqnarray*}

のようになる。線形回帰の場合とは異なり解析的に解けないため、勾配法(ここでは最急降下法)を利用する。更新式は

\begin{eqnarray*}
{\bf w_{t+1}} &=& {\bf w_t} - \epsilon \frac{\partial}{\partial {\bf w}} E({\bf w}) \\
&=& {\bf w_t} - \epsilon \Sigma_{n=1}^N (\hat{y_n} - y_n) {\bf x_n}
\end{eqnarray*}

である。更新式を見るとわかるように、パラメータの更新度合いは${\bf x}$の大きさに依存するので、学習の際にはデータを標準化することが望ましい。

ロジスティック回帰でも線形回帰の場合と同様に、正則化項を加えることで過学習を抑制することができる。

さて、クラス$C_1$の事後確率を入力の線形和にシグモイド関数を適用したものとしてモデル化したが、その背景を説明する。

クラス$C_1$の事後確率は、ベイズの定理より

\begin{eqnarray*}
p(C_0 | {\bf x})
&=& \frac{p({\bf x} | C_0) p(C_0)}{p({\bf x} | C_0) p(C_0) + p({\bf x} | C_1) p(C_1)} \\
&=& \frac{1}{1 + \frac{p({\bf x} | C_1) p(C_1)}{p({\bf x} | C_0) p(C_0)}} \\
&=& \frac{1}{1 + \exp \left( - \log \frac{p({\bf x} | C_0) p(C_0)}{p({\bf x} | C_1) p(C_1)} \right) } \\
&=& \sigma \left( \log \frac{p({\bf x} | C_0) p(C_0)}{p({\bf x} | C_1) p(C_1)} \right)
\end{eqnarray*}

となる。ここで条件付き分布$p({\bf x} | C_0), p({\bf x} | C_1)$がガウス分布であり、かつそれらの共分散行列が等しいと仮定する。このとき

\begin{eqnarray*}
p({\bf x} | C_0) &=& \frac{1}{(2 \pi)^{\frac{D}{2}} |\Sigma|^{\frac{1}{2}}} \exp \left( ({\bf x} - {\bf \mu_0})^T \Sigma^{-1} ({\bf x} - {\bf \mu_0})) \right) \\
p({\bf x} | C_1) &=& \frac{1}{(2 \pi)^{\frac{D}{2}} |\Sigma|^{\frac{1}{2}}} \exp \left( ({\bf x} - {\bf \mu_1})^T \Sigma^{-1} ({\bf x} - {\bf \mu_1})) \right)
\end{eqnarray*}

とすれば

\begin{eqnarray*}
\frac{p({\bf x} | C_1)}{p({\bf x} | C_2)} &=&
\end{eqnarray*}

ロジスティック回帰は(対数)オッズと密接に関係している。ある事象が生起する確率を$p$としたときに、

$$
\text{Odds} \equiv \frac{p}{1 - p}
$$

を(その事象の)オッズという。確率とオッズは($p \in [0, 1)$では)1対1に対応づけることができる。ただし、確率が$p \in [0, 1]$の値をとるのに対し、オッズは$Odds \in [0, \infty)$の値をとる。

オッズの$\log$をとったものが対数オッズである。対数オッズは実数値をとり、

\begin{eqnarray*}
\text{Odds} \rightarrow - \infty \text { as } p \rightarrow 0 \\
\text{Odds} \rightarrow \infty \text{ as } p \rightarrow 1
\end{eqnarray*}

となる。よってクラス$C_0$に属する確率を$p$とし、その対数オッズ$\frac{p}{1-p}$を線形和${\bf w}^T {\bf x}$で表現することが考えられる。クラス$C_0$に属するデータについては線形和を小さくし、クラス$C_1$に属するデータについては線形和を大きくするようにパラメータを学習すれば良い。

なお、このモデルが先に述べた式に一致することは

\begin{eqnarray*}
\log \frac{p}{1-p} = {\bf w}^T {\bf x} &\Leftrightarrow& \frac{p}{1-p} \exp({\bf w}^T {\bf x}) \\
&\Leftrightarrow& p = \frac{\exp({\bf w}^T {\bf x})}{1 + \exp({\bf w}^T {\bf x})} \\
&\Leftrightarrow& p = \frac{1}{1 + \exp(- {\bf w}^T {\bf x})} \\
&\Leftrightarrow& p = \sigma({\bf w}^T {\bf x})
\end{eqnarray*}

という変形から導ける。