# ロジスティック回帰

## 二値分類問題（ベルヌーイ分布）における対数尤度の導出

目的変数を $y^{(n)} \in \{0, 1\}$ で表すとする。  
すると、あるデータ点 ${\bf x}^{(n)}$ のラベルが 1 / 0  である確率は、下記のような事後確率で表現することができる。

$$
p(y^{(n)} = 1|{\bf x}^{(n)}) = \tilde{Y}({\bf x}^{(n)};{\bf w})  \\
p(y^{(n)} = 0|{\bf x}^{(n)}) = 1 - \tilde{Y}({\bf x}^{(n)};{\bf w}) 
$$

これをべき乗を使ったトリックで、下記のような一つの式でまとめて表すことができる。

$$
p(y^{(n)}|{\bf x}^{(n)}) = \{\tilde{Y}({\bf x}^{(n)};{\bf w})\}^{y^{(n)}} \{1 - \tilde{Y}({\bf x}^{(n)};{\bf w})\}^{1 - y^(n)} 
$$

尤度は上式で表されるような確率密度の積で表すことができたので、

$$
P = \prod^N_{n=1} { p(y^{(n)}|{\bf x}^{(n)}) } = \prod^N_{n=1} { \{\tilde{Y}({\bf x}^{(n)};{\bf w})\}^{y^{(n)}} \{1 - \tilde{Y}({\bf x}^{(n)};{\bf w})\}^{1 - y^{(n)}} }
$$

対数尤度を取ると、

$$
\ln P = \sum^N_{n=1} { y^{(n)} \ln \tilde{Y}({\bf x}^{(n)};{\bf w}) + (1 - y^{(n)}) \ln (1 - \tilde{Y} ({\bf x}^{(n)};{\bf w}) ) } \tag{1}
$$

## 確率的勾配法による対数尤度最大化

### 連鎖律の適用

記載の簡単化のため、$\sigma$ をシグモイド関数とし、$z_n = \tilde{Y}({\bf x}^{(n)};{\bf w}) = \sigma ({\bf w^T x})$ とすると、以下のように記載できる。

$$
\ln P = \sum^N_{n=1} { y^{(n)} \ln z_n + (1 - y^{(n)}) \ln (1 - z_n ) } \tag{2}
$$


確率的勾配法では、データの一部に対して勾配 ${\frac{\partial \ln P}{\partial {\bf w}}}$ を計算し、学習率 $\eta$ で減衰させた値 $\eta \frac{\partial \ln P}{\partial {\bf w}}$ を現在の重み${\bf w}$に対して加えていくことで、現在よりも良い解 ${\bf w}^{new}$ を得る。  
これを式で表すと以下の通り。

$$
{\bf w}^{new} \leftarrow {\bf w} + \eta \frac{\partial \ln P}{\partial {\bf w}} \tag{3}
$$

${\bf w}$ の $m$ 番目の要素 $w_m$ を考えると、上式同様、

$$
w_m^{new} \leftarrow w_m + \eta \frac{\partial \ln P}{\partial {w_m}} \tag{4}
$$

と表すことができるため、$w_m^{new}$ は、対数尤度の勾配 $\frac{\partial \ln P}{\partial {w_m}}$ が求まれば算出できる。ただし、$\ln P$ は $z_n$ の関数であり、直接 $w_m$ で微分することは難しいため、以下のように連鎖律（chain rule）を適用すると、下記にように表すことができる。

$$
\frac{\partial \ln P}{\partial {w_m}} = 
\frac{\partial \ln P}{\partial z_n} \frac{\partial z_n}{\partial w_m} \tag{5}
$$

### $\frac{\partial \ln P}{\partial z_n}$ の導出

対数関数の微分: $(\log x)' = \frac{1}{x}$ を用いると、$\ln P$ の $z_n$ に関する微分は式(2) を用いて下記のように表すことができる。

$$
\frac{\partial \ln P}{\partial z_n} = \sum_{n=1}^N { \{ \frac{y^{(n)}}{z_n} - \frac{1-y^{(n)}}{1-z_n}\} } \tag{6}
$$

### $\frac{\partial z_n}{\partial w_m}$ の導出

シグモイド関数の微分: $\sigma ' =  \sigma(1- \sigma)$ を用いると、$z_n = \sigma ({\bf w^T x})$ の $w_m$ に関する偏微分は下記のように表すことができる。

$$
\frac{\partial z_n}{\partial w_m} = z_n(1-z_n)[x_n]_m \tag{7}
$$

ただし、$[x_n]_m$ は、n個目のデータのm番目の説明変数である。（0番目の説明変数はバイアス項: 1 とする）


### $\frac{\partial \ln P}{\partial {w_m}}$ の導出から ${ w_m}^{new}$ の導出まで

式(6), (7) から、$\ln P$ の $w_m$ に関する勾配は、下記のように求まる。

$$
\begin{align} 
\frac{\partial \ln P}{\partial {w_m}} 
&= \frac{\partial \ln P}{\partial z_n} \frac{\partial z_n}{\partial w_m} \\
&= \sum_{n=1}^N { \{ \frac{y^{(n)}}{z_n} - \frac{1-y^{(n)}}{1-z_n}\} z_n(1-z_n)[x_n]_m } \\
&= \sum_{n=1}^N{\{ y^{(n)}(1-z_n) - z_n(1-y^{(n)}) \} [x_n]_m} \\
&= \sum_{n=1}^N{\{ y^{(n)} - z_n \} [x_n]_m}
\end{align}
$$

従って、${w_m}^{new}$ は下記の通り。

$$
{w_m}^{new} = {w_m} + \eta \sum_{n=1}^N{\{ y^{(n)} - z_n \} [x_n]_m}
$$