# パーセプトロン

「識別関数」を学習することで二値分類問題を解くモデルとしてパーセプトロンというものがある。識別関数とは、${\bf x}$に対してそれが属するクラス$y$を予測する関数である。このとき、${\bf x}$がクラス$y$に属する確率は計算されない。

ここでは${\bf x}$を2クラス$\{+1, -1\}$のいずれかに分類するとする。説明変数${\bf x}$に対して

$$
\hat{y} = a(f({\bf x}))
f({\bf x}) = {\bf w}^T {\bf x}
$$

によって$y$を予測する。ここで、$a$は活性化関数である。パーセプトロンモデルでは活性化関数としてステップ関数が用いられている。ステップ関数は次のように定義される。

\begin{eqnarray*}
a(x) =
\begin{cases}
+1 & \text{ if } x > 0 \\
-1 & \text{ if } x < 0
\end{cases}
\end{eqnarray*}

よって決定境界は${\bf w}^T {\bf x} = 0$という超平面となる。

損失関数を

$$
L({\bf w}) \equiv - \Sigma_{n, y_n \neq \hat{y_n}} {\bf w}^T {\bf x_n} y_n
$$

と定義し、これを最小化するような${\bf w}$を求める。総和記号の下に書いてあるように、和は誤分類したデータすべてについてとる。誤分類したデータ$({\bf x}, y)$に対して

$$
{\bf w}^T {\bf x} y < 0 
$$

が成立するので、損失関数は非負の値をとる。また、分類境界から間違った方向に離れるに従って損失が大きくなることもわかる。

パーセプトロンの学習では、最急降下法によってパラメータ${\bf w}$を更新する。損失関数の勾配は

$$
\frac{\partial}{\partial {\bf w}} L({\bf w}) = - \Sigma_{n, y_n \neq \hat{y_n}} {\bf x_n} y_n
$$

となるので、更新式は学習率を$\eta > 0$として

$$
{\bf w_{t+1}} = {\bf w_t} + \eta \Sigma_{n, y_n \neq \hat{y_n}} {\bf x_n} y_n
$$

である。スケーリングに対して予測結果が不変であることを考慮すると、学習率を$\eta = 1$として良い。よって

$$
{\bf w_{t+1}} = {\bf w_t} + \Sigma_{n, y_n \neq \hat{y_n}} {\bf x_n} y_n
$$

とできる。
パラメータの更新によって損失関数は減少するが、必ずしも予測が良い方向に動くとは限らない。つまり、それまで正しく分類されていたデータが誤分類するようになる可能性がある。

パーセプトロンの収束定理によると、(線形分離できるデータ集合においては)有限回のパラメータ更新によって厳密解に収束する。