# 第10章 人工ニューラルネットワーク入門
人工ニューラルネットワーク（ANN: Artificial Neural Network）は柔軟・強力かつスケーラブルであり，現代の深層学習の中核をなす技術である．
画像分類や音声認識，動画の推薦や強化学習など，様々なタスクに応用されている．

## 10.1 生物学的なニューロンから人工ニューロンへ
ANN は 1943年に神経生理学者ウォーレン・マカロックと数学者ウォルター・ピッツによって提唱された．彼らは動物の脳の生物学的ニューロンが共同作業で命題論理（propositional logic）を駆使して複雑な計算を実行する仕組みについて，単純な計算モデルを示した．  
1960年代頃まで ANN は多くの支持を集めてきたが，その後1980年代はじめまで最初の冬の時代を迎えた．  
1980年代には新たなネットワークアーキテクチャの発明と訓練方法の洗練により，再び日の目を見ることになる．  
しかし，1990年代までには SVM（サポートベクターマシン）などの発明により，顧みられることはほとんどなくなった．
その後，2010年ごろまで長い冬の時代を経て，近年急速に関心を集めるようになった．  
その要因としては以下のような要因が考えられる．

- ニューラルネットワークを訓練するためのビッグデータ
- GPU などの計算能力の大幅な強化
- 訓練アルゴリズムの洗練
- ANN の理論的限界は実践的にはほとんど無害であることがわかった
- ANN が資金を獲得し進歩する良い循環に入った

### 10.1.1 生物学的ニューロン
ニューロンは大きく細胞体（cell body），樹状突起（dendrite），軸索（axon）の3つからなる．  
軸索の先端は終末分枝（terodendria）と呼ばれる多数の枝に別れ，それぞれの分子の末端にあるシナプス終端（synaptic terminal）を介して，ほかのニューロンと接続している．

<br>
<div align="center">
    <img src="./img/ch10/IMG_0122.png" title="生物学的ニューロン" width="50%">
</div>
<br>

ニューロンは数ミリ秒の内に他のニューロンから十分な数の信号を受けると発火するだけの単純な振る舞いしかしない．
しかし，1つのニューロンは数千個の他のニューロンと結びつき，さらにニューロンが数十億個集まることで複雑なネットワークを形成している．
下の図はヒトの大脳皮質の例である．

<br>
<div align="center">
    <img src="./img/ch10/IMG_0123.png" title="多層的な生物学的ニューラルネットワーク" width="50%">
</div>

### 10.1.2 ニューロンによる理論演算
ウォーレン・マカロックとウォルター・ピッツは一つ以上のバイナリ入力と一つのバイナリ出力を持ち，一定数以上の入力が活性化すると出力が活性化するという，非常に単純なモデルを提唱した．これが人工ニューロン（artificial neuron）である．  
このような単純なモデルでも任意の論理命題を計算するネットワークを構築可能であることが示された．  
下に示すのは単純な理論演算を実行する ANN の例である．

<br>
<div align="center">
    <img src="./img/ch10/IMG_0124.png" title="単純な論理演算を実行する ANN" width="50%">
</div>

### 10.1.3 パーセプトロン
パーセプトロン（perceptron）は最も単純な ANN アーキテクチャの一つであり，1957年にフランク・ローゼンブラッドによって考案された．  
LTU（linear threshold unit: 線形しきい値素子）と呼ばれる人工ニューロンを基礎としており，入出力地は数値で個々の接続部には重みが与えられている．  
LTU の出力は以下の数式で与えられる.
$$
    h_{\bf w}({\bf x})=step({\bf w} \cdot {\bf x})
$$
ステップ関数 step() にはヘヴィサイドステップ関数や符号関数など，いくつかの種類がある．
$$
  heaviside(z) = \begin{cases}
    0 & if & z < 0 \\
    1 & if & z \geq 0
  \end{cases}
$$

$$
  sgn(z) = \begin{cases}
    -1 & if & z < 0 \\
    0 & if & z = 0 \\
    1 & if & z > 0
  \end{cases}
$$
単純な線形2項分類は，入力の線型結合を計算し，結果がしきい値を超えたら陽クラス，それ以外を陰クラスを出力すればよく，ひとつの LTU で実現できる．

<br>
<div align="center">
    <img src="./img/ch10/IMG_0125.png" title="LTU" width="50%">
</div>
<br>

パーセプトロンは個々のニューロンがすべての入力に接続される単層の LTU から構成される．  
その接続部は入力ニューロン（input neuron）で表現する場合がある．
また，一般的にはバイアスフィーチャーが加算される（$x_0 = 1$）．
バイアスフィーチャーを出力するニューロンはバイアスニューロン（bias neuron）と呼ぶ．

<br>
<div align="center">
    <img src="./img/ch10/IMG_0126.png" title="パーセプトロン" width="50%">
</div>
<br>

パーセプトロンの訓練は，「互いに発火する細胞は強く結び付けられる」というヘッブの法則（Hebb's rule）に基づいて行われる．具体的には以下のような入力ニューロンからの重みの更新を行っている．

$$
    w_{i,j} \gets w_{i,j} + \eta (y_j - \hat{y}_j)x_i
$$

- $w_{i,j}$はi番目の入力ニューロンとj番目の出力ニューロンを結ぶ接続の重み
- $x_i$は現在の訓練インスタンスのi番目の入力値  
- $\hat{y}_j$は現在の訓練インスタンスのj番目の出力ニューロンの出力
- $y_j$は現在の訓練インスタンスのj番目の出力ニューロンのターゲット出力
- $\eta$は学習率
  
パーセプトロンの学習は確率的勾配降下法に非常によく似ており，出力される決定境界は線形である．
訓練インスタンが線形分離可能であるとき上記のアルゴリズムの解は収束する．（パーセプトロンの収束定理）
また，ロジスティック回帰と異なりパーセプトロンはクラスに属する確率は出力しない．

In [3]:
# iris データセットでパーセプトロンを試す
import numpy as np
from sklearn.datasets import load_iris
from sklearn.linear_model import Perceptron

iris = load_iris()
X = iris.data[:, (2, 3)]  # 花弁の長さと幅
y = (iris.target == 0).astype(np.int)  # セトナ？

per_clf = Perceptron(random_state=42)
per_clf.fit(X, y)

y_pred = per_clf.predict([[2, 0.5]])
print(y_pred)

[1]




マービン・ミンスキーとシーモア・パパートは，その著書の中で排他的論理和（XOR）を含む，いくつかのごく単純な問題を解決できないという重大な弱点を指摘している．  
そのような解決できない問題の一部は，多層パーセプトロン（MLP: multi-layer perceptron）によって解決できることがわかったが，研究者の落胆は大きく，1970年代以降は推論や問題解決，探索などの研究が盛んに行われるようになった．

### 10.1.4 MLP とバックプロパゲーション
<div align="center">
    <img src="./img/ch10/IMG_0127.png" title="XOR 分類問題とこの問題を解決する MLP" width="50%">
</div>

<div align="center">
    <img src="./img/ch10/IMG_0128.png" title="MLP" width="50%">
</div>

<div align="center">
    <img src="./img/ch10/IMG_0129.png" title="活性化関数とその導関数" width="50%">
</div>

<div align="center">
    <img src="./img/ch10/IMG_0130.png" title="分類用の新しい MLP" width="50%">
</div>