#4-6 ニューラルネットワーク

## 概要

**ニューラルネットワークは、動物の神経システムを模倣した学習モデルの総称です。**

ニューラルネットワークは、回帰問題、分類問題の両方に適用できますが、分類問題によく使われます。


ニューラルネットワークは、以下のような複数の層を持つ構造になっています。
入力層は、入力されたデータそのものを持ちます。
出力層は、分類問題の場合には、その分類ラベル数分の出力があり、出力時は各ラベルの確率を出力します。
隠れ層は中間層とも呼ばれ、この隠れ層を積み重ねることで、複雑な決定領域を学習できます。

<img src="https://raw.githubusercontent.com/t-date/DataScience/master/fig/04_06_06.jpg?raw=true" width="500px">

意外なことに、人工ニューラルネットワーク（artificial neural networks：ANN)の考え方はかなり古くからあります。神経生理学者のウォーレン・マカロックと数学者のウォルター・ピッツが1943 年に初めてこの考え方を提出しました。

1960 年代までの初期のANN の成功により、多くの人々が本当の意味で知的なマシンと会話できる日が近いと考えるようになりました。しかし、この約束が満たされないだろう（少なくともかなり
長い間）ということが明らかになると、資金は別の分野に投入されるようになり、ANN は長い暗黒時代に入りました。

1980 年代始めには、新しいネットワークアーキテクチャの発明と従来よりも優れた訓練テクニックの開発により、ANN に対する関心が蘇ったが、1990 年代までは、ほとんどの研究者たちはサポートベクトルマシンなどのほかの機械学習テクニックを高く評価していました。それらの方がよい結果を生み出し、理論的な基礎が強力に見えたのであります。

そして最近になり、ANN に対する新たな関心の高まりを目撃することになりました。この波は、今までの波と同じ
ように消えてしまうのでしょうか。今度こそANN は私たちの生活に従来よりもはるかに深い影響を与えています。そう考えてよい理由がいくつかあるります。



*   今はニューラルネットワークを訓練するための膨大なデータがある。そして、極端に大規模で複雑な問題では、ANN はほかのML テクニックよりも高い性能を示すことが頻繁にある。
*   1990 年代以降の計算能力の非常に大幅な強化により、今では大規模なニューラルネットワークを合理的な時間内に訓練できるようになりました。これはムーアの法則のおかげであり、
数百万単位で強力なGPU カードを生み出してきたゲーム産業のおかげでもある。
*   訓練アルゴリズムが改良されてきている。公平に言って、1990 年代のアルゴリズムとの違
いはごくわずかだが、この比較的小さな改良が莫大なプラスの効果を生み出している。
*   ANN の理論的な限界のいくつかが実践上無害だということが明らかになった。たとえば、
ANN の訓練アルゴリズムは局所的な最適値に捕まってしまうため、失敗が運命づけられて
いると多くの人々が考えてきたが、実際にはそうなるのはまれだということが明らかになっ
た（実際にそうなった場合でも、通常その局所的最適値は全体の最適値にかなり近い）。
*   ANN は、資金を獲得して進歩するというよい循環に入ったように見える。ANN を基礎と
する優れた製品がコンスタントに新聞の見出しを飾り、それによってANN に対する関心と
資金がさらに集まり、結果として進歩が早まり、さらに素晴らしい製品が生み出されている。






環境設定

In [0]:
# Python 2, 3 をサポートします
from __future__ import division, print_function, unicode_literals

# 標準ライブラリのインポート
import numpy as np
import os

# 乱数の固定
np.random.seed(42)

# プロットの設定
%matplotlib inline
import matplotlib as mpl
import matplotlib.pyplot as plt
mpl.rc('axes', labelsize=14)
mpl.rc('xtick', labelsize=12)
mpl.rc('ytick', labelsize=12)

# 保存先ディレクトリの設定
PROJECT_ROOT_DIR = "."
CHAPTER_ID = "ann"
IMAGE_DIR = "images"

os.makedirs(os.path.join(PROJECT_ROOT_DIR, IMAGE_DIR, CHAPTER_ID), exist_ok=True)

def image_path(fig_id):
    return os.path.join(PROJECT_ROOT_DIR, IMAGE_DIR, CHAPTER_ID, fig_id)

def save_fig(fig_id, tight_layout=True):
    print("Saving figure", fig_id)
    if tight_layout:
        plt.tight_layout()
    plt.savefig(image_path(fig_id) + ".png", format='png', dpi=300)

##パーセプトロン

パーセプトロン（perceptron）は、ANN アーキテクチャでももっとも単純なもののひとつで、1957 年にフランク・ローゼンブラットによって考え出されました。

<img src="https://raw.githubusercontent.com/t-date/DataScience/master/fig/04_06_08.jpg?raw=true" width="420px">

scikit-learn は、単一のLTU ネットワークを実装するPerceptron クラスを提供しています。こ
のクラスは、みなさんの予想通りの動きをする。たとえば、iris データセットで訓練するときには、次のように書きます。

In [0]:
import numpy as np
from sklearn.datasets import load_iris
from sklearn.linear_model import Perceptron

iris = load_iris()
X = iris.data[:, (2, 3)]  # 花弁の長さ、花弁の幅
y = (iris.target == 0).astype(np.int)

per_clf = Perceptron(max_iter=100, tol=-np.infty, random_state=42)
per_clf.fit(X, y)

y_pred = per_clf.predict([[2, 0.5]])

In [0]:
y_pred

In [0]:
import matplotlib.pyplot as plt
a = -per_clf.coef_[0][0] / per_clf.coef_[0][1]
b = -per_clf.intercept_ / per_clf.coef_[0][1]

axes = [0, 5, 0, 2]

x0, x1 = np.meshgrid(
        np.linspace(axes[0], axes[1], 500).reshape(-1, 1),
        np.linspace(axes[2], axes[3], 200).reshape(-1, 1),
    )
X_new = np.c_[x0.ravel(), x1.ravel()]
y_predict = per_clf.predict(X_new)
zz = y_predict.reshape(x0.shape)

plt.figure(figsize=(10, 4))
plt.plot(X[y==0, 0], X[y==0, 1], "bs", label="Not Iris-Setosa")
plt.plot(X[y==1, 0], X[y==1, 1], "yo", label="Iris-Setosa")

plt.plot([axes[0], axes[1]], [a * axes[0] + b, a * axes[1] + b], "k-", linewidth=3)
from matplotlib.colors import ListedColormap
custom_cmap = ListedColormap(['#9898ff', '#fafab0'])

plt.contourf(x0, x1, zz, cmap=custom_cmap)
plt.xlabel("Petal length", fontsize=14)
plt.ylabel("Petal width", fontsize=14)
plt.legend(loc="lower right", fontsize=14)
plt.axis(axes)

save_fig("perceptron_iris_plot")
plt.show()

パーセプトロンの学習アルゴリズムが確率的勾配降下法と非常によく似ていることに気づかれたかもしれません。実際、scikit-learn のPerceptron クラスは、ハイパーパラメータをloss="perceptron"、learning_rate="constant"、eta0=1（学習率）、penalty=None
（正則化なし）に設定したSGDClassifier を使うのと同じであります。

ロジスティック回帰分類器とは異なり、パーセプトロンはクラスに属する確率を出力しないことに注意が必要です。パーセプトロンは、ハードなしきい値に基づいて分類をするだけであります。これは、パーセプトロンよりもロジスティック回帰を使うべきよい理由のひとつになって
います。

パーセプトロンの重大な弱点として、ごく簡
単な問題（たとえば、排他的OR: Exclusive OR、XOR 分類問題。下図左）を解決できないこともそのなかに含まれています。もちろん、これはほかの線形分類モデル（ロジスティック回帰分類器など）にも当てはまることではあります。

しかし、パーセプトロンの限界の一部は、複数のパーセプトロンを積み上げることによって取り除けることがわかりました。そのようなANN をMLP（multi-layer perceptron： 多層パーセプトロン）と呼ぶ。特に、MLP は、個々の入力の組み合わせに対して下図の右側に描かれている
MLP の出力を計算すれば確かめられるように、XOR 問題を解決できます。ネットワークは、入力が(0, 0) か(1, 1) なら0、入力が(0, 1) か(1, 0) なら1 を出力します。

パーセプトロンの限界の一部は、複数のパーセプトロンを積み上げることによって取り除けることがわかっています。そのようなANN をMLP（multi-layer perceptron： 多層パーセプトロン）と呼びます。特に、MLP は、個々の入力の組み合わせに対して図10-6 の右側に描かれている
MLP の出力を計算すれば確かめられるように、XOR 問題を解決できる。ネットワークは、入力
が(0, 0) か(1, 1) なら0、入力が(0, 1) か(1, 0) なら1 を出力します。

<img src="https://raw.githubusercontent.com/t-date/DataScience/master/fig/04_06_07.jpg?raw=true" width="400px">


##MLPとバックプロパゲーション(誤差逆伝播法)



MLP は、ひとつの（パススルー）入力層と隠れ層（hidden layer）と呼ばれるひとつ以上のLTU層、出力層（output layer）と呼ばれる最後のひとつのLTU 層から構成されます。出力層を除く各層にはバイアスニューロンが含まれており、次の層と完全に接続されています。ANN
が複数の隠れ層を保つ場合、そのANN は深層ニューラルネットワーク（deep neural network、DNN）と呼ばれます。

MLP を訓練する方法として、バックプロパゲーション（backpropagation：誤差逆伝播法）という訓練アルゴリズムを導入するようになりました。

バックプロパゲーションは、個々の訓練インスタンスをネットワークに与え、連続する層のすべてのニューロンの出力を計算します。

バックプロパゲーションは、ロジスティック関数以外の活性化関数（activation function）のもとでも使えます。ロジ
スティック関数以外でよく使われるふたつの活性化関数を紹介します。

*   双曲線正接（hyperbolic tangent）関数、tanh(z) = 2σ(2z) − 1
> ロジスティック関数と同様に、S 字形で連続で微分可能だが、出力は−1 から1 までの範囲になる（ロジスティック関数のように0 から1 までではなく）ので、訓練を始めたばかりのときの各層の出力が多少なりとも正規化される（つまり0 に中心に集まる）。これは収束までの時間を短縮するために役立つことが多い。



*   ReLU 関数


> ReLU(z) = max(0, z)、連続だがz = 0 で微分可能ではない（傾斜が急激に変わる場所。
これの存在により勾配降下法が跳ね回る場合がある）。しかし、実際に使ってみると非常に
よく機能し、短時間で計算できるというメリットがある。なによりも重要なのは、出力の最大値がないことが勾配降下法の問題緩和に役立つことである。



In [0]:
def sigmoid(z):
    return 1 / (1 + np.exp(-z))

def relu(z):
    return np.maximum(0, z)

def derivative(f, z, eps=0.000001):
    return (f(z + eps) - f(z - eps))/(2 * eps)

In [0]:
z = np.linspace(-5, 5, 200)

plt.figure(figsize=(11,4))

plt.subplot(121)
plt.plot(z, np.sign(z), "r-", linewidth=1, label="Step")
plt.plot(z, sigmoid(z), "g--", linewidth=2, label="Sigmoid")
plt.plot(z, np.tanh(z), "b-", linewidth=2, label="Tanh")
plt.plot(z, relu(z), "m-.", linewidth=2, label="ReLU")
plt.grid(True)
plt.legend(loc="center right", fontsize=14)
plt.title("Activation functions", fontsize=14)
plt.axis([-5, 5, -1.2, 1.2])


In [0]:
def heaviside(z):
    return (z >= 0).astype(z.dtype)

def mlp_xor(x1, x2, activation=heaviside):
    return activation(-activation(x1 + x2 - 1.5) + activation(x1 + x2 - 0.5) - 0.5)

In [0]:
x1s = np.linspace(-0.2, 1.2, 100)
x2s = np.linspace(-0.2, 1.2, 100)
x1, x2 = np.meshgrid(x1s, x2s)

z1 = mlp_xor(x1, x2, activation=heaviside)
z2 = mlp_xor(x1, x2, activation=sigmoid)

plt.figure(figsize=(10,4))

plt.subplot(121)
plt.contourf(x1, x2, z1)
plt.plot([0, 1], [0, 1], "gs", markersize=20)
plt.plot([0, 1], [1, 0], "y^", markersize=20)
plt.title("Activation function: heaviside", fontsize=14)
plt.grid(True)

plt.subplot(122)
plt.contourf(x1, x2, z2)
plt.plot([0, 1], [0, 1], "gs", markersize=20)
plt.plot([0, 1], [1, 0], "y^", markersize=20)
plt.title("Activation function: sigmoid", fontsize=14)
plt.grid(True)

MLP は、個々の出力がバイナリクラス（たとえば、スパムとハム、緊急と非緊急など）のいずれかになるので、分類でよく使われます。クラスが相互排他的な場合（たとえば、数字イメージの分類における0 から9 までのクラス）には、出力層は、個別の活性化関数ではなく、共有のソフトマックス（softmax）関数を使うように変更されます。

<img src="https://raw.githubusercontent.com/t-date/DataScience/master/fig/04_06_10.jpg?raw=true" width="500px">

##TensorFlowの高水準API を使ったMLPの訓練

TensorFlow でMLP を訓練する方法として単純なのは、scikit-learn 互換のAPI を提供するTF Learn という高水準API を使うことです。DNNClassifier クラスを使えば、隠れ層がいくつあってもDNN の訓練は非常に簡単であり、ソフトマックス出力層はあるクラスに属する
推計確率を出力します。たとえば、次のコードは、ふたつの隠れ層（ひとつはニューロンが300 個、
もうひとつはニューロンが100 個）とニューロンが10 個のソフトマックス出力層を持つDNN を
分離のために訓練します。

In [0]:
import tensorflow as tf

MNISTデータ(0～9の手書き文字データ)を取り込みます。

<img src="https://raw.githubusercontent.com/t-date/DataScience/master/fig/04_06_11.jpg?raw=true" width="420px">

In [0]:
(X_train, y_train), (X_test, y_test) = tf.keras.datasets.mnist.load_data()
X_train = X_train.astype(np.float32).reshape(-1, 28*28) / 255.0
X_test = X_test.astype(np.float32).reshape(-1, 28*28) / 255.0
y_train = y_train.astype(np.int32)
y_test = y_test.astype(np.int32)
X_valid, X_train = X_train[:5000], X_train[5000:]
y_valid, y_train = y_train[:5000], y_train[5000:]

In [0]:
feature_cols = [tf.feature_column.numeric_column("X", shape=[28 * 28])]
dnn_clf = tf.estimator.DNNClassifier(hidden_units=[300,100], n_classes=10,
                                     feature_columns=feature_cols)

input_fn = tf.estimator.inputs.numpy_input_fn(
    x={"X": X_train}, y=y_train, num_epochs=10, batch_size=50, shuffle=True)#num_epochs=40, batch_size=50, shuffle=True)
dnn_clf.train(input_fn=input_fn)

このコードは、まず訓練セット（カテゴリ値の列なども含まれている）から数値の列を集めたものを作っています。

次に、DNNClassifier を作り、scikit-learn 互換ヘルパーでラップし、最後に指定回数のインスタンスのバッチを使って訓練イテレーションを指定試行回数実行しています。
MNIST データセットを対象としてこのコードを実行すると（たとえば、scikit-learn のStandardScaler などを使ってスケーリングしたあとに）、テストセットに対して高い正解率を達成するモデルが得られます。

In [0]:
test_input_fn = tf.estimator.inputs.numpy_input_fn(
    x={"X": X_test}, y=y_test, shuffle=False)
eval_results = dnn_clf.evaluate(input_fn=test_input_fn)

In [0]:
eval_results

In [0]:
y_pred_iter = dnn_clf.predict(input_fn=test_input_fn)
y_pred = list(y_pred_iter)
y_pred[0]

##(参考)MLPClassifierの例1

手書き文字認識での例を試してみましょう

In [0]:
from sklearn.datasets import load_digits
from sklearn.neural_network import MLPClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# データ読み込み
data = load_digits()
X = data.images.reshape(len(data.images), -1)
y = data.target

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3) #ホールドアウト
model = model = MLPClassifier(hidden_layer_sizes=(16, ))  #隠れ層の数
model.fit(X_train, y_train) # 学習
y_pred = model.predict(X_test) 
accuracy_score(y_pred, y_test) # 評価

##(参考)MLPClassifierの例2

In [0]:
#スクラッチの描画ライブラリをインポート
!pip install mglearn

MLPClassifierを、これまでも使ってきたtwo_moonsデータセットに適用して、MLPが動く様
子を見てみよう

In [0]:
from sklearn.neural_network import MLPClassifier
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt
import mglearn

from sklearn.datasets import make_moons
X, y = make_moons(n_samples=100, noise=0.25, random_state=3)
X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y,
random_state=42)
mlp = MLPClassifier(solver='lbfgs', random_state=0).fit(X_train, y_train)
mglearn.plots.plot_2d_separator(mlp, X_train, fill=True, alpha=.3)
mglearn.discrete_scatter(X_train[:, 0], X_train[:, 1], y_train)
plt.xlabel("Feature 0")
plt.ylabel("Feature 1")