<a href="https://colab.research.google.com/github/vitroid/PythonTutorials/blob/master/2%20Advanced/322NeuralNet.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# ニューラルネットワーク
人工ニューラルネットワーク(ANN, 人工神経回路網)は、近年になって急激に脚光を浴びはじめた。

1. **これまでの手法の限界**
   教える(=認識する)内容が複雑になるにつれ、人によるパラメータチューニングに限界が見えてきた。

2. **NNにおけるブレークスルー**
   NN自体は1940年代から研究が始まっていたが、性能が伸び悩み、実用には向かないと考えられていた。今世紀に入りそれを打破する新しいアイディアにより、人の手助けなしに、自律的に極めて高度な学習ができるようになった。
   
3. **データ量の増大**
   デジタル写真や音声データが一般化し、膨大な教師データを準備できるようになった。
   
4. **計算機性能の向上**
   膨大な量のトレーニングができるようになった。
   
## ANNとは何か
神経細胞(ニューロン)の信号伝達をモデル化し、それを大量に組みあわせてネットワーク化して脳の信号処理を模倣する試み。脳機能を忠実に再現しているわけではない。

## 何ができるのか
画像や音声などの、大きなデータを入力し、分類、エンコーディング、認識、タグ付け、ノイズ除去などのさまざまなタスクを行う。最新のディープニューラルネットワークを用いると、画像認識、文字認識等で人間を越える能力を発揮する。

## ディープラーニングとは何か
ディープニューラルネットワークを用いた機械学習。

## ディープニューラルネットワークとは何か
ネットワークの階層性が深いニューラルネットワークのこと。2016年現在、「非常に深い」ニューラルネットワークとは10層程度を指していたが、2018年にはすでに何十層もあるのがあたりまえになりつつある。基本的な構造はどのニューラルネットワークも同じだが、ディープニューラルネットワークを設計する場合には、各階層に役割を与える場合が多い。

## もてはやされる理由

1. 人力では達成不可能な複雑なタスクを実現できるようになった。

2. 学習過程での計算量は莫大だが、一旦学習したあとは、かけ算と足し算の組みあわせによる、わずかな計算しか必要としない = スマホ程度の計算能力で十分利用できる。

## 我々科学者の立ち位置
1. DNNの開発に参入するのは難しい。計算機シミュレーションのために、半導体設計から始めるようなもの。よほどの勝算がなければやめておいたほうがいい。
2. DNNで何ができ、何ができないかを理解した上で、DNNに適合するような問題設定を考える。既存のフレームワーク(TensorFlowなど)を使って自力で解くか、外部専門家に適切な要望を出して解決してもらう。

## フレームワーク
フレームワークとは、ニューラルネットワークを計算機に実装する一連の作業に必要なツール一式のこと。フレームワークが違うと、重みやバイアスといった変数をどんな形式で指定するか、バックプロパゲーションをどのように実施するか、などといった作業手順が違ってくる。

適切なフレームワークを選べば、計算機の性能を最大限にひきだせる。複数のGPUを使って計算を加速したり、外部のCloudに任せてしまうことすら可能。(例えばAmazonのクラウドAWSはMXNetやTensorFlowに対応しているらしい)

(July 2018)

|FW name | 公開年   | 開発主体 | 言語  |github|
|:---:|:---:|:------|:-----|:---|
|Theano |(2010) |MontrealU |Python|[Theano/Theano](https://github.com/Theano/Theano)
|Caffe   |2013     |UCB      |C++, Python|[BVLC/caffe](https://github.com/BVLC/caffe)
|Chainer |2015     |PFN      |Python |[chainer/chainer](https://github.com/chainer/chainer)
|CNTK    |2015      |Microsoft |Python|[Microsoft/CNTK](https://github.com/Microsoft/CNTK)
|TensorFlow | 2015 | Google | C++, Python |[tensorflow/tensorflow](https://github.com/tensorflow/tensorflow)
|neon    |2015   |Intel     |Python|[NervanaSystems/neon](https://github.com/NervanaSystems/neon)
|PyTorch |2016   |NYU, Facebook|Python|[pytorch/pytorch](https://github.com/pytorch/pytorch)
|NNabla  |2017   |Sony      |C++, Python   |[sony/nnabla](https://github.com/sony/nnabla)
|Caffe2  |2017     |Facebook |C++, Python|[caffe2/caffe2](https://github.com/caffe2/caffe2)
|MXNet   |2017     |WU, CMU  |Python, R, Julia, Go|[apache/incubator-mxnet](https://github.com/apache/incubator-mxnet)

* Pythonが書ければ、どれも使える。
* どのプロジェクトも、[github](https://github.com)でソースプログラムを公開している。
* https://qiita.com/bonotake/items/cbd44abbcbe333f264d8 などを参考に整理
* (2020)もうすでにだいぶ古い情報になっている。

(2020追記) いろいろごたくを書いたが、もっとビジュアルな説明を見て下さい。 https://www.codexa.net/what-is-deep-learning/

## TensorFlowによる実装例

TensorFlowはGoogleが提供しているNNフレームワーク。次のサイトで教師あり学習の利用例をブラウザ上で試すことができる: https://playground.tensorflow.org

ここでは、https://www.tensorflow.org/versions/r1.0/get_started/mnist/beginners をなぞってみる。(2020 すでにこれは動かなくなっている。変化が速い)

MNISTは教師あり学習のための手書き数字のデータセットである。

以下のプログラムは、 https://www.tensorflow.org/overview/?hl=ja からそのままもってきた。最近のtensorflowはkerasと組みあわせて使うのが標準的なのか。たしかに以前のtensorflowに比べて格段に書きやすい。

内容の説明は https://www.tensorflow.org/tutorials/quickstart/beginner?hl=ja にある。ここでは簡単にコメントを入れる。

In [None]:
import tensorflow as tf

# MNISTは数字画像認識の教師データ
mnist = tf.keras.datasets.mnist

# 訓練データと検証データを読みこむ。
(x_train, y_train),(x_test, y_test) = mnist.load_data()

# 255階調の画像データを0〜1の実数階調に変換。
x_train, x_test = x_train / 255.0, x_test / 255.0
x_train, y_train # 画像データ と 読み方データ

In [None]:
# Neural Networkの設計図(どんな層をどんな順に通すか)
model = tf.keras.models.Sequential([
  tf.keras.layers.Flatten(input_shape=(28, 28)),
  tf.keras.layers.Dense(128, activation='relu'),
  tf.keras.layers.Dropout(0.2),
  tf.keras.layers.Dense(10, activation='softmax')
])

# 最適化の方法の指示(シナプス結合の最適化)
model.compile(optimizer='adam',
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])

# 最適化の実行
model.fit(x_train, y_train, epochs=5)
# 結果の評価(検証データでの評価)
model.evaluate(x_test, y_test)

In [None]:
from matplotlib import pyplot as plt
import numpy as np

# どの文字かを確率で表している。
y_prob = model.predict(x_test)
# 確率が最大の文字を選ぶ。
y_pred = np.argmax(y_prob, axis=1)

# 画像データの表示
fig, ax = plt.subplots(12, 12, figsize=(6, 6))
fig.subplots_adjust(left=0,right=1, bottom=0,top=1,hspace=0.05,wspace=0.05)
for i, axi in enumerate(ax.flat):
    axi.set(xticks=[], yticks=[])

    if y_pred[i] != y_test[i]:
        axi.text(0,7,str(y_pred[i]), color='red')
        axi.imshow((x_test[i]).reshape(28,28), cmap='Reds')
    else:
        axi.imshow(x_test[i].reshape(28,28), cmap='binary')


赤字がNNの予測なのだが、正直言ってこれを読み違えてもしかたないだろうと思える。

テストデータセットでの正答率は98%。たいして工夫してないニューラルネットワークでもこれだけの性能がでるようになった。しかも後で比較する決定木やランダムフォレストに比べても格段に速い。

### 従来法との比較

同じことを決定木で試してみよう。

In [None]:
import keras
from keras.datasets import mnist

# the data, shuffled and split between train and test sets
(x_train, y_train), (x_test, y_test) = mnist.load_data()

28x28=784次元は可視化できないので、決定木の生成はライブラリを信じるしかない。

In [None]:
import matplotlib.pyplot as plt
from sklearn.tree import DecisionTreeClassifier

# 分類器を準備する
model = DecisionTreeClassifier()

# 画像を1次元のデータ列に読みかえる。
x_train = x_train.reshape(60000,28*28)
x_test  = x_test.reshape(10000,28*28)

#まず教師データで学習させる
model.fit(x_train, y_train)

#その結果を使ってtestデータを分類してエラーを測定する。
ypred = model.predict(x_test)

ypred, y_test

In [None]:
from sklearn import metrics
print(metrics.classification_report(ypred, y_test))

In [None]:
# 画像データの表示
fig, ax = plt.subplots(12, 12, figsize=(6, 6))
fig.subplots_adjust(left=0,right=1, bottom=0,top=1,hspace=0.05,wspace=0.05)
for i, axi in enumerate(ax.flat):
    axi.set(xticks=[], yticks=[])

    if ypred[i] != y_test[i]:
        axi.text(0,7,str(ypred[i]), color='red')
        axi.imshow((x_test[i]).reshape(28,28), cmap='Reds')
    else:
        axi.imshow(x_test[i].reshape(28,28), cmap='binary')


正解率88%。

次はRandomForestを使ってみる。

In [None]:
import matplotlib.pyplot as plt
from sklearn.ensemble        import RandomForestClassifier

# 分類器を準備する
model = RandomForestClassifier()

# 画像を1次元のデータ列に読みかえる。
x_train = x_train.reshape(60000,28*28)
x_test  = x_test.reshape(10000,28*28)

#まず教師データで学習させる
model.fit(x_train, y_train)

#その結果を使ってtestデータを分類してエラーを測定する。
ypred = model.predict(x_test)

ypred, y_test

In [None]:
from sklearn import metrics
print(metrics.classification_report(ypred, y_test))

In [None]:
# 画像データの表示
fig, ax = plt.subplots(12, 12, figsize=(6, 6))
fig.subplots_adjust(left=0,right=1, bottom=0,top=1,hspace=0.05,wspace=0.05)
for i, axi in enumerate(ax.flat):
    axi.set(xticks=[], yticks=[])

    if ypred[i] != y_test[i]:
        axi.text(0,7,str(ypred[i]), color='red')
        axi.imshow((x_test[i]).reshape(28,28), cmap='Reds')
    else:
        axi.imshow(x_test[i].reshape(28,28), cmap='binary')


正答率97%。これでもかなり性能が良いとは思うが、このへんがDeep Learning以前の限界に近い。ちなみに人間の性能は95〜98%。

## ニューラルネットワークのレイヤーを増やして精度を高める

2019年にkerasで書いたコードは、書法がかなり変わったので使えそうにない。(その代わりかなりシンプルに書けるようになっている。)全部書きかえた。

In [None]:
import tensorflow as tf

# MNISTは数字画像認識の教師データ
mnist = tf.keras.datasets.mnist

# 訓練データと検証データを読みこむ。
(x_train, y_train),(x_test, y_test) = mnist.load_data()

# 255階調の画像データを0〜1の実数階調に変換。
x_train, x_test = x_train / 255.0, x_test / 255.0

# 画像処理用に特化したNNなので、2次元のまま操作する
x_train = x_train.reshape(60000, 28, 28, 1)
x_test = x_test.reshape(10000, 28, 28, 1)

# Neural Networkの設計図(どんな層をどんな順に通すか)

# Neural Networkのトポロジー定義
# Kerasのサンプルから切り貼り。もともとは数字用ではないかもしれない。

model = tf.keras.models.Sequential([
  tf.keras.layers.Conv2D(32, (3, 3), activation='relu', input_shape=(28, 28, 1)),
  tf.keras.layers.Conv2D(32, (3, 3), activation='relu'),
  tf.keras.layers.MaxPooling2D(pool_size=(2, 2)),
  tf.keras.layers.Dropout(0.25),
  tf.keras.layers.Conv2D(64, (3, 3), activation='relu'),
  tf.keras.layers.Conv2D(64, (3, 3), activation='relu'),
  tf.keras.layers.MaxPooling2D(pool_size=(2, 2)),
  tf.keras.layers.Dropout(0.25),
  tf.keras.layers.Flatten(), # input_shape=(28, 28)),
  tf.keras.layers.Dense(128, activation='relu'),
  tf.keras.layers.Dropout(0.5),
  tf.keras.layers.Dense(10, activation='softmax')
])

# 最適化の方法の指示(シナプス結合の最適化)
model.compile(optimizer='adam',
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])

# 最適化の実行
model.fit(x_train, y_train, epochs=5)
# 結果の評価(検証データでの評価)
model.evaluate(x_test, y_test)

* Conv2Dは畳み込み層(隣のピクセルだけから次の層の値を算出する)
* MaxPoolingはプーリング層(最大値だけを選んで粗視化)
* Denseは全結合層
* dropoutは結合を間引いた全結合層(ランダムに結合を間引くことで「打たれ強い」(過学習になりにくい)ネットワークを作る)
* Flattenは平滑化層。

これを見ると、このネットワークは12層の中間層を持つ深いNNであることがよみとれる。どんな層をどんな順番で組み立てるかが性能を左右するが、それ自体も機械学習で最適化させるべき対象だろう。個々の層の役割についてはNeural Networkの教科書かネットの情報を参照してほしい。

データの量もかなり多い(60000個×784ピクセル)が、最適化すべきパラメータの数(33万)も多い。複雑さという点では決定木をはるかにしのぐと言える。

正答率は99%を超えた。人間よりも性能がよさそうだ。

なお、2019年に自分のPCで実行した時は、469 step x 50 epoch (epochはパラメータ最適化の回数)で4時間かかったと書いてあった。今年はGoogleの計算機で、1875 steps x 5 epochで12分程度なので、相当速くなっている。

In [None]:
from matplotlib import pyplot as plt


y_prob = model.predict(x_test)
y_pred = np.argmax(y_prob, axis=1)

# 画像データの表示
fig, ax = plt.subplots(12, 12, figsize=(6, 6))
fig.subplots_adjust(left=0,right=1, bottom=0,top=1,hspace=0.05,wspace=0.05)
for i, axi in enumerate(ax.flat):
    axi.set(xticks=[], yticks=[])

    if y_pred[i] != y_test[i]:
        axi.text(0,7,str(y_pred[i]), color='red')
        axi.imshow((x_test[i]).reshape(28,28), cmap='Reds')
    else:
        axi.imshow(x_test[i].reshape(28,28), cmap='binary')


てきとうにサンプルから切り貼りした(最適化してない)DNNでも99.1%が達成された。人間をはるかに凌ぐ性能!

もはや特別な知識をもたなくても、画像を認識し、人間以上の精度で識別することが可能になっている。

あなたの研究で、どんな側面にこれを利用できるだろうか。

# 応用

パソコンのカメラで数字を見せて、それを読みとれるか。

まず、カメラから画像をとりこむ。今回は、Google Colab(クラウド)上でプログラムを走らせているので、動画撮影はできない。

In [None]:
from IPython.display import display, Javascript
from google.colab.output import eval_js
from base64 import b64decode

def take_photo(filename='photo.jpg', quality=0.8):
  js = Javascript('''
    async function takePhoto(quality) {
      const div = document.createElement('div');
      const capture = document.createElement('button');
      capture.textContent = 'Capture';
      div.appendChild(capture);

      const video = document.createElement('video');
      video.style.display = 'block';
      const stream = await navigator.mediaDevices.getUserMedia({video: true});

      document.body.appendChild(div);
      div.appendChild(video);
      video.srcObject = stream;
      await video.play();

      // Resize the output to fit the video element.
      google.colab.output.setIframeHeight(document.documentElement.scrollHeight, true);

      // Wait for Capture to be clicked.
      await new Promise((resolve) => capture.onclick = resolve);

      const canvas = document.createElement('canvas');
      canvas.width = video.videoWidth;
      canvas.height = video.videoHeight;
      canvas.getContext('2d').drawImage(video, 0, 0);
      stream.getVideoTracks()[0].stop();
      div.remove();
      return canvas.toDataURL('image/jpeg', quality);
    }
    ''')
  display(js)
  data = eval_js('takePhoto({})'.format(quality))
  binary = b64decode(data.split(',')[1])
  with open(filename, 'wb') as f:
    f.write(binary)
  return filename

In [None]:
from IPython.display import Image
try:
  filename = take_photo()
  print('Saved to {}'.format(filename))
  
  # Show the image which was just taken.
  display(Image(filename))
except Exception as err:
  # Errors will be thrown if the user does not have a webcam or if they do not
  # grant the page permission to access it.
  print(str(err))

In [None]:
import cv2

# 学習に使ったのと同じように、白黒の画像にする。
img = cv2.imread(filename)
gray = cv2.cvtColor(img, cv2.COLOR_RGB2GRAY)


In [None]:
gray

In [None]:
# For Colab users
from google.colab.patches import cv2_imshow

# 二値化します。
ret, thresh_value = cv2.threshold(gray, 100, 255, cv2.THRESH_BINARY_INV)

cv2_imshow(thresh_value)


In [None]:
# 白部分を膨らませる

kernel = np.ones((10,10),np.uint8)
dilated_value = cv2.dilate(thresh_value,kernel,iterations = 1)

cv2_imshow(dilated_value)

In [None]:
# 等高線(輪郭線)をみつける。
contours, hierarchy = cv2.findContours(dilated_value, cv2.RETR_TREE, cv2.CHAIN_APPROX_SIMPLE)


In [None]:
rects = img.copy()

# 輪郭線を含む長方形をすべて描く。
for cnt in contours:
    x, y, w, h = cv2.boundingRect(cnt)
    # bounding the images
    rects = cv2.rectangle(rects, (x, y), (x + w, y + h), (0, 0, 255), 1)

cv2_imshow(rects)

In [None]:
# それぞれの長方形を、数字だと思って、NNに認識させる。
detects = img.copy()

for cnt in contours:
    x, y, w, h = cv2.boundingRect(cnt)
    # 輪郭線長方形の部分だけを切りだしてコピーを作る。
    letter = thresh_value[y:y+h, x:x+w].copy()
    # 28x28ピクセルにする。
    letter = cv2.resize(letter, (28,28))
    # Arrayの形を、x_testと同じ4次元にする。-1を指定した次元はてきとうに設定してくれる。
    letter = letter.reshape(1,28,28,-1)
    # 階調を0〜1にして予測する。
    y_prob = model.predict(letter / 255)
    # 一番確率が大きかった文字を選ぶ。
    y_pred = np.argmax(y_prob, axis=1)
    # 長方形枠を描く。
    detects = cv2.rectangle(detects, (x, y), (x + w, y + h), (0, 0, 255), 1)
    # 認識した数字を描く。
    cv2.putText(img=detects, text=f'{y_pred[0]}', org=(x, y), fontFace=cv2.FONT_HERSHEY_TRIPLEX, fontScale=1, color=(0, 0, 255),thickness=1)

cv2_imshow(detects)