## ニューラルネットワーク入門
人工ニューラルネットワーク(ANN, 人工神経回路網)は、近年になって急激に脚光を浴びはじめた。

1. **これまでの手法の限界**
   教える(=認識する)内容が複雑になるにつれ、人によるパラメータチューニングに限界が見えてきた。

2. **NNにおけるブレークスルー**
   NN自体は1940年代から研究が始まっていたが、性能が伸び悩み、実用には向かないと考えられていた。今世紀に入りそれを打破する新しいアイディアにより、人の手助けなしに、自律的に極めて高度な学習ができるようになった。
   
3. **データ量の増大**
   デジタル写真や音声データが一般化し、膨大な教師データを準備できるようになった。
   
4. **計算機性能の向上**
   膨大な量のトレーニングができるようになった。
   
### ANNとは何か
神経細胞(ニューロン)の信号伝達をモデル化し、それを大量に組みあわせてネットワーク化して脳の信号処理を模倣する試み。脳機能を忠実に再現しているわけではない。

### 何ができるのか
画像や音声などの、大きなデータを入力し、分類、エンコーディング、認識、タグ付け、ノイズ除去などのさまざまなタスクを行う。最新のディープニューラルネットワークを用いると、画像認識、文字認識等で人間を越える能力を発揮する。

### ディープラーニングとは何か
ディープニューラルネットワークを用いた機械学習。

### ディープニューラルネットワークとは何か
ネットワークの階層性が深いニューラルネットワークのこと。2016年現在、「非常に深い」ニューラルネットワークとは10層程度を指していたが、2018年にはすでに何十層もあるのがあたりまえになりつつある。基本的な構造はどのニューラルネットワークも同じだが、ディープニューラルネットワークを設計する場合には、各階層に役割を与える場合が多い。

### もてはやされる理由

1. 人力では達成不可能な複雑なタスクを実現できるようになった。

2. 学習過程での計算量は莫大だが、一旦学習したあとは、かけ算と足し算の組みあわせによる、わずかな計算しか必要としない = スマホ程度の計算能力で十分利用できる。

### 我々科学者の立ち位置
1. DNNの開発に参入するのは難しい。計算機シミュレーションのために、半導体設計から始めるようなもの。よほどの勝算がなければやめておいたほうがいい。
2. DNNで何ができ、何ができないかを理解した上で、DNNに適合するような問題設定を考える。既存のフレームワーク(TensorFlowなど)を使って自力で解くか、外部専門家に適切な要望を出して解決してもらう。

### フレームワーク
フレームワークとは、ニューラルネットワークを計算機に実装する一連の作業に必要なツール一式のこと。フレームワークが違うと、重みやバイアスといった変数をどんな形式で指定するか、バックプロパゲーションをどのように実施するか、などといった作業手順が違ってくる。

適切なフレームワークを選べば、計算機の性能を最大限にひきだせる。複数のGPUを使って計算を加速したり、外部のCloudに任せてしまうことすら可能。(例えばAmazonのクラウドAWSはMXNetやTensorFlowに対応しているらしい)

(July 2018)

|FW name | 公開年   | 開発主体 | 言語  |github|
|:---:|:---:|:------|:-----|:---|
|Theano |(2010) |MontrealU |Python|[Theano/Theano](https://github.com/Theano/Theano)
|Caffe   |2013     |UCB      |C++, Python|[BVLC/caffe](https://github.com/BVLC/caffe)
|Chainer |2015     |PFN      |Python |[chainer/chainer](https://github.com/chainer/chainer)
|CNTK    |2015      |Microsoft |Python|[Microsoft/CNTK](https://github.com/Microsoft/CNTK)
|TensorFlow | 2015 | Google | C++, Python |[tensorflow/tensorflow](https://github.com/tensorflow/tensorflow)
|neon    |2015   |Intel     |Python|[NervanaSystems/neon](https://github.com/NervanaSystems/neon)
|PyTorch |2016   |NYU, Facebook|Python|[pytorch/pytorch](https://github.com/pytorch/pytorch)
|NNabla  |2017   |Sony      |C++, Python   |[sony/nnabla](https://github.com/sony/nnabla)
|Caffe2  |2017     |Facebook |C++, Python|[caffe2/caffe2](https://github.com/caffe2/caffe2)
|MXNet   |2017     |WU, CMU  |Python, R, Julia, Go|[apache/incubator-mxnet](https://github.com/apache/incubator-mxnet)

* Pythonが書ければ、どれも使える。
* どのプロジェクトも、[github](https://github.com)でソースプログラムを公開している。
* https://qiita.com/bonotake/items/cbd44abbcbe333f264d8 などを参考に整理

## TensorFlowによる実装例

TensorFlowはGoogleが提供しているNNフレームワーク。次のサイトで教師あり学習の利用例をブラウザ上で試すことができる: https://playground.tensorflow.org

ここでは、https://www.tensorflow.org/versions/r1.0/get_started/mnist/beginners をなぞってみる。

In [None]:
from tensorflow.examples.tutorials.mnist import input_data
mnist = input_data.read_data_sets("MNIST_data/", one_hot=True)

In [None]:
import tensorflow as tf

In [None]:
# 1段だけのNNを準備する (遅延評価)
x = tf.placeholder(tf.float32, [None, 784])

W = tf.Variable(tf.zeros([784, 10]))
b = tf.Variable(tf.zeros([10]))

y = tf.nn.softmax(tf.matmul(x, W) + b)

In [None]:
y_ = tf.placeholder(tf.float32, [None, 10])

In [None]:
# 評価関数の定義 (遅延評価)
cross_entropy = tf.reduce_mean(-tf.reduce_sum(y_ * tf.log(y),
                                              reduction_indices=[1]))
cross_entropy

In [None]:
# 訓練方法の定義 (訓練データによる評価→バックプロパゲーション。遅延評価)
train_step = tf.train.GradientDescentOptimizer(0.5).minimize(cross_entropy)
train_step

In [None]:
# 訓練セッションを作る。
sess = tf.InteractiveSession()

In [None]:
# 変数を初期化する
tf.global_variables_initializer().run()

In [None]:
# 訓練セッションの実行: 訓練データで1000回訓練する。
for _ in range(100):
    # 100組のランダムなデータを選ぶ
    batch_xs, batch_ys = mnist.train.next_batch(1000)
    sess.run(train_step, feed_dict={x: batch_xs, y_: batch_ys})

In [None]:
# 性能評価関数の定義 (遅延評価)：
# y_ (正解)とy (推定)の、それぞれの最高確率のものが一致するかどうか
correct_prediction = tf.equal(tf.argmax(y,1), tf.argmax(y_,1))

In [None]:
# 精度関数の定義 (遅延評価)
accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32))

In [None]:
# 検証セッションの実行
print(sess.run(accuracy, 
               feed_dict={x: mnist.test.images,
                          y_: mnist.test.labels}))

テストデータセットでの正答率は92%。悪い。

In [None]:
sess.close()

### 性能改善
どうすれば良いか?
* 階層を増やす。
* 階層を増やすと過学習に陥る可能性がある。
  * トレーニングを増やす。
  * dropout(いくつかのリンクをランダムに外し、外乱に強いrobustなニューラルネットワークに育てる)

In [None]:
from tensorflow.examples.tutorials.mnist import input_data
mnist = input_data.read_data_sets('MNIST_data', one_hot=True)

In [None]:
import tensorflow as tf
sess = tf.InteractiveSession()

In [None]:
x = tf.placeholder(tf.float32, shape=[None, 784])
y_ = tf.placeholder(tf.float32, shape=[None, 10])

In [None]:
W = tf.Variable(tf.zeros([784,10]))
b = tf.Variable(tf.zeros([10]))

In [None]:
sess.run(tf.global_variables_initializer())

In [None]:
y = tf.matmul(x,W) + b

In [None]:
cross_entropy = tf.reduce_mean(
    tf.nn.softmax_cross_entropy_with_logits(labels=y_, logits=y))

In [None]:
def weight_variable(shape):
  initial = tf.truncated_normal(shape, stddev=0.1)
  return tf.Variable(initial)

# SoftMaxの代わりにReLUを使う場合、Biasはすこし与えたほうが良い。
def bias_variable(shape):
  initial = tf.constant(0.1, shape=shape)
  return tf.Variable(initial)

In [None]:
def conv2d(x, W):
  return tf.nn.conv2d(x, W, strides=[1, 1, 1, 1], padding='SAME')

def max_pool_2x2(x):
  return tf.nn.max_pool(x, ksize=[1, 2, 2, 1],
                        strides=[1, 2, 2, 1], padding='SAME')

In [None]:
W_conv1 = weight_variable([5, 5, 1, 32])
b_conv1 = bias_variable([32])

In [None]:
x_image = tf.reshape(x, [-1,28,28,1])

In [None]:
h_conv1 = tf.nn.relu(conv2d(x_image, W_conv1) + b_conv1)
h_pool1 = max_pool_2x2(h_conv1)

In [None]:
W_conv2 = weight_variable([5, 5, 32, 64])
b_conv2 = bias_variable([64])

h_conv2 = tf.nn.relu(conv2d(h_pool1, W_conv2) + b_conv2)
h_pool2 = max_pool_2x2(h_conv2)

In [None]:
W_fc1 = weight_variable([7 * 7 * 64, 1024])
b_fc1 = bias_variable([1024])

h_pool2_flat = tf.reshape(h_pool2, [-1, 7*7*64])
h_fc1 = tf.nn.relu(tf.matmul(h_pool2_flat, W_fc1) + b_fc1)

In [None]:
keep_prob = tf.placeholder(tf.float32)
h_fc1_drop = tf.nn.dropout(h_fc1, keep_prob)

In [None]:
W_fc2 = weight_variable([1024, 10])
b_fc2 = bias_variable([10])

y_conv = tf.matmul(h_fc1_drop, W_fc2) + b_fc2

In [None]:
cross_entropy = tf.reduce_mean(
    tf.nn.softmax_cross_entropy_with_logits(labels=y_,
                                            logits=y_conv))
train_step = tf.train.AdamOptimizer(1e-4).minimize(cross_entropy)
correct_prediction = tf.equal(tf.argmax(y_conv,1), tf.argmax(y_,1))
accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32))
sess.run(tf.global_variables_initializer())

for i in range(20000):
  batch = mnist.train.next_batch(50)
  if i%100 == 0:
    train_accuracy = accuracy.eval(feed_dict={
        x:batch[0], y_: batch[1], keep_prob: 1.0})
    print("step %d, training accuracy %g"%(i, train_accuracy))
  if i%1000 == 0:
    print("test accuracy %g"%accuracy.eval(feed_dict={
      x: mnist.test.images, y_: mnist.test.labels, keep_prob: 1.0}))  
  train_step.run(feed_dict={x: batch[0], y_: batch[1], keep_prob: 0.5})

print("test accuracy %g"%accuracy.eval(feed_dict={
      x: mnist.test.images, y_: mnist.test.labels, keep_prob: 1.0}))  



TensorFlowをそのまま使うとあまり読みやすくないので、Kerasでwrapしてみる。

* https://qiita.com/cvusk/items/2cd3e516276b426bc58c

In [None]:
import keras
from keras.datasets import mnist
from keras.models import Sequential
from keras.layers import Dense, Dropout, Conv2D, MaxPooling2D, Flatten
from keras.optimizers import RMSprop

num_classes = 10

# the data, shuffled and split between train and test sets
(x_train, y_train), (x_test, y_test) = mnist.load_data()

x_train = x_train.reshape(60000, 28, 28, 1)
x_test = x_test.reshape(10000, 28, 28, 1)
x_train = x_train.astype('float32')
x_test = x_test.astype('float32')
x_train /= 255
x_test /= 255
print(x_train.shape[0], 'train samples')
print(x_test.shape[0], 'test samples')

# convert class vectors to binary class matrices
y_train = keras.utils.to_categorical(y_train, num_classes)
y_test = keras.utils.to_categorical(y_test, num_classes)


In [None]:
# Kerasのサンプルから切り貼り。もともとは数字用ではないかもしれない。

model = Sequential()
model.add(Conv2D(32, (3, 3), activation='relu', input_shape=(28,28,1)))
model.add(Conv2D(32, (3, 3), activation='relu'))
model.add(MaxPooling2D(pool_size=(2, 2)))
model.add(Dropout(0.25))

model.add(Conv2D(64, (3, 3), activation='relu'))
model.add(Conv2D(64, (3, 3), activation='relu'))
model.add(MaxPooling2D(pool_size=(2, 2)))
model.add(Dropout(0.25))

model.add(Flatten())
model.add(Dense(256, activation='relu'))
model.add(Dropout(0.5))
model.add(Dense(10, activation='softmax'))
model.summary()

# 隠れ層が2枚あるNN?

In [None]:
model.compile(loss='categorical_crossentropy',
              optimizer=RMSprop(),
              metrics=['accuracy'])

In [None]:
batch_size = 128
epochs = 50
history = model.fit(x_train, y_train,
                    batch_size=batch_size,
                    epochs=epochs,
                    verbose=0,
                    validation_data=(x_test, y_test))

In [None]:
score = model.evaluate(x_test, y_test, verbose=0)
print('Test loss', score[0])
print('Test accuracy', score[1])

てきとうにサンプルから切り貼りした(最適化してない)DNNでも99.3%が達成された。

## 化学での応用