# Deep MNIST for Experts

Tensor Flowのチュートリアル「Deep MNIST for Experts」に沿って解説します。<br>
<a href="https://www.tensorflow.org/versions/r0.10/tutorials/index.html">View Tutrial</a>

## 前回の復習

Tensor Flowのチュートリアル「MNIST For ML Beginners」を簡単におさらい。<br>
<a href="https://github.com/e-xample/tensorflow/blob/master/MNIST_For_ML_Beginners.ipynb">詳しくはこちら</a>

ニューラルネットワークのモデル構築のおおまかな流れとしては以下のようになっていたことを思い出しましょう！

+ 学習データ・テストデータの準備
+ 入出力の設計
+ ニューラルネットワークモデルの構造設計
+ パラメータ(重みW, バイアスb)の初期化
+ 層間のモデル構築
+ 損失関数の定義
+ 最適化アルゴリズムの定義
+ パラメータ(重みW, バイアスb)の学習
+ 評価

In [5]:
import tensorflow as tf

# 学習データ・テストデータの準備(手書き文字のロード)
from tensorflow.examples.tutorials.mnist import input_data
mnist = input_data.read_data_sets('MNIST_data', one_hot=True)

sess = tf.InteractiveSession()

# 入出力の設計(入力784次元、出力10次元)
x = tf.placeholder(tf.float32, shape=[None, 784])
y_ = tf.placeholder(tf.float32, shape=[None, 10])

# 入力層-出力層間のユニット結合の構造設計(入力層、出力層の２層構造。Fully-Connected。)
W = tf.Variable(tf.zeros([784,10]))
b = tf.Variable(tf.zeros([10]))

# パラメータ(重みW, バイアスb)の初期化
sess.run(tf.initialize_all_variables())

# 出力層の出力定義(出力層の活性化関数として、softmax関数を用いている)
y = tf.nn.softmax(tf.matmul(x,W) + b)

# 損失関数の定義(損失関数として、cross-entopy関数を用いている)
cross_entropy = tf.reduce_mean(-tf.reduce_sum(y_ * tf.log(y), reduction_indices=[1]))

# 最適化アルゴリズムの定義(最適化アルゴリズムとして、勾配降下法を用いている)
train_step = tf.train.GradientDescentOptimizer(0.5).minimize(cross_entropy)

# パラメータ(重みW, バイアスb)の学習(学習方法として、確率的勾配降下法を用いている)
for i in range(1000):
    batch = mnist.train.next_batch(100)
    train_step.run(feed_dict={x: batch[0], y_: batch[1]})
    
# 評価(正解率の表示)
correct_prediction = tf.equal(tf.argmax(y,1), tf.argmax(y_,1))
accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32))
print(accuracy.eval(feed_dict={x: mnist.test.images, y_: mnist.test.labels}))

Extracting MNIST_data/train-images-idx3-ubyte.gz
Extracting MNIST_data/train-labels-idx1-ubyte.gz
Extracting MNIST_data/t10k-images-idx3-ubyte.gz
Extracting MNIST_data/t10k-labels-idx1-ubyte.gz


Exception ignored in: <bound method BaseSession.__del__ of <tensorflow.python.client.session.InteractiveSession object at 0x10bb69588>>
Traceback (most recent call last):
  File "/Users/suganuma/.pyenv/versions/3.5.2/lib/python3.5/site-packages/tensorflow/python/client/session.py", line 522, in __del__
    self.close()
  File "/Users/suganuma/.pyenv/versions/3.5.2/lib/python3.5/site-packages/tensorflow/python/client/session.py", line 1262, in close
    self._default_session.__exit__(None, None, None)
  File "/Users/suganuma/.pyenv/versions/3.5.2/lib/python3.5/contextlib.py", line 66, in __exit__
    next(self.gen)
  File "/Users/suganuma/.pyenv/versions/3.5.2/lib/python3.5/site-packages/tensorflow/python/framework/ops.py", line 3536, in get_controller
    % type(default))
AssertionError: Nesting violated for default stack of <class 'weakref'> objects


0.9144


「MNIST For ML Beginners」では、入力層と出力層の２層のみからなる簡単な構造でした。  
今回は「画像認識」というタスクに対する「適切な」ニューラルネットワークモデルを構築してみましょう！

## 画像特有の性質を考えてみる

### 局所性


### 不変性
微小な位置ずれ

## Convolutional Neural Network

CNN は脳の視覚野における神経科学の知見を基に開発されたモデルであり、多チャネルの画像に小サイズの二次元フィルタを畳み込む演算を行うことで画像の持つ局所的な特徴を抽出する Convolution 層と、その多チャネル画像の小領域での値を一つの値に集約し解像度を落とすことで抽出された特徴の位置が若干変化しても取り出される特徴はほとんど変化しないという特徴の不変性を獲得する Pooling 層を複数積み重ね、最後に通常の全結合層を数層重ねて出力を計算する．

In [6]:
def weight_variable(shape):
    initial = tf.truncated_normal(shape, stddev=0.1)
    return tf.Variable(initial)

def bias_variable(shape):
    initial = tf.constant(0.1, shape=shape)
    return tf.Variable(initial)

In [7]:
def conv2d(x, W):
    return tf.nn.conv2d(x, W, strides=[1, 1, 1, 1], padding='SAME')

def max_pool_2x2(x):
    return tf.nn.max_pool(x, ksize=[1, 2, 2, 1],
                        strides=[1, 2, 2, 1], padding='SAME')

In [8]:
x_image = tf.reshape(x, [-1,28,28,1])
y_ = tf.placeholder(tf.float32, shape=[None, 10])

In [9]:
W_conv1 = weight_variable([5, 5, 1, 32])
b_conv1 = bias_variable([32])

h_conv1 = tf.nn.relu(conv2d(x_image, W_conv1) + b_conv1)
h_pool1 = max_pool_2x2(h_conv1)

In [10]:
W_conv2 = weight_variable([5, 5, 32, 64])
b_conv2 = bias_variable([64])

h_conv2 = tf.nn.relu(conv2d(h_pool1, W_conv2) + b_conv2)
h_pool2 = max_pool_2x2(h_conv2)

In [11]:
W_fc1 = weight_variable([7 * 7 * 64, 1024])
b_fc1 = bias_variable([1024])

h_pool2_flat = tf.reshape(h_pool2, [-1, 7*7*64])
h_fc1 = tf.nn.relu(tf.matmul(h_pool2_flat, W_fc1) + b_fc1)

In [12]:
keep_prob = tf.placeholder(tf.float32)
h_fc1_drop = tf.nn.dropout(h_fc1, keep_prob)

In [13]:
W_fc2 = weight_variable([1024, 10])
b_fc2 = bias_variable([10])

y_conv=tf.nn.softmax(tf.matmul(h_fc1_drop, W_fc2) + b_fc2)

In [14]:
cross_entropy = tf.reduce_mean(-tf.reduce_sum(y_ * tf.log(y_conv), reduction_indices=[1]))
train_step = tf.train.AdamOptimizer(1e-4).minimize(cross_entropy)
correct_prediction = tf.equal(tf.argmax(y_conv,1), tf.argmax(y_,1))
accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32))