<h1>Convolutional Neural Networks anhand von MNIST</h1>

<p>Das neuronale Netzwerk der letzten &Uuml;bung brauchte nur einige hundert Megabyte Arbeitsspeicher. Die 60000 MNIST Bilder mit ihren 784 Pixeln, die Gewichtsmatrizen und alle Zwischenergebnisse, die im Netzwerk beim Vorw&auml;rtspass berechnet wurden, sind keine 350MB gro&szlig;:<br />
(60000&lowast; 784 + 784&lowast; 300 + 60000 &lowast; 300 + 300 &lowast; 10 + 60000 &lowast; 10) &lowast; 4 = 335MB <br />(MNISTData + Weights1 + Intermediate + Weight2 + Predictions) &lowast; Float32</p>

<p>Dieser Verbrauch steigt rasant an, wenn Konvolutionsfilter ins Spiel kommen. Werden die Eingangsdaten mit 10 Filtern beliebiger Gr&ouml;&szlig;e (z.b. 3x3) gefalten, sind die ausgehenden Daten 10 mal so gro&szlig;:<br />
(60000&lowast;784+10&lowast;3&lowast;3+60000&lowast;10&lowast;784)&lowast;4=2GB</p>

<p>Um das zu verhindern, sollten in Zukunft nicht mehr alle Daten auf einmal im Netzwerk verarbeitet werden. Stattdessen werden Mini-Batches ben&ouml;tigt.</p>

<p>Das komplette Notebook steht wieder zum <a href="http://home.htw-berlin.de/~hezel/computervision/WS1718/uebung4/Tensorflow_ConvNet_MNIST_Vorlage.ipynb">download</a> bereit.</p>

<hr>

<h2>Neural Networks mit Mini-Batches</h2>

<p>Im folgenden ist ein zweischichtiges neuronales Netzwerk implementiert, welches alle MNIST Ziffern auf einmal verarbeitet. Bauen Sie den Code so um, dass er stattdessen mit Mini-Batches funktioniert. Dabei&nbsp;k&ouml;nnen Sie Numpy verwenden und die Daten als Mini-Batch in den Computation-Graph von Tensorflow geben&nbsp;oder Sie benutzen Tensorflows Batch-Methoden, um die Batches innerhalb eines Graphens zu erzeugen. Die K&ouml;nigsdiziplin sind Tensorflow Esitmators, die die Arbeit des Batchings &uuml;bernehmen, aber viele andere Anforderungen an das Netzwerk haben.&nbsp;Wichtig ist in allen&nbsp;F&auml;llen, dass auch die Testdaten gebatched werden.</p>

<ul>
	<li><strong>Numpy</strong>: Es ist m&ouml;glich die Daten einmalig in kleine Batches zu unterteilen und diese dann in zuf&auml;lliger Reihnfolge in den Computation-Graph zu geben. Besser jedoch ist die Variante, bei der erst im letzten Moment ein Batch aus dem gesamten Datensatz extrahiert wird. Der Extraktionsbereich sollte dabei zuf&auml;llig gew&auml;hlt sein.&nbsp;&nbsp;</li>
	<li><strong>Tensorflow Batch</strong>: Sind die&nbsp;Daten klein genug, dass Sie&nbsp;in den Arbeitsspeicher, aber nicht durch das Netzwerk passen. K&ouml;nnen Sie zun&auml;chst&nbsp;komplett in den Graphen geladen werden und von dort in kleine Batches, mit einem <a href="http://www.tensorflow.org/api_docs/python/tf/train/slice_input_producer">Slice Producer</a>, zerlegt werden. Der Slicer braucht einen <a href="https://www.tensorflow.org/versions/master/api_docs/python/tf/train/Coordinator">Coordinator</a>, der das Zerlegen der Daten mithilfe von mehreren Threads koordiniert.</li>
	<li><strong>Tensorflow Estimator</strong>: Innerhalb der High-Level API von Tensorflow gibt es die Möglichkeit, Estimators zu verwenden. Diese übernehmen sämtliche Batching-Arbeiten, verlangen aber bestimmte Eigenschaften vom Computation-Graphen. So m&uuml;ssen Trainings- und Evaluierungsmethoden in einen sogenannten <a href="https://www.tensorflow.org/api_docs/python/tf/estimator/EstimatorSpec">EstimatorSpec</a> beschrieben werden, um sp&auml;ter mit einen <a href="http://www.tensorflow.org/api_docs/python/tf/estimator">Estimator Model</a> arbeiten zu k&ouml;nnen.</li>
</ul>

<p>Der Programmcode für den Import der MNIST Zahlen wurde in die <a href="http://home.htw-berlin.de/~hezel/computervision/WS1718/uebung4/cvutils.py">cvutils.py</a> Datei ausgelagert. Bitte kopieren Sie die Datei in den Ordner, in dem das Notebook läuft. Ansonsten wird der Import "from cvutils import fetch_mnist" im nächsten Abschnitt fehlschlagen.</p> 

In [1]:
import tensorflow as tf
import math
import numpy as np

In [2]:
from cvutils import fetch_mnist
from sklearn.model_selection import train_test_split
from sklearn.utils import check_random_state

# input and output data
mnist = fetch_mnist()
X = mnist.data.astype('float32')
y = mnist.target.astype('int64')

# shuffle data
random_state = check_random_state(0)
permutation = random_state.permutation(X.shape[0])
X = X[permutation]
y = y[permutation]

# split data, both sizes are a multiple of 2048
X_train, X_test, y_train, y_test = train_test_split(X, y, train_size=59392, test_size=10240)

# normalize
X_train = (X_train / 255.) 
X_test = (X_test / 255.)

In [None]:
# pixel count
num_input = 28 * 28

# num of classes
num_classes = 10

# learn rate
learning_rate = 0.005

batch_size = 32
num_iters = math.ceil(X_train.shape[0] / batch_size)

# computation graph

graph = tf.Graph()
with graph.as_default():
    
    # input data with fix shape to infer shapes of other graph nodes a build time
    x_input = tf.placeholder(dtype=tf.float32, shape=[None, num_input], name='x')
    y_input = tf.placeholder(tf.int64, shape=[None], name='y')
        
    # two layer network: 784 -> 300 -> 10
    layer1 = tf.layers.dense(inputs=x_input, units=300, activation=tf.nn.relu)
    prediction = tf.layers.dense(inputs=layer1, units=num_classes)
    
    # compute trainings error
    cost = tf.losses.sparse_softmax_cross_entropy(labels=y_input, logits=prediction)
    
    # use the Adam optimizer to derive the cost function and update the weights
    optimizer = tf.train.AdamOptimizer(learning_rate).minimize(cost)

    # accuracy for multiple batches
    acc, update_acc = tf.metrics.accuracy(labels=y_input, predictions=tf.argmax(prediction, axis=-1))

In [None]:
# session configuration
config = tf.ConfigProto()
config.gpu_options.visible_device_list = "0"
config.gpu_options.allow_growth = True

train_costs = []
test_costs = []

# work on GPU if available
with tf.device("/gpu:0"):

    # start a new session
    with tf.Session(graph=graph, config=config) as session:  
    
        # initialize weights and bias variables
        session.run(tf.group(tf.global_variables_initializer(), tf.local_variables_initializer()))     
        
        # which nodes to fetch from the computation graph
        fetch_train_nodes = {
            'cost' : cost,
            'optimizer' : optimizer 
        }
        
        for epoch in range(3):
            
            # shuffle data
            permutation = np.random.permutation(X_train.shape[0])
            X_train = X_train[permutation]
            y_train = y_train[permutation]
            
            for i in range(num_iters):
                X_batch = X_train[i * batch_size:(i + 1) * batch_size]
                y_batch = y_train[i * batch_size:(i + 1) * batch_size]
                
                output_batch = session.run(fetch_train_nodes, feed_dict={x_input: X_batch, y_input: y_batch})
                train_costs.append(output_batch["cost"])
                if(i % 500) == 0:
                    print("Train error [{}/{}]".format(epoch, i), output_batch["cost"])
            
        # check against test set
        print("Test accuracy ", session.run(update_acc, feed_dict={x_input: X_test, y_input: y_test}))

<hr>

<h2>Convolutional Neural Network mit MNIST Ziffern</h2>

<p>Nachdem das neuronale Netzwerk mit Mini-Batches arbeitet, k&ouml;nnen die Fully-Connected (Dense) Layer mit Konvolutionsschichten ersetzt werden. Sinnvoll sind z.B. zwei Schichten mit 64 5x5 und 96 3x3 Filterkerneln. Um die Dimensionalit&auml;t der Daten langsam zu reduzieren, k&ouml;nnen entweder Schrittweiten bei den Konvolutionsschichten eingestellt werden oder Pooling angewendet werden. Zum Schluss ist es hilfreich, die hochdimensionalen Daten zu flatten, um sie in Dense Layern auf 10 Dimensionen herunterzubrechen. Berechnen Sie wieder den Trainingsfehler und die Testgenauigkeit. Zu erwarten sind Genauigkeiten von bis zu 99%.&nbsp;</p>

<p>Je nachdem welche Tensorflow Version Sie nutzen (mindestens aber Version &gt;= 1.0), sind folgende Methoden hilfreich:</p>

<ul>
	<li><a href="https://www.tensorflow.org/api_docs/python/tf/nn/max_pool" target="_blank">tf.nn.max_pool</a> oder <a href="https://www.tensorflow.org/versions/master/api_docs/python/tf/layers/max_pooling2d" target="_blank">tf.layers.max_pooling2d</a></li>
	<li><a href="https://www.tensorflow.org/versions/master/api_docs/python/tf/nn/conv2d" target="_blank">tf.nn.conv2d</a> oder <a href="https://www.tensorflow.org/versions/master/api_docs/python/tf/layers/conv2d" target="_blank">tf.layers.conv2d</a></li>
	<li><a href="https://www.tensorflow.org/versions/master/api_docs/python/tf/reshape" target="_blank">tf.reshape</a> oder <a href="https://www.tensorflow.org/versions/master/api_docs/python/tf/contrib/layers/flatten" target="_blank">tf.contrib.layers.flatten</a> oder <a href="https://www.tensorflow.org/versions/master/api_docs/python/tf/layers/flatten" target="_blank">tf.layers.Flatten</a></li>
</ul>

<p><strong>Optional</strong>: Yann LeCun hat vor fast 20 Jahren das MNIST Datenset herausgebracht und die Convolutionsnetzwerke erfunden. Damals gab es nicht die nötige Rechenleistung um in kurzer Zeit die notwendigen Filterkernel mittels Backpropagation und Gradient Descent zu erlernen. Seine Netzwerke sind daher sehr minimalistisch. Implementieren Sie das <a href="http://yann.lecun.com/exdb/publis/pdf/lecun-98.pdf" target="_blank">LeNet5</a> Netzwerk nach seinen Vorbild. Padden Sie dazu die&nbsp;Eingangsdaten, damit die Bilder 32x32 Pixel haben und verwenden Sie nur 6, 16 und 120 Filterkernel&nbsp;(je 5x5 Pixel gro&szlig;) f&uuml;r die drei Konvolutionsschichten in LeNet5. Natürlich können Sie auch LeCun's <a href="http://yann.lecun.com/exdb/publis/pdf/lecun-98b.pdf" target="_blank">Stochastic gradient descent</a> nutzen um ihr Netzwerk zu trainieren oder gar den <a href="https://arxiv.org/pdf/1412.6980v8.pdf" target="_blank">Adam Optimizer</a>.</p>

<p>&nbsp;</p>

<p><img alt="LeNet5" src="http://home.htw-berlin.de/~hezel/computervision/WS1718/uebung4/LeNet5.png" style="max-width: 790px; max-height: 100%; width: auto" /><br />
&nbsp;</p>

In [6]:
# TODO Copy the neural network code and implement a convolutional version. Try to reach an accuracy over 96%.
num_classes = 10
kernel_size = 5
num_channels = 1
# Number of channels by layer
n_channels_01 = 6
n_channels_02 = 16
n_channels_03 = 120
n_channels_04 = 84
n_channels_05 = num_classes 

# learn rate
learning_rate = 0.005

batch_size = 32
num_iters = math.ceil(X_train.shape[0] / batch_size)

# Seed
seed = 5
img_dim = 28


graphCNN = tf.Graph()
with graphCNN.as_default():
    x_input = tf.placeholder(dtype=tf.float32, shape=[None, img_dim*img_dim], name='x')
    y_input = tf.placeholder(tf.int64, shape=[None], name='y')
    
    x_in = tf.reshape(x_input, shape=[tf.shape(x_input)[0], img_dim, img_dim, 1])
    
    # Network
    # Layer 01: output feature maps: 6 filters X 28x28; https://www.tensorflow.org/api_docs/python/tf/nn/conv2d
    # https://www.tensorflow.org/api_docs/python/tf/pad
    paddings = tf.constant([[0, 0,], [2, 2,], [2, 2], [0, 0,]])
    padded = tf.pad(x_in, paddings, 'CONSTANT')
    print("Padded input shape", padded.shape)

    # layer 1: output feature maps: 6 filters X 14x14;
    W1 = tf.get_variable("W1", [kernel_size, kernel_size, 1, n_channels_01], 
                         initializer=tf.contrib.layers.xavier_initializer(seed=seed))
    Z1 = tf.nn.conv2d(padded, W1, strides=[1,1,1,1], padding='VALID', name='conv1')
    A1  = tf.nn.relu(Z1, name='relu1')
    print("A1 shape:", A1.shape)
    P1 = tf.nn.max_pool(A1, ksize=[1,2,2,1], strides=[1,2,2,1], padding='SAME', name='max_pool1')
    print("P1 shape:", P1.shape)
    # 14x14

    # Layer 02 Conv: output feature maps: 16 filters X 10x10
    W2 = tf.get_variable("W2", [kernel_size, kernel_size, n_channels_01, n_channels_02], 
                         initializer=tf.contrib.layers.xavier_initializer(seed=seed))
    Z2 = tf.nn.conv2d(P1, W2, strides=[1,1,1,1], padding='VALID', name='conv2')
    A2  = tf.nn.relu(Z2, name='relu2')
    print("A2 shape:", A2.shape)
    P2 = tf.nn.max_pool(A2, ksize=[1,2,2,1], strides=[1,2,2,1], padding='VALID', name='max_pool2')
    print("P2 shape:", P2.shape)
    # 14x14

    # Layer 03 Conv: output feature maps: 120 filters X 5x5
    W3 = tf.get_variable("W3", [kernel_size, kernel_size, n_channels_02, n_channels_03], 
                         initializer=tf.contrib.layers.xavier_initializer(seed=seed))
    Z3 = tf.nn.conv2d(P2, W3, strides=[1,1,1,1], padding='SAME', name='conv3')
    A3  = tf.nn.relu(Z3, name='relu3')
    print("A3 shape:", A3.shape)

    F = tf.contrib.layers.flatten(A3)
    print('A3 flatten shape', F.shape)
    
    Z4 = tf.contrib.layers.fully_connected(F, n_channels_04, activation_fn=None)
    A4 = tf.nn.relu(Z4)
    print("A4 shape:", A4.shape)

    Z5 = tf.contrib.layers.fully_connected(A4, n_channels_05, activation_fn=None)
    print("A5 shape:", Z5.shape)

    prediction = Z5
    loss = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(labels=y_input, logits=prediction))
    
    # compute trainings error
    cost = tf.losses.sparse_softmax_cross_entropy(labels=y_input, logits=prediction)
    
    # use the Adam optimizer to derive the cost function and update the weights
    optimizer = tf.train.AdamOptimizer(learning_rate).minimize(cost)

    # accuracy for multiple batches
    acc = tf.contrib.metrics.accuracy(labels=y_input, predictions=tf.argmax(prediction, axis=-1))

Padded input shape (?, 32, 32, 1)
A1 shape: (?, 28, 28, 6)
P1 shape: (?, 14, 14, 6)
A2 shape: (?, 10, 10, 16)
P2 shape: (?, 5, 5, 16)
A3 shape: (?, 5, 5, 120)
A3 flatten shape (?, 3000)
A4 shape: (?, 84)
A5 shape: (?, 10)


In [10]:
# session configuration
config = tf.ConfigProto()
config.gpu_options.visible_device_list = "0"
config.gpu_options.allow_growth = True

train_costs = []
test_costs = []

# work on GPU if available
with tf.device("/gpu:0"):

    # start a new session
    with tf.Session(graph=graphCNN, config=config) as session:  
    
        # initialize weights and bias variables
        session.run(tf.group(tf.global_variables_initializer(), tf.local_variables_initializer()))     
        
        # which nodes to fetch from the computation graph
        fetch_train_nodes = {
            'cost' : cost,
            'optimizer' : optimizer 
        }
        
        for epoch in range(1):
            
            # shuffle data
            permutation = np.random.permutation(X_train.shape[0])
            X_train = X_train[permutation]
            y_train = y_train[permutation]
            
            
            for i in range(num_iters):
                X_batch = X_train[i * batch_size:(i + 1) * batch_size]
                y_batch = y_train[i * batch_size:(i + 1) * batch_size]
                
                output_batch = session.run(fetch_train_nodes, feed_dict={x_input: X_batch, y_input: y_batch})
                if(i % 100) == 0:
                    
                    train_acc = session.run(acc, feed_dict={x_input: X_batch, y_input:y_batch})
                    train_cost = output_batch["cost"]
                    train_costs.append(train_cost)
                    
                    i_test = np.random.randint(X_test.shape[0], size=batch_size)
                    X_batch_test = X_test[i_test]
                    y_batch_test = y_test[i_test]
                    test_acc = session.run(acc, feed_dict={x_input: X_batch_test, y_input: y_batch_test})
                    test_costs.append(test_acc)
            
                    print("Error [{}/{}] train: {:.4f} test accuracy: {:.4f}%".format(epoch, i, train_cost, test_acc))
    
            
        # check against test set
        print("Test accuracy ", session.run(acc, feed_dict={x_input: X_test, y_input: y_test}))

Error [0/0] train: 2.3007 test accuracy: 0.1562%
Error [0/100] train: 0.0679 test accuracy: 0.8438%
Error [0/200] train: 0.0587 test accuracy: 0.9688%
Error [0/300] train: 0.4822 test accuracy: 0.9062%
Error [0/400] train: 0.0285 test accuracy: 1.0000%


KeyboardInterrupt: 

In [None]:
import matplotlib.pyplot as plt 

plt.figure(1)
plt.plot(test_costs, label='Test Error')
plt.plot(train_costs, label='Train Error')
plt.legend()
plt.ylabel('cost')
plt.xlabel('iterations')
plt.title("Learning rate: {:.5f}".format(learning_rate))
plt.show()

<hr />

<h2>Abgabe</h2>

<p>Das von Ihnen erstellte Notebook muss sp&auml;testens bis zum 14. Januar 2018 um 23:59 UTC+1 ;) per E-Mail an&nbsp;<a href="mailto:hezel@htw-berlin.de" target="_blank">hezel@htw-berlin.de</a>&nbsp;eingesendet werden. Verwenden Sie als Betreff bitte &quot;CV1718 &Uuml;bung4 &lt;NAME&gt;&quot; und als Notebook Name &quot;CV1718_Ue4_Tensorflow_ConvNet_MNIST_NAME.ipynb&quot;. Bevor Sie mir eine Mail schicken, entfernen Sie bitte &uuml;ber &quot;Kernel&quot; -&gt; &quot;Restart and Clear Output&quot; s&auml;mtlichen von Python erstellten Inhalt und speichern anschlie&szlig;end das Notebook &quot;File&quot; -&gt; &quot;Save and Checkpoint&quot;.</p>