<a href="https://datamics.com/de/courses/"><img src=../DATA/bg_datamics_top.png></a>

<em text-align:center>© Datamics</em>
## CNN Projekt: Übung Lösungen

Wir werden den CIFAR-10 Datensatz verwenden, der für die Bilderkennung sehr bekannt ist! 

Der CIFAR-10 Datensatz besteht aus 60000 32x32 Farbbildern in 10 Klassen, mit 6000 Bildern pro Klasse. Es gibt 50000 Trainingsbilder und 10000 Testbilder. 


Der Datensatz ist in fünf Trainingschargen und eine Testcharge mit jeweils 10000 Bildern aufgeteilt. Die Testcharge enthält genau 1000 zufällig ausgewählte Bilder aus jeder Klasse. Die Trainingschargen enthalten die restlichen Bilder in zufälliger Reihenfolge, aber einige Trainingschargen können mehr Bilder von einer Klasse als von einer anderen enthalten. Dazwischen befinden sich genau 5000 Bilder aus jeder Klasse. 


**Folge den Anweisungen in Fett. Schau dir am besten das Lösungsvideo an, falls du irgendwo stecken bleibst.**


## Schritt 0: Die Daten einlesen

** *Falls du Probleme damit hast, schau dir einfach das Lösungsvideo an. Das hat eigentlich nichts mit der Übung zu tun, sondern eher mit dem Einrichten der Daten. Bitte schaue dir zunächst das Lösungsvideo an, bevor du Fragen zur Aufgabe stellst.* **

** Downloade die Daten von CIFAR hier: https://www.cs.toronto.edu/~kriz/cifar.html **

** Speziell der CIFAR-10 Python Versionslink: https://www.cs.toronto.edu/~kriz/cifar-10-python.tar.gz **

** Merke dir das Verzeichnis, in dem du die Datei speicherst! **

In [None]:
# Dateipfad als String hier eintragen
CIFAR_DIR = 'cifar-10-batches-py/'

Das Archiv enthält die Dateien `'data_batch_1`, `data_batch_2`, ...., `data_batch_5` sowie `test_batch`. Jede dieser Dateien ist ein mit `cPickle` erzeugtes Python "pickeld" Objekt.

** Lade die Daten. Verwende diesen Code zum laden: **

In [None]:
def unpickle(file):
    import pickle
    with open(file, 'rb') as fo:
        cifar_dict = pickle.load(fo, encoding='bytes')
    return cifar_dict

In [None]:
dirs = ['batches.meta','data_batch_1','data_batch_2','data_batch_3','data_batch_4','data_batch_5','test_batch']

In [None]:
all_data = [0,1,2,3,4,5,6]

In [None]:
for i,direc in zip(all_data,dirs):
    all_data[i] = unpickle(CIFAR_DIR+direc)

In [None]:
batch_meta = all_data[0]
data_batch1 = all_data[1]
data_batch2 = all_data[2]
data_batch3 = all_data[3]
data_batch4 = all_data[4]
data_batch5 = all_data[5]
test_batch = all_data[6]

In [None]:
batch_meta

** Wieso sind die 'b's vor dem String? **

Bytes-Literale werden immer mit 'b' oder 'B' vorangestellt; sie erzeugen eine Instanz des Bytes-Typs anstelle des str-Typs. Sie dürfen nur ASCII-Zeichen enthalten. Bytes mit einem numerischen Wert von 128 oder mehr müssen mit Escapes ausgedrückt werden.

https://stackoverflow.com/questions/6269765/what-does-the-b-character-do-in-front-of-a-string-literal

In [None]:
data_batch1.keys()

Auf diese Weise geladen, enthält jede der Batch-Dateien ein Verzeichnis mit den folgenden Elementen:

* data -- ein 10000x3072 numpy Array von uint8s. Jede Zeile des Arrays speichert ein 32x32 Farbbild. Die ersten 1024 Einträge enthalten die roten Kanalwerte, die nächsten 1024 die grünen und die letzten 1024 die blauen. Das Bild wird in zeilenweiser Reihenfolge gespeichert, so dass die ersten 32 Einträge des Arrays die roten Kanalwerte der ersten Zeile des Bildes sind.

* labels -- eine Liste von 10000 Nummern im Bereich von 0-9. Die Zahl am Index i gibt die Bezeichnung des i-ten Bildes in den Array-Daten an.

Der Datensatz enthält eine weitere Datei namens batches.meta. Es enthält ebenfalls ein Python-Dictionary-Objekt. Es hat die folgenden Einträge:

* label_names -- eine 10-Elemente-Liste, die den numerischen Beschriftungen im oben beschriebenen Beschriftungsfeld aussagekräftige Namen gibt. Zum Beispiel label_names[0] == "Flugzeug", label_names[1] == "Automobil", etc.

### Anzeige eines einzelnen Bildes mit matplotlib

Ein einzelnes Bild aus data_batch1 mit plt.imshow() anzeigen. Dazu musst du 'reshape' und 'transpose' auf den numpy Array X = data_batch[b'data'] anwenden.

** Das sollte dann so aussehen: **

    # Array mit allen umgewandelten und zu Ausgabe formattierten Bilder:
    X = X.reshape(10000, 3, 32, 32).transpose(0,2,3,1).astype("uint8")



In [None]:
import matplotlib.pyplot as plt
%matplotlib inline

import numpy as np

In [None]:
# setzte hier den Code ein!

In [None]:
X[0].max()

In [None]:
(X[0]/255).max()

In [None]:
plt.imshow(X[0])

In [None]:
plt.imshow(X[1])

In [None]:
plt.imshow(X[4])

# Hilfsfunktionen für den Umgang mit Daten.

** Sobald du bereit bist, die Diagrammsitzung zu erstellen, kannst du den unten angegebenen Code benutzen, um die nächste Charge zu erfassen.
Kannst du die Funktionsweise erklären?**

In [None]:
def one_hot_encode(vec, vals=10):
    '''
    Verwende die One-Hot-Encodierung der 10 möglichen Labels. 
    '''
    n = len(vec)
    out = np.zeros((n, vals))
    out[range(n), vec] = 1
    return out

In [None]:
class CifarHelper():
    
    def __init__(self):
        self.i = 0
        
        self.all_train_batches = [data_batch1,data_batch2,data_batch3,data_batch4,data_batch5]
        self.test_batch = [test_batch]
        
        self.training_images = None
        self.training_labels = None
        
        self.test_images = None
        self.test_labels = None
    
    def set_up_images(self):
        
        print("Einrichten von Trainingsbildern und Labels")
        
        # Reiht die Trainingsbilder vertikal auf
        self.training_images = np.vstack([d[b"data"] for d in self.all_train_batches])
        train_len = len(self.training_images)
        
        # Reshapes und normalisiert die Trainingsdaten
        self.training_images = self.training_images.reshape(train_len,3,32,32).transpose(0,2,3,1)/255
        self.training_labels = one_hot_encode(np.hstack([d[b"labels"] for d in self.all_train_batches]), 10)
        
        print("Einrichten von Testbildern und Labels")
        
        # Reiht die Testbilder vertikal auf
        self.test_images = np.vstack([d[b"data"] for d in self.test_batch])
        test_len = len(self.test_images)
        
        # Reshapes und normalisiert die Trainingsdaten
        self.test_images = self.test_images.reshape(test_len,3,32,32).transpose(0,2,3,1)/255
        
        # One-hot Encodierung der Testlabels (z.B. [0,0,0,1,0,0,0,0,0,0])
        self.test_labels = one_hot_encode(np.hstack([d[b"labels"] for d in self.test_batch]), 10)

        
    def next_batch(self, batch_size):
        # Die 100 Dimensionen des Reshape Aufrufs basiert auf der Annnahme einer Batch-Size von 100!
        x = self.training_images[self.i:self.i+batch_size].reshape(100,32,32,3)
        y = self.training_labels[self.i:self.i+batch_size]
        self.i = (self.i + batch_size) % len(self.training_images)
        return x, y

** Wie man den obigen Code benutzt: **

In [None]:
# Führe vor deiner tf.Session die folgende zwei Zeilen aus
ch = CifarHelper()
ch.set_up_images()

# Verwende diese Zeilen während der Sitzung, um die nächste Charge zu holen.
# (Genau wie bei mnist.train.next_batch)
# batch = ch.next_batch(100)

## Das Modell erstellen

** Import tensorflow **

** Erstelle zwei Platzhalter x und y_true. Ihre Formen sollten wie folgt sein:** 


* x shape = [None,32,32,3]
* y_true shape = [None,10]


** Erstelle einen weiteren Platzhalter namens hold_prob. Hier besteht keine Notwendigkeit für eine Form (en. shape). Dieser Platzhalter enthält nur eine einzige Wahrscheinlichkeit für den Abbruch.**

### Helfer-Funktionen

** Hole dir die Hilfsfunktionen von MNIST mit CNN.**

*Hinweis: Wenn du eine Herausforderung möchtest, kannst du auch probieren hier eine Hilfsfunktion selbst zu erstellen.*

Du wirst folgendes brauchen:

* init_weights
* init_bias
* conv2d
* max_pool_2by2
* convolutional_layer
* normal_full_layer

In [None]:
def init_weights(shape):
    init_random_dist = tf.truncated_normal(shape, stddev=0.1)
    return tf.Variable(init_random_dist)

def init_bias(shape):
    init_bias_vals = tf.constant(0.1, shape=shape)
    return tf.Variable(init_bias_vals)

def conv2d(x, W):
    return tf.nn.conv2d(x, W, strides=[1, 1, 1, 1], padding='SAME')

def max_pool_2by2(x):
    return tf.nn.max_pool(x, ksize=[1, 2, 2, 1],
                          strides=[1, 2, 2, 1], padding='SAME')

def convolutional_layer(input_x, shape):
    W = init_weights(shape)
    b = init_bias([shape[3]])
    return tf.nn.relu(conv2d(input_x, W) + b)

def normal_full_layer(input_layer, size):
    input_size = int(input_layer.get_shape()[1])
    W = init_weights([input_size, size])
    b = init_bias([size])
    return tf.matmul(input_layer, W) + b

### Erstelle die Layers

** Erstelle eine Convolutional Layer und eine Pooling Layer wie bei MNIST.**

Es liegt an dir, wie groß die Convolution sein soll, aber die letzten beiden Ziffern müssen wegen der 3 Farbkanäle und 32 Pixel 3 und 32 sein. Du könntest zum Beispiel folgendes verwenden:

        convo_1 = convolutional_layer(x,shape=[4,4,3,32])

** Erstelle die nächsten Convolutions- und Pooling-Layers.  Die letzten beiden Dimensionen der convo_2-Schicht sollten 32,64 sein.**

**Erstelle nun eine abgeflachte Layer, indem du die Pooling-Ebene in [-1,8 \* 8 \* 64] or [-1,4096] umwandelst.**

In [None]:
8*8*64

**Erstelle nun eine neue volle Ebene mit der Funktion `normal_full_layer` und übergebe sie in ihrer flattend Convolution Layer 2 mit size=1024.**

*Hinweis: Du kannst dies auch auf etwa 512 reduzieren*

** Erstelle nun eine Dropout-Layer mit `tf.nn.dropout`. Denke daran, deinen `hold_prob` Platzhalter zu übergeben.**

** Zuletzt setz die Ausgabe auf `y_pred`, indem du die Dropout-Layer in die Funktion `normal_full_layer` übergibst. Die Größe sollte wegen der 10 möglichen Labels 10 sein.**

### Loss Function


** Erstelle eine `cross_entropy` Verlustfunktion **

### Optimizer
** Erstelle den Optimierer mit dem AdamOptimizer**

** Erstelle eine Variable, um alle globalen tf-Variablen zu initialisieren.**

## Graph Session

** Führe die Trainings- und Testausdrucke in einer Tf-Sitzung durch und führe dein Modell aus.**

# Gut gemacht!