[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/floleuerer/ml-tutorials/blob/main/05_mnist.ipynb)

# Vorbereitungen

Laufzeit-Typ ändern. Python-Pakete von fast.ai installieren und importieren.

In [None]:
!pip install -Uq fastai

In [None]:
from fastai.vision.all import *

# MNIST - die Mutter aller Datensätze :)

![MNIST](imgs/05_mnist.png)

Der MNIST Datensatz, ist vermutlich DER Datensatz, mit dem man die ersten Deep Learning Experimente macht. Er besteht aus handschriftlichen Ziffern von 0-9. Der Vorteil des Datensatzes ist, dass die Bilder schwarz / weiß, 28 x 28 Pixel groß und nur 10 Klassen (die Ziffern von 0 - 9) umfasst.

Anhand dieses Datensatzes können wir uns ansehen, wie wir mit PyTorch selbst Modell-Architekturen bauen können.

# Dataloader für MNIST

In [None]:
path = untar_data(URLs.MNIST)

In [None]:
db = DataBlock(blocks=(ImageBlock(cls=PILImageBW), CategoryBlock), 
                  get_items=get_image_files, 
                  get_y=parent_label)

dls = db.dataloaders(path)

In [None]:
dls.show_batch()

# Das Modell

![LeNet5 Architecture](imgs/05_lenet-arch.png)

Wir benötigen folgende Layer für ein minimales CNN:

**Conv2d**
- in_channels = 1, Wieviele Kanäle (bei Bildern Farben) haben die Bilder? In unserem Fall s/w -> 1 Kanal
- out_channels = 6, Anzahl der Filter des Layers
- kernel_size = 3, wie groß sind die Filter des Layers

**ReLU**
Wir verwenden einen [ReLU](https://de.wikipedia.org/wiki/Rectifier_(neuronale_Netzwerke))-Layer als "non-linearity" 

**Average Pooling**
Ein `Pooling` Layer wird verwendet um die Größe innerhalb des Modells zu reduzieren. Ein Pooling-Layer mit der Kernel-Größe 2 halbiert den Output des vorherigen Layers.

- kernel_size=2

**Flatten**
Ein `Flatten` Layer nimmt den mehrdimensionalen Output des vorherigen Layers und reduziert ihn auf eine Dimension.

**Linear**
Ein `Linear` Layer führ eine Matrixmultiplikation (Output des vorherigen Layers * Parameter des Layers) durch.
- in_features = 1014, Größe des Outputs nach dem Flatten Layer, wie sich die 1014 ergeben sehen wir weiter unten
- out_features = 10, wir haben 10 Klassen deshalb muss der letzte Layer auch 10 Features ausgeben.

In [None]:
l_conv1 = nn.Conv2d(in_channels=1, out_channels=6, kernel_size=3)
l_relu = nn.ReLU()
l_avgpool = nn.AvgPool2d(kernel_size=2)

In [None]:
batch = dls.one_batch()

In [None]:
inp = batch[0].to('cpu')

In [None]:
o = l_conv1(inp)

In [None]:
o

In [None]:
o = l_relu(o)

In [None]:
o

In [None]:
o.shape

In [None]:
o = l_avgpool(o)

In [None]:
o.shape

## Body

In [None]:
body = nn.Sequential(l_conv1, l_relu, l_avgpool)

In [None]:
o_body = body(inp)

In [None]:
o_body.shape

## Head

Die Größe des Body-Outputs beträgt (6 x 13 x 13) nach dem Flatten Layer (3D -> 1D) beträgt die Größe also (6 x 13 x 13) => (1 x 1014)

In [None]:
l_flat = nn.Flatten()
l_linear = nn.Linear(in_features=1014, out_features=10)

In [None]:
head = nn.Sequential(l_flat,
                     l_linear)

In [None]:
o_head = head(o_body)

In [None]:
o_head.shape

## Model = Body + Head

In [None]:
model = nn.Sequential(body, head)

In [None]:
o = model(inp)

In [None]:
o.shape

# Training

In [None]:
learn = Learner(dls, model, metrics=accuracy)

In [None]:
learn.summary()

In [None]:
learn.lr_find()

In [None]:
learn.fit_one_cycle(5, 1e-2)

In [None]:
learn.show_results()