# Bilderklassifikation

In der letzten Einheit haben wir gelernt, wie wir in PyTorch neuronale Netze implementieren und trainieren können. Als Datengrundlage dienten dabei zweidimensionale Punkte, die Vogeleier repräsentiert haben. Jeder dieser Dimensionen stand für eine Eigenschaft des Eis. So beschrieb der Datenpunkt $(8, 0.1)$ ein $8$ cm hohes und relativ dunkles Ei. Diese Klassifizierung setzt voraus, dass wir 

<ul>
    <li>festlegen, welche Eigenschaften der zu klassifizierenden Objekte für eine Unterscheidungen zur anderen Art der Objekte relevant sind und</li>
    <li>die festgelegten Eigenschaften für jedes Obejekt ausmessen.</li>
</ul>

Die Umsetzung beider Aspekte ist sehr schwierig und kostspielig. Es wäre viel praktischer, wenn wir Bilder von den verschiedenen Vogeleiern der KI zur Verfügung stellen und die KI die relevanten Eigenschaften der Objekte selbst herausfindet und ausmisst. Genau das möchten wir in dieser Einheit realisieren. 

## Codierung von Bildern

Um es so einfach wie möglich zu halten, betrachten wir im Folgenden nur Graustufenbilder. Bei Graustufenbilder wird ein Zahlenwert pro Pixel gespeichert. Der Zahlenwert 0 entspricht einem komplett schwarzen Pixel und der Wert 255 einem weißen Pixel. Zahlenwerte zwischen 0 und 255 entsprechen unterschiedlichen Graustufen. 

&nbsp;


 <figure>
  <img src="resources/img/lincoln_pixels.png" alt="Abraham Lincoln Pixels" style="width:50%">
  <figcaption></figcaption>
</figure> 

&nbsp;

Bilder sind also nichts anderes als zusammgesetzte Pixel und für den Computer somit einfach nur Listen aus Zahlen, die sich als Eingaben für neuronale Netze sehr gut eignen. Die Anzahl der Pixel muss dabei der Anzahl der Neuronen der Eingabeschicht entsprechen. Ein Bild, das nur aus einem Pixel besteht, können wir als Punkt in einem eindimensionalen Koordinatensystem auffassen. Ein Bild aus zwei Pixeln ist ein Punkt im zweidimensionalen Koordinatensytem usw. Reale Bilder können demzufolge als $n$-dimensionale Punkte aufgefasst werden, die wir uns allerdings nicht mehr wirklich vorstellen können.
 

&nbsp;


 <figure>
  <img src="resources/img/nn_img.png" alt="Bild in neuronales Netz" style="width:70%">
  <figcaption></figcaption>
</figure> 

&nbsp;

Genauso wie das Perzeptron trennen neuronale Netze durch Grenzen, die sie durch die Trainingsdaten selbst erlernen, Datenpunkte voneinander. Diese Grenzen sind keine Geraden oder Ebenen wie beim Perzeptron, sondern gekrümmte $n$-dimensionale Linien. Mit Hilfe der Trainingsdaten lernen neuronale Netze den (vermeintlichen) Verlauf dieser Grenzen, sodass sie anschließend ungesehene Daten den unterschiedlichen Klassen zuordnen. In der unteren Abbildung ist zu sehen, wie ein neuronale Netz Trainingspunkte klassifizieren könnte. Den roten, unbekannten Datenpunkt würde das neuronale Netz der Klasse 3 zuweisen.

&nbsp;


 <figure>
  <img src="resources/img/nn_klassen.png" alt="Klassen" style="width:50%">
  <figcaption></figcaption>
</figure> 

&nbsp;

Jetzt können wir also mit neuronalen Netzen auch Bilder klassifizieren, oder? Leider haben wir noch ein Problem... 

&nbsp;


 <figure>
  <img src="resources/img/frosch_kermit.png" alt="Kermit the Frog" style="width:50%">
  <figcaption></figcaption>
</figure> 

&nbsp;

Fully-connected neuronale Netze sind nämlich ziemlich schlecht darin, Eigenschaften (<b>Feature</b>) von Objekten zu extrahieren / erkennen. Wir müssen dieses neuronale Netz also etwas abändern, um auch Bilder klassifizieren zu können.

## Convolutional Neural Networks (CNNs)

<b>Convolutional Neural Networks (CNNs)</b> sind neuronale Netze, die Convolutional Layer enthalten. Convolutional Layer kann man sich als Filter vorstellen.

Das Bild wird (zu Beginn) durch eine Anzahl an Filtern gereicht. Ein Filter ist dabei nichts anderes als eine Zahlenmatrix, die durch das Bild geschoben wird. Durch diese Filter kann das CNN z.B. horizontale oder vertikale Kante erkennen. 


&nbsp;


 <figure>
  <img src="resources/img/convolution.png" alt="Convolution" style="width:50%">
  <figcaption></figcaption>
</figure> 

&nbsp;

Die Gewichte von den Filtern erlernt das neuronale Netz dabei selbst. Anschließend wird ein sogenanntes Max-Pooling durchgeführt, d.h. aus einem bestimmten Bereich der Feature Maps wird die größte Zahl ausgewählt, sodass die räumliche Bildinformationen auf einen kleineren Bereich heruntergebrochen werden. 

&nbsp;


 <figure>
  <img src="resources/img/max_pooling.png" alt="Max-Pooling" style="width:50%">
  <figcaption></figcaption>
</figure> 

&nbsp;

Nach diesen (mehrmals durchgeführten) Convolutions wird die Eingabe am Ende in ein fully-connected Layer weitergereicht.

&nbsp;


 <figure>
  <img src="resources/img/cnn_architecture.png" alt="Max-Pooling" style="width:90%">
  <figcaption></figcaption>
</figure> 

&nbsp;



## Vogeleierklassifikation



Jetzt sind wir bereit ein eigenes CNN zu implementieren, das Bilder klassifizieren kann. Bei den Bildern handelt es sich um Vogeleier, die du und deine Mitschüler:innen gemalt haben. Dein neuronales Netz wird nach dem Training in der Lage sein, Blaumeisen-, Enten- und Greifvögeleier auseinanderhalten zu können. 



&nbsp;


 <figure>
  <img src="resources/img/vogeleier.jpg" alt="Vogeleier" style="width:70%">
  <figcaption></figcaption>
</figure> 

&nbsp;

____

<img style="float: left;" src="resources/img/laptop_icon.png" width=50 height=50 /> <br><br>

<i>Ergänze die folgenden Codefeldern den Kommentaren entsprechend, um dein eigenes neuronales Netz zu konstruieren, das die Bilder der Vogeleier richtig klassifizieren kann.</i>

In [None]:
import warnings
warnings.filterwarnings('ignore')
from resources.code.help_functions import ei_zeichnen
import torchvision
from torchvision import transforms
from torch.utils.data import DataLoader
import numpy as np
import matplotlib.pyplot as plt
import torch
import torch.nn as nn


# Füge hier den relativen Pfad zu deinen Trainings- und Testdaten 
# ausgehend von dieser Datei ein.

TRAIN_DATA_PATH = ''
TEST_DATA_PATH = ''

In [None]:
# Hier wird angegeben, wie die Bilder verarbeitet werden sollen.
# Die Bilder dürfen nicht zu groß oder zu klein für unser CNN sein.
# 64 x 64 ist eine geeignete Größe
IMG_SIZE = 0

transforms = transforms.Compose([
  transforms.Resize([IMG_SIZE, IMG_SIZE]),
  transforms.ToTensor(),
  transforms.Grayscale()
])



# Hier werden die Bilder in einem eingelesen und gemäß der oberen Eingabe verarbeitet.
train_dataset = torchvision.datasets.ImageFolder(root=TRAIN_DATA_PATH, transform=transforms)
# Hier werden die Daten in einen Dataloader geladen und gemischt.
# Die Batchgröße gibt man wie viele Bilder gleichzeitig vom neuronalen Netz verarbeitet werden sollen.
# Wir wählen dafür 16.
BATCH_SIZE = -1
train_loader = DataLoader(train_dataset, batch_size=BATCH_SIZE, shuffle=True)

# Füge hier analog die Variablen test_dataset und test_loader für die Testdaten ein.

In [None]:
# Mit dieser Methode kannst du dir ein Bild anzeigen lassen.
def bild_anzeigen(i):
    plt.imshow( train_dataset[i][0].permute(1, 2, 0), cmap="gray" )
    print(f"Dieses Bild wird der Klasse {train_dataset[i][1]} zugeordnet")
    
# Finde durch Probieren ein Ei von einer Blaumeise, Ente und einem Greifvogel.
bild_anzeigen(0)

In [None]:
# In diesem Codefeld implementieren wir unser neuronales Netz.
# Ergänze den Code, wo es notwendig ist.
class CNN(nn.Module):
    def __init__(self):
        super(CNN, self).__init__()
        # Die ist erste Zahl in der Klammer gibt an, wie viele Ebenen die Schicht 
        # als Eingabe erhält. Da wir nur ein Graufenbild eingeben ist die Zahl gleich 1. 
        # Die zweite Zahl gibt an wie viele Filter / Feature Maps / „Ebenen“  
        # wir haben möchten (in diesem Fall 64).
        # Das Tupel (15, 15) gibt an, wie groß unsere Filter sein sollen.
        self.conv1 = nn.Conv2d(1, 64, (15,15))
        self.bn1 = nn.BatchNorm2d(64)
        self.pool1 = nn.MaxPool2d(2, 2)
        
        # Füge hier ein Conv2d-Layer analog zu oben ein. Die erste Zahl ergibt sich aus
        # der Anzahl der Filter der letzen Schicht.
        # In dieser Schicht möchten wir 16 Filter der Größe 4x4 haben.
        # Anschließend wird eine (2,2)-Max-Pooling durchgeführt.
        
        self.conv2 = # Füge hier deinen Code ein
        self.bn2 = nn.BatchNorm2d(16)
        self.pool2 = # Füge hier deinen Code ein
        
        # Im letzten Teil gibt es nur noch fully-connected Schichten.
        self.fc1 = nn.Linear(16 * 11 * 11, 512)
        self.bn3 = nn.BatchNorm1d(512)
        
        # Füge hier eine fully-connected Schicht mit der richtigen Anzahl an Inputs
        # und 180 Outputs.
        
        self.fc2 = # Füge hier deinen Code ein
        self.bn4 = nn.BatchNorm1d(180)
        
        # Füge hier die letzte fully-connected Schicht ein.
        self.fc3 = # Füge hier deinen Code ein
        
        self.relu = torch.nn.ReLU()
        self.softmax = torch.nn.Softmax()
        

    def forward(self, x):
        x = self.pool1(self.relu(self.bn1(self.conv1(x))))
        x = self.pool2(self.relu(self.bn2(self.conv2(x))))
        x = x.view(-1, 16 * 11 * 11)
        x = self.relu(self.bn3(self.fc1(x)))
        x = self.relu(self.bn4(self.fc2(x)))
        x = self.fc3(x)
        x = self.softmax(x)
        return x

In [None]:
# Mit dieser Methode messen wir, wie genau unser neuronales Netz
# auf den übergebenen Daten ist.

def test_model(model, data):
    total = 0
    correct = 0
    for x, y in data:
        output = model(x)
        output = torch.argmax(output, dim=1)
        correct += sum(torch.eq(output, y)).item()
        total += len(y)

    return round(correct / total, 3) 

In [None]:
# Hier erzeugen wir ein Objekt des CNNs.
cnn = CNN()

# Füge hier eine sinnvolle Lernrate ein.
LERNRATE = 0
optimizer = torch.optim.SGD(cnn.parameters(), lr = LERNRATE )

# Loss-Funktion
loss_func = torch.nn.CrossEntropyLoss()

In [None]:
# Teste mit Hilfe der Methode test_model zu Beginn wie gut 
# dein neuronales Netz die Trainigs- und Testdaten ohne Training klassifiziert. 
# Gebe das Ergebnis in Prozent aus.

In [None]:
for epoche in range(5):
    
    # Summiere den Loss über alle Daten und gebe ihn 
    # nach dieser Vorschleife aus. 
    
    loss_epoch = # Füge hier deinen Code ein
    
    for x,y in train_loader:
        cnn.train(True)
        optimizer.zero_grad()
        # Hier werden die Bilder in das neuronale Netz eingegeben.
        output = cnn(x)
         # Hier wird der Loss berechnet.
        loss = loss_func(output, y) 
        # Hier werden die Gradienten berechnet.
        loss.backward()
        # Hier werden die Gewichte des neuronalen Netzes angepasst.
        optimizer.step()
        
        # Füge hier deinen Code ein
        
    # Füge hier deinen Code ein

In [None]:
# Gebe hier die Genauigkeit auf den Trainings- und Testdaten aus.

____

<img style="float: left;" src="resources/img/laptop_icon.png" width=50 height=50 /> <br><br>

<i>Erreicht dein neuronales Netz ein gute Genauigkeit? Falls ja, hast du den Code richtig ergänzt. Jetzt kannst du versuchen, dein neuronales Netz zu optimieren. Du kannst z.B. neue Schichten einfügen, Anzahl der Inputs/Outputs ändern, eine andere Lernrate ausprobieren usw. Beachte auch dabei die untere Grafik.</i>

&nbsp;


 <figure>
  <img src="resources/img/overfitting.png" alt="Overfitting" style="width:50%">
  <figcaption></figcaption>
</figure> 

&nbsp;



## Bilderverzeichnis

https://tenor.com/de/view/kermit-worried-oh-no-anxious-gif-11565777

https://i0.wp.com/developersbreach.com/wp-content/uploads/2020/08/cnn_banner.png?fit=1400%2C658&#038;ssl=1