**Bildklassifikation mit einem neuronalen Netz**

Tutorial von:
https://learnopencv.com/pytorch-for-beginners-image-classification-using-pre-trained-models/


Hi! In diesem Tutorial werden wir Neuronale Netze zur Klassifikation von Bildern kennenlernen und benutzen. Das Ziel ist es, mit Hilfe von einem schon trainierten Netz, das eine Gruppe von Wissenschaftler*innen auf einer sehr großen Menge von Bildern trainiert hat, Objekte auf Bildern zu erkennen. Wenn also beispielsweise ein Hund auf dem Bild zu erkennen ist, soll das Netz in der Lage sein, das zu erkennen und uns ein "Hund" als Ausgabe zu geben. 

Solche Modelle zur Objekterkennung auf Bildern kennt ihr zum Beispiel schon von von eurem Handy: wenn ihr beispielsweise Snapchat nutzt, erkennt die App euer Gesicht ganz automatisch. In diesem Fall ist das zu erkennende Objekt also euer Gesicht. Oder vielleicht seid ihr mal in einem Parkhaus gewesen, bei dem ihr kein Ticket mehr ziehen , sondern lediglich euer Kennzeichen zum Bezahlen angeben müsst - das bei der Einfahrt per Kamera automatisch erkannt wurde. Hier ist das zu erkennende Objekt dann das Kennzeichen. 

Habt ihr noch andere Ideen, wo euch Objekterkennung mal begenet ist? 

Klickt euch durch die Code-Zellen unten durch, um selbst einmal Objekterkennung auszuprobieren. 

In [None]:
# benötige Bilbliotheken
import torch
from torchvision import models
from PIL import Image
from torchvision import transforms


# Funktion zur Vorverarbeitung der Bilder: Damit das Netz Bilder einlesen kann, müssen diese transformiert werden:
#    Anpassung der Größe (256 x 256 Pixel)
#    Rand wegschneiden (Bildgröße: 224×224 Pixel)
#    Anpassung des Datentypes (Tensor)
#    Normalisierung des Bildes, für jede der 3 Schichten (RGB)
transform = transforms.Compose([            
	 transforms.Resize(256),                    
	 transforms.CenterCrop(224),                
	 transforms.ToTensor(),                     
	 transforms.Normalize(                      
	 mean=[0.485, 0.456, 0.406],                
	 std=[0.229, 0.224, 0.225]                  
	 )])


# Lade vortrainiertes Netz
alexnet = models.alexnet(pretrained=True)

#print(alexnet)

# Setze das Modell in den Auswertungsmodus
alexnet.eval();

print("Es wurden erfolgreich alle Code-Bibliotheken und das vortrainierte Netz hochgeladen!")

In [None]:
# Upload von lokalen Daten (von der eigenen Festplatte)
from google.colab import files
upload = files.upload()

In [None]:
img = Image.open("/tmp/girlsday2022-main/Bildklassifikation_girlsday_data/dog.jpg")
display(img)

In [None]:
# Vorverarbeitung des Bildes (Transformation und Hinzufügen einer weiteren Dimension)
img_t = transform(img)
img_in = torch.unsqueeze(img_t, 0)

# Ausgabe der Bildgröße vorher und nachher
print('Größe des Orginalbildes: ',img.size)
print('Größe des transformierten Bildes: ', img_in.size())

In [None]:
# Klassifizierung des Bildes durch das Netz
out = alexnet(img_in)
print('Größe des Netzoutputs: ',out.shape)

In [None]:
# Auslesen der Klassen zur Übersetzung der Netzausgabe (Netz gibt nur eine 'Liste' an Zahlen zurück, jeder Eintrag in der Liste entspricht der Wahrscheinlichkeit dieser Klasse zuzugehören)
with open('imagenet_classes.txt') as f:
	  labels = [line.strip() for line in f.readlines()]

# finde Netzoutput mit höchstem Wert
_, index = torch.max(out, 1)

# berechen Wahrscheinlichkeit der gewählten Klasse
percentage = torch.nn.functional.softmax(out, dim=1)[0] * 100

# gib Klasse und zugehörige Wahrscheinlichkeit aus
print(labels[index[0]], percentage[index[0]].item())

In [None]:
# sortiere Netzoutput in absteigender Reihenfolge
_, indices = torch.sort(out, descending=True)

# gib die ersten 5 Klassen und deren Wahrscheinlichkeit an
_, indices = torch.sort(out, descending=True)
[(labels[idx], percentage[idx].item()) for idx in indices[0][:5]]


In [None]:
# Ein neuer Versuch
img = Image.open("/tmp/girlsday2022-main/Bildklassifikation_girlsday_data/strawberries.webp")
#img = Image.open("/tmp/girlsday2022-main/Bildklassifikation_girlsday_data/juri_green.jpg")
#img = Image.open("/tmp/girlsday2022-main/Bildklassifikation_girlsday_data/juri_snow.jpg")
#img = Image.open("/tmp/girlsday2022-main/Bildklassifikation_girlsday_data/kimba_snow.jpg")
#img = Image.open("/tmp/girlsday2022-main/Bildklassifikation_girlsday_data/kimba_green.jpg")
display(img)

In [None]:
# Bildtransformation
img_t = transform(img)
img_in = torch.unsqueeze(img_t, 0)

# Netzauswertung
out = alexnet(img_in)

# Ausgabe der 5 wahrscheinlichsten Klassen
_, indices = torch.sort(out, descending=True)
percentage = torch.nn.functional.softmax(out, dim=1)[0] * 100
[(labels[idx], percentage[idx].item()) for idx in indices[0][:5]]


Jetzt habt ihr einmal ausprobiert, wie künstliche Neuronale Netze Objekte auf Bildern klassifizieren können! 

Wenn euch interessiert, wie genau diese Netze aussehen und trainiert werden, schaut doch mal in dieses Youtube-Video rein:

https://www.youtube.com/watch?v=ya_6I9IVMzY