# Business Analytics und Künstliche Intelligenz
Wintersemester 2023/2024

Prof. Dr. Jürgen Bock

## Übungen zur Arbeit mit Python und den relevanten Bibliotheken

Dieses Notebook bietet Übungsaufgaben zum Umgang mit Python und den in dieser Vorlesung wichtigen Bibliotheken. Die einzelnen Aufgaben sind in Markdown-Zellen beschrieben. Fügen Sie Ihre Lösung in die jeweils nachfolgende Code-Zelle ein und fügen Sie bei Bedarf gerne weitere Code-Zellen hinzu.

### Lernziele
* Sie sind in der Lage Python-Module zu importieren und zu verwenden.
* Sie erkunden die Python-Dokumentation bestimmter Module und sind in der Lage die dort beschriebenen Funktionalitäten anzuwenden.
* Sie können wichtige Evaluationsmetriken für Klassifikatoren beschreiben und sind in der Lage deren Aussagekraft zu beurteilen.
* Sie sind in der Lage Rechen- und Umform-Operationenen auf *PyTorch*-Tensoren anzuwenden.

### *scikit-learn*

#### Klassifikator-Evaluation

Stellen Sie sich folgendes Anwendungsbeispiel vor:

Ein Automobilhersteller produziert in einer Fertigungslinie von Kunden individuell konfigurierte Fahrzeuge. Der Kunde kann dabei unter anderem eine Bereifung wählen. Im Rahmen einer automatischen Endkontrolle soll überprüft werden, ob an einem Fahrzeug der richtige Reifentyp montiert ist. Ein kamerabasiertes Inspektionssystem nimmt dabei ein Bild des Reifens auf und klassifiziert das Bild in eine den Auswahlmöglichkeiten entsprechende Klasse und vergleicht das Ergebnis mit dem erwarteten (bestellten) Reifentyp.

Um das System zu evaluieren, soll eine Testreihe von tatsächlichen Bestellungen mit den durch das Inspektionssystem erkannten Reifentypen verglichen werden.

Die Testreihe besteht aus folgenden tatsächlichen Bestellungen `y_test` und durch den Klassifikator erkannten Typen `y_predict`:

In [None]:
import numpy as np

#classes = ["205/55 R16 91V", "195/65 R16 92H", "205/55 R16 94H", "225/55 R16 99V",
#           "255/45 R20 105V", "195/45 R16 84H" ]
#np.random.choice(classes, 30)

y_test = ['205/55 R16 91V', '225/55 R16 99V', '205/55 R16 94H', 
          '195/45 R16 84H', '255/45 R20 105V', '255/45 R20 105V',
          '195/65 R16 92H', '255/45 R20 105V', '225/55 R16 99V',
          '195/45 R16 84H', '205/55 R16 91V', '225/55 R16 99V',
          '255/45 R20 105V', '225/55 R16 99V', '205/55 R16 91V',
          '225/55 R16 99V', '255/45 R20 105V', '195/65 R16 92H',
          '255/45 R20 105V', '205/55 R16 94H', '255/45 R20 105V',
          '205/55 R16 91V', '205/55 R16 91V', '205/55 R16 91V',
          '225/55 R16 99V', '205/55 R16 94H', '225/55 R16 99V',
          '205/55 R16 94H', '205/55 R16 94H', '205/55 R16 94H']

y_predict = ['205/55 R16 91V', '255/45 R20 105V', '205/55 R16 91V',
             '195/45 R16 84H', '255/45 R20 105V', '255/45 R20 105V',
             '195/65 R16 92H', '255/45 R20 105V', '225/55 R16 99V',
             '195/45 R16 84H', '205/55 R16 91V', '225/55 R16 99V',
             '255/45 R20 105V', '225/55 R16 99V', '205/55 R16 91V',
             '225/55 R16 99V', '255/45 R20 105V', '195/45 R16 84H',
             '255/45 R20 105V', '205/55 R16 91V', '255/45 R20 105V',
             '205/55 R16 91V', '255/45 R20 105V', '205/55 R16 91V',
             '225/55 R16 99V', '205/55 R16 94H', '225/55 R16 99V',
             '195/45 R16 84H', '205/55 R16 94H', '205/55 R16 94H']

Verwenden Sie *scikit-learn* um precision, recall, f1-score und accuracy des Klassifikators zu ermitteln. Warum ist hier eine Durchschnittsberechnung notwendig? Was sagen uns diese Metriken?

In [None]:
from sklearn import metrics

print("Precision: ", metrics.precision_score(y_test, y_predict, average="macro"))
print("Recall: ", metrics.recall_score(y_test, y_predict, average="macro"))
print("Accuracy: ", metrics.accuracy_score(y_test, y_predict))
print("F1-Score: ", metrics.f1_score(y_test, y_predict, average="macro"))


Was sagen uns diese Metriken?

*Antwort:* Precision: $\frac{TP}{TP + FP}$. Wieviele von den als positiv klassifizierte Beispiele sind tatsächlich positiv. Es fehlt eine Aussage darüber, wieviele der nicht als richtig erkannten Klassen richtig gewesen wären.

*Antwort:* Recall: $\frac{TP}{TP+FN}$ Wieviele der tatsächlich als positiv gelabelten Beispiele wurden vom Klassifizierer gefunden.

*Antwort:* F1-Score ist der harmonische Mittelwert aus Precision und Recall: $2 * \frac{precision * recall}{precision + recall}$

*Antwort:* Accuracy: $\frac{TP+TN}{TP+TN+FP+FN}$. Welcher Anteil aller Klassifikationsergebnisse wurde richtig klassifiziert.

Warum ist hier eine Durchschnittsberechnung notwendig?

*Antwort:* *positiv* und *negativ* beziehen sich in den Metriken lediglich auf eine Klasse (enthalten oder nicht enthalten). In einem Multiklassifikationsproblem ist die Frage, wie die unterschiedlichen Precision und Recall Werte der einzelnen Klassen zu einem einzelnen Wert zusammengeführt werden. Dabei gibt es zwei Arten der Durchschnittsbildung: Micro und Macro. Micro bezieht alle TP, FP und FN in die Berechnung mit ein. Macro berechnet die Werte für alle Klassen separat und liefert den Mittelwert. Sind die Klassen stark unbalanciert ist der Marko-Wert schlechter von der Aussagekraft. Der Micro-Wert liefert allerdings keine differenzierte Aussage, da im Multiklassifikationsbeispiel Precision, Recall (somit auch F1-Score) und Accuracy gleichen.

Erstellen sie mittels *scikit-learn* einen *classification report*.

In [None]:
print(metrics.classification_report(y_test, y_predict))

Welche der Metriken dürfte für den Automobilhersteller besonders interessant sein und warum?

*Antwort:* Bei der Qualitätskontrolle ist der Recall-Wert besonders interessant, denn es sollen keine mangelhaften Produkte die Produktion verlassen. D.h. die False Positive Rate soll möglichst gering ausfallen bzw. in kritischen Fällen gleich 0 sein. False Negatives sind dagegen akzeptierbar, da diese im schlimmsten Fall zu einer zusätzlichen manuellen Qualitätskontrolle führen.

In diesem Beispiel: Wird ein korrekt montierter Reifen als falsch montierter Reifen erkannt, ist das tolerierbar, da eine manuelle Nachkontrolle stattfinden kann. Wird aber ein falsch montierter Reifen als korrekt erkannt, verlässt das Fährzeug mit einem Mangel die Produktion.

#### Datensätze

Laden Sie den *iris* Datensatz mittels scikit-learn (über das `datasets` Modul).

Dieser bekannte Datensatz beschreibt vier Merkmale von drei verschiedenen Schwertlilienarten. Die Aufgabe ist es, anhand der Merkmale die Art vorherzusagen.

In [None]:
from sklearn.datasets import load_iris

Machen Sie sich mit dem Datensatzobjekt vertraut. Es beinhaltet die Daten selbst, die Labels, sowie Beschreibungen der Klassen und der Merkmale.

In [None]:
iris = load_iris()

In [None]:
print(iris.feature_names)
print(iris.target_names)

In [None]:
print(iris.data.ndim)
print(iris.data.shape)

### *matplotlib*

Verwenden Sie `matplotlib.pyplot` um Scatter-Plots von Kombinationen von jeweils zwei Merkmalen darzustellen. Zeigen Sie die jeweilige Klasse (Label) über die Farbe der Punkte an.

In [None]:
import matplotlib.pyplot as plt
%matplotlib inline

In [None]:
plt.scatter(iris.data[:,2], iris.data[:,3], c=iris.target)
plt.show()

### *PyTorch*

#### Tensoren

Durchlaufen Sie die folgenden Tensor-Manipulationen korrekt, können Sie am Ende ein "Lösungswort" ablesen.

Speichern Sie die Tensor-Objekte in beliebigen Variablen ab, außer Sie werden dazu angehalten die Operation *in place* durchzuführen. Geben Sie sich zur Kontrolle auch Zwischenergebnisse aus oder zeigen Sie sich sich Größe, Dimensionalität oder Form der Tensoren an.

In [None]:
import torch

Erstellen Sie einen zweidimensionalen der Form (7x7) gefüllt mit normalverteilten Zufallszahlen.

In [None]:
t = torch.randn((7, 7))

In [None]:
print(t)

Teilen sie jedes Element im Tensor durch 10 und speichern Sie das Ergebnis in einem neuen Tensor.

In [None]:
u = t.div(10)

Addieren Sie 1 zu jedem Element in jeder zweiten Spalte (beginnend bei der 2. Spalte). Beachten Sie: Die zweite Spalte ist **nicht** die Spalte mit Index 2.

In [None]:
u[:,1:7:2].add_(1)

Ersetzen Sie die erste und letzte Zeile durch einen Vektor aus normalverteilten Zufallszahlen und Teilen sie diese Zufallszahlen durch 10.

In [None]:
u[0,:] = torch.rand(7)/10
u[-1,:] = torch.rand(7)/10

Erstellen Sie einen eindimensionalen View des Tensors.

In [None]:
v = u.view(-1)

In [None]:
print(v)

Addieren Sie folgenden "Code" auf den View.

In [None]:
code = torch.tensor([0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0])

In [None]:
v.add_(code)

Definieren Sie folgende Funktion (einfach die Zelle ausführen):

In [None]:
def view_code(x):
    import matplotlib.pyplot as plt
    %matplotlib inline

    xx, yy = torch.meshgrid((torch.arange(7), torch.arange(7)))

    plt.scatter(xx, yy, c=torch.rot90(x, 3), marker="s", s=3000)

Übergeben Sie Ihren Tensor an die Funktion:

In [None]:
view_code( u )

Wie lautet das Lösungswort? ;)

*Antwort:* AI