# Business Analytics und Künstliche Intelligenz
Wintersemester 2023/2024

Prof. Dr. Jürgen Bock

## Grundlagen zur Arbeit mit Python

Dieses Notebook soll die Grundlagen zur Arbeit mit Python im Bereich Machine Learning und insb. künstlicher Neuronaler Netze schaffen. Es handelt sich *nicht* um ein allgemeines Python Tutorial. Es werden hier allerdings auch keine tiefgreifenden Python-Kenntnisse vorausgesetzt. Im Vordergrund stehen die Konzepte, die sich selbstverständlich auch in jeder anderen Programmiersprache umsetzten lassen. Python bietet allerdings den Vorteil, dass durch die relativ schlanke Syntax und die verfügbaren Bibliotheken eine prägnante und lesbare Umsetzung der Konzepte möglich ist. Außerdem hat sich Python als Quasi-Standard Programmiersprache im Bereich Machine Learning etabliert.

### Lernziele
* Sie kennen die Möglichkeit in Python Module und Elemente daraus in Jupyter Notebooks zu importieren und sind in der Lage den Import-Mechanismus in eigenen Notebooks anzuwenden.
* Sie können angeben welche Art von Funktionalität die *scikit-learn* Bibliothek bereitstellt, und welche Bibliothek Sie zum Plotten von Graphen verwenden können.
* Sie können die Datenstrukturen *NumPy*-Array und *PyTorch*-Tensor erklären und sind in der Lage diese zu interpretieren.
* Sie können den Slicing-Mechanismus für *NumPy*-Arrays und *PyTorch*-Tensoren erläutern und können Ergebnisse von Slicing-Operationen bei einfachen Beispielen voraussagen.
* Sie können erläutern welche Möglichkeiten bestehen, *NumPy*-Arrays und *PyTorch*-Tensoren umzuformen.
* Sie kennen die Möglichkeiten wie einfache Rechenoperationen mit *NumPy*-Arrays und *PyTorch*-Tensoren durchgeführt werden können.
* Sie kennen verschiedene Möglichkeiten *PyTorch*-Tensoren mit Standardwerten zu erzeugen.

### Module und Packages

Wiederverwendbare Programmbausteine lassen sich in Python in sogenannte *Module* organisieren. Mehrere zusammengehörige Module können als *Package* organisiert werden und somit umfangreiche Softwarebibliotheken realisieren.

Ein Modul ist dabei als eine Python-Datei repräsentiert, die Variablen, Funktionen und Klassen enthalten kann. Ein Package besteht aus mehreren solchen Dateien. Um ein Modul oder Package zu verwenden, muss es importiert werden. Der folgende Befehl importiert beispielsweise das Modul *sys*.

In [None]:
import sys

Die Variablen und Funktionen stehen nun unter dem Namespace `sys` zur Verfügung, der, getrennt durch einen Punkt, dem zu verwendenden Modulelement vorangestellt wird, z.B.:

In [None]:
sys.version

Der Namespace kann beim Importieren auch explizit benannt werden, was oft eine kürzere Schreibweise im Code ermöglicht:

In [None]:
import sys as s

In [None]:
s.version

Module eines Packages lassen sich einzeln importieren.

In [None]:
import sklearn.metrics

Um nicht immer den gesamten Namespace angeben zu müssen, empfiehlt sich hier das vergeben eines lokalen Namens:

In [None]:
import sklearn.metrics as metrics

Es lassen sich auch Module oder Elemente daraus einzeln importieren. Dazu muss angegeben werden, woher das Objekt stammt. Hier importieren wir die Funktion `load_diabetes` aus dem Modul `sklearn.datasets`.

In [None]:
from sklearn.datasets import load_diabetes

In [None]:
load_diabetes()

Es lassen sich auch mehrere Objekte einzeln importieren und optional namentlich umbenennen:

In [None]:
from sklearn.datasets import load_boston, load_diabetes as ld

In [None]:
ld()

Selbstverständlich lassen sich auch eingene Module schreiben und importieren. Sie müssen nur im `sys.path` auffindbar sein.

In [None]:
print(sys.path)

Das aktuelle Verzeichnis ist immer im Pfad enthalten. Wenn Sie im Laufe dieser Vorlesung also Module bereitgestellt bekommen, oder selbst welche entwickeln, legen Sie diese am besten einfach im gleichen Verzeichnis wie das jeweilige Jupyter Notebook ab, um sie direkt importieren zu können.

Detaillierte Informationen zum Import-Mechanismus in Python finden Sie hier: https://docs.python.org/3/reference/import.html


### Wichtige Bibliotheken

Im Rahmen dieser Vorlesung werden wir einige Bibliotheken benutzen, die uns die Arbeit enorm erleichtern und unter anderem auch mit der Grund sind, warum wir in diesem Teil der KI gerne Python einsetzen. Die Bibliotheken stehen als Packages zur Verfügungen und die für uns relevanten Teile daraus werden jeweils über die zuvor vorgestellten Import-Mechanismen eingebunden.

#### *scikit-learn*

"scikit-learn is an open source machine learning library that supports supervised and unsupervised learning. It also provides various tools for model fitting, data preprocessing, model selection and evaluation, and many other utilities." (https://scikit-learn.org/stable/getting_started.html)

*scikit-learn* bietet also diverse Standard-ML-ALgorithmen und insbesonere auch Datensätze sowie Funktionen zur Vorverarbeitung und Evaluation der Modelle.

**Beispiel:** Confusion Matrix

In [None]:
from sklearn.metrics import confusion_matrix

Beispieldaten für tatsächliche Labels (`y_target`) und Vorhersagen eines Klassifikators (`y_predict`)

In [None]:
y_target = ['cat', 'dog', 'mouse', 'mouse', 'dog', 'mouse', 'cat', 'cat', 'mouse', 'dog', 'cat']
y_predict = ['cat', 'cat', 'mouse', 'mouse', 'dog', 'mouse', 'dog', 'cat', 'cat', 'dog', 'cat']

In [None]:
type(y_target)

*scikit-learn* bietet eine Funktion zum erstellen der Confusion Matrix

In [None]:
cm = confusion_matrix(y_target, y_predict)

Wir können überprüfen mit welcher Art Objekt wir es zu tun haben ...

In [None]:
print("Type of the confusion matrix: ", type(cm))

... oder die Größe und Dimensionalität ermitteln ...

In [None]:
print("Size of the confusion matrix: ", cm.size)
print("Number of dimensions: ", cm.ndim)

... oder die Confusion Matrix direkt ausgeben:

In [None]:
print(cm)

Da die Beispieldaten 3 Klassen enthielten, ist es eine 3x3 Matrix. **Wichtig:** Die Zeilen entsprechen den tatsächlichen Labels, die Spalten den vorhergesagten. (Siehe Dokumentation: https://scikit-learn.org/stable/modules/generated/sklearn.metrics.confusion_matrix.html#sklearn.metrics.confusion_matrix)

Weitere Informationen zu *scikit-learn* und insbesondere die API-Referenz finden Sie hier: https://scikit-learn.org/stable/modules/classes.html

#### *NumPy*

*NumPy* bietet Datenstrukturen und Rechenoperationen zum Umgang mit großen Datenmengen. Zentrale Datenstruktur ist das NumPy-Array. Obige Confusion Matrix ist beispielsweise vom Typ NumPy-Array. Die Datenstrukturen und Operationen sind hochoptimiert und bieten deshalb eine sehr gute Rechenperformance.

In [None]:
import numpy as np

In [None]:
nparray1d = np.array([1, 2, 3, 4, 5])
print("1D Array: \n", nparray1d)
print("Size: ", nparray1d.size)
print("Number of dimensions: ", nparray1d.ndim)
print("Shape: ", nparray1d.shape)

In [None]:
nparray2d = np.array([[11,12,13],[21,22,23]])
print("2D Array: \n", nparray2d)
print("Size: ", nparray2d.size)
print("Number of dimensions: ", nparray2d.ndim)
print("Shape: ", nparray2d.shape)

Beachten Sie die Darstellungsreihenfolge der Dimensionen: Zeile vor Spalte (im Zweidimensionalen).

**Intermezzo:** Funktionen

Da wir noch mehr Arrays inspizieren wollen, lohnt sich die Auslagerung der `print` Anweisungen in eine Funktion. ("Don't repeat yourself" (DRY) Prinzip.)

In [None]:
def print_array(a):
    print("Number of dimensions: ", a.ndim)
    print("Shape: ", a.shape)
    print("Size: ", a.size)
    print("{}D-Array:\n{}".format(a.ndim, a))

Noch ein 3-dimensionales Array. Beachten Sie die Klammerung:

In [None]:
nparray3d = np.array(
    [[[111, 112, 113, 114],
      [121, 122, 123, 124],
      [131, 132, 133, 134]],
     [[211, 212, 213, 214],
      [221, 222, 223, 224],
      [231, 232, 233, 234]]])

print_array(nparray3d)

##### Slicing
Slicing bedeutet, Ausschnitte aus dem Array zu extrahieren. Beachten Sie, dass Indices mit 0 beginnen!

Im einfachsten Fall extrahieren wir ein einzelnes Element.

In [None]:
print(nparray3d[0,0,0])
print(nparray3d[1,2,2])

Ganze Dimensionen werden mit `:` indiziert:

In [None]:
print(nparray3d[:,0,0])

In [None]:
print(nparray3d[0,:,0])

In [None]:
print(nparray3d[0,0,:])

Mit `:` lassen sich aber auch Bereiche (einschl. Schrittgröße) extrahieren. Dabei gilt folgende Syntax:

*i*:*j*:*k*

wobei *i* der Startindex (inklusive), *j* der Endindex (exklusive), und *k* die Schrittgröße ist. Bei Fehlen der Schrittgröße wird Schrittgröße 1 angenommen. Bei Fehlen des Anfangs- oder Endindex wird 0 bzw. der letzte Index der jeweiligen Dimension angenommen.

In der dritten Dimension Elemente mit Index 1 und 2 (*i* = 1, *j* = 3, *k* = 1 (kann weggelassen werden))

In [None]:
print(nparray3d[0, 0, 1:3])

In der dritten Dimension Elemente von Index 2 bis zum Ende:

In [None]:
print(nparray3d[0, 0, 2:])

In der zweiten Dimension Elemente mit Index 0 und 2 (*i* = 0, *j* wird weggelassen, *k* = 2)

In [None]:
print(nparray3d[0, 0::2, 0])

Anwendung auf verschiedene Dimensionen:

In [None]:
print(nparray3d[1, :, 2:])

Detailierte Informationen zum Indexing und Slicing finden Sie hier: https://numpy.org/doc/stable/reference/arrays.indexing.html#arrays-indexing

##### Reshaping

Die Form eines `ndarray`s kann auf verschiedene Weise verändert werden. Die Funktion `reshape` ändert die Form und behält alle Daten. Die neue Form muss mit der alten Form, bzw. der Anzahl der Elemente kompatibel sein.

In [None]:
print("Shape: {}:\n{}\n".format(nparray2d.shape, nparray2d ))

In [None]:
print("Shape: (3, 2):\n{}\n".format(nparray2d.reshape((3,2))))
print("Shape: (6, 1):\n{}\n".format(nparray2d.reshape((6,1))))
print("Shape: (1, 6):\n{}\n".format(nparray2d.reshape((1,6))))

Beim Umformen kann die Länge einer Dimension unspezifiziert bleiben, da diese sich aus der Größe des Arrays und den Längen der anderen Dimensionen ergibt. Diese unspezifizierte Dimension wird mit -1 angegeben:

In [None]:
nparray2d.reshape((3,-1))

Ist die Zielform mit der Anzahl der Elemente nicht kompatibel, wird ein Fehler ausgegeben:

In [None]:
nparray2d.reshape(4, 2)

In [None]:
nparray2d.reshape(5, -1)

Da es häufig notwendig ist, Daten in einen eindimensionalen Vektor zu konvertieren, existieren hierfür die Funktionen `flatten` und `ravel`. `flatten` erzeugt eine Kopie des ursprünglichen `ndarray`s, `ravel` liefert nur eine Referenz/View auf das originale `ndarray` (Änderungen werden auch auf dem Originalobjekt durchgeführt.)

In [None]:
b1 = np.array([[1, 2, 3], [4, 5, 6]])
b2 = np.array([[1, 2, 3], [4, 5, 6]])

print("b1:\n{}\nb2:\n{}\n".format(b1, b2))

In [None]:
b1_flattened = b1.flatten()
b2_raveled = b2.ravel()

print("b1_flattened:\n{}\nb2_raveled:\n{}\n".format(b1_flattened, b2_raveled))

In [None]:
b1_flattened[0] = 0
b2_raveled[0] = 0

print("b1_flattened (changed):\n{}\nb2_raveled (changed):\n{}\n".format(b1_flattened, b2_raveled))

print("b1:\n{}\nb2:\n{}".format(b1, b2))

`resize` ändert die Form (*in place*, also das Array selbst wird verändert), unabhängig davon, ob Daten verloren gehen. Sofern irgendwelche Abhängigkeiten von dem `ndarray` bestehen, gibt es einen Fehler, außer diese Abhängigkeiten werden ignoriert (`refcheck=False`)

In [None]:
b1.resize((2,2))
print(b1, "\n")

In [None]:
b2.resize((2,2), refcheck=True)  # refcheck=True ist der Default
print(b2, "\n")

In [None]:
b1.resize((3,3))
print(b1)

In [None]:
b1.resize((2,3,3))
print(b1)

##### Einfache Operationen

Grundrechenarten auf `ndarray`s. Die Standardoperatoren arbeiten elementweise auf `ndarray`s.

In [None]:
a1 = np.array([[1, 1], [1, 1]])
a2 = np.array([[2, 2], [2, 2]])
a3a = a1 + a2
print(a1)
print(a2)
print(a3a)

Auch über Funktionen von `ndarray` zu bewerkstelligen.

In [None]:
a3b = a1.__add__(a2)
print(a3b)

Operationen können auch *in place* durchgeführt werden, d.h. sie ändern das `ndarray` selbst:

In [None]:
a1.__iadd__(a2)
print(a1)

Operationen (auch *in place* Operationen) lassen sich mit Indexing/Slicing kombinieren:

In [None]:
a2[:, 0].__iadd__(np.array([1, 1]))
print(a2)
a2[1, :].__iadd__(np.array([1, 1]))
print(a2)

Die *NumPy* API Referenz finden Sie hier: https://numpy.org/doc/stable/reference/index.html

#### *matplotlib*

Diese Bibliothek benötigen wir zum Plotten von Graphen und Daten, und dabei insbesondere das Modul `pyplot`.

In [None]:
import matplotlib.pyplot as plt

Den folgenden Befehl benötigen wir in Jupyter Notebooks, wenn wir wollen, dass die Plots direkt im Notebook ausgegeben werden, anstatt in einem eigenen Fenster:

In [None]:
%matplotlib inline

*matplotlib* ist sehr mächtig, und wir werden uns nicht im Detail damit beschäftigen.

Hier ein Beispiel für einen einfachen zufälligen Scatter-Plot. (Sie sehen hier übrigens auch, wie man über *NumPy* Zufallsarrays generiert. Das *random*-Modul bietet hier noch viel mehr.)

In [None]:
N = 50
x = np.random.randn(N)
y = np.random.randn(N)
color = np.random.choice(["red", "blue", "green"], N)
plt.scatter(x, y, color=color)
plt.show()

Details zur `matplotlib.pyplot` API finden Sie hier: https://matplotlib.org/api/pyplot_api.html

#### *PyTorch*

*PyTorch* ist eine open source Bibliothek die wir für die Arbeit mit neuronalen Netzen verwenden. Sie entstammt dem Facebook AI Research Lab und zeichnet sich durch eine hohe Anwenderfreundlichkeit aus (Anwender sind in diesem Fall wir, die Programmierer.)

Die API ist so gestaltet, dass sich Architekturen von neuronalen Netzen einfach und übersichtlich definieren lassen. *PyTorch* lässt sich sehr einfach auf GPUs ausführen, was die Nutzung von massiv parallelen Berechnungen ermöglicht.
Des Weiteren bietet es einen umfangreichen Mechanismus zum automatischen Differenzieren, was zur Gradientenberechnung und damit zum Update der Modellparameter im Backpropagation-Algorithmus wichtig ist. Intern werden neuronale Netze als Berechnungsgraphen repräsentiert.

In [None]:
import torch

##### Tensoren

Die grundlegende Datenstruktur in *PyTorch* ist ein Tensor. *PyTorch*-Tensoren sind wie *NumPy*-Arrays als mehrdimensionale Arrays zu verstehen, bieten allerdings noch einige weitere Dinge für die Berechnung in neuronalen Netzen.

Der Umgang mit Tensoren ist ähnlich zum Umgang mit *NumPy*-Arrays. Da wir uns im weiteren Verlauf aber hauptsächlich mit Tensoren beschäftigen werden, sollten wir uns trotzdem grundlegend damit vertraut machen.

Mittels `torch.tensor()` lassen sich Tensoren mit beliebigen (numerischen oder boolschen) Daten erzeugen. Beachten Sie die Datentypen. Alle Daten in einem Tensor sind vom gleichen Typ. Diese lassen sich über das `dtype` Attribut erfragen, oder bei der Erzeugung über den `dtype` Parameter explizit setzen.

In [None]:
t1 = torch.tensor([[1, 2],[3, 4]])
t2 = torch.tensor([[1., 2.], [3., 4.]])
print(t1)
print(t1.dtype, "\n")
print(t2)
print(t2.dtype)

Bestimmte Tensoren lassen sich über explizite Methoden erzeugen:

In [None]:
t3 = torch.zeros((3,3))
print(t3)
print(t3.dtype)

In [None]:
t4 = torch.zeros((3,3), dtype=torch.int32)
print(t4)
print(t4.dtype)

In [None]:
t5 = torch.ones((2,2))
print(t5)

Unter anderem sind auch Initialisierungen mit Zufallsdaten (entsprechend einer gegebenen Verteilung) möglich. Hier normalverteilte Zufallsdaten:

In [None]:
t6 = torch.randn((500,500))
print(t6)

Die `arange()` Funktion ist ebenfalls hilfreich zum erzeugen von eindimensionalen Tensoren. Dabei wird ein Endwert und optional Startwert, Schrittweite und Datentyp angegeben:

In [None]:
print(torch.arange(10))
print(torch.arange(4, 8))
print(torch.arange(2, 8, .2))
print(torch.arange(1, 5, dtype=torch.float32))

Reshape und Slicing sind ebenfalls möglich:

In [None]:
t7 = torch.arange(4*4*4).reshape((4,4,4))
print(t7)

Den Rand dieses "Würfels" abschneiden:

In [None]:
print(t7[1:3, 1:3, 1:3])

Negative Indizes zählen von hinten her:

In [None]:
print(t7[1:-1, 1:-1, 1:-1])

Beispiel für die Verwendung der Schrittweite:

In [None]:
t8 = torch.arange(20)
print(t8)
print(t8[::2])

Weitere Beispiele zum Reshaping: `reshape()` liefert, wenn möglich, einen View auf das ursprüngliche Objekt. Entsprechend werden Änderungen auf das ursprüngliche Objekt übertragen. (Ist dies nicht möglich, wird eine Kopie erstellt.)

In [None]:
q1 = torch.tensor([[1, 2, 3], [4, 5, 6]])
print(q1)

q1r = q1.reshape((3, 2))
print(q1r)

q1r[0, 0] = 0
print(q1r)

print(q1)

`view` erstellt immer eine View auf das ursprüngliche Objekt:

In [None]:
q1v = q1.view((6, 1))
print(q1v)

Die angegebene Form muss zur Größe des ursprünglichen Tensors passen. Wird für eine Dimension `-1` angegeben, wird der Wert automatisch ermittelt.

In [None]:
print(q1.view(-1,2))
print(q1.view(-1,6))

Rechnen mit Tensoren ist über die Standard-Arithmetik-Operatoren möglich:

In [None]:
print(torch.ones((4,4,4))+torch.ones((4,4,4)))

Daneben gibt es eine Vielzahl von Funktionen, z.B. Sinus.

In [None]:
x = torch.arange(0, 10, 0.1, dtype=torch.float32)
y = torch.sin(x)

print(x)
print(y)

plt.scatter(x, y)
plt.show()

Die *in place* Variante der meisten Funktionen wird mit einem abschließenden `_` bezeichnet.

In [None]:
print(x)
x.sin_()
print(x)

Die weiteren Bestandteile der PyTorch API zur Definition und zum Lernen von neuronalen Netzen werden wir uns in den nächsten Vorlesungseinheiten genauer ansehen.

Bitte beachten Sie die ausführliche PyTorch API Dokumentation hier: https://pytorch.org/docs/stable/