# Module und Funktionen am Beispiel von _NumPy_

## Was sind Module in Python?

Für die meisten Programmiersprachen gibt es Werkzeugkisten mit Hilfsmitteln, die schon jemand fertig programmiert und zur freien Nutzung gestellt hat. Diese Werkzeugkisten werden oft als Packages oder Bibliotheken bezeichnet. Im Zusammenhang mit Python hat sich die Bezeichnung _Modul_ durchgesetzt. Die Module enthalten oft Hilfsprogramme, eigene Datenstrukturen und sogar neue Datentypen.

Für Python wurden bereits sehr viele Module geschrieben. Deswegen kann man in Python große Projekte schnell umsetzen, ohne dafür selbst viel programmieren zu müssen. Besonders beliebt ist diese Programmiersprache, wenn es um die KI-Forschung geht. Inzwischen bietet Python die größte Auswahl an Modulen mit fertig programmierten Machine und Deep Learning Methoden.


## Importieren von Modulen

Wir fangen mit dem Modul _NumPy_ an. <a href="https://numpy.org/">NumPy</a> steht für _Numerical Python_. Es ist ein wichtiges Modul für wissenschaftliche Berechnungen.

Um die Komponenten eines Moduls im Programm nutzen zu können, muss dieses zuerst mit dem Befehl _import_ importiert werden. Der Name des Moduls, also _numpy_, muss direkt nach der _import_-Anweisung folgen. Um einen Alias zu vergeben, was bei NumPy oft _np_ ist, fügt man noch _as np_ hinzu.

In [None]:
import numpy as np

Jetzt ist NumPy in unserem Programm importiert und wir können seine Konstrukte und Werkzeuge nutzen. Eine detaillierte Beschreibung der Bestandteile des NumPy-Moduls findest du online in <a href="https://numpy.org/doc/stable/reference/index.html">Reference Manual</a>.

## NumPy-Datenstruktur _ndarray_

NumPy bietet eine eigene Datenstruktur namens <a href="https://numpy.org/doc/stable/reference/arrays.ndarray.html">_ndarray_</a> an. Dabei handelt es sich um ein mehrdimensionales Array, das einer verschachtelten Liste sehr ähnlich ist. Der wesentliche Unterschied besteht darin, dass alle Elemente innerhalb eines _ndarrays_ vom selben Datentyp sein müssen. Außerdem müssen alle Unterlisten jeder Hierarchieebene in einem _ndarray_ die gleiche Anzahl von Elementen enthalten.

In einem _ndarray_ werden oft Werte einer Datentabelle gespeichert. Wenn diese numerische Werte unterschiedlichen Datentyps wie zum Beispiel ganze Zahlen und Fließkommazahlen enthält, dann empfiehlt es sich einen Datentyp mit einer höheren Präzision wie zum Beispiel _float_, also Fließkommazahl, für die Speicherung der Werte im _ndarray_ zu wählen.

### Erzeugung von _ndarrays_

Wenn bereits bekannt ist, welche Werte in einem _ndarray_ gespeichert werden sollen, wird das _ndarray_ wie folgt erzeugen: Zuerst wird der Namen des _ndarrays_ angegeben. Nach dem Zuweisungsoperator muss der Modulname, also _np_, angegeben werden, die Datenstruktur dieses Moduls genutzt wird. Nach dem Punkt wird die Bezeichnung der Funktion angegeben, mit deren Hilfe ein _ndarray_ erzeugt werden kann. Eine _Funktion_ in Programmiersprachen ist ein Hilfsprogramm, das für bestimmte Eingabewerte eine Ausgabe produziert. Die _ndarrays_ werden mit der NumPy-Funktion <a href="https://numpy.org/doc/stable/reference/generated/numpy.array.html#">_array()_</a> erzeugt. In der runden Klammer der Funktion werden Werte des _ndarrays_ aufgeführt. Diese werden wie eine verschachtelte Liste angegeben. Nach dem Komma kann der Datentyp der Elemente spezifiziert werden. Diese Angabe ist aber optional. Wird der Datentyp nicht angegeben, wird dieser automatisch bestimmt.

In [None]:
patienten_daten = np.array([[45, 1.82, 78.5], [35, 1.73, 56.3], [67, 1.87, 82], [23, 1.95, 90.4]])

print(patienten_daten)

Wie man in der Ausgabe sehen kann, wurden alle ganzen Zahlen automatisch in Fließkommazahlen umgewandelt. Wenn man den genauen Datentyp der Werte eines ndarrays wissen möchte, kann dies mit Hilfe des Befehls _dtype_ bestimmt werden.

In [None]:
print("Datentyp der Elemente des ndarrays patienten_daten:", patienten_daten.dtype)

Im <a href="https://numpy.org/doc/stable/user/basics.types.html">online Manual</a> können weitere Informationen zu diesem und weiteren Datentypen nachgeschlagen werden.

Ein weiterer nützlicher Befehl für _ndarrays_ ist _shape_. Dieser gibt die Dimensionen des _ndarrays_ an, also die Anzahl der Elemente entlang jeder Achse.

In [None]:
print("Dimension des ndarrays patienten_daten:", patienten_daten.shape)

### Zugriff auf die Elemente in einem _ndarray_

Da der Aufbau eines _ndarrays_ einer Liste sehr ähnlich ist, erfolgt auch der Zugriff auf die Elemente in ähnlicher Weise. Man kann auf die Elemente in einem _ndarray_ über deren Indexe zugreifen. Dabei muss beachtet werden, dass die Indexnummerierung in _ndarrays_ genau wie in den Listen mit Null anfängt.

In [None]:
print("Element in der zweiten Zeile und dritten Spalte des Arrays patienten_daten:", patienten_daten[1,2])

Man kann auch ganze Zeilen oder Spalten eines _ndarrays_ ausgeben oder in einem weiteren _ndarray_ speichern. Um die Werte aller Spalten im neuen Array zu speichern, muss man in der zweiten Dimension einen Doppelpunkt angeben.

In [None]:
patient_4 = patienten_daten[3,:]

print("Daten des vierten Patienten aus dem Array patienten_daten:", patient_4)

Auf ähnliche Weise können die Elemente einer Spalte in einem neuen _ndarray_ gespeichert werden. Hier muss man in der ersten Dimension einen Doppelpunkt angeben. In der zweiten Dimension wird der Index der entsprechenden Spalte angegeben.

In [None]:
patienten_alter = patienten_daten[:, 0]

print("Alter aller Patienten des Array patienten_daten:", patienten_alter)

Möchte man den Werte eines Elementes in einem _ndarray_ ändern, wird das Element über seinen Index angesprochen und ihm ein neuer Wert zugewiesen.

In [None]:
print("Array patienten_daten vor der Änderung:")
print(patienten_daten)
print()

patienten_daten[1, 1] = 1.92

print("Array patienten_daten nach der Änderung:")
print(patienten_daten)

### Suche in _ndarrays_

In _ndarrays_ kann man mit der <a href="https://numpy.org/doc/stable/reference/generated/numpy.where.html">_where()_</a>-Funktion die Position eines Elements mit bestimmten Eigenschaften ausgeben lassen. Dabei wird das Ergebnis in einem Array gespeichert.

In [None]:
print("Indizes der Patiente, die älter als 35 Jahre sind:", np.where(patienten_daten[:,0] > 35))

print("Indizes der Patiente, die älter oder genau 35 Jahre sind:", np.where(patienten_daten[:,0] >= 35))

print("Indizes der Patiente, die genau 35 Jahre sind:", np.where(patienten_daten[:,0] == 35))