<img src="https://i.imgur.com/XSzy00d.png" style="float:right;width:150px">

**NumPy und Pandas**

# Einleitung

## Lernziele

* Sie können mit mehrdimensionalen **Numpy Arrays** umgehen
* Sie können zweidimensionale Arrays als **Bilddaten** interpretieren und anzeigen
* Sie können auf **Teile** eines Arrays zugreifen
* Sie können Funktionen auf **alle Array Elemente** anwenden
* Sie kennen **Pandas Dataframes** als Möglichkeit um mit tabellarischen Daten zu arbeiten
* Sie können Dataframes aus **CSV Dateien** erstellen
* Sie können Dataframes **filtern** und **gruppieren**

# NumPy

Bestimmte Module haben in Python eine grosse Verbreitung erzielt. Ein solches ist [NumPy](https://numpy.org/), welches im Bereich von **Data Science** eine wichtige Rolle spielt. Der Hauptgrund dafür ist, dass das Modul effiziente Funktionen zum Umgang mit grossen Datenmengen zur Verfügung stellt.

## NumPy Array

Das wichtigste Objekt, welches das NumPy Modul zur Verfügung stellt ist das n-dimensionale Array `ndarray`. Ein Array ist im Prinzip eine Sammlung von Zahlen, die aber in verschiedenen Dimensionen angeordnet sind. Das eindimensionale Array (auch Vektor genannt), hat nur eine Dimension, also sind alle Zahlen darin durch einen eindimensionalen Index ansprechbar. Das kennen wir bereits aus der normalen Python Liste, welche im Prinzip auch ein eindimensionales Array ist.

Spannender wird es mit mehreren Dimensionen. Bei einem zweidimensionalen Array sind die einzelnen Zahlen über eine Kombination von zwei Indizes ansprechbar. Die einfachste Interpretation eines zweidimensionalen Arrays ist, dass die beiden Dimensionen eine Fläche "aufspannen" und die Indizes eine "Koordinate" angeben.

Um einfach grosse Arrays zu erzeugen, mit denen die Arbeit spannend ist, eignen sich Zufallszahlen:

In [None]:
import numpy as np

array = np.random.randint(low = 0, high = 256, size = (4,8))
print(array)

Zuerst wird das Modul `numpy` unter dem Namen `np` importiert. Dies ist eine Konvention, das Modul müsste nicht umbenennt werden, aber bei den meisten Tutorials und Anleitungen aus dem Internet hat sich diese Namensgebung durchgesetzt. Dann wird ein Array mit Hilfe von ganzzahligen Zufallszahlen erstellt. Die Funktion `randint()` aus dem Objekt `random` aus `np` benötigt verschiedene Parameter:

Hier wird die Anwendung von sogenannten **Keyword Arguments** gezeigt, also Schlüsselwort Parametern. Die Parameter werden der Funktion nicht einfach als Abfolge von Zahlen (oder Strings) übergeben, sondern mit Hilfe eines jeweiligen Schlüsselwortes (ähnlich einem Dictionary). Dies ist insbesondere nützlich, wenn es sich um eine Funktion mit vielen Parametern handelt. Bei der Verwendung von Schlüsselwort Parametern , spielt die Reihenfolge der Parameter keine Rolle. Beim Argument mit dem Namen `size` wird nicht nur eine einzelne Zahl übergeben, sondern es wird angegeben, wie viele Dimensionen das Array haben soll und wie "lange" die jeweilige Dimension sein soll. Die Notation mit `(Zahl1, Zahl2)` erzeugt ein sogenanntes [**Tupel**](https://www.w3schools.com/python/python_tuples.asp) und solche Tupel stellen eine weiter Form der verschiedenen **Data Collection** dar, die Python kennt. Sie sind den Listen sehr ähnlich.

Im Beispiel oben wird also ein zweidimensionales Array mit 4 Zeilen und 8 Spalten erzeugt und mit ganzzahligen Zufallsnummern zwischen 0 und 255 gefüllt.

Höherdimensionale Arrays werden bei der Darstellung über den `print()` Befehl als Sammlung von zweidimensionalen Arrays ausgegeben und es braucht etwas Übung, die entsprechenden Dimensionen richtig zuzuordnen:

In [None]:
multi_d_array = np.random.randint(low = 0, high = 256, size = (2,3,4,5))
print(multi_d_array)

Arrays aus Zahlen erscheinen auf den ersten Blick etwas langweilig (ausser vielleicht für Mathematiker:innen). Arrays können aber hervorragend als Bilddaten interpretiert werden und damit wird auch die Manipulation von Arraydaten interessanter, weil sie eine Änderung des entsprechenden Bildes erzeugen.

## Array als Bild interpretieren

Nachfolgend wird ein Array der Dimension 10 auf 10 mit zufälligen Werten zwischen 0 und 255 erstellt. Dieses Array wird mit dem `print()` Befehl ausgegeben. Anschliessend wird die Funktion `imshow()` aus dem Modul `matplotlib.pyplot` benutzt, um diese Array Daten als "Bild" darzustellen. Die Funktion `imshow()` braucht neben dem Parameter für die eigentlichen Daten, hier `array`, eine Angabe, wie die Daten dargestellt werden sollen. `cmap='gray'` bewirkt dabei, dass den Array Werten verschiedene Grautöne zugeordnet werden. Der Befehl `%matplotlib inline` ist ein sogennantes "Magic Command" und weist das Jupyter Notebook an, die Ausgabe von `matplotlib` direkt in der dazugehörigen Zelle darzustellen (und nicht in einem eigenen neuen Fenster): 

In [None]:
%matplotlib inline

import numpy as np
from matplotlib import pyplot as plt

array = np.random.randint(low = 0, high = 256, size = (10,10))
print(array)

plt.imshow(array, cmap = 'gray')

Zahlen aus dem Array mit einem tiefen Wert, werden dunkler dargestellt, solche mit einem hohen Wert dementsprechend heller.

## Arrays aus CSV Dateien importieren

NumPy beinhaltet eine Funktion, um direkt Daten aus einer CSV Datei in ein Array einzulesen. Die Funktion heisst `genfromtxt()` und braucht als Parameter den Filenamen resp. Pfad zur CSV Datei und den Parameter `delimiter = ','` um zu spezifizieren, mit welchem Zeichen die Spalten im CSV getrennt sind (normalerweise `,` oder `;`).

<div class="gk-exercise">

Importiere mit Hilfe der Funktion `genfromtxt()` aus dem NumPy Modul die CSV Datei aus `data/array.csv` als Array. Zeige die entsprechenden Daten mit dem `print()` Befehl an.
</div>

In [None]:
import numpy as np

# YOUR CODE HERE

Wenn ein Array ziemlich gross ist, dann wird die Darstellung mit dem `print()` Befehl entsprechend angepasst und es wird nur ein Ausschnitt aus dem Array angezeigt. Es ist wichtig, zu lernen, einen Überblick über die entsprechenden Array Daten zu gewinnen.

Mit dem Attribut `shape` eines ndarray Objektes kann die Anzahl Dimensionen und ihre jeweilige Grösse eines Arrays angezeigt werden:

In [None]:
import numpy as np

array = np.genfromtxt("data/array.csv", delimiter = ",")

print(array.shape)

Mit Hilfe der Funktionen `max()` und `min()` kann das Maximum und das Minimum der Werte des Arrays bestimmt werden, mit der Funktion `mean()` der Mittelwert:

In [None]:
print("Maximum:", array.max())
print("Minimum:", array.min())
print("Mittelwert:", array.mean())

Das untersuchte Array beinhaltet also nur Werte zwischen 0 und 1.

## Teile eines Arrays auswerten

In der Praxis ist das Problem häufig, dass nur auf bestimmte Bereiche eines Arrays zugegriffen werden muss, also beispielsweise auf ein ganz bestimmtes Element oder eine bestimmte Zeile oder Spalte. Dies kann mit einer Notation erreicht werden, wie sie ähnlich schon von Listen her bekannt ist.

### Zugriff auf ein bestimmtes Element

hier das Element aus der 35. Zeile / 13. Spalte:

In [None]:
print(array[34,12])

### Zugriff auf eine bestimmte Zeile

hier die 69. Zeile:

> **Achtung**, die Darstellung scheint so, als ob das entsprechende Resultat eine Matrix wäre, es ist aber ein eindimensionaler Vektor, der über mehrere Zeilen gebrochen wird. Das lässt sich an den einfachen eckigen Klammern `[]` erkennen.

In [None]:
print(array[68,:])

### Zugriff auf mehrere bestimmte Zeilen und bestimmte Spalten 

Teilmatrix "ausschneiden":

In [None]:
print(array[8:10,56:58])

> Hier kommt es zur Ausgabe mit zwei eckigen Klammerpaaren `[[]]`, weil das tatsächlich wieder eine Matrix ist und kein Vektor.

Mit der Notation mit dem Doppelpunkt `:` kann also auf einen Teilbereich der Matrix zurückgegriffen werden. Wenn der Doppelpunkt alleine steht, sind damit alle Indizes dieser Dimension gemeint. Vor resp. nach dem Doppelpunkt können der Start- resp. Endpunkt der Indizes dieser Dimension angegeben werden. Es muss berücksichtigt werden, dass die Indizierung bei 0 startet und dass das Element vor dem Doppelpunkt inklusive ist, das nach dem Doppelpunkt jedoch exklusive.

<div class="gk-exercise">

Stelle das bereits oben importierte Array unter `data/array.csv` mit Hilfe der Funktion `imshow()` aus dem Modul `matplotlib.pyplot` als Bild dar.
</div>

In [None]:
%matplotlib inline

import numpy as np
from matplotlib import pyplot as plt

array = np.genfromtxt("data/array.csv", delimiter = ",")

# YOUR CODE HERE

Es wurde also die ganze Zeit mit einer Matrix gearbeitet, die eigentlich Bilddaten des Bundeshauses enthält. Dies ist ein gutes Beispiel dafür, dass die grafische Repräsentation von Zahlen häufig sehr viel schneller und gesamtheitlicher zu erfassen ist, als die Zahlen selbst.

***

## Operationen auf alle Array Elemente anwenden

Das Bild des Bundeshauses soll nun bearbeitet werden. Dafür müssen die unterliegenden Array Elemente, also die Zahlwerte angepasst werden. Eine Idee könnte beispielsweise sein, die Helligkeit zu invertieren. Also sollen helle Teile dunkel werden und umgekehrt. Dazu könnte im Prinzip eine verschachtelten For Schleife dienen, mit deren Hilfe Zeilen und Spalten einzeln durchiteriert würden. Das Modul NumPy bietet dafür aber bessere Möglichkeiten:

In [None]:
%matplotlib inline

import numpy as np
from matplotlib import pyplot as plt

array = np.genfromtxt("data/array.csv", delimiter = ",")

def invert(number):
    return 1 - number

array_light = np.vectorize(invert)(array)

plt.imshow(array_light, cmap = 'gray')

Im obigen Beispiel wird die Funktion `invert()` definiert welche als Parameter eine Zahl `number` erhält. Die Funktion gibt `1 - number` zurück, was aus 0.1 0.9 macht und aus 0.8 0.2 usw.

Diese Funtion soll auf alle Array Elemente angewendet werden. Dies kann dadurch erreicht werden, dass die Funktion "vektorisiert" wird. Das bedeutet, dass sie tauglich gemacht wird, um gleichzeitig auf mehr als ein Element zu wirken. Wie das genau geht ist hier nicht Thema. Das Modul NumPy erhält dafür die Funktion `vectorize()`. Die Zeile `array_light = np.vectorize(invert)(array)` bewirkt also, dass der Variable `array_light` das bestehende `array` zugewiesen wird, auf das aber die Funktion `enlight_darkness` angewandt wurde, die mit Hilfe von `vectorize()` tauglich gemacht wurde, dass sie auf alle Elemente der Matrix gleichzeitig wirken kann.

Herzliche Gratulation. Schon bald wirst du in der Lage sein, ein Konkurrenzprodukt zu Adobe Photoshop zu programmieren!

<div class="gk-exercise">

Nimm nochmals das Bild vom Bundeshaus und erstelle ein Programm, das den Kontrast des Bildes verändern kann. Kontrast erhöhen bedeutet dabei, dass die dunklen Teile noch dunkler werden und die hellen Teile noch heller.

<details>
<summary>Tipp</summary>
    <p>Es gibt sehr viel verschiedene Möglichkeiten, wie genau man die einzelnen Werte verändern möchte. Der extremste Kontrast erreicht man dadurch, dass alle Werte kleiner eines bestimmten Schwellwerts (bspw. 0.5) auf 0 gesetzt werden und alle anderen auf 1.</p>
</details>
</div>

In [None]:
# YOUR CODE HERE

# Pandas

[Pandas](https://pandas.pydata.org/) ist ein Modul, das speziell für die Arbeit mit tabellenartigen Daten (also flat data) erstellt wurde. Das zentrale Element von Pandas ist das **DataFrame**, welches in Zeilen und Spalten unterteilt ist. Im Gegensatz zu einem zweidimensionalen Array aus NumPy, können DataFrames in den verschiedenen Spalten verschiedene Datentypen aufweisen.

## DataFrames erstellen

DataFrames können aus einem Dictionary erzeugt werden. Dabei werden die Schlüssel als Spaltenname verwendet und die Listen der Werte als Spalteninhalte:

In [None]:
import pandas as pd

df = pd.DataFrame(
{
    "Name": [
        "Casimira",
        "Silvana",
        "Florentina"],
    "Matrikelnummer": [
        "21-203-234",
        "19-401-012",
        "12-124-093"],
    "Note": [
        6,
        5.5,
        6
    ]
})

display(df)

Die Funktion `display()` bewirkt bei den Tabellen, dass diese übersichtlicher dargestellt werden im Vergleich zu `print()`.

## Zugriff auf Spalten in einem DataFrame

Einzelne Spalten eines DataFrames können mit Hilfe der Notation `df["Spaltenname"]` ausgewählt werden. Eine Spalte eines DataFrames ist vom Typ `Series`, was einfach geprüft werden kann:

In [None]:
print(type(df["Name"]))
print(df["Name"])

Als Alternative kann auch die Notation `df.Spaltenname` angewandt werden:

In [None]:
print(df.Name)

Um daraus eine Liste zu machen, kann die Funktion `list()` verwendet werden:

In [None]:
names = list(df["Name"])
print(names)

Wenn mehrere Spalten ausgewählt werden sollen, kann eine Liste von Spaltennamen angegeben werden, was dazu führt, dass doppelte Klammern `[[]]` benutzt werden müssen. Das resultierende Objekt ist wiederum ein DataFrame (mit den entsprechenden Spalten):

In [None]:
print(type(df[["Name", "Note"]]))
display(df[["Name", "Note"]])

## Zugriff auf einzelne Elemente in einem DataFrame

Innerhalb einer ausgewählten Spalte kann über eckige Klammern `[]` analog zu einer Liste einzelne Elemente selektiert werden:

In [None]:
df.Name[0]

In [None]:
df.Name[0:2]

Wenn der Zugriff positionsbezogen erfolgen soll, kann der `iloc[]` Selektor verwendet werden. Dieser selektiert gleichzeitig Zeilen und Spalten analog zu den Numpy Arrays:

In [None]:
df.iloc[0,0]

In [None]:
df.iloc[0,:]

In [None]:
df.iloc[:,2]

## DataFrames aus CSV Dateien einlesen

Typischerweise existiert bereits eine tabellarische Darstellung der Daten, die in Python geladen werden soll, um damit weiterarbeiten zu können. Wenn die Daten als CSV-Datei vorliegen, spielt es keine Rolle, ob sie auf der lokalen Festplatte gespeichert sind oder direkt aus dem Internet heruntergeladen werden.

Um CSV-Dateien direkt in ein DataFrame zu laden, kann die Funktion `read_csv()` aus dem Pandas-Modul verwendet werden. Nachfolgend soll die Statistik der Strassenverkehrsunfälle des Kantons Basel aus dem Jahr 2024 in ein Jupyter Notebook geladen werden.

In [None]:
import pandas as pd

accidents = pd.read_csv('https://data.bs.ch/api/explore/v2.1/catalog/datasets/100120/exports/csv?lang=de&refine=jahr%3A%222024%22&delimiter=%3B', sep = ";")

> solange in der eckigen Klammer neben der Zelle statt einer Zahl ein `*` ist, heisst das, dass der Download noch nicht abgeschlossen wurde

Um einen Überblick über die Daten zu gewinnen sollen die Dimensionen der Daten (Also Anzahl Zeilen und Spalten) mit dem Attribut `shape` und die ersten 5 Zeilen des DataFrames mit der Funktion `head()` angezeigt werden.

In [None]:
print(accidents.shape)
display(accidents.head(5))

## DataFrames untersuchen

Um eine weitere Übersicht über das DataFrame zu gewinnen, stehen verschiedene Möglichkeiten zur Verfügung. Es interessiert bspw. welcher Unfalltyp wie häufig vorkommt:

In [None]:
print(accidents['typ'].value_counts())

Mit der Notation `DataFrame['Spaltenname']` wird auf eine bestimmte Spalte zugegriffen und mit der Funktion `value_counts()` werden die verschiedenen in der Spalte vorhandenen Einträge gezählt. Um diese Daten schneller interpretieren zu können, können diese mit Hilfe der Funktion `plot()` auch gleich grafisch als Plot angezeigt werden:

In [None]:
accidents['typ'].value_counts().plot(kind = 'bar')

Das Schlüsselwort Argument `kind = 'bar'` legt in diesem Fall fest, welcher Typ von Plot gezeichnet werden soll. Hier also ein Balkendiagramm. Weitere Möglichkeiten von Visualisierungstypen sind in der [Dokumentation von Pandas](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.plot.html) zu finden.

<div class="gk-exercise">

Untersuche das DataFrame `accidents` darauf, an welchem Wochentag die meisten Unfälle passieren. Zähle dafür die Anzahl Unfälle für alle Wochentage und stelle dies als Balkendiagramm dar. Wann ist es am sichersten, sich im Verkehr zu bewegen?

</div>

In [None]:
# YOUR CODE HERE

## DataFrames filtern

Manchmal sollen nicht alle Daten eines DataFrames untersucht werden, sondern nur solche, die für eine bestimmte Spalte einen bestimmten Wert haben:

In [None]:
pedestrian_accidents = accidents[accidents.strasseart == "Nebenstrasse"]

pedestrian_accidents["stunde"].value_counts().plot(kind = "bar")

Hier werden also nur Unfälle in "Nebenstrassen" untersucht. Die Konstruktion `accidents.strasseart == "Nebenstrasse"` erstellt eine `Series` mit `True`/`False` für jeden Wert der Spalte `strasseart`, je nachdem ob der Wert `"Nebenstrasse"` ist oder nicht. Diese Series kann als Selektor verwendet werden, um nur die entsprechenden Zeilen im DataFrame auszuwählen. Dann werden die Unfälle in Nebenstrassen nach Unfallstunde gezählt und als Plot angezeigt. Nicht sehr hilfreich ist, dass die x-Achse des Plots nicht nach der Uhrzeit sortiert ist, sondern nach den Werten auf der y-Achse. Um dies zu verändern, kann die Funktion `sort_index()` angewandt werden:

In [None]:
pedestrian_accidents = accidents[accidents.strasseart == "Nebenstrasse"]

pedestrian_accidents["stunde"].value_counts().sort_index().plot(kind = "bar")

Bravo, jetzt darfst du dich schon als "Data-Scientist" fühlen.

## DataFrames gruppieren

Manchmal sollen nicht nur einfach die Vorkommnisse einer bestimmten Spalte gezählt werden, sondern diese Zählung noch nach einer anderen Spalte gruppiert werden. Es sollen also beispielsweise pro Strassenart noch die Schwere der verschiedenen Unfälle gezählt werden. Dieses Vorgehen wird als **Gruppieren** bezeichnet. Innerhalb der Gruppen können dann gewisse zusammenfassende Funktionen ausgeführt werden. Die häufigste davon ist, dass die Summe der Vorkommnisse der verschiedenen Gruppen gezählt werden sollen. Es könnte aber auch bspw. der Mittelwert gebildet oder das Maximum oder Minimum bestimmt werden.

Mit Hilfe der Funktion `groupby()`, die für Pandas DataFrames verfügbar ist, können über mehrere Spalten solche Gruppen gebildet werden. Dafür muss der Funktion eine Liste der Spaltennamen übergeben werden. Für diese Gruppierung können dann mit der Funktion `size()` die einzelnen Anzahlen bestimmt werden.

In [None]:
print(accidents.groupby(["strasseart", "schwere"]).size())

Um die Zahlen besser interpretieren zu können, wäre es hilfreich, nicht die absoluten Anzahlen zu haben, sondern eine prozentuale Angabe. Es wäre dann sofort ersichtlich, dass Unfälle mit Getöteten in einer bestimmten Unfallkategorie viel wahrscheinlicher sind als in einer anderen. Dazu sind aber weitere Fähigkeiten nötig, die hier nicht behandelt werden sollen.

# Schlussaufgabe

<div class="gk-exercise">

Lade die CSV Daten zu den Wahl- und Abstimmungsresultaten in den Jahren 2002-2022 aus dem Kanton St. Gallen unter https://daten.sg.ch/api/v2/catalog/datasets/wahlen-und-abstimmungen-kanton-stgallen/exports/csv als Pandas DataFrame herunter. Die Daten sind mit einem Strichpunkt `;` getrennt. Zeige die ersten 5 Zeilen dieses DataFrames an, um ein Verständnis dafür zu erhalten, wie diese Daten aufgebaut sind.

Filtere die Daten, so dass nur Abstimmungen und keine Wahlen vorhanden sind. Erstelle ein gruppiertes Resultat, das anzeigt, auf welcher föderalen Stufe wie viele Abstimmungen angenommen resp. abgelehnt wurden. 
</div>

In [None]:
# YOUR CODE HERE

# Zusammenfassung

In diesem Notebook wurde erläutert, wie mit Hilfe von Numpy Arrays grosse Mengen von Zahlen gleichzeitig bearbeitet werden können. Es wurde die Arbeit mit n-dimensionalen Arrays vorgestellt und aufgezeigt, dass sich zweidimensionale Arrays als Bilddaten auffassen lassen, die entsprechend auch als Bild dargestellt werden können. Anschliessend wurde mit Hilfe von Operationen auf alle Array-Elemente Bildbearbeitung betrieben.

Als Möglichkeit mit tabellarischen Daten zu arbeiten wurde das Modul Pandas vorgestellt. Aus CSV Dateien wurden dabei Pandas Dataframes erstellt und untersucht. Es wurde aufgezeigt, wie solche Datenstrukturen gefiltert und gruppiert werden können.

# Impressum

<a rel="license" href="http://creativecommons.org/licenses/by-sa/4.0/"><img alt="Creative Commons Lizenzvertrag" style="border-width:0" src="https://mirrors.creativecommons.org/presskit/buttons/88x31/svg/by-sa.svg" /></a><br />Dieses Werk ist lizenziert unter einer <a rel="license" href="http://creativecommons.org/licenses/by-sa/4.0/">Creative Commons Namensnennung - Weitergabe unter gleichen Bedingungen 4.0 International Lizenz</a>.

Autoren: [Jakob Schärer](mailto:jakob.schaerer@unibe.ch), [Lionel Stürmer](mailto:lionel.stuermer@bfh.ch) <br>
Ursprünglicher Text von: Noe Thalheim, Benedikt Hitz-Gamper


## Credits

* [Foto Bundeshaus](https://upload.wikimedia.org/wikipedia/commons/4/45/Bundeshaus_Bern_2009%2C_Flooffy.jpg)
* Herzliches Dankeschön an [Guillaume Witz](https://www.scits.unibe.ch/about_us/people_metadata/dr_witz_guillaume/) für die Inspiration durch seinen [NumPy/Pandas](https://github.com/guiwitz/NumpyPandas_course) Kurs.


```
Q: Why was the new band '1023 MB' extremely sad? 

A: Because since their formation, they haven't had a gig yet!
```