Before you turn this problem in, make sure everything runs as expected. First, **restart the kernel** (in the menubar, select Kernel$\rightarrow$Restart) and then **run all cells** (in the menubar, select Cell$\rightarrow$Run All).

Make sure you fill in any place that says `YOUR CODE HERE` or "YOUR ANSWER HERE", as well as your name and collaborators below:

In [None]:
NAME = ""
COLLABORATORS = ""

---

# NumPy

Bestimmte Module haben in Python eine weite Verbreitung erzielt. Ein solches ist [NumPy](https://numpy.org/), welches im Bereich von **Data Science** eine wichtige Rolle spielt. Der Haupgrund dafür ist, dass das Modul effiziente Funktionen zum Umgang mit grossen Datenmengen zur Verfügung stellt.

## NumPy Array

Das wichtigste Objekt, welches das NumPy Modul zur Verfügung stellt ist das n-dimensionale Array `ndarray`. Ein Array ist im Prinzip eine Sammlung von Zahlen, die aber in verschiedenen Dimensionen angeordnet sind. Das eindimensionale Array (auch Vektor genannt), hat nur eine Dimension, also sind alle Zahlen darin durch einen eindimensionalen Index ansprechbar. Das kennen wir bereits aus der normalen Python Liste, welche im Prinzip auch ein eindimensionales Array ist.

Spannender wird es mit mehreren Dimensionen. Bei einem zweidimensionalen Array sind die einzelnen Zahlen über eine Kombination von zwei Indizes ansprechbar. Die einfachste Interpretation eines zweidimensionalen Arrays ist, dass die beiden Dimensionen eine Fläche "aufspannen" und die Indizes eine "Koordinate" angeben.

Da Arrays erst spannend werden, wenn man viele Zahlen hat, müssen wir eine Möglichkeit kennen lernen, solche Arrays zu erzeugen. Am einfachsten geht das mit Zufallszahlen:

In [None]:
import numpy as np

array = np.random.randint(low = 0, high = 256, size = (4,8))
print(array)

Zuerst importieren wir das Modul `numpy` unter dem Namen `np`. Dies ist eine Konvention, wir müssten das Modul nicht umbenennen, aber bei den meisten Tutorials und Anleitungen aus dem Internet hat sich diese Namensgebung durchgesetzt. Dann erstellen wir ein Array mit Hilfe von ganzzahligen Zufallszahlen. Die Funktion `randint()` aus dem Objekt `random` aus `np` benötigt ein paar Parameter.

Hier sehen wir die Anwendung von sogenannten **Keyword Arguments**, also Schlüsselwort Parametern. Die Parameter werden der Funktion nicht einfach als Abfolge von Zahlen (oder Strings) übergeben, sondern mit Hilfe eines jeweiligen Schlüsselwortes (ähnlich wie wir es aus den Dictionaries kennen). Dies ist insbesondere nützlich, wenn man eine Funktion mit vielen Parametern hat und sich über die Abfolge der Parameter nicht sicher ist. Wenn man Schlüsselwort Parameter verwendet, spielt die Reihenfolge der Parameter keine Rolle. Beim Argument mit dem Namen `size` übergeben wir nicht nur eine einzelne Zahl, sondern geben an, wie viele Dimensionen und wie "lange" die jeweilige Dimension sein soll. Die Notation mit `(Zahl1, Zahl2)` nennt man übrigens ein **Tupel** und solche Tupel stellen eine weiter Form der verschiedenen **Data Collection** dar, die Python kennt. Sie sind den Listen sehr ähnlich.

Im Beispiel oben erstellen wir also ein zweidimensionales Array mit 4 Zeilen und 8 Spalten gefüllt mit ganzzahligen Zufallsnummern zwischen 0 und 256.

Höherdimensionale Arrays werden bei der Darstellung über den `print()` Befehl als Sammlung von zweidimensionalen Arrays ausgegeben und es braucht etwas Übung, die entsprechenden Dimensionen richtig zuzuordnen:

In [None]:
multi_d_array = np.random.randint(low = 0, high = 256, size = (2,3,4,5))
print(multi_d_array)

Arrays aus Zahlen erscheinen auf den ersten Blick etwas langweilig (ausser vielleicht für Mathematiker). Arrays können aber hervorragend als Bilddaten interpretiert werden und damit wird auch die Manipulation von Arraydaten interessanter, weil sie eine Änderung des entsprechenden Bildes erzeugen.

## Array als Bild interpretieren

Nachfolgend erstellen wir ein Array der Dimension 10 auf 10 mit zufälligen Werten zwischen 0 und 255. Dieses Array geben wir mit dem `print()` Befehl aus. Anschliessend nutzen wir die Funktion `imshow()` aus dem Modul `matplotlib.pyplot`, um diese Array Daten als "Bild" darzustellen. Die Funktion `imshow()` braucht neben dem Parameter für die eigentlichen Daten, hier `array` eine Angabe, wie die Daten dargestellt werden sollen. `cmap='gray'` bewirkt dabei, dass den Array Werten verschiedene Grautöne zugeordnet werden. Der Befehl `%matplotlib inline` ist ein sogennantes "Magic Command" und weist das Jupyter Notebook an, die Ausgabe von `matplotlib` direkt in der dazugehörigen Zelle darzustellen (und nicht in einem eigenen neuen Fenster): 

In [None]:
%matplotlib inline

import numpy as np
from matplotlib import pyplot as plt

array = np.random.randint(low = 0, high = 255, size = (10,10))
print(array)

plt.imshow(array, cmap = 'gray')

Zahlen aus dem Array mit einem tiefen Wert, werden dunkler dargestellt, solche mit einem hohen Wert dementsprechend heller.

## Arrays aus CSV Dateien importieren

NumPy beinhaltet eine Funktion, um direkt Daten aus einer CSV Datei in ein Array einzulesen. Die Funktion heisst `genfromtxt()` und braucht als Parameter den Filenamen resp. Pfad zur CSV Datei und den Parameter `delimiter = ','` um zu spezifizieren, mit welchem Zeichen die Daten im CSV getrennt sind (normalerweise `,` oder `;`.

### Aufgabe

Importiere mit Hilfe der Funktion `genfromtxt()` aus dem NumPy Modul die CSV Datei aus `data/array.csv` als Array. Zeige die entsprechenden Daten mit dem `print()` Befehl an.

In [None]:
# YOUR CODE HERE
raise NotImplementedError()

Wenn ein Array ziemlich gross ist, dann wird die Darstellung mit dem `print()` Befehl entsprechend angepasst und man sieht nur einen Ausschnitt aus dem Array. Wir müssen also lernen, einen Überblick über die entsprechenden Array Daten zu gewinnen.

Mit dem Attribut `shape` eines ndarray Objektes können wir die Anzahl Dimensionen und ihre jeweilige Grösse eines Arrays anzeigen:

In [None]:
import numpy as np

array = np.genfromtxt("data/array.csv", delimiter = ",")

print(array.shape)

Mit Hilfe der Funktionen `max()` und `min()` können wir das Maximum und das Minimum der Werte des Arrays bestimmen, mit der Funktion `mean()` den Mittelwert:

In [None]:
print("Maximum:", array.max())
print("Minimum:", array.min())
print("Mittelwert:", array.mean())

Wir sehen also, dass im Array nur Werte zwischen 0 und 1 vorkommen.

## Teile eines Arrays auswerten

In der Praxis hat man immer wieder das Problem, dass man nur auf bestimmte Bereiche eines Arrays zugreifen möchte, also beispielsweise auf ein ganz bestimmtes Element oder eine bestimmte Zeile oder Spalte. Dies können wir mit einer Notation machen, wie wir sie schon von Listen her kennen.

Zugriff auf ein bestimmtes Element, hier das Element aus der 34. Zeile / 12. Spalte:

In [None]:
print(array[34,12])

Zugriff auf eine bestimmte Zeile, hier die 68. Zeile (Achtung, die Darstellung scheint so, als ob das entsprechende Resultat eine Matrix wäre, es ist aber nur ein eindimensionaler Vektor, der einfach über mehrere Zeilen gebrochen wird. Das erkennt man an den einfachen eckigen Klammern `[]` im Vergleich zur nächsten Aufgabe, wo die Ausgabe mit zwei eckigen Klammerpaaren ist):

In [None]:
print(array[68,:])

Zugriff auf mehrere bestimmte Zeilen und bestimmte Spalten (Teilmatrix "ausschneiden"):

In [None]:
print(array[8:10,56:58])

Mit der Notation mit dem Doppelpunkt `:` kann man also auf einen Teilbereich der Matrix zurückgreifen. Wenn der Doppelpunkt alleine steht, sind damit alle Indizes dieser Dimension gemeint. Vor resp. nach dem Doppelpunkt können der Start- resp. Endpunkt der Indizes dieser Dimension angegeben werden. Man muss berücksichtigen, dass die Indizierung bei 0 startet und dass das Element vor dem Doppelpunkt inklusive ist, das nach dem Doppelpunkt jedoch exklusive.

### Aufgabe:

Stelle das bereits oben importierte Array unter `data/array.csv` mit Hilfe der Funktion `imshow()` aus dem Modul `matplotlib.pyplot` als Bild dar.

In [None]:
# YOUR CODE HERE
raise NotImplementedError()

Wir haben also die ganze Zeit mit einer Matrix gearbeitet, die eigentlich Bilddaten des Bundeshauses enthält. Dies ist ein gutes Beispiel dafür, dass manchmal die grafische Repräsentation von Zahlen sehr viel schneller und gesamtheitlicher zu erfassen ist, als die Zahlen selbst.

***

## Operationen auf alle Array Elemente anwenden

Wir wollen jetzt das Bild des Bundeshauses bearbeiten. Dafür müssen wir die unterliegenden Array Elemente, also die Zahlwerte anpassen. Eine Idee könnte beispielsweise sein, dass wir finden, wir würden gerne die dunkleren Teile des Bundeshauses etwas heller machen. Wir müssten also alle Zahlen, die einen bestimmten Grenzwert unterschreiten (dunkel heisst ja, dass die Zahl klein ist), um einen bestimmten Wert anheben. Dazu müssen wir also jedes Element der Matrix untersuchen und falls der Wert den Grenzwert unterschreitet, diesen Wert anheben. Das könnten wir im Prinzip mit einer verschachtelten For Schleife machen, wo wir Zeilen und Spalten einzeln durchiterieren, aber das Modul NumPy bietet dafür bessere Möglichkeiten:

In [None]:
%matplotlib inline

import numpy as np
from matplotlib import pyplot as plt

array = np.genfromtxt("data/array.csv", delimiter = ",")

def enlight_darkness(number):
    if number < 0.2:
        return number + 0.2
    else:
        return number

array_light = np.vectorize(enlight_darkness)(array)

plt.imshow(array_light, cmap = 'gray', vmin=0, vmax=1)

Wir definieren also im obigen Beispiel eine Funktion `enlight_darkness()` welche als Parameter eine Zahl erhält. Wenn diese Zahl kleiner als der Schwellenwert 0.2 ist, soll der Wert um 0.2 erhöht werden, ansonsten soll einfach wieder die Zahl zurückgegeben werden.

Diese Funtion wollen wir auf alle Array Elemente anwenden. Dies können wir dadurch erreichen, dass wir die Funktion "vektorisieren". Das bedeutet, dass sie tauglich gemacht wird, um gleichzeitig auf mehr als ein Element zu wirken. Wie das geht, darum müssen wir uns nicht kümmern. Das Modul NumPy erhält dafür die Funktion `vectorize()`. Die Zeile `array = np.vectorize(enlight_darkness)(array)` bewirkt also, dass der Variable `array_light` das bestehende `array` zugewiesen wird, auf das aber die Funktion `enlight_darkness` angewandt wurde.

Da die Funktion `imshow()` eine automatische "Normalisierung" durchführt (das heisst, der dunkelste vorkommende Wert in der Matrix wird einfach schwarz gesetzt, unabhängig davon, welche Zahl dort steht), würden wir den Effekt kaum sehen, um das zu verhindern, können wir mit den Parametern `vmin=0` und `vmax=1` festlegen, dass Schwarz nur der Wert 0 sein soll und Weiss der Wert 1.

Den Unterschied zum unbearbeiteten Bild erkennt man nun am besten bei den dunklen Eingangstüren zum Bundeshaus.

Herzliche Gratulation. Schon bald bist du in der Lage, eine Konkurrenz zu Adobe Photoshop zu programmieren!

### Aufgabe

Nimm nochmals das Bild vom Bundeshaus und erstelle ein Programm, das den Kontrast des Bildes verändern kann. Kontrast erhöhen bedeutet dabei, dass die dunklen Teile noch dunkler werden und die hellen Teile noch heller.
    
Hinweis: Es gibt sehr viel verschiedene Möglichkeiten, wie genau man die einzelnen Werte verändern möchte. Der extremste Kontrast erreicht man dadurch, dass alle Werte kleiner eines bestimmten Schwellwerts (bspw. 0.5) auf 0 gesetzt werden und alle anderen auf 1.

In [None]:
# YOUR CODE HERE
raise NotImplementedError()

***

# Pandas

[Pandas](https://pandas.pydata.org/) ist ein Modul, das speziell für die Arbeit mit tabellenartigen Daten (also flat data) erstellt wurde. Das zentrale Element von Pandas ist das **DataFrame**, welches in Zeilen und Spalten unterteilt ist. Im Gegensatz zu einem zweidimensionalen Array aus NumPy, können DataFrames in den verschiedenen Spalten verschiedene Datentypen aufnehmen.

## DataFrames erstellen

DataFrames können aus einem Dictionary erzeugt werden. Dabei werden die Schlüssel als Spaltenname verwendet und die Listen der Werte als Spalteninhalte:

In [None]:
import pandas as pd

df = pd.DataFrame(
{
    "Name": [
        "Casimira",
        "Silvana",
        "Florentina"],
    "Matrikelnummer": [
        "21-203-234",
        "19-401-012",
        "12-124-093"],
    "Note": [
        6,
        5.5,
        6
    ]
})

display(df)

Die Funktion `display()` bewirkt bei den Tabellen, dass diese übersichtlicher dargestellt werden im Vergleich zu `print()`.

## DataFrames aus CSV Dateien einlesen

Typischerweise existiert schon irgendwo die tabellarische Darstellung der Daten und wir möchten sie in Python "hineinladen", um mit den Daten zu arbeiten. Wenn die Daten als CSV vorhanden sind, spielt es keine Rolle, ob diese Daten auf unserer Festplatte liegen oder direkt aus dem Internet runtergeladen werden. Um CSV Dateien direkt in ein DataFrame zu laden, können wir die Funktion `read_csv()` aus dem Pandas Modul verwenden. Nachfolgend wollen wir die Unfallstatistik aus dem Katon Zürich in unser Jupyter Notebook runterladen. Achtung: Da wir nun mit "echten" Daten arbeiten, handelt es sich um eine sehr grosse Datenmenge. Das CSV ist über 70MB gross und je nach Internetverbindung dauert das also einen Moment (solange in der eckigen Klammer neben der Zelle statt einer Zahl ein `*` ist, heisst das, dass der Download noch nicht abgeschlossen ist):

In [None]:
import pandas as pd

accidents = pd.read_csv('https://www.web.statistik.zh.ch/ogd/daten/ressourcen/KTZH_00000718_00001783.csv', sep = ",")

Jetzt möchten wir einen Überblick über die Daten gewinnen und zeigen dafür die Dimension mit dem Attribut `shape` und die ersten 5 Zeilen des DataFrames mit der Funktion `head()` an.

In [None]:
print(accidents.shape)
display(accidents.head(5))

Wir sehen also, dass die Tabelle knapp 150'000 Zeilen, also Informationen über einzelne Unfälle, beinhaltet und dass jeder Unfall mit 36 verschiedenen Parametern beschrieben wird (wobei viele davon einfach Übersetzungen in die verschiedenen Landessprachen sind).

## DataFrames untersuchen

Nun wollen wir einen Überblick über das DataFrame gewinnen, dazu stehen uns verschiedene Möglichkeiten offen. Uns interessiert bspw. welcher Unfalltyp wie häufig vorkommt:

In [None]:
print(accidents['AccidentType_de'].value_counts())

Mit der Notation `DataFrame['Spaltenname']` greifen wir auf eine bestimmte Spalte zu und mit der Funktion `value_counts()` zählen wir die verschiedenen in der Spalte vorhandenen Einträge. Um diese Daten schneller interpretieren zu können, können wir diese mit Hilfe der Funktion `plot()` auch gleich grafisch als Plot anzeigen lassen:

In [None]:
accidents['AccidentType_de'].value_counts().plot(kind = 'bar')

Das Schlüsselwort Argument `kind = 'bar'` legt in diesem Fall fest, welcher Typ von Plot gezeichnet werden soll. Hier also ein Balkendiagramm. Suche im Internet nach den weiteren möglichen Plot Typen. Hinweis, falls das Googlen nicht klappt: Die Lösung ist [hier](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.plot.html) zu finden.

### Aufagbe

Untersuche das DataFrame `accidents` darauf, an welchem Wochentag die meisten Unfälle passieren. Zähle dafür die Anzahl Unfälle für alle Wochentage und stelle dies als Balkendiagramm dar. Wann ist es am sichersten, sich im Verkehr zu bewegen?
    
Hinweis: Lade `accidents` (aufgrund der Grösse von über 70MB) nicht nochmals ins Notebook rein, sondern greife auf das bestehende DataFrame aus den oberen Zellen zu.

In [None]:
# YOUR CODE HERE
raise NotImplementedError()

***

## DataFrames filtern

Manchmal will man nicht alle Daten eines DataFrames untersuchen, sondern nur solche, für eine bestimmte Spalte einen bestimmten Wert hat:

In [None]:
pedestrian_accidents = accidents[accidents.AccidentType_de == "Fussgängerunfall"]

pedestrian_accidents["AccidentHour"].value_counts().sort_index().plot(kind = "bar")

Hier untersuchen wir also nur Unfälle des Typs "Fussgängerunfall". Dann zählen wir die Fussgängerunfälle nach Unfallstunde und zeigen einen Plot an, dabei soll der Plot nicht nach Anzahl der Unfälle sortiert sein, sondern nach Tageszeit. Dies erreichen wir mit `sort_index()`.

Bravo, jetzt darfst du dich schon bald als "Data-Scientist" bezeichnen.

## DataFrames gruppieren

Manchmal will man nicht nur einfach die Vorkommnisse einer bestimmten Spalte zählen, sondern diese Zählung noch gruppieren nach einer anderen Spalte. Wir möchten also beispielsweise pro Unfallart noch die Schwere der verschiedenen Unfälle zählen. Dieses Vorgehen bezeichnet man als Gruppieren. Innerhalb der Gruppen kann man dann gewisse zusammenfassende Funktionen ausführen. Die häufigste davon ist, dass man die Summe der Vorkommnisse der verschiedenen Gruppen zählen will. Man könnte aber auch bspw. den Mittelwert bilder oder das Maximum oder Minimum bestimmen.

Mit Hilfe der Funktion `groupby()` die für Pandas DataFrames verfügbar ist können wir über mehrere Spalten solche Gruppen bilden. Dafür müssen wir der Funktion eine Liste der Spaltennamen übergeben. Auf diese Gruppierung können wir dann mit der Funktion `size()` die einzelnen Anzahlen bestimmen lassen. 

In [None]:
print(accidents.groupby(["AccidentType_de", "AccidentSeverityCategory_de"]).size())

Um die Zahlen besser interpretieren zu können, wäre es hilfreich, nicht die absoluten Anzahlen zu haben, sondern eine prozentuale Angabe, man könnte dann sofort sehen, dass Unfälle mit Getöteten in einer bestimmten Unfallkategorie viel wahrscheinlicher sind als in einer anderen. Dafür müssten wir uns aber noch zusätzliche Fähigkeiten aneignen.

# Schlussaufgabe

Lade die CSV Daten zu den Wahl- und Abstimmungsresultaten in den Jahren 2002-2020 aus dem Kanton St. Gallen unter https://daten.sg.ch/api/v2/catalog/datasets/wahlen-und-abstimmungen-kanton-stgallen/exports/csv als Pandas DataFrame herunter. Die Daten sind mit einem Strichpunkt `;` getrennt. Zeige die ersten 5 Zeilen dieses DataFrames an, um ein Verständnis dafür zu erhalten, wie diese Daten aufgebaut sind.

Filtere die Daten, so dass nur Abstimmungen und keine Wahlen vorhanden sind. Erstelle ein gruppiertes Resultat, das anzeigt, auf welcher föderalen Stufe wie viele Abstimmungen angenommen resp. abgelehnt wurden. 

In [None]:
# YOUR CODE HERE
raise NotImplementedError()