# Python Grundlagen 4

## Lernziele
* Daten mit Hilfe der third party library `pandas` einlesen, analysieren und filtern können.
* Daten mit Hilfe der third party library `seaborn` visualisieren können.

## Mit Daten umgehen

Die third party library <tt>pandas</tt> ist unser Hauptwerkzeug, um mit Datensätzen umzugehen. Sie hilft dabei, Datensätze zu laden und zu transformieren, und wird auch standardmäßig von Funktionen für das maschinelle Lernen verwendet.

### DataFrames

Im untenstehenden Code erstellen wir uns "zu Fuß" eine Tabelle – ein sogenanntes <tt>DataFrame</tt> mit zwei Spalten: Namen und Alter. Im Normalfall werden wir DataFrames aus einer Datei *einlesen* oder Datensätze verwenden, die von <tt>pandas</tt> oder anderen Bibliotheken als Beispiele vorgehalten werden.

In [65]:
# importiere Pandas unter dem Kürzel "pd"
import pandas as pd

# wir erstellen eine Tabelle zum Testen, die Namen
# (Strings) und Alter (Zahlen) enthält

# zuerst erstellen wir die Liste "namen" und
# die Liste "alter"
namen = ['tim','olaf','nina','andrea','jana','miro']
alter = [31, 52, 14, 46, 28, 3]

# dann erstellen wir die Tabelle "personen"
# (ein DataFrame) und übergeben die beiden
# Listen als Spalten der Tabelle
personen = pd.DataFrame({'name':namen, 'alter':alter})

# schließlich zeigen wir die ersten sechs Einträge
# der Tabelle an
personen.head(6)

Unnamed: 0,name,alter
0,tim,31
1,olaf,52
2,nina,14
3,andrea,46
4,jana,28
5,miro,3


**Hinweis**: um das <tt>DataFrame</tt> zu erstellen, haben wir eine Datenstruktur verwendet, die wir noch nicht kennen gelernt haben: das "Wörterbuch" (English: dictionary). Diese Datenstruktur wird durch geschwungene Klammern <tt>{ }</tt> gekenntzeichnet und besteht aus Paaren von "Schlüsseln" und "Werten" (keys und values) die jeweils durch einen Doppelpunkt verbunden sind:

<tt>
{  
'name':namen,  
'alter':alter  
}
</tt>

Mehr dazu finden Sie in der [Dokumentation zu dictionaries](https://docs.python.org/3/tutorial/datastructures.html).

### Deskriptive Statistik

Wir können auf einzelne Spalten des <tt>DataFrame</tt> zugreifen, indem wir die Spaltennamen verwenden:

In [None]:
personen['name']

In [None]:
personen['alter']

Wir können uns auch anzeigen lassen, welche Spalten überhaupt in dem <tt>DataFrame</tt> vorhanden sind:

In [None]:
personen.columns

Auch die Anzahl der Zeilen können wir uns mit Hilfe der <tt>len()</tt> Funktion ausgeben lassen.

In [None]:
len(personen)

<tt>DataFrames</tt> liefern schon viel praktische Funktionalität zum Umgang mit Daten mit. Wir können uns z.B. den Mittelwert einer Spalte einfach ausrechnen lassen:

In [None]:
personen['alter'].mean()

Auch eine umfassende Beschreibung der in einer Spalte enthaltenen Information können wir uns einfach liefern lassen:

In [None]:
personen['alter'].describe()

### Daten einlesen

Um existierende Datensätze einzulesen, verwenden wir Funktion <tt>read_csv()</tt> von <tt>pandas</tt>. Praktischerweise funktioniert das auch für Datensätze, die nicht lokal gespeichert sind sondern auf die wir über eine Internetadresse (URL) zugreifen können:

In [None]:
# die URL der Daten – Sie können diese auch in Ihren Browser eingeben, um die
# daten Anzusehen bzw. herunterzuladen. Bei dem Datensatz handelt es sich um
# Infektions- und Todeszahlen in verschiedenen Ländern während der COVID Pandemie
daten_url = "https://github.com/owid/covid-19-data/raw/master/public/data/jhu/full_data.csv"

# wir lesen dbie Daten ein und speichern den Datensatz in einer Variablen "rohdaten"
rohdaten = pd.read_csv(daten_url)

# da uns nur einige der Spalten interessieren, "filtern" wir den Datensatz und
# behalten nur die für uns relevanten Spalten
interessante_spalten = ['location', 'date', 'new_cases', 'new_deaths']
daten_COVID = rohdaten[interessante_spalten]

# die "head()" Funktion gibt uns als Default die ersten 5 Einträge des
# Datensatzes aus
daten_COVID.head()

**Hinweis**: wenn in einer Zelle <tt>NaN</tt> steht bedeutet das, dass es hier keinen Wert gibt (fehlender Wert).

<font color='blue'><b>Übung Daten - 1</b></font>  
<font color='blue'>In der Zelle unten laden wir einen oft verwendeten Beispieldatensatz der Informationen zu den Passagier:innen der Titanic enthält. Für diesen Datensatz:</font>
<ul class="outside">
<li><font color='blue'>Finden Sie heraus, welche Spalten der Datensatz hat.</font></li>
<li><font color='blue'>Finden Sie heraus, wie viele Zeilen der Datensatz hat.</font></li>
<li><font color='blue'>Was ist das mittlere Alter der Passagier:innen (Spalte <tt>age</tt>)?</font></li>
<li><font color='blue'>Was ist der niedrigste und höchste Ticketpreis (Spalte <tt>fare</tt>)? <b>Hinweis</b>: statt der Funktion <tt>mean()</tt> für den Mittelwert wie oben können Sie <tt>min()</tt> und <tt>max()</tt> verwenden.</font></li>
<li><font color='blue'>Wie viele verschiedene Klassen (Spalte <tt>class</tt>) gab es auf der Titanic? <b>Hinweis:</b> der Befehl <tt>data[spaltenname].unique()</tt> gibt eine Liste der distinkten Einträge in einer Spalte zurück.</font></li>
</ul>




In [None]:
import seaborn as sns
daten_titanic = sns.load_dataset("titanic")

### DataFrames filtern

Eine Methode, <tt>DataFrames</tt> zu filtern haben wir schon kennen gelernt: die Auswahl von bestimmten Spalten.

Oft sind wir aber eher daran interessiert, gewisse *Zeilen* auszuwählen. Dies können wir erreichen, indem wir Zeilen mit Hilfe einer *Maske* ausschließen. Wir erinnern uns an das <tt>DataFrame</tt> mit den Namen und dem Alter von Personen von vorhin:

In [None]:
personen.head(6)

Wir können nun *Wahrheitswerte* (siehe das [Notebook](https://colab.research.google.com/drive/16jp0vxpbKs_0KXr9NUd8MLdnNdUWLocp?usp=sharing#scrollTo=b_Qcdul4vgQw) zu Python Grundlagen von letztem Mal, Kapitel "Der Datentyp Bool") verwenden, um einzelne Zeilen einzuschließen (<tt>True</tt>) oder auszuschließen (<tt>False</tt>). Um die Maske zu konstruieren, erstellen wir eine Liste von Wahrheitswerten:

In [None]:
# hier konstruieren wir die Maske
maske = [False, True, False, True, False, True]

# wir können die Maske jetzt benutzen, um nur gewisse
# Zeilen im DataFrame auszuwählen:
personen[maske]

<font color='blue'><b>Übung Daten - 2</b></font>  
<font color='blue'>Modifizieren Sie die Maske um sich andere Zeilen ausgeben zu lassen – z.B. nur die ersten oder letzten beiden.</font>

In [None]:
# natürlich können wir die so "gefilterte" Tabelle
# auch in einer neuen Variable speichern
gefilterte_personen = personen[maske].copy()
gefilterte_personen.head()

Als nächsten Schritt erzeugen wir  die Maske automatisch. Wir möchten nur Einträge von Personen behalten, die älter als 30 Jahre sind. Das fragen wir mit Hilfe des "größer" Operators `>` ab:

In [None]:
personen['alter'] >= 30

In [None]:
# diese Maske speichern wir wieder in einer Variablen
maske_alt = personen['alter'] >= 30

# und filtern die Tabelle mit Hilfe der Maske
alte_personen = personen[maske_alt].copy()
alte_personen.head()

Angenommen, wir wollen nicht nur eine Altersuntergrenze von 30 Jahren sondern auch eine Altersobergrenze von 50 Jahren für unseren Filter festlegen. Wie können wir das umsetzen?

### Exkurs: Bedingungen verknüpfen

Python kennt die folgenden Operatoren um zwei oder mehr Bedingungen logisch miteinander zu verknüpfen:

`&` – beide Bedingungen müssen wahr sein

In [None]:
True & True # auch "and", aber nicht in DataFrames!

`|` – mindestens eine Bedingung muss wahr sein

In [None]:
True | True # auch "or", aber nicht in DataFrames!

In [None]:
True | False

In [None]:
False | True

<font color='blue'><b>Übung Daten - 3</b></font>  
<font color='blue'>Finden Sie einen <tt>|</tt>-Ausdruck, der <tt>False</tt> liefert.</font>

Darüber hinaus gibt es noch den Operator `not` der den Wahrheitswehrt umkehrt (aus `True` wird `False` und umgekehrt).

In [None]:
not True

In [None]:
not False

### Komplexere Filter

Dieses Wissen können wir nun verwenden, um einen Filter zu konstruieren, der zwei Bedingungen gleichzeitig überprüft:

In [None]:
maske = (personen['alter'] > 30) & (personen['alter'] < 50)
maske

**Hinweis**: beachten Sie die Klammern um die logischen Ausdrücke. Diese sind wichtig um die Reihenfolge der Auswertung der Ausdrücke zu gewährleisten: von links nach rechts zuerst die Ausdrücke innerhalb der Klammern und dann dazwischen.

In [None]:
mittelalte_personen = personen[maske].copy()
mittelalte_personen.head()

Wir können natürlich auch verschiedene Spalten in solchen Filtern kombinieren. Hier ein Beispiel mit dem Titanic-Datensatz, in dem wir alle männlichen Passagiere der zweiten Klasse herausfiltern:

In [None]:
maske = (daten_titanic['sex'] == 'male') & (daten_titanic['class'] == 'Second')
maenner_zweite_klasse = daten_titanic[maske].copy()
maenner_zweite_klasse.head()

Alle logischen Operatoren (siehe [Notebook](https://colab.research.google.com/drive/16jp0vxpbKs_0KXr9NUd8MLdnNdUWLocp?usp=sharing#scrollTo=b_Qcdul4vgQw) zu Python Grundlagen &rarr; Kapitel "Operatoren" können in solchen Filtern zum Einsatz kommen und es können beliebig viele Bedingungen miteinander verknüpft werden.

## Daten visualisieren

Daten zu visualisieren hilft uns dabei zu verstehen, was für Informationen in einem Datensatz enthalten sind. Je nachdem ob wir es mit numerischen oder kategorischen Daten zu tun haben (siehe auch [Vorlesung zu Datentypen](https://janalasser.at/lectures/MC_KI/VO2_4_daten/)) brauchen wir unterschiedliche Typen von Diagrammen um Daten darzustellen.

Für den Rest des Kurses werden wir vier Typen von Diagrammen brauchen:
* **Histogram**: stellt einen eindimensionalen Datensatz mit numerischen Datenpunkten dar.
* **Balkendiagram** (bar plot): stellt einen zweidimensionalen Datensatz mit einer numerischen und einer kategorischen Dimension dar.
* **Streudiagram** (scatter plot): stellt einen zweidimensionalen Datensatz mit zwei numerischen Dimensionen dar.
* **Liniendiagram** (line plot): stellt einen zweidimensionalen Datensatz mit zwei numerischen Dimensionen dar, und wird verwendet, wenn wir Änderungen in einer der beiden Dimensionen betonen wollen. Ein klassisches Beispiel ist die Änderung einer Variablen über die Zeit.

Zum Visualisieren von Daten in diesem Kurs werden wir die third party library <tt>[seaborn](https://seaborn.pydata.org/index.html)</tt> verwenden. Seaborn bietet ein relativ abstraktes Interface mit Funktionen zum erstellen von Diagrammen an und setzt dabei auf der mächtigen Bibliothek <tt>[matplotlib](https://matplotlib.org/)</tt> auf. Für die allermeisten Anwendungsfälle reicht <tt>seaborn</tt> – möchte man sich aber mit den Details von Abbildungen spielen kann es hilfreich sein, sich mit <tt>matplotlib</tt> zu beschäftigen und auf Funktionalitäten dieser Bibliothek zurückzugreifen.

In [None]:
# import der Bibliothek seaborn zum erstellen von
# Abbildungen (plotten) von Daten
import seaborn as sns

### Histogram

Alle Funktionen in <tt>seaborn</tt> folgen dem gleichen Schema:
* der Funktionsname legt die Art der Abbildung (z.B. Histogram oder bar plot) fest.
* der erste Parameter der Funktion ist der Datensatz, der dargestellt werden soll.
* je nachdem ob die Abbildung ein- oder zweidimensional ist, wird mit den Parametern `x` und `y` festgelegt, welche Spalte des Datensatzes für die jeweilige Dimension verwendet werden soll.
* weitere Optionale Parameter können dafür benutzt werden, das Verhalten oder Aussehen der Abbildung anzupassen.

In [None]:
# da Histogramme nur eindimensionale Daten darstellen,
# müssen wir der Funktion histplot() nur den Spaltennamen
# für die x-Dimension mitteilen
sns.histplot(daten_titanic, x="age")

In [None]:
?sns.histplot

In [None]:
sns.histplot(daten_titanic, x="age", color="red")

### Balkendiagram

Bei Balkendiagrammen müssen wir zwei Dimensionen festlegen,
wobei eine davon kategorische und die andere numerische Werte enthalten muss.

In [None]:
sns.barplot(daten_titanic, x="class", y="fare")

<font color='blue'><b>Übung Visulaisierung - 1</b></font>  
<ul class="outside">
<li><font color='blue'>Probieren Sie aus was passiert, wenn Sie in dem obenstehenden Code für ein Balkendiagram die x- und y-Dimension vertauschen.</font></li>
<li><font color='blue'>Verwenden Sie den optionalen Parameter <tt>hue=sex</tt> um die Balken auch noch nach dem Geschlecht der Passagier:innen zu unterscheiden.</font></li>

### Streudiagramm

Streudiagramme verwenden wir, wenn wir zweidimensionale numerische Daten darstellen möchten. Das bietet sich z.B. an, wenn wir einen Zusammenhang zwischen zwei Dimensionen vermuten oder wenn wir Ausreißer identifizieren möchten. Auch hier müssen wir wieder die x- und y-Dimension angeben:

In [None]:
sns.scatterplot(daten_titanic, x="age", y="fare")

### Liniendiagram

Um das Liniendiagram sinnvoll zu demonstrieren, brauchen wir Daten mit einer Zeitdimension. Die COVID Infektionszahlen von früher bieten sich an.

Wir lesen die Daten noch einmal ein. Dabei ist es wichtig darauf zu achten, dass die Spalte in der das Datum steht auch als Datum interpretiert (geparsed) wird (`parse_dates=['date']`).

In [None]:
daten_url = "https://github.com/owid/covid-19-data/raw/master/public/data/jhu/full_data.csv"
daten_COVID = pd.read_csv(daten_url, parse_dates=['date'])

# wir interessieren uns nur für die Daten aus Österreich, deswegen filtern wir
# den Datensatz mit den Fallzahlen erst einmal entsprechend.
maske = daten_COVID['location'] == 'Austria'
daten_AUT = daten_COVID[maske].copy()

Für das Liniendiagram müssen wir wieder zwei Dimensionen angeben, wobei die y-Dimension diejenige ist, in der wir die Variable darstellen deren Änderungen uns interessieren. Die x-Dimension ist die Variable, entlang der die Veränderungen stattfinden – in diesem Beispiel die Zeit.

In [None]:
sns.lineplot(daten_AUT, x="date", y="new_cases")

## Weiterführende Materialien
* **Pandas**: [Youtube Playlist](https://www.youtube.com/playlist?list=PL-osiE80TeTsWmV9i9c58mdDCSskIFdDS) mit Videos zum Umgang mit Pandas. Die grundlegenden Konzepte werden in Videos 1 bis 6 vermittelt.
* **Seaborn**: [Einführung in Seaborn](https://seaborn.pydata.org/tutorial/introduction) mit vielen Beispielen für schöne Abbildungen.
* **Matplotlib**: [Youtube Video](https://www.youtube.com/watch?v=wB9C0Mz9gSo) mit einer Umfassenden Einführung in Matplotlib.

## Quelle und Lizenz

Das vorliegende Notebook besteht zu Teilen aus inhalten des Kurses [Grundlagen der Programmierung](https://github.com/gvasold/gdp/tree/main) von [Gunter Vasold](https://online.uni-graz.at/kfu_online/visitenkarte.show_vcard?pPersonenGruppe=3&pPersonenId=036149BE966ADC08). Modifikationen wurden von Jana Lasser vorgenommen.

Das Notebook kann unter den Bedingungen der Lizenz [CC BY-NC-SA 4.0](https://creativecommons.org/licenses/by-nc-sa/4.0) verwendet, modifiziert und weiterverbreitet werden.

