# Fortgeschrittene Datenverarbeitung und interaktive Visualisierung

## Arbeit mit mehreren Datensätzen gleichzeitig

### Konkatinieren
Manchmal wollen wir einfach Zeilen oder Spalten vertikal oder horizontal einer Tabelle hinzufügen. Das ist sehr einfach


In [None]:
import pandas as pd

In [None]:
# Wir erstellen für dieses Beispiel drei kleine Datensätze
df1 = pd.DataFrame({"Vorname":["Tim", "Melanie", "Markus"], "Nachname":["Meier", "Schmidt", "Müller"]})
df2 = pd.DataFrame({"Vorname":["Anna", "Aylin", "Luca"], "Nachname":["Wagner", "Yildirim", "Rossi"]})
df3 = pd.DataFrame({"PLZ":["20095", "70173", "60594"], "Straße":["Hohe Straße", "Königsstraße", "Schweizer Straße"], "Hausnummer":["45", "28", "76"]})

In [None]:
df1

In [None]:
df2

In [None]:
df3

Wir können ein längeres DataFrame erzeugen, indem wir die beiden entlang der y-Achse konkatinieren

In [None]:
pd.concat([df1, df2], axis=0)

Wir können ein breiteres DataFrame erzeugen indem wir entlang der x-Achse konkatinieren.

In [None]:
pd.concat([df1, df3], axis=1)

Lasst uns nun den komplexeren Fall betrachten.

### Join

Bislang hatten wir für jedes Thema einen einzelnen Datensatz. Oft gibt es aber mehrere zusammenhängende Tabellen, die gemeinsam bearbeitet werden sollten. Beispielsweise könnte eine Tabelle Produktinformationen halten und eine zweite Tabelle die Informationen zu Kunden und eine dritte Tabelle zu Transaktionen (also Produkte, Kunden und Zeitpunkt).

Damit Informationen nicht dupliziert werden und die Transaktionstabelle nicht unnötig groß wird, hat diese vielleicht nur die drei nötigen Spalten `KundenID`, `ProduktID`, `Zeitpunkt`.

Möchte man nun zum Beispiel wissen, in welchem Lager ein Produkt liegt und wohin es verschickt werden soll, braucht man einen sogenannten `join`.

Dabei werden an die Transaktionstabelle die Adresse des Kunden sowie der Lagerort aus der Produkttabelle `gejoined`. Das funktioniert, weil in der Transaktiontabelle ein **eindeutiger Identifier** für einen Kunden sowie jedes Produkt vorliegt.

In diesem Teil werden wir Daten der Fußball Champions League verwenden. Wie ihr seht sind die vielen Informationen auf zahlreiche unterschiedliche Tabellen verteilt anstatt in einer großen Tabelle zu liegen.

Angenommen, wir wollen wissen, welcher Spieler in welchem Team spielt, dann müssen wir die `players_data` mit den `teams_data` **joinen**

In [None]:
# Wir laden wie bisher die Daten in jeweils eine Variable
df_players = pd.read_csv("players_data.csv")
df_teams = pd.read_csv("teams_data.csv")

Wir suchen einen Identifier, der in beiden Tabellen vorhanden ist. In diesem fall sehen wir die `id_team` in der Spielertabelle und die `team_id` in der Teams-Tabelle

In [None]:
df_players.head(3)

In [None]:
df_teams.head(3)

Wir können nun den **join** durchführen. Dafür nutzen wir `pd.merge()`

In [None]:
# Hier ist die Reihenfolge der Datensätze wichtig. Der erste gilt als "left", der zweite als "right"
pd.merge(df_players, df_teams, how="left", left_on="id_team", right_on="team_id")

Jetzt ist die Tabelle wieder ziemlich groß geworden. Wir wollten eigentlich nur wissen, welcher Spieler in welchem Verein ist. Wir könnten also beim join bereits die Spalten auswählen, die wir "mitnehmen" wollen:

In [None]:
df_player_team = pd.merge(df_players[["id_player", "id_team", "player_name"]], df_teams[["team_id", "team"]], how="left", left_on="id_team", right_on="team_id")
df_player_team.head()

Das sieht schon übersichtlicher aus, allerdings haben wir nun zwei mal die ID für das Team in unserer Tabelle. Wir können zusätzliche Spalten auch im Nachhinein noch entfernen.

In [None]:
df_player_team = df_player_team.drop("team_id", axis=1)
df_player_team.head()

Jetzt können wir ganz einfach beantworten, welche Spieler im Kader einer Mannschaft stehen

In [None]:
df_player_team[df_player_team.team == "FC Bayern München"]

**Beantworte mit ähnlichen Techniken und dem `goals_data.csv` Datensatz, welcher Spieler die meisten Tore geschossen hat.**

In [None]:
# Dein Code hier

**Bonusaufgabe: Welcher Verein hat die meisten Kopfballtore geschossen?**

In [None]:
# Dein Code hier

**Bonusaufgabe für Fortgeschrittene: Die Verteidiger welches Vereins haben die meisten Fouls begangen?**

In [None]:
# Dein Code hier

## Spielwiese
Führe weitere Analysen durch, falls du möchtest 😊

In [None]:
# Dein Code hier

# Interaktive Visualisierung mit `altair`
Im letzten Kurs haben wir gelernt `pandas.plot()`, `matplotlib.pyplot` und `seaborn` zu verwenden, um statische Visualisierungen zu erstellen. Teilweise haben wir das auch schon in diesem Kurs angewandt.

Mehr Erkenntnisse kann man aber oft aus interaktiven Visualisierungen gewinnen. Dafür gibt es in Python zahlreiche Methoden (unter anderem `plotly`, `dash`, `bokeh`, ...). Wir widmen uns in diesem Kapitel `altair`, einem Python packages welches einfach zu lesen und schreiben ist und doch vielseitige Möglichkeiten bietet. [Hier](https://altair-viz.github.io/) könnt ihr mehr dazu erfahren, wenn ihr möchtet. Beispiele für mögliche Visualisierungen findet ihr [hier](https://altair-viz.github.io/gallery/index.html)

Dieser Befehl zeigt euch, welche Version von `Altair` auf eurem System verwendet wird. Bedenkt, dass Version 4 und 5 sich gegebenfalls unterscheiden und unterschiedliche Dokuseiten haben.

[Version 4](https://altair-viz.github.io/altair-viz-v4/getting_started/overview.html) - [Version 5](https://altair-viz.github.io/getting_started/overview.html#overview)

In [None]:
import altair as alt
alt.__version__

## Die Grundlagen

In [None]:
import pandas as pd

import warnings

# Normalerweise nicht empfohlen, aber wir wollen einen bestimmten Warnhinweis ausblenden, damit er uns nicht ablenkt
warnings.filterwarnings(
    "ignore",
    message="the convert_dtype parameter is deprecated and will be removed in a future version"
)

In [None]:
df_players = pd.read_csv("players_data.csv")

Da wir die Spalten nun häufiger verwenden werden, kann es sinnvoll sein, unsere Spalten umzubenennen, um die Bezeichnung einfacher zu machen. Dazu nutzen wir `rename()` und überschreiben das ursprüngliche dataframe.

In [None]:
df_players = df_players.rename(columns={"weight(kg)": "weight", "height(cm)":"height"})

Wenn wir ein Chart mit Altair erstellen wollen beginnen wir damit, die Daten auszuwählen. Diese können bereits in die Zielform vortransformiert sein - kleinere Transformationen können wir aber auch bequem beim Erstellen der Visualisierung selbst vornehmen. Für's Erste genügt uns der Datensatz so wie er ist.

Ein kleiner Hinweis: In Altair können nur maximal 5000 Datenpunkte dargestellt werden. Ist unser Datensatz größer als das können wir ein zufälliges Sample ziehen indem wir `df.sample(n=5000, random_state=123)`verwenden.

In [None]:
# Dieser Code funktioniert noch nicht. Wir sind mit unserer Visualisierung noch nicht fertig
alt.Chart(df_players)

Wir müssen noch eine Visualisierungsform wählen. Diese heißen bei `altair` **[mark](https://altair-viz.github.io/user_guide/marks/index.html)**. Unter anderem können wir hier die gängigen `bar`, `line` und `circle` wählen.

In [None]:
# Noch haben wir altair nicht gesagt, welche Spalten geplottet werden sollen.
# Es wird also nur ein einzigere Punkt dargestellt.
alt.Chart(df_players).mark_circle()

Wir wählen nun also auch die Spalten aus. Wir benennen dabei den Datentypen `"quantiative"`. Alternativ könnten wir auch `"nominal"` oder `"ordinal"` für kategorische bzw. ordinale Daten angeben. **Probiere aus, was passiert, wenn du den Datentypen einer Variable änderst.**

Mehr dazu unter "Encoding Data Types" auf [diesem Link](https://altair-viz.github.io/user_guide/encodings/index.html)

In [None]:
# Da unsere erste kleine Visualisierung fertig ist, können wir diese in einer Variable speichern und neu aufrufen
chart = alt.Chart(df_players).mark_circle().encode(
    alt.X("height", type="quantitative"),
    alt.Y("weight", type="quantitative")
)

chart

Wir können unser Chart noch etwas interessanter machen indem wir die Position eines Spielers farblich unterscheiden.

In [None]:
# Wir können weitere Spezifikationen in einem erneuten encoding angeben
chart.encode(alt.Color("field_position", type="nominal", title="Field Position"))

**Versuche eine ähnliche Visualisierung mit zwei anderen numerischen Spalten zu bauen**

In [None]:
# Dein Code hier

## Einfache Interaktivität
Noch war die Visualisierung statisch. Wir können aber erste interaktive Elemente ganz einfach hinzufügen.

In [None]:
chart = alt.Chart(df_players).mark_circle().encode(
    alt.X("height", type="quantitative"),
    alt.Y("weight", type="quantitative"),
    alt.Color("field_position", type="nominal", title="Field Position")
)

chart

Wenn wir das chart mit dem Suffix `.interactive()` aufrufen, dann können wir im Bild zoomen und per Mausklick uns auf den Achsen bewegen.

**Probiere es aus**

In [None]:
# Dein Code hier

Das erlaubt uns nun die Positionen besser außereinanderzuhalten. Allerdings wissen wir noch nicht welcher Punkt welchen Spieler repräsentiert. Dafür können wir einen tooltip nutzen.

Den können wir entweder schon beim Erstellen der Grafik angeben oder eben wieder mit einem zusätzlichen encoding für das bestehende Chart.

In [None]:
# Jetzt könnt ihr mit der Maus über die Punkte gehen und sehr den namen des Spielers.
chart.encode(tooltip=["player_name"])

Wir haben nun aber Möglichkeit verloren, zu zoomen. Dafür müssen wir erneut das Chart im interaktiven Modus aufrufen. **Kombinere den Tooltip mit `.interactive()` um beide Effekte gleichzeitig zu nutzen.**

In [None]:
# Dein Code hier

Vielleicht ist dir aufgefallen, dass wir beim Tooltip eine Liste angeben. Wir können also problemlos gleich mehrere Informationen per Mouseover anzeigen.

**Überlege dir welche zusätzliche Spalte du gern als Tooltip anzeigen möchtest.**

Herausforderung für Fortgeschrittene: Zeige den Verein eines Spielers an.

In [None]:
# Dein Code hier

## Aggregation
Bislang haben wir Rohdaten angezeigt, oft möchten wir aber aggregierte Daten anzeigen, wie den Mittelwert oder die Standardabweichung.

Hinweis: Das ließe sich alles bereits in `pandas` vorab machen aber eben auch in `altair`. Mehr dazu findet ihr [hier](https://altair-viz.github.io/user_guide/transform/aggregate.html) und [hier](https://altair-viz.github.io/user_guide/encodings/index.html#encoding-aggregates) (bei "Aggregation Functions")

Angenommen, wir wollen nicht jeden einzelnen Spieler anzeigen sondern die die Durchschnittswerte pro Position anzeigen.

In [None]:
chart = alt.Chart(df_players).mark_bar().encode(
    alt.X("height", type="quantitative", aggregate="average"), # Wir aggregieren unsere x-Variable mit einem Mittelwert
    alt.Y("field_position", type="nominal")
)

chart

**Versuche das gleiche mit dem Gewicht zu machen**

**Optional: Wähle eine den größten oder kleinsten Spieler pro Position aus und nutze einen Tooltip aus um dessen Namen anzuzeigen. Nutze dafür `aggregate="min"` oder `aggregate="max"`**  

In [None]:
# Dein Code hier

Wenn wir die gleiche Darstellungsform nutzen wollen, um das Durchschnittsalter pro Nationalität anzuzeigen könnte es etwas unübersichtlich werden, weil wir viele Gruppen haben. Hier kann ein *Filter* nützlich sein. Mehr dazu findet ihr [hier](https://altair-viz.github.io/user_guide/transform/filter.html)

In [None]:
# Wir finden die top 5 häufigsten Nationalitäten im Datensatz
df_players.nationality.value_counts()[:5]

In [None]:
# Wir wählen die gewünschten Spalten aus
# Dann fügen wir einen transform_filter hinzu
chart = alt.Chart(df_players).mark_bar().encode(
    alt.X("age", type="quantitative", aggregate="average"),
    alt.Y("nationality", type="nominal")
).transform_filter(
    alt.FieldOneOfPredicate(field='nationality', oneOf=["France", "Spain", "Germany", "Italy", "Netherlands"])
)

chart

Wenn wir das Chart nun sortieren möchten, können wir das auch einfach angeben.

In [None]:
chart = alt.Chart(df_players).mark_bar().encode(
    alt.X("age", type="quantitative", aggregate="average"),
    alt.Y("nationality", type="nominal", sort="-x") # Wir geben hier an, wonach wir die Y-Achse sortieren möchten. Nämlich x, absteigend.
).transform_filter(
    alt.FieldOneOfPredicate(field='nationality', oneOf=["France", "Spain", "Germany", "Italy", "Netherlands"])
)

chart

**Bonuschallenge für Fortgeschrittene: Wir wollen wissen woher die Stars von morgen kommen. Erstelle ein Chart mit der Anzahl der Nationalitäten pro Alter für die Alterspanne 18-21**

Hinweis: Nutze die [Aggregation](https://altair-viz.github.io/user_guide/encodings/index.html#encoding-aggregates) `distinct` und das [Filterprädikat](https://altair-viz.github.io/user_guide/transform/filter.html) `FieldRangePredicate()`

In [None]:
# Dein Code hier

## Fortgeschrittene Interaktive Visualisierung

**Wichtiger Hinweis:** Insbesondere bei interaktiven Elementen unterscheidet sich altair version 4 stark von altair version 5. Achtet beim lesen der Doku also auf die richtige Version.

### Interaktive Auswahl
`Altair` erlaubt es uns Slider, Dropdowns und ähnliche Elemente zu definieren, it denen wir Visualisierungen dynamisch anpassen können. Beispiele dafür findet ihr [hier](https://altair-viz.github.io/gallery/index.html#gallery-category-interactive-charts). Details zu nachlesen findet ihr [hier](https://altair-viz.github.io/altair-viz-v4/user_guide/interactions.html).

Kommen wir zurück zum Chart von oben:

In [None]:
chart = alt.Chart(df_players).mark_bar().encode(
    x = alt.X("height", type="quantitative", aggregate="average"),
    y = alt.Y("field_position", type="nominal", sort="-x"),
    color = alt.value("lightgray")
)

chart

Wir können die Farbe dynamisch an die Position der Maus anpassen:

In [None]:
single_selector = alt.selection_single(on='mouseover', nearest=True)

chart.encode(
  color = alt.condition(single_selector, alt.value("salmon"), alt.value('lightgray'))
).add_selection(single_selector)

Was ist in dem Code oben passiert? Wir haben ein `selection single` erstellt und die Farbe abhängig von einer Bedingung gemacht. Der `single_selector` ist entweder `True` oder `False` für einen bestimmten Balken. Ähnlich wie einer IF-Funktion in Excel wird bei `True` der erste Wert verwendet (also "salmon") und bei `False` der Wert "lightgray".

**Probiere aus, was passiert, wenn du die Argumente `on` und `nearest` löschst. Verwende optional andere Farben**

In [None]:
# Dein Code hier

Praktischer ist aber vermutlich die Verwendung von **Bindings**, wie dropdowns, checkboxen oder slidern. Mehr davon erfährst du [hier](https://altair-viz.github.io/altair-viz-v4/user_guide/interactions.html#input-element-binding)

Nehmen wir wieder das Chart von oben. Ich habe die circle `size` sowie die Achsen angepasst, damit wir die Punkte besser sehen können.

In [None]:
chart = alt.Chart(df_players).mark_circle(size=100).encode(
    x = alt.X("height", type="quantitative", scale=alt.Scale(domain=[160, 200])),
    y = alt.Y("weight", type="quantitative", scale=alt.Scale(domain=[40, 100])),
    color = alt.Color("field_position", type="nominal", title="Position")
)

chart

In [None]:
# Wir erstellen ein Dropdown mit den möglichen Positionen
input_dropdown = alt.binding_select(options=['Forward', 'Midfielder', 'Defender', 'Goalkeeper'], name='Position')

# Wir erstellen ein Selection object welches den Wert des Dropdowns prüft
selection = alt.selection_single(fields=['field_position'], bind=input_dropdown)

# Wir definieren die Farbe in Abhängigkeit von unserem selection object
color = alt.condition(selection,
                    alt.Color('field_position', type="nominal", legend=None),
                    alt.value('lightgray'))


chart = alt.Chart(df_players).mark_circle(size=100).encode(
    x = alt.X("height", type="quantitative", scale=alt.Scale(domain=[160, 200])),
    y = alt.Y("weight", type="quantitative", scale=alt.Scale(domain=[40, 100])),
    color = color # Wir setzen hier unsere vordefinierte Farbe ein
).add_selection(
    selection
)

chart

**Für Fortgeschrittene: Erstelle eine ähliche Visualisierung mit 5 Nationalitäten deiner Wahl. Nur die im Dropdown ausgewählte Nationalität sollte farblich hervorgehoben werden**

In [None]:
# Dein Code hier

### Charts kombinieren