# 💻 Plotten mit Pandas, Matplotlib und Seaborn

Mit [Pandas](https://pandas.pydata.org/) lassen sich Daten direkt visualisieren. Um das Laypout der resultierenden Plots weiter zu optimieren, kann die Python-Bibliothek Matplotlib genutzt werden, die sehr gut mit Pandas zusammenspielt. Eine auf [Matplotlib](https://matplotlib.org/) aufbauende und häufig genutzt Bibliothek zur Visualisierung ist [Seaborn](https://seaborn.pydata.org/).

Eine sehr gute und ausführliche Einführung in die Visualisierung mit Matplotlib bietet ein eigenes Kapitel aus dem Data Science Handbook von Jake VanderPlas: [Visualization with Matplotlib](https://jakevdp.github.io/PythonDataScienceHandbook/04.00-introduction-to-matplotlib.html), in: [Jake VanderPlas, Python Data Science Handbook. Essential Tools for Working with Data](https://jakevdp.github.io/PythonDataScienceHandbook/).

## Datenvisualisierung - Basics
### Import der benötigten Bibliotheken

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Seaborn-Stil anstelle von Matplotlib
sns.set_theme(style="whitegrid")

# Anweisung speziell für Jupyter Notebooks: 
# Anzeige der Matplotlib-Grafiken direkt im Notebook statt in einem neuen Fenster
%matplotlib inline          

### Beispiel 1: Visualisierung der Wahlergebnisse der Wahlen zum Ersten Deutschen Bundestag 1949

Datenquelle: https://www.bundeswahlleiterin.de/bundestagswahlen/1949.html

In [None]:
# Erzeugung von Beispieldaten: Wahl zum 1. Deutschen Bundestag am 14. August 1949

votes = {"Parteien":["SPD", "CDU", "FDP", "CSU", 
                        "KPD", "Parteilose", "BP", "DP", 
                        "Zentrum", "Sonstige"],
            "Stimmen":[6934975, 5978636, 2829920, 1380448,
                      1361706, 1141647, 986478, 939934, 
                       727505, 1451149],
            "Prozent": [29.2, 25.2, 11.9, 5.8,
                       5.7, 4.8, 4.2, 4.0, 
                        3.1, 6.1]}

vote_frame = pd.DataFrame(votes, #
                          columns=["Stimmen", "Prozent"], #
                          index=votes["Parteien"]) # 
print(vote_frame)

#### Wahlergebnis als Balkendiagramm visualisieren

In [None]:
# Barchart zur Visualisierung diskreter und kategorialer Daten

plt.figure(figsize=(10, 7), dpi=300)                                    # Erzeugt ein Plotfenster gemäß der Dimensionen figsize (Zoll), dpi spezifiziert die Auflösung 

colors = sns.color_palette("YlOrBr", 10)                                # Konfiguration der verwendeten Farbpalette mit 10 Farben; Seaborn bietet verschiedene Paletten 
sns.set_context("paper", font_scale=1.5, rc={"lines.linewidth": 2.5})   # Kontext Paper optimiert die Größe der Elemente für Publikationszwecke, font_scale skaliert die Schriftgrößen um den Faktor 1.5, und rc={"lines.linewidth": 2.5} passt die Linienbreite der Grafik an

vote_frame["Prozent"].plot.bar(color=colors)                            # Erzeugung des Balkendiagramms; jeder Balken korrespondiert hinsichtlich der Farbgebung mit einer Farbe der zuvor generierten Farbpalette

plt.show()                                                              # Anzeige des Plots im Notebook/Ausgabebereich

#### Beschriftungen hinzufügen

In [None]:
# Basisvisualisierung
plt.figure(figsize=(10, 7), dpi=300)                                   
colors = sns.color_palette("YlOrBr", 12) 
sns.set_context("paper", font_scale=1.5, rc={"lines.linewidth": 2.5})   

vote_frame["Prozent"].plot.bar(color=colors)                     


# Beschriftung des Plots
plt.title("Wahlen zum 1. Deutschen Bundestag")      # Titel hinzufügen
plt.xlabel("Partei")                                # Beschriftung der X-Achse
plt.ylabel("Prozent")                               # Beschriftung der Y-Achse

plt.tight_layout(pad = 0)                           # Optimale Nutzung des verfügbaren Platzes, pad=0 reduziert den Abstand um den Plot herum

plt.show()

#### Konfiguration der Achsen

In [None]:
# Basisvisualisierung
plt.figure(figsize=(10, 7), dpi=300)                                   
colors = sns.color_palette("YlOrBr", 12) 
sns.set_context("paper", font_scale=1.5, rc={"lines.linewidth": 2.5})   

vote_frame["Prozent"].plot.bar(color=colors)                     


# Beschriftung des Plots
plt.title("Wahlen zum 1. Deutschen Bundestag")      
plt.xlabel("Partei")                                
plt.ylabel("Prozent")                               

# Konfiguration der Achsen
plt.xticks(fontsize=18, fontweight="heavy", rotation=60)    # Konfiguration der Schriftgröße, Schriftdicke, Rotation
plt.yticks(fontsize=18, fontweight="heavy")                 # Konfiguration der Schriftgröße, Schriftdicke
plt.ylim(ymin=0, ymax=30)                                   # Konfiguration des angezeigten Wertbereichs

plt.grid(False)                                     # Grid einmal ganz entfernen
plt.grid(True, axis="y")                            # Dann Grid nur auf y-Achse hinzufügen
plt.tight_layout(pad = 0)                           

plt.show()

#### 📝 **Jetzt:** Aufgabe 1

Experimentieren Sie mit verschiedenen Gestaltungsmöglichkeiten einer Balkendiagramm-Visualisierung in Matplotlib und Seaborn, um ein besseres Verständnis für die Anpassung und Konfiguration von Diagrammen zu entwickeln.

**1. Farbpalette ändern:** Konsultieren Sie die Dokumentation von [Seaborns Farbpaletten](https://seaborn.pydata.org/tutorial/color_palettes.html) und wählen Sie eine andere Palette aus. Wenden Sie diese auf Ihr Balkendiagramm an.

**2. Kontext und Skalierung anpassen:** Spielen Sie mit unterschiedlichen [Kontexten](https://seaborn.pydata.org/generated/seaborn.set_context.html) wie `notebook`, `talk` und `poster` herum. Ändern Sie auch die Skalierung der Schriftgröße, um die Auswirkungen auf die Visualisierung zu beobachten.

**3. Titel und Achsenbeschriftungen:** Ändern Sie den Titel des Diagramms und die Beschriftungen der Achsen. Probieren Sie verschiedene Schriftgrößen aus.

**4. Achsenkonfiguration:** Modifizieren Sie die [`plt.xticks`](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.xticks.html) und [`plt.yticks`](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.yticks.html) Anweisungen, um andere Schriftgrößen und Drehwinkel zu testen. Setzen Sie verschiedene Wertebereiche für die Y-Achse mit [`plt.ylim`](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.ylim.html), um zu sehen, wie sich dies auf die Darstellung der Daten auswirkt.

**5. Rasterlinien (Grid):** Schalten Sie das Raster ein und aus und fügen Sie es spezifisch für die X- oder Y-Achse hinzu. Passen Sie die Stil- und Farboptionen des Rasters an (siehe dazu die [Matplotlib-Dokumentation](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.grid.html)). Für die Konfiguration der Farbe, werden in der Regel HTML-Codes verwendet, nutzen Sie entsprechend gerne einen [HTML Color Picker](https://www.w3schools.com/colors/colors_picker.asp).

Nützliche Ressourcen (neben den Verlinkungen):
- [Matplotlib User Guide](https://matplotlib.org/stable/users/index.html)
- [Seaborn User guide and tutorial](https://seaborn.pydata.org/tutorial.html)

⏳ 20 Minuten

Der zu modifizierende Code:


In [None]:
# Diesen Code gerne beliebig anpassen oder in eine andere Codezelle kopieren

plt.figure(figsize=(10, 7), dpi=300)                                   
colors = sns.color_palette("YlOrBr", 12) 
sns.set_context("paper", font_scale=1.5, rc={"lines.linewidth": 2.5})   

vote_frame["Prozent"].plot.bar(color=colors)                     


# Beschriftung des Plots
plt.title("Wahlen zum 1. Deutschen Bundestag")      
plt.xlabel("Partei")                                
plt.ylabel("Prozent")                               

# Konfiguration der Achsen
plt.xticks(fontsize=18, fontweight="heavy", rotation=60)    
plt.yticks(fontsize=18, fontweight="heavy")                 
plt.ylim(ymin=0, ymax=30)                                   

plt.grid(False)                                     
plt.grid(True, axis="y")                            
plt.tight_layout(pad = 0)                           

plt.show()

In [None]:
# weitere Codezellen nach Bedarf einfügen

---




## **Pause** 
(Datensicherung nicht vergessen!)





---

## Beispiel 2: Analyse und Visualisierung unseres Reden-Datensatzes

### Einlesen und Inspizieren der Daten

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Seaborn-Stil anstelle von Matplotlib
sns.set_theme(style="whitegrid")

# Anweisung speziell für Jupyter Notebooks: 
# Anzeige der Matplotlib-Grafiken direkt im Notebook statt in einem neuen Fenster
%matplotlib inline  

In [None]:
df = pd.read_json("../daten/output/speeches-bundesregierung_bearbeitet.json")

In [None]:
df.head()

### Anzahl der Reden nach Jahren

In [None]:
# Gruppieren der Daten nach Jahr und Zählen der Einträge mit der groupby()-Funktion

year_counts = df.groupby(df.loc[:, "date"].dt.year).size()
year_counts

In [None]:
# Basisvisualisierung
plt.figure(figsize=(10, 7), dpi=300)

# Plotten der Daten
#year_counts.plot.bar(color=sns.color_palette("YlOrBr", len(year_counts)))
year_counts.plot.bar(color="green")

# Styling des Layouts
plt.title("Anzahl der Reden nach Jahren", fontweight="semibold", fontsize=14)
plt.xlabel("Jahr", fontsize=12)
plt.ylabel("Anzahl der Reden pro Jahr", fontsize=12)
plt.xticks(rotation=45) 
plt.grid(False) 
plt.grid(True, axis="y")  

plt.tight_layout(pad=0)
# plt.savefig("../daten/output/anzahl-reden-jahr.png")
plt.show()

---

### Verteilung der Länge der Reden als Histogramm visualisieren

In [None]:
plt.figure(figsize=(10, 7), dpi=300)

# Plotten der Daten
df.loc[:, "ntokens"].plot.hist(bins=100, color="green")         # Bins: Anzahl der "Behälter", in die die Daten aufgeteilt werden

# Styling des Layouts                               
plt.title("Verteilung der Länge der Reden (bins=100)", fontweight="semibold", fontsize=14)
plt.xlabel("Anzahl der Token", fontsize=12)
plt.ylabel("Anzahl der Reden", fontsize=12)
plt.grid(False)
plt.grid(True, axis="y")

plt.tight_layout()
# plt.savefig("../daten/output/FILENAME.png")
plt.show()

### 📝 **JETZT:** Aufgabe

Probieren Sie unterschiedliche Werte für die Bins aus, um sich mit der Funktionsweise der Bins für die Visualisierung und Interpretation des Verteilungsprofils vertraut zu machen (z.B. 5, 10, 50, 100, 500).

⏳ 3 Minuten

---

### Anzahl der Reden nach Redner:innen

In [None]:
# Gruppieren der Daten nach Jahr und Zählen der Einträge mit der groupby()-Funktion

person_counts = df.groupby(df.loc[:, "person"]).size()
person_counts 

In [None]:
person_counts = person_counts.sort_values(ascending=False)              
person_counts                                                           # Absteigend sortiert

### 📝 **Jetzt:** Aufgabe 2 - Visualisierung der häufigsten Redner:innen

Erstellen Sie analog zur Visualisierung der Reden pro Jahr ein Balkendiagramm, das die Anzahl der Reden der 15 häufigsten Redner:innen visualisiert. Sie können den Code weitestgehend übernehmen und an den Stellen anpassen, wo es nötig ist. Überlegen Sie aber, was Sie tun müssen, um nur die 15 Redner:innen mit den meisten Reden zu visualisieren.

⏳ 10 Minuten

In [None]:
# gemeinsame Lösung

---

### Auswertungen zur TOP-Rednerin

In [None]:
merkel_mask = df.loc[:, "person"] == "Angela Merkel"
merkel_mask

In [None]:
df_merkel = df.loc[merkel_mask, ["date", "text"]]
df_merkel.shape

In [None]:
year_counts_merkel = df_merkel.groupby(df_merkel.loc[:, "date"].dt.year).size()
year_counts_merkel

In [None]:
# Ganz simples Liniendiagramm

year_counts_merkel.plot(legend=False)

#### Verwendung von 'digital' in den Reden von Angela Merkel

In [None]:
df_merkel_digital = df_merkel[df_merkel.loc[:,"text"].str.contains("digital", case=False)]  # bisher Maske immer separat auf df angewendet, aber das kann auch kombiniert werden, um direkt den neuen Dataframe zu erzeugen
df_merkel_digital

In [None]:
year_counts_digital = df_merkel_digital.groupby(df_merkel_digital.loc[:, "date"].dt.year).size()
year_counts_digital

In [None]:
# Basisvisualisierung
plt.figure(figsize=(10, 7), dpi=300)

# Plotten der Daten
year_counts_digital.plot.bar(color=sns.color_palette("husl", len(year_counts_digital)))

# Styling des Layouts
plt.title("Anzahl der Reden, die das Wort 'digital' enthalten", weight="semibold", size=14)
plt.xlabel("Jahr", size=12)
plt.ylabel("Anzahl der Reden", size=12)
plt.xticks(rotation=45)  # Einstellen der Rotation für x-Achsen-Beschriftung
plt.grid(False)  # Zuerst Grid ganz entfernen
plt.grid(True, axis="y")  # Dann Grid nur auf y-Achse hinzufügen

plt.tight_layout(pad=0)
# plt.savefig("../daten/output/FILENAME.png")
plt.show()

#### Relative Häufigkeit der Reden, in denen "digital" vorkommt im Verhältnis zur Gesamtanzahl der Reden Merkels

In [None]:
ratio_digital_to_total = year_counts_digital.divide(year_counts_merkel, fill_value=0)    # divide teilt Anzahl der Reden mit "digital" durch Gesamtanzahl der Reden, fill_value=0 sorgt dafür, dass Jahre, in denen keine Reden mit "digital" gehalten wurden, im Ergebnis als "0" berücksichtigt werden
ratio_digital_to_total

In [None]:
# Basisvisualisierung
plt.figure(figsize=(10, 7), dpi=300)

# Plotten der Daten
ratio_digital_to_total.plot.bar(color=sns.color_palette("husl", len(ratio_digital_to_total)))

# Styling des Layouts
plt.title("Relative Häufigkeit der Reden, die das Wort 'digital' enthalten", weight="semibold", size=14)
plt.xlabel("Jahr", size=12)
plt.ylabel("Anzahl", size=12)
plt.xticks(rotation=45)  # Einstellen der Rotation für x-Achsen-Beschriftung
plt.grid(False)  # Zuerst Grid ganz entfernen
plt.grid(True, axis="y")  # Dann Grid nur auf y-Achse hinzufügen

plt.tight_layout(pad=0)
# plt.savefig("../daten/output/FILENAME.png")
plt.show()

### 📝 **Jetzt:** Aufgabe 3 - Ergebnis von Datenabfragen visualisieren

Visualisieren Sie die *absoluten* und *relativen* Häufigkeiten des Ergebnisses der im Notebook `LC5_pandas-basics.ipynb` gestellten Aufgabe 3.4:

*Suchen Sie nach Reden, ~~die zwischen 2000 und 2010 gehalten wurden,~~ die sich auf Umweltthemen beziehen. In Frage kommen hierfür Begriffe wie "Umwelt", "Klima", "Nachhaltigkeit" oder ähnliches. Formulieren Sie eine Abfrage, die mehrere dieser Begriffe berücksichtigt. Achten Sie ggf. darauf, wie die Bedingungen mit runden Klammern gruppiert werden müssen.*

Die Einschränkung auf den Zeitraum 2000-2010 fällt für diese Aufgabenstellung weg. Was fällt Ihnen bei der Visualisierung der relativen Häufigkeiten auf?

⏳ 15 Minuten


In [None]:
# Ihre Lösung

### 📝 **Optionale Zusatzaufgabe:** Aufgabe 4 - Funktion für Visualisierung erstellen

Wie Sie sicherlich festgestellt haben, konnte der Code zur Visualisierung der Auswertungen im zweiten Teil dieses Notebook mit kleineren Anpassungen immer wieder verwendet werden, da die Art der zu visualisierenden Daten sich sehr ähneln. Das heißt, statt immer wieder den Code zu kopieren, könnte eigentlich, wie wir es gelernt haben, eine Funktion erstellt werden, die mit verschiedenen Parametern dann in unterschiedlichen Kontexten aufgerufen werden kann. 

Probieren Sie gerne einmal aus, wie der Code zur Visualisierung verallgemeinert werden müsste, damit er für die verschiedenen Aufgaben in diesem Notebook verwendet werden kann.

⏳ 20 Minuten

In [None]:
# Ihre Lösung