# 📝 Übung zur Datenvisualisierung mit Pandas und Matplotlib

## Aufgabe 1: Mit Datenvisualisierungen vertraut machen

Experimentieren Sie mit verschiedenen Gestaltungsmöglichkeiten einer Balkendiagramm-Visualisierung in Matplotlib und Seaborn, um ein besseres Verständnis für die Anpassung und Konfiguration von Diagrammen zu entwickeln.

**1. Farbpalette ändern:** Konsultieren Sie die Dokumentation von [Seaborns Farbpaletten](https://seaborn.pydata.org/tutorial/color_palettes.html) und wählen Sie eine andere Palette aus. Wenden Sie diese auf Ihr Balkendiagramm an.

**2. Kontext und Skalierung anpassen:** Spielen Sie mit unterschiedlichen [Kontexten](https://seaborn.pydata.org/generated/seaborn.set_context.html) wie `notebook`, `talk` und `poster` herum. Ändern Sie auch die Skalierung der Schriftgröße, um die Auswirkungen auf die Visualisierung zu beobachten.

**3. Titel und Achsenbeschriftungen:** Ändern Sie den Titel des Diagramms und die Beschriftungen der Achsen. Probieren Sie verschiedene Schriftgrößen aus.

**4. Achsenkonfiguration:** Modifizieren Sie die [`plt.xticks`](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.xticks.html) und [`plt.yticks`](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.yticks.html) Anweisungen, um andere Schriftgrößen und Drehwinkel zu testen. Setzen Sie verschiedene Wertebereiche für die Y-Achse mit [`plt.ylim`](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.ylim.html), um zu sehen, wie sich dies auf die Darstellung der Daten auswirkt.

**5. Rasterlinien (Grid):** Schalten Sie das Raster ein und aus und fügen Sie es spezifisch für die X- oder Y-Achse hinzu. Passen Sie die Stil- und Farboptionen des Rasters an (siehe dazu die [Matplotlib-Dokumentation](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.grid.html)). Für die Konfiguration der Farbe, werden in der Regel HTML-Codes verwendet, nutzen Sie entsprechend gerne einen [HTML Color Picker](https://www.w3schools.com/colors/colors_picker.asp).

Nützliche Ressourcen (neben den Verlinkungen):
- [Matplotlib User Guide](https://matplotlib.org/stable/users/index.html)
- [Seaborn User guide and tutorial](https://seaborn.pydata.org/tutorial.html)

⏳ 20 Minuten



In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Seaborn-Stil anstelle von Matplotlib
sns.set_theme(style="whitegrid")

# Anweisung speziell für Jupyter Notebooks: 
# Anzeige der Matplotlib-Grafiken direkt im Notebook statt in einem neuen Fenster
%matplotlib inline  

In [None]:
# Erzeugung von Beispieldaten: Wahl zum 1. Deutschen Bundestag am 14. August 1949

votes = {"Parteien":["SPD", "CDU", "FDP", "CSU", 
                        "KPD", "Parteilose", "BP", "DP", 
                        "Zentrum", "Sonstige"],
            "Stimmen":[6934975, 5978636, 2829920, 1380448,
                      1361706, 1141647, 986478, 939934, 
                       727505, 1451149],
            "Prozent": [29.2, 25.2, 11.9, 5.8,
                       5.7, 4.8, 4.2, 4.0, 
                        3.1, 6.1]}

vote_frame = pd.DataFrame(votes, #
                          columns=["Stimmen", "Prozent"], #
                          index=votes["Parteien"]) # 
print(vote_frame)

Der zu modifizierende Code:

In [None]:
# Diesen Code gerne beliebig anpassen oder in eine andere Codezelle kopieren

plt.figure(figsize=(10, 7), dpi=300)                                   
colors = sns.color_palette("YlOrBr", 12) 
sns.set_context("paper", font_scale=1.5, rc={"lines.linewidth": 2.5})   

vote_frame["Prozent"].plot.bar(color=colors)                     


# Beschriftung des Plots
plt.title("Wahlen zum 1. Deutschen Bundestag")      
plt.xlabel("Partei")                                
plt.ylabel("Prozent")                               

# Konfiguration der Achsen
plt.xticks(fontsize=18, fontweight="heavy", rotation=60)    
plt.yticks(fontsize=18, fontweight="heavy")                 
plt.ylim(ymin=0, ymax=30)                                   

plt.grid(False)                                     
plt.grid(True, axis="y")                            
plt.tight_layout(pad = 0)                           

plt.show()

In [None]:
# weitere Codezellen nach Bedarf einfügen

## Aufgabe 2: Visualisierung der häufigsten Redner:innen

Erstellen Sie analog zur Visualisierung der Reden pro Jahr ein Balkendiagramm, das die Anzahl der Reden der 15 häufigsten Redner:innen visualisiert. Sie können den Code weitestgehend übernehmen und an den Stellen anpassen, wo es nötig ist. Überlegen Sie aber, was Sie tun müssen, um nur die 15 Redner:innen mit den meisten Reden zu visualisieren.

⏳ 10 Minuten

In [None]:
df = pd.read_json("../daten/output/speeches-bundesregierung_bearbeitet.json")

In [None]:
# Gruppieren der Daten nach Jahr und Zählen der Einträge mit der groupby()-Funktion

person_counts = df.groupby(df.loc[:, "person"]).size()
person_counts

In [None]:
# Sortierung
person_counts = person_counts.sort_values(ascending=False)
person_counts

In [None]:
# Basisvisualisierung
plt.figure(figsize=(10, 7), dpi=300)

# Plotten der Daten
person_counts[:15].plot.bar(color=sns.color_palette("husl", 15))

# Styling des Layouts
plt.title("Anzahl der Reden pro Person", fontweight="semibold", fontsize=14)
plt.xlabel("Jahr", fontsize=12)
plt.ylabel("Anzahl der Reden pro Person", fontsize=12)
plt.xticks(rotation=45)
plt.grid(False) 
plt.grid(True, axis="y")  

plt.tight_layout(pad=0)
# plt.savefig("../daten/output/FILENAME.png")
plt.show()

## Aufgabe 3: Ergebnis von Datenabfragen visualisieren

Visualisieren Sie die *absoluten* und *relativen* Häufigkeiten des Ergebnisses der im Notebook `LC5_pandas-basics.ipynb` gestellten Aufgabe 3.4:

*Suchen Sie nach Reden, ~~die zwischen 2000 und 2010 gehalten wurden,~~ die sich auf Umweltthemen beziehen. In Frage kommen hierfür Begriffe wie "Umwelt", "Klima", "Nachhaltigkeit" oder ähnliches. Formulieren Sie eine Abfrage, die mehrere dieser Begriffe berücksichtigt. Achten Sie ggf. darauf, wie die Bedingungen mit runden Klammern gruppiert werden müssen.*

Die Einschränkung auf den Zeitraum 2000-2010 fällt für diese Aufgabenstellung weg. Was fällt Ihnen bei der Visualisierung der relativen Häufigkeiten auf?

⏳ 15 Minuten


In [None]:
mask = (df.loc[:, "text"].str.contains("Umwelt", case=False)) \
        | (df.loc[:, "text"].str.contains("Klima", case=False)) \
        | (df.loc[:, "text"].str.contains("Nachhaltigkeit", case=False))

df_umwelt = df.loc[mask, :]
print(df_umwelt.shape)
df_umwelt.head()

In [None]:
umwelt_counts = df_umwelt.groupby(df_umwelt.loc[: ,"date"].dt.year).size()
umwelt_counts

In [None]:
# Basisvisualisierung
plt.figure(figsize=(10, 7), dpi=300)

# Plotten der Daten
umwelt_counts.plot.bar(color=sns.color_palette("husl", len(umwelt_counts)))

# Styling des Layouts
plt.title("Anzahl der Reden, die das Thema 'Umwelt' thematisieren.", fontweight="semibold", fontsize=14)
plt.xlabel("Jahr", fontsize=12)
plt.ylabel("Anzahl", fontsize=12)
plt.xticks(rotation=45)  
plt.grid(False) 
plt.grid(True, axis="y") 

plt.tight_layout(pad=0)
# plt.savefig("../daten/output/FILENAME.png")
plt.show()

In [None]:
# Gruppieren der Daten nach Jahr und Zählen der Einträge mit der groupby()-Funktion

year_counts = df.groupby(df.loc[:, "date"].dt.year).size()
year_counts

In [None]:
ratio_umwelt_to_total = umwelt_counts.divide(year_counts, fill_value=0)
ratio_umwelt_to_total

In [None]:
# Basisvisualisierung
plt.figure(figsize=(10, 7), dpi=300)

# Plotten der Daten
ratio_umwelt_to_total.plot.bar(color=sns.color_palette("husl", len(ratio_umwelt_to_total)))

# Styling des Layouts
plt.title("Relative Häufigkeit der Reden, die das Thema 'Umwelt' thematisieren.", fontweight="semibold", fontsize=14)
plt.xlabel("Jahr", fontsize=12)
plt.ylabel("Relative Häufigkeit", fontsize=12)
plt.xticks(rotation=45)  
plt.grid(False)  
plt.grid(True, axis="y")

plt.tight_layout(pad=0)
# plt.savefig("../daten/output/FILENAME.png")
plt.show()

## **Optionale Zusatzaufgabe:** Aufgabe 4 - Funktion für Visualisierung erstellen

Wie Sie sicherlich festgestellt haben, konnte der Code zur Visualisierung der Auswertungen im zweiten Teil dieses Notebook mit kleineren Anpassungen immer wieder verwendet werden, da die Art der zu visualisierenden Daten sich sehr ähneln. Das heißt, statt immer wieder den Code zu kopieren, könnte eigentlich, wie wir es gelernt haben, eine Funktion erstellt werden, die mit verschiedenen Parametern dann in unterschiedlichen Kontexten aufgerufen werden kann. 

Probieren Sie gerne einmal aus, wie der Code zur Visualisierung verallgemeinert werden müsste, damit er für die verschiedenen Aufgaben in diesem Notebook verwendet werden kann.

⏳ 20 Minuten

In [None]:
def visualize_as_bar(series_object, label_y, label_x, title):
    """Erstellt ein Balkendiagramm aus einem Pandas Series-Objekt

    Diese Funktion nimmt ein Pandas Series-Objekt und visualisiert es als Balkendiagramm 
    mit der Möglichkeit, die Beschriftungen der x- und y-Achse sowie den Titel des Diagramms anzupassen.
    Die Farben der Balken werden automatisch anhand der "husl"-Farbpalette von Seaborn generiert, 
    basierend auf der Anzahl der Elemente im Series-Objekt. Das kann auch noch über Parameter flexibler 
    gestaltet werden.

    Parameters:
    - series_object: Pandas Series-Objekt. Die Daten, die als Balkendiagramm visualisiert werden sollen
    - label_y (str): Die Beschriftung für die y-Achse des Diagramms
    - label_x (str): Die Beschriftung für die x-Achse des Diagramms
    - title (str): Der Titel des Diagramms

    Returns:
    - Ein Balkendiagramm, das die Daten im series_object visualisiert. Die Funktion gibt nichts zurück, 
      ruft aber plt.show() auf, um das Diagramm anzuzeigen."""


    plt.figure(figsize=(10, 7), dpi=300)

    # Plotten der Daten
    series_object.plot.bar(color=sns.color_palette("husl", len(series_object)))

    # Styling des Layouts
    plt.title(f"{title}", fontweight="semibold", fontsize=14)
    plt.xlabel(f"{label_x}", fontsize=12)
    plt.ylabel(f"{label_y}", fontsize=12)
    plt.xticks(rotation=45)  
    plt.grid(False)  
    plt.grid(True, axis="y")  

    plt.tight_layout(pad=0)
    return plt.show()

In [None]:
# test function #1
visualize_as_bar(person_counts[:15], "Anzahl", "Person", "Anzahl der Reden pro Person")

In [None]:
# test function #2
visualize_as_bar(ratio_umwelt_to_total, "Relative Häufigkeit", "Jahr", "Relative Häufigkeit der Reden pro Jahr, die 'Umwelt' thematisieren")