# 📝 Übungen zur Wiederholung

Konsultieren Sie gerne die Materialien der ersten drei Workshoptage oder das JupyterBook [Python für Historiker:innen](https://digital-history-berlin.github.io/Python-fuer-Historiker-innen/ch01-atomare-datentypen/07-aufgabe-taschenrechner.html) sowie die [Python-Dokumentation](https://docs.python.org/3/) oder auch [Stack Overflow](https://stackoverflow.com/) und tauschen Sie sich untereinander aus.

⏳ Insgesamt 30 Minuten


## Aufgabe: Eigene Datenabfrage gestalten

Überlegen Sie sich für das Korpus der Reden von Angehörigen der Bundesregierung eine eigene inhaltlich-thematische Datenabfrage, die von booleschen Masken Gebrauch macht und visualisieren Sie das Abfrageergebnis im Verhältnis zur Zeit mit Matplotlib und Seaborn. Orientieren Sie sich dazu an den Notebooks `LC5_pandas-basics.ipynb` und `LC6_pandas-plotting.ipynb`. Visualisieren Sie nicht nur die absoluten Häufigkeiten, sondern auch die relativen Häufigkeiten.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Seaborn-Stil anstelle von Matplotlib
sns.set_theme(style="whitegrid")

# Anweisung speziell für Jupyter Notebooks: 
# Anzeige der Matplotlib-Grafiken direkt im Notebook statt in einem neuen Fenster
%matplotlib inline  

# Daten einlesen
df = pd.read_json("../daten/output/speeches-bundesregierung_bearbeitet.json")

In [None]:
# Ihre Lösung

In [None]:
# Beispielabfrage zur Orientierung
mask = (df.loc[:, "text"].str.contains("Ukraine")) \
      & (df.loc[:, "text"].str.contains("Russland")) \
      & (df.loc[:, "person"] == "Angela Merkel")        

df_uk_ru = df.loc[mask,:]
df_uk_ru.shape

### Visualisierung der absoluten Häufigkeiten

In [None]:
count = df_uk_ru.groupby(df_uk_ru.loc[: ,"date"].dt.year).size()
count 

In [None]:
# Basisvisualisierung
plt.figure(figsize=(10, 7), dpi=300)

# Plotten der Daten
count.plot.bar(color=sns.color_palette("husl", len(count)))

# Styling des Layouts
plt.title("Anzahl der Reden, die das gesuchte Thema beinhalten.", fontweight="semibold", fontsize=14)
plt.xlabel("Jahr", fontsize=12)
plt.ylabel("Anzahl", fontsize=12)
plt.xticks(rotation=45)  
plt.grid(False) 
plt.grid(True, axis="y") 

plt.tight_layout(pad=0)
# plt.savefig("../daten/output/FILENAME.png")
plt.show()

### Visualisierung der relativen Häufigkeiten

In [None]:
# Ermittlung der Gesamtanzahl der Reden von Angela Merkel im Datensatz 

merkel_mask = df.loc[:, "person"] == "Angela Merkel"
df_merkel = df.loc[merkel_mask, :]
year_counts_merkel = df_merkel.groupby(df_merkel.loc[:, "date"].dt.year).size()
year_counts_merkel

In [None]:
# Ermittlung der relativen Häufigkeit

ratio_counts_to_total = count.divide(year_counts_merkel, fill_value=0)    # divide teilt Anzahl der Reden mit "digital" durch Gesamtanzahl der Reden, fill_value=0 sorgt dafür, dass Jahre, in denen keine Reden mit "digital" gehalten wurden, im Ergebnis als "0" berücksichtigt werden
ratio_counts_to_total

In [None]:
# Basisvisualisierung
plt.figure(figsize=(10, 7), dpi=300)

# Plotten der Daten
ratio_counts_to_total.plot.bar(color=sns.color_palette("husl", len(ratio_counts_to_total)))

# Styling des Layouts
plt.title("Relative Häufigkeit der Reden, die das gesuchte Thema beinhalten.", fontweight="semibold", fontsize=14)
plt.xlabel("Jahr", fontsize=12)
plt.ylabel("Anzahl", fontsize=12)
plt.xticks(rotation=45)  
plt.grid(False) 
plt.grid(True, axis="y") 

plt.tight_layout(pad=0)
# plt.savefig("../daten/output/FILENAME.png")
plt.show()