# 📝 Übung zum Data Mining mit Pandas


## Aufgabe 2: Anzahl der Token pro Rede ermitteln und speichern

Wir wollen die Anzahl der Token, also die Länge der einzelnen Reden ermitteln und die Informationen wieder im Dataframe als neue Spalte speichern.

- Lesen Sie dazu die Texte aus der Spalte `text` aus und speichern Sie sie in einer Liste. 
- Sorgen Sie nun dafür, dass die einzelnen Texte in Wortlisten zerlegt werden und bestimmen Sie die Länge der einzelnen Wortlisten. 
- Die Länge der Texte soll als neue Spalte `ntokens` zum Dataframe hinzugefügt werden.

⏳ 10 Minuten

In [None]:
# Zelle bitte ausführen: Pandas importieren und Dataframe einlesen
import pandas as pd
df = pd.read_csv("../daten/speeches-bundesregierung.csv", parse_dates=['date'])

In [None]:
texts = df.loc[:, "text"].to_list()         # Texte in Liste einlesen

ntokens = []                                
for text in texts:                          # Die einzelnen Texten per Schleife durchgehen
    ntokens.append(len(text.split()))       # jeden Text mit der Funktion split() in eine Liste zerlegen und die Länge der Liste ermitteln und zur Liste ntokens hinzufügen

df.loc[:, "ntokens"] = ntokens              # fertige Liste zum Dataframe hinzufügen

df.head()

## Aufgabe 3: Datenabfragen gestalten

Erkunden Sie das Korpus von Reden von Angehörigen der Bundesregierung, um ein tieferes Verständnis verschiedener thematischer Schwerpunkte und die Nutzung spezifischer Begrifflichkeiten über die Zeit zu gewinnen. 

1. Extrahieren Sie alle Reden, die im Jahr 2001 gehalten wurden.
2. Ermitteln Sie die Anzahl der Reden, die das Wort "Europa" enthalten.
3. Identifizieren Sie Reden, die den Begriff "digital" und "Digitalisierung" enthalten. 
4. Suchen Sie nach Reden, die zwischen 2000 und 2010 gehalten wurden, die sich auf Umweltthemen beziehen. In Frage kommen hierfür Begriffe wie "Umwelt", "Klima", "Nachhaltigkeit" oder ähnliches. Formulieren Sie eine Abfrage, die mehrere dieser Begriffe berücksichtigt. Achten Sie ggf. darauf, wie die Bedingungen mit runden Klammern gruppiert werden müssen.

Hinweise:
- Für diese Aufgabe benötigen Sie die logischen Operatoren für *UND* (`&`) und *ODER* (`|`) - letzteres ist je nach Tastatur auf einer anderen Taste. Wichtig: In Python hat der logische Operator `&` eine höhere Priorität als `|`. Bei Abfragen, die beide Operatoren verwenden, muss also darauf geachtet werden, wie die Abfragebestandteile mit runden Klammern gruppiert werden.
- Die Funktion `contains()` arbeitet standardmäßig case-sensitiv. Wenn Sie eine case-insensitive Suche durchführen möchten, können Sie den Parameter `case=False` ergänzen.

⏳ 20 Minuten

In [None]:
# Zelle bitte ausführen: Pandas importieren und Dataframe einlesen
import pandas as pd
df = pd.read_json("../daten/output/speeches-bundesregierung_bearbeitet.json")

In [None]:
# Erste Aufgabe
mask = df.loc[:, "date"].dt.year == 2001
year_2001 = df.loc[mask, ["date", "text"]]
year_2001

In [None]:
# Zweite Aufgabe
mask = df.loc[:, "text"].str.contains("Europa").sum()
mask

In [None]:
# Dritte Aufgabe
mask = (df.loc[:, "text"].str.contains("digital", case=False)) \
        & (df.loc[:, "text"].str.contains("Digitalisierung", case=False))

df_digital = df.loc[mask, :]
print(df_digital.shape)
df_digital.head()

In [None]:
with pd.option_context("display.max_colwidth", None):
    display(df_digital.loc[:, ["date", "person", "text"]].head(3))

In [None]:
# Vierte Aufgabe; Oder-Abfragen sind durch runde Klammern als eine Gruppe zusammengefasst

mask = ((df.loc[:, "text"].str.contains("Umwelt", case=False)) \                
        | (df.loc[:, "text"].str.contains("Klima", case=False)) \
        | (df.loc[:, "text"].str.contains("Nachhaltigkeit", case=False))) \
        & (df.loc[:, "date"].dt.year >= 2000) \
        & (df.loc[:, "date"].dt.year <= 2010) 

df_umwelt = df.loc[mask, :]
print(df_umwelt.shape)
df_umwelt.head()