# 💻 Pandas: Erste Schritte

[Pandas](https://pandas.pydata.org/) ist eine sehr weit verbreitete Python-Bibliothek zur Verarbeitung von tabellarischen Daten. Der Name kommt vom englischen Begriff *panel data*. 

Eine sehr gute und ausführliche Einführung in Pandas bietet ein eigenes Kapitel aus dem Data Science Handbook von Jake VanderPlas: [Data Manipulation with Pandas](https://jakevdp.github.io/PythonDataScienceHandbook/03.00-introduction-to-pandas.html), in: [Jake VanderPlas, Python Data Science Handbook. Essential Tools for Working with Data](https://jakevdp.github.io/PythonDataScienceHandbook/) 


## Import

In [1]:
import pandas as pd

## Einlesen der Daten

Dataframes und Series sind die Datenstrukturen, mit denen am meisten gearbeitet wird. Daher werden die Daten, die in einer csv-Datei vorliegen, einen Dataframe eingelesen. Es gibt weitere Möglichkeiten, Daten aus einer list, einem dictionary oder aus anderen Dateiformaten wie json oder xml einzulesen. Der beim Einlesen übergebene Parameter *parse_dates* wandelt diese Datenspalte in ein datetime-Objekt um - auf diese Weise können leichter datumspezifische Operationen durchgeführt werden, was insbesondere für Historiker:innen relevant ist.

In [3]:
df = pd.read_csv("../daten/speeches-bundesregierung.csv", parse_dates=['date'])

## Anzeigen der Daten

In [None]:
# Attribut "shape": Dimensionen des Dataframes als Tupel anzeigen
df.shape

In [None]:
print(f'Der Dataframe hat {df.shape[0]} Zeilen.')
print(f'Der Dataframe hat {df.shape[1]} Spalten.')

In [4]:
# Den Kopf des Dataframes anzeigen
df.head()

Unnamed: 0,date,person,address,title,sub_title,place,src_url,text
0,2002-02-06,Gerhard Schröder,"Sehr geehrte Frau Nair, liebe Mitglieder der J...",Rede des Bundeskanzlers zur Eröffnung der 52. ...,"Man kann diese Filmfestspiele nicht eröffnen, ...",na,http://archiv.bundesregierung.de/bpaexport/red...,"es ist angekündigt worden, man sollte im Beruf..."
1,2002-02-01,Julian Nida-Rümelin,Meine sehr geehrten Damen und Herren!,Redebeitrag von Staatsminister Nida-Rümelin in...,"""Ich bin der Auffassung, wir müssen nicht nur ...",na,http://archiv.bundesregierung.de/bpaexport/red...,"Frau Präsidentin! An Sie gerichtet, Herr Börn..."
2,2002-04-14,Gerhard Schröder,,Interview mit Bundeskanzler Schröder in 'Berli...,In dem Interview äußert sich Bundeskanzler Sch...,na,http://archiv.bundesregierung.de/bpaexport/red...,Frage (Peter Hahne): Bevor wir uns über den Au...
3,2005-03-08,Gerhard Schröder,Herr Ministerpräsident! Lieber Herr Dr. Bernot...,Rede von Bundeskanzler Gerhard Schröder bei de...,Der Kampf gegen die Arbeitslosigkeit ist eine ...,na,http://archiv.bundesregierung.de/bpaexport/red...,"Einen Satz von Ihnen, Herr Dr. Bernotat, habe ..."
4,2000-05-04,Gerhard Schröder,"Sehr geehrter Herr Professor Landfried, sehr ...",Rede von Bundeskanzler Gerhard Schröder auf de...,,na,http://archiv.bundesregierung.de/bpaexport/red...,diese Jahresversammlung der Hochschulrektorenk...


In [None]:
# Das Ende des Dataframes anzeigen
df.tail()

In [None]:
# Verfügbare Spalten anzeigen mit Attribut "columns"
df.columns

In [None]:
# Zusammenfassung der wesentlichen Informationen über ein DataFrame
# Non-Null Count gibt die Anzahl der Nicht-Null-Einträge an; 1447/2983 zeigt entsprechend, dass 1.536 Anreden fehlen
# dtype: object = text; datetime64 = Datums- und Zeitangaben

df.info()

In [None]:
# describe() bietet eine Zusammenfassung der numerischen Spalten eines DataFrames

df.describe()

- *count:* Die Anzahl der Nicht-Null-Einträge. Dies hilft, die Menge der vorhandenen Daten zu verstehen und fehlende Werte zu identifizieren.
- *mean:* Der Durchschnittswert der Einträge in der Spalte.
- *std:* Die Standardabweichung, die misst, wie weit die Werte im Durchschnitt vom Mittelwert (mean) entfernt sind.
- *min:* Der kleinste Wert in der Spalte.
- *25% (unteres Quartil):* Der Wert, unterhalb dessen 25% der Daten liegen. Dies ist der "mittlere" Wert des ersten Quartils.
- *50% (Median):* Der mittlere Wert der Daten. 50% der Daten liegen unter diesem Wert und 50% darüber. Dieser Wert teilt den Datensatz in zwei Hälften.
- *75% (oberes Quartil):* Der Wert, unterhalb dessen 75% der Daten liegen. Dies ist der "mittlere" Wert des dritten Quartils.
- *max:* Der größte Wert in der Spalt

In [None]:
# describe() bietet auch Zusammenfassungen für die nicht-numerischen Spalten eines DataFrames

df.describe(include="all")

- *unique:* Die Anzahl der einzigartigen Werte in der Spalte. (kann auf Redundanzen hinweisen!)
- *top:* Der häufigste Wert in der Spalte. 
- *freq:* Die Häufigkeit (Anzahl der Vorkommen) des häufigsten Wertes.

In [None]:
# Überblick über fehlende Informationen
# isna() erstellt einen neuen Dataframe, der nur Wahrheitswerte enthält
# sum() summiert die True-Angaben über alle Spalten hinweg 

df.isna().sum()     # erzeugt ein Series-Objekt

### Auswählen einer Spalte

Eine einzelne Spalte eines Dataframes wird bei Pandas als *Series* bezeichnet. Auf Series kann man eigene spezifische Methoden anwenden. Es gibt verschiedene Schreibweisen, um eine Spalte auszuwählen. Die beste Option ist die als letztes angeführte expliziteste Schreibweise, um  Komplikationen bei einer möglichen Doppelbenennung von Spaltennamen und Python-Keywords zu verhindern. 

In [None]:
# Zugriff auf Spalte ähnlich wie bei Dictionaries

df["person"]

In [None]:
df.person

In [None]:
# Zugriff auf eine spezifische Spalte auf Basis ihrer Indexposition und nicht Ihres Labels
# iloc = integer location
# Kombination mit Slicing

df.iloc[:, 1]

**empfohlene Variante:**

In [None]:
# Zugriff auf eine spezifische Spalte auf Basis eines konkreten Spaltenlabels
# loc = label-based location
# Kombination mit Slicing

df.loc[:, 'person']

### Auswählen einer Zelle

In [None]:
# erste Zelle der Spalte "person"

df.loc[0, "person"]

In [None]:
# erste 6 Zellen der Spalte Person

df.loc[0:5, 'person']

In [None]:
# Auswahl neuen Variablen zuweisen

first_cells = df.loc[0:5, "person"]
first_cells

### Auswählen von Zeilen

In [None]:
# erste Zeile

df.loc[0, :]

In [None]:
# Zeile 8-11

df.loc[7:10, :]

In [None]:
# Zeilen für spezifische Spalten auswählen

df.loc[7:10, "person":"title"]

### 📝 **JETZT:** Aufgabe 1 - Auswählen und Zugreifen auf Spalten üben

Machen Sie sich mit dem Zugriff auf Zeilen und Spalten mit `loc[]` vertraut. Probieren Sie verschiedene Konfigurationen aus, um unterschiedliche Ausschnitte aus dem Dataframe anzuzeigen.

⏳ 5 Minuten

In [None]:
# Ihre Lösung

---

## Arbeiten mit kategorialen Daten

In [None]:
# Ermittlung der Anzahl der einzigartigen Werte in der Spalte "person"

df.loc[:, "person"].nunique()

In [None]:
# Ermittlung der einzigartigen Werte in der Spalte "person"

df.loc[:, "person"].unique()

In [None]:
# Anwendung der describe-Funktion auf die Spalte "person"

df.loc[:, "person"].describe()

## Erstellen einer neuen Spalte

Angenommen, wir möchten ermitteln, wie lang die hinterlegten Titel sind (auf Zeichenebene):

In [None]:
# mit der Funktion apply() die len-Funktion auf jeden Wert in der Spalte "title" anwenden

df.loc[:, 'title'].apply(len)

In [None]:
# Noch mal Überblick über die fehlenden Informationen anzeigen

df.isna().sum()

In [None]:
# Ersetzung von NaN-Values, die im df als float hinterlegt werden
# pd.NA = Indikator für fehlende Werte

df = df.replace(pd.NA, "NaN") 

In [None]:
# Dataframe noch mal prüfen
# Ersetzen mit "NaN" sorgt dafür, dass Pandas die fehlenden Werte nicht mehr erkennen kann > für andere Operationen, die fehlende Werte berücksichtigen relevant sein

df.isna().sum()

In [None]:
# Erfolgreiche Anwendung der Längenfunktion auf die Werte der Spalte "titel"

df.loc[:, "title"].apply(len)

In [None]:
# Informationen als neue Spalte im Dataframe ergänzen (sollte die Spalte schon existieren, werden die Werte überschrieben)

df.loc[:, "len_title"] = df.loc[:, "title"].apply(len)

In [None]:
df.head()

### Textdaten bearbeiten und in neuer Spalte speichern

In [None]:
# Bearbeitung aller Werte innerhalb der Spalte "text" über das Attribut "str" und die Methode lower()

df.loc[:, "text_lower"] = df.loc[:, "text"].str.lower()


In [None]:
df.loc[:, "text_lower"].head()

In [None]:
# Auch andere String-Methoden lassen sich so auf die gesamten Texte anwenden

df.loc[:, "text_upper"] = df.loc[:, "text"].str.upper()
df.loc[:, "text_upper"].head()

In [None]:
df.head()

In [None]:
# Inhalte einer Spalte lassen sich auch als Liste auslesen, weiterverarbeiten 
# und wieder zum df hinzufügen

texts = df.loc[:, "text"].to_list()

texts_replaced = []
for text in texts:
    text = text.replace(".", "?")
    texts_replaced.append(text)

df.loc[:, "punct_replaced"] = texts_replaced

In [None]:
df.head()

### 📝 **JETZT:** Aufgabe 2 - Anzahl der Token pro Rede ermitteln und speichern

Wir wollen die Anzahl der Token, also die Länge der einzelnen Reden ermitteln und die Informationen wieder im Dataframe als neue Spalte speichern.

- Lesen Sie dazu die Texte aus der Spalte `text` aus und speichern Sie sie in einer Liste. 
- Sorgen Sie nun dafür, dass die einzelnen Texte in Wortlisten zerlegt werden und bestimmen Sie die Länge der einzelnen Wortlisten. (Die Texte müssen nicht bereinigt werden, uns reichen hier grobe Richtwerte.)
- Die Länge der Texte soll als neue Spalte `ntokens` zum Dataframe hinzugefügt werden.

⏳ 10 Minuten

In [None]:
# Ihre Lösung

## Speichern eines Dataframe

Das zweckmäßigste Dateiformat zum Speichern eines Dataframes ist das JSON-Format. Die Dateistrukturen bleiben erhalten: Wenn z.B. eine Spalte aus Zellen mit list-Objekten besteht, bleiben diese erhalten. Anders verhält es sich beim Speichern als CSV-Datei: Hier werden alle nicht numerischen Dateitypen in Strings umgewandelt, sie können aber später auch wieder in ihr ursprüngliches Dateiformat gebracht werden. Es hängt also am Ende vom jeweiligen Anwendungszenario ab, welches Dateiformat Sie wählen.

In [None]:
df.to_json("../daten/output/speeches-bundesregierung_bearbeitet.json", force_ascii=False, indent=4)
df.to_csv("../daten/output/speeches-bundesregierung_bearbeitet.csv", index=False)

In [None]:
# JSON als Dataframe einlesen

df = pd.read_json("../daten/output/speeches-bundesregierung_bearbeitet.json")

In [None]:
df.head()

## Maximum und Minimum einer Spalte anzeigen

In [None]:
# JSON als Dataframe einlesen

df = pd.read_json("../daten/output/speeches-bundesregierung_bearbeitet.json")

In [None]:
# Ermitteln, welche Rede die längste Rede ist 

df.loc[:, "ntokens"].idxmax()

In [None]:
# idxmax() gibt Indexposition zurück, können wir als Argument nutzen, 
# um die Zeile genauer zu inspizieren

df.loc[df.loc[:, "ntokens"].idxmax(), :]

In [None]:
# ganzen Text anzeigen
print(df.loc[df.loc[:, "ntokens"].idxmax(), "text"])

In [None]:
# Selbiges für die kürzeste Rede

df.loc[df.loc[:, 'ntokens'].idxmin(), :]

In [None]:
# Noch mal Einblicke in statistisches Profil des Datensatzes 

df.describe()

## Datenabfragen gestalten mit booleschen Masken 

In [None]:
# Mit der Funktion contains() alle diejenigen Zellen einer Spalte ermitteln, 
# die die Zeichenfolge "Ukraine" enthalten
# sum() wiederum gibt die Gesamtanzahl der Zellen zurück 

query = df.loc[:, "text"].str.contains("Ukraine").sum()
query

In [None]:
# Boolesche Maske, da für jede Zeile des df angegeben wird, ob die Zelle den gesuchten Wert enthält (True)
# oder nicht (False)
df.loc[:, "text"].str.contains("Ukraine")

In [None]:
# Prüfen, in welchen Zellen der Spalte "person" der Wert der Zeichenkette "Gerhard Schröder" entspricht

mask = df.loc[:, "person"] == "Gerhard Schröder"
mask

In [None]:
# Boolesche Masken nutzen, um Ausschnitte aus dem Dataframe zusammenzustellen

df_schroeder = df.loc[mask, :]
df_schroeder.head()

In [None]:
# Analog dazu für die Schlagwortsuche

mask = df.loc[:, "text"].str.contains("Ukraine")    # Schlagwortsuche
df_ukraine = df.loc[mask, :]                        # Parsen des Datensatzes entsprechend der booleschen Maske

print(df_ukraine.shape)         # shape des neuen Dataframes
df_ukraine.head()               # Kopf des neuen Dataframes

### Genaueren Einblick in die Suchergebnisse erhalten

In [None]:
# Mit dem Kontextmanager und der Funktion "option_context" kann temporär der Inhalt von Spalten 
# unabhängig von der Länge vollständig angezeigt werden
# Funktion display() sorgt für die Anzeige im Notebook

with pd.option_context("display.max_colwidth", None):
    #df_ukraine.loc[:, ["date", "title"]].head(3)
    display(df_ukraine.loc[:, ["date", "title"]].head(3))

### Komplexere Abfragen gestalten durch Nutzung logischer Operatoren

In [None]:
# Prüfung der Zellen in der Spalte "text" dahingehend, ob sie die Zeichenketten
# "Ukraine" UND "Russland" enthalten
# Sonderzeichen "\" 

mask = (df.loc[:, "text"].str.contains("Ukraine")) \
      & (df.loc[:, "text"].str.contains("Russland"))

df_uk_ru = df.loc[mask,:]     # auf Basis der booleschen Maske kann wieder ein Subset erzeugt werden
print(df_uk_ru.shape)
df_uk_ru.tail()

In [None]:
# Suchanfragen lassen sich beliebig verketten (auch über unterschiedliche Spalten hinweg)

mask = (df.loc[:, "text"].str.contains("Ukraine")) \
      & (df.loc[:, "text"].str.contains("Russland")) \
      & (df.loc[:, "person"] == "Angela Merkel") \
      & (df.loc[:, "date"].dt.year == 2014)        

df_uk_ru_2 = df.loc[mask,:]
print(df_uk_ru_2.shape)
df_uk_ru_2.tail()

In [None]:
# detailliertere Einblicke erhalten

with pd.option_context("display.max_colwidth", None):
    display(df_uk_ru_2.loc[:, ["date", "person", "text"]].head(3))

### 📝 **JETZT:** Aufgabe 3 - Datenabfragen gestalten

Erkunden Sie das Korpus von Reden von Angehörigen der Bundesregierung, um ein tieferes Verständnis verschiedener thematischer Schwerpunkte und die Nutzung spezifischer Begrifflichkeiten über die Zeit zu gewinnen. 

1. Extrahieren Sie alle Reden, die im Jahr 2001 gehalten wurden.
2. Ermitteln Sie die Anzahl der Reden, die das Wort "Europa" enthalten.
3. Identifizieren Sie Reden, die den Begriff "digital" und "Digitalisierung" enthalten. 
4. Suchen Sie nach Reden, die zwischen 2000 und 2010 gehalten wurden, die sich auf Umweltthemen beziehen. In Frage kommen hierfür Begriffe wie "Umwelt", "Klima", "Nachhaltigkeit" oder ähnliches. Formulieren Sie eine Abfrage, die mehrere dieser Begriffe berücksichtigt. Achten Sie ggf. darauf, wie die Bedingungen mit runden Klammern gruppiert werden müssen.

Hinweise:
- Für diese Aufgabe benötigen Sie die logischen Operatoren für *UND* (`&`) und *ODER* (`|`) - letzteres ist je nach Tastatur auf einer anderen Taste. Wichtig: In Python hat der logische Operator `&` eine höhere Priorität als `|`. Bei Abfragen, die beide Operatoren verwenden, muss also darauf geachtet werden, wie die Abfragebestandteile mit runden Klammern gruppiert werden.
- Die Funktion `contains()` arbeitet standardmäßig case-sensitiv. Wenn Sie eine case-insensitive Suche durchführen möchten, können Sie den Parameter `case=False` ergänzen.

⏳ 20 Minuten

In [None]:
# gemeinsame Lösung