# Datenanalyse

In diesem Notebook lernen wir, wie wir in Python gro√üe Mengen strukturierter Daten, allen voran Daten in Form von Tabellen, verarbeiten und analysieren k√∂nnen. 

Im f√ºnften Notebook haben wir mit folgender Tabelle gearbeitet:

<img src="../3_Dateien/Grafiken_und_Videos/Fl√§chengr√∂sste_Gemeinden_Tabelle.png">

Wir haben unter Zuhilfenahme des `csv`-Moduls unseren eigenen Code geschrieben, um auszurechnen, wieviele der 100 fl√§chengr√∂√üten Gemeinden sich in jedem der sechzehn Bundesl√§nder befinden. In diesem Notebook lernen wir die sehr viel leistungsst√§rkere Bibliothek *pandas* kennen, die uns diese Rechnung im Handumdrehen liefern kann. Pandas kann aber viel mehr, wie wir gleich sehen werden.

Zu Beginn m√ºssen wir pandas nat√ºrlich importieren. Folgendes Statement importiert die Bibliothek und verleiht ihr den Namen `pd`. Diese Abk√ºrzung ist eine Konvention.

In [None]:
import pandas as pd

Solltest Du einen `ModuleNotFoundError` erhalten, musst Du `pandas` erst √ºber die Command Line installieren. √ñffne dazu das Terminal (macOS) bzw. die Eingabeaufforderung (Windows) in einem neuen Fenster, gib `pip3 install pandas` (macOS) bzw. `pip install pandas` (Windows) ein und dr√ºcke auf Enter. Sobald der Prozess abgeschlossen ist, sollte der Import oben klappen.
Um pandas kennenzulernen, wollen wir mit einem gro√üen Datensatz arbeiten, n√§mlich dem [Songkorpus](https://songkorpus.de/index.html). Das Songkorpus beinh√§lt Lieder von bekannten deutschen K√ºnstler:innen, u.a. von Udo Lindenberg und Fettes Brot und umspannt die Jahre 1969-2022. √ñffentlich herunterladbar sind unter anderem Worth√§ufigkeiten pro Jahr und zwar als Tabelle (auf der Webseite selbst finden sich weitere spannende Daten und Analysen). Jedes Wort, das in einem oder mehreren Songs in einem bestimmten Jahr vorkommt, steht in einer eigenen Zeile, zusammen mit dem entsprechenden Jahr und der H√§ufigkeit, mit der es in diesem Jahr bei allen K√ºnstler:innen auftritt (s.u.). Insgesamt handelt es sich um √ºber 380.000 W√∂rter. Solch eine tabellarische Datei, zumal derart gro√ü, ist pr√§destiniert dazu, mit pandas verarbeitet zu werden.

## Input

In der folgenden Zelle √∂ffnen wir die Datei, die sich bereits in "3_Dateien/Songkorpus" befindet, und lesen sie mit der pandas-Funktion `read_csv` ein, die neben dem Dateipfad u.a. auch das Trennzeichen (`sep`, in diesem Fall der Tabulator "\t") als Argument nimmt:

In [None]:
#vor read_csv steht wie gewohnt der Modulname, damit Python wei√ü, wo sich die Funktion befindet
songkorpus = pd.read_csv("../3_Dateien/Songkorpus/songkorpus_token.tsv", sep="\t") 

Neben `read_csv` f√ºr Dateien mit Trennzeichen, bietet pandas u.a. auch Funktionen f√ºr XML (`read_xml`), JSON (`read_json`)  und Excel-Dateien (`read_excel`) an. Ebenfalls kann man je nach Daten weitere Parameter spezifizieren, u.a. `na_filter`, um zu definieren, wie mit fehlenden Werten (sog. *NaN-Werten*) umgegangen werden soll. 

*Bemerkung am Rande: Fehlende Werte f√ºhren immer wieder zu Problemen bei der Arbeit mit pandas. Deswegen solltest Du Dich beim Einlesen Deiner eigenen Daten stets fragen, ob bestimmte Werte darin fehlen k√∂nnten und wenn ja, wie Du damit umgehen m√∂chtest. Pandas bietet neben `na_filter` n√ºtzliche Methoden wie `isna`, `dropna` und `fillna` f√ºr den Umgang mit fehlenden Werten (mehr Infos [hier](https://pandas.pydata.org/docs/user_guide/missing_data.html)). Im Folgenden gehen wir aber nicht darauf ein, im Songkorpus fehlen schlicht keine Werte.*

Die Lesemethode √ºberf√ºhrt unsere Daten in jedem Fall in ein sog. *DataFrame*:

In [None]:
print(type(songkorpus))

DataFrames sind ein eigener Datentyp von pandas, auf dem wir eine Vielzahl n√ºtzlicher Operationen ausf√ºhren k√∂nnen, etwa um einen √úberblick √ºber die Daten zu bekommen.

## √úberblick bekommen

Hier bietet sich insbesondere die Methode `head` an, die standardm√§√üig die ersten f√ºnf Zeilen (also den "Kopf") des DataFrames ausgibt: 

In [None]:
songkorpus.head() #head nimmt optional eine Ganzzahl als Argument, die definiert, wieviele der ersten Zeilen ausgegeben werden sollen

Eher komische W√∂rter in der Spalte "CO_TOKEN". Wie wir an Spalte "CO_COUNT" erkennen k√∂nnen, kamen sie aber auch nur jeweils einmal (im in "CO_YEAR" angegebenen Jahr) vor.

Das Gegenst√ºck zu `head` ist `tail` (also der "Schwanz"), wodurch wir die letzten f√ºnf Zeilen des DataFrames erhalten:

In [None]:
songkorpus.tail() #auch tail nimmt optional eine Ganzzahl als Argument, die definiert, wieviele der letzten Zeilen ausgegeben werden sollen

Die Ausgabe sieht √ºbrigens anders aus, wenn wir einen `print`-Befehl verwenden, anstatt dass JupyterLab schlicht die letzte Zeile ausgibt (probier's aus!). Mit `print`-Befehl verschwindet die angenehme Formatierung.

Mithilfe von `shape`, `columns` und `index` k√∂nnen wir au√üerdem in Erfahrung bringen, welches Format (`shape`), d.h. wieviele Spalten und Zeilen, das DataFrame hat, sowie, wie Spalten (`columns`) und Zeilen (`index`) benannt sind.

‚ö†Ô∏è Achtung: Es handelt sich dabei um sog. Attribute des DataFrames, die wir uns vereinfacht gesagt als Eigenschaften des DataFrames vorstellen k√∂nnen. Um auf ein Attribut eines Objekts zuzugreifen, h√§ngt man den Namen des Attributs wie bei Methoden nach einem Punkt an das betreffende Objekt, schlie√üt aber nicht mit Klammern ab:

In [None]:
print(songkorpus.shape, songkorpus.columns, songkorpus.index, sep="\n")
original_len = len(songkorpus)

Unser DataFrame besteht also aus 386.510 Zeilen und drei Spalten. Die Anzahl an Zeilen, also die L√§nge des DataFrames, speichern wir in einer separaten Variablen ab, wir werden sie sp√§ter noch brauchen.

Die Spaltennamen sind "CO_TOKEN", "CO_YEAR" und "CO_COUNT" und die Zeilen sind mit Indizes von 0 (inklusive) bis 386510 (exklusive) durchnummeriert. 

Die etwas kryptischen Spaltennamen k√∂nnen wir √§ndern, indem wir das Attribut `columns` unseres DataFrames ganz einfach mit einer Liste an neuen Spaltennamen √ºberschreiben:

In [None]:
songkorpus.columns = ["Wort", "Jahr", "H√§ufigkeit"]
print(songkorpus.columns)

Die L√§nge der Liste muss nat√ºrlich der Anzahl an Spalten entsprechen. 

Um eine spezifische Spalte zu √ºberschreiben, k√∂nnen wir die `rename`-Methode verwenden, derer wir ein dictionary mit Schl√ºssel-Werte-Paaren ({"jetziger Name": "neuer Name"}) √ºbergeben. Im Allgemeinen haben wir beim Bearbeiten eines DataFrames zwei M√∂glichkeiten, um die Bearbeitung wirksam zu machen: 

1) Wir k√∂nnen immer das alte DataFrame mit der bearbeiteten Version √ºberschreiben. So haben wir das auch in der Zelle obendran gehandhabt. 
2) Bei der Bearbeitung mithilfe einer Methode, hier `rename`, k√∂nnen wir auch den Parameter `inplace=True` spezifizieren, um die Bearbeitung "an Ort und Stelle" vorzunehmen. 

In der n√§chsten Zelle sehen wir beide Alternativen. Im Folgenden beschr√§nken wir uns aber auf die erste M√∂glichkeit, da diese auch abseits von Methoden funktioniert.

In [None]:
songkorpus = songkorpus.rename(columns={"Wort": "Token"}) #1. M√∂glichkeit: √úberschreiben
songkorpus.rename(columns={"Wort": "Token"}, inplace=True) #2. M√∂glichkeit: Bearbeiten "inplace"/"an Ort und Stelle"
songkorpus.head()

Schon kennen wir erste n√ºtzliche Operationen f√ºr einen ersten Eindruck unserer Daten.

***

## üîß Anwendungsfall: Wortverlaufskurven visualisieren üìà

Auch in diesem Notebook gibt es einen Anwendungsfall: Wir wollen visualisieren, wie h√§ufig beliebige W√∂rter in jedem Jahr im vom Songkorpus abgedeckten Zeitraum 1969-2022 vorkommen. F√ºr die Begriffe "ich", "du", "er" und "sie" s√§he das z.B. so aus:

<img src="../3_Dateien/Grafiken_und_Videos/Wortverlaufskurve_Jahr.png" width="700">

Es scheint, als s√§ngen die K√ºnstler:innen im Songkorpus bevorzugt √ºber sich selbst (bzw. √ºber ihr lyrisches Ich). üòÖ

***

Zuallererst wollen wir einen detailierten Blick auf Spalten und Zeilen werfen, aus denen ein DataFrame ja besteht.

## Auf Spalten zugreifen

Wenn wir an einer bestimmten Spalte eines DataFrames interessiert sind, k√∂nnen wir auf diese mit der gleichen Syntax wie bei dictionaries zugreifen:

In [None]:
songkorpus["Token"]

An dieser Stelle ist es nat√ºrlich wichtig, dass die Spalte aktuell wirklich "Token" und nicht mehr "CO_TOKEN" oder "Wort" hei√üt. Dies w√ºrde, wie bei inexistenten Schl√ºsseln in einem dictionary auch, zu einem `KeyError` f√ºhren.

Weiter funktioniert f√ºr den Spaltenzugriff auch die sog. dot-Notation nach dem Schema `DataFrame.column`:

In [None]:
songkorpus.Token #beachte, dass hierf√ºr der Spaltenname nicht als string, also ohne Anf√ºhrungszeichen angeh√§ngt wird!

Die dot-Notation erf√ºllt (fast immer) die gleiche Funktion wie die Zugriffsweise √ºber eckige Klammern, auf die wir uns fortan beschr√§nken. 

In jedem Fall entspricht das, was wir dabei zur√ºckerhalten, dem zweiten wichtigen Datentyp von pandas neben *DataFrame*, n√§mlich einer sog. *Series*:

In [None]:
tokens = songkorpus["Token"]
print(type(tokens))

Series kann man mit Listen vergleichen. Sie sind im Gegensatz zu Dataframes nicht zweidimensional (Spalten und Zeilen), sondern eindimensional. Viele Listen-Operationen wie z.B. Indexing und Slicing funktionieren bei Series gleicherma√üen:

In [None]:
print(tokens[10000], "\n") #Indexing
print(tokens[9999:10002]) #Slicing

***

‚úèÔ∏è **√úbung 1:** Erstelle eine weitere Series, die nur das 100.000te, 200.000te und 300.000te Token der Series `tokens` beinh√§lt. 

In [None]:
#In diese Zelle kannst Du den Code zur √úbung schreiben




***

Anstatt *eines* Spaltennamens k√∂nnen wir auch eine Liste an Spaltennamen √ºbergeben, um auf mehrere Spalten gleichzeitig zuzugreifen:

In [None]:
two_columns = songkorpus[["Token", "Jahr"]].head() #beachte die inneren eckigen Klammern f√ºr die Liste!
two_columns

√úberlege Dir kurz, was f√ºr ein Datentyp `two_columns` hat. 

Genau: Nun haben wir nicht mehr nur eine Spalte, in der Zeilenwert um Zeilenwert in einer Dimension gespeichert ist, sondern zwei Spalten. `two_columns` ist also immer noch ein zweidimensionales Objekt, sprich ein DataFrame:

In [None]:
print(type(two_columns))

Nun wissen wir, wie wir auf Spalten zugreifen k√∂nnen. 

## Auf Zeilen zugreifen

Um auf Zeilen zuzugreifen, h√§ngen wir `.loc[index]` an das DataFrame an und √ºbergeben den Index der gew√ºnschten Zeile anstelle von `index`:

In [None]:
songkorpus.loc[777]

Verwende stets diese Syntax, um auf Zeilen zuzugreifen. 

Anf√§nger:innen versuchen oft, die Syntax `DataFrame[index]` zu verwenden. Das f√ºhrt aber zu einem `KeyError`, denn diese Syntax ist dem Spaltenzugriff vorbehalten (sollte der √ºbergebene `index` zuf√§lligerweise auch ein Spaltenname sein, erhalten wir keinen `KeyError`, aber die Ausgabe entspricht dann auch der jeweiligen Spalte, und nicht der gew√ºnschten Zeile).

Da wir blo√ü auf eine einzige Zeile zugreifen, in der Spaltenwert um Spaltenwert in einer Dimension gespeichert ist, liegt wieder der Datentyp Series vor:

In [None]:
print(type(songkorpus.loc[777]))

Zur Verdeutlichung: Sowohl eine Sequenz von Werten einer Spalte als auch eine Sequenz von Werten einer Zeile entsprechen bei pandas einer Series. Entscheidend ist blo√ü, dass nur eine einzige Dimension vorliegt. Sobald ein Objekt sowohl mehrere Spalten als auch mehrere Zeilen umfasst, handelt es sich um ein DataFrame.

Ein solches Objekt k√∂nnen wir auch √ºber `loc` erhalten, indem wir auf mehrere Zeilen gleichzeitig zugreifen. Dies funktioniert wie bei dem Zugriff auf mehrere Spalten (s.o), indem wir mehrere Indizes als Liste √ºbergeben.

In [None]:
print(type(songkorpus.loc[[777,888]])) #beachte die inneren eckigen Klammern f√ºr die Liste!
songkorpus.loc[[777,888]]

Zudem k√∂nnen wir auf mehrere aufeinanderfolgende Zeilen zugreifen, indem wir dieselbe Syntax wie bei Slicing verwenden:

In [None]:
songkorpus.loc[777:780] #keine inneren eckigen Klammern!

Im Gegensatz zu gew√∂hnlichem Slicing bei Listen wird der letzte Index bei Pandas miteingerechnet ("inklusiv", vgl. zweites Notebook).

Abschlie√üend sei erw√§hnt, dass Zeilen nicht zwingend mit *numerischen* Indizes durchnummeriert sein m√ºssen. Zeilen k√∂nnen wie Spalten ebenfalls Namen haben. Dieses Szenario wollen wir in der n√§chsten √úbung mit denselben Daten durchspielen.

***

‚úèÔ∏è **√úbung 2:** 

1. Lies die Datei `songkorpus_tokens.tsv` abermals ein und √ºbergib beim Erstellen des DataFrames zus√§tzlich den Parameter `index_col=0`. Dadurch wird die erste Spalte (mit dem Index 0), also diejenige mit den Tokens, zur sog. *Index-Spalte*. Jede Zeile hat nun statt eines numerischen Index einen Namen, n√§mlich das jeweilige Token. Weise das DataFrame der Variablen `songkorpus_labelled_rows` zu. 
2. Benenne die Spalten wie bei `songkorpus` um. Falls Du hier eine Fehlermeldung kriegst, lies sie aufmerksam und passe Deinen Code entsprechend an.
3. √úberlege Dir, was die Tatsache, dass wir nun Tokens als Zeilennamen verwenden, zur Konsequenz hat. Experimentiere dazu gerne mit dem DataFrame herum und greife auf verschiedene Zeilen √ºber Namen zu. 

In [None]:
#In diese Zelle kannst Du den Code zur √úbung schreiben




***

Im Gegensatz zu Spaltennamen (und Schl√ºsseln bei dictionaries) d√ºrfen Zeilennamen mehrfach vorkommen. Der Zugriff auf eine oder mehrere Zeilen funktioniert ungeachtet dessen gleich wie bei DataFrames, die mit numerischen Indizes durchnummeriert sind, also mittels `.loc[index]`.

***

‚úèÔ∏è **√úbung 3:** Setze die Tatsache, dass Zeilennamen mehrfach vorkommen d√ºrfen, produktiv ein und finde heraus, wie oft "Dresden" in `songkorpus_labelled_rows` vorkommt, indem Du die H√§ufigkeiten in allen Jahren, in denen das Wort gesungen wird, zusammenz√§hlst.

üí° Tipp: Der erste Schritt besteht darin, aus dem gesamten DataFrame `songkorpus_labelled_rows` ein kleineres, sog. *Sub-DataFrame* zu erstellen, das mit einer neuen Variablen referenziert wird. Der zweite Schritt besteht darin, eine Series aus diesem Sub-DataFrame "herauszuschneiden", die Du anschlie√üend wie eine Liste behandeln kannst, um schlie√ülich zur Anzahl der Nennungen von "Dresden" zu gelangen.

In [None]:
#In diese Zelle kannst Du den Code zur √úbung schreiben




***

## Auf Spalten *und* Zeilen zugreifen

`loc` k√∂nnen wir ebenfalls verwenden, um gleichzeitig anzugeben, auf welche Spalte(n) und Zeile(n) wir bei einem DataFrame zugreifen m√∂chten. Auf den Zeilenindex folgt nach einem Komma der gew√ºnschte Spaltenname:

In [None]:
print(songkorpus.loc[10, "Jahr"])

"""Randbemerkung: Auf die Spitze getrieben, k√∂nnen wir mit .loc auch nur auf Spalten zugreifen, n√§mlich, indem wir, 
wie bei Listen-Slicing auch m√∂glich, durch Weglassen eines Start- und Endindex s√§mtliche Zeilen ansprechen, sprich so: 
songkorpus.loc[:, "Jahr"]"""

Neben der Herangehensweise √ºber `loc` besteht auch die M√∂glichkeit erst wie oben gelernt auf eine spezifische Spalte bzw. eine spezifische Zeile zuzugreifen, was in einer Series resultiert, und in dieser Series anschlie√üend auf eine bestimmte Zeile bzw. eine bestimmte Spalte zuzugreifen (z.B. `songkorpus["Token"][22]`). Obige Syntax mit `loc` ist diesen sog. "chained assignments" (etwa: Kettenaufgabe) jedoch vorzuziehen.

Wie immer k√∂nnen wir auch Listen √ºbergeben, um auf mehrere Spalten und/oder mehrere Zeilen gleichzeitig zuzugreifen. Beim Zeilenzugriff funktioniert sowohl eine Liste einzelner Indizes...

In [None]:
songkorpus.loc[[9999,10000], ["Token", "H√§ufigkeit"]]

...als auch die slicing√§hnliche Syntax f√ºr eine Sequenz an Zeilen:

In [None]:
songkorpus.loc[9999:10005, ["Token", "H√§ufigkeit"]] 

Nun wissen wir, wie wir auf beliebige (Kombinationen) von Spalte(n) und Zeile(n) zugreifen k√∂nnen. Als N√§chstes m√∂chten wir unseren Daten erweitern, indem wir eine Spalte hinzuf√ºgen:

## Spalten hinzuf√ºgen

Eine einzelne Spalte entspricht ja einer Series und Series wiederum kommen Listen sehr nahe. Deshalb k√∂nnen wir zur Definition einer neuen Spalte ganz einfach eine Liste √ºbergeben, deren L√§nge nat√ºrlich der Anzahl an Zeilen des DataFrames entsprechen muss.

Sagen wir, wir h√§tten gerne eine neue Spalte, in der das Jahrzehnt gespeichert wird, in der das jeweilige Token gesungen wurde. Die einzelnen Jahre haben wir schon, nun wollen wir aber jeweils zehn Jahre zu einem Jahrzehnt b√ºndeln. 

Dazu k√∂nnen wir in gewohnter Python-Manier √ºber die Spalte "Jahr" in `songkorpus` iterieren (auch bei der Iteration zieht die Analogie Series ‚Äì Liste!), auf den jeweiligen Wert in der Spalte "Jahr" zugreifen, ihn in einen string casten und das Jahr reduziert auf das Jahrzehnt einer neuen Liste anh√§ngen:

In [None]:
decades = []
for year in songkorpus["Jahr"]:
    """Casten in einen string ist erforderlich, da sich Slicing nur auf sequentielle Objekte anwenden l√§sst 
    (Ganzzahlen geh√∂ren nicht dazu, vgl. zweites Notebook) und nur strings miteinander konkateniert werden k√∂nnen."""
    decade = str(year)[:-1] + "0"
    decades.append(decade)

Anschlie√üend m√ºssen wir nur noch eine neue Spalte in `songkorpus` definieren und ihr die Liste `decades` zuweisen. Das Erstellen einer neuen Spalte erfolgt genau gleich wie das Definieren eines neuen Schl√ºssels bei einem dictionary:

In [None]:
songkorpus["Jahrzehnt"] = decades
songkorpus.head()

Recht simpel.

***

‚úèÔ∏è **√úbung 4:**

F√ºge `songkorpus` eine weitere Spalte mit dem Namen "L√§nge" hinzu, in der die Anzahl Buchstaben je Token steht.

In [None]:
#In diese Zelle kannst Du den Code zur √úbung schreiben




***

‚úèÔ∏è **√úbung 5:** Vereinfache den Code von oben, mit dessen Hilfe wir die Spalte "Jahrzehnt" hinzugef√ºgt haben, indem Du ihn mittels List Comprehension (vgl. viertes Notebook) auf eine einzige Zeile reduzierst. Hole den Abschnitt zu List Comprehensions nach, falls Du ihn damals ausgelassen hast, da er als fortgeschritten markiert war.

Hinweis: `songkorpus` verf√ºgt ja bereits √ºber eine Spalte mit dem Namen "Jahrzehnt". Indem Du das Resultat Deiner List Comprehension `songkorpus["Jahrzehnt"]` zuweist, √ºberschreibst du die befindliche Spalte ganz einfach.

In [None]:
#In diese Zelle kannst Du den Code zur √úbung schreiben




***

Sehr gut. Zus√§tzlich zum klassischen `for`-Loop und der List Comprehension lernen wir weiter unten eine dritte, pandas-eigene Methode kennen, mit der wir den modifizierten Inhalt einer Spalte in eine andere schreiben k√∂nnen.

Schauen wir uns nun an, wie wir Zeilen zu einem DataFrame hinzuf√ºgen k√∂nnen.

## Zeilen hinzuf√ºgen

Auch neue Zeilen k√∂nnen wir einem DataFrame als Liste hinzuf√ºgen. Die L√§nge der Liste muss wiederum der Anzahl an Spalten entsprechen. 

Dies ist bei `new_row` in der n√§chsten Zelle nur der Fall, wenn Du in der √úbung oben eine f√ºnfte Spalte namens "L√§nge" hinzugef√ºgt hast. Um sicherzustellen, dass `songkorpus` im Weiteren alle notwendigen Spalten umfasst, f√ºgt die erste Zeile die Spalte "L√§nge" mittels List Comprension hinzu (bzw. √ºberschreibt eine bereits vorhandene).

In [None]:
songkorpus["L√§nge"] = [len(str(token)) for token in songkorpus["Token"]]
new_row = ["Fantasiewort", 2023, 800, 2020, 12]

`new_row` k√∂nnen wir `songkorpus` nun unter Verwendung der bereits bekannten `.loc[index]`-Syntax hinzuf√ºgen. Als `index` geben wir schlicht den letzten numerischen Index + 1 an, was der L√§nge von `songkorpus` entspricht (die numerischen Indizes fangen ja bei 0 an):

In [None]:
songkorpus.loc[len(songkorpus)] = new_row
songkorpus.tail()

Wenn Du diese Zelle mehrfach ausf√ºhrst, wird `new_row` jedes einzelne Mal hinzugef√ºgt. Schlie√ülich entspricht `len(songkorpus)` jedes Mal dem letzten numerischen Index + 1. 

Anstatt eine Zeile am Ende eines DataFrames hinzuzuf√ºgen, kannst Du die gleiche Syntax verwenden, um eine bestimmte, bereits existierende Zeile zu √ºberschreiben. Das tun wir hier aber nicht, da wir mit den originalen Daten weiterarbeiten m√∂chten. Entsprechend wollen wir die letzte(n) Zeile(n) mit Fantasiew√∂rtern auch wieder entfernen.

## Spalten und Zeilen entfernen

Zu diesem Zweck gibt es die `drop`-Methode, die wir sowohl zum Entfernen von Spalten als auch Zeilen benutzen k√∂nnen. Als erstes Argument √ºbergeben wir ihr den Namen der zu entfernenden Spalte bzw. den numerischen Index (oder Namen, s.o.) der zu entfernenden Zeile. Um mehrere Spalten oder Zeilen zu entfernen, k√∂nnen jeweils auch Listen √ºbergeben werden. Anschlie√üend spezifizieren wir mithilfe des `axis`-Parameters, ob es sich um eine Spalte oder eine Zeile handelt, die entfernt werden soll. `axis=1` steht f√ºr Spalten und `axis=0` f√ºr Zeilen (was der Standardwert ist und nicht zwingend angegeben werden muss). Die Syntax mit Standardwerten lautet also folgenderma√üen:

`DataFrame.drop(index_or_name, axis=0)`

***

‚úèÔ∏è **√úbung 6:** F√ºhre die Zelle oben, in der wir `songkorpus` Zeilen mit Fantasiew√∂rtern hinzugef√ºgt haben, noch ein paar Mal aus, ohne darauf zu achten wie oft. Verwende nun `drop` in einer geeigneten Kontrollstruktur (vgl. drittes Notebook) sowie die anfangs eingef√ºhrte Variable `original_len`, um die Fantasiew√∂rter wieder zu entfernen und `songkorpus`, was die Anzahl an Zeilen betrifft, wieder in seinen Originalzustand zu bringen. 

In [None]:
#In diese Zelle kannst Du den Code zur √úbung schreiben




***

Wunderbar! 

## Deskriptive Statistiken

Einige der Spalten in `songkorpus` enthalten ja numerische Werte, konkret die Spalten "Jahr", "H√§ufigkeit" und "L√§nge" (die Werte in "Jahrzehnt" haben wir als string abgespeichert, s.o.). Numerischen Werten n√§hern wir uns am besten √ºber despriptive Statistiken, also etwa √ºber Minimal- und Maximalwerte.

Pandas bietet daf√ºr eine Reihe n√ºtzlicher Methoden: Angewandt auf eine Spalte, gibt `min` den kleinsten Wert darin zur√ºck, `max` den gr√∂√üten, `mean` den Durchschnitt, `median` den Median und `sum` die Summe aller Werte. 

Bevor wir dies tun, stellen wir noch sicher, dass die oben hinzugef√ºgten Zeilen auch wirklich nicht mehr vorhanden sind, schlie√ülich soll das achthundertfach vorkommende "Fantasiewort" unsere Statistiken nicht verzerren. Anstatt mit der `drop`-Methode von oben, w√§hlen wir hier einen anderen Weg, n√§mlich Slicing:

In [None]:
songkorpus = songkorpus[:original_len]

print(songkorpus["H√§ufigkeit"].min())
print(songkorpus["H√§ufigkeit"].max())
print(songkorpus["H√§ufigkeit"].mean())
print(songkorpus["H√§ufigkeit"].median())
print(songkorpus["H√§ufigkeit"].sum())

Wenig √ºberraschend ist 1 der kleinste Wert in der Spalte "H√§ufigkeit". W√∂rter, die gar nie vorkommen, befinden sich ja nicht im Datensatz. 

Spannend ist jedoch, zu erfahren, dass das meistgesungene Token 2007 Mal in einen bestimmten Jahr vorkommt. Interessant ist auch, dass der Durchschnitt zwar bei fast 6 Nennungen liegt, mindestens die H√§lfte aller Werte jedoch genau 1 sind. Der Median ist ja der Wert, der genau in der Mitte aller "aufgereihten" Werte steht: links von ihm k√∂nnen also nur weitere Einsen stehen, in der Mitte steht selbst auch eine 1. Diese Logik funktioniert nat√ºrlich nur, weil wir wissen, dass alle Werte in dieser Spalte Ganzzahlen sind.

Einen kompakten √úberblick √ºber diese und ein paar weitere Statistiken liefert auch `describe`:

In [None]:
songkorpus["H√§ufigkeit"].describe() #entgegen ihrer Bezeichnung liefert describe auch die nicht-deskriptive, sondern inferentielle Standardabweichung (std)

Dabei lernen wir u.a., dass drei Viertel aller Tokens nur maximal drei Mal in einem bestimmten Jahr vorkommen.

`describe` l√§sst sich nicht nur auf eine Series, sondern auch auf ein DataFrame anwenden, wobei wir die Statistiken nur bei Spalten mit numerischen Werten zur√ºckerhalten:

In [None]:
songkorpus.describe()

Sehr n√ºtzlich ist auch die `value_counts`-Methode, die s√§mtliche Werte in einer Spalte ausz√§hlt und uns eine Art Frequenzw√∂rterbuch zur√ºckgibt. Die Methode liefert also genau das, was wir im f√ºnften Notebook manuell f√ºr die 100 fl√§chengr√∂√üten Gemeinden Deutschlands errechnet haben:

In [None]:
songkorpus["Jahrzehnt"].value_counts()

Die Zehnerjahre sind dieser Auswertung zufolge am h√§ufigsten vertreten im `songkorpus`. 

Da absolute Zahlen oft schwer miteinander zu vergleichen sind, bietet `value_counts` auch die M√∂glichkeit, die Werte zu normalisieren, d.h. relativ auszugeben. Dazu spezifizieren wir ganz einfach `normalize=True`:

In [None]:
songkorpus["Jahrzehnt"].value_counts(normalize=True)

So l√§sst sich leicht ablesen, dass fast die H√§lfte aller Tokens in `songkorpus` aus den Nuller- und Zehnerjahren stammen. Dieses Ungleichgewicht m√ºssen wir bei k√ºnftigen Analysen im Hinterkopf behalten.

***

‚úèÔ∏è **√úbung 7:** Mithilfe von `describe` haben wir oben herausgefunden, dass die durchschnittliche Wortl√§nge in `songkorpus` 6.88 Buchstaben betr√§gt. Die maximale Wortl√§nge betr√§gt hingegen sagenhafte 53 Buchstaben. Die Verteilung scheint alles andere als gleichm√§√üig zu sein, was wir auch an den sog. *Quartilen* 25% und 75% sehen (Quartile werden wie der Median berechnet, nur geht es nicht um den Mittelwert sondern um die Werte nach einem Viertel bzw. drei Vierteln aller aufgereihten Werte). Finde heraus, welche Wortl√§ngen f√ºr jeweils mindestens 10 % aller W√∂rter gelten. Finde ebenfalls heraus, welche Wortl√§ngen f√ºr jeweils maximal 1 % aller W√∂rter gelten.

üí° Tipp: Einer von verschiedenen denkbaren L√∂sungswegen involviert die Tatsache, dass DataFrames und Series mit dictionaries verwandt sind und sich auch in ein solches casten lassen.

In [None]:
#In diese Zelle kannst Du den Code zur √úbung schreiben




*** 

Zwei weitere hilfreiche Methoden sind `nlargest` und `nsmallest`, die das DataFrame nach einer bestimmten Spalte (spezifiziert als zweites Argument) sortieren und die *n* (spezifiziert als erstes Argument) obersten bzw. untersten Zeilen ausgibt. Folgender Code liefert also die obersten zehn Zeilen eines nach der Spalte "H√§ufigkeit" absteigend sortierten DataFrames:

In [None]:
songkorpus.nlargest(10, "H√§ufigkeit")

Wasser auf die M√ºhlen der Selbstbezogenheitsthese! üòÖ

Nat√ºrlich k√∂nnen wir ein DataFrame auch als Ganzes sortieren, anstatt blo√ü die *n* obersten bzw. untersten Zeilen zur√ºckzukriegen.

## Werte sortieren

Dazu benutzen wir die Methode `sort_values`, der wir als erstes Argument die Spalte √ºbergeben, anhand derer wir sortieren wollen, und als zweites Argument die Richtung der Sortierung, wobei `ascending=True` f√ºr aufsteigend (Standardwert) und `ascending=False` f√ºr absteigend steht.

Folgender Code sortiert `songkorpus` aufsteigend nach der Spalte "Jahr":

In [None]:
songkorpus = songkorpus.sort_values("Jahr", ascending=True)
songkorpus.head()

Nach der Verwendung von `sort_values` lohnt es sich i.d.R., den Index des DataFrames, der ja durch die Sortierung ganz durcheinander geraten ist, zur√ºckzusetzen. Dies k√∂nnen wir mithilfe von `reset_index` tun. Zus√§tzlich spezifizieren wir, dass der alte Index gel√∂scht werden soll (`drop=True`), andernfalls wird er in einer neuen Spalte gespeichert):

In [None]:
songkorpus = songkorpus.reset_index(drop=True)
songkorpus.head()

W√ºrden wir den Index nicht zur√ºcksetzen, bek√§men wir beim Zeilenzugriff √ºber `loc` u.U. nicht die Ergebnisse zur√ºck, die wir erwarten. Etwa erhielten wir √ºber `songkorpus.loc[0]` nicht die erste Zeile des neuen DataFrames zur√ºck, sondern die erste Zeile des alten, unsortierten DataFrames. Das liegt daran, dass Zeilen ihre Indizes bei der Sortierung standardm√§√üig behalten. Dieses Verhalten wird verst√§ndlicher, wenn Du Dir vorstellst, Du w√ºrdest `songkorpus_labelled_rows` sortieren. 

Wenn wir weder an der H√§ufigkeitsverteilung aller Werte in einer bestimmten Spalte (`value_counts`), noch an deren Reihenfolge (`nlargest`, `nsmallest` und `sort_values`) interessiert sind, sondern an der blo√üen Existenz eines Wertes (egal wie oft er auftritt), gibt es eine weitere praktische Methode.

## Einzigartige Werte

N√§mlich `unique`, das √§hnlich wie die Python-Funktion `set` (vgl. zweites Notebook) alle einzigartigen Werte in einer bestimmten Spalte zur√ºckgibt:

In [None]:
songkorpus["Jahr"].unique()

***

‚úèÔ∏è **√úbung 8:** Wir wissen bereits, wieviele Tokens in unserem DataFrame vorkommen, n√§mlich 386.510. Finde heraus, wieviele einzigartige Token, also Types (vgl. viertes Notebook) es gibt.

In [None]:
#In diese Zelle kannst Du den Code zur √úbung schreiben




***

## DataFrame filtern 

Als n√§chstes wollen wir herausfinden, wie wir ein DataFrame filtern k√∂nnen. Die grundlegende Syntax sieht wie folgt aus:

`DataFrame[filter]`

`filter` wiederum kann unterschiedlich ausschauen, je nach dem, wie wir unser DataFrame filtern wollen. Ein einfaches Beispiel f√ºr `filter` sieht so aus:

`DataFrame[column] == value`

Dieser Filter verlangt, dass bei `DataFrame` in der Spalte `column` exakt der Wert `value` steht.

F√ºgen wir diesen Filter in der obigen Syntax ein und schaffen ein Sub-DataFrame, das alle Zeilen des `songkorpus` beinh√§lt, in denen in der Spalte `Token` das Wort "Liebe" steht:

In [None]:
liebe = songkorpus[songkorpus["Token"] == "Liebe"]
liebe.head(5)

Das klappt wunderbar. Spiel gerne mit anderen Begriffen herum.

***

‚úèÔ∏è **√úbung 9:** Erstelle ein Sub-DataFrame, das nur Tokens beinh√§lt, die mindestes 20 Zeichen lang sind.

In [None]:
#In diese Zelle kannst Du den Code zur √úbung schreiben




***

Abgsehen von Vergleichsoperatoren (`==`, `!=`, `>`, `<`, `>=` und `<=`, vgl. erstes Notebook) bei numerischen Werten (alle Operatoren) bzw. strings (nur die ersten beiden) k√∂nnen wir bei strings auch andere Methoden in den Filter einbauen. Pandas bietet sowohl solche an, die wir bereits von gew√∂hnlichen strings kennen (vgl. viertes Notebook), als auch ein paar eigene. Wichtig ist, dass die Methoden die Boolschen Werte `True` oder `False` zur√ºckgeben. Das hei√üt, `startswith` funktioniert, `split` hingegen nicht. String-Methoden bei pandas beginnen immer mit `str`, gefolgt von der Methode, also etwa `str.startswith()`. Au√üerdem m√ºssen wir ihnen in einigen F√§llen den Parameter `na=False` √ºbergeben. Hier ein paar Beispiele:

In [None]:
liebe_startswith = songkorpus[songkorpus["Token"].str.startswith("liebe", na=False)] #wie normale string-Methode in Python
liebe_endswith = songkorpus[songkorpus["Token"].str.endswith("liebe", na=False)] #wie normale string-Methode in Python
liebe_contains = songkorpus[songkorpus["Token"].str.contains("liebe", na=False)] #pandas-eigene Methode

print(len(liebe_startswith), len(liebe_endswith), len(liebe_contains))
liebe_contains

***

‚úèÔ∏è **√úbung 10:** Erstelle das gleiche Sub-DataFrame wie in √úbung 9 (also eines, das nur Tokens beinh√§lt, die mindestes 20 Zeichen lang sind), allerdings ohne dabei die Spalte "L√§nge" zu bem√ºhen. Du kannst dazu eine Methode verwenden, die auch bei normalen strings funktioniert. Stelle sicher, dass die Ergebnisse der beiden √úbungen identisch sind.

In [None]:
#In diese Zelle kannst Du den Code zur √úbung schreiben




***

Gut zu wissen: Filter k√∂nnen auch miteinander kombiniert werden. Dazu verwenden wir die logischen Operatoren aus dem vierten Notebook, die bei pandas allerdings in einem anderen Gewand daherkommen:

- `&` steht f√ºr f√ºr `and`
- `|` steht f√ºr `or` 

Au√üerdem steht `~` steht f√ºr `not` und kann zur Negation eines in runde Klammern gesetzten, einzelnen Filters benutzt werden.

Unter Verwendung von `&` k√∂nnen wir beispielsweise alle (potenziellen) regelm√§√üigen Partizip II-Formen extrahieren:

In [None]:
songkorpus[songkorpus["Token"].str.startswith("ge", na=False) & songkorpus["Token"].str.endswith("t", na=False)]

Bedenke, dass auch falsch positive Ergebnisse dabei sein k√∂nnten sowie, dass falsch negative fehlen k√∂nnten (vgl. f√ºnftes Notebook).

Nun wissen wir, wie wir ein DataFrame filtern k√∂nnen. 

## Werte z√§hlen

Dieses Wissen k√∂nnen wir auch einsetzen, um spezifische Werte ‚Äì im Gegensatz zu allen Werten wie bei `value_counts` oben ‚Äì in einer Spalte auszuz√§hlen:

In [None]:
len(songkorpus[songkorpus["Token"] == "Wunderkind"])

Wir filtern also das DataFrame ("alle Zeilen, in denen 'Wunderkind' in der Spalte 'Token' steht") und lassen uns ganz einfach seine L√§nge (sprich die Anzahl an Zeilen) ausgeben.

## Werte bearbeiten

Auch zum Bearbeiten von Werten ben√∂tigen wir nur bereits erlerntes Wissen. Grunds√§tzlich k√∂nnen wir alles von einem kompletten DataFrame, √ºber eine Series (in Form einer Spalte oder Zeile) bis hin zu einzelnen, spezifischen Werten bearbeiten. 

Die M√∂glichkeiten der Bearbeitung h√§ngen nat√ºrlich vom Datentyp der Werte ab. In unserem DataFrame haben wir einerseits strings und andererseits numerische Werte und Spalten weisen jeweils einen homogen Datentyp auf.

Die Logik ist unabh√§ngig davon, was wir wie bearbeiten, immer die gleiche: Wir greifen auf den gew√ºnschten Ausschnitt des DataFrames zu (s.o.) und √ºberschreiben ihn mit demselben Ausschnitt in bearbeiteter Form. Anstatt √úberschreiben k√∂nnen wir die bearbeiteten Werte nat√ºrlich immer auch einer neuen Spalte oder Zeile (desgleichen oder eines neuen DataFrames) zuweisen, sofern die jeweiligen Dimensionen √ºbereinstimmen  (s.o.). 

### Strings

Auf strings angewandt, sieht das so aus, wenn wir etwa alle Tokens kleinschreiben wollen. Auch hier setzen wir `str` vor die pandas-string-Methode:

In [None]:
songkorpus["Token"] = songkorpus["Token"].str.lower()
songkorpus

Diese einzeilige Syntax hat es in sich: Man kann sie sich in gewohnter Python-Logik wie eine Iteration vorstellen: Im vorliegenden Fall wird Wort f√ºr Wort (in der Spalte "Token") kleingeschrieben. Mit dem Resultat wird die Spalte √ºberschrieben. Sie ist dennoch nicht mit einer List Comprehension, die ja auch nur eine einzige Zeile ben√∂tigt, zu verwechseln. Denn im Gegensatz zu pythonischen `for`-Loops und ihre simplifizierte Version List Comprehension, wird der Code mit der pandas-eigenen Syntax oft wesentlich schneller berechnet (teils √ºber 1000 Mal schneller!). Grund daf√ºr ist die sog. *Vektorisierung*. Ganz einfach forumuliert wird dabei dieselbe Operation nicht auf ein Element nach dem anderen angewandt (wie bei `for`-Loops), sondern auf mehrere gleichzeitig. Au√üerdem sind pandas-Operationen im Gegensatz zu nativem Python-Code (`for`-Loops) speziell auf Effizienz ausgelegt. Wenn Du Dich daf√ºr interessierst, findest Du u.a. in [diesem Artikel](https://medium.com/analytics-vidhya/understanding-vectorization-in-numpy-and-pandas-188b6ebc5398) und [diesem Video](https://www.youtube.com/watch?v=nxWginnBklU) Ankn√ºpfungspunkte. Weiter unten folgen √úbungen zum Vergleich von nativem Python-Code und pandas-Code.

Zus√§tzlich zu den bisher verwendeten string-Methoden `lower`, `startswith`, `endswith` und `len` bietet pandas u.a. folgende an, die allesamt wie ihre nativen Python-Pendants funktionieren (vgl. viertes Notebook): 
- `upper`, `capitalize`, `swapcase`, `isupper` und `islower` zur Bearbeitung/√úberpr√ºfung von Gro√ü-/Kleinschreibung der strings.
- `split` zum Splitten der strings, optional mit dem Parameter `expand=True`, um jedem unterteilten Element eine neue Spalte zuzuweisen.
- `replace` zum Ersetzen aller Vorkommen eines strings/regul√§ren Ausdrucks (hier zus√§tzlich `regex=True` spezifizieren) mit einem anderen string.
- `count` zum Berechnen der Auftretensh√§ufigkeit eines strings/regul√§ren Ausdrucks in den strings.
- `strip`, `lstrip` und `rstrip` zum Entfernen von (leading/trailing) whitespace in den strings.

Neben `contains` (s.o.) ist au√üerdem `slice` eine n√ºtzliche pandas-string-Methode, die abweichend von ihrem nativen Python-Pendant hei√üt: `slice` mit den Argumentenen `start`, `stop`, `step` implementiert die Funktionalit√§t der eckigen Klammern, die wir bei normalen Python-strings zum Slicen verwenden.

[Hier](https://pandas.pydata.org/docs/user_guide/text.html) findest Du mehr Infos zu s√§mlichen string-Methoden bei pandas. Denke stets daran, `str` vor die jeweilige string-Methode zu h√§ngen!

Eine letzte praktische Methode ist `isin(list)`. Sie √ºberpr√ºft, ob ein Wert Element der √ºbergebenen Liste ist und gibt eine Series mit Boolschen Werten zur√ºck. `isin` l√§sst nicht nur bei strings anwenden, deshalb h√§ngen wir auch kein `str` davor.

### Numerische Werte

Bei numerischen Werten wiederum k√∂nnen wir ganz einfach arithmetische Operatoren (vgl. erstes Notebook) verwenden, etwa um alle Werte einer Spalte zu verdoppeln:

In [None]:
#f√ºhre diese Zeile nur einmal aus, denn mit jedem Mal verdoppeln sich die Werte
songkorpus["H√§ufigkeit"] = songkorpus["H√§ufigkeit"] * 2
songkorpus

Hierf√ºr funktionieren auch die anderen uns bekannten arithmetischen Operatoren: ```+``` f√ºr Addition (eignet sich √ºberdies zur Konkatenation von strings), ```-``` f√ºr Subtraktion,  ```/``` f√ºr Division und ```**``` f√ºrs Potenzieren. 

### Datentyp √§ndern

Sollten Werte mal im falschen Datentyp vorliegen, kann man (sofern sinnvoll) die Methode `astype` verwenden, um Werte in den gew√ºnschten Datentyp zu casten. Wenn wir z.B. die H√§ufigkeiten wieder in den Originalzustand versetzen wollen, k√∂nnen wir erst alle Werte in der entsprechenden Spalte halbieren...

In [None]:
songkorpus["H√§ufigkeit"] = songkorpus["H√§ufigkeit"] / 2
songkorpus

...und, da Resultat einer Division immer Dezimalzahlen sind (s. Nachkommastelle), anschlie√üend in Ganzzahlen casten:

In [None]:
songkorpus["H√§ufigkeit"] = songkorpus["H√§ufigkeit"].astype(int)
songkorpus

***

‚úèÔ∏è **√úbung 11:** Oben haben wir die Spalte "Jahrzehnt" basierend auf den Jahreszahlen mithilfe eines `for`-Loops geschaffen. Gehe abermals von der Spalte "Jahr" aus, um eine neue Spalte "Jahrzehnt_ohne_Loop" zu schaffen, allerdings ‚Äì wie der Name verr√§t ‚Äì ohne daf√ºr einen Loop, auch nicht in Form einer List Comprehension, zu benutzen. Mit anderen Worten: Du sollst Pandas-Syntax daf√ºr einsetzen. Wenn Dein Code stimmt, ergibt die bereits geschriebene (derzeit auskommentierte) Zeile `True`.

üí° Tipp: Es sind dieselben einzelnen Schritte wie im `for`-Loop oben n√∂tig, allerdings formuliert in pandas-Syntax. Gegebenfalls musst Du in der [pandas-Dokumentation](https://pandas.pydata.org/docs/) nachschlagen, wie die jeweilige Syntax der pandas-Pendants ausschaut. 

In [None]:
#In diese Zelle kannst Du den Code zur √úbung schreiben


#print(songkorpus["Jahrzehnt"].equals(songkorpus["Jahrzehnt_ohne_Loop"]))

***

Sehr gut! Die simple Iteration von oben, die s√§mtliche Werte nacheinander auf dieselbe Weise bearbeitet, k√∂nnen wir also auch ganz einfach in vektorisierter Form nachbilden. 

### Bedingte Bearbeitung

`for`-Loops bieten aber nat√ºrlich viel mehr Funktionalit√§t. Etwa k√∂nnen wir bedingte Anweisungen einbauen, sodass die Werte je nach Bedingung unterschiedlich bearbeitet werden. Aber auch daf√ºr bietet pandas, oder besser gesagt *numpy* (eine weitere Bibliothek, die eng mit pandas verwoben ist) eine Funktion, die sich Vektorisierung zunutze macht. Auch numpy m√ºssen wir erst importieren (ggf. sogar noch zuerst installieren, s.o.), g√§ngigerweise weisen wir der Bibliothek den Namen `np` zu:

In [None]:
import numpy as np

Die Funktion hei√üt `where` und hat folgende Syntax:

`where(if, then, else)`

Als erstes Argument ("if") spezifizieren wir eine bedingte Anweisung, die bei jedem Wert entweder `True` oder `False` ergibt. Im Falle von `True` wird der Wert wie im zweiten Argument ("then") angegeben eingetragen bzw. bearbeitet. Andernfalls greift, was wir als drittes Argument ("else") definiert haben. 

Angenommen wir m√∂chten zus√§tzlich zur Spalte "Jahrzehnt" eine Spalte "Jahrhundert", k√∂nnen wir `where` folgenderma√üen dazu einsetzen:

In [None]:
#vor where steht wie gewohnt der Modulname, damit Python wei√ü, wo sich die Funktion befindet
songkorpus["Jahrhundert"] = np.where(songkorpus["Jahr"] < 2000, "20. Jhd.", "21. Jhd.")
songkorpus

Sehr gut! Bedenke, dass die Begriffe `if` und `else`, die wir bei bedingten Anweisungen in normalem Python verwenden, nicht ben√∂tigt werden. Die Logik ergibt sich einzig √ºber die Reihenfolge der Argumente in `where`.

In diesem Fall haben wir als "then" bzw. "else" ganz einfach strings √ºbergeben, die je nach dem in der neuen Spalte "Jahrhundert" eingetragen wurden. In der folgenden √úbung wollen wir bei "then" und "else" bestimmte Werte in der jeweilige Zeile bearbeiten.

***

‚úèÔ∏è **√úbung 12:** Bearbeite die Werte in der Spalte "Token" so, dass jedes Wort, das aus genau f√ºnf Buchstaben besteht, gro√ügeschrieben wird. Einfach weil wir's k√∂nnen! üòâ

In [None]:
#In diese Zelle kannst Du den Code zur √úbung schreiben




***

Super! 

F√ºr den Fall, dass Du mehrere bedingte Anweisungen aneinanderh√§ngen willst (`if`-`elif`-...-`else`) kannst Du statt `where` die Numpy-Funktion `select` benutzen. Wir setzen sie weiter unten noch ein.

### `apply` und `applymap`

Wie erw√§hnt ist die vektorisierte Art der Datenbearbeitung in pandas meistens √§u√üerst effizient. Es gibt aber F√§lle, in denen wir dennoch eine Funktion mit nativem Python-Code anwenden wollen. Entweder, weil pandas die ben√∂tigen Operationen nicht implementiert, oder weil es mit nativem Python-Code trotz allem effizienter ist (dazu gleich mehr).  

In jedem Fall bieten die Methoden `apply` und `applymap` die M√∂glichkeit, jede beliebige Funktion (und in der Verl√§ngerung auch jede beliebige Methode) auf eine Series oder gleich ein ganzes DataFrame anzuwenden. `apply` verwenden wir bei einer Series, `applymap` bei einem ganzen DataFrame. Angeh√§ngt an die Series bzw. das DataFrame √ºbergeben wir ihnen schlicht den Namen der gew√ºnschten Funktion. Es spielt keine Rolle, ob die Funktion aus der Grundausstattung von Python stammt, importiert wurde oder von Dir selbst geschrieben ist.

Machen wir es konkret, und zwar in zwei kleinen Experimenten. Wir wollen die gleiche Art der Datenbearbeitung je einmal vektorisiert implementieren, und einmal √ºber eine eigene Funktion, die wir mithilfe von `apply` auf die Daten *appli*zieren. Zum Verst√§ndnis: Rufen wir eine Funktion √ºber `apply` (oder `applymap`) auf, wird dieser wie bei einem `for`-Loop *Wert f√ºr Wert* √ºbergeben. Will hei√üen: Bei `apply` k√∂nnen wir nicht von der Verarbeitung mehrerer Daten auf einmal profitieren.

F√ºr das erste Experiment rufen wir ein DataFrame ins Leben, das aus einer Million Zeilen und zwei Spalten, "A" und "B", besteht. Das DataFrame bef√ºllen wir mit zuf√§lligen Zahlen zwischen 0 und 100 (unter Verwendung der numpy-Funktion `random.randint`). Insgesamt also ein ziemlich gro√ües DataFrame:

In [None]:
exp1 = pd.DataFrame(np.random.randint(0,100, size=(1000000,2)), columns=["A", "B"])
exp1.head()

Nun wollen wir eine dritte Spalte "C" schaffen, die ganz einfach das jeweilige Produkt der Werte in den Spalten "A" und "B" enth√§lt. In der ersten Zelle unten tun wir dies auf vektorisierte Weise, in der zweiten mithilfe einer eigenen Funktion und `apply`. Um zu messen, wie lange das jeweils dauert, verwenden wir das `time`-Modul aus der Grundausstattung von Python:

In [None]:
#Vektorisiert
import time
start = time.time() #Zeit zum Startpunkt

exp1["C"] = exp1["A"] * exp1["B"]
vectorized = time.time()-start #Zeit nach Beendigung der Berechnung minus Startzeit, ergibt Dauer

exp1.head()

In [None]:
#for-Loop
start = time.time() #Zeit zum Startpunkt

def multiply(row):
    return row["A"]*row["B"]

#dem Funktionsnamen (hier: multiply) folgen keine Klammern!
#axis=1 spezifiziert, dass wir die Funktion auf Spalten anwenden (s.o.)
exp1["C"] = exp1.apply(multiply, axis=1) 

for_loop = time.time()-start #Zeit nach Beendigung der Berechnung minus Startzeit, ergibt Dauer
exp1.head()

Die effektive Berechnungsdauer h√§ngt von verschiedenen Faktoren ab und variiert auch zwischen mehreren Durchg√§ngen. In jedem Fall aber sollte sich ein gro√üer Unterschied zeigen. Typischerweise ist die vektorisierte Berechnung mehrere Hundert Male schneller als die Verwendung einer eigenen Python-Funktion:

In [None]:
print("Vektorisiert:", vectorized, "\nfor-Loop", for_loop, "\nFaktor:", for_loop/vectorized)

Sehr eindrucksvoll! 

Gehen wir zum zweiten Experiment √ºber, indem wir wieder ein DataFrame mit einer Million Zeilen, aber nur einer Spalte, "Satz", schaffen. Diesmal bef√ºllen wir das DataFrame mit dem immergleichen string (unter Verwendung der numpy-Funktion `repeat`):

In [None]:
exp2 = pd.DataFrame(np.repeat("Dies ist ein nicht besonders langer Satz.", 1000000, axis=0), columns=["Satz"])
exp2.tail()

Hier wollen wir ebenfalls eine weitere Spalte schaffen. Sie soll ganz unspektakul√§r die Anzahl an W√∂rtern des jeweiligen strings in der Spalte "Satz" enthalten. In diesem konstruierten Beispiel ergibt dies selbstverst√§ndlich immer sieben. Die erste Zelle enth√§lt wieder die vektorisierte pandas-Variante, w√§hrend die zweite √ºber `apply` eine selbst geschriebene Funktion mit Python-Code aufruft.

In [None]:
#Vektorisiert
start = time.time()

exp2["L√§nge"] = exp2["Satz"].str.split().str.len()

vectorized = time.time()-start

exp2.head()

In [None]:
#for-Loop
start = time.time()

def split(sentence):
    return len(sentence.split())

#dem Funktionsnamen (hier: split) folgen keine Klammern!
exp2["L√§nge"] = exp2["Satz"].apply(split)
for_loop = time.time()-start

exp2.head()

Auch hier variieren die effektiven Berechnungszeiten mitunter stark, dennoch sollte sich zeigen, dass in diesem Fall die zweite Variante mit nativem Python-Code und `apply` um einiges schneller berechnet wird, selbst wenn der Faktor nicht gleich eindrucksvoll wie oben ist:

In [None]:
print("Vektorisiert:", vectorized, "\nfor-Loop", for_loop, "\nFaktor:", vectorized/for_loop)

Wir k√∂nnen festhalten, dass Vektorisierung bei Zahlen unglaublich effizient ist. Bei der Bearbeitung von strings hinken pandas-Operationen, jedenfalls bei gro√üen Datenmengen, nativem Python-Code hinterher. Es sei denn Du hast riesige Mengen an strings zu bearbeiten, empfiehlt sich der Einsatz von pandas-Operationen der Einheitlichkeit halber i.d.R. dennoch. 

***

‚úèÔ∏è **√úbung 13:** Caste s√§mtliche Werte in `songkorpus` in strings.

In [None]:
#In diese Zelle kannst Du den Code zur √úbung schreiben




***

## üîß Anwendungsfall: Wortverlaufskurven visualisieren üìà

Im Anwendungsfall f√ºr dieses Notebook wollen wir wie gesagt Wortverlaufskurven visualisieren. Das hei√üt, wir wollen die H√§ufigkeit, mit der ein beliebiges Wort auftritt, √ºber die Zeit hinweg darstellen. F√ºr die vier Personalpronomen "ich", "du", "er" und "sie" s√§he das z.B. wie in der kombinierten Grafik unten aus. Die linke Darstellung visualisiert die Daten nach einzelnen Jahren (wie der originale Datensatz), in der mittleren und rechten Darstellung werden die Daten aggregiert nach F√ºnfjahresabschnitten bzw. Zehnjahresabschnitten visualisiert. Einzelne Aussschl√§ge nach oben und unten werden so ausgeb√ºgelt und Trends sind leichter zu erkennen:

<img src="../3_Dateien/Grafiken_und_Videos/Wortverlaufskurve_kombiniert.png">

Deine Aufgabe ist es erst einmal, Code zu schreiben, der die linke Grafik f√ºr beliebige W√∂rter produziert. Die erforderliche Aggregation f√ºr die mittlere und rechte Darstellung schauen wir uns im Anschluss an den Anwendungsfall gemeinsam an. 

Wie im vierten und f√ºnften Notebook hast Du wieder die Wahl, den Anwendungsfall ohne weitere Anleitung in Angriff zu nehmen oder einer Schritt-f√ºr-Schritt-Anleitung zu folgen. In letzterem Fall kannst Du jetzt ans Ende der n√§chsten Code-Zelle springen. Wenn Du es alleine probieren m√∂chstest, dann analysiere das gew√ºnschte Resultat oben links und frage Dich, welche Daten wie und wo visualisiert werden. 

üí° Tipp 1: Die relativen H√§ufigkeiten pro Wort und Jahr liegen noch nicht in unserem DataFrame vor. Du musst sie also erst ausrechnen. √úberleg Dir genau, wie Du von den existierenden, absoluten H√§ufigkeiten zu den relativen H√§ufigkeiten pro Jahr kommst. Dazu seien zwei n√ºtzliche Methoden erw√§hnt (klicke auf ihren Namen, um zur offiziellen Dokumentation zu gelangen):
- [`groupby`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.groupby.html): Nach dem Motto "split-apply-combine" erlaubt Dir diese Methode, das DataFrame nach den Werten der Spalte "Jahr" zu gruppieren (aufzu*split*ten). Indem Du im gleichen Statement die `sum`-Methode auf die Spalte "H√§ufigkeit" jedes durch `groupby` entstehenden Sub-DataFrame anwendest (*apply*), erh√§ltst Du eine zusammengef√ºhrte Series (*combine*), die f√ºr jedes Jahr die Summe aller H√§ufigkeiten aller Tokens enth√§lt. Schau Dir diese Series genau an. 
- [`replace`](https://pandas.pydata.org/docs/reference/api/pandas.Series.replace.html): Diese Methode l√§sst sich auf eine Series (etwa eine Spalte in unserem DataFrame) anwenden und nimmt u.a. eine zweite Series als Argument (etwa eine durch `groupby([...])[...].sum()` entstandene). `replace` schaut dann, ob sich Indizes der zweiten Series als Werte in der ersten Series befinden und wenn ja, ersetzt sie diese durch die dazugeh√∂rigen Werte aus der zweiten Series. Die dictionary-Analogie von oben macht den Prozess greifbarer: `replace` ersetzt in der Series, auf die sie angewandt wird, Schl√ºssel durch ihre jeweiligen Werte aus der als Argument √ºbergebenen Series. 

üí° Tipp 2: Mach Dich in der [Dokumentation](https://matplotlib.org/stable/users/index.html) von matplotlib, der Bibliothek zum Visualisieren von Daten, schlau, wie Du die errechneten Werte visualisieren kannst. 

Beginne in jedem Fall damit, die Datei "songkorpus.tsv" neu einzulesen und die Spalten wie am Anfang des Notebooks umzubenennen. Dadurch stellst Du sicher, dass Du auch wirklich mit den urspr√ºnglichen Daten arbeitest.

Viel Erfolg! üôå

In [None]:
#In diese Zelle kannst Du den Code zur √úbung schreiben.





















*** 

**Schritt-f√ºr-Schritt-Anleitung**

1. Um sicherzugehen, dass wir wirklich mit den originalen Daten arbeiten, lies die Datei "songkorpus_token.tsv" abermals ein. 

In [None]:
#In diese Zelle kannst Du den Code zur Aufgabe schreiben.




2. Benenne die Spalten in "Token", "Jahr" und "H√§ufigkeit" um.

In [None]:
#In diese Zelle kannst Du den Code zur Aufgabe schreiben.




3. Im DataFrame verf√ºgen wir bislang nur √ºber absolute H√§ufigkeiten. Um die Werte zwischen einzelnen Jahren besser vergleichbar zu machen, wollen wir aber relative H√§ufigkeiten f√ºr die Visualisierung verwenden. Schaffe dazu eine Spalte "Relative H√§ufigkeit", die f√ºr jedes Token vermerkt, wie h√§ufig es in Relation zur Summe aller H√§ufigkeiten aller Tokens im gegebenen Jahr vorkommt. F√ºr diese Berechnung brauchst Du jeweils zwei Werte: erstens die absolute H√§ufigkeit (bereits in der Spalte "H√§ufigkeit") und zweitens die Summe aller H√§ufigkeiten aller Tokens im gegebenen Jahr.

     Verwende die Methode [`groupby`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.groupby.html) zur Berechnung der Summe aller H√§ufigkeiten pro Jahr. Nach dem Motto "split-apply-combine" erlaubt Dir diese Methode, das DataFrame nach den Werten der Spalte "Jahr" zu gruppieren (aufzu*split*ten). Indem Du im gleichen Statement die `sum`-Methode auf die Spalte "H√§ufigkeit" jedes durch `groupby` entstehenden Sub-DataFrame anwendest (*apply*), erh√§ltst Du eine zusammengef√ºhrte Series (*combine*), die f√ºr jedes Jahr die Summe aller H√§ufigkeiten aller Tokens enth√§lt. Weise die Series der Variablen `total_freq_per_year` zu und inspiziere sie.
    
    Um nun zur relativen H√§ufigkeit zu gelangen, musst Du f√ºr jedes Token in `songkorpus` den Wert in der Spalte "H√§ufigkeit" durch die jeweilige Summe an H√§ufigkeiten im gegebenen Jahr teilen. Da wir letzteren Wert in einer anderen Series (n√§mlich in `total_freq_per_year`) vorliegen haben, m√ºssen wir zu einem Trick greifen: Wende die `replace`-Methode auf die Spalte "Jahr" an und √ºbergib ihr `total_freq_per_year`. Wir machen uns hier den Umstand zunutze, dass eine Series wie ein dictionary funktioniert. Will hei√üen: `replace` ersetzt kurzerhand jedes Jahr (Schl√ºssel) durch die jeweilige Summe der H√§ufigkeiten pro Jahr (Wert).

In [None]:
#In diese Zelle kannst Du den Code zur Aufgabe schreiben.




4. Installiere ggf. `matplotlib` √ºber das Terminal oder die Eingabeaufforderung und importiere anschlie√üend `matplotlib.pyplot as plt` (wieder so eine g√§ngige Abk√ºrzung). matplotlib ist die Bibliothek, die wir zum Visualisieren unserer Daten verwenden. Mithilfe der Funktion `plot(x, y)` (denk an den Modulnamen davor) k√∂nnen wir einfach Grafiken produzieren. `x` ist dabei eine Liste oder Series an Werten, die auf der x-Achse abgebildet werden sollen und `y` eine Liste oder Series derjenigen Werte, die auf der y-Achse dargestellt werden sollen. `x` und `y` m√ºssen gleich lange sein. Konkret wird der erste Punkt in der Grafik bei den Koordinaten `x[0]` und `y[0]` eingezeichnet, der zweite bei `x[1]` und `y[1]`, etc. Standardm√§√üig werden die einzelnen Punkte wie oben zu einem Graphen verbunden. Schau in den Beispieldarstellungen oben, welche Werte wir entlang der x-Achse bzw. entlang der y-Achsen plotten wollen. 

In [None]:
#In diese Zelle kannst Du den Code zur Aufgabe schreiben.




5. Definiere eine Liste an W√∂rtern, die Du visualisieren m√∂chtest. Diesen Schritt kannst Du auch interaktiv umsetzen, sodass Du bei jeder Ausf√ºhrung aufgefordert wirst, W√∂rter zur Visualisierung anzugeben.

In [None]:
#In diese Zelle kannst Du den Code zur Aufgabe schreiben.




6. Plotte nun nacheinander eine Verlaufskurve f√ºr jedes Wort auf der Liste. Gehe dazu f√ºr jedes Wort wie folgt vor:
    - Schaffe ein Sub-DataFrame, in dem in der Spalte "Token" nur das gegebene Wort steht.
    - Sortiere das Sub-DataFrame aufsteigend nach der Spalte "Jahr" und setze den Index anschlie√üend zur√ºck.
    - √úbergib der `plot`-Funktion die relevanten Spalten des Sub-DataFrames an Stelle von `x` und `y`. √úbergib als drittes Argument den string "o-", der den Stil des Graphen (Linie mit Punkten) definiert.

7. Nachdem Du alle W√∂rter der Liste entsprechend geplotted hast, kannst Du **in derselben Zelle** folgende Funktionen verwenden, um den Plot zu verfeinern:
    - `title`, um einen Titel zu setzen.
    - `xlabel` und  `ylabel`, um die Achsen zu beschriften.
    - `xlim`, um der x-Achse Grenzen zu setzen, z.B. von 1969 bis 2022 (dies vereinheitlicht die Plots, da diese sonst automatisch an den Wertebereich der zu plottenden W√∂rter angepasst wird und der Plot dadurch mitunter anders beschnitten sein kann).
    - `legend`, um eine Legende einzuf√ºgen, indem Du der Funktion die Liste mit W√∂rtern √ºbergibst

In [None]:
#In diese Zelle kannst Du den Code zur Aufgabe schreiben.




***

Super! ü§©

Bevor wir uns zum Abschluss noch den Output von DataFrames anschauen, wollen wir die Daten wie gesagt zu gr√∂√üeren Zeiteinheiten aggregieren, und zwar zu Zehn- und F√ºnfjahresabschnitten.

Auch hier laden wir zur Sicherheit nochmal die originale Datei, benennen die Spalten um und schaffen zus√§tzlich die Spalten "Jahrzehnt" und "Relative H√§ufigkeit". Letztere wird nach wie vor relativ zur H√§ufigkeit aller Tokens in *einem* Jahr berechnet.

In [None]:
songkorpus = pd.read_csv("../3_Dateien/Songkorpus/songkorpus_token.tsv", sep="\t") 

songkorpus.columns = ["Token", "Jahr", "H√§ufigkeit"]

#hier verwenden wir im Gegensatz zu oben die pandas-eigene Syntax
songkorpus["Jahrzehnt"] = (songkorpus["Jahr"].astype(str).str.slice(0,-1) + "0").astype(int) 

total_freq_per_year = songkorpus.groupby(["Jahr"])["H√§ufigkeit"].sum()
songkorpus["Relative H√§ufigkeit"] = songkorpus["H√§ufigkeit"] / songkorpus["Jahr"].replace(total_freq_per_year) 

songkorpus.head()

Eine Spalte mit sog. *Jahrf√ºnften* k√∂nnen wir nun unter Verwendung von numpys `select` erstellen. Dazu definieren wir zwei Listen, eine mit "if"-Bedingungen (etwa "Wert in Spalte 'Jahr' kleiner als 1970...") und eine mit "then"-Statements ("...dann setze den Wert 1965 ein"). Diese Listen √ºbergeben wir der Funktion zusammen mit dem dritten Argument, das ganz einfach im "else"-Fall greift. Bedenke, dass die Reihenfolge der Elemente auf den beiden Listen ebenso wie die Reihenfolge von `if`-`elif`-...-Statements in normalem Python-Code entscheidend ist.

In [None]:
x = songkorpus["Jahr"]
if_list   = [x<1970, x<1975, x<1980, x<1985, x<1990, x<1995, x<2000, x<2005, x<2010, x<2015, x<2020] #hier zeigt sich auch, warum wir die Spalte "Jahr" oben in Ganzzahlen gecasted haben
then_list = [1965, 1970, 1975, 1980, 1985, 1990, 1995, 2000, 2005, 2010, 2015]
songkorpus["Jahrf√ºnft"] = np.select(if_list, then_list, 2020)
songkorpus.head()

Nun fehlt nur noch der Aggregationsschritt. Bei den jahresbasierten relativen H√§ufigkeiten konnten wir uns ja darauf verlassen, dass jedes Wort nur ein einziges Mal pro Jahr in unserem DataFrame steht, so sind unsere Daten ganz einfach strukturiert. 

Bei den Jahrf√ºnften und Jahrzehnten kann ein einzelnes Wort hingegen bis zu f√ºnf bzw. zehn Mal vorkommen. Da wir aber nur einen Wert pro Zeitabschnitt plotten wollen, m√ºssen wir s√§mtliche relativen H√§ufigkeiten in einem Jahrf√ºnft bzw. Jahrzehnt aufsummieren und anschlie√üend durch 5 resp. 10 teilen. Dadurch erhalten wir die durchschnittliche relative H√§ufigkeit pro Wort und Zeitabschnitt. 

Genau dies tun wir im neu eingef√ºgten Aggregationsschritt unten: Wir gruppieren das Sub-DataFrame `word_df` abermals mithilfe von `groupby` nach dem gew√ºnschten Zeitabschnitt (wahlweise Jahrzehnt oder Jahrf√ºnft) und aggregieren die Werte in der Spalte "Relative H√§ufigkeit", indem wir sie pro Zeitabschnitt aufsummieren. Anschlie√üend teilen wir die Summe durch die Anzahl an Jahre des Zeitabschnitts (10 oder 5), um den Durchschnitt zu errechnen. Um wirklich nur mit kompletten Jahrf√ºnften bzw. Jahrzehnten zu rechnen, exkludieren wir zu Beginn noch s√§mtliche Tokens in den Jahren 1969, 2020, 2021 und 2022 (die Division durch 5 bzw. 10 w√ºrde ja sonst zu zu kleinen Durchschnitten f√ºhren).

Abgesehen vom Aggregationsschritt und dem Ausschluss inkompletter Jahrf√ºnfte bzw. Jahrzehnte, wurde im Code unten die Variable `span` f√ºr die Zeiteinheit eingesetzt, sodass diese neben zu den zu plottenden W√∂rtern initial definiert werden kann:

In [None]:
span, span_dict = "Jahrzehnt", {"Jahrzehnt": 10, "Jahrf√ºnft": 5}
words = ["ich", "du", "er", "sie"]

#Ausschluss inkompletter Jahrf√ºnfte bzw. Jahrzehnte durch Kombination zweier Filter
songkorpus = songkorpus[(songkorpus["Jahr"] > 1969) & (songkorpus["Jahr"] < 2020)]

import matplotlib.pyplot as plt

for word in words:
    word_df = songkorpus[songkorpus["Token"] == word]

    """NEUER SCHRITT: AGGREGATION"""
    word_df = word_df.groupby([span]).aggregate({"Relative H√§ufigkeit": "sum"}) / span_dict[span]
    """NEUER SCHRITT: AGGREGATION"""
    
    
    word_df = word_df.sort_values(by=span, ascending=True).reset_index()
    x = word_df[span]
    y = word_df[f"Relative H√§ufigkeit"]
    plt.plot(x, y, 'o-')

plt.title(f"Wortverlaufskurve f√ºr {', '.join([word for word in words])}")
plt.xlabel(span)
plt.ylabel(f"Relative H√§ufigkeit ({span})")
plt.xlim(1969, 2011) #Anpassen, je nach Zeitabschnitt
plt.legend(words, loc="best")

Wunderbar. 

Sollte hier neben dem Plot auch eine `SettingWithCopyWarning` zur√ºckgegeben worden sein, kannst du diese ignorieren.

Mit `plt.savefig(path)` kannst Du Grafiken √ºbrigens auch auf Deiner Festplatte speichern.

Damit sind wir fast am Ende des Notebooks angelangt.

## Output

√úbrig bleibt noch, die Methode `to_csv` vorzustellen, die wir verwenden k√∂nnen, um ein DataFrame als kommaseparierte Datei extern zu speichern:

In [None]:
songkorpus.to_csv("../3_Dateien/Output/songkorpus_new.csv", sep="\t", encoding="utf-8")

Neben dem Ausgabepfad k√∂nnen wir das gew√ºnschte Trennzeichen und Encoding spezifizieren. Neben `to_csv` gibt es analog zum Input auch spezifische Output-Methoden f√ºr XML (`to_xml`), JSON (`to_json`) und Excel (`to_excel`).

Damit sind wir am Ende des Notebooks angelangt. Gute Arbeit!