# Datenanalyse Teil 1

In diesem zweiteiligen Notebook lernen wir, wie wir in Python gro√üe Mengen strukturierter Daten, allen voran Daten in Form von Tabellen, verarbeiten und analysieren k√∂nnen. 

Im Notebook "Input und Output Teil 2" haben wir mit folgender Tabelle gearbeitet:

<img src="../3_Dateien/Grafiken_und_Videos/Flaechengroesste_Gemeinden_Tabelle.png">

Wir haben unter Zuhilfenahme des ```csv```-Moduls unseren eigenen Code geschrieben, um auszurechnen, wie viele der 100 fl√§chengr√∂√üten Gemeinden sich in jedem der sechzehn Bundesl√§nder befinden. In diesem Notebook lernen wir die sehr viel leistungsst√§rkere Bibliothek *pandas* kennen, die uns diese Rechnung im Handumdrehen liefern kann. Pandas kann aber viel mehr, wie wir gleich sehen werden.

Zu Beginn m√ºssen wir pandas nat√ºrlich importieren. Folgendes Statement importiert die Bibliothek und verleiht ihr den Namen ```pd```. Diese Abk√ºrzung ist eine Konvention.

In [None]:
import pandas as pd

Solltest Du einen ```ModuleNotFoundError``` erhalten, musst Du ```pandas``` erst √ºber die Command Line installieren. √ñffne dazu das Terminal (macOS/Linux) bzw. die Eingabeaufforderung (Windows) in einem neuen Fenster, gib ```pip3 install pandas``` ein und dr√ºck auf Enter. Sobald der Prozess abgeschlossen ist, sollte der Import oben klappen.
Um pandas kennenzulernen, wollen wir mit einem gro√üen Datensatz arbeiten, n√§mlich dem [Songkorpus](https://songkorpus.de/index.html). Das Songkorpus beinhaltet Lieder von bekannten deutschen K√ºnstler:innen, u.&nbsp;a. von Udo Lindenberg und Fettes Brot und umspannt die Jahre 1969-2022. √ñffentlich herunterladbar sind unter anderem Worth√§ufigkeiten pro Jahr und zwar als Tabelle (auf der Webseite selbst finden sich weitere spannende Daten und Analysen). Jedes Wort, das in einem oder mehreren Songs in einem bestimmten Jahr vorkommt, steht in einer eigenen Zeile, zusammen mit dem entsprechenden Jahr und der H√§ufigkeit, mit der es in diesem Jahr bei allen K√ºnstler:innen auftritt (s.&nbsp;u.). Insgesamt handelt es sich um √ºber 380.000 W√∂rter. Solch eine tabellarische Datei, zumal derart gro√ü, ist pr√§destiniert dazu, mit pandas verarbeitet zu werden.

## Input

In der folgenden Zelle √∂ffnen wir die Datei, die sich bereits in "3_Dateien/Songkorpus" befindet, und lesen sie mit der pandas-Funktion ```read_csv``` ein, die neben dem Dateipfad u.&nbsp;a. auch das Trennzeichen (```sep```, in diesem Fall der Tabulator "\t") als Argument nimmt:

In [None]:
#Vor 'read_csv' steht wie gewohnt der Modulname, damit Python wei√ü, wo sich die Funktion befindet
songkorpus = pd.read_csv("../3_Dateien/Songkorpus/songkorpus_token.tsv", sep="\t", encoding="uft-8") 

Neben ```read_csv``` f√ºr Dateien mit Trennzeichen bietet pandas u.&nbsp;a. auch Funktionen f√ºr XML (```read_xml```), JSON (```read_json```)  und Excel-Dateien (```read_excel```) an. Ebenfalls kann man je nach Daten weitere Parameter spezifizieren, u.&nbsp;a. ```na_filter```, um zu definieren, wie mit fehlenden Werten (sog. *NaN-Werten*) umgegangen werden soll. 

*Bemerkung am Rande: Fehlende Werte f√ºhren immer wieder zu Problemen bei der Arbeit mit pandas. Deswegen solltest Du Dich beim Einlesen Deiner eigenen Daten stets fragen, ob bestimmte Werte darin fehlen k√∂nnten und wenn ja, wie Du damit umgehen m√∂chtest. Pandas bietet neben ```na_filter``` n√ºtzliche Methoden wie ```isna```, ```dropna``` und ```fillna``` f√ºr den Umgang mit fehlenden Werten (mehr Infos [hier](https://pandas.pydata.org/docs/user_guide/missing_data.html)). Im Folgenden gehen wir aber nicht darauf ein, im Songkorpus fehlen schlicht keine Werte.*

Die Lesemethode √ºberf√ºhrt unsere Daten in jedem Fall in ein sog. *DataFrame*:

In [None]:
print(type(songkorpus))

DataFrames sind ein eigener Datentyp von pandas, auf den wir eine Vielzahl n√ºtzlicher Operationen anwenden k√∂nnen, etwa um einen √úberblick √ºber die Daten zu bekommen.

## √úberblick bekommen

Hier bietet sich insbesondere die Methode ```head``` an, die standardm√§√üig die ersten f√ºnf Zeilen (also den "Kopf") des DataFrame ausgibt: 

In [None]:
songkorpus.head() #'head' nimmt optional eine Ganzzahl als Argument, die definiert, wie viele der ersten Zeilen ausgegeben werden sollen

Eher komische W√∂rter in der Spalte "CO_TOKEN". Wie wir an Spalte "CO_COUNT" erkennen k√∂nnen, kamen sie aber auch nur jeweils einmal (im in "CO_YEAR" angegebenen Jahr) vor.

Das Gegenst√ºck zu ```head``` ist ```tail``` (also der "Schwanz"), wodurch wir die letzten f√ºnf Zeilen des DataFrame erhalten:

In [None]:
songkorpus.tail() #Auch 'tail' nimmt optional eine Ganzzahl als Argument, die definiert, wie viele der letzten Zeilen ausgegeben werden sollen

Die Ausgabe sieht √ºbrigens anders aus, wenn wir einen ```print```-Befehl verwenden, anstatt dass Jupyter schlicht die letzte Zeile ausgibt (probier's aus!). Mit dem ```print```-Befehl verschwindet die angenehme Formatierung.

Mithilfe von ```shape```, ```columns``` und ```index``` k√∂nnen wir au√üerdem in Erfahrung bringen, welches Format (```shape```), d.&nbsp;h. wie viele Spalten und Zeilen das DataFrame hat, sowie wie Spalten (```columns```) und Zeilen (```index```) benannt sind.

‚ö†Ô∏è Achtung: Es handelt sich dabei um sog. Attribute des DataFrame, die wir uns vereinfacht gesagt als Eigenschaften des DataFrame vorstellen k√∂nnen. Um auf ein Attribut eines Objekts zuzugreifen, h√§ngt man den Namen des Attributs wie bei Methoden nach einem Punkt an das betreffende Objekt, schlie√üt aber nicht mit Klammern ab:

In [None]:
print(songkorpus.shape, songkorpus.columns, songkorpus.index, sep="\n")
original_len = len(songkorpus)

Unser DataFrame besteht also aus 386.510 Zeilen und drei Spalten. Die Anzahl an Zeilen, also die L√§nge des DataFrame, speichern wir in einer separaten Variablen ab, wir werden sie sp√§ter noch brauchen.

Die Spaltennamen sind "CO_TOKEN", "CO_YEAR" und "CO_COUNT" und die Zeilen sind mit Indizes von null (inklusive) bis 386510 (exklusive) durchnummeriert. 

Die etwas kryptischen Spaltennamen k√∂nnen wir √§ndern, indem wir das Attribut ```columns``` unseres DataFrame ganz einfach mit einer Liste an neuen Spaltennamen √ºberschreiben:

In [None]:
songkorpus.columns = ["Wort", "Jahr", "H√§ufigkeit"]
print(songkorpus.columns)

Die L√§nge der Liste muss nat√ºrlich der Anzahl an Spalten entsprechen. 

Um eine spezifische Spalte zu √ºberschreiben, k√∂nnen wir die ```rename```-Methode verwenden, derer wir ein dictionary mit Schl√ºssel-Werte-Paaren ({"jetziger Name": "neuer Name"}) √ºbergeben. Im Allgemeinen haben wir beim Bearbeiten eines DataFrame zwei M√∂glichkeiten, um die Bearbeitung wirksam zu machen: 

1) Wir k√∂nnen immer das alte DataFrame mit der bearbeiteten Version √ºberschreiben. So haben wir das auch in der Zelle oben gehandhabt. 
2) Bei der Bearbeitung mithilfe einer Methode, hier ```rename```, k√∂nnen wir auch den Parameter ```inplace=True``` spezifizieren, um die Bearbeitung "an Ort und Stelle" vorzunehmen. 

In der n√§chsten Zelle sehen wir beide Alternativen. Im Folgenden beschr√§nken wir uns aber auf die erste M√∂glichkeit, da diese auch abseits von Methoden funktioniert.

In [None]:
songkorpus = songkorpus.rename(columns={"Wort": "Token"}) #1. M√∂glichkeit: √úberschreiben
songkorpus.rename(columns={"Wort": "Token"}, inplace=True) #2. M√∂glichkeit: Bearbeiten "inplace"/"an Ort und Stelle"
songkorpus.head()

Zuallererst wollen wir einen detailierten Blick auf Spalten und Zeilen werfen, aus denen ein DataFrame ja besteht.

## Auf Spalten zugreifen

Wenn wir an einer bestimmten Spalte eines DataFrame interessiert sind, k√∂nnen wir auf diese mit der gleichen Syntax wie bei dictionaries zugreifen:

In [None]:
songkorpus["Token"]

An dieser Stelle ist es nat√ºrlich wichtig, dass die Spalte aktuell wirklich "Token" und nicht mehr "CO_TOKEN" oder "Wort" hei√üt. Dies w√ºrde, wie bei inexistenten Schl√ºsseln in einem dictionary auch, zu einem ```KeyError``` f√ºhren.

Weiter funktioniert f√ºr den Spaltenzugriff auch die sog. dot-Notation nach dem Schema ```DataFrame.column```:

In [None]:
songkorpus.Token #Beachte, dass hierf√ºr der Spaltenname nicht als string, also ohne Anf√ºhrungszeichen, angeh√§ngt wird!

Die dot-Notation erf√ºllt (fast immer) die gleiche Funktion wie die Zugriffsweise √ºber eckige Klammern, auf die wir uns fortan beschr√§nken. 

In jedem Fall entspricht das, was wir dabei zur√ºckerhalten, dem zweiten wichtigen Datentyp von pandas neben *DataFrame*, n√§mlich einer sog. *Series*:

In [None]:
tokens = songkorpus["Token"]
print(type(tokens))

Series kann man mit Listen vergleichen. Sie sind im Gegensatz zu DataFrames nicht zweidimensional (Spalten und Zeilen), sondern eindimensional. Viele Listen-Operationen wie z.&nbsp;B. Indexing und Slicing funktionieren bei Series gleicherma√üen:

In [None]:
print(tokens[10000], "\n") #Indexing
print(tokens[9999:10002]) #Slicing

***

‚úèÔ∏è **√úbung 1:** Erstell eine weitere Series, die nur das 100.000te, 200.000te und 300.000te Token der Series ```tokens``` beinhaltet. 

In [None]:
#In diese Zelle kannst Du den Code zur √úbung schreiben.




***

Anstatt *eines* Spaltennamens k√∂nnen wir auch eine Liste an Spaltennamen √ºbergeben, um auf mehrere Spalten gleichzeitig zuzugreifen:

In [None]:
two_columns = songkorpus[["Token", "Jahr"]].head() #Beachte die inneren eckigen Klammern f√ºr die Liste!
two_columns

√úberleg Dir kurz, was f√ºr ein Datentyp ```two_columns``` hat. 

Genau: Nun haben wir nicht mehr nur eine Spalte, in der Zeilenwert um Zeilenwert in einer Dimension gespeichert ist, sondern zwei Spalten. ```two_columns``` ist also immer noch ein zweidimensionales Objekt, sprich ein DataFrame:

In [None]:
print(type(two_columns))

Nun wissen wir, wie wir auf Spalten zugreifen k√∂nnen. 

## Auf Zeilen zugreifen

Um auf Zeilen zuzugreifen, h√§ngen wir ```.loc[index]``` an das DataFrame an und √ºbergeben den Index der gew√ºnschten Zeile anstelle von ```index```:

In [None]:
songkorpus.loc[777]

Verwend stets diese Syntax, um auf Zeilen zuzugreifen. 

Anf√§nger:innen versuchen oft, die Syntax ```DataFrame[index]``` zu verwenden. Das f√ºhrt aber zu einem ```KeyError```, denn diese Syntax ist dem Spaltenzugriff vorbehalten (sollte der √ºbergebene ```index``` zuf√§lligerweise auch ein Spaltenname sein, erhalten wir keinen ```KeyError```, aber die Ausgabe entspricht dann auch der jeweiligen Spalte, und nicht der gew√ºnschten Zeile).

Da wir blo√ü auf eine einzige Zeile zugreifen, in der Spaltenwert um Spaltenwert in einer Dimension gespeichert ist, liegt wieder der Datentyp Series vor:

In [None]:
print(type(songkorpus.loc[777]))

Zur Verdeutlichung: Sowohl eine Sequenz von Werten einer Spalte als auch eine Sequenz von Werten einer Zeile entsprechen bei pandas einer Series. Entscheidend ist blo√ü, dass nur **eine einzige** Dimension vorliegt. Sobald ein Objekt sowohl mehrere Spalten als auch mehrere Zeilen umfasst, handelt es sich um ein DataFrame.

Ein solches Objekt k√∂nnen wir auch √ºber ```loc``` erhalten, indem wir auf mehrere Zeilen gleichzeitig zugreifen. Dies funktioniert wie bei dem Zugriff auf mehrere Spalten (s.&nbsp;o), indem wir mehrere Indizes als Liste √ºbergeben.

In [None]:
print(type(songkorpus.loc[[777,888]])) #Beachte die inneren eckigen Klammern f√ºr die Liste!
songkorpus.loc[[777,888]]

Zudem k√∂nnen wir auf mehrere aufeinanderfolgende Zeilen zugreifen, indem wir dieselbe Syntax wie bei Slicing verwenden:

In [None]:
songkorpus.loc[777:780] #Keine inneren eckigen Klammern!

Im Gegensatz zu gew√∂hnlichem Slicing bei Listen wird der letzte Index bei pandas miteingerechnet ("inklusiv", vgl. Notebook "Datentypen").

Abschlie√üend sei erw√§hnt, dass Zeilen nicht zwingend mit *numerischen* Indizes durchnummeriert sein m√ºssen. Zeilen k√∂nnen wie Spalten ebenfalls Namen haben. Dieses Szenario wollen wir in der n√§chsten √úbung mit denselben Daten durchspielen.

***

‚úèÔ∏è **√úbung 2:** 

1. Lies die Datei ```songkorpus_tokens.tsv``` abermals ein und √ºbergib beim Erstellen des DataFrame zus√§tzlich den Parameter ```index_col=0```. Dadurch wird die erste Spalte (mit dem Index ```0```), also diejenige mit den Tokens, zur sog. *Index-Spalte*. Jede Zeile hat nun statt eines numerischen Index einen Namen, n√§mlich das jeweilige Token. Weis das DataFrame der Variablen ```songkorpus_labelled_rows``` zu. 
2. Benenn die Spalten wie bei ```songkorpus``` um. Falls Du hier eine Fehlermeldung kriegst, lies sie aufmerksam und pass Deinen Code entsprechend an.
3. √úberleg Dir, was die Tatsache, dass wir nun Tokens als Zeilennamen verwenden, zur Konsequenz hat. Experimentier dazu gerne mit dem DataFrame herum und greif auf verschiedene Zeilen √ºber Namen zu. 

<details>
<summary>üí° Tipp zu Schritt 1</summary>
<br>Achte beim Einlesen darauf, das richtige Trennzeichen bei <code>sep</code> anzugeben.</details>
<br>
<details>
<summary>üí° Tipp zu Schritt 3</summary>
<br>Greif z. B. auf das Token "wir" in der Indexspalte zu und schau Dir das Ergebnis an.</details>


In [None]:
#In diese Zelle kannst Du den Code zur √úbung schreiben. 




***

Im Gegensatz zu Spaltennamen (und Schl√ºsseln bei dictionaries) d√ºrfen Zeilennamen mehrfach vorkommen. Der Zugriff auf eine oder mehrere Zeilen funktioniert ungeachtet dessen gleich wie bei DataFrames, die mit numerischen Indizes durchnummeriert sind, also mittels ```.loc[index]```.

***

‚úèÔ∏è **√úbung 3:** Setz die Tatsache, dass Zeilennamen mehrfach vorkommen d√ºrfen, produktiv ein und find heraus, wie oft "Dresden" in ```songkorpus_labelled_rows``` vorkommt, indem Du die H√§ufigkeiten in allen Jahren, in denen das Wort gesungen wird, zusammenz√§hlst.

<details>
<summary>üí° Tipp </summary>
<br> Der erste Schritt besteht darin, aus dem gesamten DataFrame <code>songkorpus_labelled_rows</code> ein kleineres, sog. <i>Sub-DataFrame</i> zu erstellen, das mit einer neuen Variablen referenziert wird. Der zweite Schritt besteht darin, eine Series aus diesem Sub-DataFrame "herauszuschneiden", die Du anschlie√üend wie eine Liste behandeln kannst, um schlie√ülich zur Anzahl der Nennungen von "Dresden" zu gelangen.</details>

In [None]:
#In diese Zelle kannst Du den Code zur √úbung schreiben.




***

## Auf Spalten *und* Zeilen zugreifen

```loc``` k√∂nnen wir ebenfalls verwenden, um gleichzeitig anzugeben, auf welche Spalte(n) und Zeile(n) wir bei einem DataFrame zugreifen m√∂chten. Auf den Zeilenindex folgt nach einem Komma der gew√ºnschte Spaltenname:

In [None]:
print(songkorpus.loc[10, "Jahr"])

"""Randbemerkung: Auf die Spitze getrieben k√∂nnen wir mit '.loc' auch nur auf Spalten zugreifen, n√§mlich indem wir, 
wie bei Listen-Slicing auch m√∂glich, durch Weglassen eines Start- und Endindex s√§mtliche Zeilen ansprechen, sprich so: 
songkorpus.loc[:, "Jahr"]."""

Neben der Herangehensweise √ºber ```loc``` besteht auch die M√∂glichkeit erst wie oben gelernt auf eine spezifische Spalte bzw. eine spezifische Zeile zuzugreifen, was in einer Series resultiert, und in dieser Series anschlie√üend auf eine bestimmte Zeile bzw. eine bestimmte Spalte zuzugreifen (z.&nbsp;B. ```songkorpus["Token"][22]```). Obige Syntax mit ```loc``` ist diesen sog. "chained assignments" (etwa: Kettenaufgabe) jedoch vorzuziehen.

Wie immer k√∂nnen wir auch Listen √ºbergeben, um auf mehrere Spalten und/oder mehrere Zeilen gleichzeitig zuzugreifen. Beim Zeilenzugriff funktioniert sowohl eine Liste einzelner Indizes...

In [None]:
songkorpus.loc[[9999,10000], ["Token", "H√§ufigkeit"]]

...als auch die slicing√§hnliche Syntax f√ºr eine Sequenz an Zeilen:

In [None]:
songkorpus.loc[9999:10005, ["Token", "H√§ufigkeit"]] 

Nun wissen wir, wie wir auf beliebige (Kombinationen von) Spalte(n) und Zeile(n) zugreifen k√∂nnen. Als N√§chstes m√∂chten wir unseren Daten erweitern, indem wir eine Spalte hinzuf√ºgen:

## Spalten hinzuf√ºgen

Eine einzelne Spalte entspricht ja einer Series und Series wiederum kommen Listen sehr nahe. Deshalb k√∂nnen wir zur Definition einer neuen Spalte ganz einfach eine Liste √ºbergeben, deren L√§nge nat√ºrlich der Anzahl der Zeilen des DataFrame entsprechen muss.

Sagen wir, wir h√§tten gerne eine neue Spalte, in der das Jahrzehnt gespeichert wird, in der das jeweilige Token gesungen wurde. Die einzelnen Jahre haben wir schon, nun wollen wir aber jeweils zehn Jahre zu einem Jahrzehnt b√ºndeln. 

Dazu k√∂nnen wir in gewohnter Python-Manier √ºber die Spalte "Jahr" in ```songkorpus``` iterieren (auch bei der Iteration zieht die Analogie Series ‚Äì Liste!), auf den jeweiligen Wert in der Spalte "Jahr" zugreifen, ihn in einen string casten und das Jahr reduziert auf das Jahrzehnt einer neuen Liste anh√§ngen:

In [None]:
decades = []
for year in songkorpus["Jahr"]:
    """Casten in einen string ist erforderlich, da sich Slicing nur auf sequentielle Objekte anwenden l√§sst 
    (Ganzzahlen geh√∂ren nicht dazu, vgl. Notebook "Datentypen") und nur strings miteinander konkateniert werden k√∂nnen."""
    decade = str(year)[:-1] + "0"
    decades.append(decade)

Anschlie√üend m√ºssen wir nur noch eine neue Spalte in ```songkorpus``` definieren und ihr die Liste ```decades``` zuweisen. Das Erstellen einer neuen Spalte erfolgt genau gleich wie das Definieren eines neuen Schl√ºssels bei einem dictionary:

In [None]:
songkorpus["Jahrzehnt"] = decades
songkorpus.head()

Recht simpel.

***

‚úèÔ∏è **√úbung 4:**

F√ºg ```songkorpus``` eine weitere Spalte mit dem Namen "L√§nge" hinzu, in der die Anzahl an Buchstaben je Token steht.

<details>
<summary>üí° Tipp</summary>
<br>Da manche Tokens Zahlen sind, kannst Du ihre L√§nge nicht einfach mit <code>len</code> ausz√§hlen. √úberleg Dir, wie Du vorgehen kannst, um dennoch die L√§nge der Zahlen zu ermitteln.</details>

In [None]:
#In diese Zelle kannst Du den Code zur √úbung schreiben.




***

‚úèÔ∏è **√úbung 5:** Vereinfache den Code von oben, mit dessen Hilfe wir die Spalte "Jahrzehnt" hinzugef√ºgt haben, indem Du ihn mittels List Comprehension (vgl. Notebook "Funktionen und Methoden Teil 1") auf eine einzige Zeile reduzierst. Hol den Abschnitt zu List Comprehensions nach, falls Du ihn damals ausgelassen hast, da er als fortgeschritten markiert war.

<details>
<summary>üí° Tipp </summary>
<br> <code>songkorpus</code> verf√ºgt ja bereits √ºber eine Spalte mit dem Namen "Jahrzehnt". Indem Du das Resultat Deiner List Comprehension <code>songkorpus["Jahrzehnt"]</code> zuweist, √ºberschreibst Du die befindliche Spalte ganz einfach.</details>


In [None]:
#In diese Zelle kannst Du den Code zur √úbung schreiben.




***

Sehr gut. Zus√§tzlich zum klassischen ```for```-Loop und der List Comprehension lernen wir weiter unten eine dritte, pandas-eigene Technik kennen, mit der wir den modifizierten Inhalt einer Spalte in eine andere schreiben k√∂nnen.

Schauen wir uns nun an, wie wir Zeilen zu einem DataFrame hinzuf√ºgen k√∂nnen.

## Zeilen hinzuf√ºgen

Auch neue Zeilen k√∂nnen wir einem DataFrame als Liste hinzuf√ºgen. Die L√§nge der Liste muss wiederum der Anzahl an Spalten entsprechen.

Dies ist bei ```new_row``` in der n√§chsten Zelle nur der Fall, wenn Du in der √úbung oben eine f√ºnfte Spalte namens "L√§nge" hinzugef√ºgt hast. Um sicherzustellen, dass ```songkorpus``` im Weiteren alle notwendigen Spalten umfasst, f√ºgt die erste Zeile die Spalte "L√§nge" mittels List Comprension hinzu (bzw. √ºberschreibt eine bereits vorhandene).

In [None]:
songkorpus["L√§nge"] = [len(str(token)) for token in songkorpus["Token"]]
new_row = ["Fantasiewort", 2023, 800, 2020, 12]

```new_row``` k√∂nnen wir ```songkorpus``` nun unter Verwendung der bereits bekannten ```.loc[index]```-Syntax hinzuf√ºgen. Als ```index``` geben wir schlicht den letzten numerischen Index + eins an, was der L√§nge von ```songkorpus``` entspricht (die numerischen Indizes fangen ja bei null an):

In [None]:
songkorpus.loc[len(songkorpus)] = new_row
songkorpus.tail()

Wenn Du diese Zelle mehrfach ausf√ºhrst, wird ```new_row``` jedes einzelne Mal hinzugef√ºgt. Schlie√ülich entspricht ```len(songkorpus)``` jedes Mal dem letzten numerischen Index + eins. 

Anstatt eine Zeile am Ende eines DataFrame hinzuzuf√ºgen, kannst Du die gleiche Syntax verwenden, um eine bestimmte, bereits existierende Zeile zu √ºberschreiben. Das tun wir hier aber nicht, da wir mit den originalen Daten weiterarbeiten m√∂chten. Entsprechend wollen wir die letzte(n) Zeile(n) mit Fantasiew√∂rtern auch wieder entfernen.

## Spalten und Zeilen entfernen

Zu diesem Zweck gibt es die ```drop```-Methode, die wir sowohl zum Entfernen von Spalten als auch Zeilen benutzen k√∂nnen. Als erstes Argument √ºbergeben wir ihr den Namen der zu entfernenden Spalte bzw. den numerischen Index (oder Namen, s.&nbsp;o.) der zu entfernenden Zeile. Um mehrere Spalten oder Zeilen zu entfernen, k√∂nnen jeweils auch Listen √ºbergeben werden. Anschlie√üend spezifizieren wir mithilfe des ```axis```-Parameters, ob es sich um eine Spalte oder eine Zeile handelt, die entfernt werden soll. ```axis=1``` steht f√ºr Spalten und ```axis=0``` f√ºr Zeilen (was der Standardwert ist und nicht zwingend angegeben werden muss). Die Syntax mit Standardwerten lautet also folgenderma√üen:

```DataFrame.drop(index_or_name, axis=0)```

***

‚úèÔ∏è **√úbung 6:** F√ºhr die Zelle oben, in der wir ```songkorpus``` Zeilen mit Fantasiew√∂rtern hinzugef√ºgt haben, noch ein paar Mal aus, ohne darauf zu achten wie oft. Verwend nun ```drop``` in einer geeigneten Kontrollstruktur (vgl. Notebook "Kontrollstrukturen") sowie die anfangs eingef√ºhrte Variable ```original_len```, um die Fantasiew√∂rter wieder zu entfernen und ```songkorpus```, was die Anzahl an Zeilen betrifft, wieder in seinen Originalzustand zu bringen. 

<details>
<summary>üí° Tipp </summary>
<br>Als Kontrollstruktur bietet sich eine while-Schleife an, die Deinen Code zum Entfernen der Zeilen so lange ausf√ºhrt, bis die L√§nge des DataFrame <code>original_len</code> erreicht.
</details>

In [None]:
#In diese Zelle kannst Du den Code zur √úbung schreiben.




***

Wunderbar! 

## Deskriptive Statistiken

Einige der Spalten in ```songkorpus``` enthalten ja numerische Werte, konkret die Spalten "Jahr", "H√§ufigkeit" und "L√§nge" (die Werte in "Jahrzehnt" haben wir als string abgespeichert, s.&nbsp;o.). Numerischen Werten n√§hern wir uns am besten √ºber deskriptive Statistiken, also etwa √ºber Minimal- und Maximalwerte.

Pandas bietet daf√ºr eine Reihe n√ºtzlicher Methoden: Angewandt auf eine Spalte gibt ```min``` den kleinsten Wert darin zur√ºck, ```max``` den gr√∂√üten, ```mean``` das arithmetische Mittel, ```median``` den Median und ```sum``` die Summe aller Werte. 

Bevor wir dies tun, stellen wir noch sicher, dass die oben hinzugef√ºgten Zeilen auch wirklich nicht mehr vorhanden sind, schlie√ülich soll das achthundertfach vorkommende "Fantasiewort" unsere Statistiken nicht verzerren. Anstatt die ```drop```-Methode von oben w√§hlen wir hier einen anderen Weg, n√§mlich Slicing:

In [None]:
songkorpus = songkorpus[:original_len]

print(songkorpus["H√§ufigkeit"].min())
print(songkorpus["H√§ufigkeit"].max())
print(songkorpus["H√§ufigkeit"].mean())
print(songkorpus["H√§ufigkeit"].median())
print(songkorpus["H√§ufigkeit"].sum())

Wenig √ºberraschend ist eins der kleinste Wert in der Spalte "H√§ufigkeit". W√∂rter, die gar nicht vorkommen, befinden sich ja nicht im Datensatz. 

Spannend ist jedoch, zu erfahren, dass das meistgesungene Token 2007 Mal in einen bestimmten Jahr vorkommt. Interessant ist auch, dass der Durchschnitt zwar bei fast sechs Nennungen liegt, mindestens die H√§lfte aller Werte jedoch genau eins sind. Der Median ist ja der Wert, der genau in der Mitte aller "aufgereihten" Werte steht: links von ihm k√∂nnen also nur weitere Einsen stehen, in der Mitte steht selbst auch eine Eins. Diese Logik funktioniert nat√ºrlich nur, weil wir wissen, dass alle Werte in dieser Spalte Ganzzahlen sind.

Einen kompakten √úberblick √ºber diese und ein paar weitere Statistiken liefert auch ```describe```:

In [None]:
songkorpus["H√§ufigkeit"].describe()

Dabei lernen wir u.&nbsp;a., dass drei Viertel aller Tokens nur maximal drei Mal in einem bestimmten Jahr vorkommen.

```describe``` l√§sst sich nicht nur auf eine Series, sondern auch auf ein DataFrame anwenden, wobei wir die Statistiken nur bei Spalten mit numerischen Werten zur√ºckerhalten:

In [None]:
songkorpus.describe()

Sehr n√ºtzlich ist auch die ```value_counts```-Methode, die s√§mtliche Werte in einer Spalte ausz√§hlt und uns eine Art "Frequenzw√∂rterbuch" zur√ºckgibt. Die Methode liefert also genau das, was wir im Notebook "Input und Output Teil 2" manuell f√ºr die 100 fl√§chengr√∂√üten Gemeinden Deutschlands errechnet haben:

In [None]:
songkorpus["Jahrzehnt"].value_counts()

Die Zehnerjahre sind dieser Auswertung zufolge am h√§ufigsten vertreten im ```songkorpus```. 

Da absolute Zahlen oft schwer miteinander zu vergleichen sind, bietet ```value_counts``` auch die M√∂glichkeit, die Werte zu *normalisieren*, d.&nbsp;h. *relativ* auszugeben. Dazu spezifizieren wir ganz einfach ```normalize=True```:

In [None]:
songkorpus["Jahrzehnt"].value_counts(normalize=True)

So l√§sst sich leicht ablesen, dass fast die H√§lfte aller Tokens in ```songkorpus``` aus den Nuller- und Zehnerjahren stammen. Dieses Ungleichgewicht m√ºssen wir bei k√ºnftigen Analysen im Hinterkopf behalten.

***

‚úèÔ∏è **√úbung 7:** Mithilfe von ```describe``` haben wir oben herausgefunden, dass die durchschnittliche Wortl√§nge in ```songkorpus``` 6.88 Buchstaben betr√§gt. Die maximale Wortl√§nge betr√§gt hingegen sagenhafte 53 Buchstaben. Die Verteilung scheint alles andere als gleichm√§√üig zu sein, was wir auch an den sog. *Quartilen* 25% und 75% sehen (Quartile werden wie der Median berechnet, nur geht es nicht um den Mittelwert, sondern um die Werte nach einem Viertel bzw. drei Vierteln aller aufgereihten Werte). Find heraus, welche Wortl√§ngen f√ºr jeweils mindestens 10 % aller W√∂rter gelten. Find ebenfalls heraus, welche Wortl√§ngen f√ºr jeweils maximal 1 % aller W√∂rter gelten.

<details>
<summary>üí° Tipp </summary>
<br>Einer von verschiedenen denkbaren L√∂sungswegen involviert die Tatsache, dass DataFrames und Series mit dictionaries verwandt sind und sich auch in ein solches casten lassen.</details>


In [None]:
#In diese Zelle kannst Du den Code zur √úbung schreiben.




*** 

Zwei weitere hilfreiche Methoden sind ```nlargest``` und ```nsmallest```, die das DataFrame nach einer bestimmten Spalte (spezifiziert als zweites Argument) sortieren und die *n* (spezifiziert als erstes Argument) obersten bzw. untersten Zeilen ausgibt. Folgender Code liefert also die obersten zehn Zeilen eines nach der Spalte "H√§ufigkeit" absteigend sortierten DataFrame:

In [None]:
songkorpus.nlargest(10, "H√§ufigkeit")

Wasser auf die M√ºhlen der Selbstbezogenheitsthese! üòÖ

Nat√ºrlich k√∂nnen wir ein DataFrame auch als Ganzes sortieren, anstatt blo√ü die *n* obersten bzw. untersten Zeilen zur√ºckzukriegen.

## Werte sortieren

Dazu benutzen wir die Methode ```sort_values```, der wir als erstes Argument die Spalte √ºbergeben, anhand derer wir sortieren wollen, und als zweites Argument die Richtung der Sortierung, wobei ```ascending=True``` f√ºr aufsteigend (Standardwert) und ```ascending=False``` f√ºr absteigend steht.

Folgender Code sortiert ```songkorpus``` aufsteigend nach der Spalte "Jahr":

In [None]:
songkorpus = songkorpus.sort_values("Jahr", ascending=True)
songkorpus.head()

Nach der Verwendung von ```sort_values``` lohnt es sich i.&nbsp;d.&nbsp;R., den Index des DataFrame, der ja durch die Sortierung ganz durcheinander geraten ist, zur√ºckzusetzen. Dies k√∂nnen wir mithilfe von ```reset_index``` tun. Zus√§tzlich spezifizieren wir, dass der alte Index gel√∂scht werden soll (```drop=True```), andernfalls wird er in einer neuen Spalte gespeichert):

In [None]:
songkorpus = songkorpus.reset_index(drop=True)
songkorpus.head()

W√ºrden wir den Index nicht zur√ºcksetzen, bek√§men wir beim Zeilenzugriff √ºber ```loc``` u.&nbsp;U. nicht die Ergebnisse zur√ºck, die wir erwarten. Etwa erhielten wir √ºber ```songkorpus.loc[0]``` nicht die erste Zeile des neuen DataFrame zur√ºck, sondern die erste Zeile des alten, unsortierten DataFrame. Das liegt daran, dass Zeilen ihre Indizes bei der Sortierung standardm√§√üig behalten. Dieses Verhalten wird verst√§ndlicher, wenn Du Dir vorstellst, Du w√ºrdest ```songkorpus_labelled_rows``` sortieren (vgl. √úbung 2). 

Wenn wir weder an der H√§ufigkeitsverteilung aller Werte in einer bestimmten Spalte (```value_counts```) noch an deren Reihenfolge (```nlargest```, ```nsmallest``` und ```sort_values```) interessiert sind, sondern an der blo√üen Existenz eines Wertes (egal wie oft er auftritt), gibt es eine weitere praktische Methode.

## Einzigartige Werte

N√§mlich ```unique```, das √§hnlich wie die Python-Funktion ```set``` (vgl. Notebook "Datentypen") alle einzigartigen Werte in einer bestimmten Spalte zur√ºckgibt:

In [None]:
songkorpus["Jahr"].unique()

***

‚úèÔ∏è **√úbung 8:** Wir wissen bereits, wie viele Tokens in unserem DataFrame vorkommen, n√§mlich 386.510. Find heraus, wie viele einzigartige Tokens, also Types (vgl. Notebook "Funktionen und Methoden Teil 2") es gibt.

In [None]:
#In diese Zelle kannst Du den Code zur √úbung schreiben.





***

Zuletzt ein Ausblick auf unseren Anwendungsfall, den wir im zweiten Teil des Notebooks "Datenanalyse" bearbeiten werden:


## üîß Anwendungsfall: Wortverlaufskurven visualisieren üìà

Wir wollen visualisieren, wie h√§ufig beliebige W√∂rter in jedem Jahr im vom Songkorpus abgedeckten Zeitraum 1969-2022 vorkommen. F√ºr die Begriffe "ich", "du", "er" und "sie" sieht das z.&nbsp;B. so aus:

<img src="../3_Dateien/Grafiken_und_Videos/Wortverlaufskurve_Jahr.png" width="700">

Rekapitulier Dein Wissen aus diesem Notebook nun noch einmal und √ºberleg bereits jetzt, wie Du den Anwendungsfall angehen k√∂nntest. Gute Arbeit bis hierhin!