# Datenanalyse (Lösungen)

☝️ Beachte: es gibt beim Programmieren fast immer verschiedene Lösungswege. Deine Lösung mag anders aussehen, aber dennoch zum gewünschten Resultat führen. Das richtige Resultat ist das Wichtigste. 

⚠️ Führe folgenden Code aus, bevor du einzelne Lösungen ausführst. 

In [None]:
import pandas as pd

#Achtung: anderer Pfad als im Notebook, da das Lösungsnotebook in einem anderen Verzeichnis liegt 
with open("../../3_Dateien/Songkorpus/songkorpus_token.tsv") as f:
    songkorpus = pd.read_csv(f, sep="\t")
    
songkorpus.columns = ["Token", "Jahr", "Häufigkeit"]

tokens = songkorpus["Token"]

decades = []
for year in (songkorpus["Jahr"]):
    decade = str(year)[:-1] + "0"
    decades.append(decade)
    
songkorpus["Dekade"] = decades
original_len = len(songkorpus)

*** 

✏️ **Lösung 1:** Lass Dir das 100.000te, 200.000te und 300.000te Token in der Series `tokens` ausgeben. Verwende dazu maximal eine Zeile.

In [None]:
print(tokens[[100000,200000,300000]]) #Alternative 1: Liste an Indizes (beachte die inneren eckigen Klammern!)
print(tokens[100000::100000]) #Alternative 2: Slicing mit Start-Index 100000 und Step 100000, vgl. zweites Notebook
print(tokens[100000], tokens[200000], tokens[300000]) #Alternative 3 (ein bisschen langweiliger als die oberen 😅)

*** 

✏️ **Lösung 2:** 

1. Lies die Datei `songkorpus_tokens.tsv` abermals ein und übergib beim Erstellen des DataFrames zusätzlich den Parameter `index_col=0`. Dadurch wird die erste Spalte (mit dem Index 0), also diejenige mit den Tokens, zur sog. *Index-Spalte*. Jede Zeile hat nun statt einem numerischen Index einen Namen, nämlich das jeweilige Token. Weise das DataFrame der Variablen `songkorpus_labelled_rows` zu. 
2. Benenne die Spalten wie bei `songkorpus` um. Falls Du hier eine Fehlermeldung kriegst, lies sie aufmerksam und passe Deinen Code entsprechend an.
3. Überlege Dir, was die Tatsache, dass wir nun Tokens als Zeilennamen verwenden, zur Konsequenz hat. Experimentiere dazu gerne mit dem DataFrame herum und greife auf verschiedene Zeilen über Namen zu. 

In [None]:
#Achtung: anderer Pfad als im Notebook, da das Lösungsnotebook in einem anderen Verzeichnis liegt 
with open("../../3_Dateien/Songkorpus/songkorpus_token.tsv") as f:
    songkorpus_labelled_rows = pd.read_csv(f, sep="\t", index_col=0) 
    
songkorpus_labelled_rows.columns = ["Jahr", "Häufigkeit"] 

#Zu 3.: Zeilennamen können mehrfach vorkommen.

***

✏️ **Lösung 3:** Setze die Tatsache, dass Zeilennamen mehrfach vorkommen dürfen, produktiv ein und finde heraus, wie oft "Dresden" in `songkorpus_labelled_rows` vorkommt, indem Du die Häufigkeiten in allen Jahren, in denen das Wort gesungen wird, zusammenzählst.

💡 Tipp: Der erste Schritt besteht darin, aus dem gesamten DataFrame `songkorpus_labelled_rows` ein kleineres sog. *Sub-DataFrame* zu erstellen, das mit einer neuen Variablen referenziert wird. Der zweite Schritt besteht darin, eine Series aus diesem Sub-DataFrame "herauszuschneiden", die Du anschließend wie eine Liste behandeln kannst, um schließlich zur Anzahl der Nennungen von "Dresden" zu gelangen.

In [None]:
dresden = songkorpus_labelled_rows.loc["Dresden"] #erst greifen wir auf alle Zeilen zu, die "Dresden" als Label haben und weisen das Resultat der Variablen "dresden" zu
occurrences_per_year = dresden["Häufigkeit"] #anschließend greifen wir auf die Spalte "Häufigkeit" im Sub-DataFrame "dresden" zu und weisen die resultierende Series der Variablen "occurrences_per_year" zu

#nun iterieren wir über "occurrences_per_year" wie bei einer Liste und erhöhen die Zählvariable "total" um den jeweiligen Zeilenwert
total = 0
for year in occurrences_per_year:
    total += year
    
print(total)

***

✏️ **Lösung 4:** Füge `songkorpus` eine weitere Spalte mit dem Namen "Länge" hinzu, in der die Anzahl Buchstaben je Token steht.

In [None]:
lengths = []
for token in songkorpus["Token"]:
    length = len(str(token)) #Casten in string ist nötig, da manche Tokens Zahlen sind und Zahlen keine Länge haben, vgl. zweites Notebook
    lengths.append(length)
    
songkorpus["Länge"] = lengths

songkorpus.head()

***

✏️ **Lösung 5:** Vereinfache den Code von oben, mit dessen Hilfe wir die Spalte "Dekade" hinzugefügt haben, indem Du ihn mittels List Comprehension (vgl. viertes Notebook) auf eine einzige Zeile reduzierst. Hole den Abschnitt zu List Comprehensions nach, falls Du ihn damals ausgelassen hast, da er als fortgeschritten markiert war.

Hinweis: `songkorpus` verfügt ja bereits über eine Spalte mit der Bezeichnung "Dekade". Indem Du das Resultat Deiner List Comprehension `songkorpus["Dekade"]` zuweist, überschreibst du die befindliche Spalte ganz einfach.

In [None]:
songkorpus["Dekade"] = [str(year)[:-1] + "0" for year in songkorpus["Jahr"]]
songkorpus.head()

*** 

✏️ **Lösung 6:** Führe die Zelle oben, in der wir `songkorpus` Zeilen mit Fantasiewörtern hinzugefügt haben, noch ein paar Mal aus, ohne darauf zu achten wie oft. Verwende nun `drop` in einer geeigneten Kontrollstruktur (vgl. drittes Notebook) sowie die anfangs eingeführte Variable `original_len`, um die Fantasiewörter wieder zu entfernen und `songkorpus`, was die Anzahl an Zeilen betrifft, wieder in seinen Originalzustand zu bringen. 

In [None]:
#Vorbereitung, die im Lehrnotebook nicht notwendig ist: 
#Wir füngen "new_row", sagen wir, 17 Mal "songkorpus" hinzu
new_row = ["Fantasiewort", 2023, 800, 2020, 12]
for i in range(17):
    songkorpus.loc[len(songkorpus)] = new_row

#hier beginnt die Lösung:
#was im Schleifenkörper steht, wird wiederholt ausgeführt, bis die Länge von "songkorpus"
#kleiner als die ursprüngliche Länge ist, d.h. wir hören auf, wenn beide Werte gleich viel betragen
while len(songkorpus) > original_len:
    #als Index setzen wir die Länge von "songkorpus" minus 1 ein; minus 1, da Indizes bei 0 beginnen
    songkorpus.drop(len(songkorpus)-1, inplace=True)

#hier überprüfen wir das Resultat
songkorpus.tail()

*** 

✏️ **Lösung 7:** Mithilfe von `describe` haben wir oben herausgefunden, dass die durchschnittliche Wortlänge in `songkorpus` 6.88 Buchstaben beträgt. Die maximale Wortlänge beträgt hingegen sagenhafte 53 Buchstaben. Die Verteilung scheint alles andere als gleichmäßig zu sein, was wir auch an den sog. *Quartilen* 25% und 75% sehen (Quartile werden wie der Median berechnet, nur geht es nicht um den Mittelwert sondern um die Werte nach einem Viertel bzw. drei Vierteln aller aufgereihten Werte). Finde heraus, welche Wortlängen für jeweils mindestens 10 % aller Wörter gelten. Finde ebenfalls heraus, welche Wortlängen für jeweils maximal 1 % aller Wörter gelten.

💡 Tipp: Einer von verschiedenen denkbaren Lösungswegen involviert die Tatsache, dass DataFrames und Series mit dictionaries verwandt sind und sich auch in ein solches casten lassen.

In [None]:
lengths = dict(songkorpus["Länge"].value_counts(normalize=True))

min_10_pc = [] 
max_1_pc = []

for key, value in lengths.items():
    if value > 0.1:
        min_10_pc.append(str(key))
    elif value < 0.01:
        max_1_pc.append(str(key))

print("Mind. 10 %:", ", ".join(min_10_pc), "\nMax. 1 %:", ", ".join(max_1_pc))

***



✏️ **Lösung 8:** Wir wissen bereits, wieviele Tokens in unserem DataFrame vorkommen, nämlich 386.510. Finde heraus, wieviele einzigartige Token, also Types (vgl. viertes Notebook) es gibt.

In [None]:
len(songkorpus["Token"].unique())