# Datenanalyse Teil 1 (Lösungen)

☝️ Beachte: Es gibt beim Programmieren fast immer verschiedene Lösungswege. Deine Lösung mag anders aussehen, aber dennoch zum gewünschten Resultat führen. Das richtige Resultat ist das Wichtigste. 

⚠️ Führ folgenden Code aus, bevor Du einzelne Lösungen ausführst. Im Lehrnotebook sortieren wir das DataFrame zu einem bestimmten Zeitpunkt. Diese Sortierung nehmen wir im Lösungsnotebook nicht vor, weswegen die Reihenfolge der Zeilen ab einem gewissen Punkt abweicht. Dies ist nicht weiter schlimm und wird bloß erwähnt, dass Du Dich nicht wunderst, warum die Daten zwischen den beiden Notebooks vermeintlich anders ausschauen.

In [None]:
import pandas as pd

#Achtung: anderer Pfad als im Notebook, da das Lösungsnotebook in einem anderen Verzeichnis liegt 
with open("../../3_Dateien/Songkorpus/songkorpus_token.tsv") as f:
    songkorpus = pd.read_csv(f, sep="\t")

#Umbenennen der Spalten
songkorpus.columns = ["Token", "Jahr", "Häufigkeit"]

tokens = songkorpus["Token"] #Speichern der Werte aus der Spalte 'Token' als Series in der Variable 'tokens'

decades = [] #Initialisieren einer leeren Liste, an die unten die Jahrzehnte angehängt werden

for year in (songkorpus["Jahr"]): #Iterieren über die Werte der Spalte 'Jahr'
    decade = str(year)[:-1] + "0" #Herausslicen der ersten drei Zahlen und ergänzen um eine Null am Ende
    decades.append(decade) #Anhängen an die Liste 'decades'
    
songkorpus["Jahrzehnt"] = decades #Schaffen einer neuen Spalte 'Jahrzehnt', welche mit den Werten aus der Liste 'decades' befüllt wird
original_len = len(songkorpus) #Speichern der Originallänge des DataFrame, da später noch einmal benötigt

*** 

✏️ **Lösung 1:** Erstell eine weitere Series, die nur das 100.000te, 200.000te und 300.000te Token der Series ```tokens``` beinhaltet. 

In [None]:
print(tokens[[100000,200000,300000]]) #Alternative 1: Liste an Indizes (beachte die inneren eckigen Klammern!)
print(tokens[100000::100000]) #Alternative 2: Slicing mit Start-Index 100000 und Step 100000, vgl. Notebook "Datentypen"

*** 

✏️ **Lösung 2:** 

1. Lies die Datei ```songkorpus_tokens.tsv``` abermals ein und übergib beim Erstellen des DataFrame zusätzlich den Parameter ```index_col=0```. Dadurch wird die erste Spalte (mit dem Index ```0```), also diejenige mit den Tokens, zur sog. *Index-Spalte*. Jede Zeile hat nun statt eines numerischen Index einen Namen, nämlich das jeweilige Token. Weis das DataFrame der Variablen ```songkorpus_labelled_rows``` zu. 
2. Benenn die Spalten wie bei ```songkorpus``` um. Falls Du hier eine Fehlermeldung kriegst, lies sie aufmerksam und pass Deinen Code entsprechend an.
3. Überleg Dir, was die Tatsache, dass wir nun Tokens als Zeilennamen verwenden, zur Konsequenz hat. Experimentier dazu gerne mit dem DataFrame herum und greif auf verschiedene Zeilen über Namen zu. 

In [None]:
#Achtung: anderer Pfad als im Notebook, da das Lösungsnotebook in einem anderen Verzeichnis liegt 
songkorpus_labelled_rows = pd.read_csv("../../3_Dateien/Songkorpus/songkorpus_token.tsv", sep="\t", index_col=0) 
#Der Parameter 'index_col=0' sorgt dafür, dass die erste Spalte zur Index-Spalte wird.

#Vergeben von Spaltenbezeichnungen. Beachte: Es müssen nur zwei Spaltentitel vergeben werden, da die erste Spalte als Indexspalte keinen Titel bekommt.
songkorpus_labelled_rows.columns = ["Jahr", "Häufigkeit"] 

#Zu 3.: Zeilennamen können mehrfach vorkommen, beispielsweise "wir":
songkorpus_labelled_rows[songkorpus_labelled_rows.index == "wir"].head()

***

✏️ **Lösung 3:** Setz die Tatsache, dass Zeilennamen mehrfach vorkommen dürfen, produktiv ein und find heraus, wie oft "Dresden" in ```songkorpus_labelled_rows``` vorkommt, indem Du die Häufigkeiten in allen Jahren, in denen das Wort gesungen wird, zusammenzählst.

In [None]:
dresden = songkorpus_labelled_rows.loc["Dresden"] #Erst greifen wir auf alle Zeilen zu, die "Dresden" als Label haben und weisen das Resultat der Variablen 'dresden' zu
occurrences_per_year = dresden["Häufigkeit"] #Anschließend greifen wir auf die Spalte "Häufigkeit" im Sub-DataFrame 'dresden' zu und weisen die resultierende Series der Variablen 'occurrences_per_year' zu

#Drei Alternativen ab hier:

#1. for-Loop
total = 0 #Definieren einer Zählervariable
for year in occurrences_per_year: #Nun iterieren wir über 'occurrences_per_year' wie bei einer Liste.
    total += year #Erhöhen der Zählvariable 'total' um den jeweiligen Zeilenwert
print(total)

#2. 'sum'-Funktion
print(sum(occurrences_per_year))

#3. 'sum'-Methode von pandas
print(occurrences_per_year.sum())

***

✏️ **Lösung 4:** Füg ```songkorpus``` eine weitere Spalte mit dem Namen "Länge" hinzu, in der die Anzahl an Buchstaben je Token steht.

In [None]:
lengths = [] #Initialisieren einer leeren Liste, an die unten die Tokenlängen gehängt werden

for token in songkorpus["Token"]: #Iterieren über die Spalte 'Token'
    length = len(str(token)) #Casten in string ist nötig, da manche Tokens Zahlen sind und Zahlen keine Länge haben, vgl. Notebook "Datentypen"
    lengths.append(length) #Anhängen der Zahlenwerte an die Liste 'lengths'
    
songkorpus["Länge"] = lengths #Schaffen einer neuen Spalte, welcher die Werte aus 'lengths' übergeben werden

songkorpus.head() #Ausgeben der ersten fünf Zeilen zur Kontrolle

***

✏️ **Lösung 5:** Vereinfache den Code von oben, mit dessen Hilfe wir die Spalte "Jahrzehnt" hinzugefügt haben, indem Du ihn mittels List Comprehension (vgl. Notebook "Funktionen und Methoden Teil 1") auf eine einzige Zeile reduzierst. Hol den Abschnitt zu List Comprehensions nach, falls Du ihn damals ausgelassen hast, da er als fortgeschritten markiert war.


In [None]:
#Slicing und Anhängen von null wird nacheinander auf jedes Element der Spalte 'Jahr' angewendet.
#Die bei der List Comprehension errechneten Werte werden direkt genutzt, um eine Spalte 'Jahrzehnt' zu schaffen bzw. diese zu überschreiben.
songkorpus["Jahrzehnt"] = [str(year)[:-1] + "0" for year in songkorpus["Jahr"]]

songkorpus.head() #Ausgeben der ersten fünf Zeilen zur Kontrolle

*** 

✏️ **Lösung 6:** Führ die Zelle oben, in der wir ```songkorpus``` Zeilen mit Fantasiewörtern hinzugefügt haben, noch ein paar Mal aus, ohne darauf zu achten wie oft. Verwend nun ```drop``` in einer geeigneten Kontrollstruktur (vgl. Notebook "Kontrollstrukturen") sowie die anfangs eingeführte Variable ```original_len```, um die Fantasiewörter wieder zu entfernen und ```songkorpus```, was die Anzahl an Zeilen betrifft, wieder in seinen Originalzustand zu bringen. 

In [None]:
#Vorbereitung, die im Lehrnotebook nicht notwendig ist: 
#Wir fügen 'new_row', sagen wir, 17 Mal 'songkorpus' hinzu
new_row = ["Fantasiewort", 2023, 800, 2020, 12]
for i in range(17):
    songkorpus.loc[len(songkorpus)] = new_row

#Hier beginnt die Lösung:
'''Was im Schleifenkörper steht, wird wiederholt ausgeführt, solange die Länge von 'songkorpus'
größer als die ursprüngliche Länge ist, d. h. wir hören auf, wenn beide Werte gleich viel betragen.'''
while len(songkorpus) > original_len:
    #Als Index setzen wir die Länge von 'songkorpus' minus eins ein; minus eins, da Indizes bei null beginnen
    songkorpus = songkorpus.drop(len(songkorpus)-1) #Überschreiben von 'songkorpus', alternativ 'inplace=True' spezifizieren

#Hier überprüfen wir das Resultat
songkorpus.tail()

*** 

✏️ **Lösung 7:** Mithilfe von ```describe``` haben wir oben herausgefunden, dass die durchschnittliche Wortlänge in ```songkorpus``` 6.88 Buchstaben beträgt. Die maximale Wortlänge beträgt hingegen sagenhafte 53 Buchstaben. Die Verteilung scheint alles andere als gleichmäßig zu sein, was wir auch an den sog. *Quartilen* 25% und 75% sehen (Quartile werden wie der Median berechnet, nur geht es nicht um den Mittelwert, sondern um die Werte nach einem Viertel bzw. drei Vierteln aller aufgereihten Werte). Find heraus, welche Wortlängen für jeweils mindestens 10 % aller Wörter gelten. Find ebenfalls heraus, welche Wortlängen für jeweils maximal 1 % aller Wörter gelten.

In [None]:
'''Aufrufen der Spalte 'Länge' und berechnen der Vorkommen pro (einzigartige) Länge.
Mittels 'normalize=True' werden relative Häufigkeiten ermittelt. Die Ergebnisse liegen 
anschließend in der Series 'lengths' vor.'''  
lengths = songkorpus["Länge"].value_counts(normalize=True)

#Als List Comprehension: Itierieren über eine Series funktioniert wie bei einem dictionary
min_10_pc = [str(key) for key, value in lengths.items() if value > 0.1] #Casten des Schlüssels in einen string; wenn 'value' größer als 0,1 ist: abspeichern in einer Liste 
max_1_pc = [str(key) for key, value in lengths.items() if value < 0.01] #Analog zu oben, allerdings mit der Bedingung, dass 'value' nun kleiner als 0,01 sein muss

#Als klassischer for-Loop
min_10_pc = [] 
max_1_pc = []

for key, value in lengths.items(): #Iteration über die Series wie bei einem dictionary 
    if value > 0.1:
        min_10_pc.append(str(key))
    elif value < 0.01:
        max_1_pc.append(str(key))

print("Mind. 10 %:", ", ".join(sorted(min_10_pc)), "\nMax. 1 %:", ", ".join(sorted(max_1_pc))) #Ausgabe der sortierten Ergebnisse

***



✏️ **Lösung 8:** Wir wissen bereits, wie viele Tokens in unserem DataFrame vorkommen, nämlich 386.510. Find heraus, wie viele einzigartige Tokens, also Types (vgl. Notebook "Funktionen und Methoden Teil 2") es gibt.

In [None]:
len(songkorpus["Token"].unique()) #Anwenden der Methode 'unique' auf die Spalte "Token" und printen der Länge 

<br><br>
***
<table>
      <tr>
        <td>
            <img src="../../3_Dateien/Lizenz/CC-BY-SA.png" width="400">
        </td> 
        <td>
            <p>Dieses Notebook sowie sämtliche weiteren <a href="https://github.com/yannickfrommherz/exdimed-student/tree/main">Materialien zum Programmierenlernen für Geistes- und Sozialwissenschaftler:innen</a> sind im Rahmen des Projekts <i>Experimentierraum Digitale Medienkompetenz</i> als Teil von <a href="https://tu-dresden.de/gsw/virtuos/">virTUos</a> entstanden. Erstellt wurden sie von Yannick Frommherz unter Mitarbeit von Anne Josephine Matz. Sie stehen als Open Educational Resource nach <a href="https://creativecommons.org/licenses/by-sa/4.0/">CC BY SA</a> zur freien Verfügung.
        </td>
      </tr>
</table>