# Datenanalyse Teil 2 (Lösungen)

☝️ Beachte: Es gibt beim Programmieren fast immer verschiedene Lösungswege. Deine Lösung mag anders aussehen, aber dennoch zum gewünschten Resultat führen. Das richtige Resultat ist das Wichtigste. 

⚠️ Führ folgenden Code aus, bevor Du einzelne Lösungen ausführst. Im Notebook "Datenanalyse" sortieren wir das DataFrame zu einem bestimmten Zeitpunkt. Diese Sortierung nehmen wir im Lösungsnotebook nicht vor, weswegen die Reihenfolge der Zeilen ab einem gewissen Punkt abweicht. Dies ist nicht weiter schlimm und wird bloß erwähnt, dass Du Dich nicht wunderst, warum die Daten zwischen den beiden Notebooks vermeintlich anders ausschauen.

In [None]:
import pandas as pd

#Achtung: anderer Pfad als im Notebook, da das Lösungsnotebook in einem anderen Verzeichnis liegt 
songkorpus = pd.read_csv("../../3_Dateien/Songkorpus/songkorpus_token.tsv", sep="\t", encoding ="utf-8")
    
#Umbenennen der Spalten
songkorpus.columns = ["Token", "Jahr", "Häufigkeit"]

#Anfügen einer Spalte für das Jahrzehnt (hier mittels List Comprehension)
songkorpus["Jahrzehnt"] = [str(year)[:-1] + "0" for year in songkorpus["Jahr"]]

#Anfügen einer Spalte für die Länge der Tokens (hier mittels List Comprehension)
songkorpus["Länge"] = [len(str(token)) for token in songkorpus["Token"]]


✏️ **Lösung 1:** Erstell ein Sub-DataFrame, das nur Tokens beinhaltet, die mindestens 20 Zeichen lang sind.

In [None]:
#Wir erstellen ein neues DataFrame 'long_words', das nur die Zeilen aus dem DataFrame 'songkorpus' enthält, bei denen der Wert in der Spalte 'Länge' größer oder gleich 20 ist.
long_words = songkorpus[songkorpus["Länge"] >= 20]
long_words

***

✏️ **Lösung 2:** Erstell das gleiche Sub-DataFrame wie in Übung 1 (also eines, das nur Tokens beinhaltet, die mindestes 20 Zeichen lang sind), allerdings ohne dabei die Spalte "Länge" zu bemühen. Du kannst dazu eine Methode verwenden, die auch bei normalen strings funktioniert. Stell sicher, dass die Ergebnisse der beiden Übungen identisch sind.

In [None]:
#Anwendung der Methode 'len' (Wichtig: 'str' muss vorangestellt werden) auf die Spalte 'Token'
long_words_2 = songkorpus[songkorpus["Token"].str.len() >= 20]

#Überprüfen, ob die beiden Ergebnisse identisch sind:

#Unsichere Methode, da ja in den Zeilen andere Werte stehen könnten:
print(len(long_words_2) == len(long_words), "\n")

#Sichere Methode, da wir erst sämtliche Werte vergleichen und dann 'True' bzw. 'False' auszählen
same_values = long_words_2 == long_words
print(same_values.value_counts(), "\n") #Es kommt nur jeweils 'True' vor, also sind die beiden Ergebnisse identisch

#'Pandas' bietet dafür auch eine Methode, nämlich 'equals()':
long_words_2.equals(long_words)

*** 

✏️ **Lösung 3:** Oben haben wir die Spalte "Jahrzehnt" basierend auf den Jahreszahlen mithilfe eines ```for```-Loops geschaffen. Geh abermals von der Spalte "Jahr" aus, um eine neue Spalte "Jahrzehnt_ohne_Loop" zu schaffen, allerdings – wie der Name verrät – ohne dafür einen Loop, auch nicht in Form einer List Comprehension, zu benutzen. Mit anderen Worten: Du sollst ```pandas```-Syntax dafür einsetzen. Wenn Dein Code stimmt, ergibt die bereits geschriebene (derzeit auskommentierte) Zeile ```True```.

In [None]:
#Wir greifen auf die Spalte 'Jahr' zu und wenden auf diese mehrere Methoden an:
songkorpus["Jahrzehnt_ohne_Loop"] = songkorpus["Jahr"].astype(str).str.slice(0,-1) + "0"
#Erklärungen zu den verwendeten Methoden:
#'astype' casted in einen string
#'slice' (mit vorangestelltem 'str') übergeben wir den Start- und Endindex (Achtung: runde Klammern), slicen also vom ersten Element bis zum vorletzten
#anschließend fügen wir eine null an.

#Nutzung der Methode 'equals', um die beiden Spalten zu vergleichen
print(songkorpus["Jahrzehnt"].equals(songkorpus["Jahrzehnt_ohne_Loop"]))

songkorpus

***

✏️ **Lösung 4:** Bearbeite die Werte in der Spalte "Token" so, dass jedes Wort, das aus genau fünf Buchstaben besteht, großgeschrieben wird. Einfach weil wir's können! 😉

In [None]:
#Importieren von 'numpy'
import numpy as np 

songkorpus["Token"] = np.where(songkorpus["Länge"] == 5, songkorpus["Token"].str.upper(), songkorpus["Token"])
'''Erklärung: 'np.where' fordert drei Argumente. Zuerst eine Bedingung, als zweites eine Anweisung, die ausgeführt wird, 
wenn die Bedingung wahr ist und als drittes eine Anweisung, die ausgeführt wird, wenn die Bedingung falsch ist.

Konkret: Wenn der jeweilige Wert der Spalte 'Länge' fünf ist, wird die als zweites Argument übergebene Anweisung ausgeführt: 
Das Element in der Spalte 'Token' wird großgeschrieben. Wenn nicht, wird die als drittes Argument übergebene Anweisung
ausgeführt: Das Element in der Spalte 'Token' wird unverändert gelassen.'''

songkorpus

***

✏️ **Lösung 5:** Caste sämtliche Werte in `songkorpus` in strings.

In [None]:
#'applymap' wendet die in Klammern übergegebene Funktion auf das gesamte DataFrame an
songkorpus = songkorpus.applymap(str) #'str' ist ja auch eine Funktion!

#Alternative
#songkorpus = songkorpus.astype(str)
print(type(songkorpus.loc[0]["Jahrzehnt_ohne_Loop"])) #Überprüfung an einem bestimmten Wert

***

🔧 **Anwendungsfall (komplette Lösung):** 

In [None]:
#Achtung: anderer Pfad als im Notebook, da das Lösungsnotebook in einem anderen Verzeichnis liegt 
songkorpus = pd.read_csv("../../3_Dateien/Songkorpus/songkorpus_token.tsv", sep="\t") 
    
songkorpus.columns = ["Token", "Jahr", "Häufigkeit"] #Spalten umbenennen

#Neue Spalte für relative Häufigkeiten schaffen, indem absolute Häufigkeiten durch aufsummierte Häufigkeit pro Jahr geteilt werden (genaue Erklärung s. Schritt-für-Schritt-Anleitung)
total_freq_per_year = songkorpus.groupby(["Jahr"])["Häufigkeit"].sum()
songkorpus["Relative Häufigkeit"] = songkorpus["Häufigkeit"] / songkorpus["Jahr"].replace(total_freq_per_year) 

import matplotlib.pyplot as plt

#Abfragen der zu plottenden Wörter
words = input("Welche Wörter sollen geplotted werden? Bsp.: 'ich, du'.").split(",")
words = [word.strip() for word in words] #Entfernen von etwaigem whitespace bei den zu plottenden Wörtern

#Iterieren über die zu plottenden Wörter
for word in words:
    #Schaffen eines Sub-DataFrame über Filter
    word_df = songkorpus[songkorpus["Token"] == word]
    #Sortieren des Sub-DataFrame nach der Spalte "Jahr" und Zurücksetzen des Index
    word_df = word_df.sort_values(by="Jahr", ascending=True).reset_index()
    #Definieren von x und y, "Jahr" soll auf x-Achse geplotted werden, "Relative Häufigkeit" auf y-Achse
    x = word_df["Jahr"]
    y = word_df["Relative Häufigkeit"]
    #Eigentliches Plotten
    plt.plot(x, y, 'o-')

#Zusätzliches Verfeinern und Beschriften des Plots
plt.title(f"Wortverlaufskurve für {', '.join([word for word in words])}")
plt.xlabel("Jahr")
plt.ylabel("Relative Häufigkeit")
plt.xlim(1967, 2023)
plt.legend(words, loc="best")

***

🔧 **Anwendungsfall (Schritt-für-Schritt-Lösung):**

1. Um sicherzugehen, dass wir wirklich mit den originalen Daten arbeiten, lies die Datei "songkorpus_token.tsv" abermals ein. 

In [None]:
#Achtung: anderer Pfad als im Notebook, da das Lösungsnotebook in einem anderen Verzeichnis liegt 
songkorpus = pd.read_csv("../../3_Dateien/Songkorpus/songkorpus_token.tsv", sep="\t") 

2. Benenn die Spalten in "Token", "Jahr" und "Häufigkeit" um.

In [None]:
songkorpus.columns = ["Token", "Jahr", "Häufigkeit"]

3. Im DataFrame verfügen wir bislang nur über absolute Häufigkeiten. Um die Werte zwischen einzelnen Jahren besser vergleichbar zu machen, wollen wir aber relative Häufigkeiten für die Visualisierung verwenden. Schaff dazu eine Spalte "Relative Häufigkeit", die für jedes Token vermerkt, wie häufig es in Relation zur Summe aller Häufigkeiten aller Tokens im gegebenen Jahr vorkommt. Für diese Berechnung brauchst Du jeweils zwei Werte: erstens die absolute Häufigkeit (bereits in der Spalte "Häufigkeit") und zweitens die Summe aller Häufigkeiten aller Tokens im gegebenen Jahr.


In [None]:
total_freq_per_year = songkorpus.groupby(["Jahr"])["Häufigkeit"].sum()
songkorpus["Relative Häufigkeit"] = songkorpus["Häufigkeit"] / songkorpus["Jahr"].replace(total_freq_per_year) 

4. Installier ggf. ```matplotlib``` über das Terminal oder die Eingabeaufforderung und importier anschließend ```matplotlib.pyplot as plt``` (wieder so eine gängige Abkürzung). ```matplotlib``` ist die Bibliothek, die wir zum Visualisieren unserer Daten verwenden. Mithilfe der Funktion ```plot(x, y)``` (denk an den Modulnamen davor) können wir einfach Grafiken produzieren. ```x``` ist dabei eine Liste oder Series an Werten, die auf der x-Achse abgebildet werden sollen und ```y``` eine Liste oder Series derjenigen Werte, die auf der y-Achse dargestellt werden sollen. ```x``` und ```y``` müssen gleich lange sein. Konkret wird der erste Punkt in der Grafik bei den Koordinaten ```x[0]``` und ```y[0]``` eingezeichnet, der zweite bei ```x[1]``` und ```y[1]```, etc. Standardmäßig werden die einzelnen Punkte wie oben zu einem Graphen verbunden. Schau in den Beispieldarstellungen oben, welche Werte wir entlang der x-Achse bzw. entlang der y-Achsen plotten wollen. 

In [None]:
#'pip(3) install matplotlib' zur Installation von 'matplotlib' via Terminal/Eingabeaufforderung

import matplotlib.pyplot as plt

5. Definier eine Liste an Wörtern, die Du visualisieren möchtest. Diesen Schritt kannst Du auch interaktiv umsetzen, sodass Du bei jeder Ausführung aufgefordert wirst, Wörter zur Visualisierung anzugeben.

In [None]:
#Statische Definition
words = ["ich", "du", "er", "sie"]

#Interaktive Abfrage
#words = input("Welche Wörter sollen geplotted werden? Bsp.: 'ich, du'.").split(",")
#words = [word.strip() for word in words] #Entfernen von etwaigem whitespace bei den zu plottenden Wörtern

6. Plotte nun nacheinander eine Verlaufskurve für jedes Wort auf der Liste. Geh dazu für jedes Wort wie folgt vor:
    - Schaff ein Sub-DataFrame, in dem in der Spalte "Token" nur das gegebene Wort steht.
    - Sortier das Sub-DataFrame aufsteigend nach der Spalte "Jahr" und setz den Index anschließend zurück.
    - Übergib der ```plot```-Funktion die relevanten Spalten des Sub-DataFrame an Stelle von ```x``` und ```y```. Übergib als drittes Argument den string "o-", der den Stil des Graphen (Linie mit Punkten) definiert.

In [None]:
#Iterieren über die zu plottenden Wörter
for word in words:
    #Schaffen eines Sub-DataFrame über Filter
    word_df = songkorpus[songkorpus["Token"] == word]
    #Sortieren des Sub-DataFrame nach der Spalte "Jahr" und Zurücksetzen des Index
    word_df = word_df.sort_values(by="Jahr", ascending=True).reset_index()
    #Definieren von x und y, "Jahr" soll auf x-Achse geplotted werden, "Relative Häufigkeit" auf y-Achse
    x = word_df["Jahr"]
    y = word_df["Relative Häufigkeit"]
    #Eigentliches Plotten
    plt.plot(x, y, 'o-')

#Zusätzliches Verfeinern und Beschriften des Plots (Schritt 7)
plt.title(f"Wortverlaufskurve für {', '.join([word for word in words])}")
plt.xlabel("Jahr")
plt.ylabel("Relative Häufigkeit")
plt.xlim(1967, 2023)
plt.legend(words, loc="best")

7. Nachdem Du alle Wörter der Liste entsprechend geplotted hast, kannst Du **in derselben Zelle** (aber unter dem Code aus Schritt 6) folgende Funktionen verwenden, um den Plot zu verfeinern:
    - ```title```, um einen Titel zu setzen.
    - ```xlabel``` und  ```ylabel```, um die Achsen zu beschriften.
    - ```xlim```, um der x-Achse Grenzen zu setzen, z.&nbsp;B. von 1969 bis 2022 (dies vereinheitlicht die Plots, da diese sonst automatisch an den Wertebereich der zu plottenden Wörter angepasst wird und der Plot dadurch mitunter anders beschnitten sein kann).
    - ```legend```, um eine Legende einzufügen, indem Du der Funktion die Liste mit Wörtern übergibst


***
<table>
      <tr>
        <td>
            <img src="../../3_Dateien/Lizenz/CC-BY-SA.png" width="400">
        </td> 
        <td>
            <p>Dieses Notebook sowie sämtliche weiteren <a href="https://github.com/yannickfrommherz/exdimed-student/tree/main">Materialien zum Programmierenlernen für Geistes- und Sozialwissenschaftler:innen</a> sind im Rahmen des Projekts <i>Experimentierraum Digitale Medienkompetenz</i> als Teil von <a href="https://tu-dresden.de/gsw/virtuos/">virTUos</a> entstanden. Erstellt wurden sie von Yannick Frommherz unter Mitarbeit von Anne Josephine Matz. Sie stehen als Open Educational Resource nach <a href="https://creativecommons.org/licenses/by-sa/4.0/">CC BY SA</a> zur freien Verfügung. Für Feedback und bei Fragen nutz bitte das <a href="https://forms.gle/VsYJgy4bZTSqKioA7">Kontaktformular</a>.
        </td>
      </tr>
</table>