# Lösungen zu den Zusatzübungen zum Notebook "Datenanalyse"

☝️ Beachte 1: Es gibt beim Programmieren fast immer verschiedene Lösungswege. Deine Lösung mag anders aussehen, aber dennoch zum gewünschten Resultat führen. Das richtige Resultat ist das Wichtigste. 

☝️ Beachte 2:  In diesem Notebook arbeiten wir größtenteils mit einer Datei, die Du in Übung 1 selbst herunterladen musst. Die meisten Lösungen lassen sich folglich erst ausführen, wenn Du den korrekten Pfad zur heruntergeladenen Datei bei ```path``` eingesetzt hast. 

☝️ Beachte 3:  Anders als im zweiteiligen Notebook "Datenanalyse" kommt hier auch die dot-Notation für den Spaltenzugriff (```df.column``` statt ```df["column"]```) zum Einsatz.

✏️ **Übung 1:** Lad Dir den Datensatz mit einer Million Sätzen aus deutschsprachigen Nachrichtentexten ("News") aus dem Jahr 2022 von der Seite des Projekts [Wortschatz Leipzig](https://wortschatz.uni-leipzig.de/de/download/German) herunter und speicher ihn an einem sinnvollen Ort. Entpack die Datei (falls das bei Windows auf Anhieb nicht funktioniert, empfiehlt sich das Programm [WinRAR](https://www.winrar.de)) und lies die Datei "deu_news_2022_1M-sentences.txt" mithilfe von pandas ein. Das DataFrame soll ```news_df``` heißen und aus zwei Spalten (```sentence_id``` und ```sentence```) sowie einer Million Zeilen bestehen. Spaltennamen kannst Du mithilfe des ```names```-Argument beim Einlesen definieren. Lass Dir die ersten zehn Zeilen ausgeben.
  
   Befinden sich wirklich eine Million Sätze im DataFrame? Falls dies bei Deinem DataFrame nicht der Fall ist, überleg Dir, was schief gelaufen sein könnte, denn in der Datei "deu_news_2022_1M-sentences.txt" befinden sich garantiert eine Million Sätze.


In [None]:
import pandas as pd #Importieren des Moduls

#Spezifizieren des Pfades zur einzulesenden Datei (hier leer, da individueller Speicherort)
path = ""

"""Einlesen der Daten, Spezifizieren der Spaltennamen, sowie Steuern des Verhaltens bei Anführungszeichen:
Der Parameter 'quoting' löst das Problem, dass mehr als ein Satz in einer Zeile landet. Das Problem entsteht bei Sätzen,
die ein öffnendes Anführungszeichen beinhalten, aber kein schließendes. pandas interpretiert dadurch die folgenden Trennzeichen '\t'
literal anstatt als Trennzeichen bis zum nächsten Anführungszeichen. Indem wir 'quoting=3' spezifizieren, teilen wir pandas mit,
dass KEINE Anführungszeichen beim Einlesen als literal interpretiert werden sollen, vgl. https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html;
Anstatt einer ominösen Drei kannst Du auch zusätzlich das Modul 'csv' importieren und 'quoting=csv.QUOTE_NONE' spezifizieren,
die beiden Optionen sind gleichbedeutend."""
news_df = pd.read_csv(path, sep="\t", encoding="utf-8", names=["sentence_id", "sentence"], quoting=3)

print(news_df.shape) #Ausgabe der Anzahl an Spalten und Zeilen des DataFrame: das DataFrame sollte eine Million Zeilen umfassen
news_df.head(10) #Ausgabe der ersten zehn Zeilen

***
✏️ **Übung 2:** Find heraus, ob es in den deutschsprachigen Nachrichten 2022 häufiger um die Ukraine oder Corona ging (unter der Annahme, dass der Datensatz repräsentativ für die deutschsprachigen Nachrichten ist).

In [None]:
ukraine = news_df[news_df.sentence.str.contains("Ukraine")] #Filtern des DataFrame nach dem Vorkommen von "Ukraine" in der Spalte "sentence"
corona = news_df[news_df.sentence.str.contains("Corona")] #Filtern des DataFrame nach dem Vorkommen von "Corona" in der Spalte "sentence"

#Ausgabe der Länge der beiden Sub-DataFrames
print("Sätze mit 'Ukraine':", len(ukraine))
print("Sätze mit 'Corona':", len(corona))

***
✏️ **Übung 3:** Schaff eine zusätzliche Spalte im DataFrame, in der die jeweilige Länge des Satzes in Wörtern verzeichnet ist.

   Wie lang ist der längste Satz? Wie lang ist der kürzeste Satz? Und was ist die durchschnittliche Satzlänge?

   Lass Dir den längsten sowie den kürzesten Satz ausgeben!

In [None]:
news_df["length"] = news_df.sentence.str.count(" ") + 1 #Zählen der Leerschläge und Addieren von eins, um Anzahl Wörter pro Satz auszurechnen
print(news_df.length.max(), news_df.length.min(), news_df.length.mean()) #Ausgabe des maximalen, minimalen und durchschnittlichen Werts in der Spalte "length"

#Filtern des DataFrame danach, dass in der Spale "length" der maximale bzw. minmale Wert verzeichnet steht, Ausgabe der Werte mithilfe der 'values'-Methode (um nur die Werte zu erhalten)
print(news_df[news_df.length == news_df.length.max()].sentence.values)
print(news_df[news_df.length == news_df.length.min()].sentence.values)

***
✏️ **Übung 4:** Sortier das DataFrame nach der Länge der Sätze in absteigender Reihenfolge. Welcher Schritt ist anschließend noch sinnvoll?

In [None]:
#Sortieren des DataFrame nach den Werten der Spalte "length" sowie sinnvollerweise Zurücksetzen der Indizes inkl. "droppen" der alten Indizes
news_df = news_df.sort_values("length", ascending=False).reset_index(drop=True)
news_df

***
✏️ **Übung 5:** Bereinige sämtliche Sätze derart, dass Sonderzeichen von allen Wortanfängen und -enden entfernt werden. Dazu steht Dir die Liste ```special_signs``` zur Verfügung. Groß- und Kleinschreibung sollst Du beibehalten. Jeder Satz soll auch nach dem Preprocessing als ein string vorliegen. 
    
<details>
    <summary>🦊 Herausforderung </summary>
    <br>Verwend maximal eine Zeile zur Bereinigung der Sätze.
</details>

In [None]:
special_signs = ['‰', ':', '§', '´', '.', '́', ';', '❓', '‑', '”', ')', ',', '<', '″', '»', '−', '✔', '•', '"', '`', '〉', '†', '*', '>', '&', "'", '‹', '/', '‚', '®', '°', '‒', '▶', '(', '%', '‘', '€', '«', 'Ł', '═', '„', '!', '–', '?', '-', '︎', '—', '“', '·', '…', '‟', '‡','’', '$', 'ł', '~', '™', '›', '+']
specials_signs_str = "".join(special_signs) #Casten in string, da strip-Methode einen string mit zu strippenden Zeichen erwartet

#Definieren einer eigenen Funktion, die unten auf jeden Satz angewandt wird
def preprocessing(sentence):
    words = sentence.split(" ") #Splitten in Wörter
    #Bereinigen der Wörter (leere strings werden durch if-Bedingung übersprungen)
    preprocessed_words = [word.strip(specials_signs_str) for word in words if len(word.strip(specials_signs_str)) > 0] 
    return " ".join(preprocessed_words) #Rückgabe eines wieder als string zusammengesetzten Satzes mit bereinigten Wörtern

#Überschreiben der Spalte "sentence"
news_df["sentence"] = news_df.sentence.apply(preprocessing) #Anwenden der benutzerdefinierten Funktion auf alle Zeilen in der Spalte "sentence"

#Herausforderung
#news_df["sentence"] = news_df.sentence.apply(lambda sentence: " ".join([word.strip(specials_signs_str) for word in sentence.split(" ") if len(word.strip(specials_signs_str)) > 0]))

news_df

***
✏️ **Übung 6:** Mit welchen zehn Wörtern beginnen die Nachrichtensätze am häufigsten?

In [None]:
#Splitten der Sätze in Wörter, Indizieren des ersten Elements, Berechnen der Häufigkeitsverteilung und Ausgabe der obersten zehn Elemente
news_df.sentence.str.split(" ").str[0].value_counts().head(10) 

***
✏️ **Übung 7:** Und mit welchen zehn Wörtern enden die Nachrichtensätze am häufigsten?

In [None]:
#Splitten der Sätze in Wörter, Indizieren des letzten Elements, Berechnen der Häufigkeitsverteilung und Ausgabe der obersten zehn Elemente
news_df.sentence.str.split(" ").str[-1].value_counts().head(10) 

***
✏️ **Übung 8:** Wortschatz Leipzig stellt nicht nur eine Million Sätze zur Verfügung, sondern listet auch auf, wann und von welchem Nachrichtenportal die Sätze extrahiert wurden. Diese Informationen sind jedoch in zwei weiteren Dateien gespeichert, die Du ebenfalls bereits heruntergeladen und entpackt hast. Sämtliche Quellen sowie Daten (wann wurde der Satz heruntergeladen?) sind in "deu_news_2022_1M-sources.txt" aufgelistet und mit Quellen-IDs versehen, die Zuordnung zwischen Quellen-ID und Satz-ID findet sich wiederum in "deu_news_2022_1M-inv_so.txt".

Deine Aufgabe ist es nun, diese Informationen (Quelle und Datum) mit dem DataFrame ```news_df``` zu vereinen. Dazu bietet sich eine Dir vermutlich noch unbekannte Methode namens ```merge``` an. Informier Dich [hier](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.merge.html) über die Methode. Bei ```merge``` kannst Du mithilfe des ```on```-Parameters spezifizieren, auf Basis der Werte welcher Spalte die Zusammenführung zweier DataFrames erfolgen soll. Wichtig ist dabei, dass der angegebene Spaltenname in beiden DataFrames existiert. Stell sicher, dass Du am Ende immer noch eine Million Sätze in Deinem DataFrame hast, sowie dass keine fehlenden Werte (die etwa aufgrund eines falschen Mergings eingetragen wurden) darin vorkommen. Verwend dazu entweder ```if```-Bedingungen, oder, eleganter, ```assert```-Statements (mehr dazu [hier](https://realpython.com/python-assert-statement/#getting-to-know-assertions-in-python)). 
    
Überprüf abschließend bei ein paar Quellenlinks, ob die jeweiligen Sätze tatsächlich auf der entsprechenden Website zu finden sind.
    
⚠️ Achtung: Wenn Du mehrfach hintereinander dieselben DataFrames zusammenfügst, riskierst Du einen ```KeyError``` bei der als ```on```-Parameter übergebenen Spalte. Die Fehlermeldung rührt daher, dass pandas bei mehrmaligem Mergen bereits existierende Spaltennamen um ein Suffix ergänzt, da Spaltennamen einzigartig sein müssen. Schaff deshalb als erstes eine Kopie von ```news_df``` mithilfe von ```news_df_enriched = news_df.copy()``` und arbeite fortan mit ```news_df_enriched```. Jedes Mal, wenn Du die ganze Zelle ausführst, um die DataFrames zu mergen, passiert dies somit auf Basis einer (immer wieder) neu erstellten Kopie.

In [None]:
news_df_enriched = news_df.copy()

#Spezifizieren der Pfade zur einzulesenden Datei (hier leer, da individueller Speicherort)
sources = pd.read_csv("", sep="\t", quoting=3, names=["source_id", "source", "date"], encoding="utf-8")
mapping = pd.read_csv("", sep="\t", quoting=3, names=["source_id", "sentence_id"], encoding="utf-8")

news_df_enriched = news_df_enriched.merge(mapping, on="sentence_id") #Zusammenführen von 'news_df' und 'mapping', basierend auf Werten der Spalte "sentence_id"
news_df_enriched = news_df_enriched.merge(sources, on="source_id") #Zusammenführen von 'news_df' (jetzt mit "source_id" aus vorangegangenem Merging) und 'sources', basierend auf Werten der Spalte "source_id"

#Überprüfen, ob Länge von 'news_df' immer noch eine Million mithilfe des 'assert'-Statements
assert len(news_df_enriched) == 1000000

"""Überprüfen, ob fehlende Werte in 'news_df' vorkommen mithilfe von 'isna()', das ein DataFrame mit True/False für jede
einzelne Zelle ausgibt. False ist bei Python gleichbedeutung mit null (True mit eins), weswegen wir die 'sum'-Methode anhängen können,
die standardmäßig spaltenweise aufsummiert, wobei immer noch jede Spalte null ergeben sollte. Anschließend können wir auf die
resultierende Series noch einmal 'sum()' anwenden, um die Spaltensummen zusammenzuzählen. Ergibt dies immer noch null, finden sich
keinerlei fehlende Werte in 'news_df_enriched'. Lass Dir ggf. Zwischenschritte ausgeben, um das Ergebnis nachvollziehen zu können."""
assert news_df_enriched.isna().sum().sum() == 0

#Ausgabe von ein paar Links zur manuellen Überprüfung, ob Sätze tatsächlich aus der jeweiligen Quelle stammen
some_indices = [330, 8374, 99473]
for index in some_indices:
    print(news_df_enriched.loc[index, "sentence"], "sollte von", news_df_enriched.loc[index, "source"], "stammen. Stimmts?")

***
✏️ **Übung 9:** Füg eine weitere Spalte namens ```country``` hinzu, die basierend auf der Top-Level-Domain (TLD) des Quellenlinks (z.&nbsp;B. ".de" oder ".ch") angibt, aus welchem Land der jeweilige Nachrichtensatz stammt. Dies lässt sich am leichtesten mithilfe eines regulären Ausdrucks (vgl. Notebook "Reguläre Ausdrücke") und der Methode```findall``` umsetzen. Wenn Du bereits Erfahrung mit regulären Ausdrücken hast, probier Dich gern daran aus. Sonst kannst Du die Aufgabe natürlich aber auch ohne reguläre Ausdrücke lösen.

<details>
    <summary>🦊 Herausforderung </summary>
    <br>Lass Dir eine schön formatierte Übersicht über die absolute und eine relative Häufigkeitsverteilung der Länder ausgeben. Folgender Screenshot ist eine Idee für die Formatierung, Du kannst es aber auch anders umsetzen:<br><br>
    <img src="../../3_Dateien/Grafiken_und_Videos/tld_overview.png" width="300"/>
</details> 

In [None]:
#Lösungsweg ohne RegEx
news_df = news_df_enriched #"Zurückverweisen" von 'news_df_enriched' auf 'news_df', da dies der simplere Variablenname ist

#Schaffen einer neuen Spalte, damit die "source"-Spalte im Folgenden nicht unwiderruflich überschrieben wird
'''Zunächst verrät uns ein Blick in die Daten in einem Editor, dass alle Links gleich aufgebaut sind. Nachdem wir an Schrägstrichen splitten,
sehen wir dass das dritte Element der entstehenden Liste die TLD jeweils als letzte Buchstaben enthält. Wir greifen auf das dritte Element
über seinen Index (2) zu.'''
news_df["country"] = news_df.source.str.split("/").str[2]

'''Nun müssen wir noch am Punkt splitten und das letzte Element, was unserer TLD entspricht, in die Spalte schreiben. 
Damit ist "country" fertig.'''
news_df["country"] = news_df.country.str.split(".").str[-1]

#Lösungsweg mit RegEx
import re
news_df = news_df_enriched #"Zurückverweisen" von 'news_df_enriched' auf 'news_df', da dies der simplere Variablenname ist

#Definieren der RegEx: ein Punkt (escaped mit Backslash), gefolgt von zwei oder mehr kleingeschriebenen Buchstaben, gefolgt von Schrägstrich (escaped mit Backslash)
pattern = r"\.[a-z]{2,}\/"

"""Schaffen einer neuen Spalte, die jeweils das erste Element (Index null) der durch 'findall(pattern)' produzierten Liste 
mit Regex-Matches beinhält (bereinigt vom Punkt zu Beginn und dem Schrägstrich am Ende)"""
news_df["country"] = news_df.source.str.findall(pattern).str[0].str.strip("./") 

#Herausforderung
#Schaffen zweier dictionaries mit den absoluten und relativen Häufigkeitsverteilungen (dictionaries eignen sich besser als Series für die Iteration unten)
absolute, relative = dict(news_df.country.value_counts()), dict(news_df.country.value_counts(normalize=True))

#Ausgabe einer Überschrift sowie eines horizontalen Trennbalkens, Formatierung mithilfe von f-strings
print(f"{'TLD':10}{'Absolute':>10}{'Relative':>10}\n{'-'*30}")

#Iteration über eines der beiden dictionaries, Ausgabe des Schlüssels sowie der beiden Werte aus den dictionaries, Formatierung mithilfe von f-strings
for key, val in absolute.items():
    print(f"{key:10}{val:10}{relative[key]:10.3f}")

***
✏️ **Übung 10:** Schaff ein Sub-DataFrame mit Nachrichtensätzen aus dem [DACH](https://de.wikipedia.org/wiki/D-A-CH)-Raum.

In [None]:
#Schaffen eines Sub-DataFrame, indem 'news_df' in der Spalte "country" nach den Werten "de", "at" und "ch" gefiltert wird
dach_df = news_df[news_df.country.isin(["de", "at", "ch"])]
#Alternativ:
dach_df.head() #Ausgabe der obersten Zeilen des Sub-DataFrame

***
✏️ **Übung 11:** Zum Schluss wollen wir noch überprüfen, ob das Sampling der Nachrichtensätze im Datensatz einigermaßen repräsentativ für die deutschsprachigen Länder ist, wobei wir uns der Einfachheit halber wieder auf den DACH-Raum beschränken. Deutschland ist ungefähr um den Faktor zehn größer als Österreich resp. die Schweiz (überprüf gerne die aktuellen Einwohner:innenzahl der drei Länder). Entsprechend sollten zirka zehn mal so viele Nachrichtensätze aus Deutschland stammen als aus Österreich bzw. der Schweiz. Gleichzeitig sollte der Anteil an Nachrichtensätzen aus Deutschland, Österreich und der Schweiz aber auch einigermaßen gleichmäßig über das Jahr 2022 verteilt sein. Idealerweise wurden nicht bloß im Januar Schweizer Quellen, im Februar österreichische und den Rest des Jahres deutsche gesammelt... Die Verteilung nach Land über die Monate des Jahres 2022 hinweg wollen wir uns als Plot ausgeben lassen. Bevor Du diesen Plot erstellst, führ folgende Vorbereitungsschritte aus:

- Wenn Du Dir die Daten (wann wurde der Satz heruntergeladen?) in ```news_df``` anschaust (z.&nbsp;B. mittels ```news_df[~news_df.date.str.startswith("2022")])```, siehst Du, dass einige unrealistische Daten dabei sind. Da hat wohl das Web-Scraping bzw. das Postprocessing versagt... Filter das DataFrame derart, dass nur Sätze aus dem Jahr 2022 übrigbleiben.
- Da wir die Verteilung anstatt über 365 Tage vereinfacht über zwölf Monate hinweg plotten wollen, schaff eine neue Spalte mit dem jeweiligen Extraktionsmonat des Nachrichtensatzes. Sortier das DataFrame anschließend nach den Werten dieser neuen Spalte.
    </br></br>
    
Analysier nun folgenden Plot und erstell ihn anschließend selbst. Überleg Dir abschließend, ob das Sampling repräsentativ für die Größe der DACH-Länder über die Monate hinweg ist.
    
    
<img src="../../3_Dateien/Grafiken_und_Videos/news_dach.png" width="600"/> </br>

    

In [None]:
import matplotlib.pyplot as plt #Importieren von 'matplotlib.pyplot'

dach_df = dach_df[dach_df.date.str.startswith("2022")] #Wegfiltern von Daten außerhalb des Jahres 2022

dach_df["month"] = dach_df.date.str.split("-").str[1] #Schaffen einer neuen Spalte mit Monaten durch Splitten nach "-" und Indizieren des zweiten Elements

dach_df = dach_df.sort_values("month", ascending=True) #Sortieren des DataFrame nach Monat

tlds = ["de", "at", "ch"] #Definieren einer Liste mit DACH-TLDs

#Iterieren über die TLDs
for tld in tlds:
    tld_df = dach_df[dach_df.country == tld] #Schaffen eines Sub-DataFrame mit Nachrichtensätzen nur aus dem jeweiligen Land
    x = tld_df.month.unique() #Definieren der Werte, die auf der x-Achse geplottet werden (einzigartige Werte in der Spalte "month", d. h. die zwölf Monate)
    """Definieren der Werte, die auf der y-Achse geplottet werden, indem das Sub-DataFrame nach Werten in der Spalte "month" gruppiert wird und für jede Gruppe
    die Anzahl an Zeilen über 'size()' ermittelt wird. Der Wert jeden Monats wird anschließend durch die Gesamtanzahl an Zeilen im jeweiligen Monat in 'dach_df' geteilt,
    um den relativen Anteil des jeweiligen Landes im entsprechenden Monat auszurechnen."""
    y = tld_df.groupby(["month"]).size() / dach_df.groupby(["month"]).size()
    plt.plot(x, y, 'o-') #Plotting im 'o-'-Stil

#Plotten von Titel, Achsenbeschriftungen und Legende
plt.title("Anzahl an Nachrichtensätzen aus den DACH-Ländern")
plt.xlabel("Monate 2022")
plt.ylabel("Anteil an DACH-Quellen/Monat")
plt.legend(tlds, loc="best")

Antwort auf abschließende Frage: Das Sampling ist definitiv gleichmäßig über die Monate hinweg. Der jeweilige Anteil der Länder entspricht einigermaßen ihrer Größenordnung. Obwohl die Einwohner:innenzahlen von Österreich und der Schweiz nicht allzu weit auseinanderliegen, lässt sich der geringere Anteil an Schweizer Quellen im Vergleich zu österreichischen durch die Schweizer Mehrsprachigkeit (Französisch, Italienisch, Rätoromanisch) erklären.

***
<table>
      <tr>
        <td>
            <img src="../../3_Dateien/Lizenz/CC-BY-SA.png" width="400">
        </td> 
        <td>
            <p>Dieses Notebook sowie sämtliche weiteren <a href="https://github.com/yannickfrommherz/exdimed-student/tree/main">Materialien zum Programmierenlernen für Geistes- und Sozialwissenschaftler:innen</a> sind im Rahmen des Projekts <i>Experimentierraum Digitale Medienkompetenz</i> als Teil von <a href="https://tu-dresden.de/gsw/virtuos/">virTUos</a> entstanden. Erstellt wurden sie von Yannick Frommherz unter Mitarbeit von Anne Josephine Matz. Sie stehen als Open Educational Resource nach <a href="https://creativecommons.org/licenses/by-sa/4.0/">CC BY SA</a> zur freien Verfügung. Für Feedback und bei Fragen nutz bitte das <a href="https://forms.gle/VsYJgy4bZTSqKioA7">Kontaktformular</a>.
        </td>
      </tr>
</table>