# 📝 Übung: Dateien verarbeiten

## Aufgabe 1: Verarbeitung einer Textdatei

- Öffnen Sie die Textdatei `kafka_verwandlung_1915.txt`, die sich im Ordner `daten` befindet. 

- Lesen Sie den Text aus der Datei ein und speichern Sie ihn in der Variablen `metamorphosis`.

- Wenden Sie eine Vorverarbeitungsfunktion auf den eingelesenen Text an. Diese Funktion können Sie aus dem Notebook U3 wiederverwenden. Passen Sie die Funktion jedoch so an, dass sie den bereinigten Text als einen zusammenhängenden String zurückgibt, anstatt als Liste von Wörtern. 

- Speichern Sie den vorverarbeiteten Text in einer neuen Textdatei. Wählen Sie einen geeigneten Dateinamen (z.B. `kafka_verwandlung_1915_preprocessed.txt`), der deutlich macht, dass es sich um die bearbeitete Version des Originaltextes handelt, und speichern Sie die Datei im Ordner `daten/output`. 

⏳ 15 Minuten

In [None]:
# Textdatei öffnen
with open("../daten/kafka_verwandlung_1915.txt", "r", encoding="utf-8") as file:
    # Text einlesen und in Variablen speichern
    metamorphosis = file.read()

In [None]:
# Text vorverarbeiten, dazu kann die Funktion aus U3 wiederverwendet werden
def preprocess_text(text):

    """The function returns a list object containing preprocessed words.
    Preprocessing steps include: removal of punctuation and stopwords, lowercasing
    and tokenization based on whitespaces.
    
    Args: string
    Returns: list of preprocessed tokens
    """

    # Entfernen der Satzzeichen
    punct = ".,;:!?\"'"   # beliebig erweiterbar, alternativ: Liste
    for char in punct:
        text = text.replace(char, "")

    # Lower-casing
    text = text.lower()

    # Tokenisierung anhand von Whitespaces
    tokens = text.split()

    # Entfernen von Stoppwörtern
    stopwords = ["ein", "der", "das", "die", "und", "sowie", "ist"] # beliebig erweiterbar, Bibliotheken wie NLTK bieten umfangreiche Stoppwortlisten

    token_list = []

    for token in tokens:
        if token not in stopwords:
            token_list.append(token)

    preprocessed_text = " ".join(token_list)

    # Ausgabe des bereinigten Textes
    return preprocessed_text


# Anwendung der Funktion auf den eingelesenen Text
preprocessed_text = preprocess_text(metamorphosis)

In [None]:
# Speichern des vorverarbeiteten Texts in eine neue TXT-Datei
with open("../daten/output/kafka_verwandlung_1915_preprocessed.txt", "w", encoding="utf-8") as write_file:
    write_file.write(preprocessed_text)

## Aufgabe 2: Worthäufigkeiten in JSON persistent abspeichern

- Lesen Sie den in der vorherigen Aufgabe vorverarbeiteten Text aus der Datei `kafka_verwandlung_1915_preprocessed.txt` als String ein und speichern ihn in der Variablen `metamorphosis`.

- Verwenden Sie die Funktion aus Aufgabe 3 in Notebook U3, um die Worthäufigkeiten in dem eingelesenen Text zu ermitteln. Diese Funktion nimmt einen Text als Eingabe und gibt ein Dictionary zurück, das die Wörter des Textes als Schlüssel und ihre jeweiligen Häufigkeiten als Werte enthält.

- Speichern Sie das Dictionary im Ordner `daten/output/` in eine Datei mit dem Dateinamen `kafka_verwandlung_1915_frequencies.json`. Importieren Sie dazu das Modul `json` und verwenden Sie speziell die Funktion `json.dump()`, um die Daten direkt in die JSON-Datei zu schreiben; denken Sie dabei auch an die Indentierung.

⏳ 15 Minuten

In [None]:
with open("../daten/output/kafka_verwandlung_1915_preprocessed.txt", "r", encoding="utf-8") as file:
    # Text einlesen und in Variablen speichern
    metamorphosis = file.read()

In [None]:
# Funktion zur Aufgabe 3 in Notebook U3
def count_absolute_frequency(text):
    """The function returns a dictionary object containing the absolute frequency for
    each unique token in a given text.
    
    Args: string
    Returns: dictionary with frequencies
    """

    tokenized_text = text.split()

    # initialize empty dictionary
    frequencies = {}

    # compute absolute frequency
    for token in tokenized_text:
        if token in frequencies:
            frequencies[token] = frequencies[token] + 1
        else:
            frequencies[token] = 1  

    return frequencies

# Anwendung der Funktion auf den eingelesenen Text
metamorphosis_freq = count_absolute_frequency(metamorphosis)

In [None]:
metamorphosis_freq

In [None]:
import json

# Speichern von Dictionaries als JSON-Datei mit Layout-Informationen > verbessert die Lesbarkeit
with open("../daten/output/kafka_verwandlung_1915_frequencies.json", "w", encoding="utf-8") as json_file:
    json.dump(metamorphosis_freq, json_file, indent = 4, ensure_ascii=False)

## Aufgabe 3: Tabellarische Daten erstellen und in einer CSV speichern

- Definieren Sie eine Liste von Büchern, wobei jedes Buch durch ein Dictionary repräsentiert wird. Jedes Dictionary soll folgende Schlüssel haben: Titel, Autor:in und Erscheinungsjahr.

- Verwenden Sie das `csv`-Modul, um eine CSV-Datei mit den Buchinformationen zu erstellen. Die erste Zeile der CSV-Datei soll die Spaltenüberschriften enthalten.

- Speichern Sie die CSV-Datei unter einem geeigneten Dateinamen in dem Ordner `output`.

⏳ 15 Minuten

In [None]:
import csv

# Liste von Büchern
buecher = [
    {"Titel": "Frankenstein", "Autor:in": "Mary Shelley", "Erscheinungsjahr": "1818"},
    {"Titel": "Zum Leuchtturm", "Autor:in": "Virginia Woolf", "Erscheinungsjahr": "1927"},
    {"Titel": "Stolz und Vorurteil", "Autor:in": "Jane Austen", "Erscheinungsjahr": "1813"},
    {"Titel": "Der große Gatsby", "Autor:in": "F. Scott Fitzgerald", "Erscheinungsjahr": "1925"},
    {"Titel": "Beloved", "Autor:in": "Toni Morrison", "Erscheinungsjahr": "1987"}
]

# CSV-Datei erstellen
with open("../daten/output/buecher.csv", mode='w', newline='', encoding='utf-8') as file:
    writer = csv.DictWriter(file, fieldnames=["Titel", "Autor:in", "Erscheinungsjahr"])
    writer.writeheader()  # Spaltenüberschriften schreiben
    for buch in buecher:
        writer.writerow(buch)

print(f"Die CSV-Datei wurde erfolgreich erstellt.")