# 💻 Dateien öffnen, lesen und schreiben

## 1. Textdateien > Unstrukturierte Daten

### A: Schreiben 

In [None]:
# Beispieldaten

first_sentence_prozess = """Jemand musste Josef K. verleumdet haben, 
denn ohne dass er etwas Böses getan hätte, 
wurde er eines Morgens verhaftet. """

second_sentence_prozess = """
Die Köchin der Frau Grubach, 
seiner Zimmervermieterin, 
die ihm jeden Tag gegen acht Uhr früh das Frühstück brachte, 
kam diesmal nicht."""

In [None]:
prozess_file = open("../daten/output/der_prozess.txt", "w")         # Erzeugung eines File-Objekts mit der Funktion open() im Modus w=write

In [None]:
prozess_file.write(first_sentence_prozess)          # Erzeugte und geöffnete TXT-Datei mit Daten anreichern


In [None]:
prozess_file.close()                # Datei explizit wieder schließen, bleibt sonst im Arbeitsspeicher

#### Alternative: Dateien mit dem Kontextmanager öffnen
... das stellt sicher, dass die Datei nach dem Durchlaufen des Codeblocks wieder automatisch geschlossen wird.

In [None]:
with open("../daten/output/der_prozess.txt", "w", encoding="utf-8") as prozess_file:      # with = Kontextmanager; as = für einen Alias
    prozess_file.write(first_sentence_prozess)

In [None]:
with open("../daten/output/der_prozess.txt", "a", encoding="utf8") as prozess_file:             # Modus: append (parameter "a")
    prozess_file.write(second_sentence_prozess)

### B: Textdaten einlesen

In [None]:
with open("../daten/output/der_prozess.txt", "r", encoding="utf-8") as prozess_file:            # Modus = read (parameter "r")
    prozess_content = prozess_file.read()                   # Textdatei in toto einlesen

print(prozess_content)

In [None]:
with open("../daten/output/der_prozess.txt", 'r', encoding="utf-8") as file:
    text_lines = file.readlines()                           # Textdatei zeilenweise einlesen; Output: Liste

print(text_lines)

In [None]:
with open("../daten/output/der_prozess.txt", 'r', encoding="utf-8") as file:
    text_splitlines = file.read().splitlines()              # Textdatei in toto einlesen und an Newlines (\n) aufteilen; Output: Liste

print(text_splitlines)

### 📝 **JETZT:** Aufgabe 1 im Übungsnotebook `U4_dateien-verarbeiten.ipynb`.

- Öffnen Sie die Textdatei `kafka_verwandlung_1915.txt`, die sich im Ordner `daten` befindet. 
- Lesen Sie den Text aus der Datei ein und speichern Sie ihn in der Variablen `metamorphosis`.
- Wenden Sie eine Vorverarbeitungsfunktion auf den eingelesenen Text an. Diese Funktion können Sie aus dem Notebook U3 wiederverwenden. Passen Sie die Funktion jedoch so an, dass sie den bereinigten Text als einen zusammenhängenden String zurückgibt, anstatt als Liste von Wörtern. 
- Speichern Sie den vorverarbeiteten Text in einer neuen Textdatei. Wählen Sie einen geeigneten Dateinamen (z.B. `kafka_verwandlung_1915_preprocessed.txt`), der deutlich macht, dass es sich um die bearbeitete Version des Originaltextes handelt, und speichern Sie die Datei im selben Ordner `daten/output/`. 

⏳ 15 Minuten

In [None]:
# Ihre Lösung

---

## 2. Strukturierte Daten #1: [JSON](https://docs.python.org/3/library/json.html)

In [None]:
import json                                             # Zur Arbeit mit JSON-Dateien: built-in-Bibliothek importieren

In [None]:
with open("../daten/library.json", "r") as json_file:   # Öffnen der Datei wie gewohnt mit Kontextmanager
    library_content = json.load(json_file)              # Einlesen und interpretieren der JSON-Datei dann mit der Funktion load() der JSON-Bibliothek

In [None]:
print(type(library_content))                            # Eingelesene JSON-Dateien können wie Dictionaries verarbeitet werden
print(library_content)

In [None]:
book_list = library_content["books"]                    # Zugreifen bspw. auf alle Informationen, die zum Schlüssel "books" gespeichert sind
book_list

In [None]:
for book in book_list:
    print(f"""Das Buch "{book["title"]}" von "{book['author']}" 
    wurde zuletzt im Jahr {book["editions"][-1]} aufgelegt.\n""")

In [None]:
library_content["owner"] = "Max Münstermann"            # Informationen können entsprechend auch geändert werden
library_content

In [None]:
with open("../daten/output/library_version_2.json", "w") as json_file:
    json.dump(library_content, json_file)                   # Speichern von Dictionaries als JSON-Datei

**Jetzt:** Testweise die neu erstellte JSON im Editor öffnen.

In [None]:
with open("../daten/output/library_version_2.json", "w") as json_file:
    json.dump(library_content, json_file, indent = 4, ensure_ascii=False)           # Speichern von Dictionaries als JSON-Datei mit Layout-Informationen > verbessert die Lesbarkeit; außerdem: Kodierung spezifizieren


### 📝 **JETZT:** Aufgabe 2 im Übungsnotebook `U4_dateien-verarbeiten.ipynb`.

- Lesen Sie den in der vorherigen Aufgabe vorverarbeiteten Text aus der Datei `kafka_verwandlung_1915_preprocessed.txt` als String ein und speichern ihn in der Variablen `metamorphosis`.

- Verwenden Sie die Funktion aus Aufgabe 3 in Notebook U3, um die Worthäufigkeiten in dem eingelesenen Text zu ermitteln. Diese Funktion nimmt einen Text als Eingabe und gibt ein Dictionary zurück, das die Wörter des Textes als Schlüssel und ihre jeweiligen Häufigkeiten als Werte enthält.

- Speichern Sie das Dictionary im Ordner `daten/output/` in eine Datei mit dem Dateinamen `kafka_verwandlung_1915_frequencies.json`. Importieren Sie dazu das Modul `json` und verwenden Sie speziell die Funktion `json.dump()`, um die Daten direkt in die JSON-Datei zu schreiben; denken Sie dabei auch an die Indentierung.

⏳ 15 Minuten

In [None]:
# Ihre Lösung

---

## Strukturierte Daten #2: [CSV](https://docs.python.org/3/library/csv.html)

### Option A: Inhalte als Listen einlesen, verarbeiten und schreiben

In [None]:
# Zur Arbeit mit CSV-Dateien: built-in-Bibliothek importieren
import csv

#### CSV-Dateien lesen

In [None]:
with open("../daten/books.csv", "r") as csv_file:
    books_reader = csv.reader(csv_file, delimiter = ";")

    for row in books_reader:
        print(row)

In [None]:
with open("../daten/books.csv", "r") as csv_file:
    books_reader = csv.reader(csv_file, delimiter = ";")

    headers = next(books_reader)              # Header in books_reader überspringen und an Variable headers übergeben  
    print(headers)

    for row in books_reader:
        print(f"Buch-ID: {row[0]}")
        print(f"Titel: {row[1]}")
        print(f"Autor:in: {row[2]}")
        print(f"Erscheinungsjahr: {row[3]}")
        print("---")

#### CSV-Dateien schreiben

In [None]:
with open("../daten/output/more_books.csv", "w", newline="") as csv_file:
    books_writer = csv.writer(csv_file, delimiter = ",")

    header = ["ID", "Titel", "Autor:in", "Erscheinungsjahr"]
    books_writer.writerow(header)

    book_id = 1
    new_title = "Die Pest"
    new_author = "Albert Camus"
    new_year = "1947"
    new_book = [book_id, new_title, new_author, new_year]

    books_writer.writerow(new_book)

    book_id = book_id + 1
    new_book = [book_id, "The Hobbit", "John R. R. Tolkien", "1937"]

    books_writer.writerow(new_book)

### Option B: Inhalte als Dictionaries einlesen, verarbeiten und schreiben

In [None]:
with open("../daten/books.csv", "r") as csv_file:
    books_reader = csv.DictReader(csv_file, delimiter = ";")

    for row in books_reader:
        print(row["Titel"])
        print(row["Erscheinungsjahr"])

In [None]:
with open("../daten/output/more_books.csv", "w", newline="") as csv_file:
    
    header = ["ID", "Titel", "Autor:in", "Erscheinungsjahr", "verfügbar"]
    books_writer = csv.DictWriter(csv_file, fieldnames=header)
    books_writer.writeheader()

    more_input = True
    book_id = 1

    while(more_input == True):
        title = input("Geben Sie einen Titel ein: ")
        author = input("Geben Sie eine Autor:in ein: ")
        year = input("Geben Sie ein Erscheinungsjahr ein: ")
        available = input("Ist das Buch verfügbar? (ja|nein) ")
        more_input_answer = input("Möchten Sie weitere Titel eingeben? (j|n) ")

        new_book = {"ID": book_id,
            "Titel": title,
            "Autor:in": author,
            "Erscheinungsjahr": year,
            "verfügbar": available}

        books_writer.writerow(new_book)
        book_id = book_id + 1

        if more_input_answer == "n":
            more_input = False

### 📝 **JETZT:** Aufgabe 3 im Übungsnotebook `U4_dateien-verarbeiten.ipynb`.

- Definieren Sie eine Liste von Büchern, wobei jedes Buch durch ein Dictionary repräsentiert wird. Jedes Dictionary soll folgende Schlüssel haben: Titel, Autor:in und Erscheinungsjahr.

- Verwenden Sie das `csv`-Modul, um eine CSV-Datei mit den Buchinformationen zu erstellen. Die erste Zeile der CSV-Datei soll die Spaltenüberschriften enthalten.

- Speichern Sie die CSV-Datei unter einem geeigneten Dateinamen in dem Ordner `output`.

⏳ 15 Minuten

In [None]:
# Ihre Lösung