# Input und Output Teil 1

In den vergangenen Notebooks haben wir gelernt, dass wir in Python effizient mit Objekten verschiedenster Datentypen arbeiten, indem wir sie Variablen zuweisen. Am Anfang hatten wir es bloß mit kleinen Objekten zu tun – etwa mit einzelnen Wörtern oder, wenn's hoch kam, mit Sätzen. Diese haben wir bei der Variablenzuweisung jeweils komplett ausgeschrieben:

```sentence = "Am Anfang haben wir eine Zeichenkette noch ausgeschrieben."```

Im zweiteiligen Notebook "Funktionen und Methoden" haben wir dann zum ersten Mal mit größeren Objekten gearbeitet, nämlich mit den Koalitionsverträgen. Aufgrund der Größe (und der Tatsache, dass wir die Texte bereits extern in einer Datei vorliegen hatten) haben wir uns die Texte vom externen Speicherort in den Arbeitsspeicher geladen und Variablen zugewiesen.

Da wir fortan häufig mit größeren externen Dateien arbeiten, schauen wir uns in diesem ebenfalls zweigeteilten Notebook genauer an, wie der sog. *Input* von Dateien funktioniert. Ebenso schauen wir uns das andere Ende an, nämlich den *Output* von Dateien, also das Speichern dieser auf einem externen Laufwerk. Im ersten (und teilweise zweiten) Teil des Notebooks geht es also nicht primär darum, wie wir mit Daten *in* Python arbeiten, sondern wie diese Daten überhaupt erst für Python verarbeitbar werden und wie wir sie nach einer Verarbeitung durch Python wiederum für die Welt außerhalb Pythons zugänglich machen. 

Im zweiten Teil lernen wir weiterhin, wie Benutzer:innen über Input für ein laufendes Programm dessen Ablauf beeinflussen oder kontrollieren können (wir haben diese Funktion bereits im Notebook "Kontrollstrukturen" beim Oktopus-Ratespiel benutzt). Dadurch können wir interaktive Programme schreiben. Abschließend gehen wir detailliert auf die allgegenwärtige ```print```-Funktion ein. Diese stellt ja auch eine Form von Output bereit, zwar (standardmäßig) nicht als Datei, aber als Zeichenkette in der Ausgabe.

Auch zum Thema "Input und Output" gibt es wieder einen Anwendungsfall, den wir im zweiten Teil unter Einbezug der meisten hier erlernten Techniken lösen können. Mehr dazu später.

## Dateipfade

Um Dateien von einem bestimmten Ort auf dem Laufwerk einzulesen bzw. an einem bestimmten Ort auszugeben, müssen wir uns mit Dateipfaden vertraut machen. Jede Datei auf Deinem Computer hat bekanntlich einen Namen, ein Dateisuffix (etwa `.txt`, wird z.&nbsp;T. ausgeblendet) und die Datei befindet sich in einem bestimmten Verzeichnis (auch *Ordner* genannt). Dieses Verzeichnis befindet sich wiederum in einem Verzeichnis, und so weiter, bis zum obersten Verzeichnis, dem Stamm des Laufwerks. Jede Datei hat also eine *einzigartige* Adresse und diese Adresse wird *Dateipfad* genannt. 

Wie Du gleich sehen wirst, gibt es zwei Arten, einen Dateipfad anzugeben, nämlich **absolut** und **relativ**. Zusätzlich unterscheiden sich Dateipfade zwischen macOS und Windows. Dateipfade zu verstehen, ist überaus wichtig, um frustrierenden ```FileNotFoundError```-Fehlern vorzubeugen. 

### Absolute Dateipfade
Ein Dateipfad kann immer absolut, d.&nbsp;h. vollständig vom Stamm des Laufwerks bis zur gewünschten Datei, angegeben werden. Um an den absoluten Pfad einer beliebigen Datei heranzukommen, gibt es folgende Tricks:
- Unter **macOS**: Navigier im Finder zur gewünschten Datei und klick die Datei mit zwei Fingern an (Rechtsklick), es öffnet sich ein Menüfenster. Drück die Taste ```Option ⌥```, wodurch sich einige Menüoptionen ändern. Wähl *"Datei" als Pfadname kopieren*. Ein vollständiger Pfad unter macOS sieht z.&nbsp;B. so aus: "/Users/Name/Documents/Project/Folder/Notebook.ipynb". Beachte, dass Schrägstriche "/" verwendet werden sowie, dass der absolute Pfad mit einem Schrägstrich beginnt.
- Unter **Windows**: Navigier im Explorer zur gewünschten Datei und klick diese mit einem Rechtsklick an, während Du ```Shift``` gedrückt hältst. Es öffnet sich ein Menüfenster. Wähl *Als Pfad kopieren*. Ein vollständiger Pfad unter Windows sieht z.&nbsp;B. so aus: "C:\Users\Name\Documents\Project\Folder\Notebook.ipynb". Beachte, dass Backslashes "\\" verwendet werden sowie, dass der absolute Pfad ohne Backslash beginnt. ⚠️ Achtung: Der Backslash "\\" hat bei Python eine Spezialbedeutung innerhalb von strings, wie etwa bei "\n", das bekanntlich für einen Zeilenumbruch steht. Um Python bei einem Windows-Dateipfad mitzuteilen, dass die darin verwendeten Backslashes nicht als Spezialzeichen interpretiert werden sollen, müssen wir ein "r" vor das öffnende Anführungszeichen stellen. Obiger Pfad innerhalb von Python-Code muss also so ausschauen: r"C:\Users\Name\Documents\Project\Folder\Notebook.ipynb".
- Unter **Linux**: Hier gibt es mehrere Möglichkeiten, außerdem kann sich das Vorgehen je nach Distribution etwas unterscheiden. Öffne die Dateiverwaltung, navigier zur gewünschten Datei und klick diese an (Rechtsklick). Wähl nun *Eigenschaften*, dort kannst Du den absoluten Pfad kopieren. Du kannst auch die Datei auswählen und kommst mit ```Shift``` + Rechtsklick in ein Menü, in welchem Du den Pfad kopieren kannst. Alternativ – und das funktioniert unter allen gängigen Linux-Distributionen – kannst Du das Terminal im entsprechenden Ordner öffnen und in die Konsole den Befehl ```pwd``` eingeben. Dir wird anschließend der absolute Dateipfad **zum Ordner** ausgegeben. Du musst ihn dann noch um den Namen der Datei (mit Dateisuffix) ergänzen. Wie auch bei macOS beginnen absolute Pfade mit einem Schrägstrich. 

In ersteren beiden Fällen wird der Pfad in die Zwischenablage kopiert, unter Linux musst Du ihn ggf. noch selbst kopieren. Du kannst den Pfad anschließend in Deinen Code einfügen (am besten mit der Tastenkombination ```command ⌘```+ ```V``` (macOS) / ```Strg```+ ```V``` (Windows, Linux)).

Beachte, dass die obersten Verzeichnisse eines absoluten Pfades, also diejenigen, die vom System vorgegeben sind, z.&nbsp;T. auf Englisch angegeben werden (selbst wenn sie in Deinem Dateimanager auf Deutsch angezeigt werden). Im vollständigen Pfad steht also ggf. *Users* und nicht *Benutzer*. Das geschieht aber automatisch, wenn Du den Pfad wie oben beschrieben kopierst.

***

✏️ **Übung 1:** Navigier in Deinem Dateimanager zu fünf beliebigen Dateien in fünf verschiedenen Verzeichnissen. Kopier die absoluten Dateipfade wie oben beschrieben und weis je einen Dateipfad einer der folgenden Variablen zu (innerhalb der Anführungszeichen).

In [None]:
#In diese Zelle kannst Du den Code zur Übung schreiben (so viel zu coden gibt es hier nicht 😅).

path_file1 = ""
path_file2 = ""
path_file3 = ""
path_file4 = ""
path_file5 = ""

***

### Relative Dateipfade

Ein Dateipfad kann stets auch relativ, d.&nbsp;h. vom aktuellen *Arbeitsverzeichnis* (das ist das Verzeichnis, in dem man sich gerade befindet) aus gesehen, angegeben werden. Am einfachsten ist das natürlich bei einer Datei, die sich im aktuellen Arbeitsverzeichnis befindet. Um auf diese zuzugreifen, geben wir bloß ihren Namen als Pfad an. 

Weiter können wir vom aktuellen Arbeitsverzeichnis aus in ein (darin befindliches) Unterverzeichnis navigieren. Dazu beginnt der relative Pfad mit dem Namen des Unterverzeichnisses, gefolgt von einem Schrägstrich sowie dem Namen der Datei. Diese Schreibweise mit dem Schrägstrich funktioniert innerhalb Pythons auf allen Betriebssystemen. Unsere Schnittstelle zu externen Dateien, die weiter unten vorgestellte `open`-Funktion, kümmert sich bei relativen Pfaden wenn nötig um die Konversion von Schrägstrich zu Backslash. 

Letztlich können wir vom aktuellen Arbeitsverzeichnis aus auch aufwärts (zum Stamm des Laufwerks hin) navigieren. Indem wir zwei Punkte und einen Schrägstrich, also "../", an den Anfang des relativen Pfads stellen, rücken wir eine Ebene nach oben (und durch "../../" zwei Ebenen, etc.). Im Anschluss an den Schrägstrich folgt der Name der Datei, die sich im Oberverzeichnis befindet. Natürlich können wir vom Oberverzeichnis aus auch in ein *anderes* Unterverzeichnis als das aktuelle Arbeitsverzeichnis (eine Art "Schwesterverzeichnis") navigieren.

Relative Dateipfade sind zwar fehleranfälliger als die einfach zu kopierenden, absoluten Dateipfade. Sie sind aber aus dreierlei Gründen zu bevorzugen: Erstens sind sie i.&nbsp;d.&nbsp;R. kürzer. Zweitens funktionieren sie auf allen Betriebssystemen. Drittens sind sie stabiler, da sie auch nach dem Verschieben oder Teilen eines Notebooks funktionieren, sofern die darin aufgerufenen Dateien entsprechend mitverschoben bzw. mitgeteilt wurden. Aus diesem Grund werden in diesen Notebooks auch stets relative Dateipfade verwendet und Du wurdest anfangs darum gebeten, die Ordnerstruktur der heruntergeladenen Dateien nicht zu verändern. Die hier verwendeten, relativen Dateipfade funktionieren solange, wie Du die Ordnerstruktur (konkret: das Verzeichnis "3_Dateien" und die darin befindlichen Ordner und Dateien) nicht veränderst. 

Versuch also immer, **relative** Dateipfade zu verwenden.

## Das `os`-Modul

Im Zusammenhang mit Dateien auf Deinem Laufwerk ist das Modul `os` mit den Funktionen `getcwd`, `chdir` und `listdir` äußerst hilfreich. Sie werden in der folgenden Zelle angewandt und mithilfe von Kommentaren beschrieben:

In [None]:
import os

#Gibt das aktuelle Arbeitsverzeichnis aus ("get current working directory").
print("Aktuelles Arbeitsverzeichnis:", os.getcwd())

"""Mit dieser Funktion könnte man das aktuelle Arbeitsverzeichnis ändern; das tun wir aber nicht, 
da die relativen Dateipfade weiter unten im Notebook sonst nicht mehr korrekt wären (s. o.)."""
#os.chdir("new_path")

"""Gibt die im aktuellen Arbeitsverzeichnis (oder beim in Klammern angegebenen Pfad) befindlichen Unterverzeichnisse 
und Dateien als Liste aus; darunter auch einige, die vom Dateimanager i. d. R. ausgeblendet werden."""
print("\nDarin befindliche Unterverzeichnisse und Dateien: ")
for file in os.listdir():
    print(file)

Denk daran, dass Du ein externes Modul wie ```os``` am Anfang jedes Notebooks importieren musst, um damit arbeiten zu können. 

Wie im Notebook "Funktionen und Methoden Teil 2" erklärt, müssen wir vor den Funktionsnamen jeweils den Modulnamen sowie einen Punkt setzen (z.&nbsp;B. ```os.getcwd```), damit Python weiß, wo sich die gewünschte Funktion befindet. Alternativ könnten wir auch den ```import```-Befehl zu ```from os import getcwd, chdir, listdir``` ändern, um so die entsprechenden Funktionen ohne Modulnamen davor aufzurufen.

Wenn Du es versäumst, ```os``` am Anfang zu importieren, erhältst Du ```NameError: name 'os' is not defined``` zurück. Das ist die gleiche Fehlermeldung, wie wenn Du versuchst, mit einer (noch) nicht definierten Variable zu arbeiten. In beiden Fällen kann Python schlicht nichts mit den *Namen* anfangen.

***

✏️ **Übung 2:** Das aktuelle Arbeitsverzeichnis auf einem Windows-Rechner sei "C:\Users\Name\Documents\Project\Folder". Du möchtest auf eine Datei zugreifen, die folgenden absoluten Dateipfad besitzt: "C:\Users\Name\Documents\Resources\file.csv". Mithilfe welchen relativen Pfads können wir in Python auf "file.csv" zugreifen?

In [None]:
#In diese Zelle kannst Du den Code zur Übung schreiben (immer noch nichts zu coden 😅).




## Die ```open```-Funktion

Die Schnittstelle zu externen Dateien bietet in Python die ```open```-Funktion. Sie öffnet externe Dateien mittels folgender grundlegender Syntax:

```open(file, mode)```

Bei ```file``` setzen wir den absoluten oder relativen Dateipfad zur zu öffnenden Datei ein, und zwar als Zeichenkette, inklusive des **Dateisuffixes** und natürlich umrahmt von **Anführungszeichen**. Über den Parameter ```mode``` müssen bzw. können wir spezifizieren, was wir mit der zu öffnenden Datei machen wollen. ```open``` stellt drei verschiedene Modi zur Verfügung:

- den **Lesemodus** für Input (```"r"```): Dies ist der Standardmodus, der Parameter ```"r"``` wird deswegen i.&nbsp;d.&nbsp;R. weggelassen (vgl. Notebook "Funktionen und Methoden" beim Öffnen der Koalitionsverträge).
- den **Schreibmodus** für Output (```"w"```): Dieser überprüft, ob die angegebene Datei im Verzeichnis existiert; wenn ja, wird deren Inhalt *über*schrieben; wenn nein, wird die Datei geschaffen und *be*schrieben.
- den **"Anhängmodus"** für Output (```"a"``` von *append*): Er überprüft, ob die angegebene Datei im Verzeichnis existiert; wenn ja, werden Daten (z.&nbsp;B. neue Zeilen bei einer Datei in Tabellenform) im Anschluss an die bereits existierenden Daten in der angegebenen Datei angehängt; wenn nein, wird die Datei geschaffen und *be*schrieben.

Zum Schreiben bzw. Anhängen sieht der Funktionsaufruf also so aus:

- ```open(file, "w")``` 
- ```open(file, "a")```

Die ```open```-Funktion akzeptiert neben ```file``` und ```mode``` weitere Parameter, u.&nbsp;a. ```encoding```, wo wir spezifizieren können, *wie* eine Datei enkodiert ist. Das Encoding einer Datei legt fest, nach welchem Schlüssel sämtliche Zeichen (Buchstaben in lateinischer Schrift sowie den allermeisten anderen Sprachen, Zahlen, Emojis...) in Nullen und Einsen übersetzt werden. Natürlich geht nichts ohne den korrekten Schlüssel. [UTF-8](https://de.wikipedia.org/wiki/UTF-8) von [Unicode](https://de.wikipedia.org/wiki/Unicode) ist Standard, sodass wir uns i.&nbsp;d.&nbsp;R. nicht den Kopf darüber zerbrechen müssen. Um Problemen vorzubeugen (insbesondere unter Windows), lohnt es sich trotzdem, standardmäßig ```encoding="utf-8"``` zu spezifizieren, und zwar beim Input sowie beim Output.

### Input

Wie wir bei den Koalitionsverträgen im Notebook "Funktionen und Methoden" bereits gesehen haben, wird die ```open```-Funktion zum Lesen von externen Dateien wie folgt syntaktisch eingebunden:

```with open(file, encoding="utf-8") as read_file:```<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;```variable = read_file.read()```

Wir benutzen hier den sog. ```with```-Kontextmanager: Im ```with```-Statement öffnen wir mittels ```open``` das übergebene ```file``` und weisen die geöffnete Datei direkt einer Variablen zu (hier ```read_file```, aber wie immer kann man einen beliebigen Variablennamen wählen). 

Eingerückt darunter wenden wir die ```read```-Methode auf ```read_file``` an, d.&nbsp;h. die bislang nur geöffnete Datei wird nun eingelesen. Je nachdem, wie die externe Datei formatiert ist, müssen wir ```read``` durch eine andere geeignete Lesemethode ersetzen (s.&nbsp;u.). Das Resultat weisen wir in jedem Fall einer sinnvoll genannten ```variable``` zu. Die externe Datei befindet sich damit als Objekt im Arbeitsspeicher. 

Diese Syntax für den Dateiinput entspricht natürlichsprachlich ungefähr: "Mit (```with```) der zu öffnenden (```open```) Datei (```file```) als (```as```), nennen wir es, ```read_file```, tu alles, was nach dem Doppelpunkt (```:```) darunter eingerückt (```⇥```) steht (hier: lies (```read```) das ```read_file``` und weis es ```variable``` zu (```=```))."

Indem wir anschließend die Einrückung wieder verlassen, schließt der ```with```-Kontextmanager die externe Datei *automatisch*. Die brauchen wir ja auch nicht mehr, da wir deren Inhalt nun in einem Python-Objekt im Arbeitsspeicher haben. Die Verwendung von ```with``` beim Umgang mit externen Dateien ist *Best Practice*. Abweichend davon begegnet man auch folgender Herangehensweise:

```file = open("path", encoding="utf-8")```

`content = file.read()`

```file.close() ```

In der ersten Zeile wird die externe Datei geöffnet und in der zweiten gelesen. Anschließend muss die Datei wieder *manuell* geschlossen werden. Oft wird jedoch genau dieser letzte Schritt vergessen. Gewöhn Dir also an, stets den ```with```-Kontextmanager im Umgang mit externen Dateien zu benutzen.

### Output

Für den Output von Dateien verwenden wir ebenfalls den ```with```-Kontextmanager sowie die ```open```-Funktion, aber wie oben erwähnt mit dem zusätzlichen Parameter ```"w"``` oder ```"a"```:

```with open(file, "w", encoding="utf-8") as write_file:```<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;```for line in data:```<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;```write_file.write(line + "\n")```

In diesem Beispiel iterieren wir über ein mit ```data``` referenziertes Listenobjekt (das wir im Code davor auf irgendeine Weise geschaffen haben) und schreiben mittels der ```write```-Methode jedes Element (```line```) in eine neue Zeile von ```write_file``` (die neue Zeile kommt durch den abschließenden Zeilenumbruch im ```write```-Befehl zustande, wobei dieser mit der jeweiligen ```line``` zu *einem* string konkateniert wird, da ```write``` nur *ein* Argument akzeptiert). Wie beim Input wird ```write_file``` nach Verlassen der (äußeren) Einrückung automatisch geschlossen. Je nach gewünschtem Outputformat (z.&nbsp;B. als Textdatei oder als Tabelle) kommen andere Schreibmethoden als ```write``` zum Einsatz (s.&nbsp;u.).  

Im Folgenden schauen wir uns genauer an, wie wir mit den beiden wichtigsten Datenformaten, *Textdateien* und *tabellarische Dateien*, beim Input und Output umgehen.  

## Textdateien

Textdateien sind grundlegend nach Zeilen strukturierte Dateien. Das trifft sowohl auf Microsoft Office-Dokumente mit dem Suffix ".docx" zu als auch auf sog. *Plain Text Files* (mit dem Suffix ".txt"). Letztere sind **nur** nach Zeilen strukturiert und können von den meisten Programmen auf sämtlichen Betriebssystemen und natürlich auch von Python geöffnet werden. Deshalb beschränken wir uns im Folgenden auf Plain Text Files. 

Am Ende jeder Zeile in einer solchen Textdatei steht ein Zeilenumbruch, der als ```"\n"``` (ausgesprochen: *backslash n* oder *newline*) kodiert wird. Wenn wir eine ".txt"-Datei z.&nbsp;B. in Microsoft Word öffnen, werden uns i.&nbsp;d.&nbsp;R. nur die Zeilenumbrüche, nicht aber die dafür verantwortlichen Zeichen angezeigt (links im Screenshot unten). Optional können wir sie uns aber einblenden lassen (rechts im Screenshot unten).

<img src="../3_Dateien/Grafiken_und_Videos/Miss_Sara_Sampson.png">

Hier handelt es sich um die ersten paar Zeilen aus Gotthold Ephraim Lessings [*Miss Sara Sampson*](https://www.projekt-gutenberg.org/lessing/sampson/sampson.html). 

An den sichtbar gemachten Zeichen für Zeilenumbrüche sehen wir, dass die letzten beiden Redebeiträge jeweils nur in einer einzigen Zeile gespeichert sind. Hier werden sie bloß aufgrund der horizontalen Begrenzung des Fensters auf mehreren Zeilen angezeigt.

Auch bei Python werden Zeilenumbrüche nur in gewissen Fällen als Zeichen angezeigt, wie wir gleich sehen werden. Damit arbeiten können wir aber in jedem Fall, also auch wenn Zeilenumbrüche als Zeichen bei einer Ausgabe mal nicht angezeigt werden.

Das wollen wir jetzt ausprobieren. Dazu lesen wir den im Screenshot gezeigten Text sowie den Rest des ersten Aufzugs aus dem Trauerspiel in Python ein. Die Datei befindet sich im Ordner "3_Dateien/Miss_Sara_Sampson". Die simpelste Methode zum Einlesen einer Datei heißt, wie oben erwähnt, ```read```:

In [None]:
#Um in den Ordner "3_Dateien" zu gelangen, navigieren wir mit "../" erst eine Ordnerebene nach oben
with open("../3_Dateien/Miss_Sara_Sampson/Miss_Sara_Sampson_Aufzug_1.txt", encoding="utf-8") as read_file:
    miss_sara_sampson = read_file.read()
    
print(miss_sara_sampson[0:200], "\n")

"""Tipp: Im Output hier werden Zeilenumbrüche nicht als Zeichen angezeigt; 
will man dies forcieren, kann man die 'repr'-Funktion verwenden."""
#print(repr(miss_sara_sampson[0:200]))

print(len(miss_sara_sampson))

Bei ```read``` wird die gesamte Textdatei in einen einzigen langen string überführt. Da der erste Aufzug recht umfangreich ist (26960 Zeichen), geben wir hier mithilfe von Slicing nur die ersten 200 Zeichen aus. Indem Du die eckigen Klammern entfernst, kannst Du Dir den gesamten ersten Aufzug zu Gemüte führen (das ist nicht nötig, aber fürs weitere Verständnis lohnt es sich, ihn zumindest zu überfliegen).

Natürlich wollen wir den Text nicht nur lesen. Dafür hätten wir ein beliebiges Textverarbeitungsprogramm verwenden und uns das Programmieren sparen können. Programmieren bringt erst dann einen Vorteil, wenn wir es mit sinnvoll strukturierten Daten zu tun haben (dieses Merkmal ist hier ja u.&nbsp;a. durch die Zeilenumbrüche gegeben) und wir uns diese Strukturiertheit bei der Verarbeitung und Auswertung der Daten zunutze machen können. 

Machen wir es konkret und stellen uns vor, wir würden gerne sämtliche Redebeiträge der Protagonistin Sara extrahieren. Wie bereits erwähnt, entspricht jeder Redebeitrag einer Zeile. Es macht in einem ersten Schritt also Sinn, dass wir das strukturelle Merkmal der Zeilenumbrüche ausnutzen und den Text in Zeilen (und damit in Redebeiträge) unterteilen. Dazu könnten wir ```split("\n")``` auf ```miss_sara_sampson``` anwenden. Es gibt aber genau dafür auch eine eigene Lesemethode:

In [None]:
with open("../3_Dateien/Miss_Sara_Sampson/Miss_Sara_Sampson_Aufzug_1.txt", encoding="utf-8") as read_file:
    miss_sara_sampson = read_file.readlines()

print(miss_sara_sampson[0:5])

Mit ```readlines``` werden die einzelnen Zeilen einer Textdatei als string-Elemente in eine Liste aufgenommen. Über den ```print```-Befehl lassen wir uns die ersten fünf Elemente, also die ersten fünf Zeilen, ausgeben. Wir sehen, dass einige Zeilen nur aus einem ```"\n"``` bestehen (natürlich zeigten sich diese leeren Zeilen auch schon bei der vorherigen Ausgabe). Diese leeren Zeilen können wir mithilfe der (bisher uneingeführten) string-Methode ```isspace``` entfernen:

In [None]:
#Wir iterieren über alle Elemente in 'miss_sara_sampson'.
for line in miss_sara_sampson:
    
    #Wenn das Element nur (!) aus whitespace-Zeichen (und dazu gehören Zeilenumbrüche) besteht...
    if line.isspace():
        
        #...dann entfernen wir das betreffende Element aus der Liste.
        miss_sara_sampson.remove(line)
        
print(miss_sara_sampson[0:5])

Hat geklappt! 

Wir sehen auch, dass jeder string noch mit einem kodierten Zeilenumbruch endet. Dies ist überflüssig, da die Struktur, die im Fließtext durch die Zeilenumbrüche entstand, bereits in Form der Elemente auf der Liste widergespiegelt wird. Die kodierten Zeilenumbrüche können wir so entfernen:

In [None]:
preprocessed = []

for line in miss_sara_sampson:
    #Hier entfernen wir sämtliche whitespace-Zeichen am rechten Rand (trailing whitespace) und hängen das Resultat 'preprocessed' an.
    preprocessed.append(line.rstrip())

print(preprocessed[0:5])

Klappt ebenfalls.

Zeilenumbrüche (sowie sonstige whitespace-Zeichen) am rechten Rand können aber bereits beim Einlesen einer Textdatei entfernt werden. Dabei muss noch nicht einmal eine Lesemethode verwendet werden. Zwar können wir uns die geöffnete Datei ```read_file``` nicht direkt als Zeichenkette ausgeben lassen (dafür brauchen wir die Lesemethoden ```read``` oder ```readlines```; überzeug Dich selbst davon, indem Du versuchst, ```read_file``` auszugeben), aber es ist praktischerweise möglich, über ```read_file``` zu iterieren. Die einzelnen Elemente entsprechen ganz einfach den Zeilen:

In [None]:
#Dieser Code erledigt alle Schritte von oben auf einmal.

with open("../3_Dateien/Miss_Sara_Sampson/Miss_Sara_Sampson_Aufzug_1.txt", encoding="utf-8") as read_file:
    miss_sara_sampson = []
    for line in read_file:
        if line.isspace():
            continue
        miss_sara_sampson.append(line.rstrip())

    #Hier sparen wir uns noch mehr Zeilen mithilfe einer List Comprehension.
    #miss_sara_sampson = [line.rstrip() for line in read_file if not line.isspace()]

for i in range(3,8):
    print(miss_sara_sampson[i])

Hier überprüfen wir erst, ob die Zeile nur aus whitespace besteht, und wenn ja, dann überspringen wir sie (```continue```). Andernfalls hängen wir die am rechten Rand von whitespace bereinigte Zeile ```miss_sara_sampson``` an. Das Ergebnis ist das gleiche wie oben, nur haben wir uns dabei ein paar Zeilen Code gespart.

***

✏️ **Übung 3:** Lies den ersten Aufzug aus Lessings [*Nathan der Weise*](https://www.projekt-gutenberg.org/lessing/nathan/chap002.html) ein. Die Datei befindet sich im Unterverzeichnis "Nathan_der_Weise" im Dateienordner. Find heraus, welche der Figuren des Stücks (bereitgestellt in ```characters```) am häufigsten erwähnt wird (wir unterscheiden nicht zwischen Erwähnungen in Redebeiträgen und sonst wo im Text, z.&nbsp;B. in der Sprecherkennzeichung).

Um Deine Fertigkeiten aus dem Notebook "Funktionen und Methoden Teil 1" gleich wieder einzusetzen, könntest Du dazu auch eine sortierte Frequenzliste mit allen Figuren und ihren jeweiligen Erwähnungshäufigkeiten erstellen.

In [None]:
#In diese Zelle kannst Du den Code zur Übung schreiben.

characters = ["Sultan Saladin", "Sittah", "Nathan", "Recha", "Daja", "Tempelherr", "Derwisch", "Patriarch von Jerusalem", "Klosterbruder", "Emir"] 



***

Die Antwort ist natürlich keine große Überraschung. 🙈 

Zurück zu ```miss_sara_sampson```, das ja mittlerweile eine Liste mit von trailing whitespace befreiten Zeilen darstellt. Die Liste enthält neben Redebeiträgen auch noch Metakommentare wie *Sir William Sampson und Waitwell treten in Reisekleidern herein.* (Index ```3```). 

Um nun Saras Redebeiträge zu extrahieren, können wir uns den strukturellen Umstand zunutze machen, dass am Anfang aller Redebeiträge der Name der Figur gefolgt von einem Punkt steht:

In [None]:
saras_turns = []

for turn in miss_sara_sampson:
    if turn.startswith("Sara."): 
        saras_turns.append(turn)

#Als List Comprehension
#saras_turns = [turn for turn in miss_sara_sampson if turn.startswith("Sara.")]

#Hier geben wir zur Überprüfung die Redebeiträge mit Indizes 10, 11, 12, 13, 14 aus
for i in range(10,15):
    print(saras_turns[i], "\n")

print(len(saras_turns))

```startswith``` tut ganz klar seinen Dienst. 

### Exkurs: Die Wahrheitsmatrix

An dieser Stelle lohnt sich nochmal ein Blick in ```miss_sara_sampson```, zur Vergewisserung, dass wir mit obiger Bedingung auch wirklich alle Redebeiträge von Sara extrahiert haben. Es könnte ja z.&nbsp;B. sein, dass ihr Name vor einem Redebeitrag aus welchem Grund auch immer kleingeschrieben ist ("sara.") oder aber, dass zwischen ihrem Namen und dem Punkt eine Klammer mit Metakommentaren steht. 

Und tatsächlich – ein Redebeitrag beginnt so: "Sara (sie setzt sich)." (Index ```71``` in ```miss_sara_sampson```). Nach eingehender Prüfung wissen wir, dass dies auch der einzige Redebeitrag ist, der nicht von ```turn.startswith("Sara.")``` "eingefangen" wird. Wir könnten nun etwas unelegant die zusätzliche Bedingung ```or turn.startswith("Sara (sie setzt sich).")``` aufstellen. 

Um sicherzustellen, dass der Code wiederverwendbar ist (z.&nbsp;B. beim zweiten Aufzug), wählen wir den eleganteren Weg der regulären Ausdrücke (engl.: *regular expressions*, abgekürzt: *RegEx*). Reguläre Ausdrücke sind ein äußerst praktisches Werkzeug, das wir uns im Notebook "Reguläre Ausdrücke" im Detail anschauen. Kurz gesagt: Wir definieren hier *einen* regulären Ausdruck (```pattern```), der sowohl Redebeiträge mit als auch solche ohne Metakommentar abdeckt. Lässt sich der definierte reguläre Ausdruck wie eine Schablone über den Anfang eines Elements in  ```miss_sara_sampson``` legen, dann haben wir einen sog. *match* und wir hängen das Element an ```saras_turns``` an. Wie wir sehen, erhalten wir dadurch 23 statt bisher 22 Redebeiträge zurück:

In [None]:
import re

saras_turns = []

#Sieht kryptisch aus 🤯 und Du musst diesen regulären Ausdruck im Moment noch nicht nachvollziehen können.
pattern = r"Sara(\(\s\S*\))?."

for turn in miss_sara_sampson:
    if re.match(pattern, turn):
        saras_turns.append(turn)
        
for i in range(5):
    print(saras_turns[i], "\n")

print(len(saras_turns))

Das Überprüfen, ob wir mit der aufgestellten Bedingung auch wirklich alle wahren Redebeiträge von Sara abdecken, ist ein sehr wichtiger Schritt. Konkret verhindern wir dadurch sog. *false negatives* im Sinne einer [Wahrheitsmatrix](https://de.wikipedia.org/wiki/Beurteilung_eines_binären_Klassifikators#Wahrheitsmatrix:_Richtige_und_falsche_Klassifikationen):

|              | ein Redebeitrag von Sara                 | kein Redebeitrag von Sara                |
|--------------|------------------------------------------|------------------------------------------|
| Test positiv | <font color=green>*true positive*</font> | <font color=red>*false positive*</font>  |
| Test negativ | <font color=red>*false negative*</font>  | <font color=green>*true negative*</font> | 

*False negatives* sind Fälle, die in Wahrheit Redebeiträge von Sara sind, die aber fälschlicherweise nicht als solche erkannt wurden. Mit anderen Worten: Der Test (die Bedingung, die wir aufgestellt haben) fiel negativ aus (die Bedingung ergab ```False```), aber dieses Testresultat ist falsch. *True*/*False* bezieht sich bei allen vier Begriffspaaren jeweils auf die Richtigkeit des Testresultats und *positive*/*negative* auf das gefällte Testresultat.

Konsequenterweise müssen wir umgekehrt sicherstellen, dass wir mit der aufgestellten Bedingung nicht übers Ziel hinaus schießen und *false positives* "einfangen", also Redebeiträge, die nicht von Sara sind, aber fälschlicherweise als solche erkannt wurden. Tatsächlich sind das erste und dritte Element in ```saras_turns``` (Indizes ```0``` und ```2```) keine Redebeiträge von Sara, sondern bloß Metakommentare:

In [None]:
#Dies sind die beiden "false positives".
print(saras_turns[0:3:2])

Ein Blick auf alle Elemente in ```saras_turns``` verrät, dass diese die einzigen beiden *false positives* sind.

Wir müssen also eine zweite Bedingung aufstellen, um diese beiden Fälle auszuschließen. Sie haben gemeinsam, dass nach "Sara." "Mellefont." steht. Bevor wir eine entsprechende Ausschlussbedingung aufstellen, müssen wir überprüfen, ob dies nicht auch auf wahre Redebeiträge (*true positives*) zutrifft (es ist ja denkbar, dass Sara einen Beitrag mit "Mellefont." anfängt). Dies ist aber nicht der Fall.

Die zweite Bedingung stellen wir so auf: Das zweite Wort (Index ```1```) auf einer Liste mit allen Wörtern im jeweiligen ```turn``` (die Wörterliste erhalten wir mittels ```split```) darf nicht (```!=```, vgl. Vergleichsoperatoren) "Mellefont." sein. Wenn dies wahr ist, und die erste Bedingung ebenfalls (```and```), dann hängen wir den ```turn``` an ```saras_turns``` an.

In [None]:
saras_turns = []

pattern = r"Sara( \S*)?."

for turn in miss_sara_sampson:
    if re.match(pattern, turn) and turn.split()[1] != "Mellefont.":
        saras_turns.append(turn)

print(len(saras_turns))

#for turn in saras_turns:
    #print(turn, "\n")

Eine letzte Überprüfung zeigt, dass wir damit wirklich alle wahren Redebeiträge von Sara (alle *true positives*) extrahiert haben (um das Bild zu vervollständigen: Alle nicht extrahierten Elemente sind die *true negatives*). 

Dieses Beispiel lehrt uns, dass wir iterativ vorgehen müssen, wenn wir mit strukturellen Merkmalen arbeiten. Selten denken wir von Anfang an an alle Ausnahmen, die beachtet werden müssen, um wirklich das gewünschte Ergebnis zu errechnen. 

Übrigens haben wir für die letzte Bedingung keine besonders elegante Lösung gewählt. Sie schließt nur spezifisch Mellefont aus und keine weiteren Figuren. Gleichzeitig deckt sie wie gesagt theoretisch auch Fälle ab, wo "Mellefont." das erste Wort eines Redebeitrags von Sara ist. Während wir es bei der ersten zusätzlichen Bedingung noch mit einfacher fassbaren strukturellen Merkmalen (nämlich den optionalen Metakommentaren in **Klammern**) zu tun hatten, zeigen sich hier die Grenzen von Datenfilterung basierend auf strukturellen Merkmalen. Denn "Mellefont." besteht strukturell aus Buchstaben und einem Punkt, wie sie auch in wahren Redebeiträgen von Sara vorkommen. Neben der iterativen Herangehensweise sind in solchen Fällen also auch sehr spezifische und vermeintlich unelegante Bedingungen in Ordnung.

***

✏️ **Übung 4:** Im Gegensatz zu *Miss Sara Sampson* ist *Nathan der Weise* etwas anders formatiert, z.&nbsp;B. verteilen sich Redebeiträge z.&nbsp;T. über mehrere Zeilen. 

Lies den ersten Aufzug aus *Nathan der Weise* abermals ein. Schau Dir die Formatierung des Textes genau an, um ein strukturelles Merkmal zu finden, anhand dessen Du eine Liste mit zusammengehörigen Redebeiträgen und Metakommentaren erstellen kannst. Ein über mehrere Zeilen verteilter Redebeitrag oder Metakommentar soll jeweils in ein Element einfließen. 

Bereinige anschließend die Liste von allem, was kein Redebeitrag darstellt. Auch hierfür musst Du Dir die Liste gut anschauen, um ein strukturelles Merkmal zu identifizieren, anhand dessen Du die "Spreu vom Weizen" trennen kannst. Sollte sich ein Metakommentar innerhalb eines Redebeitrags befinden, kannst Du dies ignorieren. Stell durch einen iterativen Ansatz sicher, dass Du am Ende wirklich alle Redebeiträge und nur Redebeiträge auf der Liste hast (also die *true positives*).

Dir steht wiederum eine Liste mit Figuren zur Verfügung.

In [None]:
#In diese Zelle kannst Du den Code zur Übung schreiben.

characters = ["Sultan Saladin", "Sittah", "Nathan", "Recha", "Daja", "Tempelherr", "Derwisch", "Patriarch von Jerusalem", "Klosterbruder", "Emir"] 



***

Nun haben wir verschiedene Techniken zum Einlesen von Textdateien kennengelernt. Hier folgt eine kurze Zusammenfassung, wann Du welche Technik anwenden kannst:

- ```read``` überführt die gesamte Datei in einen einzigen string.
- ```readlines``` überführt die einzelnen Zeilen der Datei in Elemente auf einer Liste.
- ```for line in read_file``` iteriert über die geöffnete Datei (ohne jegliche Lesemethode), wobei ```line``` einer Zeile in der Datei entspricht.
- ```strip``` (meistens spezifisch ```rstrip```) entfernt (trailing) whitespace, insbesondere Zeilenumbrüche.
- ```isspace``` in einem ```if```-Statement mit ```continue``` überspringt leere Zeilen.

Schauen wir uns nun an, wie wir Text in eine Datei schreiben können. Wir arbeiten dafür mit dem Ergebnis der letzten Übung, also mit der Liste an Redebeiträgen im ersten Aufzug von *Nathan der Weise*, weiter. Damit wir auf dem gleichen Stand sind, steht in der nächsten Zelle eine mögliche Lösung der Aufgabe. Wenn Du sie ausführst, siehst Du bereits anhand der ersten fünf Redebeiträge, dass diese *in sich* unterschiedlich formatiert sind. Zum Teil folgt auf den Figurennamen nach dem Punkt ein Zeilenumbruch, zum Teil mehrere Leerschläge.

In [None]:
characters = ["Sultan Saladin", "Sittah", "Nathan", "Recha", "Daja", "Tempelherr", "Derwisch", "Patriarch von Jerusalem", "Klosterbruder", "Emir"] 

with open("../3_Dateien/Nathan_der_Weise/Nathan_der_Weise_Aufzug_1.txt", encoding="utf-8") as read_file:
    nathan_der_weise = read_file.read()

belongs_together = nathan_der_weise.split("\n\n")

actual_turns = []

for element in belongs_together:
    for character in characters:
        if element.startswith(character + "."):
            actual_turns.append(element)

for i in range(5):
    print(actual_turns[i], "\n")

Unser Ziel ist es, die Redebeiträge in einheitlicher Formatierung in eine externe Datei zu schreiben. Der folgende Code übernimmt die einheitliche Formatierung. Lies die Kommentare aufmerksam, um den Code nachzuvollziehen. 

In [None]:
#Am Ende hängen wir die vereinheitlichten Redebeiträge an diese Liste an.
standardized_turns = []

#Wir iterieren über die einzelnen Redebeiträge in 'actual_turns'.
for turn in actual_turns:
    
    """Als Nächstes splitten wir den 'turn' ein einziges Mal beim ersten Punkt, der ja auf den 
    Figurennamen folgt (damit wir nur einmal splitten und nicht bei jedem Punkt, setzen wir den
    optionalen Parameter 'maxsplit' auf 1). Dadurch entsteht eine Liste, wobei das erste Element 
    (mit Index 0) der Figurenname ist. Diesen weisen wir 'turn_speaker' zu."""
    turn_speaker = turn.split(".", maxsplit=1)[0]
    
    #Das zweite Element (mit Index 1) ist ja der eigentliche Redebeitrag, wir weisen ihn 'turn_words' zu.
    turn_words = turn.split(".", maxsplit=1)[1]
    
    """Genau dieser Redebeitrag enthält nun leading whitespace (was sowohl Zeilenumbrüche als auch 
    Leerschläge umfasst). Wir entfernen diese und weisen das Resultat 'turn_words_stripped' zu."""
    turn_words_stripped = turn_words.lstrip()
    
    #Nun konkatenieren wir einheitlich Figurenname und Redebeitrag mit einem Doppelpunkt und Zeilenumbruch dazwischen.
    standardized_turn = turn_speaker + ":\n" + turn_words_stripped
    
    """Den standardisierten Redebeitrag hängen wir an 'standardized_turns' an."""
    standardized_turns.append(standardized_turn)
    
    #Sämtliche Schritte in einem Statement sähe übrigens so aus:
    #standardized_turns.append(turn.split(".", 1)[0] + ":\n" + turn.split(".", 1)[1].lstrip())
    
for i in range(5):
    print(standardized_turns[i], "\n")

Das schaut doch gleich viel besser aus. Zeilenumbrüche innerhalb der Redebeiträge haben wir übrigens unberührt gelassen, schließlich handelt es sich um ein dramatisches Gedicht. 

Nun wollen wir die Redebeiträge in eine externe Datei schreiben. Wie oben erklärt, öffnen wir dazu die gewünschte Datei im Schreibmodus (```"w"```). Da die unten angegebene Datei noch nicht im Verzeichnis existiert, wird sie **automatisch** neu geschaffen. Anschließend iterieren wir über ```standardized_turns``` und schreiben Element für Element (Zeile für Zeile) in die geöffnete Datei (```write```). Wichtig: Die Zeilenumbrüche müssen wir explizit reinschreiben.

In [None]:
"""Hier geben wir einerseits den Speicherort an, gleichzeitig geben wir der Datei
auch einen Namen; bei Textdateien hängen wir stets '.txt' als Dateisuffix an!"""
with open("../3_Dateien/Output/Nathan_der_Weise_Aufzug_1_standardisiert.txt", "w", encoding="utf-8") as write_file:
    for element in standardized_turns:
        
        """Da es auch innerhalb der Redebeiträge Zeilenumbrüche gibt, schreiben wir
        wie in der ursprünglichen Datei zwei Zeilenumbrüche nach jedem Redebeitrag."""
        write_file.write(element + "\n\n") #Konkatenation zu einem string mittels +-Operator, damit ein Argument (also nicht kommasepariert zwei Argumente!)

Nun solltest Du die neue Datei im angegebenen Verzeichnis vorfinden. Du kannst sie entweder wieder in Python einlesen, oder mit einem Textverarbeitungsprogramm auf Deinem Computer öffnen.

***

✏️ **Übung 5:** Bisher haben wir nur mit dem ersten Aufzug aus *Miss Sara Sampson* gearbeitet. Das Trauerspiel besteht aber aus fünf Aufzügen, die sich allesamt im gleichen Verzeichnis wie der erste Aufzug befinden. 

Öffne eine neue Textdatei mit dem Namen "Miss_Sara_Sampson_komplett.txt" im Verzeichnis "Output" und schreib alle fünf Aufzüge in der richtigen Reihenfolge in diese Datei.

Anstatt jede Datei über ihren Pfad einzeln zu öffnen, kannst Du die oben bereits vorgestellte ```listdir```-Funktion des ```os```-Moduls verwenden. Als Argument übergibst Du ihr den Pfad zum betreffenden Verzeichnis. Du kriegst eine Liste mit den darin befindlichen Dateien und Unterverzeichnissen (jeweils als string) zurück. Über diese Liste kannst Du dann wie gewohnt iterieren.

In [None]:
#In diese Zelle kannst Du den Code zur Übung schreiben.




***
Abschließend ein kleiner Ausblick in den Anwendungsfall, den Du im zweiten Teil des Notebooks bearbeiten wirst.

***

## 🔧 Anwendungsfall: Einen Gedankenprotokollanten programmieren

Wir wollen ein interaktives Programm schreiben, mit dessen Hilfe eine Benutzerin schlaue Gedanken protokollieren kann. Die Benutzerin soll durch das Programm geführt werden und entscheiden können, wo, d.&nbsp;h. in welchem (externen) Dokument, sie ihre Gedanken festhalten will. Sie soll sowohl neue Dokumente anlegen können als auch in bestehende reinschreiben. Anschließend soll sie beliebig viele Gedanken in dieses Dokument einfügen können. Das folgende Video zeigt das fertige Programm "in Aktion":

In [None]:
#Führ diese Zelle aus, um das Video einzubetten.
from IPython.display import YouTubeVideo
YouTubeVideo('RlshSCCX55E')

Ohne dieses Programm würde die Benutzerin vermutlich ein Microsoft Word-Dokument öffnen, ihre Gedanken reinschreiben, das Dokument speichern und dann wieder schließen. Das Anlegen/Öffnen/Speichern/Schließen des Dokuments wollen wir ihr abnehmen und ihr stattdessen ermöglichen, ihre Gedanken über eine freundliche, aber sehr minimale Benutzeroberfläche (engl.: *user interface*, abgekürzt: *UI*) zu protokollieren.

Überleg bereits an dieser Stelle, wie Du beim Programmieren des Gedankenprotokollanten vorgehen könntest. Nun hast Du aber erst einmal das Ende dieses ersten Teils erreicht. Gute Arbeit bis hierhin!
