# I/O (Ein- und Ausgabe)

## Zeichenkodierungen

Der Inhalt einer Datei ist intern lediglich eine Folge aus Speicherzellen, also letztlich eine Kette aus Nullen und Einsen (sog. *Bits*).
Eine **Zeichenkodierung** sorgt dafür, dass man stattdessen mit verständlichem Text arbeiten kann.
Sie legt u.a. fest, welche Zeichen überhaupt zur Verfügung stehen (**Zeichensatz**), wie viele Bits im Speicher für ein Zeichen stehen sollen und wie eine Bitfolge auf ein bestimmtes Zeichen abgebildet wird.
Die Umsetzung von Text in Bitfolgen nennt man **Kodierung** (*encoding*), die Umsetung von Bitfolgen in Text nennt man **Dekodierung** (*decoding*). 
Während man früher mit der 7-Bit-Zeichenkodierung **ASCII** (für *American Standard Code for Information Interchange*) und einem Zeichensatz aus 128 Zeichen auskam, werden heute meistens Kodierungen mit zahlreichen Sonderzeichen verwendet, die besser zur Internationalisierung geeignet sind (z.B. **ISO 8859-1** oder **UTF-8 zur Kodierung des Unicode-Zeichensatzes**).
Die Zeichenkodierung ermöglicht es, mit für uns lesbaren Zeichen zu arbeiten, und bietet daher eine Abstraktion von der internen Datendarstellung des Computers. 

Ein Programm muss wissen, mit welcher Zeichenkodierung eine Datei erstellt wurde, um die Bitfolgen richtig interpretieren zu können.
Beim Öffnen von Dateien (d.h. Bitfolgen) kann die Kodierung angegeben werden (`f = open(filename, encoding="utf-8")`). 
Ohne eine entsprechende Angabe wird die (systemabhängige) Standardkodierung genutzt. 
Python 3 geht davon aus, dass der Quellcode in Python-Programmen mit UTF-8 kodiert wurde; ein Texteditor muss entsprechend konfiguriert werden.
Die "richtige" Kodierung einer Datei zu ermitteln ist eine schwierige Aufgabe, denn der Computer kann nicht wissen, welcher dekodierte Inhalt sich in der Datei befinden soll.
Daher sollte möglichst immer ausdrücklich mit einer einheitlichen Kodierung (am besten UTF-8) gearbeitet werden.

In Python 3 sind Strings grundsätzlich Folgen von Unicode-Zeichen, sodass Sonderzeichen problemlos verwendet werden können (z.B. `wert = "äöüÄÖÜßéèê"`). 
Lediglich einzelne Zeichenkombinationen haben eine besondere Bedeutung, so z.B. `\n` für einen Zeilenumbruch. 
Damit ein Backslash (`\`) im String enthalten ist, muss er als `\\` angegeben werden. 
Möchte man dies vermeiden, kann durch vorangestelltes `r` ein *raw string* erzeugt werden, z.B. `r'C:\Testverzeichnis\n'`. Mit der Funktion `eval("Ein String")` lassen sich Strings als Programmcode interpretieren. 

Anstelle von Strings kennt Python auch **Bytefolgen**, also Folgen von Zahlen zwischen 0 und 255 (8 Bit, also $2^8 = 256$ Werte). 
Diese definiert man wie Strings, nur dass den Anführungszeichen ein `b` vorangestellt wird, also `b'\x00\x00'`. Ebenso können Bytefolgen zu Strings dekodiert werden (`b'\x00\x00'.decode('utf-8')`).

## Interaktion mit dem Benutzer

Wird ein Programm ausgeführt, gibt es zu jedem Zeitpunkt eine **Standardeingabe**, eine **Standardausgabe** und eine **Standardfehlerausgabe**, die fortlaufend Daten zur Verarbeitung liefern und daher unter die **Datenströme** (*data streams*) gefasst werden.
Führen wir das Programm in der Kommandozeile aus, sind sie normalerweise dem jeweiligen Kommandozeilenfenster zugeordnet.
Ausgaben (`print("Eine Ausgabe")`) werden dann in diesem Fenster angezeigt, erforderliche Eingaben über das Fenster erfasst.
In Jupyter Notebooks sind die Standard-Datenströme mit der Zelle verbunden, in welcher der jeweilige Code ausgeführt wird.

> **Vertiefungshinweis:**

> Die Standard-Datenströme finden sich im Modul `sys` als `stdin`, `stdout` und `stderr`. 
Wird etwa `sys.stdout` ein anderes Stream-Objekt zugewiesen (z.B. eine geöffnete Datei), werden Ausgaben künftig in diese Datei geschrieben und nicht mehr direkt angezeigt.

In [None]:
# Benutzereigaben abfragen
wert = input('Gib einen Wert ein: ')       # Wert wird als str behandelt
wert = float(input('Gib eine Zahl ein: ')) # Wert wird in float umgewandelt

# Auswertung einer Eingabe wie ['EinWert', 'NochEinWert']
# ACHTUNG: Ermoeglicht auch die Eingabe von schaedlichen Befehlen!
wert = eval(input('Gib eine Liste aus Werten ein: ')) # Bei Eingabe [1, 2] wird wert 
                                                      # die Liste [1, 2] zugewiesen

In [None]:
# Ausgabe
print("Ich bin eine Ausgabe.")
print("Eine Ausgabe", "Noch eine Ausgabe")            # Eine Ausgabe Noch eine Ausgabe
print("Eine Ausgabe", "Noch eine Ausgabe", sep=' | ') # Eine Ausgabe | Noch eine Ausgabe

print("Eine Ausgabe", "Noch eine Ausgabe", sep=' | ', end=' ENDE \n') 
# Eine Ausgabe | Noch eine Ausgabe ENDE

## Dateien

### Öffnen und Schließen

In [None]:
f = open("datei.txt", "r", encoding="utf-8")
# Oeffnet die Datei datei.txt, gibt ein Stream-Objekt zurueck.
# Statt eines Dateinamens kann auch ein (absoluter oder relativer) 
# Pfad zu einer Datei verwendet werden,
# z.B. ordner\datei.txt oder C:/ordner/datei.txt .

# Mit "r" als zweitem Parameter wird die Datei zum Lesen geoeffnet 
# (Parameter muss nicht angegeben werden, default: r).
# Der encoding-Parameter gibt an, dass UTF-8 zur Dekodierung benutzt werden soll.

f.close()  # Schließt die Datei (wichtig!).


# Bessere Alternative zum manuellen Schließen:

with open("datei.txt", "r", encoding="utf-8") as f:   
    content = f.read()  # Speichert den Inhalt der Datei in content,
                        # Datei wird am Ende des Blocks automatisch geschlossen.

> **Hinweise:**

> Da Strings in Python aus Unicode-Zeichen bestehen, Dateien aber nur Bitfolgen sind, muss Python diese Bits in Zeichen umwandeln. Dazu sollte das korrekte Kodierungsformat angegeben werden. Python nimmt dann die Dekodierung vor.

> Bei Dateien, die keinen Text enthalten (z.B. Bilder, Anwendungen), ist eine Dekodierung zu Unicode-Zweichen nicht möglich. Die Datei kann aber mit der Modusangabe `rb` für Lesen oder `wb` bzw. `ab` im Binärmodus geöffnet werden.

> Die `with open`-Konstruktion sollte einem manuellen Schließen vorgezogen werden, da die Datei auch bei einem Abbruch des Programms geschlossen wird.

### Lesen

In [None]:
try:
    with open("datei.txt", "r", encoding="latin-1") as f:
        textAsList = f.readlines()      # gibt eine Liste mit den Zeilen als Strings zurück
        textAsString = f.read()         # gibt den Inhalt der gesamten Datei als String zurück
        textAsString2 = f.read()        # gibt nun einen leeren String zurueck, 
                                        # da das Ende erreicht ist
        f.seek(0)                       # geht zur Byteposition 0 (also an den Anfang)
        f.read(10)                      # liest von dort und gibt die ersten 10 Zeichen zurück

    with open("datei.txt", "r", encoding="cp1252") as f:
        for line in f:                  # das Stream-Objekt ist ein Iterator ueber die Zeilen
            print(line)
    
    with open("datei.txt", "r") as f:
        print(f.readline())             # gibt die erste Zeile zurück
        print(f.readline())             # gibt die naechste Zeile zurück
            
except FileNotFoundError:
    print("Datei nicht gefunden.")

### Schreiben

In [None]:
with open("datei.txt", "w", encoding="utf-8") as f:    
# Gibt ein Stream-Objekt zurueck. 
# Datei wird automatisch erstellt, wenn sie nicht existiert.
# Modus "w" (write) oeffnet die Datei zum Schreiben und ueberschreibt den Inhalt.
# Modus "a" (append) schreibt Daten an das Ende der Datei.
   
    f.write("Testtext")              # Var. 1: Methode von f
    
    print("Testtext", file=f)        # Var. 2: print-Funktion
    
    # Wird bei print() ein Stream-Objekt als file-Parameter uebergeben,
    # erfolgt die Ausgabe in diese Datei.