## Einführung in das Programmieren mit Python

# Input/Output, Exceptions (II)

## Wiederholung: Module

* Module zur Kapselung zusammengehöriger Funktionen etc.
* Python-Datei = Python-Modul
* Import, Aliase und gezielter Import
* `__name__ == "__main__"`
* Doctests
* Python-Standardbibliothek

### Text-Dateien öffnen und lesen

In [2]:
f = open("roman.txt", "rt", encoding="utf-8")
#        ^^^^^^^^^^^                       Dateiname
#                     ^^^^                 Modus, r = lesen, t = Text
#                                          (beides Default)
#                           ^^^^^^^^^^^^^^ Textcodierung, Default systemabh.
#=> Dateiobjekt
f

<_io.TextIOWrapper name='roman.txt' mode='rt' encoding='utf-8'>

In [3]:
content = f.read()  # liest die komplette Datei in einen String ein. 
print(content)      # gibt den eingelesenen Inhalt der Datei aus
f.close()           # Datei wieder schließen

Kurzer Roman.
Dies ist ein langer Roman. Er beginnt mit dem Auftritt des Heldens. 
Da es keine Helden gibt, unterbricht hier schon der Leser …



### Zeilenweises Einlesen einer Datei

Dateien sind _Iterables_, sie können z.B. in `for`-Schleifen verwendet werden und liefern dann Zeilen:

In [3]:
f = open("roman.txt", encoding="utf-8")
for line in f:
    print("»" + line + "«") # hier kann man natürlich auch etwas Sinnvolleres tun …
f.close()

»Kurzer Roman.
«
»Dies ist ein langer Roman. Er beginnt mit dem Auftritt des Heldens. 
«
»Da es keine Helden gibt, unterbricht hier schon der Leser …
«


Schließen von Dateien
Man sollte am Ende eines Zugriffs auf Dateien diese _immer_ schließen (`f.close()`). Um sicherzustellen, dass das passiert, kann man `with` verwenden:

In [6]:
with open("roman.txt", "r", encoding="utf-8") as f:
    for line in f:
        print(line, end='')      

Kurzer Roman.
Dies ist ein langer Roman. Er beginnt mit dem Auftritt des Heldens. 
Da es keine Helden gibt, unterbricht hier schon der Leser …


<h3 style="color:green">Aufgaben</h3>


1. Legen Sie mit einem Editor eine utf-8-Datei in einem  Unterverzeichnis an (inkl. Umlaute und ß) und geben Sie dann den Inhalt mit Python aus. Unter Windows können Sie dafür den editor unter Zubehör verwenden.
2. Messen Sie mit Python, wieviele Buchstaben Ihr Probetext inkl. Leerzeichen etc. lang ist. Vergleichen Sie das Ergebnis mit der Dateigröße, wie sie vom Betriebssystem angegeben wird. Wie kommt der Unterschied zustande?


In [7]:
with open("beispiel.txt", "rt", encoding="utf-8") as f:
    for line in f:
        print(line)

Dies ist eine einfache Beispieldatei.

Sie enthält Umlaute, GROẞE und nicht große Eszetts und ſogar ein langes ſ!



In [8]:
import os
with open("beispiel.txt", "rt", encoding="utf-8") as f:
    content = f.read()
    filesize = os.stat("beispiel.txt").st_size
    print(len(content), filesize)

113 121


Im [Hex-Viewer](http://de.wikipedia.org/wiki/Hex-Editor):

<img src="files/images/utf-8_file.png"/>

* Codierung der Zeilenenden – in Windows als 0A 0D (`\r\n`), in Python-Strings als `'\n'`
* Codierung von Sonderzeichen mit mehr als einem Byte

### Encoding einer Textdatei

* Zuordnung Bytefolge <> Interpretation als Zeichen
* UTF-8 ist eine standardisierte, portable Codierung für den gesamten Unicode-Zeichenvorrat (bis zu 0x10FFFF verschiedene Zeichen)
* UTF-8: ein Zeichen <> 1–4 Bytes
* Python-3-Strings sind Unicode-Strings
* _Tipp_: Arbeiten Sie immer mit UTF-8-Dateien, und geben Sie das Encoding explizit an.

In [9]:
import locale
import sys

print("Standardcodierung für Dateiinhalte (encoding-Parameter):", locale.getpreferredencoding())
print("Standardcodierung für Dateinamen etc.:", sys.getfilesystemencoding())

Standardcodierung für Dateiinhalte (encoding-Parameter): UTF-8
Standardcodierung für Dateinamen etc.: utf-8


<h3>Schreiben von Dateien</h3>
<p>Das Schreiben von Dateien funktioniert ganz ähnlich wie das Lesen.</p>

In [10]:
t = ["Dies ist ein kürzerer Text.", "Und das wäre die letzte Zeile!", "Wenn es nicht eine weitere gäbe."]
with open("fileout.txt", "w", encoding="utf-8") as output_file:
    for l in t:
        output_file.write(l + "\n")

Beim Aufruf der Funktion open wird als Parameter nun `"w"` (write) gesetzt. `output_file` ist ebenfalls ein frei wählbarer Variablenname für unser Dateiobjekt.

Achtung: Bei der Verwendung von `"w"` allein wird die Datei immer zuerst zurückgesetzt, wenn sie existieren sollte. D.h. evtl. bestehende Inhalte werden gelöscht!

Beachten Sie, dass die Methode `write` nicht automatisch eine Newline anhängt, wie das im Fall von print geschieht.

<h3 style="color: green">Aufgabe</h3>
<p>1) Schreiben Sie ein Skript, dass ihre oben mit dem Editor angelegte Datei öffnet und den Inhalt in eine Datei namens results.txt schreibt. Das encoding ist utf-8.</p>

#### Musterlösung

In [5]:
with open("roman.txt", "r", encoding="utf-8") as fin:
    with open("result.txt", "w", encoding="utf-8") as fout:
        for line in fin:
            fout.write(line)

oder in einem Rutsch lesen:

In [7]:
with open("roman.txt", "r", encoding="utf-8") as fin:
    content = fin.read()
    with open("result.txt", "w", encoding="utf-8") as fout:
        fout.write(content)

<h3>Das Anhängen an eine Datei</h3>
<p>Sie können Dateien auch ergänzen, indem Sie als Parameter statt "w" oder "r" den Buchstaben "a" (append) setzten.</p>

In [8]:
with open("fileout.txt", "a", encoding="utf-8") as writer:
    writer.write("Hänge diese Zeile an. Das ist nun die letzte.")

Achtung: Wenn Sie hier das falsche encoding angeben oder den Parameter vergessen, es sich aber um eine utf-8 Datei handelt, dann kann es sehr gut sein, dass das Ergebnis fehlerhaft ist, ohne dass Python einen Fehler meldet!

Das Anhängen mit `"a"` ist für Fälle gedacht, in denen die Datei beim Start Ihres Programmes bereits existiert. Wenn Sie aus verschiedenen Teilen Ihres Programms in dieselbe Datei schreiben wollen, reichen Sie besser das von `open` zurückgelieferte Dateiobjekt umher.

<h3 style="color: green">Aufgaben</h3>
<p>Ergänzen Sie die Datei, die Sie oben angelegt haben, um zwei Zeilen.</p>

## `open` im Detail
```
open(...)
    open(file, mode='r', buffering=-1, encoding=None,
         errors=None, newline=None, closefd=True, opener=None) -> file object
```
__mode__ ist ein String aus einem oder mehreren der folgenden Zeichen:

|Character| Meaning                                                        |
|---------|----------------------------------------------------------------|
|'r'      | open for reading (default)                                     |
|'w'      | open for writing, truncating the file first                    |
|'x'      | create a new file and open it for writing                      |
|'a'      | open for writing, appending to the end of the file if it exists|
|'b'      | binary mode                                                    |
|'t'      | text mode (default)                                            |
|'+'      | open a disk file for updating (reading and writing)            |
|'U'      | universal newline mode (deprecated)                            |

__encoding__ z.B. `utf-8`, `latin1`, `cp1252`

### Textdatei (vs. Binärdatei)
* Zeilenweises Einlesen möglich
* Konvertierung der Zeilenenden (Linux, Python: `'\n'`, Windows: `'\r\n'`, MacOS: `'\r'`), Option `newline`
* Dekodierung als String (Option `errors` regelt den Umgang mit Fehlern)

### Umgang mit Fehlern

* vorher prüfen → Aufwändig
* Fehlerwert statt Rückgabewert durchreichen → Unintuitiv

### Exceptions

In [11]:
f = open("werther.txt")

FileNotFoundError: [Errno 2] No such file or directory: 'werther.txt'

In [10]:
f = open("roman.txt", "r")
f.write("Bla")
f.close()

UnsupportedOperation: not writable

* Programm wird mit wenig benutzergeeigneter Meldung beendet
* `close()` wird nicht ausgeführt

In [11]:
from io import UnsupportedOperation

try:
    f = open("roman.txt", "r")
    f.write("Bla")
except UnsupportedOperation as e:    # Wird ausgeführt, wenn eine UnsupportedOperation-Exception auftritt
    print("Diese Operation wird nicht unterstützt:", e)
except:
    print("Irgendwas anderes ging schief")
else:                                # Wird ausgeführt, wenn _keine_ Exception auftritt
    print("Erfolgreich gespeichert")
finally:                             # Wird _immer_ ausgeführt
    f.close()

Diese Operation wird nicht unterstützt: not writable


## Wie funktionieren Exceptions?
* Irgendwo im Code der `write()`-Methode steht ``raise UnsupportedOperation("not writeable")``
* ``UnsupportedOperation("not writeable")`` erzeugt ein Exception-Objekt
* ``raise`` erzeugt den _Ausnahmezustand_ und markiert dieses Objekt als aktuelle Exception
* der aktuelle Block/Funktion/… wird abgebrochen, bis auf in einem mit ``try`` geschützten Block
* in diesem Block wird nach Klauseln geschaut:

    * `except IOError` oder `except (IOError, TypeError, NameError)` oder ``except io.UnsupportedOperation as e``: Wenn die Exception von einem der angegebenen Typen ist, wird sie »gefangen« und der Block abgearbeitet, danach geht's normal weiter
    * `except` oder `except Exception`: fängt alle Exceptions
    * `finally`: Dieser Block wird in jedem Falle abgearbeitet, die Exception wird jedoch _nicht_ aufgehalten
    
* wenn die Exception nirgends aufgefangen wird, wird das Programm mit Fehlermeldung abgebrochen.

#### `with` und Exceptions

In [12]:
with open("roman.txt", "r") as f:
    f.write("Bla")

UnsupportedOperation: not writable

Das Dateiobjekt in der `with`-Klausel bringt seinen eigenen ``finally``-Block implizit mit (»Context Manager«)

<h3 style="color:green">Aufgaben</h3>
1) Schreiben Sie eine Funktion save_file, die als Parameter einen Dateinamen nimmt und dann diese Datei zum Schreiben öffnet, aber nur, wenn die Datei noch nicht existiert. Die Fehlermeldung, wenn eine bereits existierende Datei zu öffnen versucht wird, soll lauten: "ERROR: Cannot overwrite existing file!" 

2) Schreiben Sie die Methode so um, dass sie nun einen Parameter overwrite hat, dessen default-Wert False ist. Er bestimmt, ob die Funktion wie in 1) beschrieben funktioniert oder ob eine existierende Datei einfach überschrieben wird.</p>

<h3>Musterlösung</h3>
<p>1) Schreiben Sie eine Funktion save_file, die als ersten Parameter einen Dateinamen nimmt und dann diese Datei zum Schreiben öffnet, aber nur, wenn die Datei noch nicht existiert. Als zweiten Parameter kommt ein String namens content, der den Inhalt der Datei enthält. Die Fehlermeldung, wenn eine bereits existierende Datei zu öffnen versucht wird, soll lauten: "ERROR: Cannot overwrite existing file!" 

In [34]:
def save_file(filename, content):
    """
    saves content into filename
    """
    try: 
        with open(filename, "x", encoding="utf-8") as fout:
            fout.write(content)
    except FileExistsError:
        print("ERROR: Cannot overwrite existing file!")
        
save_file("test.txt", "Hier kömmt der Inhalt.")

<p>2) Schreiben Sie die Methode so um, dass sie nun einen Parameter overwrite hat, dessen default-Wert False ist. Er bestimmt, ob die Funktion wie in 1) beschrieben funktioniert oder ob eine existierende Datei einfach überschrieben wird.


In [27]:
def save_file(filename, content, overwrite=False):
    """
    saves content into filename
    """
    if overwrite==False:
        write_value="x"
    else:
        write_value="w"
    try: 
        with open(filename, write_value, encoding="utf-8") as fout:
            fout.write(content)
    except FileExistsError:
        print ("ERROR: Cannot overwrite existing file!")
        
save_file("testbtxt", "Hier kömmt der Inhalt.")

ERROR: Cannot overwrite existing file!


<h3>Dateien kopieren bzw. verschieben</h3>

* Modul [shutil](https://docs.python.org/3.3/library/shutil.html) (__sh__ell __util__ities): Funktionen u.A. zum Kopieren und Verschieben von Dateien. 
* Ziel-Parameter:    
    * existierendes Verzeichnis – Datei wird unter ihrem Namen in dem Verzeichnis abgelegt
    * sonst – neuer Dateiname

In [39]:
import shutil
shutil.copy("roman.txt", "results.dat")

'results.dat'

### Verzeichnispfade
* Unter Windows: `"C:\\TEMP\\Bla.txt"`
* Unter anderen Betriebssystemen: `"/tmp/Bla.txt"` (geht i.A. auch unter Windows …)
* saubere Lösung: [os.path.join()](https://docs.python.org/3.3/library/os.path.html#os.path.join) verwenden (oder ``os.sep``)

In [7]:
# FIXME
import shutil
import os
shutil.copy("roman.txt", os.path.join("daten", "kurzer-roman.txt"))  #plattformunabhängig
shutil.copy("roman.txt", "daten" + os.sep + "kurzer-roman.txt")      #plattformunabhängig
shutil.copy("roman.txt", "daten\\kurzer-roman.txt")                  #macht unter nicht-windows etwas anderes ...

'daten\\kurzer-roman.txt'

<p>Um Dateien (oder Unterverzeichnisse) zu bewegen, können sie in gleicher Weise shutil.move(file, file) verwenden.

<h3>Dateien umbenennen oder löschen</h3>
<p>Verwirrenderweise sind diese Befehle in einem anderen Modul, nämlich dem Modul os</p>

In [8]:
import os
os.rename("fileout.txt", "fileout.alt")
os.remove("fileout.alt")

<h3>Informationen über Dateien oder Verzeichnisse</h3>

In [9]:
import os.path
if os.path.exists("fileout.txt"):  #prüft ob eine Datei mit diesem Namen existiert
    print("file exists")
else:
    print("file does not exist")

file does not exist


In [12]:
import os.path
print("size of file results.dat: ", os.path.getsize("results.dat"))

size of file results.dat:  145


In [15]:
os.stat("results.dat")

os.stat_result(st_mode=33204, st_ino=1183855, st_dev=2049, st_nlink=1, st_uid=1000, st_gid=1000, st_size=145, st_atime=1417443956, st_mtime=1417443956, st_ctime=1417443956)

### Mehr
* in den Modulen `os`, `os.path` und `shutil` finden Sie zahlreiche weitere Funktionen zum Umgang mit Dateien und Verzeichnissen, z.B. zum Auflisten des Verzeichnisinhalts
* Modul `glob` zum Auswerten von Shell-Glob-Mustern wie `*.txt`
* Siehe Python-Dokumentation

<h3>Ausgaben formatieren</h3>

Es gibt [eine kleine Minisprache](https://docs.python.org/3/library/string.html#formatspec), u.a. um Strings nicht immer mit `+` zusammenbauen zu müssen:

In [16]:
s = "{hi} {world}!".format(hi="hello and a wonderful", world="beautiful world")
print(s)

hello and a wonderful beautiful world!


* Formatierungsinformationen in den Templates nach einem Doppelpunkt, 
* z.B. `<`/`>` für links/rechts ausgerichtet, Zahl für Breite

In [17]:
a = 2.593729475
b = "average number of people born in a city in an hour"
print ("{text:<} {nr:>f}".format(text=b, nr=a))

average number of people born in a city in an hour 2.593729


In [20]:
a = [2.68438575, 4.12, 5, 1.0484753838]
b = ["Paris", "Peking", "Mexico City", "Berlin"]
for i in range(len(a)):
    print ("{city:>12}: {nr:<.5f}".format(city=b[i], nr=a[i]))

       Paris: 2.68439
      Peking: 4.12000
 Mexico City: 5.00000
      Berlin: 1.04848


* `>12`: Rechtsbündig, auf mindestens zwölf Zeichen (aufgefüllt wird mit Leerzeichen)
* `<.5f`: Linksbündig, Kommazahl (`f`), mit fünf Nachkommastellen (`.5`)