## Einführung in das Programmieren mit Python

# Input/Output

## Wiederholung: Module

* Module zur Kapselung zusammengehöriger Funktionen etc.
* Python-Datei = Python-Modul
* Import, Aliase und gezielter Import
* `__name__ == "__main__"`
* Doctests
* Python-Standardbibliothek

### Text-Dateien öffnen und lesen

In [1]:
f = open("roman.txt", "rt", encoding="utf-8")
#        ^^^^^^^^^^^                       Dateiname
#                     ^^^^                 Modus, r = lesen, t = Text
#                                          (beides Default)
#                           ^^^^^^^^^^^^^^ Textcodierung, Default systemabh.
#=> Dateiobjekt
f

<_io.TextIOWrapper name='roman.txt' mode='rt' encoding='utf-8'>

In [2]:
content = f.read()  # liest die komplette Datei in einen String ein. 
print(content)      # gibt den eingelesenen Inhalt der Datei aus
f.close()           # Datei wieder schließen

Kurzer Roman.
Dies ist ein langer Roman. Er beginnt mit dem Auftritt des Heldens. 
Da es keine Helden gibt, unterbricht hier schon der Leser …



### Zeilenweises Einlesen einer Datei

Dateien sind _Iterables_, sie können z.B. in `for`-Schleifen verwendet werden und liefern dann Zeilen:

In [3]:
f = open("roman.txt", encoding="utf-8")
for line in f:
    print("»" + line + "«") # hier kann man natürlich auch etwas Sinnvolleres tun …
f.close()

»Kurzer Roman.
«
»Dies ist ein langer Roman. Er beginnt mit dem Auftritt des Heldens. 
«
»Da es keine Helden gibt, unterbricht hier schon der Leser …
«


Schließen von Dateien
Man sollte am Ende eines Zugriffs auf Dateien diese _immer_ schließen (`f.close()`). Um sicherzustellen, dass das passiert, kann man `with` verwenden:

In [4]:
with open("roman.txt", "r", encoding="utf-8") as f:
    for line in f:
        print(line, end='')      

Kurzer Roman.
Dies ist ein langer Roman. Er beginnt mit dem Auftritt des Heldens. 
Da es keine Helden gibt, unterbricht hier schon der Leser …


<h3 style="color:green">Aufgaben</h3>


1. Legen Sie mit einem Editor eine utf-8-Datei in einem  Unterverzeichnis an (inkl. Umlaute und ß) und geben Sie dann den Inhalt mit Python aus. Unter Windows können Sie dafür den editor unter Zubehör verwenden. Beachten Sie das Encoding unter _Speichern unter_.
2. Lesen Sie den Inhalt der Datei mit Python ein. Messen Sie mit Python, wieviele Buchstaben Ihr Probetext inkl. Leerzeichen etc. lang ist. Vergleichen Sie mit der von `os.path.getsize()` gemessenen Dateigröße.

In [5]:
with open("beispiel.txt", "rt", encoding="utf-8") as f:
    for line in f:
        print(line)

Dies ist eine einfache Beispieldatei.

Sie enthält Umlaute, GROẞE und nicht große Eszetts und ſogar ein langes ſ!



In [7]:
import os
with open("beispiel.txt", "rt", encoding="utf-8") as f:
    content = f.read()    
    print(len(content))
    print(os.path.getsize("beispiel.txt"))

113
121


Im [Hex-Viewer](http://de.wikipedia.org/wiki/Hex-Editor):

<img src="files/images/utf-8_file.png"/>

* Codierung der Zeilenenden – in Windows als 0A 0D (`\r\n`), in Python-Strings als `'\n'`
* Codierung von Sonderzeichen mit mehr als einem Byte

### Encoding einer Textdatei

* Zuordnung Bytefolge <> Interpretation als Zeichen
* UTF-8 ist eine standardisierte, portable Codierung für den gesamten Unicode-Zeichenvorrat (bis zu 0x10FFFF verschiedene Zeichen)
* UTF-8: ein Zeichen <> 1–4 Bytes
* Python-3-Strings sind Unicode-Strings
* _Tipp_: Arbeiten Sie immer mit UTF-8-Dateien, und geben Sie das Encoding explizit an.

In [9]:
import locale
import sys

print("Standardcodierung für Dateiinhalte (encoding-Parameter):", locale.getpreferredencoding())
print("Standardcodierung für Dateinamen etc.:", sys.getfilesystemencoding())

Standardcodierung für Dateiinhalte (encoding-Parameter): UTF-8
Standardcodierung für Dateinamen etc.: utf-8


<h3>Schreiben von Dateien</h3>
<p>Das Schreiben von Dateien funktioniert ganz ähnlich wie das Lesen.</p>

In [10]:
t = ["Dies ist ein kürzerer Text.", "Und das wäre die letzte Zeile!", "Wenn es nicht eine weitere gäbe."]
with open("fileout.txt", "w", encoding="utf-8") as output_file:
    for l in t:
        output_file.write(l + "\n")

Beim Aufruf der Funktion open wird als Parameter nun `"w"` (write) gesetzt. `output_file` ist ebenfalls ein frei wählbarer Variablenname für unser Dateiobjekt.

Achtung: Bei der Verwendung von `"w"` allein wird die Datei immer zuerst zurückgesetzt, wenn sie existieren sollte. D.h. evtl. bestehende Inhalte werden gelöscht!

Beachten Sie, dass die Methode `write` nicht automatisch eine Newline anhängt, wie das im Fall von print geschieht.

<h3 style="color: green">Aufgabe</h3>
1. Schreiben Sie ein Skript, dass ihre oben mit dem Editor angelegte Datei öffnet und den Inhalt in eine Datei namens results.txt schreibt. Das encoding ist utf-8.</p>
2. Variieren Sie ihr Skript, sodass es in der Zieldatei vor jede Zeile in der Quelldatei die Zeilennummer schreibt.

#### Musterlösung

In [7]:
with open("roman.txt", "r", encoding="utf-8") as fin:
    with open("result.txt", "w", encoding="utf-8") as fout:
        for line in fin:
            fout.write(line)

oder in einem Rutsch lesen:

In [8]:
with open("roman.txt", "r", encoding="utf-8") as fin:
    content = fin.read()
    with open("result.txt", "w", encoding="utf-8") as fout:
        fout.write(content)

In [11]:
with open("roman.txt", "r", encoding="utf-8") as fin:
    with open("result.txt", "w", encoding="utf-8") as fout:
        lineno = 0
        for line in fin:
            lineno = lineno + 1
            fout.write(str(lineno) + " " + line)

<h3>Das Anhängen an eine Datei</h3>
<p>Sie können Dateien auch ergänzen, indem Sie als Parameter statt "w" oder "r" den Buchstaben "a" (append) setzten.</p>

In [8]:
with open("fileout.txt", "a", encoding="utf-8") as writer:
    writer.write("Hänge diese Zeile an. Das ist nun die letzte.")

Achtung: Wenn Sie hier das falsche encoding angeben oder den Parameter vergessen, es sich aber um eine utf-8 Datei handelt, dann kann es sehr gut sein, dass das Ergebnis fehlerhaft ist, ohne dass Python einen Fehler meldet!

Das Anhängen mit `"a"` ist für Fälle gedacht, in denen die Datei beim Start Ihres Programmes bereits existiert (z.B. Protokolldateien). Wenn Sie aus verschiedenen Teilen Ihres Programms in dieselbe Datei schreiben wollen, reichen Sie besser das von `open` zurückgelieferte Dateiobjekt umher.

<h3 style="color: green">Aufgaben</h3>
<p>Ergänzen Sie die Datei, die Sie oben angelegt haben, um zwei Zeilen.</p>

## `open` im Detail
```
open(...)
    open(file, mode='r', buffering=-1, encoding=None,
         errors=None, newline=None, closefd=True, opener=None) -> file object
```
__mode__ ist ein String aus einem oder mehreren der folgenden Zeichen:

|Character| Meaning                                                        |
|---------|----------------------------------------------------------------|
|'r'      | open for reading (default)                                     |
|'w'      | open for writing, truncating the file first                    |
|'x'      | create a new file and open it for writing                      |
|'a'      | open for writing, appending to the end of the file if it exists|
|'b'      | binary mode                                                    |
|'t'      | text mode (default)                                            |
|'+'      | open a disk file for updating (reading and writing)            |
|'U'      | universal newline mode (deprecated)                            |

__encoding__ z.B. `utf-8`, `latin1`, `cp1252`

### Textdatei (vs. Binärdatei)
* Zeilenweises Einlesen möglich
* Konvertierung der Zeilenenden (Linux, Python: `'\n'`, Windows: `'\r\n'`, MacOS: `'\r'`), Option `newline`
* Dekodierung als String (Option `errors` regelt den Umgang mit Fehlern)

### Übung

Lesen Sie eine Textdatei ein und zerlegen sie in Wörter. Zählen Sie, wie oft jedes Wort vorkommt. D.h. Ergebnis Ihrer Funktion sollte eine Datenstruktur sein, die zu jedem Wort in der Datei die Häufigkeit angibt.

* Bonus: Ignorieren Sie Groß- und Kleinschreibung

In [12]:
def count_words(filename):
    word_counts = {}
    with open(filename, "rt", encoding="utf-8") as f:
        for line in f:
            for word in line.split():                
                if word in word_counts:
                    word_counts[word] += 1
                else:
                    word_counts[word] = 1
    return word_counts
print(count_words("roman.txt"))

{'es': 1, 'keine': 1, 'Auftritt': 1, 'Dies': 1, 'ein': 1, 'mit': 1, 'Er': 1, 'dem': 1, 'Kurzer': 1, 'der': 1, 'unterbricht': 1, '…': 1, 'ist': 1, 'des': 1, 'langer': 1, 'Heldens.': 1, 'Leser': 1, 'Roman.': 2, 'hier': 1, 'Da': 1, 'beginnt': 1, 'gibt,': 1, 'Helden': 1, 'schon': 1}


## Umgang mit Dateinamen und -pfaden

Für den Umgang mit Dateien gibt es Module in der Standardbibliothek:

* `os.path` enthält Funktionen zum Umgang mit Dateinamen und -pfaden, mit und ohne Zugriff auf die Dateien
* `os` enthält allgemeinere Dinge zum Betriebssystem, z.B. `os.listdir()`
* `shutil` enthält »höhere« Betriebssystemfunktionen, z.B. Kopieren von Dateien
* `glob` liefert die Funktion `glob.glob()`, mit der man z.B. 

In [24]:
import os
os.listdir('/home/tv/git/pydelta/corpus_DE')

['Arnim,-Ludwig-Achim-von_Armut Reichtum Schuld und Buße der Gräfin Dolores.txt',
 'Arnim,-Ludwig-Achim-von_Isabella von Ägypten.txt',
 'Arnim,-Ludwig-Achim-von_Kronenwächter 1.txt',
 'Dohm,-Hedwig_Christa Ruland.txt',
 'Dohm,-Hedwig_Schicksale einer Seele.txt',
 'Dohm,-Hedwig_Sibilla Dalmar.txt',
 'Ebner-Eschenbach,-Marie-von_Bozena.txt',
 'Ebner-Eschenbach,-Marie-von_Das Gemeindekind.txt',
 'Ebner-Eschenbach,-Marie-von_Unsühnbar.txt',
 'Fischer,-Caroline-Auguste_Die Honigmonathe.txt',
 'Fischer,-Caroline-Auguste_Gustavs Verirrungen.txt',
 'Fischer,-Caroline-Auguste_Margarethe.txt',
 'Fontane,-Theodor_Der Stechlin.txt',
 'Fontane,-Theodor_Effi Briest.txt',
 'Fontane,-Theodor_Irrungen Wirrungen.txt',
 'Fouqué,-Caroline-de-la-Motte_Die Frau des Falkensteins.txt',
 'Fouqué,-Caroline-de-la-Motte_Magie der Natur.txt',
 'Fouqué,-Caroline-de-la-Motte_Resignation.txt',
 'François,-Louise-von_Die letzte Reckenburgerin.txt',
 'François,-Louise-von_Judith die Kluswirtin.txt',
 'François,-Louise-

### Übung

1. Entpacken Sie die ZIP-Datei `corpus_DE.zip` (mit dem Entpackprogramm Ihrer Wahl) und listen Sie alle Dateien mit vollem Dateipfad auf.
2. Lesen Sie jede der Dateien ein und rufen Ihre Wörterzählfunktion darauf auf.
3. Wie können wir einfach die Gesamtwörterzahl über das gesamte Corpus ermitteln?