## Einführung in das Programmieren mit Python

# Input/Output

### Hausaufgabe  – Musterlösung

1. Erstellen Sie eine Tabelle der absoluten Worthäufigkeiten der angehängten Textdatei. Dazu zerlegen Sie die Textdatei in Tokens, entfernen den Tokens anhaftende Satzzeichen, und zählen, wie oft jede unterschiedliche Wortform _(Type)_ vorkommt. Ob Sie das Zählen selbst übernehmen oder passende Strukturen aus der Standardbibliothek zuhilfenehmen ist Ihnen überlassen.

In [1]:
from pathlib import Path
from collections import Counter
text = Path('Fontane-Theodor_Effi Briest.txt').read_text(encoding='utf-8')
tokens = [token.strip(',.;:-()»«') for token in text.split()]
abs_freqs = Counter(tokens)

2. Ermitteln Sie die Anzahl der Tokens  und die der Types (= der _unterschiedlichen_ Tokens). 

In [2]:
token_count = sum(abs_freqs.values())
type_count = len(abs_freqs)
print(f"{token_count} Tokens, {type_count} Types")

95503 Tokens, 12525 Types


3. Erzeugen Sie eine Tabelle der _relativen_ Häufigkeiten. Selbstkontrolle: `sum(rel_freqs.values())` muss `1.0` sein.

In [3]:
freqs = {word: freq / token_count for word, freq in abs_freqs.items()}
print(sum(freqs.values()))

1.0000000000004237


4. Berechnen Sie das arithmetische Mittel der relativen Worthäufigkeiten: $\mu = \frac{1}{n} \sum_{i=1}^n f_i$ für die relativen Häufigkeiten $f_1, \dotsc, f_n$ ($n$ ist die Anzahl der unterschiedlichen Wortformen aus Aufgabe 1.)

In [4]:
mean = sum(freqs.values()) / type_count
print(mean)

7.984031936131128e-05


5. Berechnen Sie die (korrigierte) Stichprobenvarianz. Sie ist die mittlere quadratische Abweichung der Werte vom Mittelwert: $\sigma^2 = \frac{1}{n-1} \sum_{i=1}^n (f_i - \mu)^2$. Durch das Quadrieren der einzelnen Summanden wird man das Vorzeichen los, man teilt die Summe meist durch die Anzahl der Werte - 1 ($n-1$), da durch die Verwendung des Mittelwerts ein Freiheitsgrad verlorengeht.

In [5]:
var = 1/(type_count-1)  * sum((freq - mean)**2 for freq in freqs.values())
print(var)

3.8291677098655836e-07


6. Ein sprechenderer Wert als die Varianz ist die _Standardabweichung_, das ist einfach die Quadratwurzel aus der Varianz: $\sigma = \sqrt{\sigma^2}$. Die Standardabweichung ist in der selben Dimension wie die einzelnen Werte oder das arithmetische Mittel. Berechnen Sie sie. Sie können dazu die Funktion `sqrt` aus dem Modul `math` der Standardbibliothek importieren.

In [6]:
from math import sqrt
std_dev = sqrt(var)
print(std_dev)

0.0006188026914829624


## Text-Dateien öffnen und lesen

In [7]:
file = open("roman.txt", "rt", encoding="utf-8")
#           ^^^^^^^^^^^                       Dateiname
#                        ^^^^                 Modus, r = lesen, t = Text
#                                          (beides Default)
#                              ^^^^^^^^^^^^^^ Textcodierung, Default systemabh.
#=> Dateiobjekt
file

<_io.TextIOWrapper name='roman.txt' mode='rt' encoding='utf-8'>

In [8]:
content = file.read()  # liest die komplette Datei in einen String ein. 
print(content)         # gibt den eingelesenen Inhalt der Datei aus
file.close()           # Datei wieder schließen

Kurzer Roman.
Dies ist ein langer Roman. Er beginnt mit dem Auftritt des Heldens. 
Da es keine Helden gibt, unterbricht hier schon der Leser …



### Zeilenweises Einlesen einer Datei

Dateien sind _Iterables_, sie können z.B. in `for`-Schleifen verwendet werden und liefern dann Zeilen:

In [9]:
text_file = open("roman.txt", encoding="utf-8")
for line in text_file:
    print("»" + line + "«") # hier kann man natürlich auch etwas Sinnvolleres tun …
text_file.close()

»Kurzer Roman.
«
»Dies ist ein langer Roman. Er beginnt mit dem Auftritt des Heldens. 
«
»Da es keine Helden gibt, unterbricht hier schon der Leser …
«


### Schließen von Dateien

Man sollte am Ende eines Zugriffs auf Dateien diese _immer_ schließen (`f.close()`). Um sicherzustellen, dass das passiert (auch im Fehlerfall oder bei einem vorzeitigen `return`), kann man `with` verwenden:

In [10]:
with open("roman.txt", "r", encoding="utf-8") as f:
    for line in f:
        print(line, end='')      

Kurzer Roman.
Dies ist ein langer Roman. Er beginnt mit dem Auftritt des Heldens. 
Da es keine Helden gibt, unterbricht hier schon der Leser …


<h3 style="color:green">Aufgaben</h3>


1. Legen Sie mit einem Editor eine utf-8-Datei in einem  Unterverzeichnis an (inkl. Umlaute und ß) und geben Sie dann den Inhalt mit Python aus. Unter Windows können Sie dafür den editor unter Zubehör verwenden. __Beachten Sie das Encoding unter _Speichern unter___.
2. Lesen Sie den Inhalt der Datei mit Python ein. Messen Sie mit Python, wieviele Buchstaben Ihr Probetext inkl. Leerzeichen etc. lang ist. Vergleichen Sie mit der von Ihrem Dateimanager angegebenen Dateigröße.

In [12]:
with open("beispiel.txt", "rt", encoding="utf-8") as file:
    for line in file:
        print(line)

Dies ist eine einfache Beispieldatei.

Sie enthält Umlaute, GROẞE und nicht große Eszetts und ſogar ein langes ſ!



In [13]:
import os
with open("beispiel.txt", "rt", encoding="utf-8") as f:
    content = f.read()    
    print(len(content))
    print(os.path.getsize("beispiel.txt"))

113
121


Im [Hex-Viewer](http://de.wikipedia.org/wiki/Hex-Editor):

<img src="img/utf-8_file.png"/>

* Codierung der Zeilenenden – in Windows als 0A 0D (`\r\n`), in Python-Strings als `'\n'`
* Codierung von Sonderzeichen mit mehr als einem Byte

### Encoding einer Textdatei

* Zuordnung Bytefolge <> Interpretation als Zeichen
* Welche Zeichen? __Unicode__ vergibt Nummern _(Codepoints)_, z.Z.  136690 Zeichen (Unicode 10)
* UTF-8 ist eine standardisierte, portable Codierung für den gesamten möglichen Unicode-Zeichenvorrat (bis zu 0x10FFFF verschiedene Zeichen)
* UTF-8: ein Zeichen <> 1–4 Bytes
* Python-3-Strings sind Unicode-Strings
* _Tipp_: Arbeiten Sie immer mit UTF-8-Dateien, und geben Sie das Encoding explizit an.

In [14]:
import locale
import sys

print("Standardcodierung für Dateiinhalte (encoding-Parameter):", locale.getpreferredencoding())
print("Standardcodierung für Dateinamen etc.:", sys.getfilesystemencoding())

Standardcodierung für Dateiinhalte (encoding-Parameter): UTF-8
Standardcodierung für Dateinamen etc.: utf-8


<h3>Schreiben von Dateien</h3>
<p>Das Schreiben von Dateien funktioniert ganz ähnlich wie das Lesen.</p>

In [15]:
text = ["Dies ist ein kürzerer Text.", "Und das wäre die letzte Zeile!", "Wenn es nicht eine weitere gäbe."]
with open("fileout.txt", "w", encoding="utf-8") as output_file:
    for line in text:
        output_file.write(line + "\n")

Beim Aufruf der Funktion open wird als Parameter nun `"w"` (write) gesetzt. `output_file` ist ebenfalls ein frei wählbarer Variablenname für unser Dateiobjekt.

Achtung: Bei der Verwendung von `"w"` allein wird die Datei immer zuerst zurückgesetzt, wenn sie existieren sollte. D.h. evtl. bestehende Inhalte werden gelöscht!

Beachten Sie, dass die Methode `write` nicht automatisch eine Newline anhängt, wie das im Fall von print geschieht.

<h3 style="color: green">Aufgabe</h3>
1. Schreiben Sie ein Skript, dass ihre oben mit dem Editor angelegte Datei öffnet und den Inhalt in eine Datei namens results.txt schreibt. Das encoding ist utf-8.</p>
2. Variieren Sie ihr Skript, sodass es in der Zieldatei vor jede Zeile in der Quelldatei die Zeilennummer schreibt.

#### Musterlösung

In [16]:
with open("roman.txt", "r", encoding="utf-8") as fin:
    with open("result.txt", "w", encoding="utf-8") as fout:
        for line in fin:
            fout.write(line)

oder in einem Rutsch lesen:

In [17]:
with open("roman.txt", "r", encoding="utf-8") as fin:
    content = fin.read()
    with open("result.txt", "w", encoding="utf-8") as fout:
        fout.write(content)

mit Zeilennummer:

In [18]:
with open("roman.txt", "r", encoding="utf-8") as fin:
    with open("result.txt", "w", encoding="utf-8") as fout:
        lineno = 0
        for line in fin:
            lineno = lineno + 1
            fout.write(str(lineno) + " " + line)

<h3>Das Anhängen an eine Datei</h3>
<p>Sie können Dateien auch ergänzen, indem Sie als Parameter statt "w" oder "r" den Buchstaben "a" (append) setzten.</p>

In [19]:
with open("fileout.txt", "a", encoding="utf-8") as writer:
    writer.write("Hänge diese Zeile an. Das ist nun die letzte.")

Achtung: Wenn Sie hier das falsche encoding angeben oder den Parameter vergessen, es sich aber um eine utf-8 Datei handelt, dann kann es sehr gut sein, dass das Ergebnis fehlerhaft ist, ohne dass Python einen Fehler meldet!

Das Anhängen mit `"a"` ist für Fälle gedacht, in denen die Datei beim Start Ihres Programmes bereits existiert (z.B. Protokolldateien). Wenn Sie aus verschiedenen Teilen Ihres Programms in dieselbe Datei schreiben wollen, reichen Sie besser das von `open` zurückgelieferte Dateiobjekt umher.

<h3 style="color: green">Aufgaben</h3>
<p>Ergänzen Sie die Datei, die Sie oben angelegt haben, um zwei Zeilen.</p>

## `open` im Detail
```
open(...)
    open(file, mode='r', buffering=-1, encoding=None,
         errors=None, newline=None, closefd=True, opener=None) -> file object
```
__mode__ ist ein String aus einem oder mehreren der folgenden Zeichen:

|Character| Meaning                                                        |
|---------|----------------------------------------------------------------|
|'r'      | open for reading (default)                                     |
|'w'      | open for writing, truncating the file first                    |
|'x'      | create a new file and open it for writing                      |
|'a'      | open for writing, appending to the end of the file if it exists|
|'b'      | binary mode                                                    |
|'t'      | text mode (default)                                            |
|'+'      | open a disk file for updating (reading and writing)            |
|'U'      | universal newline mode (deprecated)                            |

__encoding__ z.B. `utf-8`, `latin1`, `cp1252`

### Textdatei (vs. Binärdatei)
* Zeilenweises Einlesen möglich
* Konvertierung der Zeilenenden (Linux, Python: `'\n'`, Windows: `'\r\n'`, MacOS: `'\r'`), Option `newline`
* Dekodierung als String (Option `errors` regelt den Umgang mit Fehlern)

## Umgang mit Dateinamen und -pfaden

Für den [Umgang mit Dateien](https://docs.python.org/3/library/filesys.html) gibt es Module in der [Standardbibliothek](https://docs.python.org/3/library/index.html):

* `pathlib` liefert ein objektorientiertes, Betriebssystemunabhängiges Interface für Dateinamen etc.

In [20]:
from pathlib import Path
outdir = Path('target')       # verzeichnis 'target'
outdir.mkdir(exist_ok=True)   # anlegen falls nicht da
file = outdir / "huhu.txt"    # neuer pfad: datei in outdir
file.write_text('hallo welt') # text reinschreiben
print(file.absolute())        # bei ihnen vllt c:\Users\...

/home/tv/Documents/OwnCloud/Uni/Lehre/Python1-neu/target/huhu.txt


* `os.path` enthält Funktionen zum Umgang mit Dateinamen und -pfaden, mit und ohne Zugriff auf die Dateien
* `os` enthält allgemeinere Dinge zum Betriebssystem, z.B. `os.listdir()`
* `shutil` enthält »höhere« Betriebssystemfunktionen, z.B. Kopieren von Dateien
* `glob` liefert die Funktion `glob.glob()`, mit der man Dateien mit einem bestimmten Muster anzeigen lassen kann.

### Umgang mit Modulen aus der Standardbibliothek

* Die Standardbibliothek liefert viele Funktionen für gängige Aufgaben
* Bei jedem Python mit installiert, müssen in Ihrem Programm aber erst importiert werden

__Beispiel:__

Die Funktion `glob` im Modul `glob` bietet die Möglichkeit, alle Dateien in einem bestimmten Verzeichnis, deren Namen einem bestimmten Muster folgt, auflisten zu lassen. Dabei gilt:

```
+--------------+---------------------------------------------+
|Sonderzeichen | Steht für ...                               |
+--------------+---------------------------------------------+
|    *         | beliebig viele beliebige Zeichen            |
|    ?         | ein beliebiges Zeichen                      |
|  [0-9]       | die zwischen den `[]` aufgelisteten Zeichen |
+--------------+---------------------------------------------+
```

`scripts/*.py` steht also z.B. für alle Python-Dateien im Unterverzeichnis `scripts`.

 1. [Dokumentation lesen](https://docs.python.org/3/library/glob.html)
 2. Modul importieren

In [21]:
import glob

 3. Modul benutzen – die Funktionen stehen jetzt mit dem Präfix `glob.` zur Verfügung

In [22]:
print(glob.glob('*.pdf'))

['01-Einführung.pdf', '05-IO.pdf', '04-Comprehensions.pdf', '03-Datenstrukturen-ol.pdf', '06-Funktionen.pdf', '03-Datenstrukturen.pdf', '02-Kontroll+Datenstrukturen.pdf']


### Übung

Benutzen Sie eine Funktion zum Dateien kopieren aus der Standardbibliothek, um ihre vorhin erzeugte Beispieldatei zu einer Datei mit dem Namen `beispiel-kopie.txt` zu kopieren.