## Einführung in das Programmieren mit Python

# Input/Output

## Wiederholung: Funktionen

Der folgende Code möge sinnvoll in Funktionen zerlegt werden, um
1. Berechnungen und Benutzerinteraktion zu trennen und so die Berechnungen auch für andere Anwendungszwecke nutzbar zu machen
2. wiederholten und redundanten Code zu eliminieren, sodass z.B. Fehler nur an einer Stelle behoben werden müssen
3. eine klare Schnittstelle für die zu berechnenden Funktionen zu gestalten
4. den Code übersichtlicher zu machen.

In [1]:
s = "Herr Mustermann kommt ins Haus und trifft dort Frau Musterfrau"
sum_wordlength = 0
for w in s.split():
    sum_wordlength += len(w)
avg_wordlength = sum_wordlength / len(s.split())
print("Durchschnittliche Wortlänge: ", avg_wordlength )
list_vowels = []
for w in s.lower().split():
    word_vowels = 0
    for c in w:
        if c in "aeiou":
            word_vowels += 1
    list_vowels.append(word_vowels)
print("Durchschnittliche Vokalanzahl: ", sum(list_vowels) / len(list_vowels))
list_consonants = []
for w in s.lower().split():
    word_cons = 0
    for c in w:
        if c in "bcdfghjklmnpqrstvwxyz":
            word_cons += 1
    list_consonants.append(word_cons)
print("Durchschnittliche Konsonantenanzahl: ", sum(list_consonants) / len(list_consonants))

Durchschnittliche Wortlänge:  5.3
Durchschnittliche Vokalanzahl:  1.7
Durchschnittliche Konsonantenanzahl:  3.6


#### Zerlegungsstufe 0: Trennung Berechnung / Ausgabe

In [2]:
def avg_wordlength(text):
    sum_wordlength = 0
    for w in text.split():
        sum_wordlength += len(w)
    return sum_wordlength / len(s.split())

def avg_vowels(text):
    list_vowels = []
    for w in text.lower().split():
        word_vowels = 0
        for c in w:
            if c in "aeiou":
                word_vowels += 1
        list_vowels.append(word_vowels)
    return sum(list_vowels) / len(list_vowels)

def avg_consonants(text):
    list_consonants = []
    for w in s.lower().split():
        word_cons = 0
        for c in w:
            if c in "bcdfghjklmnpqrstvwxyz":
                word_cons += 1
        list_consonants.append(word_cons)
    return sum(list_consonants) / len(list_consonants)

s = "Herr Mustermann kommt ins Haus und trifft dort Frau Musterfrau"
print("Durchschnittliche Wortlänge: ", avg_wordlength(s))
print("Durchschnittliche Vokalanzahl: ", avg_vowels(s))
print("Durchschnittliche Konsonantenanzahl: ", avg_consonants(s))

Durchschnittliche Wortlänge:  5.3
Durchschnittliche Vokalanzahl:  1.7
Durchschnittliche Konsonantenanzahl:  3.6


In dieser Version wurde die Trennung von Berechnung und Ausgabe durchgeführt und der Code übersichtlicher gegliedert. Die Funktionen `avg_vowels` und `avg_consonants` sind indes noch strukturell gleich, sie unterscheiden sich ausschließlich durch die Liste der zu zählenden Buchstaben. Wird diese zu einem Parameter der Funktion, können wir beide Funktionen zusammenfassen. Der Klarheit halber benennen wir dabei die in der Funktion verwendeten Variablen um: Dies hat keine Auswirkungen auf die Funktionalität.

#### Zerlegungsstufe 1: Vokale und Konsonanten sind ja nur Zeichenmengen

In [2]:
def avg_chars(text, chars):
    """Returns the average number of characters from `chars` in each word of `text`"""
    list_chars = []
    for word in s.lower().split():
        word_chars = 0
        for char in word:
            if char in chars:
                word_chars += 1
        list_chars.append(word_chars)
    return sum(list_chars) / len(list_chars)

def avg_wordlength(text):
    sum_wordlength = 0
    for word in s.split():
        sum_wordlength += len(word)
    return sum_wordlength / len(s.split())

# optional:
def avg_vowels(text):
    return avg_chars(text, "aeiou")

def avg_consonants(text):
    return avg_chars(text, "bcdfghjklmnpqrstvwxyz")

s = "Herr Mustermann kommt ins Haus und trifft dort Frau Musterfrau"
print("Durchschnittliche Wortlänge: ", avg_wordlength(s))
print("Durchschnittliche Vokalanzahl: ", avg_vowels(s))
print("Durchschnittliche Konsonantenanzahl: ", avg_consonants(s))

Durchschnittliche Wortlänge:  5.3
Durchschnittliche Vokalanzahl:  1.7
Durchschnittliche Konsonantenanzahl:  3.6


Optional können wir die beiden alten Funktionen `avg_vowels` und `avg_consonants` neu definieren, als reine »Delegates«, die `avg_characters` mit passenden Parametern aufrufen. Dies kann sinnvoll sein, wenn andere Leute z.B. mit unseren oben definierten Funktionen bereits arbeiten und ihren Code nicht ändern wollen.

#### Zerlegungstufe 2: Zählen ist zählen

`avg_wordlength` und `avg_characters` sind zwar leicht unterschiedlich implementiert, machen aber strukturell dasselbe: Sie zerlegen einen String in Wörter, zählen (bestimmte) Zeichen pro Wort und bilden daraus das arithmetische Mittel. Nur _welche_ Zeichen gezählt wird unterscheidet sie (alle vs. bestimmte). Wir können sie deshalb ebenfalls zusammenfassen:

In [4]:
def avg_wordlength(text, chars=None): # Defaultwert für chars, wenn nur ein Parameter angegeben wird
    """Returns the average number of characters from `chars` in each word of `text`"""
    list_chars = []
    for word in s.lower().split():
        word_chars = 0
        for char in word:
            if chars is None or char in chars:   # <- nur hier geändert
                word_chars += 1
        list_chars.append(word_chars)
    return sum(list_chars) / len(list_chars)

# optional:
def avg_vowels(text):
    return avg_wordlength(text, "aeiou")

def avg_consonants(text):
    return avg_wordlength(text, "bcdfghjklmnpqrstvwxyz")

s = "Herr Mustermann kommt ins Haus und trifft dort Frau Musterfrau"
print("Durchschnittliche Wortlänge: ", avg_wordlength(s))
print("Durchschnittliche Vokalanzahl: ", avg_vowels(s))
print("Durchschnittliche Konsonantenanzahl: ", avg_consonants(s))

Durchschnittliche Wortlänge:  5.3
Durchschnittliche Vokalanzahl:  1.7
Durchschnittliche Konsonantenanzahl:  3.6


Allerdings kann es sein, dass das Selberimplementieren von `len` in diesem Schritt weniger effizient ist als die eingebaute Implementierung.

Wir haben nach jedem Zerlegungsschritt das Programm laufen lassen und so festgestellt, dass das _Verhalten_ des Programms immernoch dasselbe ist. Solche Umstrukturierungen des Programmcodes bei unveränderter Funktionalität nennt man auch __Refactoring__, sie sind ein wichtiger Bestandteil der Softwareentwicklung und dienen dazu, bei der Implementierung »gewachsenen« (oder gewucherten ☺) Programmcode aufzuräumen und so für die künftige Weiterentwicklung und Wartung des Programmes fit zu machen.

### Hausaufgabe 2

Viele analytische Verfahren in den DH beruhen auf einem Bag of Words-Modell: Dabei wird ein Dokument repräsentiert durch die Häufigkeiten, mit denen die einzelnen Wörter des Dokuments vorkommen. Schreiben Sie eine Funktion, die aus einem als String übergebenen Text eine Worthäufigkeitstabelle (als dict) erzeugt (3). Die Funktion soll einen optionalen Parameter haben, über den bestimmt werden kann, ob die Groß- bzw. Kleinschreibung unterschieden werden soll (1). Rufen Sie die Funktion mit einem Beispielstring auf, um die Funktionalität zu testen.
Beim Zerlegen eines Strings in Wörter sollten Sie diesmal nach dem bereits bekannten split() von jedem Wort führende oder abschließende Satzzeichen abschneiden (str.strip). D.h. aus Blätter! wird Blätter, aus "Hallo" wird Hallo, aber aus Singer-Songwriter bleibt wie es ist.

In [3]:
from string import punctuation

def frequencies(text, case_sensitive=True):
    if not case_sensitive:
        text = text.lower()
            
    freqs = {}
    for raw_token in text.split():
        token = raw_token.strip(punctuation)
        if token in freqs:
            freqs[token] += 1
        else:
            freqs[token] = 1
    return freqs

print(frequencies("Oh weh, oh weh: mein Arm tut weh!", case_sensitive=False))

{'oh': 2, 'weh': 3, 'mein': 1, 'arm': 1, 'tut': 1}


#### 3.

Schreiben Sie eine Funktion, die mehrere Worthäufigkeitstabellen (die Ihnen als Liste übergeben wird) zu einer neuen zusammenfasst, in der die Häufigkeiten pro Wort summiert werden. Die ursprünglichen Tabellen dürfen nicht verändert werden!
Testen Sie auch hier die Funktionalität der Funktion. (Anwendungsfall: Sie haben die Häufigkeiten für verschiedene Texte und wollen sie nun zu einer Gesamttabelle zusammenfassen) (3)

In [5]:
def combine_tables(tables):
    result = {}
    for table in tables:
        for word, freq in table.items():
            if word in result:
                result[word] += freq
            else:
                result[word] = freq
    return result

print(combine_tables([{'der':2,'die':1}, {'die':2, 'und': 1}]))

{'der': 2, 'die': 3, 'und': 1}


## Text-Dateien öffnen und lesen

In [1]:
file = open("roman.txt", "rt", encoding="utf-8")
#           ^^^^^^^^^^^                       Dateiname
#                        ^^^^                 Modus, r = lesen, t = Text
#                                          (beides Default)
#                              ^^^^^^^^^^^^^^ Textcodierung, Default systemabh.
#=> Dateiobjekt
file

<_io.TextIOWrapper name='roman.txt' mode='rt' encoding='utf-8'>

In [2]:
content = file.read()  # liest die komplette Datei in einen String ein. 
print(content)         # gibt den eingelesenen Inhalt der Datei aus
file.close()           # Datei wieder schließen

Kurzer Roman.
Dies ist ein langer Roman. Er beginnt mit dem Auftritt des Heldens. 
Da es keine Helden gibt, unterbricht hier schon der Leser …



### Zeilenweises Einlesen einer Datei

Dateien sind _Iterables_, sie können z.B. in `for`-Schleifen verwendet werden und liefern dann Zeilen:

In [3]:
text_file = open("roman.txt", encoding="utf-8")
for line in text_file:
    print("»" + line + "«") # hier kann man natürlich auch etwas Sinnvolleres tun …
text_file.close()

»Kurzer Roman.
«
»Dies ist ein langer Roman. Er beginnt mit dem Auftritt des Heldens. 
«
»Da es keine Helden gibt, unterbricht hier schon der Leser …
«


Schließen von Dateien
Man sollte am Ende eines Zugriffs auf Dateien diese _immer_ schließen (`f.close()`). Um sicherzustellen, dass das passiert (auch im Fehlerfall oder bei einem vorzeitigen `return`), kann man `with` verwenden:

In [4]:
with open("roman.txt", "r", encoding="utf-8") as f:
    for line in f:
        print(line, end='')      

Kurzer Roman.
Dies ist ein langer Roman. Er beginnt mit dem Auftritt des Heldens. 
Da es keine Helden gibt, unterbricht hier schon der Leser …


<h3 style="color:green">Aufgaben</h3>


1. Legen Sie mit einem Editor eine utf-8-Datei in einem  Unterverzeichnis an (inkl. Umlaute und ß) und geben Sie dann den Inhalt mit Python aus. Unter Windows können Sie dafür den editor unter Zubehör verwenden. __Beachten Sie das Encoding unter _Speichern unter___.
2. Lesen Sie den Inhalt der Datei mit Python ein. Messen Sie mit Python, wieviele Buchstaben Ihr Probetext inkl. Leerzeichen etc. lang ist. Vergleichen Sie mit der von Ihrem Dateimanager angegebenen Dateigröße.

In [5]:
with open("beispiel.txt", "rt", encoding="utf-8") as file:
    for line in file:
        print(line)

Dies ist eine einfache Beispieldatei.

Sie enthält Umlaute, GROẞE und nicht große Eszetts und ſogar ein langes ſ!

Angehängter Text


In [6]:
import os
with open("beispiel.txt", "rt", encoding="utf-8") as f:
    content = f.read()    
    print(len(content))
    print(os.path.getsize("beispiel.txt"))

129
138


Im [Hex-Viewer](http://de.wikipedia.org/wiki/Hex-Editor):

<img src="files/images/utf-8_file.png"/>

* Codierung der Zeilenenden – in Windows als 0A 0D (`\r\n`), in Python-Strings als `'\n'`
* Codierung von Sonderzeichen mit mehr als einem Byte

### Encoding einer Textdatei

* Zuordnung Bytefolge <> Interpretation als Zeichen
* Welche Zeichen? __Unicode__ vergibt Nummern _(Codepoints)_, z.Z.  136690 Zeichen (Unicode 10)
* UTF-8 ist eine standardisierte, portable Codierung für den gesamten möglichen Unicode-Zeichenvorrat (bis zu 0x10FFFF verschiedene Zeichen)
* UTF-8: ein Zeichen <> 1–4 Bytes
* Python-3-Strings sind Unicode-Strings
* _Tipp_: Arbeiten Sie immer mit UTF-8-Dateien, und geben Sie das Encoding explizit an.

In [7]:
import locale
import sys

print("Standardcodierung für Dateiinhalte (encoding-Parameter):", locale.getpreferredencoding())
print("Standardcodierung für Dateinamen etc.:", sys.getfilesystemencoding())

Standardcodierung für Dateiinhalte (encoding-Parameter): UTF-8
Standardcodierung für Dateinamen etc.: utf-8


<h3>Schreiben von Dateien</h3>
<p>Das Schreiben von Dateien funktioniert ganz ähnlich wie das Lesen.</p>

In [8]:
text = ["Dies ist ein kürzerer Text.", "Und das wäre die letzte Zeile!", "Wenn es nicht eine weitere gäbe."]
with open("fileout.txt", "w", encoding="utf-8") as output_file:
    for line in text:
        output_file.write(line + "\n")

Beim Aufruf der Funktion open wird als Parameter nun `"w"` (write) gesetzt. `output_file` ist ebenfalls ein frei wählbarer Variablenname für unser Dateiobjekt.

Achtung: Bei der Verwendung von `"w"` allein wird die Datei immer zuerst zurückgesetzt, wenn sie existieren sollte. D.h. evtl. bestehende Inhalte werden gelöscht!

Beachten Sie, dass die Methode `write` nicht automatisch eine Newline anhängt, wie das im Fall von print geschieht.

<h3 style="color: green">Aufgabe</h3>
1. Schreiben Sie ein Skript, dass ihre oben mit dem Editor angelegte Datei öffnet und den Inhalt in eine Datei namens results.txt schreibt. Das encoding ist utf-8.</p>
2. Variieren Sie ihr Skript, sodass es in der Zieldatei vor jede Zeile in der Quelldatei die Zeilennummer schreibt.

#### Musterlösung

In [9]:
with open("roman.txt", "r", encoding="utf-8") as fin:
    with open("result.txt", "w", encoding="utf-8") as fout:
        for line in fin:
            fout.write(line)

oder in einem Rutsch lesen:

In [10]:
with open("roman.txt", "r", encoding="utf-8") as fin:
    content = fin.read()
    with open("result.txt", "w", encoding="utf-8") as fout:
        fout.write(content)

mit Zeilennummer:

In [11]:
with open("roman.txt", "r", encoding="utf-8") as fin:
    with open("result.txt", "w", encoding="utf-8") as fout:
        lineno = 0
        for line in fin:
            lineno = lineno + 1
            fout.write(str(lineno) + " " + line)

<h3>Das Anhängen an eine Datei</h3>
<p>Sie können Dateien auch ergänzen, indem Sie als Parameter statt "w" oder "r" den Buchstaben "a" (append) setzten.</p>

In [12]:
with open("fileout.txt", "a", encoding="utf-8") as writer:
    writer.write("Hänge diese Zeile an. Das ist nun die letzte.")

Achtung: Wenn Sie hier das falsche encoding angeben oder den Parameter vergessen, es sich aber um eine utf-8 Datei handelt, dann kann es sehr gut sein, dass das Ergebnis fehlerhaft ist, ohne dass Python einen Fehler meldet!

Das Anhängen mit `"a"` ist für Fälle gedacht, in denen die Datei beim Start Ihres Programmes bereits existiert (z.B. Protokolldateien). Wenn Sie aus verschiedenen Teilen Ihres Programms in dieselbe Datei schreiben wollen, reichen Sie besser das von `open` zurückgelieferte Dateiobjekt umher.

<h3 style="color: green">Aufgaben</h3>
<p>Ergänzen Sie die Datei, die Sie oben angelegt haben, um zwei Zeilen.</p>

## `open` im Detail
```
open(...)
    open(file, mode='r', buffering=-1, encoding=None,
         errors=None, newline=None, closefd=True, opener=None) -> file object
```
__mode__ ist ein String aus einem oder mehreren der folgenden Zeichen:

|Character| Meaning                                                        |
|---------|----------------------------------------------------------------|
|'r'      | open for reading (default)                                     |
|'w'      | open for writing, truncating the file first                    |
|'x'      | create a new file and open it for writing                      |
|'a'      | open for writing, appending to the end of the file if it exists|
|'b'      | binary mode                                                    |
|'t'      | text mode (default)                                            |
|'+'      | open a disk file for updating (reading and writing)            |
|'U'      | universal newline mode (deprecated)                            |

__encoding__ z.B. `utf-8`, `latin1`, `cp1252`

### Textdatei (vs. Binärdatei)
* Zeilenweises Einlesen möglich
* Konvertierung der Zeilenenden (Linux, Python: `'\n'`, Windows: `'\r\n'`, MacOS: `'\r'`), Option `newline`
* Dekodierung als String (Option `errors` regelt den Umgang mit Fehlern)

## Umgang mit Dateinamen und -pfaden

Für den [Umgang mit Dateien](https://docs.python.org/3/library/filesys.html) gibt es Module in der [Standardbibliothek](https://docs.python.org/3/library/index.html):

* `pathlib` liefert ein objektorientiertes, Betriebssystemunabhängiges Interface für Dateinamen etc.

In [8]:
from pathlib import Path
outdir = Path('target')       # verzeichnis 'target'
outdir.mkdir(exist_ok=True)   # anlegen falls nicht da
file = outdir / "huhu.txt"    # neuer pfad: datei in outdir
file.write_text('hallo welt') # text reinschreiben
print(file.absolute())        # bei ihnen vllt c:\Users\...

/home/tv/git/python_intro_new/target/huhu.txt


* `os.path` enthält Funktionen zum Umgang mit Dateinamen und -pfaden, mit und ohne Zugriff auf die Dateien
* `os` enthält allgemeinere Dinge zum Betriebssystem, z.B. `os.listdir()`
* `shutil` enthält »höhere« Betriebssystemfunktionen, z.B. Kopieren von Dateien
* `glob` liefert die Funktion `glob.glob()`, mit der man Dateien mit einem bestimmten Muster anzeigen lassen kann.

### Umgang mit Modulen aus der Standardbibliothek

* Die Standardbibliothek liefert viele Funktionen für gängige Aufgaben
* Bei jedem Python mit installiert, müssen in Ihrem Programm aber erst importiert werden

__Beispiel:__

Die Funktion `glob` im Modul `glob` bietet die Möglichkeit, alle Dateien in einem bestimmten Verzeichnis, deren Namen einem bestimmten Muster folgt, auflisten zu lassen. Dabei gilt:

```
+--------------+---------------------------------------------+
|Sonderzeichen | Steht für ...                               |
+--------------+---------------------------------------------+
|    *         | beliebig viele beliebige Zeichen            |
|    ?         | ein beliebiges Zeichen                      |
|  [0-9]       | die zwischen den `[]` aufgelisteten Zeichen |
+--------------+---------------------------------------------+
```

`scripts/*.py` steht also z.B. für alle Python-Dateien im Unterverzeichnis `scripts`.

 1. [Dokumentation lesen](https://docs.python.org/3/library/glob.html)
 2. Modul importieren

In [13]:
import glob

 3. Modul benutzen – die Funktionen stehen jetzt mit dem Präfix `glob.` zur Verfügung

In [14]:
print(glob.glob('*.pdf'))

['06_while.pdf', 'Untitled1.pdf', 'Aufgabe4.pdf', '03_lists-ol.pdf', '04_for-ol.pdf', '06_for.pdf', '03_lists_dict.pdf', '09_functions-ol.pdf', '05_while.pdf', '11_re-ol.pdf', 'x11_lxml.pdf', '07_dict_ol.pdf', '03_lists.pdf', '04_for.pdf', '08a_auffrischung.pdf', '08_io.pdf', '09_modules.pdf', '01_intro.pdf', '05_conditionals-ol.pdf', '09_functions.pdf', '08_problemstruktur.pdf', '03a_dict.pdf', '06_while-ol.pdf', 'Untitled.pdf', '11_re.pdf', '11_re_refcard.pdf', 'Uebungen-Philip.pdf', '04_for_ol.pdf', '07_dict_0.pdf', '02_types_objects_import.pdf', '05_conditionals.pdf', '07_dict-ol.pdf', '12_vertiefen.pdf', 'Untitled2.pdf', 'Federalist-Papers.pdf', '02_types_objects_import-ol.pdf', '08_io-ol.pdf', 'Fotis-Statistik.pdf', '10_modules.pdf', '07_dict.pdf', '04_conditionals.pdf', '12_Abschluss.pdf']


### Übung

Benutzen Sie die Funktion zum Dateien kopieren aus der Standardbibliothek, um ihre vorhin erzeugte Beispieldatei zu einer Datei mit dem Namen `beispiel-kopie.txt` zu kopieren.