_Einführung in Python, Clemens Brunner, 3.5.2021_

# 8 &ndash; Ein- und Ausgabe

## Allgemeines
Unter Eingabe (Input) versteht man die Eingabe von Informationen von der Tastatur bzw. aus einer Datei, um diese in einem Programm verarbeiten zu können. Unter Ausgabe versteht man die Ausgabe von Informationen am Bildschirm bzw. in eine Datei (also z.B. Ergebnisse einer Berechnung). Im Folgenden werden wir sehen, wie wir Strings für die Ausgabe formatieren können und wie wir Textdateien lesen bzw. schreiben können.

## Ausgabe von Strings
### Strings verketten
Wir haben bereits die `print`-Funktion kennengelernt, welche Strings (und andere Typen) als Text am Bildschirm ausgeben kann. Im einfachsten Fall kann so ein String ausgegeben werden:

In [1]:
print("Hallo")

Hallo


Auch Zahlen kann man als Argument für `print` verwenden:

In [2]:
print(55)

55


Mit der Funktion `str` kann man beliebige Objekte (also z.B. solche mit numerischem Typ) in einen String umwandeln.

In [3]:
str(55)

'55'

Die `print`-Funktion kann beliebig viele Argumente entgegennehmen. Sie gibt dann alle Argumente, getrennt von Leerzeichen, am Bildschirm aus.

In [4]:
a = 5
b = 10
print(a, "+", b, "=", a + b)  # fünf Argumente

5 + 10 = 15


Wie wir bereits wissen, kann man mehrere Strings mit `+` aneinanderketten. Daher könnte man obige Ausgabe auch durch Ausgabe eines einzigen Strings durch Aneinanderketten von einzelnen Strings erzeugen.

In [5]:
print(str(a) + " + " + str(b) + " = " + str(a + b))  # ein Argument (langer String)

5 + 10 = 15


### Die `format`-Methode
Strings besitzen eine Methode namens `format`, mit der man deren Ausgabe formatieren kann. So einen formatierten String kann man dann einfach mit `print` am Bildschirm ausgeben.

In [6]:
print('We are the {} who say "{}!"'.format('knights', 'Ni'))

We are the knights who say "Ni!"


Die geschwungenen Klammern und deren Inhalt werden durch die Argumente von `format` ersetzt und entsprechend formatiert. Im einfachsten Fall wie oben sind diese geschwungenen Klammern leer, d.h. die Argumente `'knights'` und `'Ni'` werden einfach der Reihe nach eingesetzt.

Man kann in die Klammern aber auch Zahlen schreiben, um eine bestimmte Position in den `format`-Argumenten anzusprechen.

In [7]:
print('{0} and {1}'.format('spam', 'eggs'))  # Argument 0 ist 'spam', Argument 1 ist 'eggs'

spam and eggs


In [8]:
print('{1} and {0} and {1}'.format('spam', 'eggs'))

eggs and spam and eggs


Keyword-Argumente können direkt mit deren Namen eingesetzt werden.

In [9]:
print('This {food} is {adjective}.'.format(food='spam', adjective='absolutely horrible'))

This spam is absolutely horrible.


Das Beispiel von oben lautet mit `format`:

In [10]:
print("{} + {} = {}".format(a, b, a + b))

5 + 10 = 15


Zahlen können auch formatiert werden. Sehen wir uns zunächst an, wie die Kreiszahl Pi standardmäßig ausgegeben wird:

In [11]:
import math

print('The value of pi is approximately {}.'.format(math.pi))

The value of pi is approximately 3.141592653589793.


Mit einem optionalen Doppelpunkt und einem sogenannten *Format Specifier* innerhalb der geschwungenen Klammern kann ein Feld gezielt formatiert werden. Das folgende Beispiel formatiert die Kommazahl Pi so, dass sie mit 3 Nachkommastellen ausgegeben wird:

In [12]:
print('The value of pi is approximately {:.3f}.'.format(math.pi))

The value of pi is approximately 3.142.


Die minimale Feldbreite kann mit einer Zahl direkt nach dem Doppelpunkt aber vor dem Punkt eingestellt werden.

In [13]:
print('The value of pi is approximately {:15.3f}.'.format(math.pi))

The value of pi is approximately           3.142.


Alle Möglichkeiten, die Format Specifier innerhalb der geschwungenen Klammern bieten, finden sich in der [offiziellen Dokumentation](https://docs.python.org/3/library/string.html#format-string-syntax) (inklusive eine Menge Beispiele).

### f-Strings
Seit Python 3.6 gibt es eine weitere Möglichkeit, formatierte Strings zu erzeugen &ndash; mit sogenannten [f-Strings](https://docs.python.org/3/whatsnew/3.6.html#whatsnew36-pep498). Dies ist vielleicht die einfachste und kürzeste Möglichkeit welche die gleiche Flexibilität wie die `format`-Methode bietet. Die obigen Beispiele würden mit f-Strings wesentlich einfacher aussehen (beachten Sie das `f` direkt vor dem eigentlich String), weil man Python-Ausdrücke direkt innerhalb der geschwungenen Klammern angeben kann:

In [14]:
print(f"{a} + {b} = {a + b}")

5 + 10 = 15


In [15]:
print(f"The value of pi is approximately {math.pi}.")

The value of pi is approximately 3.141592653589793.


In [16]:
print(f"The value of pi is approximately {math.pi:.3f}.")

The value of pi is approximately 3.142.


## Dateien lesen und schreiben
Die Funktion `open` gibt ein File-Objekt zurück, welches zum Lesen oder Schreiben von Dateien verwendet werden kann:

```Python
f = open("test.txt", "w")
```

Das erste Argument ist der Dateiname, und das zweite Argument beschreibt den Modus (`"r"` lesen, `"w"` schreiben, `"a"` hinzufügen). Standardmäßig wird der Modus `"r"` angenommen, wenn das Argument nicht übergeben wird.

Mit dem File-Objekt `f` kann man dann von der Datei lesen bzw. in die Datei schreiben. Nach Beendigung aller Operationen muss man das File-Objekt wieder schließen:

```Python
f.close()
```

Eine gute Angewohnheit ist es aber, alle File-Operationen in einem `with`-Konstrukt durchzuführen; so wird die Datei bei Verlassen des `with`-Blocks automatisch geschlossen:

```Python
with open("text.txt", "r") as f:
    data = f.read()
```

Zu Beachten ist noch, dass der Dateiname als String übergeben wird. Dieser enthält entweder den vollständigen Pfad der zu öffnenden Datei (z.B. `"C:/Program Files/Test Program/test.txt"`), oder nur den Dateinamen. Im letzteren Fall wird dann angenommen, dass sich die Datei im aktuellen Arbeitsverzeichnis befindet. *Anmerkung:* Pfade sollten immer mit einem normalen `/` getrennt werden und nicht wie unter Windows üblich mit einem verkehrten `\`.

Die Methode `read` eines File-Objektes liest die gesamte Datei ein und gibt den Inhalt als String zurück.

In [17]:
f = open("test.txt")
text = f.read()
print(text)

Hello!

This is just a test file containing some random text.

Nice!


Der Inhalt einer Datei kann immer nur ein Mal gelesen werden. Wenn bereits der gesamte Inhalt gelesen wurde befindet sich der sogenannte Dateizeiger am Ende der Datei. Wenn dann nochmals gelesen wird, wird nur mehr ein leerer String zurückgegeben:

In [18]:
f.read()  # Ende des Files bereits erreicht, daher wird ein leerer String zurückgegeben

''

Möchte man die Datei erneut lesen, muss man sie schließen und kann sie dann wieder erneut öffnen:

In [19]:
f.close()  # schließt Datei (notwendig wenn man kein with verwendet)

Die Methode `readline` liest eine Zeile aus der Datei:

In [20]:
with open("test.txt") as f:  # f wird nach Verlassen des with-Blocks automatisch geschlossen!
    print("1. Zeile: ", f.readline(), end="")
    print("2. Zeile: ", f.readline(), end="")
    print("3. Zeile: ", f.readline(), end="")

1. Zeile:  Hello!
2. Zeile:  
3. Zeile:  This is just a test file containing some random text.


In einer Schleife kann man die Datei Zeile für Zeile auslesen, in dem man über das File-Objekt iteriert:

In [21]:
with open("test.txt") as f:
    for line in f:
        print(line, end="")

Hello!

This is just a test file containing some random text.

Nice!

So kann man einzelne Zeilen einfach manipulieren, z.B. um Zeilennummern auszugeben (die nicht in der Datei selbst sind):

In [22]:
with open("test.txt") as f:
    for no, line in enumerate(f):
        print(no, line, end="")

0 Hello!
1 
2 This is just a test file containing some random text.
3 
4 Nice!

In der `for`-Schleife wird hier nicht direkt über `f`, sondern über `enumerate(f)` iteriert. Diese Funktion zählt die Schleifendurchläufe mit und gibt ein Tupel bestehend aus dem aktuellen Wert des Schleifenzählers sowie der aktuellen Zeile zurück.

Text in Dateien schreiben funktioniert sehr ähnlich &ndash; man öffnet die Datei im `"w"`-Modus und übergibt der `write`-Methode den gewünschten Inhalt als String:

In [23]:
with open("test2.txt", "w") as f:
    f.write("Das ist ein Test.\nSo kann man einfach\nText\nin Dateien schreiben.")

Im Beispiel oben steht das Zeichen `\n` für einen Zeilenumbruch (neue Zeile).

## Beispiel: CSV-Datei einlesen
Mit den bis jetzt vorgestellten Mitteln können wir bereits CSV-Dateien einlesen und rudimentäre Statistiken rechnen. CSV-Dateien werden häufig verwendet, um Daten abzuspeichern. Diese Dateien sind reine Textdateien, in denen die Messwerte (Spalten) durch Kommas getrennt sind und zeilenweise vorliegen (comma separated values).

Im Folgenden werden zum Einlesen dieser Dateien vier Möglichkeiten vorgestellt. Die erste Methode verwendet reines Python ohne spezielle Module, die zweite Methode ist eine Verallgemeinerung der ersten. Die dritte Methode verwendet das CSV-Modul aus der Standardbibliothek. Die empfohlene (einfachste) Variante mit dem Package [pandas](https://pandas.pydata.org/) werden wir allerdings in dieser Lehrveranstaltung nicht genauer kennenlernen.

### Möglichkeit 1

In [24]:
data = []  # leere Liste
with open("correlation.csv") as f:
    for row in f:
        data.append(row.strip().split(","))

In [25]:
data

[['essay', 'hours'],
 ['61.6754974920745', '10.6303372921189'],
 ['69.5450056362295', '7.28522617959232'],
 ['48.2293039713449', '5.05204775449098'],
 ['70.6786516311817', '2.88661436120476'],
 ['59.8996225857332', '9.54501229482367'],
 ['61.1620237718455', '11.3108384701452'],
 ['67.6247016928604', '7.46507180351913'],
 ['64.7790589873963', '8.47127906794298'],
 ['63.207063456166', '8.71537345316006'],
 ['49.6910817003072', '6.20347356947365'],
 ['63.7189196026189', '4.77251550782322'],
 ['72.2425933666743', '10.9815424018851'],
 ['70.5862210579123', '5.2215409766568'],
 ['58.6398615751171', '6.85848450383968'],
 ['58.7153800614887', '9.7984118965962'],
 ['67.3999698058767', '9.49072930246925'],
 ['60.7037631406063', '6.51736420324962'],
 ['60.931351175695', '11.8021326615165'],
 ['62.3401801239333', '8.96313112993931'],
 ['59.9662288209405', '5.42249029575092'],
 ['52.1619843495503', '6.40972025602273'],
 ['76.5879640890472', '15.0104773734972'],
 ['60.9196973933278', '8.070642116767

Nun können die Daten in eine Struktur umgewandelt werden, die sich besser für nachfolgende Berechnungen eignet (also inbesondere werden die Zahlen, die jetzt noch als Strings vorliegen, mit der Funktion `float` in Kommazahlen umgewandelt).

In [26]:
cols = [[], []]  # two empty lists for the two columns
for row in data[1:]:  # skip first row (header)
    cols[0].append(float(row[0]))  # first column
    cols[1].append(float(row[1]))  # second column

Nun stehen die beiden Spalten in der Liste `cols` zur weiteren Verfügung. Diese Liste hat zwei Elemente:

In [27]:
len(cols)

2

Die beiden Einträge in `cols` sind ebenfalls Listen:

In [28]:
type(cols[0]), type(cols[1])

(list, list)

Die Länge beider Listen entspricht den Zeilen in der CSV-Datei (ohne Kopfzeile):

In [29]:
len(cols[0]), len(cols[1])

(45, 45)

Die Elemente in diesen beiden Listen sind Zahlen:

In [30]:
cols[0]

[61.6754974920745,
 69.5450056362295,
 48.2293039713449,
 70.6786516311817,
 59.8996225857332,
 61.1620237718455,
 67.6247016928604,
 64.7790589873963,
 63.207063456166,
 49.6910817003072,
 63.7189196026189,
 72.2425933666743,
 70.5862210579123,
 58.6398615751171,
 58.7153800614887,
 67.3999698058767,
 60.7037631406063,
 60.931351175695,
 62.3401801239333,
 59.9662288209405,
 52.1619843495503,
 76.5879640890472,
 60.9196973933278,
 66.6330159660378,
 73.6195367228337,
 60.2224731091917,
 59.257246898708,
 51.9302907572568,
 59.4301075638833,
 69.4087175381595,
 65.2986136310666,
 60.2838297249765,
 60.8535237978012,
 71.6333469504558,
 69.1407939072155,
 66.4753904156445,
 63.0477561140632,
 68.1678280737943,
 64.7480342462125,
 68.2804343717536,
 60.4052387002632,
 64.6313248038771,
 58.2594898681359,
 52.2352473953415,
 79.8777504975499]

In [31]:
cols[1]

[10.6303372921189,
 7.28522617959232,
 5.05204775449098,
 2.88661436120476,
 9.54501229482367,
 11.3108384701452,
 7.46507180351913,
 8.47127906794298,
 8.71537345316006,
 6.20347356947365,
 4.77251550782322,
 10.9815424018851,
 5.2215409766568,
 6.85848450383968,
 9.7984118965962,
 9.49072930246925,
 6.51736420324962,
 11.8021326615165,
 8.96313112993931,
 5.42249029575092,
 6.40972025602273,
 15.0104773734972,
 8.07064211676739,
 10.9720986214915,
 14.7776461317624,
 5.2455561967939,
 8.67216132385057,
 8.55546259639567,
 6.08144370899007,
 7.42190548469444,
 12.3137937416164,
 9.93443882388444,
 7.79529820172183,
 6.5627956116459,
 10.2828636303044,
 5.11639249646656,
 8.66268357519631,
 6.59320568183171,
 3.70537792316693,
 12.9178683539958,
 8.6962361085862,
 11.2150596156186,
 6.83244891007452,
 8.62308388223269,
 7.84368345377415]

Mit diesen beiden Listen kann man jetzt also Berechnungen durchführen. Beispielsweise kann man die Spaltenmittelwerte so ausrechnen:

In [32]:
sum(cols[0]) / len(cols[0])

63.44991370093669

In [33]:
sum(cols[1]) / len(cols[1])

8.349021354368455

Diese Lösung ist allerdings alles andere als ideal. Erstens sollte man immer bereits existierende Lösungen verwenden und nicht alles von Grund auf neu entwickeln (es gibt in Python wie bereits erwähnt ein eigenes CSV-Modul, und das Package `pandas` ist für solche Aufgaben geradezu prädestiniert). Zweitens ist diese Lösung auch sehr auf die konkrete Datei angepasst, z.B. funktioniert der Ansatz so nur für eine Datei mit exakt zwei Spalten.

### Möglichkeit 2
Eine verallgemeinerte Lösung sieht wie folgt aus:

In [34]:
with open("correlation.csv") as f:
    header = f.readline().strip().split(",")  # erste Zeile
    
    data = {}  # dict mit einem Eintrag pro Spalte
    for name in header:
        data[name] = []  # Key ist der Spaltenname, Value vorerst eine leere Liste
    
    for row in f:  # restliche Zeilen
        values = row.strip().split(",")
        for h, v in zip(header, values):
            data[h].append(float(v))  # füge zur jeweiligen Liste hinzu

Hier werden die Variablennamen aus der ersten Zeile gelesen. Die Daten werden dann in ein Dictionary geschrieben, wobei die Werte der Spalten zu den richtigen Dictionary-Einträgen (Listen) hinzugefügt werden. Die Funktion `zip` kombiniert die Werte von `header` und `values` in ein Tupel.

In [35]:
data

{'essay': [61.6754974920745,
  69.5450056362295,
  48.2293039713449,
  70.6786516311817,
  59.8996225857332,
  61.1620237718455,
  67.6247016928604,
  64.7790589873963,
  63.207063456166,
  49.6910817003072,
  63.7189196026189,
  72.2425933666743,
  70.5862210579123,
  58.6398615751171,
  58.7153800614887,
  67.3999698058767,
  60.7037631406063,
  60.931351175695,
  62.3401801239333,
  59.9662288209405,
  52.1619843495503,
  76.5879640890472,
  60.9196973933278,
  66.6330159660378,
  73.6195367228337,
  60.2224731091917,
  59.257246898708,
  51.9302907572568,
  59.4301075638833,
  69.4087175381595,
  65.2986136310666,
  60.2838297249765,
  60.8535237978012,
  71.6333469504558,
  69.1407939072155,
  66.4753904156445,
  63.0477561140632,
  68.1678280737943,
  64.7480342462125,
  68.2804343717536,
  60.4052387002632,
  64.6313248038771,
  58.2594898681359,
  52.2352473953415,
  79.8777504975499],
 'hours': [10.6303372921189,
  7.28522617959232,
  5.05204775449098,
  2.88661436120476,
  9.

Diese Lösung funktioniert also bereits mit einer beliebigen Spaltenanzahl, setzt aber voraus, dass es eine Header-Zeile gibt. Die Spaltenmittelwerte können dann wie folgt berechnet werden:

In [36]:
sum(data["essay"]) / len(data["essay"])

63.44991370093669

In [37]:
sum(data["hours"]) / len(data["hours"])

8.349021354368455

### Möglichkeit 3
Mit dem Modul `csv` kann man das Lesen robuster gestalten (d.h. einfach an verschiedene Formate anpassen). Ansonsten ist diese Variante aber identisch mit der vorigen Lösung.

In [38]:
import csv


with open("correlation.csv") as f:
    reader = csv.reader(f)
    header = next(reader)  # erste Zeile
    
    data = {}
    for name in header:
        data[name] = []
    
    for row in reader:  # restlichen Zeilen
        for h, v in zip(header, row):
            data[h].append(float(v))

### Möglichkeit 4
Das Package `pandas` eignet sich ideal zum Verarbeiten von tabellarischen Daten. Es beinhaltet auch Funktionen zum Lesen von Dateien. Damit würde der Code wie folgt aussehen:

In [39]:
import pandas as pd

data = pd.read_csv("correlation.csv")

In [40]:
data

Unnamed: 0,essay,hours
0,61.675497,10.630337
1,69.545006,7.285226
2,48.229304,5.052048
3,70.678652,2.886614
4,59.899623,9.545012
5,61.162024,11.310838
6,67.624702,7.465072
7,64.779059,8.471279
8,63.207063,8.715373
9,49.691082,6.203474


Die Spaltenmittelwerte kann man dann wie folgt berechnen:

In [41]:
data.mean()

essay    63.449914
hours     8.349021
dtype: float64

## Übungen

### Übung 1
Erstellen Sie eine Liste `lst`, welche die *geraden* Zahlen zwischen 0 und 100 (inklusive) beinhaltet, und speichern Sie diese Zahlen in eine Datei `ue1.txt`. In der Datei soll jede Zahl in einer eigenen Zeile stehen.

*Hinweis:* Zahlen sollten Sie vor dem Schreiben in die Datei mit der Funktion `str` in Strings umwandeln. Das Zeichen für einen Zeilenumbruch lautet `\n`. Sie können z.B. eine `for`-Schleife über die Zahlenliste machen und die einzelnen Elemente nacheinander in die Datei schreiben. Alternativ können Sie auch die Liste in einen richtig formatierten String umwandeln (die String-Methode `join` ist hier hilfreich) und diesen dann in die Datei schreiben.


### Übung 2
Verwenden Sie wieder die Liste `lst` aus Übung 1, aber schreiben Sie die Zahlen nun so in eine Datei `ue2.txt`, dass diese durch Kommas getrennt in einer Zeile stehen.


### Übung 3
Das Spiel Scrabble eignet sich hervorragend, um über die Existenz von Wörtern zu diskutieren. Zumindest für die englische Ausgabe gibt es eine [offizielle Wortliste](http://www.freescrabbledictionary.com/sowpods/), die man konsultieren kann, wenn man nicht sicher ist, ob es sich bei einer Kreation um ein gültiges Wort handelt oder nicht. Alle Wörter in dieser Datenbank können als Textdatei von https://www.wordgamedictionary.com/sowpods/download/sowpods.txt heruntergeladen werden.

Für diese Übung laden Sie sich diese Datei herunter und speichern Sie sie in Ihrem Arbeitsverzeichnis ab (im Browser "Seite speichern unter" oder ähnlich). Lesen Sie die Datei dann in Python ein und finden Sie heraus, wie viele Wörter (Zeilen) sich in der Datei befinden.

*Hinweis:* Iterieren Sie mit einer `for`-Schleife über das File-Objekt und zählen Sie die Schleifendurchläufe mit. Am Ende der Schleife (d.h. am Ende der Datei) entspricht dann ihr Zähler der Zeilenanzahl der Datei (d.h. der Anzahl der Wörter). Beachten Sie, dass die ersten paar Zeilen in der Datei keine Wörter beinhalten!


### Übung 4
Verwenden Sie die Wörter-Datei aus Übung 3 und finden Sie heraus, wie viele Wörter mit mehr als 14 Buchstaben in der Liste enthalten sind (also Wörter mit 15 Buchstaben oder mehr).

*Hinweis:* Wenn Sie die Datei Zeile für Zeile einlesen, entfernen Sie unsichtbare Zeichen (wie z.B. Zeilenumbruch) mit der Methode `strip`, bevor Sie die Länge des aktuellen Wortes bestimmen (ansonsten ist die Länge immer um 1 größer als die Länge des Wortes, weil der Inhalt einer Zeile z.B. `abandon\n` lautet, und `\n` wird als ein Zeichen gezählt). Erhöhen Sie Ihren Zähler nur, wenn die Länge des aktuellen Wortes größer als 14 ist.

---
[![](cc_license.png)](http://creativecommons.org/licenses/by-nc-sa/4.0/)