# Lesen und Schreiben von Texten

Mit der Funktion _open_ kann eine Datei zum Lesen und schreiben geöffnet werden.

In [None]:
datei = open('Siemens.txt')

Mit der Methode _read_ kann der Text aus der Datei gelesen und in eine Variable gespeichert werden. Anschließend können wir die Datei wieder schließen.

In [None]:
text = datei.read()
datei.close()

In [None]:
print(text)

Wir können den Text auch Zeilenweise aus der Datei lesen:

In [None]:
datei = open('Siemens.txt')
zeilennummer = 0
for zeile in datei:
    print(zeilennummer,zeile,sep='\t')
    zeilennummer += 1
datei.close()

## Textkodierungen

Oft gibt es Probleme, wenn Sie einen text einfach mit der Methode _open_ öffnen und lesen wollen:

In [None]:
datei = open('Grimm.txt')
text = datei.read()
datei.close()
print(text[:500])

Es ist relativ leicht zu sehen, dass der Text als UTF8 gespeichert wurde aber beim Lesen eine falsche Textkodierung angenommen wurde.

Wir brauchen das Modul _codecs_ um die Kontrolle selber zu übernehmen und Python zu sagen, dass die Datei als UTF8 dekodiert werden soll. Wir legen jetzt ausserdem fest, dass die Datei nur zum lesen ('r') geöffnet werden soll.

In [None]:
import codecs

datei = codecs.open('Grimm.txt','r','utf8')
text = datei.read()
datei.close()
print(text[:500])

Die Bibliothek kennt nicht alle aber doch ziemlich viele Codepages. Eine übersicht finden sie hier: https://docs.python.org/3/library/codecs.html

## Texte Schreiben

Zum Schreiben öffnen wir eine Datei wieder mit der Bibliothek _codecs_

In [None]:
datei = codecs.open('Grimm-1252.txt','w','cp1252')
datei.write(text)
datei.close()

Eine weitere praktische Methode zum Schreiben ist es die Benutzung _print_ mit einem zusätzlichen Parameter für die Datei:

In [None]:
datei_in = codecs.open('Grimm.txt','r','cp1252')
datei_out = codecs.open('Grimm-Kuddelmuddel.txt','w','cp1252')
zeilennummer = 0
for zeile in datei_in:
    print(zeilennummer,zeile,sep='\t',file=datei_out)
    zeilennummer += 1
    if zeilennummer >= 10:
        break
datei_in.close()
datei_out.close()

 Vorsicht! Wir haben jetzt einen schlimmen Fehler gemacht. Die Datei Grimm-Kuddelmuddel.txt ist fast irreparabel kaput! Wenn wir jetzt noch eine kleine händische Korrektur machen würden ist die Datei hoffnungslos verloren!