# Lesen und Schreiben von Texten

Mit der Funktion _open_ kann eine Datei zum Lesen und schreiben geöffnet werden.

In [1]:
datei = open('Siemens.txt')

Mit der Methode _read_ kann der Text aus der Datei gelesen und in eine Variable gespeichert werden. Anschließend können wir die Datei wieder schließen.

In [2]:
text = datei.read()
datei.close()

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xdf in position 27: invalid continuation byte

In [12]:
print(text)

Werner von Siemens: Ein großer Erfinder

Alles, was zum ersten Mal in Europa erfunden, entdeckt, entwickelt, gebaut und hergestellt worden ist, kann man im Deutschen Museum in München sehen und erleben. Den Namen und den Plan zu dieser Dauerausstellung, die nicht nur die Geschichte der Technik, sondern auch deren neuesten Stand zeigt, hielt schon 1877 ein Mann bereit, der einer der großen Erfinder unserer Zeit war: Werner von Siemens. Er schuf nicht nur den Begriff „Elektrotechnik“; er bestimmte auch entscheidend das, was man unter diesem Wort bald verstand. Dem Original seiner Dynamomaschine, die er 1866 entwarf und zusammensetzte, sieht man im Museum die ungeheure Bedeutung nicht an. Mit Hilfe von Drahtwindungen und weichem Eisen war es hier Siemens gelungen, Kraft – zum Beispiel menschliche Arbeitskraft oder Wasserkraft – in elektrischen Strom umzuwandeln und umgekehrt elektrischen Strom in Arbeitsleistung umzusetzen. Damit hatte er die moderne Starkstromtechnik begründet.


Erfinde

Wir können den Text auch Zeilenweise aus der Datei lesen:

In [14]:
datei = open('Siemens.txt')
zeilennummer = 0
for zeile in datei:
    print(zeilennummer,zeile,sep='\t')
    zeilennummer += 1
datei.close()

0	Werner von Siemens: Ein großer Erfinder

1	

2	Alles, was zum ersten Mal in Europa erfunden, entdeckt, entwickelt, gebaut und hergestellt worden ist, kann man im Deutschen Museum in München sehen und erleben. Den Namen und den Plan zu dieser Dauerausstellung, die nicht nur die Geschichte der Technik, sondern auch deren neuesten Stand zeigt, hielt schon 1877 ein Mann bereit, der einer der großen Erfinder unserer Zeit war: Werner von Siemens. Er schuf nicht nur den Begriff „Elektrotechnik“; er bestimmte auch entscheidend das, was man unter diesem Wort bald verstand. Dem Original seiner Dynamomaschine, die er 1866 entwarf und zusammensetzte, sieht man im Museum die ungeheure Bedeutung nicht an. Mit Hilfe von Drahtwindungen und weichem Eisen war es hier Siemens gelungen, Kraft – zum Beispiel menschliche Arbeitskraft oder Wasserkraft – in elektrischen Strom umzuwandeln und umgekehrt elektrischen Strom in Arbeitsleistung umzusetzen. Damit hatte er die moderne Starkstromtechnik begründet.



## Textkodierungen

Oft gibt es Probleme, wenn Sie einen text einfach mit der Methode _open_ öffnen und lesen wollen:

In [3]:
datei = open('Grimm.txt')
text = datei.read()
datei.close()
print(text[:500])

Die Brüder Grimm: Jacob und Wilhelm Grimm ***

Am 4.Januar 1785 wurde Jacob Grimm in Hanau geboren, sein Bruder Wilhelm am 24.Februar 1786. So unzertrennlich wie ihre Namen heute noch sind, lebten die Brüder ihr ganzes Leben lang. Nach dem frühen Tod des Vaters wuchsen sie in sehr bescheidenen Verhältnissen auf. Die finanzielle Unterstützung einer Tante ermöglichte ihnen ein Jurastudium in Marburg. Fast gleichzeitig entdeckten die Brüder ihre Neigung für alte Sprachen und Dichtung, deren Erforsc


Es ist relativ leicht zu sehen, dass der Text als UTF8 gespeichert wurde aber beim Lesen eine falsche Textkodierung angenommen wurde.

Wir brauchen das Modul _codecs_ um die Kontrolle selber zu übernehmen und Python zu sagen, dass die Datei als UTF8 dekodiert werden soll. Wir legen jetzt ausserdem fest, dass die Datei nur zum lesen ('r') geöffnet werden soll.

In [17]:
import codecs

datei = codecs.open('Grimm.txt','r','utf8')
text = datei.read()
datei.close()
print(text[:500])

Die Brüder Grimm: Jacob und Wilhelm Grimm ***

Am 4.Januar 1785 wurde Jacob Grimm in Hanau geboren, sein Bruder Wilhelm am 24.Februar 1786. So unzertrennlich wie ihre Namen heute noch sind, lebten die Brüder ihr ganzes Leben lang. Nach dem frühen Tod des Vaters wuchsen sie in sehr bescheidenen Verhältnissen auf. Die finanzielle Unterstützung einer Tante ermöglichte ihnen ein Jurastudium in Marburg. Fast gleichzeitig entdeckten die Brüder ihre Neigung für alte Sprachen und Dichtung, deren Erfor


Die Bibliothek kennt nicht alle aber doch ziemlich viele Codepages. Eine übersicht finden sie hier: https://docs.python.org/3/library/codecs.html

## Texte Schreiben

Zum Schreiben öffnen wir eine Datei wieder mit der Bibliothek _codecs_

In [18]:
datei = codecs.open('Grimm-1252.txt','w','cp1252')
datei.write(text)
datei.close()

Eine weitere praktische Methode zum Schreiben ist es die Benutzung _print_ mit einem zusätzlichen Parameter für die Datei:

In [22]:
datei_in = codecs.open('Grimm.txt','r','cp1252')
datei_out = codecs.open('Grimm-Kuddelmuddel.txt','w','utf8')
zeilennummer = 0
for zeile in datei_in:
    print(zeilennummer,zeile,sep='\t',file=datei_out)
    zeilennummer += 1
    if zeilennummer >= 10:
        break
datei_in.close()
datei_out.close()

 Vorsicht! Wir haben jetzt einen schlimmen Fehler gemacht. Die Datei Grimm-Kuddelmuddel.txt ist fast irreparabel kaput! Wenn wir jetzt noch eine kleine händische Korrektur machen würden ist die Datei hoffnungslos verloren!