# Lesen und Schreiben von Texten

> Mit NLP, bringen der Texte in das richtige Format, korrigieren Sie die falschen Zeichen.

Mit der Funktion _open_ kann eine Datei zum Lesen und schreiben geöffnet werden.

In [31]:
import chardet
import glob
import codecs

texte = {}

# for every text file, print the file name & a gues of its file encoding
print("File".ljust(45), "Encoding")
for filename in glob.glob('*.txt'):
     with open(filename, 'rb') as rawdata:
        result = chardet.detect(rawdata.read())
        a, b = filename, result['encoding'] 
        texte[a] = b # file names und encoding types gespeichert wurden.
        
        print(filename.ljust(45), result['encoding'])   

File                                          Encoding
Nachtmilch.txt                                ISO-8859-1
Spechte.txt                                   ISO-8859-1
Vögel.txt                                    ISO-8859-1
Händewaschen.txt                             Windows-1254
Sprachen.txt                                  ISO-8859-1
Seitenstechen.txt                             ISO-8859-1
Bleistift.txt                                 ISO-8859-1
Weinen.txt                                    utf-8
Stress.txt                                    utf-8
Körperzelle.txt                              Windows-1254


In [34]:
for key,value in texte.items():
    datei = codecs.open(key,'r',value)    
    text = datei.read()
    datei.close()
    datei = codecs.open(('new_'+key),'w','utf8')
    datei.write(text)
    datei.close()         

In [30]:
datei = codecs.open('Körperzelle.txt','r','cp852')
text = datei.read()
datei.close()
print(text[:500])

Woher kennt eine Körperzelle ihre Funktion?

Haut, Knochen, Gewebe, Organe: Unser Körper besteht aus Milliarden Zellen. Sie bekämpfen Viren, bewegen unsere Muskeln und lassen uns wachsen. Doch woher weiß eine Zelle, dass sie für den Haarwuchs zuständig ist und nicht für den Herzschlag? 



Der menschliche Körper besteht aus Milliarden von Zellen, alle tragen in ihrem Zellkern denselben Bauplan des gesamten Körpers. Trotzdem sind sie nicht alle gleich: Es gibt Herzzellen, Hautzellen, Nerven


In [9]:
import chardet
import glob
import codecs
count = 1

# for every text file, print the file name & a gues of its file encoding
print("File".ljust(45), "Encoding")
for filename in glob.glob('../NLP/Texte/*.txt'):
    with open(filename, 'rb') as rawdata:
        result = chardet.detect(rawdata.read())
    a, b = filename.ljust(45), result['encoding']
    datei = codecs.open(a, 'r', b)  

newtaner


In [21]:
import codecs

datei = codecs.open('Vögel.txt','r','ISO-8859-1')
text = datei.read()
datei.close()
print(text[:500])

Warum Vögel im Schlaf nicht umkippen

Vögel schlafen gefährlich. In schwindelerregenden Höhen dösen sie auf Bäumen oder Zäunen seelenruhig vor sich hin und fallen dabei nie herunter. Wie machen sie das? 

Es kommt öfter vor, dass Menschen aus ihrem Bett fallen - und das von einer Matratze, die meist mehr als doppelt so breit ist wie sie selbst. Einem Vogel könnte das nicht passieren, obwohl ihm ihm ein Schlafplatz von nur wenigen Zentimetern reicht. Die meisten Vögel nächtigen nämlich auf Bä


In [None]:
print(encoding)

In [None]:
encoding=chardet.detect(datei).get("encoding")

Mit der Methode _read_ kann der Text aus der Datei gelesen und in eine Variable gespeichert werden. Anschließend können wir die Datei wieder schließen.

In [None]:
datei.read()

In [None]:
print(text)

Wir können den Text auch Zeilenweise aus der Datei lesen:

In [None]:
datei = open('Siemens.txt')
zeilennummer = 0
for zeile in datei:
    print(zeilennummer,zeile,sep='\t')
    zeilennummer += 1
datei.close()

## Textkodierungen

Oft gibt es Probleme, wenn Sie einen text einfach mit der Methode _open_ öffnen und lesen wollen:

In [2]:
datei = open('Grimm.txt')
text = datei.read()
datei.close()
print(text[:500])

FileNotFoundError: [Errno 2] No such file or directory: 'Grimm.txt'

Es ist relativ leicht zu sehen, dass der Text als UTF8 gespeichert wurde aber beim Lesen eine falsche Textkodierung angenommen wurde.

Wir brauchen das Modul _codecs_ um die Kontrolle selber zu übernehmen und Python zu sagen, dass die Datei als UTF8 dekodiert werden soll. Wir legen jetzt ausserdem fest, dass die Datei nur zum lesen ('r') geöffnet werden soll.

In [3]:
import codecs

datei = codecs.open('Grimm.txt','r','utf8')
text = datei.read()
datei.close()
print(text[:500])

FileNotFoundError: [Errno 2] No such file or directory: 'Grimm.txt'

Die Bibliothek kennt nicht alle aber doch ziemlich viele Codepages. Eine übersicht finden sie hier: https://docs.python.org/3/library/codecs.html

## Texte Schreiben

Zum Schreiben öffnen wir eine Datei wieder mit der Bibliothek _codecs_

In [4]:
datei = codecs.open('Grimm-1252.txt','w','cp1252')
datei.write(text)
datei.close()

NameError: name 'text' is not defined

Eine weitere praktische Methode zum Schreiben ist es die Benutzung _print_ mit einem zusätzlichen Parameter für die Datei:

In [5]:
datei_in = codecs.open('Grimm.txt','r','cp1252')
datei_out = codecs.open('Grimm-Kuddelmuddel.txt','w','utf8')
zeilennummer = 0
for zeile in datei_in:
    print(zeilennummer,zeile,sep='\t',file=datei_out)
    zeilennummer += 1
    if zeilennummer >= 10:
        break
datei_in.close()
datei_out.close()

FileNotFoundError: [Errno 2] No such file or directory: 'Grimm.txt'

 Vorsicht! Wir haben jetzt einen schlimmen Fehler gemacht. Die Datei Grimm-Kuddelmuddel.txt ist fast irreparabel kaput! Wenn wir jetzt noch eine kleine händische Korrektur machen würden ist die Datei hoffnungslos verloren!