# Lesen und Schreiben von Texten

> ## Mit NLP, bringen der Texte in das richtige Format, korrigieren Sie die falschen Zeichen.

Benötige Bibliotheken importiert wurden.

In [2]:
import chardet # https://chardet.readthedocs.io/en/latest/usage.html
import glob 
import codecs

In [4]:
texte = {}

# chardet findet ursprungliche Encodintype des Textes.
print("File".ljust(45), "Encoding")
for filename in glob.glob('*.txt'):
     with open(filename, 'rb') as rawdata:
        result = chardet.detect(rawdata.read())
        a, b = filename, result['encoding'] 
        texte[a] = b # file names und encoding types in einem Dictionary gespeichert wurden.       
        print(filename.ljust(45), result['encoding'])   

File                                          Encoding
Nachtmilch.txt                                ISO-8859-1
Spechte.txt                                   ISO-8859-1
Vögel.txt                                    ISO-8859-1
Händewaschen.txt                             Windows-1254
Sprachen.txt                                  ISO-8859-1
Seitenstechen.txt                             ISO-8859-1
Bleistift.txt                                 ISO-8859-1
Weinen.txt                                    utf-8
Stress.txt                                    utf-8
Körperzelle.txt                              Windows-1254


In [21]:
for datei_name, encodingstyp in texte.items():
    datei = codecs.open(datei_name,'r',encodingstyp) # die Texte mit bestimmten Encodingstyp geöffnet wurden.   
    text = datei.read()
    datei.close()
    datei = codecs.open(('new_'+datei_name),'w','utf8') # die Texte als 'utf8' in einer neuen Datei gespeichert. 
    datei.write(text)
    datei.close()

UnicodeDecodeError: 'charmap' codec can't decode byte 0x81 in position 793: character maps to <undefined>

> ### <span style='color:red;'> ERROR! Das beduetet, haben Einige Dateien trotzdem falschen Zeichen.</span>

In [22]:
for datei_name, encodingstyp in texte.items():
    datei = codecs.open(datei_name,'r',encodingstyp) # die Texte mit bestimmten Encodingstyp geöffnet wurden.
    print(datei_name) # um zu bemerken, welcher Text Error mit sich bringen.
    text = datei.read()
    datei.close()
    datei = codecs.open(('new_'+datei_name),'w','utf8') # die Texte als 'utf8' in einer neuen Datei gespeichert. 
    datei.write(text)
    datei.close()

Nachtmilch.txt
Spechte.txt
Vögel.txt
Händewaschen.txt


UnicodeDecodeError: 'charmap' codec can't decode byte 0x81 in position 793: character maps to <undefined>

> ### Händewaschen.txt verursacht das Error. Problem ist deshalb 'Windows-1254'. Trotzdem werde ich einzelne zwei Type behandeln.

#### Um falsche Texte herauszufinden, mache ich es erstmal 'mit errors = ignore'...

> ### ich versuche ein Text mit Encoding ISO-8859-1, und eine mit  Windows-1254

In [10]:
datei = codecs.open('Nachtmilch.txt','r','ISO-8859-1', errors='ignore')  
text = datei.read()
datei.close()
print(text[:500])

Hilft Nachtmilch wirklich beim Schlafen?

3 Uhr morgens und noch immer kein Auge zugetan: Manche schwören auf Baldrian, Ruhe oder Alkoholverzicht, andere vertrauen auf sogenannte Nachtmilch, die bei Kühen im Dunkeln gemolken wurde. Nur was hilft wirklich bei Schlafstörungen? 



Man fühlt sich müde, muss dauernd gähnen - trotzdem ist an Schlaf nicht zu denken. Lauwarme Fußbäder oder Kamillentee mit Baldrian helfen meist nicht weiter. Schnelle Hilfe versprechen Hersteller sogenannter Nachtm


> ### Keine Bemerkung in ISO-8859-1..

In [20]:
datei = codecs.open('Händewaschen.txt','r','windows-1254', errors='ignore')  
text = datei.read()
datei.close()
print(text[:500])

Befreit warmes Wasser besser von Keimen?

Wer Triefnase, Husten und Kopfschmerzen entgehen will, sollte sich konsequent die H„nde waschen. Warmes Wasser und Seife, empfehlen Experten. Aber ist warmes Wasser tats„chlich besser als kaltes? 


Der neurotische Physikprofessor Boris Yellnikoff singt zweimal laut "Happy Birthday", wenn er sich die H„nde w„scht. Das vernichtet alle Keime, meint er. Im Prinzip hat der Kauz aus Woody Allens Film "Whatever Works" Recht: Denn zweimal "Happy Birthday" 


> ### <span style="color:red"> Knock! Knock! Wir haben 'Umlaut Probleme' mit Windows-1254 !!!</span>.


> https://de.wikipedia.org/wiki/Windows-1254

> #### Suchen wir "„" für umlaut a. 

<img src="windows1254.jpg">

> ### Jetzt soll ich herausfinden, welche Codepage 'HEXADECIMAL 84' als 'umlaut a' hat. 

> #### Wenn ich googlee, finde ich heruas, dass in 'cp437' HEX84 umlaut a bedeutet.

> https://www.torsten-horn.de/techdocs/encoding.htm

> ### ich sollte 'cp437' anstelle von 'Windows-1254' verwenden.

In [16]:
datei = codecs.open('Händewaschen.txt','r', 'cp437')  
text = datei.read()
datei.close()
print(text[:500])

Befreit warmes Wasser besser von Keimen?

Wer Triefnase, Husten und Kopfschmerzen entgehen will, sollte sich konsequent die Hände waschen. Warmes Wasser und Seife, empfehlen Experten. Aber ist warmes Wasser tatsächlich besser als kaltes? 


Der neurotische Physikprofessor Boris Yellnikoff singt zweimal laut "Happy Birthday", wenn er sich die Hände wäscht. Das vernichtet alle Keime, meint er. Im Prinzip hat der Kauz aus Woody Allens Film "Whatever Works" Recht: Denn zweimal "Happy Birthday" 


> ### wie gesehen, gibt kein Problem mehr.

### Jetzt speichere ich neue Texte als 'utf8'. Um es ohne Problem zu schafen tausche ich 'Windows-1254' zu 'cp437' aus.

In [18]:
for datei_name, encodingstyp in texte.items():
    if encodingstyp == 'Windows-1254':
        encodingstyp = 'cp437'        
    datei = codecs.open(datei_name,'r',encodingstyp) # !!!ohne 'errors=ignore'  
    text = datei.read()
    datei.close()
    datei = codecs.open(('new_'+datei_name),'w','utf8') # die Texte als 'utf8' in einer neuen Datei gespeichert. 
    datei.write(text)
    datei.close() 

> ## Naturlich könnte es nicht jeder Zeit optimale Lösung sein. Es ist zu prüfen, ob es im ganzen Dokument funktioniert.