# Lerneinheit Preprocessing mit NLTK

Mit dieser Lerneinheit können Sie Texte für die digitale Analyse mit anderen Tools vorbereiten.
Wir haben das Preprocessing in zwei Komplexe unterteilt.

Im ersten Komplex finden Sie Funktionen, mit denen Sie die Form eines Textes verändern können, ohne dabei inhaltlich einzugreifen.
Mit diesen Funktionen können Sie einen Text in einzelne Wörter oder Sätze unterteilen (Tokenisierung auf Wort- oder Satzebene), den gesamten Text in Kleinschreibung umwandeln, und doppelte Leerzeichen und Leerzeilen entfernen.

Im zweiten Komplex finden Sie Funktionen, mit denen Sie einzelne Elemente aus einem Text herauslöschen können.
Wenn Sie alle Wörter entfernen, die weniger als drei Zeichen haben, so können Sie damit meist Fehler eliminieren, die auf ein suboptimales OCR zurückzuführen sind.
Sie können Zahlen und Satzzeichen aus einem Text entfernen.
Sie können Sätze mit einer bestimmten Wortanzahl aus dem Text entfernen.
Schließlich können Sie auch eine ganze Liste von Stopwords (Wörtern, die Sie in Ihrer Analyse nicht mit einbeziehen möchten) aus dem Text entfernen.

Die Lerneinheit ist so aufgebaut, dass Sie jede Funktion einzeln ausführen können.
Suchen Sie sich die Funktionen heraus, die Sie für Ihre Korpusvorbereitung brauchen.
Funktionen, die Sie nicht benötigen, können Sie einfach überspringen.
Wenn ein Arbeitsschritt abgeschlossen ist, erscheint in den eckigen Klammern links an der Seite eine kleine Zahl.
Wird ein Arbeitsschritt noch ausgeführt, so sehen Sie hier ein Asterisk (*).
Daran erkennen Sie, dass Ihr Computer noch arbeitet.

## NLTK laden

Bevor Sie mit dem Prepsorcessing Ihres Textes beginnen können, müssen Sie das NLTK-Package (Natural Language Processing Toolkit) und ein paar zusätzliche Packages laden.
Klicken Sie dazu in die Box unten, sodass Ihr Cursor dort erscheint.
Klicken Sie dann oben im Menü auf "Run".

In [1]:
import nltk
import re

## Funktionen zur Anpassung der Textform

Manche digitalen Methoden und Tools zur Textanalyse benötigen vorverarbeitete Dokumente, die eine ganz bestimmte Form aufweisen.
Manchmal benötigen Sie z.B. einen Darstellung, in der in jeder Zeile ein Wort steht oder pro Zeile ein Satz.
In der digitalen Stilometrie (mehr darüber in Horstmann 2018) kann es manchmal sinnvoll sein, Texte so vorzubereiten, dass sie ausschließlich Kleinschreibung aufweisen, um die Großschreibung häufiger Wörter wie "der", "die" oder "das" am Satzanfang herauszunehmen.
Im Folgenden Abschnitt finden Sie Funktionen des Python-Packages NLTK, mit denen sie solche Operationen durchführen können, die nicht in den eigentlichen Text, sondern nur in dessen Form eingreifen.

### Tokenisierung auf Wortebene

Mit der Funktion zur Tokenisierung können Sie Elemente in einem Text vereinzeln bzw. einzeln markieren.
Mit NLTK können Sie Tokenisierung sowohl auf Wort- als auch auf Satzebene durchführen.
Um die Tokenisierung auf Wortebene durchzuführen und den tokenisierten Text in einer neuen Datei zu speichern, klicken Sie nun in die unten stehende Box.
Klicken Sie dann oben im Menü auf "Run", um den Vorgang zu starten.
Sobald links in den eckigen Klammern eine kleine Zahl erscheint, müsste das Programm eine neue Datei mit Ihren Daten in Ihrem Ordnersystem abgelegt haben.

Dabei wird jedes Token in einer neuen Textzeile ausgeben.

In [11]:
with open('/Users/Computer/Documents/Studium/Master/2. Semester/Projekt/Korpus narrative Texte/1952_KlausMann_Wendepunkt.txt', 'r', encoding='utf-8') as input:
    text = input.read()

# Tokenisierung
tokens = nltk.word_tokenize(text, 'german')

# Der join() Befehl verbindet Elemente einer Liste mit einem String.
# Wir verwenden hier den Zeilenumbruch '\n' als Verbindungselement, um eine vertikale Wortliste zu erstellen.
output_str = '\n'.join(tokens)

with open('/Users/Computer/Documents/Studium/Master/2. Semester/Projekt/Korpus narrative Texte/1952_KlausMann_Wendepunkt.txt', 'w', encoding='utf-8') as output:
    output.write(output_str)

print(output_str)

Klaus
Mann
Der
Wendepunkt
Ein
Lebensbericht
S.
Fischer
Verlag
1952
Diese
Autobiographie
erschien
zuerst
,
1944
,
in
englischer
Sprache
unter
dem
Titel
»
The
Turning
Point
«
im
Verlag
L
.
B.
Fischer
Inc
.
,
New
York
.
Das
vorliegende
Buch
ist
eine
erweiterte
Fassung
,
die
der
Autor
selbst
in
deutscher
Sprache
schrieb
.
Meiner
Mutter
und
meiner
Schwester
Erika
gewidmet
This
,
then
,
is
life
:
here
is
what
has
come
to
the
surface
after
so
many
throes
and
convulsions
…
How
curious
!
how
real
!
Walt
Whitman
Il
y
a
dans
tout
aveu
profond
plus
d'éloquence
et
d'enseignement
qu'on
ne
peut
croire
tout
d'abord
.
André
Gide
Wer
spricht
von
siegen
?
Überstehn
ist
alles
.
Rainer
Maria
Rilke
Prolog
Wo
beginnt
die
Geschichte
?
Wo
sind
die
Quellen
unseres
individuellen
Lebens
?
Welche
versunkenen
Abenteuer
und
Leidenschaften
haben
unser
Wesen
geformt
?
Woher
kommt
die
Vielfalt
widerspruchsvoller
Züge
und
Tendenzen
,
aus
denen
unser
Charakter
sich
zusammensetzt
?
Ohne
Frage
,
wir
sind
tiefer
verwurzelt


### Tokenisierung auf Satzebene

Um die Tokenisierung auf Satzebene durchzuführen und den tokenisierten Text in einer neuen Datei zu speichern, klicken Sie nun in die unten stehende Box. Klicken Sie dann oben im Menü auf "Run", um den Vorgang zu starten. Sobald links in den eckigen Klammern eine kleine Zahl erscheint, müsste das Programm eine neue Datei mit Ihren Daten in Ihrem Ordnersystem abgelegt haben.

Dabei wird jeder Satz in einer neuen Textzeile ausgeben.

In [10]:
with open('/Users/Computer/Documents/Studium/Master/2. Semester/Projekt/Korpus narrative Texte/1952_KlausMann_Wendepunkt.txt', 'r', encoding='utf-8') as input:
    text = input.read()
    
sentences = nltk.sent_tokenize(text,language='german')
output_str = '\n'.join(sentences)
    
with open('/Users/Computer/Documents/Studium/Master/2. Semester/Projekt/Korpus narrative Texte/1952_KlausMann_Wendepunkt.txt', 'w', encoding='utf-8') as output:
    output.write(output_str)

print(output_str) 

Klaus
Mann
Der
Wendepunkt
Ein
Lebensbericht
S.
Fischer
Verlag
1952
Diese
Autobiographie
erschien
zuerst
,
1944
,
in
englischer
Sprache
unter
dem
Titel
»
The
Turning
Point
«
im
Verlag
L
.
B.
Fischer
Inc.
,
New
York
.
Das
vorliegende
Buch
ist
eine
erweiterte
Fassung
,
die
der
Autor
selbst
in
deutscher
Sprache
schrieb
.
Meiner
Mutter
und
meiner
Schwester
Erika
gewidmet
This
,
then
,
is
life
:
here
is
what
has
come
to
the
surface
after
so
many
throes
and
convulsions
…
How
curious
!
how
real
!
Walt
Whitman
Il
y
a
dans
tout
aveu
profond
plus
d'éloquence
et
d'enseignement
qu'on
ne
peut
croire
tout
d'abord
.
André
Gide
Wer
spricht
von
siegen
?
Überstehn
ist
alles
.
Rainer
Maria
Rilke
Prolog
Wo
beginnt
die
Geschichte
?
Wo
sind
die
Quellen
unseres
individuellen
Lebens
?
Welche
versunkenen
Abenteuer
und
Leidenschaften
haben
unser
Wesen
geformt
?
Woher
kommt
die
Vielfalt
widerspruchsvoller
Züge
und
Tendenzen
,
aus
denen
unser
Charakter
sich
zusammensetzt
?
Ohne
Frage
,
wir
sind
tiefer
verwurzelt
,

### Umwandlung in Kleinschreibung

Für manche Methoden und / oder manche Sprachen kann es sein, dass es sinnvoll ist, den gesamten Text in Kleinschreibung zu transformieren.
Wenn Sie Ihren Text auf diese Weise umwandeln und das Ergebnis in einer neuen Datei speichern möchten, klicken Sie unten in die Box und dann oben im Menü auf "Run".
Das Programm legt dann eine neue Datei mit dem unten aufgeführten Namen in Ihrem Ordnersystem ab.

In [None]:
with open('Downloads/1774-Werther.txt', 'r', encoding='utf-8') as input:
    text = input.read()

lower_text = text.lower()

with open('Downloads/Werther_Saetze_lowercase1.txt', 'w', encoding='utf-8') as output:
    output.write(lower_text)

### Doppelte Leerzeichen und Leerzeilen entfernen

Manchmal kommen durch die Vorverabeitung oder auch durch die Digitalisierung Leerzeichen und -zeilen in Texte, die Sie vielleicht bei Ihren weiteren Verarbeitungsschritten stören können. Die folgenden Funktionen helfen Ihnen dabei, doppelte Leerzeichen und Leerzeilen zu entfernen.

#### Doppelte Leerzeichen entfernen

Wenn Sie doppelte Leerzeichen in Ihrem Text entfernen möchten, klicken Sie unten in die Box, sodass Ihr Cursor dort erscheint. Klicken Sie dann oben im Menü auf "Run". Sobald links in den eckigen Klammern eine Zahl erscheint, wurde Ihr Ergebnis in einer neuen Datei gespeichert.

In [None]:
with open('Downloads/1774-Werther.txt', 'r', encoding='utf-8') as input:
    text = input.read()

# Mit der re.sub() Funktion können wir reguläre Ausdrücke verwenden, um bestimmte Textelemente zu entfernen.
# Mehrfachvorkommen von Leerzeichen werden mit dem regulärem Ausdruck ' +' gefunden.
# Um reguläre Ausdrücke auszuprobieren, kann man zum Beispiel diese Website verwenden: https://regex101.com
clean_text = re.sub(
    ' +',   # der reguläre Ausdruck mit dem wir die Zeichen finden, die entfernt werden sollen.
    ' ',    # Was eingefügt werden soll. In diesem Fall ein einfaches Leerzeichen
    text    # Der Text den wir bereinigen wollen.
)

with open('Downloads/1774-Werther_ohneLeerzeichen.txt', 'w', encoding='utf-8') as output:
    output.write(clean_text)

#### Leerzeilen entfernen

Wenn Sie Leerzeilen in Ihrem Text entfernen möchten, klicken Sie in die folgende Box und dann oben im Menü auf "Run". Sobald links in den eckigen Klammern eine Zahl erscheint, wurde Ihr Ergebnis in einer neuen Datei gespeichert.

In [None]:
with open('Downloads/1774-Werther.txt', 'r', encoding='utf-8') as input:
    text = input.read()

clean_text = re.sub(
    '\n+',  # Mit diesem regulären Ausdruck suchen wir nach Mehrfachvorkommen von Zeilenumbrüchen.
    ' ',
    text
)

with open('Downloads/1774-Werther_ohneLeerzeilen.txt', 'w', encoding='utf-8') as output:
    output.write(clean_text)

## Funktionen zum Herauslöschen einzelner Elemente

Sie wissen nun, wie Sie formale Elemente Ihres Textes verändern können. Sie können auf Satz- und Wortebene tokenisieren, durchgängige Kleinschreibung bewirken und doppelte Leerzeichen sowie Leerzeilen entfernen. Für manche Methoden, wie z.B. das Topic Modeling oder auch word2vec kann es sinnvoll sein, bei der Vorverarbeitung auch in den Text selbst einzugreifen. Von großer Bedeutung ist hier die Entfernung von Stopwörtern, d.h. Wörtern, die nicht in die Analyse einbezogen werden sollen (zur Bedeutung von Stopwörtern beim Topic Modeling vgl. Horstmann 2018). Auch das entfernen von Zahlen, Interpunktionszeichen oder kurzen Wörtern oder Sätzen kann für einige Methoden der Digital Humanities sinnvoll sein. Wählen Sie sich die Funktionen, die Sie brauchen einfach aus den folgenden Blöcken aus und überspringen Sie diejenigen, die für Sie nicht sinnvoll sind.

Bei manchen Funktionen können Sie wählen, in welchem Format Sie ihr Ergebnis abspeichern wollen. In diesem Fall finden Sie zu einer Funktion mehrere Abschnitte.

### Entfernen von Stopwörtern

Das NLTK-Package stell auch eine Reihe von Stopwortlisten für verschiedene Sprachen zur Verfügung. Im folgenden Beispiel führen Sie die Entfernung von Stopwörtern mit der Liste deutscher Stopwörter durch. 

In [None]:
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize


with open('Downloads/1774-Werther.txt', 'r', encoding='utf-8') as input:
    text = input.read()

language = 'german'
token = word_tokenize(text, language)

# Wir verwenden eine List Comprehension, mit der nur die Token in die neue Liste
# übernommen werden, die nicht in der Stopwords Liste sind.
filtered_token = [t for t in token if t not in stopwords.words(language)]

# Erneut erstellen wir eine vertikale Tokenliste, die in die neue Datei ausgegeben wird.
clean_token = '\n'.join(filtered_token)

with open('Downloads/1774-Werther_ohneStopwords.txt', 'w', encoding='utf-8') as output:
    output.write(clean_token)

Wenn Sie Stopwörter in einer anderen Sprache entfernen wollen, geben Sie in oben stehendem Code statt 'german' einfach die Sprache ein, die Sie benötigen. Um eine Liste aller Sprachen zu bekommen, für die NLTK Stopwortlisten bereitstellt, gehen Sie mit Ihrem Cursor in unten stehende Box und klicken Sie dann "Run".

In [None]:
from nltk.corpus import stopwords
print(stopwords.fileids())

### Entfernen von Satzeichen und Zahlen

Je nach Fragestellung, die Sie untersuchen wollen, kann es sinnvoll sein, Satzzeichen und Zahlen, also alle nicht-alphabetischen Elemente aus einem Text herauszufiltern. Wenn Sie Ihren Text oder Ihr Korpus auf diese Weise vorverarbeiten wollen, klicken Sie in die nächste Zelle und dann im Menü auf "Run".

In [None]:
with open('Downloads/1774-Werther.txt', 'r', encoding='utf-8') as input:
    text = input.read()

from nltk.tokenize import word_tokenize
token = word_tokenize(text)

# Alle nicht-alphabetischen Zeichen werden herausgefiltert
filtered_token = [t for t in token if t.isalpha()]
clean_token = '\n'.join(filtered_token)

with open('Downloads/1774-Werther_ohneSatzzeichenundZahlen.txt', 'w', encoding='utf-8') as output:
    output.write(clean_token)

### Entfernen von Zahlen

Wenn Sie zwar Zahlen aber keine Satzzeichen entfernen wollen, klicken Sie in unten stehende Box und dann im Menü auf "Run".

In [None]:
with open('Downloads/1774-Werther.txt', 'r', encoding='utf-8') as input:
    text = input.read()

# Hier verwenden wir wieder die re.sub() Funktion
text_without_numbers = re.sub(
    '[0-9]',    # Der reguläre Ausdruck für Zahlen
    '',
    text
)

# Hier tokenisieren wir den bereinigten Text
token = nltk.word_tokenize(text_without_numbers, 'german')
clean_token = '\n'.join(token)

with open('Downloads/1774-Werther_ohneZahlen.txt', 'w', encoding='utf-8') as output:
    output.write(clean_token)

### Entfernen von Satzzeichen

Wenn Sie ausschließlich Satzzeichen aus Ihrem Text herausfilten möchten, klicken Sie in die nächste Zeile und dann oben auf "Run".

In [None]:
import string

with open('Downloads/1774-Werther.txt', 'r', encoding='utf-8') as input:
    text = input.read()

from nltk.tokenize import word_tokenize
tokens = word_tokenize(text)

filtered_token = [
    t for t in tokens
    if t not in string.punctuation # Filtern der Interpunktionszeichen
]

clean_token = '\n'.join(token)

with open('Downloads/1774-Werther_ohneSatzzeichen.txt', 'w', encoding='utf-8') as output:
    output.write(clean_token)

### Entfernen kurzer Wörter

Wörter, die nur aus drei Buchstaben oder weniger bestehen sind häufig Funktionswörter. Ein anderer Grund, aus dem Sie evtl. kurze Wörter bei der Vorverarbeitung Ihres Korpus herausfiltern möchten, ist, dass Fehler, die durch mangelhafte OCR-Erkennung entstanden sein können, auf diese Weise minimiert werden können. OCR-Software erkennt manchmal Bindestriche am Seitenrand nicht und "zerhackt" darum manchmal Wörter. 

Wenn Sie aus oben genannten oder anderen Gründen, Wörter einer bestimmten Länge aus Ihrem Text herausfiltern möchten, so können Sie das mit unten stehendem Code tun. Ändern Sie dafür den Dateipfad in der ersten Zeile, so, dass dieser zu Ihrem Text oder Textkorpus führt. Arbeiten Sie mit unserem Beispieltext, so kann es sein, dass der Dateipfad bereits korrekt eingegeben ist. 

Mit dem unten stehenden Code filtern Sie Wörter aus einem Text heraus, die kürzer als drei Wörter sind. Möchten Sie Wörter bis zu einer anderen Länge aus Ihrem Text herausholen, so ersetzen Sie einfach die 3. Wenn Sie lange Wörter herausfiltern möchten statt kurze, so ändern Sie das > Zeichen und machen Sie daraus <. Passen Sie in diesem Fall auch die Zahl an.

Wenn Sie den Code angepasst haben, klicken Sie in die unten stehende Box und dann oben auf "Run".

In [None]:
with open('Downloads/1774-Werther.txt', 'r', encoding='utf-8') as input:
    text = input.read()

from nltk.tokenize import word_tokenize
tokens = word_tokenize(text)

filtered_token = [
    t for t in tokens
    if len(t) > 3       # Filtern nach der Tokenlänge
]

clean_token = '\n'.join(token)

with open('Downloads/1774-Werther_nurlangetoken.txt', 'w', encoding='utf-8') as output:
    output.write(clean_token)

### Entfernen kurzer Sätze

Wenn Sie Sätze einer bestimmten Länge aus Ihrem Text herausfiltern möchten, so können Sie dies mit unten stehendem Code tun. Passen Sie dazu den Dateipfad in der ersten Zeile so an, dass dieser zu Ihrem Text oder Textkorpus führt. Wenn Sie mit unserem Beispieltext arbeiten, müssen Sie hier evtl. gar nichts anpassen. Mit diesem Code können Sie Sätze aus einem Text herausfiltern, die kürzer sind als 4 Wörter. Elemente wie "Erster Theil", die nicht zum eigentlichen Erzähltext gehören, sondern Formelemente sind, bekommen Sie damit aus Ihrem Text herausgerechnet. Bedenken Sie aber auch, dass derselbe Code auch Sätze wie "Aber halt!" aus dem Text herauswirft, obwohl diese zum eigentlichen Erzähltext gehören. Nutzen Sie diesen Vorverarbeitungsschritt also bewusst und vorsichtig!

Im Folgenden Finden Sie drei Varianten des Codes, die Ihnen unterschiedliche Output-Dateien ausgeben. Das erste Beispiel gibt Ihnen einen Fließtext, in dem alle (übrig gebliebenen) Tokens und Sätze als solche markiert sind.

#### Entfernen kurzer Sätze und Speichern als Fließtext

Möchten Sie Sätze einer bestimmten Länge aus Ihrem Text herausrechnen und den Text in einer Datei als Fließtext abspeichern, in dem alle Wörter und Sätze als solche markiert sind, so klicken Sie in unten stehende Box und dann oben im Menü auf "Run".

In [None]:
from nltk.tokenize import sent_tokenize, word_tokenize

with open('Downloads/1774-Werther.txt', 'r', encoding='utf-8') as input:
    text = input.read()

sentences = nltk.sent_tokenize(text, 'german')
long_sentences = [
    sent for sent in sentences
    if len(word_tokenize(sent, 'german')) > 4   # Filtern anhand der Tokenanzahl pro Satz
]

# Hier fügen wir alle getrennten Sätze wieder zusammen.
long_sentences_str = ' '.join(long_sentences)

with open('Downloads/Werther_noShortSentences_Zeilen.txt', 'w', encoding='utf-8') as output:
    output.write(long_sentences_str)

#### Entfernen kurzer Sätze und Speichern mit einem ein Satz pro Zeile

Möchten Sie Sätze einer bestimmten Länge aus Ihrem Text herausrechnen und den Text in einer Datei abspeichern, in der jeder Satz eine Zeile bildet und Wörter und Sätze nicht markiert sind, so klicken Sie in unten stehende Box und dann oben im Menü auf "Run".

In [None]:
with open('Downloads/1774-Werther.txt', 'r', encoding='utf-8') as input:
    text = input.read()

sentences = nltk.sent_tokenize(text, 'german')
filtered_sentences = [
    sent for sent in sentences 
    if len(nltk.word_tokenize(sent, 'german')) > 4
]

output_str = '\n'.join(filtered_sentences)

with open('Downloads/Werther_noShortSentences_Zeilen_ohneTokens.txt', 'w', encoding='utf-8') as output:
    output.write(output_str)

Sie haben nun einige zentrale Funktionen zur Vorverarbeitung (Preprocessing) Ihrer Texte für eine digitale Analyse kennengelernt. Sie können die Funktionen alle auch einzeln nutzen. Speichern Sie sich dieses Notebook also gerne ab und nutzen es immer dann, wenn Sie einzelne Funktionen davon zum Preprocessing brauchen.

## Preprocessing Pipelines

Um die Funktionen zu Textbereinigung, Wort-Tokenisierung und Satz-Tokenisierung übersichtlich und mit wenig Code zu verwenden,
können wir auch Preprocessing Pipelines bauen.
Wir stellen im folgenden 3 Pipeliens vor, die Sie nutzen und weiterentwickeln können: 

### Text Pipeline

In [None]:
# Import des Regular Expression Package
import re


class TextPipeline:
    def __init__(self, text_dir: str = 'Downloads/1774-Werther.txt'):
        with open(text_dir, 'r', encoding='utf-8') as input:
            self.text = input.read()

    def remove_double_spaces(self):
        self.text = re.sub(' +',' ',self.text)

    def lowercase(self):
        self.text = self.text.lower()

    def remove_blank_lines(self):
        self.text = re.sub('\n+',' ',self.text)

    def save(self, file_name: str = 'clean_text.txt'):
        with open(file_name, 'w', encoding='utf-8') as output:
            output.write(self.text)
            
# Um die Text-Pipeline zu beginnen, geben wir den Dateinamen unseres Textes an:
text_pipeline = TextPipeline(text_dir='Downloads/1774-Werther.txt')

# Jetzt können wir alle Bereinigungsschritte beliebig hinzufügen oder weglassen:
text_pipeline.remove_double_spaces()
text_pipeline.lowercase()
text_pipeline.remove_blank_lines()

# Als letztes sichern wir die bereinigte Tokenliste und wählen dafür einen Dateinamen aus:
text_pipeline.save(file_name='clean_text.txt')

# Wir können uns das Ergebnis aber zur Überprüfung zusätzlich hier ausgeben lassen:
print(text_pipeline.text)

### Token Pipeline

In [None]:
import string
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords


class TokenPipeline:
    # Die Klasse "TokenPipeline" enthält alle Bereinigungsfunktionen, die oben erklärt wurden.
    # Weitere Bereinigungsschritte können ergänzt werden.
    # Im ersten Schritt der Token-Pipeline wird der Text geladen und tokenisiert.
    def __init__(self, text_dir: str = 'Downloads/1774-Werther.txt', language: str = 'german'):
        with open(text_dir, 'r', encoding='utf-8') as input:
            text = input.read()
        
        self.tokens = word_tokenize(text, language)
        self.language = language

    def remove_stopwords(self):
        self.tokens = [t for t in self.tokens if t not in stopwords.words(self.language)]

    def remove_short_token(self, min_len: int = 3):
        self.tokens = [t for t in self.tokens if len(t) >= min_len]

    def remove_numbers(self):
        self.tokens = [t for t in self.tokens if not re.findall('[0-9]', t)]

    def remove_interpunctation(self):
        self.tokens = [t for t in self.tokens if t not in string.punctuation]

    def save(self, file_name: str = 'clean_token.txt'):
        token_str = '\n'.join(self.tokens)
        with open(file_name, 'w', encoding='utf-8') as output:
            output.write(token_str)


# Um die Token-Pipeline zu beginnen, geben wir den Dateinamen unseres Textes an:
token_pipeline = TokenPipeline(text_dir='Downloads/1774-Werther.txt', language='german')

# Jetzt können wir alle Bereinigungsschritte beliebig hinzufügen oder weglassen:
token_pipeline.remove_numbers()
token_pipeline.remove_interpunctation()
token_pipeline.remove_stopwords()
token_pipeline.remove_short_token(min_len=4)

# Als letztes sichern wir die bereinigte Tokenliste und wählen dafür einen Dateinamen aus:
token_pipeline.save(file_name='clean_token.txt')

# Wir können uns das Ergebnis aber zur Überprüfung zusätzlich hier ausgeben lassen:
print(token_pipeline.tokens)

### Satz Pipeline

In [None]:
from nltk.tokenize import sent_tokenize, word_tokenize

class SentencePipeline:
    def __init__(self, text_dir: str = '1774-Werther.txt', language: str = 'german'):
        with open(text_dir, 'r', encoding='utf-8') as input:
            text = input.read()
        
        self.sentences = sent_tokenize(text, language)
        self.language = language

    def remove_short_sentences(self, min_len: int = 3):
        self.sentences = [
            sent for sent in self.sentences
            if len(word_tokenize(sent, self.language)) > min_len
        ]

    # hier können weitere Bereinigungsfunktionen ergänzt werden.

    def save_as_list(self, file_name: str = 'sententence_list.txt'):
        sentence_str = '\n'.join(self.sentences)
        with open(file_name, 'w', encoding='utf-8') as output:
            output.write(sentence_str)

    def save_as_text(self, file_name: str = 'sententence_list.txt'):
        sentence_str = ' '.join(self.sentences)
        with open(file_name, 'w', encoding='utf-8') as output:
            output.write(sentence_str)
            
# Um die Sentence-Pipeline zu beginnen, geben wir den Dateinamen unseres Textes an:
sentence_pipeline = SentencePipeline(text_dir='1774-Werther.txt', language='german')

# Jetzt können wir alle Bereinigungsschritte beliebig hinzufügen oder weglassen:
sentence_pipeline.remove_short_sentences()

# Als letztes sichern wir die bereinigte Tokenliste und wählen dafür einen Dateinamen aus:
sentence_pipeline.save_as_list(file_name='clean_sentences.txt')

# Wir können uns das Ergebnis aber zur Überprüfung zusätzlich hier ausgeben lassen:
print(sentence_pipeline.sentences)