# Zusatzdossier NLP (Natural Language Processing): Arbeiten mit Regex, spacy und Flair

In diesem Dossier stellen wir die Python Bibliotheken re, spacy und Flair vor. Hier lernst du die Grundlagen der beiden Bibliotheken um einfaches Textprocessing durchzuführen.

## Teil 1: Regex in Python
Die [re](https://docs.python.org/3/library/re.html#) Bibliothek gibt uns die Möglichkeit, Regex in Python zu verwenden. Hier demonstrieren wir die wichtigsten Befehle der Bibliothek. Solltest du nochmals Übung mit Regex brauchen findest du auf [RegexOne](https://regexone.com/lesson/introduction_abcs) einen Überblick. Ein weiteres, sehr nützliches Tool ist [RegExr](https://regexr.com). Super zum ausprobieren und visualisieren von Regex Patterns.

`re.split(pattern, string)` : Nimmt das gegebene Pattern und gibt den gespalten String in einer Liste zurück, ähnlich der string.split() Methode. Vorteil hier ist, dass ein Regex Ausdruck statt einem String gegeben werden kann, was die re.split() Methode viel leistungsfähiger macht.

In [None]:
import re

my_string = 'Der Hund frisst eine Banane.'
# Spaltet den String mit dem Pattern 'e(.)'
my_list_re = re.split('e(.)', my_string)
# Spaltet den String mit dem String 'e'. 'e(.)' ist hier nicht möglich.
my_list_py = my_string.split('e')
# Der Output unterscheidet sich. 'e(.)' behält den Buchstaben nach dem e und 
# fügt ihn extra in die gespaltete Liste ein.
print(my_list_re)
print(my_list_py)

`re.search(pattern, string)` :
Sucht nach einem Pattern in einem String und gibt den ersten Treffer in einem Match-Objekt zurück. Mit der `match.group()` Methode kann auf den gematchten string zugegriffen werden.

In [None]:
# Such nach dem Pattern in meinem String
my_match = re.search('\w*e\w*', my_string)
# Printe das Match Objekt
print(my_match)
# Printe position 0 der Match Group
print(my_match.group(0))

Das `match` Objekt ist ein Datencontainer welcher mehrere Argumente wie den gematchten String und die Indices der Match Position speichert. Es kann ausserdem mehrere Gruppen matchen und ausgeben. Wenn mit Klammern im Pattern mehrere Argumente gecaptured werden, kann man auf diese mit verschiedenen Indices in `match.group()` zugreifen.

In [None]:
my_string = 'Donald - Duck, Ente'

# Matche 'Donald Duck' und capture 'Donald' und 'Duck'
my_match = re.search('(\w+) - (\w+)', my_string)

# match gibt das Objekt aus
print(my_match)
# match.group(0) gibt das gesamte match aus.
print(my_match.group(0))
# match.group(1) gibt die erste capture Group
print(my_match.group(1))
# match.group(2) gibt die zweite capture Group
print(my_match.group(2))

`re.findall(pattern, string)` : Sucht nach einem Pattern in einem String und gibt alle Treffer in einer Liste zurück.

Ähnlich wie das match objekt kann `findall()` ebenfalls capture groups mmatchen und ausgeben

In [None]:
my_string = 'Der Hund frisst eine Banane.\nDie Katze rennt um den Hamster.'

# Finde alle Wörter, welche ein e enthalten
my_match = re.findall('\w*e\w*', my_string)
print(my_match)

# Finde alle Wörter, die mit Grossbuchstaben beginnen und nicht am anfang einer
# Zeile stehen.
my_match = re.findall('(\w+) ([A-Z]\w+)', my_string)
print(my_match)

# Finde alle Wörter, welche am Anfang einer Zeile stehen und mit D anfangen.
my_match = re.findall('^[Dd]\w*', my_string)
print(my_match)

Wie du siehst findet das letzte `findall()` nur 'Der' am anfang des Strings. Standardmässig sieht `findall()` den \n Character nicht als relevant für die ^ $ Syntax. Hierfür brauchen wir eine sogennante Flag. Flags können in das Pattern eingebaut werden aber das re Modul bietet hier eine etwas übersichtlichere Lösung. Statt `re.findall(pattern, string)` verwenden wir `re.findall(pattern, string, flags=re.MULTILINE)`. Sollten mehrere Flags nötig sein trennen wir diese mit |.

In [None]:
# Finde alle Wörter, welche am Anfang einer Zeile stehen und mit D anfangen.
# Berücksichtige dabei '\n'.
my_match = re.findall('^[Dd]\w*', my_string, flags=re.MULTILINE)
print(my_match)

# Finde alle Wörter, welche am Anfang eines Satzes stehen und mit D anfangen.
# Berücksichtige dabei '\n' und ignoriere Gross-/Kleinschreibung.

my_match = re.findall('^d\w*', my_string, flags=(re.MULTILINE | re.IGNORECASE))
print(my_match)


### Beispiel

Wir haben eine Textdatei mit allen züricher Orten und den zugehörigen Postleitzahlen. Wir wollen ein Dictionary anlegen, welche die Orte als Keys speichert und die Postleitzahlen als Values. Der Code dafür könnte so aussehen:


In [None]:
import re
from collections import defaultdict

# unser Dictionary
plz_zürich = defaultdict(list)
# öffnet unser Textfile als 'infile' und liest die daten
with open('Postleitzahlen.txt', 'r', encoding='utf8') as infile:
    raw_data = infile.read()

# Regex Pattern das ein Tupel aus (plz, ort) aus jeder Zeile liest
plz_place = re.findall('^(\d*)\t([\w| ]*)\t', raw_data, flags=re.MULTILINE)

for pair in plz_place:
    # dank defaultdict müssen wir nicht prüfen, ob der Key schon im Dict ist
    plz_zürich[pair[1]].append(pair[0])

# Geben wir uns das Dict alphabetisch sortiert aus:
for name, plz in sorted(plz_zürich.items()):
    print(f'{name:{21}}: {plz}')

Hier das [Real Python](https://realpython.com/sort-python-dictionary/#using-the-sorted-function) Tutorial für `sorted()` (eventuall muss hochgescrollt werden)

Ein fortgeschrittenes Modul für das Arbeiten mit Regex ist das Modul `regex`. Es bieted alles was `re` kann, hat aber einige erweiterte Funktionen wie das Suchen nach meherern Patterns gleichzeitig und das erkennen von überlappenden Matches. Es ist komplexer als `re` und sichere Kenntnisse in Python und Regex sind von Vorteil. Hier die [Dokumentation](https://pypi.org/project/regex/).

`regex` ist nicht Teil der Python Standardbibliothek und muss deshalb erst installiert werden. 
Für die installation den Commmand

`%pip install regex`

verwenden.

## Teil 2: Textbearbeitung in Python
Um Textdaten auszuwerten ist es wichtig zu wissen, wie man Textdateien einliest und in auswertbare Form bringt. Hier lernst du den Standardprozess und Best-Practises um schnell mit Natural Language zu arbeiten.

In [None]:
import re

# einlesen des Textdokumentes:
with open('buddenbrooks.txt', 'r', encoding='utf8') as infile:
  raw_text = infile.read()
  print(raw_text[2500:3000])

In [None]:
# Spalten des Textes in Wörter
# (eine sehr primitive Methode in diesem Fall, besser man verwendet dazu eine Bibliothek wie spacy oder NLTK)
words = re.split('[\n \.,;:!\?»«©\']', raw_text[2500:3000])
print(words)

# Lowercasing
for i in range(len(words)-1):
  words[i] = words[i].lower()
print(words)

# Herausfiltern der Leer-Wörter
words = [word for word in words if word != '']
print(words)

### Beispiel
Den vorverarbeiteten Text können wir z.B. mithilfe eines Counters sehr einfach auszählen.

In [None]:
from collections import Counter

# Zählen der Wörter
word_count = Counter(words)

# Ausgabe der ersten 10 worte:
for word, count in word_count.most_common(10):
    print(f'{word:{16}}{count}')

## Teil 3: Textbearbeitung mit spaCy

In diesem Teil behandeln wir [spaCy](https://spacy.io/usage/spacy-101), eine Bibliothek welche viele nützliche Funktionen für Textbearbeitung und Analyse bringt. Hier schauen wir uns die wichtigsten mit einigen Beispielen an.

### Machine Learning für Text Processing

[Machine Learning](https://www.lexalytics.com/blog/machine-learning-natural-language-processing/#:~:text=Machine%20learning%20for%20NLP%20and,known%20as%20supervised%20machine%20learning.) beschreibt die Fähigkeit von Computern, menschliches Verhalten zu imitieren. Im bereich Natural Language Processing bedeutet das unter anderem, aus vorannotierten Texten zu lernen und das gelernte auf 'raw data' anzuwenden. Also Texte korrekt in Sätze und Tokens zu spalten und Wortarten und Lemmata erkennen und selber annotieren zu können.

SpaCy bietet ein solches Machine Learning Modell. Es ist in der Lage, Texte in Tokens zu spaltern und mit recht hoher Genauigkeit diese mit allen möglichen Attributen zu annotieren ([Dokumentation](https://spacy.io/api/doc)). Spacy ist nur eine unter vielen NLP und Machine-Learning-Bibliotheken. Sie ist insbesondere auf auch für Anfänger leicht zu verwenden und läuft auch auf Rechnern ohne Deep-Learning-fähige Grafikkarte, dafür liefert sie nicht unbedingt die besten Resultate. 

Weitere nennenswerte Bibliotheken sind **SciKit-Learn** (Super Dokumentation inkl. Artikeln zur Theorie hinter den Funktionen, anfängerfreundlich, super für auch für unsupervisiertes Lernen), **FlairNLP** (Komplexer, aber State-of-the-Art Sequence Tagging), **NLTK** (etwas veraltet, aber sehr ausführliche Dokumentation, anfängerfreundlich) und **Transformers** (Top-aktuelles Deep-Learning, sehr komplex).

SpaCy ist keine Python-Integrierte Bibliothek. Wir müssen sie also zuerst installieren. Ausserdem arbeitet spaCy mit Language Models. Diese Dateien sind sehr gross und es gibt recht viele, weshalb spaCy sie nicht automatisch lädt. Für diesen Teil laden wir das de_core_news_small Model.

In [None]:
# Download und Upgrade von spaCy
%pip install -U -q spacy

Spacys trainierte Modelle werden in sogenannten Modulen bereitgestellt. Wenn wir also z.B. einen deutschsprachigen Text verarbeiten möchten, müssen wir ein entsprechendes Modul herunterladen. In diesem Beispiel laden wir ein Modell herunter, das auf deutschen Zeitschriftentexten trainiert wurde.

In [None]:
# Download des spaCy Sprachenmoduls de-core-news-small
!python -m spacy download de_core_news_sm

In Spacy sind alle Schritte in einer sogenannte Pipeline gesammelt. Wenn wir einen String in die Pipeline geben, erstellt Spacy ein Document-Objekt, welches in jedem Schritt weitere Informationen erhält.

![Pipeline](pipeline.png)

In der Dokumentation des [Modells](https://spacy.io/models/de) können wir alle Komponenten der Pipeline des jeweiligen Modells sehen. Bei de-core-news-small haben wir also:
- Einen Tokenizer (nicht extra angegeben), wird immer laufen gelassen
- tok2vec : Mithilfe eines Sprachmodells werden die Token in Vektoren umgewandelt, ein grundlegender Schritt für die meisten NLP-Anwendungen
- tagger : Ermittelt zu jedem Token einen Part-Of-Speech-Tag (z.B. ob es ein Verb, Nomen oder Adjektiv ist)
- morphologizer : Ermittelt zu jedem Token die Morphologie
- parser : Lässt einen Dependency-Parser über den String laufen
- lemmatizer : Ermittelt zu jedem Token das Lemma
- attribute_ruler : Enthält je nach Modell Regeln um Token weiter zu klassifizieren
- ner : Klassifiziert, bei welchen Token es sich um *Named Entities* handelt

Manche dieser Komponenten sind sehr rechenintensiv. Wenn wir nur an bestimmten Komponenten interessiert sind, können wir sie abschalten.

In [None]:
import spacy

# Lädt die Pipeline als 'nlp'
nlp = spacy.load('de_core_news_sm')

# Öffnet das Textfile als 'infile'
with open('buddenbrooks.txt', 'r', encoding='utf8') as infile:
    # Ohne Split ist der Text zu lang. Eine Möglichkeit wäre z.B. an Kapitel zu splitten.
    # Hier splitten wir einfach nach 100000 Zeichen.
    raw_text = infile.read(100000)
    # Wir überspringen ausserdem die ersten 2000 Zeichen, wo nur die Metadaten stehen.
    raw_text = raw_text[2000:]
    # Verarbeitet den Text mit der Pipeline und speichert das Ergebnis in 'doc'
    doc = nlp(raw_text)

In der Variable `doc` haben wir nun ein Document-Objekt. Dieses können wir z.B. iterieren, um uns die Token anzusehen. Die Token enthalten die Informationen, welche wir in der Pipeline hinzugefügt haben als Attribute.

In [None]:
# Nur ein Ausschnitt des Textes
for token in doc[100:500]:   
    # überspringen von Whitespaces
    if token.pos_ == "SPACE":
        continue
    # wir geben den String des Tokens, den POS-Tag, das Lemma und ob es eine NE ist aus
    print(f'{token.text:{16}}{token.pos_:{12}}{token.lemma_:{12}}{token.ent_iob_+"-"+token.ent_type_}')

In [None]:
# Das Dokumenten-Objekt ermöglicht aber auch Analysen auf der Dokumenten-Ebene
# Hier z.B. lassen wir uns alle Named Entities im Dokument anzeigen

for ent in doc.ents:
    print(f"{ent.text:{24}}{ent.label_}")

# Schau dir die Resultate an, wie ist die Qualität?

### Beispiel

Nun wollen wir wie in Teil 2 die häufigsten Wörter zählen. Allerdings werden wir hier die Lemmata und nicht die Wortformen benutzen.

In [None]:
from collections import Counter

lemmata = [token.lemma_ for token in doc if token.pos_ != "SPACE"]

counter = Counter(lemmata)

for word, count in counter.most_common(10):
    print(f'{word:{16}}{count}')

## Teil 4: Sequence-Tagging mit FlairNLP
In diesem Kapitel stelle ich eine weitere Bibliothek vor, die weitaus einfacher als die Transformer-Bibliothek verwendbar ist, und trotzdem State-of-the-Art Resultate produziert. Das ist die [FlairNLP](https://flairnlp.github.io/)-Bibliothek.

Ein Hinweis zu diesem Kapitel: Hierfür muss flair installiert werden, eine Bibliothek die umfangreicher ist als z.B. spacy. Denke darin in environments zu arbeiten, so dass du im Zweifelsfall die Bibliothek leicht deinstallieren kannst, wenn du sie nicht benötigst.

Dieses Tutorial konzentriert sich auf die Anwendung, in welcher FlairNLP die besten Leistungen zeigt, nämlich die Annotation von *Named Entities*, eine Aufgabe die als *Sequence Tagging* modelliert wird. *Sequence Tagging* bedeutet eine Sequenz (von Token) rein, eine Sequenz (von Tags) raus. FlairNLP bietet inzwischen aber auch Funktionen zur Dokumentenklassifikation und Sentimentanalyse.

Etwas Hintergrund zu FlairNLP: Der Grund, wieso die Architektur solch guten Leistungen zeigt, ist in ihren speziellen Sprachmodellen zu finden. Diese vektorisieren Token nicht pro Token, sondern berechnen das Encoding jedes Tokens auf Basis seiner Zeichen und des Kontexts. Auf der Webseite von FlairNLP sind auch Tutorials zu finden, wie man seine eigenen Modelle trainieren kann. Dies ist in FlairNLP meiner Meinung nach einfacher als in Spacy. 
FlairNLP basiert aber auf einer *Deep Learning*-Architektur und ist dadurch rechnerisch anspruchsvoller. Will man ein Modell trainieren oder grössere Mengen an Text verarbeiten, empfiehlt sich eine Infrastruktur mit entsprechend geeigneter Grafikkarte. Für kleinere Experimente kann aber schon [Google Colab](https://colab.research.google.com/) verwendet werden (Nutzung von TPUs/GPUs muss in Notebook Settings aktiviert werden!).

In [None]:
# FlairNLP installieren
%pip install -U flair

In [None]:
import re

# Den Text einlesen
with open('buddenbrooks.txt', 'r', encoding='utf8') as infile:
    raw_text = infile.read(100000)  # Wir nehmen auch hier nur die ersten 100000 Zeichen
    raw_text = raw_text[2000:]  # und überspringen die ersten 2000 Zeichen um die Metadaten zu entfernen

# FlairNLP beinhaltet kein Satz-Splitting, wir machen das ganz primitiv an Punkten
# Für eine richtige Pipeline könnten wir z.B. den Splitter von spacy benutzen
sentences = re.split(r"[.\?!;]", raw_text)

# Satz-Splitting ist wichtig weil sich die Performance des Flair-Taggers mit längerwerdenden Sequenzen verschlechtert

In diesem Beispiel verwenden wir eines der vortrainierten Modelle von FlairNLP. Weitere Modelle finden sich auf [Huggingface](https://huggingface.co/models?library=flair) mit der Filteroption *Flair*.

In [None]:
# Wir können mit Flair Modelle von Huggingface.co verwenden
# oder welche die wir lokal installiert haben (zb selbsttrainiert)
from flair.models import SequenceTagger

# Hier laden wir das Modell um deutschsprachige Entitäten zu erkennen
# Vorsicht, das Modell ist relativ gross (>1.4GB)
# Wenn es einmal heruntergeladen wurde, bleibt es im Cache gespeichert für eine Weile, muss also nicht jedes Mal neu heruntergeladen werden
tagger = SequenceTagger.load("flair/ner-german")

In [None]:
from flair.data import Sentence

# zur Verarbeitung wandeln wir noch unsere Strings in Sentence-Objekte um
# sie erfüllen bei flair eine ähnliche Funktion wie Document-Objekte in spacy
flair_sentences = [Sentence(sentence) for sentence in sentences if sentence != '']

In [None]:
# wir können eine Liste von Sätzen auf einmal taggen lassen (dauert eventuell ein paar Minuten, im Zweifelsfall nur auf den ersten paar Sätzen testen)
tagger.predict(flair_sentences)

# Kein Return-Objekt, die Informationen werden direkt im jeweiligen Sentence-Objekt gespeichert

In [None]:
# Sehen wir uns die Resultate an
for sentence in flair_sentences[:10]:
    # Flair druckt jeweils den Satz aus, gefolgt von den erkannten Entitäten
    print(sentence)



In [None]:
# Wollen wir nur die Entitäten extrahieren:
for sentence in flair_sentences:
    for entity in sentence.get_spans('ner'):
        print(entity)

# Was ist dein Eindruck im Vergleich zur Performance von spacy?

### Modell selber trainieren
In diesem Tutorial werden wir kein eigenes Modell trainieren. Das [Flair Tutorial](https://flairnlp.github.io/docs/category/tutorial-2-training-models) enthält aber übersichtliche Anleitungen, wie man selbst ein Modell von Grund auf oder fine-tunen kann.