# Text Mining

**Natural Language Processing**, kurz **NLP**, ist ein Forschungsfeld an der Schnittstelle zwischen Informatik (*Computer Science*), Linguistik (*Linguistics*) und Künstlicher Intelligenz (*Artificial Intelligence*, *AI*). NLP zielt darauf ab, Computern das 'Verständnis' von natürlicher Sprache zur Erledigung nützlicher Aufgaben zu ermöglichen. 
Die Methoden, die dabei zum Einsatz kommen, werden ebenfalls unter dem Oberbegriff NLP zusammengefasst. 
**Text Mining** betrifft die *Extraktion von Informationen aus Texten* und lässt sich als Teilmenge von NLP begreifen.

Eine Sammlung von Dokumenten, die dazu bestimmt ist, mit Werkzeugen der Sprachanalyse untersucht zu werden, nennt man einen **Korpus**.
Eine Sequenz von NLP-Schritten bezeichnet man auch als **NLP Pipeline**.
Ihre Hauptelemente sind die **morphologische Analyse**, die **syntaktische Analyse** und die **semantische Interpretation** natürlicher Sprache.
Je nachdem, ob die natürliche Sprache (*language*) in Form von Gesprochenem (*speech*) oder in Form von Geschriebenem vorliegt, sind am Beginn der NLP Pipeline unterschiedliche Vorbereitungsschritte erforderlich.
Das ist bei Gesprochenem in der Regel die **phonologische Analyse** (*phonological analysis*); bei Geschriebenem können es **Texterkennung** (kurz: **OCR**, von *optical character recognition*), **Tokenisierung** (*tokenization*), d.h. die Aufspaltung des Texts in Elemente auf Wortebene, und **Sentence Splitting** sein.

Nach ihrer Strategie zur Lösung von Aufgaben unterscheidet man (nicht nur im Bereich NLP) **regelbasierte Verfahren** und **statististische Verfahren**, 
wobei sich die Forschung (nicht nur im Bereich NLP) auf letztere konzentriert, seit die statistische Auswertung großer Datenmengen technisch möglich ist.

## Speziell: Reguläre Ausdrücke (Regex)

**Reguläre Ausdrücke**, kurz **Regex** (von *Regular Expressions*), sind eines der ältesten und zugleich leistungsfähigsten Werkzeuge des regelbasierten Text Mining. 
Mit ihrer Hilfe können wir Texte nach Mustern durchsuchen, die wir vorher spezifiziert haben. 
Jedes Regex-Setup hat daher mindestens drei Komponenten:
* einen **Text**, der durchsucht wird;
* ein **Muster**, nach dem der Text durchsucht wird; und 
* eine **Funktion**, welche die eigentliche Suche vornimmt, dazu Text und Muster als Argumente erhält (oder als Methode auf Text oder Muster aufgerufen wird) und ggf. ihre Resultate zurückgibt.

Da nur Muster gefunden werden, die den ausformulierten Regeln unserer Spezifikation entsprechen, sind Regex vor allem für Texte aus Domänen geeignet, die eine sehr regelhafte und in ihrer Regelhaftigkeit gut verstandene Sprache verwenden - beispielsweise das Recht in seiner Ausprägung als Gerichtsentscheidungen.

In den meisten höheren Programmiersprachen gibt es einige Regex-basierte Methoden zur Textmanipulation, die man unmittelbar auf String-Objekten aufrufen kann. 
Darüber hinaus existieren in der Regel spezielle Regex-Module.
Diese orientieren sich an allgemeinen Regex-Prinzipien und stellen klassische Regex-Funktionalitäten in programmiersprachenspezifischer Syntax zur Verfügung.

Pythons Regex-Modul heißt `re` und kann unter diesem Namen importiert werden. 
Die vollständige Dokumentation findet sich [hier](https://docs.python.org/3/library/re.html); 
nachfolgend sind lediglich einige zentrale Syntaxelemente zusammengestellt.

In [None]:
# Pythons Regex-Modul importieren
import re

In [None]:
# Grundlegende Funktionsweise
# ---------------------------

# Muster spezifizieren, Sonderzeichen ggf. escapen
pattern = "Art\. \d+"               # \d (digit) steht für eine Ziffer

# Zu durchsuchenden String angeben (i.d.R. Text aus Datei einlesen)
string = "Das allgemeine Persönlichkeitsrecht (Art. 2 Abs. 1 i.V.m. Art. 1 Abs. 1 GG)..."

# Suche nur nach erstem Treffer
re.search(pattern, string)          # gibt Match Object zurueck, falls Match, sonst None
re.search(pattern, string).group(0) # 'Art. 2' - gibt ersten Treffer als String zurueck

# Suche nach allen Treffern
re.findall(pattern, string)         # ['Art. 2', 'Art. 1'] - gibt Liste der Treffer zurueck

# Mit Flags die Art und Weise der Suche veraendern (mehrere Flags mit | trennen)
re.search(pattern, string, re.DOTALL | re.IGNORECASE) 


# Alternative Suchmoeglichkeit: Regex-Objekte (performanter, wenn Regex haeufiger benutzt wird)
prog = re.compile(pattern)          # Regex kompilieren...
result = prog.findall(string)       # ...und dann Methoden auf Objekt aufrufen

In [None]:
# Pattern Construction
# ---------------------------

# Special Characters: . ^ $ * + ? { } [ ] \ | ( ) \A \b \B \d \D \s \S \w \W \Z

# Strukturierung des Ausdrucks
# ---------------------------
# .             - ein beliebiges Zeichen
# \.            - ein Punkt (Sonderzeichen muessen escaped werden)
# [...]         - Menge (set) von Zeichen, die gematcht werden koennen
# [^...]        - Menge (set) von Zeichen, die nicht gematcht werden duerfen
# [a-z]         - Abkuerzung fuer haeufige Zeichenmengen (hier: Kleinbuchstaben)
# \W            - Abkuerzung fuer [^a-zA-Z0-9_], aehnlich die anderen Buchstaben-Sonderzeichen
# (...)         - Gruppe, auf die mit .group(1) etc. zugegriffen werden kann
# (?:...)       - Gruppe ohne spaetere Zugriffsmoeglichkeit (non-capturing group)
# (...|...)     - Alternativen bzw. Varianten innerhalb einer Gruppe

# Anzahlbezeichnungen hinter den Zeichen oder Gruppierungen
# ---------------------------
# *             - 0 oder mehr
# +             - 1 oder mehr
# ?             - 0 oder 1, hinter anderen Ausdruecken (zB *, +, {min,max}) idR 'so wenige wie moeglich' (non-greedy)
# (kein Zusatz) - genau 1
# {n}           - genau n
# {min,max}     - zwischen (inklusiv) min und max (falls eine Grenze fehlt, ist das Intervall halboffen)

# Kontextabhaengiges Matching
# ---------------------------
# (?=...)       - Positive Lookahead Assertion (matche nur, wenn danach...)
# (?!...)       - Negative Lookahead Assertion (matche nicht, wenn danach...)
# (?<=...)      - Positive Lookbehind Assertion (matche nur, wenn davor...)
# (?<!...)      - Negative Lookbehind Assertion (matche nur, wenn danach...)

testpattern = "[^\W]+?[Rr]echt.*?(?=\s)"   # Verstaendnistest
re.findall(testpattern, string);           # ['Persönlichkeitsrecht']

In [None]:
# Backslash Problematik
# ---------------------------

challenge = "\section{Title}"
re.search('\section', challenge)     # Kein Match, da \s von re als Special Character behandelt
re.search('\\section', challenge)    # Kein Match, da Backslash in Python Special Character
re.search('\\\\section', challenge)  # Match in normaler Notation
re.search(r'\\section', challenge);  # Raw String Notation (keine Sonderbehandlung von Backslashes in Python)

In [None]:
# Sonstiges Text Munging
# ---------------------------

msg = "Hello, World!"

# Text an Treffern splitten
sep = "\s"
re.split(sep, msg)                           # Gibt Liste mit den Textteilen zurueck

# Treffer ersetzen
pat = "Hello"
repl = "Bonjour"
re.sub(pat, repl, msg)                       # Gibt neuen String mit Ersetzungen zurueck

# Ganz ohne Regex 
# (weitere Funktionen: s. Tab-Taste, wenn Cursor auf String-Variable zeigt)
# ---------------------------

# Anfaenge und Enden auf Matches testen
msg.endswith('!')                            # True
msg.startswith('Ola')                        # False

# Ersetzungen vornehmen
msg.replace('Hello', 'Bonjour')              # aequivalent zu re.sub(pat, repl, msg)

# Zeichen zaehlen
msg.count('l')                               # 3
{char:msg.count(char) for char in set(msg)}; # Dict mit Zeichen und Haeufigkeit