**Seminar 'Einführung in die prozedurale und objektorientierte Programmierung mit Python'**

![Figure progr](https://www.dh-lehre.gwi.uni-muenchen.de/wp-content/uploads/img/python1819/icons8-buch-48.png)

# Thema 6: Reguläre Ausdrücke

> Reguläre Ausdrücke stellen ein äußerst mächtiges Tool zur Suche und Manipulation von Strings dar. Mit Ihrer Hilfe ist es möglich, sehr flexibel nach Zeichenfolgen zu suchen, Zeichenfolgen umzustellen oder zu ersetzen. Da es sich um ein sehr umfangreiches Themengebiet handelt, können an dieser Stelle nur die grundlegende Funktionsweise der regulären Ausdrücke sowie deren Einsatz in Python erklärt werden. Auch in vielen anderen Programmiersprachen können reguläre Ausdrücke zum Einsatz kommen, die Funktionsweise ähnelt zumeist derjenigen in Python.


## Der Einsatz regulärer Ausdrücke

Um reguläre Ausdrücke (RE) einsetzen zu können, müssen Sie zunächst das Modul `re` in Ihr Script einbinden:

In [None]:
#Importierte Module:
import re

Im Anschluss haben Sie die Möglichkeit, spezifische RE-Funktionen auszuführen. Wollen Sie mithilfe regulärer Ausdrücke suchen, verwenden Sie die Suchfunktion:

`re.search(RE, String)`

Als Rückgabewert liefert Ihnen diese Funktion ein sogenanntes Stringobjekt mit der genauen Position des gefundenen Musters, nicht jedoch das direkte Ergebnis des Suchvorgangs. Wollen Sie auf das Ergebnis des Suchvorgangs zugreifen, müssen Sie das Ergebnis der Suchfunktion in eine Variable speichern und auf diese die Methode `.group()` anwenden:

`Variable.group()`

Die Syntax der RE ähnelt auf den ersten Blick sehr derjenigen normaler Strings, optional ist die Voranstellung eines `r` vor die Anführungszeichen, zur besseren Unterscheidung von normalen Strings dienen:

`r"RE"`

Sie sehen nun ein Anwendungsbeispiel:

In [None]:
#Importierte Module
import re

#Suchstring
test = "Diesen String wollen Sie mit RE durchsuchen."
print(test)
#Suchabfrage mithilfe von: re.search()
ergebnis = re.search(r"[Dd].+?n", test)

#Ergebnis der Suchabfrage
print("Das RE-Objekt:", ergebnis)          
print("Der gefundene String:", ergebnis.group())

Python findet durch die **`search`-Funktion immer das genau erste Muster** im String, auf das die RE passt, und gibt ein **RE-Match-Objekt** zurück, dessen Inhalt (das gefunden Muster) Sie über die `group()`-Methode ansprechen können.

---
Wollen Sie *alle passenden Muster* erhalten, verwenden Sie die Funktion **`findall()`**, welche Ihnen eine **Liste mit allen passenden Mustern** zurückliefert:

`re.findall(RE, String)`

In [None]:
#Importierte Module
import re

#Suchstring
test = "Diesen String wollen Sie mit RE durchsuchen."

#Suchabfrage mithilfe von: re.findall()
ergebnis_a = re.findall(r"[Dd].+?n", test)
ergebnis_b = re.findall(r"S.+? ", test)

#Ergebnis der Suchabfrage
print(ergebnis_a)
print(ergebnis_b)

---
## Die Syntax regulärer Ausdrücke

Reguläre Ausdrücke erlauben es Ihnen, spezifische Suchmuster für Strings zu spezifizieren und Regelmäßigkeiten im Sprachsystem auszunutzen. Auch werden RE für die automatische Strukturierung von Daten eingesetzt. Sie können Mithilfe von RE zwar nach exakten Mustern suchen, allerdings werden Sie RE auf diese Weise in der Regel nicht einsetzen, da Python hierfür den bereits bekannten String-Vergleich (Suchmuster in String) anbietet:

In [None]:
#Importierte Module
import re

# Einfacher mit gleichem Verhalten zum klassischen Stringabgleich:
test = "Ein einfacher String-Vergleich"

#Test auf Enthaltensein des Strings "Ein":
if "Ein" in test:
    print("String enthalten.")

#Test auf das Finden der RE r"Ein":
if re.search(r"Ein", test):
    print("String enthalten.")

# Test auf Zirkumfix ver- -en mit Ausgabe des identifizierten Verbstammes
test_2 = "Er hat sich im Park verlaufen."

if re.search(r"ver.+?en", test_2):
    form = re.search(r"ver.+?en", test_2).group() # Speicherung in Variable
    print(form)
    form = form.lstrip("ver").rstrip("en") # Entfernung von Prä- und Suffix
    print("Zirkumfix 'ver- -en' identifiziert. Zirkumfigierung um den Stamm '" + form + "'")

Der wirkliche Vorteil der RE ergibt sich erst durch ihre besondere Such-Syntax. Diese Such-Syntax wird Ihnen im Folgenden anhand der Datei `sz_artikel.txt` gezeigt:

In [None]:
#Importierte Module
import re
import io

#Auslesen der Datei und Speicherung in die Variable text:
pointer = open("sz_artikel.txt", "r", encoding="utf8")
text = pointer.read()
pointer.close()

---
### Zeichenmengen: `[Zeichenalternativen]`
Es können sowohl einzelne Buchstaben als auch Buchstaben- und Zahlenspannen angegeben werden, also z.B. `[a-f]`, `[A-K]` oder `[0-6]`:

In [None]:
# Beispiel 1:
ergebnis = re.findall(r"[ws]ie", text)
print("Bsp 1:", ergebnis) 

# Beispiel 2:
ergebnis = re.findall(r" e[e-w] ", text)
print("Bsp 2:", ergebnis)

# Beispiel 3:
ergebnis = re.findall(r" [0-9][0-9] Prozent", text)
print("Bsp 3:", ergebnis)

### Negierte Zeichenmengen: `[^Zeichenalternativen]`
Es können auch Buchstabenmengen angegeben werden, die **nicht** an der entsprechenden Stelle auftreten dürfen:

In [None]:
# Beispiel: findet alle Vorkommen von Folgen, die auf 'ie' enden, aber nicht mit 'w' oder 's' beginnen 
ergebnis = re.findall(r"[^ws]ie", text)
print("Bsp:", ergebnis) 


### Beliebige Zeichen: `.` 
Für jeden `.` wird exakt ein beliebiges Zeichen gefunden, inklusive Leerzeichen, Tabulatoren oder Zeilenumbrüchen, es handelt sich um eine sogenannte ***Wildcard*** mit der Funktion eines Platzhalters. Soll ein '.' gefunden werden, so ist er mit `\.` zu maskieren

In [None]:
# Beispie 1:
ergebnis = re.findall(r" .ie ", text)
print("Bsp 1:", ergebnis)

# Beispiel 2:

ergebnis = re.findall(r"\..... ", text)
print("Bsp 2:", ergebnis) #Ein Punkt und drei beliebige Zeichen

### Nur Buchstaben: `\w` 
Es werden beliebige Buchstaben und Zahlen gefunden (= alphanumerische Zeichen), keine Sonderzeichen. `\W` findet alle komplementären Zeichen.

In [None]:
# Beispiel 1:
ergebnis = re.findall(r" \w\w\w ", text)
print("Bsp 1:", ergebnis[:10])

# Beispiel 2:
ergebnis = re.findall(r"\W", text) # Alternativ: r"[^\w]"
print("Bsp 2:", ergebnis[:10]) # Alle Leerzeichen, Kommata, Punkte, Zeilenumbrüche etc.

### Nur Zahlen: `\d` 
Es werden beliebige Zahlen gefunden, ohne Sonderzeichen oder Buchstaben. `\D` findet alle komplementären Zeichen.

In [None]:
# Beispiel 1:
ergebnis = re.findall(r" \d\d ", text)
print("Bsp 1:", ergebnis)

ergebnis = re.findall(r" \D\D ", text)
print("Bsp 2:", ergebnis)

### Nur Whitespace Character: `\s`
Es werden alle Whitespace Character gefunden, sonst nichts. `\S` findet alle komplementären Zeichen.

In [None]:
# Beispiel 1:
ergebnis = re.findall(r"\s", text)
print("Bsp 1:", ergebnis[:90])

# Beispiel 2:
ergebnis = re.findall(r"\S", text)
print("Bsp 2:", ergebnis[:10]) # Alles außer Whitespace Character

### Wortgrenzen: `\b` 
Identifiziert die sogenannten Leer-Strings am Anfang und Ende eines Wortes. Ein Wort wird dabei definiert als Sequenz von alphanumerischen Buchstaben oder Unterstrichen, Wortanfang und Wortende werden durch Whitespace Characters oder nicht-alphanumerische Stringteile markiert. Die Identifikation eignet sich z.B. hervorragend für die Tokenisierung von Fließtexten. `\B` findet alle Komplemente zu den Leer-Strings.

In [None]:
# Beispiel 1:
# Alle Strings mit drei Buchstaben zwischen Wortgrenzen (= Alle Wörter mit 3 Buchstaben)
ergebnis = re.findall(r"\b\w\w\w\b", text)
print("Bsp 1:",ergebnis[:10])

# Beispiel 2:
# Alle Strings mit einem Nicht-Buchstaben zwischen zwei Nicht-Wortgrenzen
# (= Alle Sonderzeichen, die nicht direkt an ein Wort angrenzen, z.B. " - " oder ".\n\n".)
ergebnis = re.findall(r"\B\W\B", text)
print("Bsp 2:",ergebnis[:10])

# Beispiel 3:
# Alle Strings mit beliebig vielen Buchstaben zwischen zwei Wortgrenzen (= Alle Wörter).
ergebnis = re.findall(r"\b\w+\b", text)
print("Bsp 3:",ergebnis[:10])

---
### Stringanfang: `^`
Identifiziert den Leerstring vor dem ersten Character eines Strings.

In [None]:
# Beispiel 1:
ergebnis = re.findall(r"^", "ein Text ist ein Text.")
print("Bsp 1:", ergebnis)

# Merke:
ergebnis = re.search(r"^", "ein Text ist ein Text.")
print("Bsp 1:", ergebnis) # Der Stringanfang belegt die nullte Position im String

# Beispiel 2:
ergebnis = re.findall(r"^...", "ein Text ist ein Text.")
print("Bsp 2:", ergebnis) #String-Anfang und die ersten drei Buchstaben

# Beispiel 3a:
ergebnis = re.findall(r"^ein", "ein Text ist ein Text.")
print("Bsp 3a:", ergebnis) #ein nur zu Anfang

# Beispiel 3b:
ergebnis = re.findall(r"ein", "ein Text ist ein Text.")
print("Bsp 3b:", ergebnis)

### Stringende:  `$`
Identifiziert den Leerstring nach dem letzten Character eines Strings.

In [None]:
# Beispiel 1:
ergebnis = re.findall(r"$", "ein Text ist ein Text.")
print("Bsp 1:", ergebnis)

# Merke:
ergebnis = re.search(r"$", "ein Text ist ein Text.")
print("Bsp 1:", ergebnis) # Der Stringanfang belegt die letzte Position im String

# Beispiel 2:
ergebnis = re.findall(r".....$", "ein Text ist ein Text.")
print("Bsp 2:", ergebnis) #String-Ende und die letzten fünf Buchstaben

# Beispiel 3a:
ergebnis = re.findall(r"Text.?$", "ein Text ist ein Text.")
print("Bsp 3a:", ergebnis) #'Text' nur zum Schluss

# Beispiel 3b:
ergebnis = re.findall(r"Text.?", "ein Text ist ein Text.")
print("Bsp 3b:", ergebnis)

---
### Suche nach Metazeichen
Wollen Sie nach einem der Metazeichen der Syntax regulärer Ausdrücke suchen (z.B. `|`, `$`, `+`, `*` oder `.`), dann gibt es zwei Möglichkeiten, diesen Sonderzeichen ihre spezielle Bedeutung zu nehmen, die sie innerhalb eines Regulären Ausdrucks tragen:
- Die Verwendung von eckigen Klammern (z.B. `[|]`, `[.]`, `[+]`, ...)
- Die Verwendung des Backslashs (z.B. `\|`, `\.`, `\+`, ...)


In [None]:
# Beispiel 1: Punkt als Metazeichen
ergebnis = re.findall(r".", "Hallo.")
print("Bsp 1:", ergebnis)

# Beispiel 2: Punkt als Literal innerhalb einer gesuchten Zeichenmenge (durch die Angabe als Zeichen innerhalb einer Zeichenmenge ist der Punkt hier kein Metazeichen mehr)
ergebnis = re.findall(r"[.]", "Hallo.")
print("Bsp 2:", ergebnis)

# Beispiel 3: Punkt als Literal mit Backslash als Metazeichen (Escape-Character, bildet'escape sequence')
ergebnis = re.findall(r"\.", "Hallo.")
print("Bsp 3:", ergebnis)

---
### Stringalternativen: `string1|string2|...`
Ermöglicht die Suche nach alternativen Strings.

In [None]:
# Beispiel:
ergebnis = re.findall(r"paradies|senkungen|flucht|satz", "Steuersenkungen Steuerflucht")
print("Bsp 1:", ergebnis)

---
## Wiederholungen mit Quantifizierungsoperatoren

### Optionalität des vorangegangenen Ausdruckes: `?` 
Deklariert den unmittelbar vorausgegangenen Ausdruck als optional. Beachten Sie, dass die Funktion von `?` hier im Gegensatz zur Verwendung vor einem Operator `+` und `*` abweicht.

In [None]:
# Beispiel 1:
ergebnis = re.findall(r" s?ein ",text)
print("Bsp 1:", ergebnis) #'s' ist in diesem Fall opitonal

### Wiederholungen des vorangegangenen Ausdrucks mit exakt festgelegter Anzahl: `{n}` 
Findet den vorangegangenen Ausdruck n-Mal.

In [None]:
# Beispiel 1:
ergebnis = re.findall(r"wol{2}en", "wollen , wolen , wollllllen , woen , wohnen")
print("Bsp 1:", ergebnis)

# Beispiel 2:
ergebnis = re.findall(r"wol{1}en", "wollen , wolen , wollllllen , woen , wohnen")
print("Bsp 2:", ergebnis)

# Beispiel 3:
ergebnis = re.findall(r"sol{2}", text)
print("Bsp 3:", ergebnis)

### Wiederholungen des vorangegangenen Ausdrucks mit flexibler Anzahl: `{n,m}` 
Findet den vorangegangenen Ausdruck n bis m-Mal.

In [None]:
# Beispiel 1:
ergebnis = re.findall(r"wol{0,2}en", "wollen , wolen , wollllllen , woen , wohnen")
print("Bsp 1:", ergebnis)

# Beispiel 2:
ergebnis = re.findall(r"wol{2,8}en", "wollen , wolen , wollllllen , woen , wohnen")
print("Bsp 2:", ergebnis)

# Beispiel 3:
ergebnis = re.findall(r"\b\w{12,14}\b", text)
print("Bsp 3:", ergebnis)  # Findet alle Wörter mit 12 bis 14 Buchstaben

### Wiederholung des vorangegangenen Ausdruckes (0 bis unendlich): `*` 
Der `*` bewirkt, dass der vorangegangene Ausdruck beliebig oft (auch 0 Mal) gefunden wird. Der Operator ist standardmäßig *greedy* und versucht auf so große Textstücke zu passen wie möglich. Soll die *Greedyness* abgeschalten werden, und nur so wenig Text gefunden werden wie möglich, so muss hinter den Operator ein `?` geschrieben werden, also `*?`.

In [None]:
#Beispielsatz:
satz = "Hier drin wollen wir mit Wiederholung suchen."

# Beispiel 1:
ergebnis = re.findall(r"Hier .* ", satz) # Der Fall mit Greedy
print("Bsp 1:", ergebnis)

# Beispiel 2:
ergebnis = re.findall(r"Hier .*? ", satz) # Der Fall ohne Greedy
print("Bsp 2:", ergebnis)

# Beispiel 3:
ergebnis = re.findall(r"wol.*?en", "wollen , wolen , wollllllen , woen , wohnen")
print("Bsp 3:", ergebnis) # Liefert mit greedy den kompletten String

### Wiederholung des vorangegangenen Ausdruckes (1 bis unendlich): `+` 
Der `+` bewirkt, dass der vorangegangene Ausdruck beliebig oft (aber mindestens 1 Mal) gefunden wird. Der Operator ist standardmäßig *greedy* und versucht auf so große Textstücke zu passen wie möglich. Soll die *Greedyness* abgeschalten werden, und nur so wenig Text gefunden werden wie möglich, so muss hinter den Operator ein `?` geschrieben werden, also `+?`.

In [None]:
# Beispiel 1:
ergebnis = re.findall(r"wol+en", "wollen , wolen , wollllllen , woen , wohnen")
print("Bsp 1:", ergebnis) # Findet 1 bis unendlich viele 'l' zwischen 'wo' und 'en'

# Beispiel 2:
ergebnis = re.findall(r"wol+", "wollllllen")
print("Bsp 2:", ergebnis) # Findet die maximale Anzahl an 'l' nach 'wol' (greedy)

# Beispiel 3:
ergebnis = re.findall(r"wol+?", "wollllllen")
print("Bsp 3:", ergebnis) # Findet die minimale Anzahl an 'l' nach 'wol' (not greedy)

# Beispiel 4:
ergebnis = re.findall(r"\b\w+\b", text)
print("Bsp 4:", ergebnis[:10]) # Findet alle alphanumerischen Kombinationen zwischen Wortgrenzen (= alle Tokens).

---
## Gruppierung

Sie haben auch die Möglichkeit, nach Gruppen von Strings zu suchen, und diese im Anschluss neu anzuordnen. Diese Möglichkeit benötigen Sie im Rahmen der Textsuche seltener, öfter jedoch bei der Verarbeitung von Datensätzen. Gruppen werden innerhalb des regulären Ausdrucks mithilfe von runden Klammern gebildet:

`r"(Gruppe1)(Gruppe2)(Gruppe3)..."`

Sie können beliebig viele Gruppen bilden. Ansteuern lassen sich die Gruppen bei Verwendung von `re.findall` im Anschluss wie die einzelnen Elemente einer Liste. (bei `re.search` über `.group(1)` usw.)

In [None]:
# Beispiel Gruppierung mit Stringalternativen:
ergebnis = re.findall(r"(Steuer)(paradies|senkungen|flucht|satz)", "Steuersenkungen Steuerflucht")
print("Bsp 1:", ergebnis)
#Findet alle Komposita aus Steuer + die vier angegebenen Alternativen

#Beispiel mit re.search:
ergebnis = re.search(r"(Steuer)(paradies|senkungen|flucht|satz)", "Steuersenkungen Steuerflucht")
print("Bsp 2:", ergebnis.group(1), ergebnis.group(2))

Das Ergebnis dieser Suchabfrage ist eine Liste mit mit Tupelen: Die äußere Ebene liefert das jeweilige Muster, das innere Tupel die gefundenen Konstituenten:

In [None]:
ergebnis = re.findall(r"(Steuer)(paradies|senkungen|flucht|satz)", "Steuersenkungen Steuerflucht")
for match in ergebnis:
    print(match[0], match[1])

---
Im folgenden Skriptbeispiel werden die Prozentwerte aus dem `sz_artikel.txt` automatisch extrahiert, und im Anschluss in anderer Formatierung ausgegeben:

In [None]:
# Skriptbeispiel: Verarbeitung der Prozentwerte

#Importierte Module
import re

#Auslesen der Datei und Speicherung in die Variable text:
pointer = open("sz_artikel.txt", "r", encoding="utf8")
text = pointer.read()
pointer.close()

#Bilden von 3 Gruppen: (Prozentwert mit optionaler Komma-Stelle)(Leerzeichen)(Wort 'Prozent')
ergebnis = re.findall(r"(\d\d.?\d?\d?)( )(Prozent)", text)
print(ergebnis)

#Ansteuern der einzelnen Werte:
for match in ergebnis:
    print("Original:\t{}{}{}".format(match[0],match[1],match[2]))
    print("Umformatiert:\t{}wert = '{}'".format(match[2],match[0]))
    print("\n")

---
## Ersetzungen mit regulären Ausdrücken

Sie können RE auch zum Ersetzen von Strings einsetzen, die Funktion ähnelt der Stringmethode `.replace()`:

`re.sub(Alt(RE), Neu, String, Anzahl)`

Haben Sie mithilfe der RE Gruppen gebildet, so lassen sich diese im Ersetzungsstring durch Backslash und die inkrementell vergebene Gruppennummer ansprechen, z.B. `\1`. Die Gruppennummern werden dabei der Reihe nach vergeben, beginnend bei 1. Um die Platzhalter anzusprechen, muss der Ersetzungsstring ebenfalls als im raw-string-mode (`r'..'`) geschrieben werden. Im Folgenden sehen Sie die Ersetzungsfunktion bei der Bearbeitung von strukturierten Textdaten:

In [None]:
test_1 = "Das hier ist Code. #Und das hier ein Kommentar"

#Entfernung von Kommentaren:
ergebnis_1a = re.sub(r"#.*$", r"", test_1)
print("ergebnis_1a: ", ergebnis_1a)

#Ersetzung von Stringalternativen:
ergebnis_1b = re.sub(r"Code|Kommentar", r"___", test_1)
print("ergebnis_1d: ", ergebnis_1b)


#Vertauschung von Gruppen:
ergebnis_1c = re.sub(r"(\w+) (\w+)$", r"\2 \1", "das ist Max Mustermann")
print("ergebnis_1c: ", ergebnis_1c)



In [None]:
#Bearbeiten von HTML-Dokumenten:
test_2 = "<p><span class='main' style ='font-size: 16px'>Das hier ist **ein Text** mit <i>HTML-Tags</i>.</span></p>"

#Entfernung der HTML-Tags:
ergebnis_2 = re.sub(r"<.*?>", r"", test_2)
print("ergebnis_2: ", ergebnis_2)

#Entfernung des Textes aus der HTML:
ergebnis_3 = re.sub(r"(>)[. \w-]+?(<)", r"\1\2", test_2)
print("ergebnis_3: ", ergebnis_3)

#Umwandlung einer class in eine id mit Gruppenersetzung:
ergebnis_4 = re.sub(r"class=('.+?')", r"id=\1", test_2) #Aufgreifen der Gruppe (hier: 'main') durch den Platzhalter \1
print("ergebnis_4: ", ergebnis_4)

---
## Split anhand regulärer Ausdrücke

RE kann auch zum Auftrennen von Strings benutzt werden, die Funktion ähnelt der Stringmethode `.split()`:

`re.split(Alt(RE), String, Anzahl)`

Wenn Gruppierungen im RE eingesetzt werden, werden diese zusammen mit den getrennten Teilen ausgegeben. Passt das angegebene Muster auf keinen Teil im Eingabestring, liefert `.split()` selbigen innerhalb einer Liste zurück.

In [None]:
# Auftrennen eines Strings anhand von Folgen von Nicht-Wort-Zeichen:
test_1 = "Ja, das \t  Wetter ;: ist *+ schön, \n finde ich"
ergebnis_1 = re.split('\W+', test_1)

print(ergebnis_1)

#Segementierung eines HTML Dokuments anhand des div-Tags:
test_2 = "<div><h4>Erster Absatz:<span>mit Untertitel</span></h4></div><div><h4>Zweiter Absatz:<span>zweitrangiges hier</span></h4></div>"
ergebnis_2 = re.split(r"</?div>", test_2)

print(ergebnis_2)

#Segementierung eines Strings anhand 3 stelliger Nummern mit Ausgabe der Trennungsmuster:

test_3 = "100 Woerter sind 200 mal so viel Arbeit"
ergebnis_3 = re.split(r"(\d{3})", test_3)
print(ergebnis_3)
