# ⌛ Reguläre Ausdrücke

* Wir  müssen oft beurteilen, ob eine Zeichenkette (String) einem Muster entspricht, eine bestimmte Zeichenfolge oder eine bestimmte Anzahl von Zeichen enthält usw.
* Wie andere Programmiersprachen implementiert auch Python  einen allgemeinen Musterabgleichmechanismus, der flexibel und effizient ist: reguläre Ausdrücke.
* Wir müssen das Modul für reguläre Ausdrücke importieren.

```py
import re
```


## Funktion re.match

* Diese Funktion versucht,  einen regulären Ausdruck vom **Anfang** eines Strings her zu matchen.
* Die Funktion nimmt ein Muster (pattern) und einen String (string) als Argumente und gibt `None` zurück, falls der String nicht mit dem Muster anfängt, ansonsten gibt sie ein Match-Objekt zurück
* `re.match(pattern, string, flags=0)`


In [None]:
import re
words = [ "Kanzleramt" , "Wahlkampf", "Bundesseite", "Staatsministerin", "Bundesinnenministerium" ,"Präsidialamt", "Ministerpräsidentin"]
for w in words:
    print(f"\nword {w}")
    bresult= re.match(r'^Bundes', w)
    if bresult !=None:
        print(f"{w} beginnt mit 'Bundes' {bresult}")
    else:
        print(f"Suche nach Bundes: {bresult}")
    mresult= re.match(".*minister.*", w)
    if mresult!=None:
        print(f"{w} enthält 'minister' {mresult}")
    else:
        print(f"Suche nach minister: {mresult}")
    # die nachfolgende Alternative funktionert für Staatsministerin, aber nicht für Ministerpräsidentin
    # Q: Was müsste man tun, damit sie auch die Ministerpräsidentin matcht?
    if re.match(".*minister", w):
        print("Match für Binnen-minister")
    # die nachfolgende Alternative funktionert NICHT  für Staatsministerin und Ministerpräsidentin
    if re.match("minister", w):
       print("Match für initialen minister")
    else:
        print("Suche nach initialem minister: Nada")


## Funktion re.search

* Die Funktion re.search() sucht nach dem **ersten Vorkommen** eines Musters in einem beliebigen Teil eines Strings .
* Die Funktion gibt `None` zurück, falls der String nicht mit dem Muster übereinstimmt, ansonsten gibt sie ein Match-Objekt zurück
* `re.search(pattern, string, flags=0)`


In [None]:


words = [ "Kanzleramt" , "Wahlkampf", "Bundesseite", "Staatsministerin", "Bundesinnenministerium" ,"Präsidialamt", "Ministerpräsidentin", "Praesidentin", "Praesidium"]
for w in words:
    print(f"{w}")
    # simple Suche nach der Sequenz 'in' egal wo
    in_any= re.search("in", w)
    if in_any!=None:
        print(f"\t{w} enthält 'in' {in_any}")

    # Suche nach `in` am Ende des Strings: das Dollarzeichen $ steht für das Ende des Strings
    in_end= re.search("in$", w)
    if in_end!=None:
        print(f"\t{w} enthält 'in' am Ende {in_end}")

    # Muster das nach folgenden Formen sucht: präsid/Präsid/praesid oder Praesid 
    # In eckigen Klammern [] stehen Alternativen, d.h. wir akzeptieren praesid oder Praesid
    # In den runden Klammern stehen durch "|" getrennt alternative Sequenzen: wir können entweder Präsid oder Praesid haben.
    prez = re.search("[Pp]r(ä|ae)sid", w)
    if prez!=None:
        print(f"\t{w} enthält 'Präsid' {prez}")



## Funktion re.split

* Reguläre Ausdrücke können verwendet werden, um Zeichenketten zu teilen.
* `re.split(pattern, string, maxsplit=0, flags=0)


In [None]:

word="Ur-ur-ur-ur-oma"
print(re.split("(ur)", word.lower()))
re.split("(\-)",word.lower())
word="Ururururoma"

parts = re.split("(ur)", word.lower())
print(parts)
# Fortgeschritten: Entfernen der leeren Strings in einer sog. list comprehension
parts = [part for part in parts if part !='']
print(parts)

## Funktion re.sub

* Ersetzt alle Treffer eines Musters in einem String.
* Die Funktion `sub` hat folgende Argumente
* `re.sub(pattern, repl, string, count=0, flags=0)`
  * `repl` (= replaecment) kann ein String oder eine Funktion sein, die einen String als Argument erwartet und einen ersetzenden String zurückgibt.
  * `string` ist der Input-String, der verändert werden soll
  * `count` gibt an , wie oft die Ersetzung gemacht werden soll, wenn sie möglich ist. Der Wert 0 hat hier die Sonderinterpretaton, dass alle Instanzen von `pattern` durch `repl` ersetzt werden sollen. 


In [None]:
word="praesidieren"
# ae => ä
print(re.sub("ae", "ä",word ))
# prae => Prä
print(re.sub("prae", "Prä", word ))
word="Urururoma"
# wir ersetzen jede Sequenz ur oder Ur durch dieselbe Zeichenfolge und einen Bindestrich
# \\1 bedeutet das die erste in runden Klammern eingeschlossene Gruppe aus dem Muster wieder verwendet wird. Stichwort: capturing group.
print(re.sub("([Uu]r)", "\\1-", word ))
word="Bürger:innen"
# Umformatieren des Binnen-i
print(re.sub(":i", "I", word ))


## Funktion re.findall

* Sucht alle nicht überlappenden Treffer eines Musters in einem String und gibt sie als Liste zurück.
* Man kann mit dem Ergebnis also auch zählen.



In [None]:
words = ["SPD", "CSU", "Die Linke", "Bündnis 90/Die Grünen", "CDU", "ÖDP", "Volt","Bundesinnenministerium" ,"Präsidialamt", "Praeses"]
for w in words:
    vowel = re.findall("[äöüiouea]", w.lower())
    print(f"{w} enthält {len(vowel)} Vokale: {vowel}")
    conseq = re.findall("[qsdrtzpgkjdmnbcxl]{2,}", w.lower())
    print(f"{w} enthält {len(conseq)} Konsonantensequenzen: {conseq}")



## Funktion re.finditer

* Sucht alle nicht überlappenden Treffer eines Musters in einem String und gibt sie sukzessive zurück.
* Gibt Details der Treffer zurück.


In [None]:

words = ["SPD", "CSU", "Die Linke", "Bündnis 90/Die Grünen", "CDU", "ÖDP", "Volt","Bundesinnenministerium" ,"Präsidialamt", "Praeses"]
for w in words:
    for match in re.finditer("[qsdrtzpgkjdmnbcxl]{2,}", w.lower()):
        print(f"In {w} matchen wir {match.group()} von {match.start()} -  {match.end()}")


## Musterdefinition

* Einzelne Zeichen können direkt verwendet werden.
* Zeichensequenzen wie 'ober' oder 'erst' können verwendet werden.
* Wir können alternative Zeichenfolgen durch "|"  verwenden getrennt, um mehrere Alternativen zu akzeptieren.
* Das Symbol  '.' steht für ein beliebiges Zeichen.
* In eckigen Klammern [] stehen Alternativen.
* Das Symbol  '^' in eckigen Klammern zeigt Negation an. [^eiou] bedeutet, dass die genannten Vokale nicht vorkommen dürfen.
* Das Symbol  '+' nach einem Zeichen oder einer Zeichensequenz bedeutet, dass es mindestens ein Vorkommen dieser Zeichenfolge oder Zeichen geben muss.
* Das Symbol  '*' nach einem Zeichen oder einer Zeichensequenz bedeutet, dass es 0 oder mehr  Vorkommen dieser Zeichenfolge oder Zeichen geben muss.
* In geschweiften Klammern kann man angeben, wieviele Vorkommen einer Zeichenfolge oder Zeichen mindestens oder höchstens erlaubt sind.
* ^ und $ stehen für den String-Anfang und das String-Ende



In [None]:
import re
word="Oberbürgermeisterin"
# alle b's
print(re.findall("b",word))

# Alle Sequenzen , die mit e beginnen und i enden. greedy (gieriges) matching: wir bilden möglichst lange Sequenzen
print(re.findall("e.*i",word))

# Alle Sequenzen , die mit e beginnen und i enden. non-greedy matching: wir bilden möglichst kurze Sequenzen
print(re.findall("e.*?i",word))

# alle Sequenzen , die mit e beginnen und i enden , bei denen dazwischen keine weiteres e kommt.
print(re.findall("e[^e]*i",word) )

# Alle Sequenzen von mehr als 2 Konsonanten
print(re.findall("[wrtzpsdfgjklxcvbnm]{2,}", word))

# alle Spannen von 1 oder 2 Vorkommen von "ur"
word="Urururururururoma"
for match in re.finditer("(ur){1,2}",word.lower()):
    print(match)
# alle Spannen von 1 oder 2 Vorkommen von "ur", die nicht am Wortanfang sind (\B)
for match in re.finditer("\B(ur){1,2}",word.lower()):
    print(match)
word="B52s"

# match all sequences of letter chars
print(re.findall("[a-zäöüß]+", word.lower()))



## 🫵 Your turn

* Auf welche Weisen können Sie  testen, ob ein deutsches Wort mit einem Vokal (Monophthong oder Diphthong) endet?


In [None]:
# %load ./snippets/end_in_vowel.py


## 🫵 Your turn

*  Wir verwenden  die Datei `1091_0000265.txt`, die wir schon beim Wörterzählen oben benutzt hatten.
*  Die Aufgabe besteht darin, alle verschiedenen Sequenzen von zwei Wörtern (Bigrammen) zu ermitteln und  zu zählen, wie oft sie im Text vorkommen.
*  Wie könnten Sie dazu vorgehen? Können Sie eine der Methoden aus dem `re`-Modul verwenden?


In [None]:
# %load ./snippets/count_bigrams.py
# wir verwenden wieder die Text-Datei aus dem Merlin-Korpus
import re
path_to_file="./data/1091_0000265.txt"
# Die open-Funktion nimmt mehrere Argumente. Das wichtigste ist das erste, der Pfad zur Datei.
with open(path_to_file,"r", encoding='utf-8') as f:
    # mit der Methode readlines lesen wir den Datei-Inhalt in eine Liste von Zeilen.
    lines=f.readlines()
print(lines)

# NB: wir können die obigen Methoden aus re nicht direkt verwenden, weil sie keine überlappenden Treffer zulassen.
# Bei einer Sequenz "Ich mag Eis." wolten wir die Bigramme "Ich mag" , "mag Eis"  und "Eis ." finden und nicht  nur "Ich mag" und "Eis ."

records = {}
all_tokens = []

# Wir erstellen zunächste eine lange Liste von Tokens, in der die Tokens aller Sätze zusammengefügt sind.
for z in lines:
    # we remove the final newline character
    line = z.strip()
    # We separate punctuation marks from preceding alphabetic characters (letters)
    line = re.sub("([a-zA-Zäöü])([\.\!\?,])","\\1 \\2",line)
    # We split the text of the line into a list of tokens
    white_space_tokens = re.split("\s+",line)
    # We join the tokens of all sentences. This means we can get bigrams that cross sentence boundaries!
    all_tokens.extend(white_space_tokens)
ix=0

# Wir ermitteln nun die Bigramme und zählen.
#
# NB: die Einträge in einer Liste beginnen ab Index 0!
#
# ["Ich", "mag" , "Eis" , "." ] Länge 4
# [ 0, 1,2, 3]
# 
# Wir dürfen nicht bis zur letzten Index-Position (3) gehen und dann nach dem Token an Position 3+1 schauen: 
# es gibt nämlich keine Position 4 und wir würden einen Fehler bekommen.
# Der höchste Index ix , den wir besuchen dürfen , ist 2.
# Um das sicherzustellen, testen wir, dass  jeder Index, den wir besuchen,  **kleiner** ist als die Tokenanzahl - 1.
while ix < len(all_tokens)-1:
    bigram = all_tokens[ix]+"_"+all_tokens[ix+1]
    if bigram not in records:
        records[bigram]=0
    records[bigram]+=1
    ix+=1
print(records)


In [None]:
# wir speichern die bigramme zur benutzung in einem späteren notebook
import json
with open("./data/copy_of_bigram_records.json", "w") as f:
    json.dump(records, f)


## Alternative Implementierung mit fertigen Bausteinen

* Oben haben wir eine handgestrickte Implementation der Bigramm-Ermittlung gesehen.
* Soweit wie möglich möchten wir beim Programmieren gerne Code wiederverwenden, den es schon gibt und der gut getestet und optimiert ist.
* Unten ist ein Beispiel, wie wir mit einer Kombination aus der `bigrams`-Methode des Natural Language Toolkits (nltk) und einem `Counter` aus dem `collections`-Modul die Bigramm-Frequenzen ermitteln können.


In [None]:
# falls nötig , nltk installieren
!pip install  nltk
# als erstes nltk importieren
import nltk
# Download von Daten für das Satzsplitting (muss nur einmal laufen)
nltk.download('punkt')
nltk.download('punkt_tab')

In [None]:

# wir importieren Funktionen aus dem NLTK-Paket bzw seinen Unterpaketen
from nltk.tokenize import sent_tokenize, word_tokenize
from nltk.util import bigrams
from collections import Counter

with open("./data/tagesschau_polen.txt") as f:
    text = f.read()
# die Methode zum Sentence splitting braucht eine Angabe zur Sprache!
sentences = sent_tokenize(text, language='german')
    
# Wir besuchen der Reihe nach alle Sätze und teilen sie in Listen von Tokens auf.
# Die Tokenliste jedes Satzes fügen wir zu unserer globalen Tokenliste list_of_tokens hinzu. 
list_of_tokens = []
for sentence in sentences:
    tokens = word_tokenize(sentence, language='german')
    # während die append-Methode von Listen nur ein  Element  hinzufügen kann, fügt die extend-Methode einer Liste alle
    # Elemente einer anderen Liste hinzu
    list_of_tokens.extend(tokens)

c=Counter( bigrams(list_of_tokens))
print(c)

**Your turn**
* Wenden Sie den Ansatz mit nltk auf die Datei `./data/1091_0000265.txt` an, die wir  oben mit unserem eigenen Code verarbeitet hatten, an.
* Kommen die gleichen Bigramme dabei  heraus?    
  

# ✔️ Zusammenfassung reguläre Ausdrücke

* Strings bieten nur grundlegende Mustererkennung durch einfache Methoden (z.B. `startswith`, `endswith` )-
* Reguläre Ausdrücke (Regex) in Python sind Mustererkennungswerkzeuge, mit denen wir Text anhand flexibler Muster statt anhand exakter Zeichenfolgen durchsuchen können.
* Mit Regex können wir Text finden, der einem Muster entspricht, anstatt bestimmte Zeichen zu suchen.
* Beispielsweise können wir alle E-Mail-Adressen, Telefonnummern oder Datumsangaben in einem Dokument finden, ohne die genauen Werte zu kennen.

* Typische  Anwendungen
    * Datenvalidierung – Prüfen, ob Daten korrekt formatiert sind 
    * Textextraktion – Extraktion bestimmter Informationen aus Dokumenten  oder Metadaten.
    * Datenbereinigung – Entfernen von unerwünschten Zeichen oder Strings
    * Datenumfomatierung z.B. durch Aufspalten von Strings in Listen von Teilstrings (z.b. Sätzen )

```python
x="Martin ist am 08.03.2001 geboren"
date=re.sub("^(.*?)([0-9]{2,2}\.[0-9]{2,2}\.[0-9]{4,4})(.*)", "\\2",x)
print(date)
# '08.03.2001'
```
