# Regex in Python

**Inhalt:** Text nach bestimmten Mustern durchsuchen

**Nötige Skills:** Erste Schritte mit Pandas

**Lernziele:**
- Syntax für Regular Expressions kennenlernen
- Anwendungsmöglichkeiten für Regex

**Ressourcen:**
- Offizielle Dokumentation: https://docs.python.org/3/library/re.html
- Ein Online-Regex-Tester: https://pythex.org/
- Ein weiterer Online-Texter: https://regex101.com/
- Ein Cheat-Sheet: https://www.dataquest.io/blog/large_files/python-regular-expressions-cheat-sheet.pdf
- Ein weiteres Cheat-Sheet: https://www.shortcutfoo.com/app/dojos/python-regex/cheatsheet
- Ein Online Traningskurs: https://www.shortcutfoo.com/app/dojos/python-regex/learn

## Worum es geht

Regular Expressions sind eine super-sophistizierte Form von Such-Wildcards. Wir kennen solche Wildcards aus zB aus Windows-Explorer-Suche: Man benutzt Spezialcharaktere wie Sternchen `(*)` um der Suchmaschine anzuzeigen: Hier könnten verschiedene Buchstaben stehen. Regular Expressions dienen also zur Durchsuchung von Texten nach bestimmten, vordefinierten Mustern. Wir können Regex im Datenjournalismus brauchen, um zB Texte nach Emails oder Postleitzahlen zu durchsuchen, oder um Daten zu säubern und zu formatieren.

Was für Muster gibt es? Wie komplex kann die Suche werden? Wir testen dies gleich selbst aus.
- Diese Seite hier öffnen: https://regex101.com/ (in einem neuen Fenster)
- Dieses Cheat-Sheet hier öffnen: https://www.shortcutfoo.com/app/dojos/python-regex/cheatsheet
- Den untenstehenden Text in die Zwischenablage kopieren:

In [None]:
text = '''
D'w. Nuss vo Bümpliz geit dür d'Strass
liecht u flüchtig, wie nes Gas
so unerreichbar höch

Bockstössigi Himbeerbuebe
schüüch u brav wie Schaf
schön föhnfrisiert
chöme tubetänzig nöch

U d'Spargle wachse i bluetjung Morge
d'Sunne chunnt 's wird langsam warm

Sie het meh als hundert ching
u jede Früehlig git 's es nöis
het d'Chiuchefänschterouge off
u macht se zue bi jedem Kuss
u we sie lachet wärde Bärge zu schtoub
u jedes zäihe Läderhärz wird weich

D'w. Nuss vo Bümpliz
isch schön win es Füür i dr Nacht
win e Rose im Schnee
we se gseh duss in Bümpliz
de schlat mir mis Härz hert i Hals
u i gseh win i ungergah

Si wohnt im ne Huus us Glas
hinger Türe ohni Schloss
gseht dür jedi Muur
dänkt wi nes Füürwärch
win e Zuckerstock
läbt win e Wasserfau
für si git's nüt, wo's nid git
u aus wo's git, git's nid für ging
si nimmt's wi's chunnt u lat's la gah

D'w. Nuss vo Bümpliz
isch schön win es Füür i dr Nacht
win e Rose im Schnee
we se gseh duss in Bümpliz
de schlat mir mis Härz hert i Hals
u i gseh win i ungergah
'''

## Regular Expressions in Python

Regex sind in den meisten Programmiersprachen ähnlich aufgebaut. Die Python-Library dazu heisst `re`

In [None]:
import re

## Funktionen

In dieser Bibliothek gibt es fünf Funktionen, die wir benutzen können. Grundsätzlich geht es immer darum: anhand von einer Regex und einem String sollen ein oder mehrere Treffer erzielt werden. Die Funktionen machen daraufhin unterschiedliche Dinge mit dem Ergebnis

**`match()`** und **`search()`**: Diese Funktionen sagen uns, ob *ein Treffer* erzielt wurde und an welchem Ort er sich befindet.

**`findall()`**: Diese Funktion erstellt eine Liste von allen Treffern.

**`split()`**: Splittet einen langen String in eine Liste von Substrings, und zwar an den Orten, wo ein Treffer erzielt wurde.

**`sub()`**: Dort, wo ein Treffer erzielt wurde, wir der Suchstring durch einen anderen Text erstetzt.

### Markierungszeichen

Um einen Regex-Suchausdruck zu benutzen, empfiehlt es sich, ein "r" vor den String zu stellen.

In [None]:
suchausdruck = r"n.ss"

### search()

Durchsucht den ganzen String, liefert das erste Ergebnis.

In [None]:
resultat = re.search(r"n.ss", text, re.IGNORECASE)

Das Ergebnis ist eine Art ja/nein-Antwort mit einigen Details

In [None]:
resultat 

Es handelt sich um ein so genanntes Match-Objekt: https://docs.python.org/3/library/re.html#match-objects

Dieses Objekt hat einige Eigenschaften, die wir abfragen können:

In [None]:
resultat.group() #Der gefundene String

In [None]:
resultat.start() #die Startposition des gefundenen Strings

In [None]:
resultat.end() #die Endposition des gefundenen Strings

Die Regex-Funktionen nehmen eine Reihe von so genannten **Flags** an:
- re.IGNORECASE = Gross-/Kleinschreibung ignorieren
- re.MULTILINE = `^` und `$` schlagen bei Zeilenumbrüchen an
- ... siehe auch: https://docs.python.org/3/library/re.html#module-contents

Zum Beispiel können wir so Zeilen suchen, die mit dem Wort "Bockstössigi" anfangen

In [None]:
re.search(r"^Bockstössigi", text, re.MULTILINE)

### match()

Durchsucht nur den *Anfang* des Strings. Am besten gleich wieder vergessen.

In [None]:
re.match("a", "abcdef") #gibt ein Ergebnis

In [None]:
re.match("b", "abcdef") #gibt kein Ergebnis

### findall()

Durchsucht den ganzen String, liefert eine Liste aller Treffer.

In [None]:
words = re.findall(r"\b[iu]\b", text, re.IGNORECASE) #Alle Wörter, die nur aus "i" oder "u" bestehen

In [None]:
words

Mit der Liste kann man alles machen, was man mit Listen halt so machen kann.

In [None]:
len(words)

### split()

Splittet den Text überall dort, wo es einen Treffer gab, liefert das Ergebnis als Liste. Der Treffer selbst wird herausgeschnitten.

In [None]:
newlist = re.split(r"\b[iu]\b", text) #Wir splitten überall, wo i- und u-Wörter stehen

In [None]:
for line in newlist:
    print(line)

### sub()

Ersetzt den Treffer durch einen anderen String.

In [None]:
neuer_text = re.sub(r"\bi\b", "çu", text) #Ersetzt alle i durch çu
neuer_text = re.sub(r"\bI\b", "çU", neuer_text) #Grossbuchstaben separat

neuer_text = re.sub(r"\bu\b", "i", neuer_text) #Ersetzt alle u durch i
neuer_text = re.sub(r"\bU\b", "I", neuer_text) #Grossbuchstaben separat

neuer_text = re.sub(r"\bçu\b", "u", neuer_text) #Ersetzt alle çu durch i
neuer_text = re.sub(r"\bçU\b", "U", neuer_text) #Grossbuchstaben separat

print(neuer_text)

Wir können `sub()` auch mit einer Funktion benutzen:

In [None]:
re.findall(r"\b\w*ü\w\b", text) # Zum Testen: Alle Wörter mit einem ü drin

In [None]:
def replace(match): # Diese Funktion wollen wir drauf anwenden (wir kriegen das Resultat als Match-Objekt geliefert)
    word = match.group() + " - oh, yeah! - "
    return word

In [None]:
neuer_text = re.sub(r"\b\w*ü\w\b", replace, text) #Hier rufen wir unsere replace-Funktion auf

In [None]:
print (neuer_text)

## Spezielles

### Capture-Klammern

Die Klammern dienen dazu, nur gewisse Teile einer Regex einzufangen:

In [None]:
re.findall(r"\b\w*ss\w*\b ", text) #Hier suchen wir zuerst mal nur alle Wörter, die zwei ss drin haben

In [None]:
re.findall(r"\b\w*ss\w*\b \w+", text) #Nun suchen wir alle Wörter, die zwei ss drin haben plus das nächste Wort

In [None]:
re.findall(r"\b\w*ss\w*\b (\w+)", text) #Jetzt wollen wir nur das nächste Wort einfangen

In [None]:
re.findall(r"(\b\w*ss\w*\b) (\w+)", text) #Jetzt fangen wir die beiden Wörter separat ein

### Lookahead / Lookbehind

Eine Sonder-Funktionalität: Zeichen, die gefolgt werden von anderen Zeichen (die Klammern sind nicht zu verwechseln mit den Capture-Klammern.

In [None]:
re.findall(r"w.(?= Nuss)", text) #Lookahead

In [None]:
re.findall(r"(?<=w. )Nuss", text) #Lookbehind

## Lexikon

Hier nochmals eine (nicht ganz abschliessende) Liste der Spezialzeichen.

| repetitions | what it does |
|--------|---------|
| `*` | match 0 or more repetitions |
| `+` | match 1 or more repetitions  |
| `?` | match 0 or 1 repetitions  |
| `{m}` | m specifies the number of repetitions  |
| `{m,n}` | m and n specifies a range of repetitions  |
| `{m,}` | m specifies the minimum number of repetitions  |

| Shortcut | what it does |
|--------|---------|
| `.` | Match any character except newline |
| `\w` | letters |
| `\W` | not letters |
| `\d` | numbers [0-9] |
| `\D` | not numbers |
| `\s` | whitespace characters: space, tab... |
| `\S` | not space |
| `\b` | Word boundary: spaces, commas, end of line |
| `\B` | Not a word-boundary |
| `^` | match the beginning of string |
| `$` | match the end of string, including `\n` |

| enclosures | what it does |
|--------|---------|
| `[]` | A defined **set** of characters to search for |
| `()` | A group of characters to search for, can be accessed in the results. |

| Examples of sets | what it does |
|--------|---------|
| `[aeiou]` | Find any vowel |
| `[Tt]` | Find a lowercase or uppercase t |
| `[0-9]` | Find any number (there is a shortcut for this) |
| `[^0-9]` | Find anything that's not number (there is a shortcut for this) |
| `[13579]` | Find any odd numer |
| `[A-Za-z]` | Find any letter (there is a shortcut for this too) |
| `[+.*]` | Find those actual characters (special characters are canceled in sets) |

| Lookahead/behind | what it does |
|--------|---------|
| `A(?=B)` | Find A if followed by B |
| `A(?!B)` | Find A if not followed by B |
| `(?<=B)A` | Find A if preceded by B |
| `(?<!B)A` | Find A if not preceded by B |
| `(A)\1` | Backreferencing content of group 1 |

# Übungen

Wir arbeiten nach wie vor mit dem Patent-Ochsner-Song in der Variable `text`.

Es gibt drei Schwierigkeitsgrade: easy, advanced, pro.

Manchmal müssen Sie regex-Ausdrücke verwenden, manchmal ganz einfach Python-Funktionen verwenden, zB für Listen.

Googeln ist erlaubt!!

## Easy

In [None]:
# Finde alle b's im Text (Liste erstellen)


In [None]:
# Finde alle Wörter, die mit b beginnen, unabhängig von Gross-/Kleinschreibung


In [None]:
# Finde alle Wörter, die ein b enthalten, unabhängig von Gross-/Kleinschreibung


In [None]:
# Erstelle eine Liste aller Zeilen im Text


In [None]:
# eine Liste aller Wörter, die mit Grossbuchstaben beginnen


In [None]:
# Eine Liste aller Wörter, die mehr als 8 Buchstaben haben


In [None]:
# Eine Liste aller Wörte, die einen Doppelvokal enthalten (z.B. "geit")


## Advanced

In [None]:
# Welches Wort kommt im Text öfter vor: "w. Nuss" oder "Bümpliz"?


In [None]:
# An welcher Position (Zeichen-Nr) steht das Wort "Zuckerstock"?


In [None]:
# Sortieren Sie die Liedzeilen nach der Länge der Zeile


In [None]:
# Welches ist die längste Liedzeile?


In [None]:
# Ersetzen Sie "v. Nuss" durch "Venus"


In [None]:
# Entfernen Sie alle Wörter, die weniger als 3 Buchstaben lang sind, aus dem Text


In [None]:
# Entfernen Sie alle Wörter, die weniger als 3 Buchstaben lang sind, sowie alle Sonderzeichen aus dem Text


In [None]:
# Entfernen Sie alle Wörter, die weniger als 4 Buchstaben lang sind, sowie alle Sonderzeichen aus dem Text
# Dann reduzieren Sie alle doppelten und dreifachen Leerschläge auf einen Leerschlag (die Strophen intakt lassen)
# Dann entfernen Sie alle Leerschläge am Anfang von Zeilen. (Achtung, hier braucht es flags=re.MULTILINE)


In [None]:
# Entfernen Sie den letzten Buchstaben aus jedem Wort


## Pro

In [None]:
# Konvertieren Sie alles zu Kleinbuchstaben
# Dann erstellen Sie eine Liste aller Wörter im Text
# Dann sortieren Sie die Liste alphabetisch - jedes Wort soll nur einmal vorkommen


In [None]:
# Wie viele unterschiedliche Wörter kommen im Text vor?


In [None]:
# Welcher Buchstabe steht am häufigsten vor einem "ä" (Gross/Kleinschreibung egal)?


In [None]:
# Liste aller Buchstaben, die nochmals vom selben Buchstaben gefolgt werden


In [None]:
# Ersetzen Sie sämtliche Doppelbuchstaben (zB "aa") durch einfache Buchstaben ("a)
# Achtung: Sie müssen eine separate (Lambda-)Funktion dafür schreiben



### Super-Pro 1

Wenn wir mehr als eine Gruppe bilden, können wir die einzelnen Gruppen mit `group(1)`, `group(2)` etc. abrufen.

In [None]:
match = re.search(r"(\w)(\w+)(\w)", text) #Findet ein Wort, das mindestens 4 Buchstaben hat, fängt 3 Gruppen ein

In [None]:
match.group() #Der ganze gematchte Inhalt

In [None]:
match.group(1) #Nur der Inhalt der ersten Unterruppe

In [None]:
match.group(3) #Nur der Inhalt der dritten Untergruppe

In [None]:
# Vertauschen Sie in sämtlichen Wörtern mit mindestens 3 Buchstaben den ersten und letzten Buchstaben
# Achtung: Sie müssen eine separate (Lambda-)Funktion dafür schreiben


### Super-Pro 2

In [None]:
# Wirbeln Sie die Wörter, die auf einer Zeile stehen, durcheinander. (Die Zeilen-Reihenfolge bleibt aber intakt)
# Bsp:
# w dür D Bümpliz d Nuss Strass vo geit
# flüchtig liecht u wie Gas nes
...

In [None]:
#Tipp 1: Hier ist eine Shuffle-Funktion
from random import shuffle
my_list = ["a", "b", "c", "d", "e"]
shuffle(my_list)
my_list

In [None]:
# Tipp 2: List comprehension (massiv) benutzen
[element.upper() for element in my_list]

In [None]:
# Tipp 3: .join() benutzen
" ".join(my_list)

In [None]:
#Braucht ca 3-5 Zeilen Code...
