## Programmieren mit Python

# Strings bearbeiten mit regulären Ausdrücken

### Reguläre Ausdrücke

* Minisprache zur Beschreibung von Klassen von Zeichenketten
* Typische Anwendungen: Suchen, Ersetzen, Aufteilen, Umstellen von Zeichenketten, Extrahieren von Informationen aus Zeichenketten
* Beispiel: Literaturangaben in der Digitalen Bibliothek:

> Achim von Arnim: Sämmtliche Werke. Band 16, Berlin 1846

* reguläre Ausdrücke werden (mit leichten Abweichungen) von allen modernen Programmiersprachen und von allen halbwegs leistungsfähigen Texteditoren unterstützt

<h3>Einfache Anfänge</h3>

In [1]:
import re  # Modul für Reguläre Ausdrücke
s = 'Achim von Arnim: Sämmtliche Werke. Band 16, Berlin 1846'
print(s)

Achim von Arnim: Sämmtliche Werke. Band 16, Berlin 1846


In [2]:
print(re.findall("im", s))

['im', 'im']


### Begrifflichkeiten

* Ein Regulärer Ausdruck heißt auch **Pattern**
* ein Pattern **matcht** auf einen String (oder eben auch nicht).
* `re.findall(pattern, string)` findet alle Teilstrings von `string`, auf die `pattern` matcht.

### Ausprobieren

* https://regex101.com/#python

### Einfache reguläre Ausdrücke

* »normale« Zeichen (= keine Metazeichen) matchen sich selbst. `a` matcht `a`.
    * __Metazeichen__ sind `. ^ $ * + ? { } [ ] \ | ( )`, sie können gematcht werden, indem man einen `\` voranstellt 
* Ein Punkt `.` matcht ein beliebiges Zeichen (außer Newline). `.` matcht `a` oder `b` oder …    
* Zusammensetzen = Hintereinanderschreiben.
    * `abc` matcht "abc"
    * `H. h. h.` matcht z.B. "Ha ha ha" oder "Ho ho ho" oder "He ha hi"

### Zeichenklassen

* `[abc]` matcht ein Zeichen, das `a` oder `b` oder `c` ist.
* `[A-Fa-f]` matcht einen der Groß- oder Kleinbuchstaben von A bis F
* `^` am Beginn einer Zeichenklasse invertiert die Klasse:
   * `[^0-9]` matcht jedes Zeichen, das _keine_ Ziffer von 0-9 ist
* In Zeichenklassen gelten Metazeichen nicht: `[.]` matcht ebenso wie `\.` einen Punkt

#### häufige Zeichenklassen

-   `.` jedes Zeichen außer neue Zeile (`\n`)
-   `\d` jede Ziffer, z.B. 1, 4, 0 <br/>
    `\D` jedes Zeichen, das **keine** Ziffer ist.
-   `\s` jedes whitespace-Zeichen, z.B. Leerzeichen, `\n`, `\t`
    `\S` jedes Zeichen, das **kein** whitespace ist.<br/>
-   `\w` »Identifier-Zeichen«, also Buchstaben, z.B. A g ö ß 4 é € α И, Ziffern, Unterstrich `_` <br/>
    `\W` jedes Zeichen, das **kein** Identifier-Zeichen ist.

Die Definitionen beziehen sich auf die Unicode-Zeicheneigenschaften. Wer Zugriff auf die kompletten Unicode-Properties will, muss das externe Modul _regex_ installieren.

#### Raw Strings
* Um ein `\` zu matchen, benötigen Sie die RE `\\`, in einem Python-String `"\\\\"` ...
* in einem _raw string_ hat ``\`` keine Sonderbedeutung
* Syntax `r"…"` bzw. `r'…'`

In [3]:
print(r"C:\Windows", "Bla\nBlubb", r"Bla\nBlubb",)

C:\Windows Bla
Blubb Bla\nBlubb


### Wiederholungen
* `*` matcht auf **0 oder mehr** Wiederholungen des vorherigen Zeichens/Teilausdrucks
* `+` matcht auf **1 oder mehr** Wiederholungen des vorherigen Zeichens/Teilausdrucks
* `?` matcht auf **0 oder 1** Wiederholungen des vorherigen Zeichens/Teilausdrucks
* `{n,m}` matcht auf **n bis m** Wiederholungen des vorherigen Zeichens/Teilausdrucks 
    
    * `{n}` exakt n Wiederholungen, `{n,}` mindestens n, `{,m}` höchstens m

In [4]:
s = "Ha HaHa Haahaa Hai Hi Ho"
print("*", re.findall("H[ai]*", s))
print("+", re.findall("H[ai]+", s))
print("?", re.findall("H[ai]?", s))
print("{2,3}", re.findall("H[ai]{2,3}", s))

* ['Ha', 'Ha', 'Ha', 'Haa', 'Hai', 'Hi', 'H']
+ ['Ha', 'Ha', 'Ha', 'Haa', 'Hai', 'Hi']
? ['Ha', 'Ha', 'Ha', 'Ha', 'Ha', 'Hi', 'H']
{2,3} ['Haa', 'Hai']


### Aufgaben

`s = 'Achim von Arnim: Sämmtliche Werke. Band 16, Berlin 1846'`

1. Finden Sie alle (arabischen) Zahlen.
2. Finden Sie alle Zahlen, die mehr als 3 Ziffern haben

<h3>Musterlösung</h3>

In [5]:
s = 'Achim von Arnim: Sämmtliche Werke. Band 16, Berlin 1846'

(1) Finden Sie alle (arabischen) Zahlen.

In [6]:
re.findall(r'\d+', s)

['16', '1846']

(2) Suchen Sie Zahlen, die mehr als 3 Ziffern haben

In [7]:
re.findall(r'\d{3,}', s)

['1846']

### Positionen / Anker
… matchen nicht _auf_, sondern _vor/nach/zwischen_ Zeichen

* `^` matcht den Anfang eines Strings
* `$` matcht das Ende eines Strings
* `\b` matcht eine _Word Boundary_, d.h. den leeren String, aber nur am Anfang oder Ende eines Worts
* `\B` matcht den leeren String, aber nur im Inneren eines Worts


In [8]:
s = "hallo welt! wie geht es dir?"
re.findall(r"^\w+", s)

['hallo']

In [9]:
re.findall(r"\bfoo\b", "foo. (foo) foobar")

['foo', 'foo']

### Übung

`s = 'Achim von Arnim: Sämmtliche Werke. Band 16, Berlin 1846'`

Finden Sie Zahlen am Ende des Strings.

### Reguläre Ausdrücke in Python anwenden

* Modul `re`
* Leistungsfähigeres Modul `regex`, muss ggf. nachinstalliert werden: `pip install regex` an der Kommandozeile
   * Unterstützt z.B. Unicode-Zeichenklassen: `\p{L}` = Buchstaben in allen Schriftsystemen

In [10]:
import re
text = 'Achim von Arnim: Sämmtliche Werke. Band 16, Berlin 1846'

# Alle Treffer:
print(re.findall('\w+', text))

['Achim', 'von', 'Arnim', 'Sämmtliche', 'Werke', 'Band', '16', 'Berlin', '1846']


In [11]:
# Ersetzen:

print(re.sub('\d+', 'XXX', s))

hallo welt! wie geht es dir?


In [12]:
# Treffer ab Anfang, mehr Info:
print(re.match(r'\w+', s))
print(re.match(r'\d+', s))

<re.Match object; span=(0, 5), match='hallo'>
None


In [13]:
# Treffer irgendwo, mehr Info:
print(re.search(r'\d+', s))

None


In [14]:
# Alle Treffer, mehr Info:
for match in re.finditer(r'\d+', s):
    print(match)

### Gruppierungen

* Runde Klammern um einen Teilausdruck bilden eine **Gruppe**.
* Quantoren gelten für die ganze Gruppe → `(bla)+` matcht `blablabla`
* Gruppen können separat referenziert werden
* findall mit Gruppen liefert Liste mit Tupeln

In [15]:
s = "Sehr geehrte Frau Mustermann,"
m = re.match("Sehr geehrter? (.*),", s)
m.groups()

('Frau Mustermann',)

N.B.:
* `('Frau Mustermann',)` ist ein __Tupel__. 
* Tupel (Datentyp `tuple`) sind Listen ähnlich, aber unveränderlich
* Das Literal verwendet runde Klammern statt eckiger, mindestens ein Komma muss vorhanden sein

Gruppen können mit `\1`, `\2`, ... auch innerhalb des Ausdrucks oder in einem Ersetzungsstring bei `re.sub` referenziert werden:


In [16]:
expr = "n = n + 1; test = test + n; n = test + 1"
simplified = re.sub(r"(\w+) = \1 \+ (\w+)",   # diese RE bildet zwei Gruppen, die in der RE (\1) …
                    r"\1 += \2",              # und im 'ersetzen'-String (\1, \2) referenziert werden
                    expr)
print(simplified)

n += 1; test += n; n = test + 1


### Aufgabe

Datumsangaben erfolgen in der IT-Welt oft normalisiert nach ISO 8601 in der Form JJJJ-MM-TT. Schreiben Sie ein kleines Skript, das die Datumsangaben hier umformt:

* `31.01.1900`
* `07.10.2016`

### findall mit Gruppen

Stehen in dem Pattern von `re.findall` Gruppen, so ist das Ergebnis eine Liste von Tupeln der Gruppen:

In [17]:
text = 'Von "Maria Musterfrau" <musterfrau@example.com> an "Arndt Alliteration" <ali@dichtkunst.de>'
addresses = re.findall(r'"([^"]+)"\s*<([^>]+)>', text)

for person in addresses:
    print("Name: ", person[0], "\tAdresse: ", person[1])

Name:  Maria Musterfrau 	Adresse:  musterfrau@example.com
Name:  Arndt Alliteration 	Adresse:  ali@dichtkunst.de


<h3>Greedy vs. Non-Greedy</h3>
<p>Voreinstellung: greedy, d.h. das die größtmögliche Zeichenkette gesucht wird, die zum regulären Ausdruck passt.</p>
<p>Durch ? nach dem Quantifier Umstellung auf non-greedy</p>

Welches Ergebnis hat `re.findall("b.*t", "She booted the robot.")`?

In [18]:
re.findall("b.*t", "She booted the robot.")

['booted the robot']

In [19]:
re.findall("b.*?t", "She booted the robot.")

['boot', 'bot']

### Oder

Mit `|` können Sie nach Alternativen suchen:

In [20]:
for match in re.finditer(r"(Hai|Krokodil|Piranha)\w*", "Bond sollte schon durch Haibiss, Piranhas und Krokodile sterben."):
    print("Todesursache:", match.group(0))

Todesursache: Haibiss
Todesursache: Piranhas
Todesursache: Krokodile


### Reguläre Ausdrücke anwenden (2)
![Übersicht über das re-Modul](img/re-uebersicht.svg)

* `re.compile` kompiliert einen regulären Ausdruck zu einem Objekt. Wenn Sie einen regulären Ausdruck oft benötigen (z.B. in einer Schleife), verwenden Sie diese Funktion (außerhalb der Schleife) und arbeiten mit dem Objekt, das sie zurückgibt: das ist schneller.
* _Match-Objekte_ beschreiben einen Treffer in einem String genauer: Sie liefern z.B. Zugriff auf die einzelnen Gruppen und auf die genaue Stelle im Suchstring, an der der Ausdruck gematcht hat.
* Die Funktionen/Methoden `match` und `search` liefern jeweils ein Match-Objekt: `match` matcht nur am _Beginn_ des Suchstrings, `search` findet den ersten Treffer (ggf. ab einem bestimmten Offset, lesen Sie dazu die Dokumentation zu den Funktionen). `finditer` liefert einen Iterator über alle Treffer, jeder Treffer wird als Matchobjekt zurückgegeben. Sie können darüber in einer `for`-Schleife iterieren:

In [21]:
for match in re.finditer("\d+", "Lesen Sie die Kapitel 3 und die Seiten 55-60"):
    print("An Position {} steht die Zahl {}.".format(match.start(), match.group(0)))

An Position 22 steht die Zahl 3.
An Position 39 steht die Zahl 55.
An Position 42 steht die Zahl 60.


* `split` spaltet einen String an einem gegebenen regulären Ausdruck auf, liefert also quasi das Komplement zu `findall`:

In [22]:
re.split(r'[,.;:!?]+\s*', 'Hier: Nimm ein paar Sätze! Zerlegst du sie mir?')

['Hier', 'Nimm ein paar Sätze', 'Zerlegst du sie mir', '']

* mit `escape` können Sie alle potentiellen Metazeichen in einem String escapen:

In [23]:
print(re.escape("Sonne O))), Mond [und] Sterne***"))

Sonne\ O\)\)\),\ Mond\ \[und\]\ Sterne\*\*\*
