# Übersicht re-Modul

## Import

In [1]:
# Import des re-Moduls über das import-statement
import re

Jetzt kann über den Paketnamen auf das Modul zugegriffen werden.

## Die wichtigsten Methoden im Modul

### Matching

Beim Matchen wird versucht zu überprüfen, ob ein Eingabestring dem Muster eines regulären Ausdrucks entspricht bzw. dieses enthält. Anders ausgedrückt, wird beim Matchen versucht, nur *ein* Vorkommnis eines Musters in der Eingabe zu finden. Zu diesem Zwecke gibt es im `re`-Modul 3 Methoden:

```python
re.search(pattern, string, flags=0)

re.match(pattern, string, flags=0)

re.fullmatch(pattern, string, flags=0)
```

Alle drei Methoden benötigen einen regulären Ausdruck `pattern`, einen Eingabestring `string` und können optional Flags akzeptieren. Sie unterscheiden sich dadurch, wo das Match im Eingabestring liegen muss:
- bei `search` kann das Match an einer beliebigen Stelle im Eingabestring liegen, und das erste Auftreten des Musters wird zurückgegeben
- bei `match` muss das Match am Anfang des Strings auftreten, der String kann aber danach noch andere Zeichen beinhalten 
- bei `fullmatch` muss der komplette String dem gegebenen Muster entsprechen

Falls die Methoden ein Match geben, wird dieses als *Match Object* zurückgegeben. Falls kein Match gefunden wurde, wird `None` zurückgegeben.

In [2]:
eingabestrings = [
    "----abc----",
    "abc----",
    "abc"
]

regex = r"abc"

print("Regex-Muster:", regex)

for eingabestring in eingabestrings:
    print("\nEingabestring: ", eingabestring)
    print("  re.search:   ", re.search(regex, eingabestring))
    print("  re.match:    ", re.match(regex, eingabestring))
    print("  re.fullmatch:", re.fullmatch(regex, eingabestring))


Regex-Muster: abc

Eingabestring:  ----abc----
  re.search:    <re.Match object; span=(4, 7), match='abc'>
  re.match:     None
  re.fullmatch: None

Eingabestring:  abc----
  re.search:    <re.Match object; span=(0, 3), match='abc'>
  re.match:     <re.Match object; span=(0, 3), match='abc'>
  re.fullmatch: None

Eingabestring:  abc
  re.search:    <re.Match object; span=(0, 3), match='abc'>
  re.match:     <re.Match object; span=(0, 3), match='abc'>
  re.fullmatch: <re.Match object; span=(0, 3), match='abc'>


Match-Objekte stellen einige nützliche Methoden und Attribute bereit:

```python
# mo = ein beliebiges Match-Objekt

# Zugriff auf das komplette Match
mo[0]
mo.group(0)

# Zugriff auf den ursprünglichen Eingabestring
mo.string

# Start- und Endindices des Matches im Eingabestring
mo.span()  # Start- und Endindex als Tupel
mo.start() # Startindex
mo.end()   # Endindex
```

### Suche

Die Suchmethoden können dazu benutzt werden, *alle* Vorkommnisse eines Regex-Musters in einem Eingabestring zu finden. Dafür gibt es zwei Methoden:

```python
re.findall(pattern, string, flags=0)

re.finditer(pattern, string, flags=0)
```

Diese Methoden nehmen, genau so wie die Match-Methoden, ein `pattern` und einen `string` und optional `flags`. In ihrer Funktion gleichen sie sich: beide geben alle sich nicht überlappende Vorkommnisse des gegebenen Musters im Eingabestring zurück. Sie unterscheiden sich aber durch die Art, wie die Vorkommnisse zurückgegeben werden:
- `findall` gibt alle Vorkommnisse als Liste von *Strings* zurück
- `finditer` liefert einen Iterator, der alle Vorkommnisse als *Match-Objekte* liefert

In der Praxis bedeutet das, dass `findall` die gematchten Strings direkt als Liste und ohne weiteren Kontext liefert. Falls Kontext (wie z. B. die Position des Matches) benötigt wird, muss `finditer` benutzt werden.

In [3]:
# wir wollen alle Wörter finden, die nur aus den Buchstaben A-Z und a-z bestehen

eingabestring = "Paula hat 10 Hunde und 1/2 Katze."

regex = r"[A-Za-z]+"

print("Liste von Strings mit findall():")

ergebnis_findall = re.findall(regex, eingabestring)
print(ergebnis_findall)

for match in ergebnis_findall:
    print("  ", match)

print("\nIterator über Match Objects mit finditer():")

ergebnis_finditer = re.finditer(regex, eingabestring)
print(ergebnis_finditer)

for match in ergebnis_finditer:
    print("  ", match)

Liste von Strings mit findall():
['Paula', 'hat', 'Hunde', 'und', 'Katze']
   Paula
   hat
   Hunde
   und
   Katze

Iterator über Match Objects mit finditer():
<callable_iterator object at 0x0588CB80>
   <re.Match object; span=(0, 5), match='Paula'>
   <re.Match object; span=(6, 9), match='hat'>
   <re.Match object; span=(13, 18), match='Hunde'>
   <re.Match object; span=(19, 22), match='und'>
   <re.Match object; span=(27, 32), match='Katze'>


Über die Ergebnisse von beiden Methoden kann ohne Probleme mit einer For-Schleife iteriert werden. Dadurch, dass `finditer()` einen Iterator und keine Liste zurückgibt, muss das Ergebnis erst in eine Liste umgewandelt werden, falls man z. B. direkt auf ein bestimmtes Match Object zugreifen oder die Anzahl der Matches wissen möchte.

In [4]:
ergebnis_finditer = re.finditer(regex, eingabestring)

# Umwandlung in eine Liste
matchliste = list(ergebnis_finditer)

# Beispiele für Operationen, die nur auf Listen und nicht auf Iteratoren angewendet werden können

print("Länge:", len(matchliste)) # länge ausgeben = Anzahl der gefundenen Matches

print("Drittes Match:", matchliste[2]) # bestimmtes Match ausgeben

print("Letztes Match:", matchliste[-1]) # letztes Match ausgeben


Länge: 5
Drittes Match: <re.Match object; span=(13, 18), match='Hunde'>
Letztes Match: <re.Match object; span=(27, 32), match='Katze'>


### Ersetzen

Analog zur einfacheren `string.replace()`-Methode kann auch mithilfe von regulären Ausdrücken Teile von Strings ersetzt werden. Dabei können flexible Regex-Muster anstatt von einfachen Zeichenketten ersetzt werden, was für deutlich mehr Flexibilität sorgt. Die dafür relevante Methode ist:
```python
re.sub(pattern, repl, string, count=0, flags=0)
```
Die `sub`-Methode nimmt im Gegensatz zu den vorher behandelten Methoden mehr Argumente:
- `pattern` ist das zu ersetzende Muster
- `repl` ist ein String der für jedes Vorkommniss von `pattern` eingesetzt wird
- `string` ist der Eingabestring
- `count`: Die maximale Anzahl an Vorkommnissen, die ersetzt werden soll (optional, 0=alle Vorkommnisse)
- `flags` (optional)

Die Methode gibt immer den Eingabestring zurück, auch, wenn keine Ersetzung möglich war.

In [5]:
# Wir wollen E-Mail-Adressen ananonymisieren, indem wir jede Adresse durch "<E-Mail>" ersetzen

eingabetext = """Dies ist ein längerer Text, der E-Mail-Adressen wie z. B. max.mustermann@test.de enthält.
Um keinen Blindtext selbst schreiben zu müssen, kommt jetzt ein Auszug aus Goethes Werther (mit E-Mail-Adressen vermengt):
Eine wunderbare Heiterkeit hat meine ganze Seele eingenommen, gleich den süßen Frühlingsmorgen, die ich mit ganzem Herzen genieße.
Ich bin allein und freue.mich.meines@Lebens.in dieser Gegend, die für solche Seelen geschaffen ist wie die meine.
Ich bin so glücklich, mein Bester, so ganz in dem Gefühle von ruhigem Dasein versunken, daß meine Kunst darunter leidet.
Ich könnte jetzt nicht zeichnen, nicht einen Strich, und ich, derjunge@werther.com, bin nie ein größerer Maler gewesen als in diesen Augenblicken.
Wenn das liebe Tal um mich dampft, und die hohe Sonne an der Oberfläche der undurchdringlichen Finsternis meines Waldes ruht,
und nur einzelne Strahlen sich in das innere Heiligtum stehlen, ich dann im hohen Grase am fallenden Bache liege,
und näher an der Erde tausend mannigfaltige Gräschen mir merkwürdig werden; wenn ich das Wimmeln der kleinen Welt zwischen Halmen,
die unzähligen, unergründlichen Gestalten der Würmchen, der Mückchen näher an meinem Herzen fühle, und fühle die Gegenwart des Allmächtigen,
der uns nach seinem Bilde schuf, das Wehen des Alliebenden, der uns in ewiger Wonne schwebend trägt und erhält; mein Freund, wilhelmhasi35@web.de!"""

regex = r"[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+"

ausgabetext = re.sub(regex, "<E-Mail>", eingabetext)
print(ausgabetext)

Dies ist ein längerer Text, der E-Mail-Adressen wie z. B. <E-Mail> enthält.
Um keinen Blindtext selbst schreiben zu müssen, kommt jetzt ein Auszug aus Goethes Werther (mit E-Mail-Adressen vermengt):
Eine wunderbare Heiterkeit hat meine ganze Seele eingenommen, gleich den süßen Frühlingsmorgen, die ich mit ganzem Herzen genieße.
Ich bin allein und <E-Mail> dieser Gegend, die für solche Seelen geschaffen ist wie die meine.
Ich bin so glücklich, mein Bester, so ganz in dem Gefühle von ruhigem Dasein versunken, daß meine Kunst darunter leidet.
Ich könnte jetzt nicht zeichnen, nicht einen Strich, und ich, <E-Mail>, bin nie ein größerer Maler gewesen als in diesen Augenblicken.
Wenn das liebe Tal um mich dampft, und die hohe Sonne an der Oberfläche der undurchdringlichen Finsternis meines Waldes ruht,
und nur einzelne Strahlen sich in das innere Heiligtum stehlen, ich dann im hohen Grase am fallenden Bache liege,
und näher an der Erde tausend mannigfaltige Gräschen mir merkwürdig werden; wen

Die `sub`-Methode kann auch dazu benutzt werden, Teile von Strings zu löschen. Dazu muss das Match einfach durch den leeren String `""` ersetzt werden.

### Splitten

Es ist auch möglich, analog zur `string.split()`-Methode mithilfe von regulären Ausdrücken Stings in Teilstrings zu zerlegen. Dazu dafür zuständige Methode ist :

```python
re.split(pattern, string, maxsplit=0, flags=0)
```
Die `split`-Methode nimmt folgende Argumente:
- `pattern` ist das Muster, das als Separator für die Teilstrings dienen soll
- `string` ist der Eingabestring
- `count`: Die maximale Anzahl an Vorkommnissen, die ersetzt werden soll (optional, 0=alle Vorkommnisse)
- `flags` (optional)

Die Methode gibt immer eine Liste an Teilstrings zurück. Falls der Eingabestring nicht aufgespaltet wurde, wird eine Liste, die nur aus dem Eingabestring besteht, zurückgegeben.


In [6]:
# Der eingabetext soll in einzelne Zeilen aufgespaltet werden.
# Dazu wird er an den unregelmäßigen Zeilenumbrüchen aufgespaltet.

eingabetext = """Das hier ist

ein toller Text
mit sehr


inkonsistenten



Zeilenumbrüchen"""

regex = r"\n+"

zeilen = re.split(regex, eingabetext)
print(zeilen)

['Das hier ist', 'ein toller Text', 'mit sehr', 'inkonsistenten', 'Zeilenumbrüchen']
