# Übersicht re-Modul

Diese Übersicht dient dem Einstieg in das Thema reguläre Ausdrücke in Python und behandelt nur die absoluten Grundlagen.

## Import
Import des re-Moduls über das import-statement:

In [None]:
import re

Jetzt kann über den Paketnamen auf das Modul zugegriffen werden.

## Die wichtigsten Methoden im Modul

### Matching

Beim Matchen wird versucht, zu überprüfen, ob ein Eingabe-String dem Muster eines regulären Ausdrucks entspricht bzw. dieses enthält. Anders ausgedrückt, wird beim Matchen versucht, nur *ein* Vorkommnis eines Musters in der Eingabe zu finden. Zu diesem Zwecke gibt es im `re`-Modul 3 Methoden:

```python
re.search(pattern, string, flags=0)

re.match(pattern, string, flags=0)

re.fullmatch(pattern, string, flags=0)
```

Alle drei Methoden benötigen einen regulären Ausdruck `pattern`, einen Eingabe-String `string` und können optional Flags akzeptieren. Sie unterscheiden sich dadurch, wo das Match im Eingabe-String liegen muss:
- bei `search` kann das Match an einer beliebigen Stelle im Eingabe-String liegen, und das erste Auftreten des Musters wird zurückgegeben
- bei `match` muss das Match am Anfang des Strings auftreten, der String kann aber danach noch andere Zeichen beinhalten 
- bei `fullmatch` muss der komplette String dem gegebenen Muster entsprechen

Falls die Methoden ein Match geben, wird dieses als *Match Object* zurückgegeben. Falls kein Match gefunden wurde, wird `None` zurückgegeben.

#### Beispiel

In [None]:
eingabestrings = [
    "----abc----",
    "abc----",
    "abc"
]

regex = r"abc"

print("Regex-Muster:", regex)

for eingabestring in eingabestrings:
    print("\nEingabe-String: ", eingabestring)
    print("  re.search:   ", re.search(regex, eingabestring))
    print("  re.match:    ", re.match(regex, eingabestring))
    print("  re.fullmatch:", re.fullmatch(regex, eingabestring))


Regex-Muster: abc

Eingabe-String:  ----abc----
  re.search:    <_sre.SRE_Match object; span=(4, 7), match='abc'>
  re.match:     None
  re.fullmatch: None

Eingabe-String:  abc----
  re.search:    <_sre.SRE_Match object; span=(0, 3), match='abc'>
  re.match:     <_sre.SRE_Match object; span=(0, 3), match='abc'>
  re.fullmatch: None

Eingabe-String:  abc
  re.search:    <_sre.SRE_Match object; span=(0, 3), match='abc'>
  re.match:     <_sre.SRE_Match object; span=(0, 3), match='abc'>
  re.fullmatch: <_sre.SRE_Match object; span=(0, 3), match='abc'>


Match-Objekte stellen einige nützliche Methoden und Attribute bereit:

```python
# mo = ein beliebiges Match-Objekt

# Zugriff auf das komplette Match
mo[0]
mo.group(0)

# Zugriff auf den ursprünglichen Eingabe-String
mo.string

# Start- und Endindices des Matches im Eingabe-String
mo.span()  # Start- und Endindex als Tupel
mo.start() # Startindex
mo.end()   # Endindex
```

Ein Match-Objekt hat zudem immer den Wahrheitswert `TRUE`. None hat immer den Wahrheitswert `FALSE`. Dadurch können alle Match-Methoden bzw. deren Ausgabe auch für logische Bedingungen, wie z. B. in if-Statements benutzt werden:
```python
if re.match(regex, string):
    print('Ich wurde ausgeführt, weil der String dem Regex-Muster entspricht!')
```

#### Beispiel
Wir wollen überprüfen und ausgeben, ob die Wörter in der Eingabe Textsmileys sind oder nicht:
[Link](https://regexr.com/)

In [None]:
eingabe = ["Test", ":)", "0123982", "()!*@$^", ":-D", "ich schwöre ich bin wirklich ein Smiley", ":c", "XDDDDD"]

regex = r"[:;=][-^]?[DP()c|\[\]{}]|XD+"

for wort in eingabe:
    if re.fullmatch(regex, wort):
        print(wort, "ist ein Emoticon")
    else:
        print(wort, "ist kein Emoticon")

Test ist kein Emoticon
:) ist ein Emoticon
0123982 ist kein Emoticon
()!*@$^ ist kein Emoticon
:-D ist ein Emoticon
ich schwöre ich bin wirklich ein Smiley ist kein Emoticon
:c ist ein Emoticon
XDDDDD ist ein Emoticon


### Suche

Die Suchmethoden können dazu benutzt werden, *alle* Vorkommnisse eines Regex-Musters in einem Eingabe-String zu finden. Dafür gibt es zwei Methoden:

```python
re.findall(pattern, string, flags=0)

re.finditer(pattern, string, flags=0)
```

Diese Methoden nehmen, genau so wie die Match-Methoden, ein `pattern` und einen `string` und optional `flags`. In ihrer Funktion gleichen sie sich: Beide geben alle sich nicht überlappenden Vorkommnisse des gegebenen Musters im Eingabe-String zurück. Sie unterscheiden sich aber durch die Art, wie die Vorkommnisse zurückgegeben werden:
- `findall` gibt alle Vorkommnisse als Liste von *Strings* zurück
- `finditer` liefert einen Iterator, der alle Vorkommnisse als *Match-Objekte* liefert

In der Praxis bedeutet das, dass `findall` die gematchten Strings direkt als Liste und ohne weiteren Kontext liefert. Falls Kontext (wie z. B. die Position des Matches) benötigt wird, muss `finditer` benutzt werden.

#### Beispiel
Wir wollen alle Wörter finden, die nur aus den Buchstaben A-Z und a-z bestehen:

In [None]:
eingabestring = "Paula hat 10 Hunde und 1/2 Katze."

regex = r"[A-Za-z]+"

print("Liste von Strings mit findall():")

ergebnis_findall = re.findall(regex, eingabestring)
print(ergebnis_findall)

for match in ergebnis_findall:
    print("  ", match)

print("\nIterator über Match Objects mit finditer():")

ergebnis_finditer = re.finditer(regex, eingabestring)
print(ergebnis_finditer)

for match in ergebnis_finditer:
    print("  ", match)

Liste von Strings mit findall():
['Paula', 'hat', 'Hunde', 'und', 'Katze']
   Paula
   hat
   Hunde
   und
   Katze

Iterator über Match Objects mit finditer():
<callable_iterator object at 0x0000020FC7E89748>
   <_sre.SRE_Match object; span=(0, 5), match='Paula'>
   <_sre.SRE_Match object; span=(6, 9), match='hat'>
   <_sre.SRE_Match object; span=(13, 18), match='Hunde'>
   <_sre.SRE_Match object; span=(19, 22), match='und'>
   <_sre.SRE_Match object; span=(27, 32), match='Katze'>


Über die Ergebnisse von beiden Methoden kann ohne Probleme mit einer for-Schleife iteriert werden. Dadurch, dass `finditer()` einen Iterator und keine Liste zurückgibt, muss das Ergebnis erst in eine Liste umgewandelt werden, falls man z. B. direkt auf ein bestimmtes Match Object zugreifen oder die Anzahl der Matches wissen möchte.

In [None]:
ergebnis_finditer = re.finditer(regex, eingabestring)

# Umwandlung in eine Liste
matchliste = list(ergebnis_finditer)

# Beispiele für Operationen, die nur auf Listen und nicht auf Iteratoren angewendet werden können

print("Länge:", len(matchliste)) # länge ausgeben = Anzahl der gefundenen Matches

print("Drittes Match:", matchliste[2]) # bestimmtes Match ausgeben

print("Letztes Match:", matchliste[-1]) # letztes Match ausgeben


Länge: 5
Drittes Match: <re.Match object; span=(13, 18), match='Hunde'>
Letztes Match: <re.Match object; span=(27, 32), match='Katze'>


### Ersetzen

Analog zur einfacheren `string.replace()`-Methode kann auch mithilfe von regulären Ausdrücken Teile von Strings ersetzt werden. Dabei können flexible Regex-Muster anstatt von einfachen Zeichenketten ersetzt werden, was für deutlich mehr Flexibilität sorgt. Die dafür relevante Methode ist:
```python
re.sub(pattern, repl, string, count=0, flags=0)
```
Die `sub`-Methode nimmt im Gegensatz zu den vorher behandelten Methoden mehr Argumente:
- `pattern` ist das zu ersetzende Muster
- `repl` ist ein Ersetzungs-String, der für jedes Vorkommniss von `pattern` eingesetzt wird
- `string` ist der Eingabe-String
- `count`: Die maximale Anzahl an Vorkommnissen, die ersetzt werden soll (optional, 0=alle Vorkommnisse)
- `flags` (optional)

Die Methode gibt immer den Eingabe-String zurück, auch dann, wenn keine Ersetzung möglich war.

#### Beispiel
Wir wollen E-Mail-Adressen anonymisieren, indem wir jede Adresse durch `<E-Mail>` ersetzen:

In [None]:
eingabetext = """Dies ist ein längerer Text, der E-Mail-Adressen wie z. B. max.mustermann@test.de enthält.
Um keinen Blindtext selbst schreiben zu müssen, kommt jetzt ein Auszug aus Goethes Werther (mit E-Mail-Adressen vermengt):
Eine wunderbare Heiterkeit hat meine ganze Seele eingenommen, gleich den süßen Frühlingsmorgen, die ich mit ganzem Herzen genieße.
Ich bin allein und freue.mich.meines@Lebens.in dieser Gegend, die für solche Seelen geschaffen ist wie die meine.
Ich bin so glücklich, mein Bester, so ganz in dem Gefühle von ruhigem Dasein versunken, daß meine Kunst darunter leidet.
Ich könnte jetzt nicht zeichnen, nicht einen Strich, und ich, derjunge@werther.com, bin nie ein größerer Maler gewesen als in diesen Augenblicken.
Wenn das liebe Tal um mich dampft, und die hohe Sonne an der Oberfläche der undurchdringlichen Finsternis meines Waldes ruht,
und nur einzelne Strahlen sich in das innere Heiligtum stehlen, ich dann im hohen Grase am fallenden Bache liege,
und näher an der Erde tausend mannigfaltige Gräschen mir merkwürdig werden; wenn ich das Wimmeln der kleinen Welt zwischen Halmen,
die unzähligen, unergründlichen Gestalten der Würmchen, der Mückchen näher an meinem Herzen fühle, und fühle die Gegenwart des Allmächtigen,
der uns nach seinem Bilde schuf, das Wehen des Alliebenden, der uns in ewiger Wonne schwebend trägt und erhält; mein Freund, wilhelmhasi35@web.de!"""

regex = r"[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+"

ausgabetext = re.sub(regex, "<E-Mail>", eingabetext)
print(ausgabetext)

Dies ist ein längerer Text, der E-Mail-Adressen wie z. B. <E-Mail> enthält.
Um keinen Blindtext selbst schreiben zu müssen, kommt jetzt ein Auszug aus Goethes Werther (mit E-Mail-Adressen vermengt):
Eine wunderbare Heiterkeit hat meine ganze Seele eingenommen, gleich den süßen Frühlingsmorgen, die ich mit ganzem Herzen genieße.
Ich bin allein und <E-Mail> dieser Gegend, die für solche Seelen geschaffen ist wie die meine.
Ich bin so glücklich, mein Bester, so ganz in dem Gefühle von ruhigem Dasein versunken, daß meine Kunst darunter leidet.
Ich könnte jetzt nicht zeichnen, nicht einen Strich, und ich, <E-Mail>, bin nie ein größerer Maler gewesen als in diesen Augenblicken.
Wenn das liebe Tal um mich dampft, und die hohe Sonne an der Oberfläche der undurchdringlichen Finsternis meines Waldes ruht,
und nur einzelne Strahlen sich in das innere Heiligtum stehlen, ich dann im hohen Grase am fallenden Bache liege,
und näher an der Erde tausend mannigfaltige Gräschen mir merkwürdig werden; wen

Die `sub`-Methode kann auch dazu benutzt werden, Teile von Strings zu löschen. Dazu muss das Match einfach durch den leeren String `""` ersetzt werden.

Desweiteren ist es möglich, im Ersetzungs-String *Backreferences* zu benutzen. Das heißt, es kann im Ersetzungs-String auf den vorher gematchten String verwiesen werden, der ersetzt werden soll. Das ist z. B. dann nützlich, wenn bei einer Ersetzungsoperation Material erweitert und nicht komplett ersetzt werden soll. Der komplette gematchte Match-String kann über die Sequenz `\g<0>` referenziert werden.

#### Beispiel
Wir wollen alle Vokale im Eingabetext hervorheben, indem wir sie mit geschweiften Klammern umgeben:

In [None]:
eingabetext = "Mettigel (auch Hackepeterigel oder Hackepeterschwein) sind ein klassischer Bestandteil von kalten Platten bzw. kalten Buffets. Sie bestehen aus Mett mit entsprechender Garnierung."

regex = r"[aeiouäöü]"

ausgabetext = re.sub(regex, "{\g<0>}", eingabetext)
print(ausgabetext)

M{e}tt{i}g{e}l ({a}{u}ch H{a}ck{e}p{e}t{e}r{i}g{e}l {o}d{e}r H{a}ck{e}p{e}t{e}rschw{e}{i}n) s{i}nd {e}{i}n kl{a}ss{i}sch{e}r B{e}st{a}ndt{e}{i}l v{o}n k{a}lt{e}n Pl{a}tt{e}n bzw. k{a}lt{e}n B{u}ff{e}ts. S{i}{e} b{e}st{e}h{e}n {a}{u}s M{e}tt m{i}t {e}ntspr{e}ch{e}nd{e}r G{a}rn{i}{e}r{u}ng.


### Splitten

Es ist auch möglich, analog zur `string.split()`-Methode mithilfe von regulären Ausdrücken Strings in Teil-Strings zu zerlegen. Die dafür zuständige Methode ist:

```python
re.split(pattern, string, maxsplit=0, flags=0)
```
Die `split`-Methode nimmt folgende Argumente:
- `pattern` ist das Muster, das als Separator für die Teilstrings dienen soll
- `string` ist der Eingabe-String
- `count`: Die maximale Anzahl an Vorkommnissen, die ersetzt werden soll (optional, 0 = alle Vorkommnisse)
- `flags` (optional)

Die Methode gibt immer eine Liste an Teil-Strings zurück. Falls der Eingabe-String nicht aufgespaltet wurde, wird eine Liste, die nur aus dem Eingabe-String besteht, zurückgegeben.

#### Beispiel
Der Eingabetext soll in einzelne Zeilen aufgespaltet werden. Dazu wird er an den unregelmäßigen Zeilenumbrüchen getrennt:

In [None]:
eingabetext = """Das hier ist

ein toller Text
mit sehr


inkonsistenten



Zeilenumbrüchen"""

regex = r"\n+"

zeilen = re.split(regex, eingabetext)
print(zeilen)

['Das hier ist', 'ein toller Text', 'mit sehr', 'inkonsistenten', 'Zeilenumbrüchen']


### Kompilieren von regulären Ausdrücken

Bisher haben wir reguläre Ausdrücke als Strings angegeben und diese Strings direkt in die Methoden des `re`-Moduls eingesetzt. Daneben existiert noch die Möglichkeit, reguläre Ausdrücke zu kompilieren und damit in *Regular Expression Objects* umzuwandeln. Diese Regex-Objekte stellen die gleichen Methoden wie das `re`-Modul bereit, aber mit dem Vorteil, keinen regulären Ausdruck als String angeben zu müssen. Vor allem, wenn ein regulärer Ausdruck oft wiederverwendet wird, ist das oft komfortabler.

In [None]:
eingabetext = "Das ist ein Beispieltext. Wusset ihr, dass Beispieltexte meistens auch Satzzeichen enthalten? Ja, ist wirklich so! Satzzeichen sind vielfältig; das Semikolon ist auch eins. Aber ich schweife ab..."

satzzeichen = re.compile(r"\.\.\.|[.,:;-?!]")

for match in satzzeichen.finditer(eingabetext):
    print(match[0])

teilsätze = satzzeichen.split(eingabetext)
print(teilsätze)

print(satzzeichen.sub('SATZZEICHEN', eingabetext))

.
,
?
,
!
;
.
...
['Das ist ein Beispieltext', ' Wusset ihr', ' dass Beispieltexte meistens auch Satzzeichen enthalten', ' Ja', ' ist wirklich so', ' Satzzeichen sind vielfältig', ' das Semikolon ist auch eins', ' Aber ich schweife ab', '']
Das ist ein BeispieltextSATZZEICHEN Wusset ihrSATZZEICHEN dass Beispieltexte meistens auch Satzzeichen enthaltenSATZZEICHEN JaSATZZEICHEN ist wirklich soSATZZEICHEN Satzzeichen sind vielfältigSATZZEICHEN das Semikolon ist auch einsSATZZEICHEN Aber ich schweife abSATZZEICHEN


## Übung

### Befehle aus Konsolenlog extrahieren

In der Datei `console.log` befindet sich ein Konsolenlog von einem Linux-Terminal. Dieses wird zeilenweise eingelesen. Überprüfe nun für jede Zeile, ob diese eine Eingabeaufforderung und einen Befehl oder eine Programmausgabe enhält. Falls es sich um eine Befehlszeile handelt, extrahiere aus ihr den eigentlich aufgerufenen Befehl mit seinen Argumenten und gib ihn aus.

In [None]:
logfile = open("console.log", mode='r', encoding='utf-8-sig')

lines = logfile.readlines()

regex = r''