# Reguläre Ausdrücke
Reguläre Ausdrücke ermöglichen es, Mengen von Zeichenketten auf Basis syntaktischer Regeln zu beschreiben. Für uns interessant werden sie durch die schier endlosen Möglichkeiten, die sie beim Suchen und Ersetzen in Zeichenketten ermöglichen. Auf die theoretischen Grundlagen regulärer Sprachen wird dagegen nicht eingegangen.

## Inhaltsverzeichnis
- [Vorbereitung](#Vorbereitung)
- [Rohe Zeichenketten in Python](#Rohe-Zeichenketten-in-Python)
- [Grundlagen der Mustersuche](#Grundlagen-der-Mustersuche)
- [Funktionen aus dem Modul `re`](#Funktionen-aus-dem-Modul-re)
- [Funfact](#Funfact)

## Vorbereitung
Die meisten relevanten Funktionen zur Mustersuche befinden sich im Modul `re`. Importieren Sie zuerst dieses Modul:

In [None]:
import re

## Rohe Zeichenketten in Python
In Python gibt es verschiedene Arten von Zeichenketten, die durch unterschiedliche Präfixe gekennzeichnet werden. Im Folgenden werden wir häufig das Präfix `r` verwenden. Dieses steht nicht etwa für *regulär*, sondern für *raw*. Ihr Inhalt wird dem Namen folgend nicht von der Python Laufzeitumgebung interpretiert, sodass Sie beispielsweise Backslashes ohne Maskierung verwenden können.

Veranschaulichen lässt sich das gut an einem Beispiel:

In [None]:
print('Hallo\nWelt')

In [None]:
print(r'Hallo\nWelt')

In [None]:
print('Hallo\\nWelt')

Während in der ersten Zelle der Backslash als Sonderzeichen erkannt und gemeinsam mit dem `n` als Zeilenumbruch interpretiert wird, bleibt die Zeichenkombination in der zweiten Zelle erhalten. Wichtig wird dies bei regulären Ausdrücken, mit deren Hilfe Sie nach Umbrüchen suchen wollen.. oder nach Tabulatoren, Backslashes selbst, etc.

Die dritte Zelle zeigt eine Alternative zur zweiten Zelle, die auf Grund der Fehleranfälligkeit bei der Verwendung doppelter Backslashes jedoch gemieden werden sollte.

## Grundlagen der Mustersuche
Zunächst sollen die Möglichkeiten der regulären Ausdrücke beleuchtet werden. Verwendet wird dazu die Funktion `findall`, die jedes Auftreten eines solchen Ausdrucks innerhalb einer Zeichenkette findet und zurückgibt. Nähere Informationen zur sinnvollen Verwendung dieser und anderer Funktionen sind nachfolgend notiert. Zunächst wollen wir aber erst einmal nur suchen.

### Literale
Den einfachsten Fall stellt die Suche nach Literalen dar, also solchen Bestandteile, die wörtlich übereinstimmen. Es kann sich dabei sowohl um einzelne Buchstaben als auch längere Kombinationen handeln. Wenn Sie nachzählen, werden Sie feststellen, dass der Text fünf Mal den Buchstaben `a` und drei Mal die Kombination `er` enthält.

In [None]:
re.findall(r'a', 'Franz jagt im komplett verwahrlosten Taxi quer durch Bayern.')

In [None]:
re.findall(r'er', 'Franz jagt im komplett verwahrlosten Taxi quer durch Bayern.')

Natürlich können Sie dafür auch die Funktion `find` benutzen. Im Folgenden werden Sie allerdings feststellen, dass Literale mit anderen Arten kombiniert werden können und damit erst reguläre Ausdrücke so mächtig bei der Suche in Texten machen.

### Auswahl
In eckigen Klammern lässt sich eine Auswahl von Zeichen ablegen. Im Text muss dann an der entsprechenden Stelle ein einzelnes Zeichen stehen, das von dieser Auswahl abgedeckt wird.

In [None]:
re.findall(r'Fran[zk] jag[td]', 'Franz jagt im komplett verwahrlosten Taxi quer durch Bayern.')

In [None]:
re.findall(r'Fran[zk] jag[td]', 'Frank jagd im komplett verwahrlosten Taxi quer durch Bayern.')

Im vorangeganenen Beispiel wird eine Auswahl mit Literalen kombiniert, um verschiedene Möglichkeiten abzudecken. Alle Phrasen, die nicht aufgezählt sind oder gar mehrere Buchstaben umfassen, werden dagegen nicht gefunden. Das gilt (in der Standardeinstellung) sogar für Groß- und Kleinschreibung.

In [None]:
re.findall(r'Fran[zk] jag[td]', 'Franz jagT im komplett verwahrlosten Taxi quer durch Bayern.')

In [None]:
re.findall(r'Fran[zk] jag[td]', 'Franzi jagt im komplett verwahrlosten Taxi quer durch Bayern.')

Innerhalb der Auswahl können Sie Bindestriche verwenden, um eine ganze Reihe von Buchstaben abzudecken, statt diese einzeln aufzuzählen.

In [None]:
re.findall(r'Fran[A-z]', 'Franz jagt im komplett verwahrlosten Taxi quer durch Bayern.')

In [None]:
re.findall(r'Fran[A-z]', 'FranK jagt im komplett verwahrlosten Taxi quer durch Bayern.')

Beachten Sie dabei jedoch, dass wie bereits bei der Sortierung bzw. dem Größenvergleich von Zeichenketten erneut die ASCII-Tabelle zu Rate gezogen wird. Zwischen `A` ($65$) und `z` ($122$) liegen deshalb auch die Zeichen `[` ($91$), `\` ($92$), `]` ($93$), `^` ($94$), `_` ($95$) und `` ` `` ($96$).

In [None]:
re.findall(r'Fran[A-z]', 'Fran_ jagt im komplett verwahrlosten Taxi quer durch Bayern.')

In der Regel ist daher `A-Za-z` dem Ausdruck `A-Z` vorzuziehen.

In [None]:
re.findall(r'Fran[A-Za-z]', 'Fran_ jagt im komplett verwahrlosten Taxi quer durch Bayern.')

Solche Gruppierungen lassen sich auch invertieren, indem Sie der Aufzählung ein Zirkumflex `^` voranstellen.

In [None]:
re.findall(r'Fran[^z]', 'Franz jagt im komplett verwahrlosten Taxi quer durch Bayern.')

In [None]:
re.findall(r'Fran[^z]', 'Frank jagt im komplett verwahrlosten Taxi quer durch Bayern.')

Häufig verwendete Gruppierungen müssen Sie übrigens selten selbst aufzählen. Verwenden Sie stattdessen eine der vordefinierten Zeichenklassen:

| Klasse | Entsprechung                                        |
| ------ | --------------------------------------------------- |
| `\d`   | Ziffer (**d**igit) bzw. `[0-9]`                     |
| `\D`   | keine Ziffer bzw. `^\d`                             |
| `\w`   | Buchstabe, Ziffer, Unterstrich bzw. `[A-Za-z0-9_`   |
| `\W`   | `^\w` bzw. alles außer `\w`                         |
| `\s`   | alle Arten von Leerräumen (Leerzeichen, `\t`, usw.) |
| `\S`   | `^\s` bzw. alles außer `\s`                         |
| `.`    | ein beliebiges Zeichen                              |

### Gruppierungen und Alternativen
Gruppen können erstellt werden, indem diese von runden Klammern umschlossen werden. Die Inhalte dieser Gruppen können nachfolgend einzeln abgerufen werden.

In [None]:
re.findall(r'(Fran[zk]) (jag[td])', 'Franz jagt im komplett verwahrlosten Taxi quer durch Bayern.')

Alternativen werden durch einen vertikalen Strich `|` gekennzeichnet.

In [None]:
re.findall(r'Franz|Frank', 'Franz jagt im komplett verwahrlosten Taxi quer durch Bayern.')

### Quantoren und Gier
Quantoren geben an, wie häufig ein Element vorkommen soll. Die Notation erfolgt nach dem Schema `{Anzahl}` oder `{min,max}` nach einem Literal, einer Auswahl oder einer Gruppe. Das Maximum kann auch ausgelassen werden.

In [None]:
re.findall(r'f{2}', 'Donaudampfschifffahrtsgesellschaft')

In [None]:
re.findall(r'f{1,2}', 'Donaudampfschifffahrtsgesellschaft')

Standardmäßig ist der Interpreter "gierig" und wählt möglichst lange Zeichenketten, die dem regulären Ausdruck entsprechen:

In [None]:
re.findall(r'f{2,}', 'Donaudampfschifffahrtsgesellschaft')

Der Interpreter wird "großzügig", sobald Sie dem Quantor ein Fragezeichen folgen lassen:

In [None]:
re.findall(r'f{2,}?', 'Donaudampfschifffahrtsgesellschaft')

Auch für die Quantoren existieren Abkürzungen:

| Abkürzung | Entsprechung                  |
| --------- | ----------------------------- |
| `?`       | optional bzw. `{0,1}`         |
| `+`       | mindestens einmal bzw. `{1,}` |
| `*`       | beliebig oft bzw. `{0,}`      |

### Zeilenanfang und Zeilenende
Der Anfang und das Ende einer Zeile lassen sich ebenfalls verwenden. Dafür sind die Zeichen `^` bzw. `$` reserviert.

In [None]:
re.findall(r'Fisch|Fritz', 'Fischers Fritz fischt frische Fische - frische Fische fischt Fischers Fritz')

In [None]:
re.findall(r'^Fisch', 'Fischers Fritz fischt frische Fische - frische Fische fischt Fischers Fritz')

In [None]:
re.findall(r'Fritz$', 'Fischers Fritz fischt frische Fische - frische Fische fischt Fischers Fritz')

Denken Sie bitte daran, dass das Zirkumflex in einer Auswahl die Rolle der Negation übernimmt und nur außerhalb für den Zeilenanfang steht.

### Ein praktischer Hinweis
Auf Seiten wie [regex101](https://regex101.com/) können Sie einen Text und Ihren regulären Ausdruck einfügen, sehen eine Erklärung und bei Änderungen auch sofort die Auswirkungen.

## Funktionen aus dem Modul `re`
### `match`
`match` findet eine Übereinstimmung, wenn der Ausdruck zu Beginn der Zeichenkette gematcht werden kann.

In [None]:
re.match(r'Franz jagt (.*?) durch Bayern.', 'Franz jagt im komplett verwahrlosten Taxi quer durch Bayern.')

In [None]:
re.match(r'jagt (.*?) durch Bayern.', 'Franz jagt im komplett verwahrlosten Taxi quer durch Bayern.')

### `fullmatch`
`fullmatch` findet eine Übereinstimmung, wenn der Ausdruck auf die komplette Zeichenkette gematcht werden kann.

In [None]:
re.fullmatch(r'Franz jagt (.*?) durch Bayern.', 'Franz jagt im komplett verwahrlosten Taxi quer durch Bayern.')

In [None]:
re.fullmatch(r'Franz jagt (.*?) durch', 'Franz jagt im komplett verwahrlosten Taxi quer durch Bayern.')

### `findall`
`findall` sucht jedes Vorkommen eines Ausdrucks innerhalb einer Zeichenkette und gibt die Ergebnisse als Liste zurück.

In [None]:
re.findall(r'er', 'Franz jagt im komplett verwahrlosten Taxi quer durch Bayern.')

### `finditer`
`finditer` sucht jedes Vorkommen eines Ausdrucks innerhalb einer Zeichenkette und gibt die Ergebnisse als Generator zurück.

In [None]:
for match in re.finditer(r'er', 'Franz jagt im komplett verwahrlosten Taxi quer durch Bayern.'):
    print(match)

### `split`
`split` teilt eine Zeichenkette anhand eines regulären Ausdrucks. Der gefundene Ausdruck wird dabei aus der Zeichenkette entfernt.

In [None]:
re.split(r'e[nt]', 'Franz jagt im komplett verwahrlosten Taxi quer durch Bayern.')

### Flags
Beim Aufruf der oben genannten Funktionen lassen sich sogenannte Flags als zusätzlichen, optionalen Parameter angeben, mit denen Sie Details bei der Suche nach Übereinstimmungen festlegen können. Die mit Abstand am häufigsten verwendete Flag ist `re.IGNORECASE` und bestimmt, dass Groß- und Kleinschreibung keinen Einfluss auf die Suche haben.

In [None]:
re.findall(r'frAnZ', 'Franz jagt im komplett verwahrlosten Taxi quer durch Bayern.', re.IGNORECASE)

Für die Verarbeitung komplexerer Zeichenketten können außerdem `re.MULTILINE` und `re.DOTALL` hilfreich sein.

## Funfact
Der Beispieltext *Franz jagt im komplett verwahrlosten Taxi quer durch Bayern.* ist ein sogenanntes Pangramm, da der gültige Satz jeden Buchstaben des Alphabets - abgesehen von Umlauten - mindestens einmal enthält. In der englischen Sprache ist dagegen der Satz *The quick brown fox jumps over the lazy dog.* verbreitet, während man beim Testen mit Umlauten auf *Zwölf Boxkämpfer jagen Viktor quer über den großen Sylter Deich.* ausweichen kann.

Alle von diesen werden verwendet, um die Darstellung von Schriften zu prüfen. Die Idee selbst ist aber deutlich älter als der digitale Zeichensatz.