# RegEx

Als Entwickler:in wirst du eines Tages viel Informationen aus einem strukturierten Text herauslesen müssen oder einen Input gem. Schema validieren (sprich: überprüfen) müssen.

Möchtest du z.B. vor dem Abschicken eines Web-Formulars überprüfen, ob eine Eingabe eine gültige Email-Adresse ist, dann kannst du hier auch RegEx brauchen. Bei einer Email-Adresse weisst du, dass diese aus einem Teil vor einem "@", und einem Teil danach, der wiederum mindestens einen Punkt besitzen muss, besteht. Diese Regel kannst du in einer RegEx (Regular Expression, deutsch: regulärer Ausdruck) beschreiben:

```regex
^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}$
```

In diesem Beispiel hast du
* vor dem "@" Buchstaben, Zahlen sowie ".", "_", "+" und "-" erlaubt
* Nach dem "@" Müssen Buchstaben, Zahlen, Punkte oder Bindestriche folgen
* und die Email muss mit einem Punkt und dann mindestens 2 Buchstaben enden.

>   _Eine RegEx ist also eine Folge von Zeichen, die ein Suchmuster bilden. RegEx wird dafür verwendet, um Text anhand von einem Muster (einer Regel) abzugleichen._


Mit RegEx kannst du ja überprüfen, ob ein Text einem bestimmten Muster ("pattern") entspricht. Versuche unter folgenden Links die vorher gezeigte RegEx einzugeben und zu prüfen, wann eine Email-Adresse erkannt wird und wann nicht:
* https://regex101.com/: Sehr bekannt und praktisch für RegEx.
* https://pythex.org/: Optimiert für die Verwendung unter Python.

Hinweis: Die obengenannte RegEx für Email-Adressen ist bei weitem nicht vollständig. Eine richtig funktionierende und vollständige RegEx für Email-Adresse ist viel komplexer.

## Einfache RegEx erstellen
Beginnen wir mit einem einfacheren Beispiel. Sagen wir, wir haben einen Text wie:

```text
destroy_world: True
```

Nun wollen wir herausfinden, ob nach `destroy_world` True steht, damit unser Programm entsprechend handeln kann.

Beginnen wir mit einem sehr einfachen Vorgehen: Wir prüfen nur, ob `True` vorkommt:

In [None]:
import re  # re wird gebraucht für Regex.

text = "destroy_world: True"
pattern = r"True"

result = re.search(pattern, text)
if result is not None:
    print("Sure. Your wish is my command :D")
    print("The variable was set to", result.group())
else:
    print("So then, I don't do anything.")

Im obigen Beispiel haben wir nur geprüft, ob der Wert `True` vorhanden ist. Wenn wir nun einen Schritt weitergehen und auch `False` finden möchten, dann könnten wir das wie folgt erweitern:

In [None]:
import re

text = "destroy_world: True"
pattern = r"True|False"

result = re.search(pattern, text)
if result is not None:
    print("The variable was set to", result.group())

Hier haben wir nun gesehen, dass wir eine Oder-Beziehung reinbringen konnten: `pattern = r"True|False"`.

Ein `|` fungiert in einer Regex wie ein "Oder".

Gehen wir nun noch einen Schritt weiter und erwarten nicht einen Boolean sondern einen Namen, dann könnten wir so vorgehen:

In [None]:
import re  # re wird gebraucht für Regex.

text = "destroy_world: Earth"
pattern = r": [a-zA-Z]+"

result = re.search(pattern, text)
if result is not None:
    print(f"The variable was set to '{result.group()[2:]}'")

In diesem Beispiel hatten wir die Regex `: [a-zA-Z]+`.
* Diese beschreibt, dass das Gesuchte mit ": " beginnt.
* Anschliessend kommt ein Zeichen, das ein (klein) Buchstaben zwischen a und z oder ein Grossbuchstabe zwischen A und Z.
    * Solche Ranges werden in eckige Klammern gepackt.
* Mit dem `+` wurde spezifiziert, dass das in den eckigen Klammern **mindestens 1 mal** vorkommt.
* Mit dem `[2:]` haben wir ein bisschen gebastelt: Wir wollen das ": " im Resultat loswerden und schneiden das Resultat so zu, dass es erst beim 3. Zeichen beginnt.

## Gruppen
Sehr oft suchen wir nach bestimmten Wörtern/Zahlen in einem bestimmten Umfeld/Kontext.

Angenommen wir haben einen Text wie
```yaml
app_name: PacMan
version: 1.0.1
app_image: C:\Users\PacMan\Documents\pacman.png
```

Mit Hilfe von "Named Groups" können wir den Werten in der Regex einen Namen geben. Das hat den Vorteil, dass wir im Prinzip den erwarteten Text schreiben können und die spezifischen Werte via ihren Namen ausschneiden können:

In [None]:
import re

text = """app_name: PacMan
version: 1.0.1
app_image: C:\\Users\\PacMan\\Documents\\pacman.png"""

# RegEx pattern that matches for all variable names.
pattern = r"app_name:\s*(?P<app_name>[a-zA-Z0-9]+)\nversion:\s*(?P<version>\d+\.\d+\.\d+)\napp_image:\s*(?P<app_image>.+)"

match = re.search(pattern, text)

# Extract the values
app_name = match.group("app_name")
version = match.group("version")
app_image = match.group("app_image")

print(app_name, version, app_image)

Mit einem Konstrukt wie `(?P<app_name>\[a-zA-Z0-9]+)` haben wir eine solche Named Group erstellt. Der Teil `?P<app_name>` definiert den Namen der Named Group (hier "app_name"), `[a-zA-Z0-9]+` ist die Regex für den Wert der Named Group "app_name", und die Klammern sind zur besseren Abgrenzung da.

Wenn du dich noch fragst, was das `?P` soll: Das `P` steht für Python und das ist eine Regex, die für Python's Regex-System funktioniert. In anderen Programmiersprache wirst du eine andere Syntax dafür verwenden.

## Spezielle Sequenzen
Du hast bereits erfahren, dass du mit einer Regex wie `[a-zA-Z0-9]` alle englischen Buchstaben (also keine ÄÖÜ) inkl. Zahlen und Unterstrich einschliessen kannst.

Für genau solche oft vorkommenden Regeln gibt es Abkürzungen.
* Statt `[a-zA-Z0-9]` kannst du auch einfach `\w` verwenden.
* Statt " " kannst du auch `\s` verwenden, der jeden Whitespace(" ", \t, \n, \r, \f, \v) mit einschliesst.
* Für Zahlen kannst du `\d` (wie "digit") verwenden.

## Mengenangaben
Oft musst du angeben, wie viel mal ein bestimmtes Zeichen vorkommt. Das hast du z.B. bei dieser Regel getan: `[a-zA-Z0-9]+`
Mit dem `+` hast du angegeben, dass **mindestens ein** solches Zeichen vorkommen muss. Andere Mengenangaben sind:
* `*`: 0, 1 oder mehrere Vorkommnisse.
* `?`: 0 oder 1 mal.
* `{n}`: Genau n-mal.
* `{m, n}`: Mindestens m-mal, maximal n-mal.
* `{m,}`: Mindestens m-mal.
* `{,n}`: Maximal n-mal.

## Spezielle Charakter (Zeichen)
Sehr oft siehst du eine Regex in diesem Format: `^irgend eine RegEx$`. Oft wird erwartet, dass der ganze String (also Text) genau einer RegEx entspricht und nicht nur ein Teil von ihm. Das `^` steht für den Anfang, das `$` für das Ende des Textes (bzw. der Zeile, je nach Kontext).

Sehr oft kommt es vor, dass du ein bestimmtes Zeichen wie z.B. den Punkt `.` als Zeichen erwartest. Generell können Sonderzeichen mit einem `\` "escaped" werden.

Apropos Punkt `.`: Dieser steht für irgendein Zeichen.

Weitere Informationen findest du hier, wenn du das Cheatsheet aufklappst: https://pythex.org/.