# Einführung

## Allgemeines zu RegEx in Python

Der gebräuchlichste Weg, um Reguläre Ausdrücke in Python zu benutzen ist über das `re`-Modul aus der Standardbibliothek und diese Sammlung an Jupyter-Notebooks beschäftigt sich hauptsächlich mit diesem. Das `re`-Modul implementiert "Perl-ähnliche reguläre Ausdrücke" mit einer Syntax, die in den meisten Fällen vergleichbar mit Perl Compatible Regular Expressions (PCRE) ist. Deswegen ist es nützlich, für die folgenden Übungen eine Übersicht zur PCRE-Syntax bereit zu haben.

Ein gutes PCRE-Cheatsheet gibt es z. B. [hier](https://www.debuggex.com/cheatsheet/regex/pcre).

Eine Übersicht über alle Funktionen und Eigenheiten des `re`-Moduls gibt es in der [offiziellen Dokumentation](https://docs.python.org/3/library/re.html).

## Speicherung von regulären Ausdrücken in Python

Reguläre Ausdrücke werden in Python als Strings gespeichert. Um Fehler durch Escape Codes zu vermeiden, bietet es sich zudem an, reguläre Ausdrücke *immer* als Raw String Literals anzugeben. Dazu muss einem gewöhnlichen String nur ein "r" vorangestellt werden.

In [7]:
normal_string = "ich bin ein gewöhnlicher String und ich enthalte \n escape codes! \u2665"

raw_string = r"ich bin ein Raw String und ich enthalte \n escape codes! \u2665"

print(normal_string)
print(raw_string)

ich bin ein gewöhnlicher String und ich enthalte 
 escape codes! ♥
ich bin ein Raw String und ich enthalte \n escape codes! \u2665


Wie aus dem Beispiel ersichtlich wird, löst Python intern die Backslashes im Raw String nicht auf. `\n` wird nicht als Zeilenumbruch interpretiert und `\u2665` wird als "\u2665" ausgegeben und nicht als Unicode-Zeichen für ein Herz.

Vor allem das Arbeiten mit Backslashes in regulären Ausdrücken wird so extrem vereinfacht. Da wörtliche Backslashes in regulären Ausdrücken durch einen Backslash escapet werden müssen, müssten diese im Falle von normalen Python-Strings doppelt escapet werden.

In [8]:
# ein regulärer Ausdruck für beliebig viele Backslashes, sowohl als normaler Python String als auch als Raw String:
backslash_normal = "\\\\+"
backslash_raw = r"\\+"

# ein regulärer Ausdruck für beliebig viele Tab-Zeichen
tab_normal = "\\t+"
tab_raw = r"\t+"

Durch den Gebrauch von Raw Strings können lästige (und potenziell verwirrende) Doppelescapes vermieden werden.