In [4]:
%%html
<style>
table {
    float: left;
}
td {
    font-size: 30px;
    align: left;
}
thead th {
    font-size: 30px;
}
img {
    width: 30%;
}
</style>

## Reguläre Ausdrücke

Bei der Arbeit mit Datensätzen kann es vorkommen, dass Sie bestimmte Informationen, wie etwa Rentenversicherungsnummern oder Emailadressen entfernen müssen. Oder vielleicht möchten Sie eine Liste aller Jahreszahlen aus einem Roman erstellen. Hier können Ihnen reguläre Ausdrücke helfen. 

Ein regulärer Ausdruck (*regular expression*, *regexp*, *regex*) ist eine Zeichenkette aus Buchstaben, Zahlen und verschiedenen Sonderzeichen. Er definiert ein Muster, das dem einer gesuchten Zeichenkette entspricht. Anstatt also nach einer bestimmten Emailadresse zu suchen--ein Vorgang, den Sie für jede Adresse wiederholen müssten--können Sie nach dem Muster suchen, was wesentlich effektiver und effizienter ist.

## Entwicklung regulärer Ausdrücke

Die Anfänge der regulären Ausdrücke gehen bis in die 1940er Jahre zurück, als die Amerikaner Warren McCulloch und Walter Pitts versuchten, Modelle für die Arbeitsweise des Nervensystems zu entwickeln. 1956 beschrieb dann der Mathematiker Steven Kleene eine Algebra für diese Modelle, die er reguläre Mengen (*regular sets*) nannte. Die Notation für diese neue Algebra waren die regulären Ausdrücke.

Wahrscheinlich 1968 wurden reguläre Ausdrücke zum ersten Mal in einem Computersystem implementiert.

1987 wurde die erste Version der Programmiersprache Perl veröffentlicht, die für die Bearbeitung von Textdateien entwickelt worden war und eine für die damalige Zeit leistungsfähige Implementierung von regulären Ausdrücken enthielt; diese wurde im Laufe der Jahre weiter ausgebaut.

1997 erschien schließlich PCRE (*Perl Compatible Regular Expressions*), eine Programmbibliothek, welche es ermöglicht, die zum damaligen Zeitpunkt aktuelle Funktionalität von Perls regulären Ausdrücken (Perl 5) in andere Programme und Sprachen zu integrieren.

## Verbreitung regulärer Ausdrücke

Heutzutage unterstützen alle gängigen Programmiersprachen (natürlich auch Python) reguläre Ausdrücke in irgendeiner Form. Auch viele Anwendungsprogramme, wie etwa Texteditoren, erlauben es Ihnen, beim Suchen/Ersetzen reguläre Ausdrücke zu verwenden.

## Beispiel: Einfach...

Vier aufeinanderfolgende Ziffern (z.B. "2020"):

<pre>\d{4}</pre>

## Extrembeispiel: Nicht so einfach...

Emailadresse (z.B. "karl.mustermann@uni-tuebingen.de"):

<pre>(?:[a-z0-9!#$%&'*+\/=?^_`{|}~-]+(?:\.[a-z0-9!#$%&'*+\/=?^_`{|}~-]+)*|"(?:[\x01-\x08\x0b\x0c\x0e-\x1f\x21\x23-\x5b\x5d-\x7f]|\\[\x01-\x09\x0b\x0c\x0e-\x7f])*")@(?:(?:[a-z0-9](?:[a-z0-9-]*[a-z0-9])?\.)+[a-z0-9](?:[a-z0-9-]*[a-z0-9])?|\[(?:(?:(2(5[0-5]|[0-4][0-9])|1[0-9][0-9]|[1-9]?[0-9]))\.){3}(?:(2(5[0-5]|[0-4][0-9])|1[0-9][0-9]|[1-9]?[0-9])|[a-z0-9-]*[a-z0-9]:(?:[\x01-\x08\x0b\x0c\x0e-\x1f\x21-\x5a\x53-\x7f]|\\[\x01-\x09\x0b\x0c\x0e-\x7f])+)\])</pre>

## Reguläre Ausdrücke testen

Es gibt eine Vielzahl von Webseiten, auf denen Sie reguläre Ausdrücke testen können. Wir verwenden heute [https://regex101.com/](https://regex101.com/). Es bietet auch gute (englischsprachige) Erklärungen und zeigt Ihnen eventuelle Fehler an.

## Literale Zeichenmuster

Literale Zeichen sind Zeichen, die sich selbst bezeichnen und sonst keine weitere Bedeutung haben. Wenn wir solche Zeichen in einem regulären Ausdruck verwenden, sprechen wir von **literalen Zeichenmustern** (*literal character patterns*). Z.B. passt das literale Zeichenmuster "abc" auf die Zeichenkette "abc" im Suchtext und nur auf sie. Das Ergebnis unterscheidet sich hierbei nicht von einer Suche ohne reguläre Ausdrücke.

## Metazeichen

Metazeichen haben eine Bedeutung, die sich von ihrer literalen unterscheidet, und üben besondere Funktionen innerhalb von regulären Ausdrücken aus. Hier ein paar Beispiele:

|Zeichen|Beispiel|Bedeutung|
|:-|:-|:-|
|^|^abc|"abc" am Anfang der untersuchten Zeichenkette|
|\$|abc\$|"abc" am Ende der untersuchten Zeichenkette|
|/|/abc/|**kann** am Anfang und Ende eines regulären Ausdrucks stehen|
|\\ |\w|Escapezeichen (dazu später mehr)|
|. (Punkt)|a.c|Kann irgendein Zeichen sein (Buchstabe, Zahl, Satzzeichen, ...)|
|\||(a\|c)|Entweder "a" oder "b"|

## Quantoren

Quantoren geben an, wie oft ein Zeichen vorkommen soll: 

|Zeichen|Beispiel|Bedeutung|
|:-|:-|:-|
|?|a?|Null oder ein "a"|
|\*?|a*?|Null oder mehr "a", versucht nur so viele wie unbedingt nötig zu finden: (*lazy*)|
|\*|a*|Null oder mehr "a", versucht so viele wie möglich zu finden: gierig (*greedy*)|
|+|a+|Ein oder mehr "a"|

Sie können aber auch spezifischere Mengenangaben machen, indem Sie diese in geschweifte Klammern setzen:

|Beispiel|Bedeutung|
|:-|:-|
|a{2}|Genau zwei a|
|a{2,}|Zwei oder mehr a|
|a{2,4}|Zwei bis vier a|

## Metazeichen als Literale

Wenn Sie nach einem Metazeichen suchen wollen, müssen Sie Ihrem Programm zeigen, dass es sich dann nicht um ein Metazeichen, sondern ein Literal handelt. Sie können das mit einem vorangestellten *backslash* machen. Wenn Sie etwa nach einem Dollarzeichen suchen, würden Sie folgenden Ausdruck verwenden:

<pre>\$</pre>

Wenn Sie nach einem *backslash* suchen, benötigen Sie also tatsächlich zwei:

<pre>\\</pre>

## Klassen

Auch bei regulären Ausdrücken gibt es das Konzept von Klassen, mit denen man eine limitierte Gruppe von Zeichen definieren kann, die der reguläre Ausdruck finden soll. Klassen werden in eckige Klammern gesetzt und finden immer ein einzelnes Zeichen, außer Sie fügen einen Quantor hinzu.

Sie können Klassen etwa verwenden, wenn Sie nach einem Namen suchen, bei dessen Schreibweise Sie sich nicht sicher sind. So findet etwa der folgende Ausdruck vier verschiedene Schreibweisen von Maier/Mayer/Meier/Meyer:

<pre>M[ae][iy]er</pre>

Es gibt auch vordefinierte Klassen für Zeichenkategorien, welche besonders häufig genutzt werden, wie etwa:

|Name|Bedeutung|Steht für|
|:-|:-|:-|
|\[\[\:alpha\:\]\]|Buchstaben|\[a-zA-Z\]|
|\[\[\:upper\:\]\]|Großbuchstaben|\[A-Z\]|
|\[\[\:lower\:\]\]|Kleinbuchstaben|\[a-z\]|
|\[\[\:alnum\:\]\]|Buchstaben und Zahlen|\[a-zA-Z0-9\]|
|\[\[\:digit\:\]\]|Zahlen|\[0-9\]|

## Zeichen ausschließen

Wenn Sie einen oder mehrere Zeichen ausschließen möchten, können Sie diese in einer Klasse zusammenfassen und dann mit einem **^** verneinen:

<pre>[^abc]</pre>

Es gibt für viele dieser Klassen auch Kurzbezeichnungen:

|Abkürzung|Steht für|
|:-|:-|
|\w|Buchstaben|
|\W|Alles außer Buchstaben|
|\d|Zahlen|
|\D|Alles außer Zahlen|
|\s|*Whitespace* (Nicht sichtbare Zeichen, wie etwa Leerzeichen, Zeilenumbruch oder Tabulator|
|\S|Alles außer *Whitespace*|

Auch wichtige Kontrollzeichen haben eigene Kurzbezeichnungen:
    
|Abkürzung|Steht für|
|:-|:-|
|\t|Tabulator|
|\r|Wagenrücklauf (*Carriage return*)|
|\n|Zeilenumbruch (*Line feed*)|

**Wichtig:* In Windows erstellte Textdateien verwenden \r\n, um das Ende einer Zeile zu signalisieren. macOS und Unix verwenden \n.

## Übung 1

Schreiben Sie einen regulären Ausdruck, um eine Rentenversicherungsnummer zu finden. Diese ist folgendermaßen aufgebaut (laut [https://de.wikipedia.org/wiki/Versicherungsnummer](https://de.wikipedia.org/wiki/Versicherungsnummer):

|Stelle|Beschreibung|Beispiel|
|:|:|:|
|1–2|Bereichsnummer des Rentenversicherungsträgers|15|
|3–4|Geburtstag des Versicherten|07|
|5–6|Geburtsmonat des Versicherten|06|
|7–8|Geburtsjahr des Versicherten|49|
|9|Anfangsbuchstabe des Geburtsnamens des Versicherten|C|
|10–11|Seriennummer|10|
|12|Prüfziffer|3|

## Mögliche Lösung

<pre>\d{8}\w\d{3}</pre>

## Übung 2

Schreiben Sie einen regulären Ausdruck, der Ihre studentische Emailadresse finden könnte. 

## Mögliche Lösung

<pre>[\w\.]*@[\w\.\-]*</pre>

## Gruppen

Durch die Verwendung von runden Klammern (einfangende Klammern) können Sie Gruppen bilden, deren Treffer eingefangen, oder abgespeichert, werden und auf die Sie dann später, etwa in Python, direkt zugreifen können. Wenn Sie die Ergebnisse nicht speichern möchten--weil Sie etwa nur anzeigen wollen, dass Sie mehrere Alternativen benennen möchten--können Sie nicht-einfangende Klammern verwenden:

|Beispiel|Ergebnis|
|:-|:-|
|(hund\|katze)|Findet "hund" oder "katze", wird bei Python in einem *MatchObject* gespeichert|
|(?:hund\|katze)|Findet "hund" oder "katze", wird nicht gespeichert|

## Rückreferenzierung

Wenn Sie einfangende Klammern verwenden, können Sie mit **Rückreferenzierung** (*backreferences*) später im gleichen regulären Ausdruck wieder auf die gleiche gefundene Zeichenkette zurückgreifen:

|Beispiel|Ergebnis|
|:-|:-|
|(hund\|katze)|Findet "hund" oder "katze", wird bei Python in einem *MatchObject* gespeichert|
|(?:hund\|katze) sieht \1|Findet "hund sieht hund", aber nicht "hund sieht katze"|

## Lookaround, lookahead und lookbehind

*Lookaround* beinhaltet zwei Techniken, *lookahead* und *lookbehind*. Wenn Sie etwa testen wollen, ob nach einem Zeichen 1 ein anderes Zeichen 2 folgt, können Sie einen positiven *lookahead* verwenden. Wenn nach Zeichen 1 kein Zeichen 2 kommen darf, verwenden Sie einen negativen *lookahead*:

|Beispiel|Bedeutet|
|:-|:-|
|a(?=b)|nach dem "a" muss ein "b" kommen|
|a(?!b)|nach dem "a" darf kein "b" kommen|

Der Inhalt der runden Klammer wird dabei nicht eingefangen.

*lookbehind* ist die Umkehrung von *lookahead*:

|Beispiel|Bedeutet|
|:-|:-|
|(?<=a)b|vor dem "b" muss ein "a" kommen|
|(?<!a)b|vor dem "b" darf kein "a" kommen|

**Wichtig**: Mehrere RegEx-Implementierungen, u.a. die in Python, erlauben nur *lookbehind* mit Zeichenketten, welche eine festgesetzte Länge haben.

## Weiterführende Lektüre

[https://www.regular-expressions.info](https://www.regular-expressions.info) bietet eine kostenlose, umfangreiche und leicht verständliche (englischsprachige) Einführung zu regulären Ausdrücken.

Friedl, Jeffrey E.F. *Reguläre Ausdrücke.* O'Reilly: 2008. UB Druckausgabe Deutsch: 48 A 1671. Hat auch Onlineversion des englischen Originals.