<!--BOOK_INFORMATION-->
<img align="left" style="padding-right:10px;" src="img/cover-small.jpg" />

Dieses Notizbuch enthält einen angepassten Auszug aus der [Whirlwind Tour of Python](http://www.oreilly.com/programming/free/a-whirlwind-tour-of-python.csp) von Jake VanderPlas; Der Inhalt ist auf [GitHub](https://github.com/jakevdp/WhirlwindTourOfPython) verfügbar.

Text und Code werden unter der [CC0](https://github.com/jakevdp/WhirlwindTourOfPython/blob/master/LICENSE)- Lizenz veröffentlicht; Das Begleitprojekt, das [Python Data Science Handbook](https://github.com/jakevdp/PythonDataScienceHandbook) wird sehr empfohlen.


# Zeichenkettenmanipulation und reguläre Ausdrücke

Ein Bereich, in dem die Sprache Python wirklich glänzt, ist die Manipulation von Zeichenketten (Strings).
In diesem Abschnitt werden einige der in Python integrierten String-Methoden und Formatierungsoperationen behandelt, bevor ein kurzer Leitfaden zu dem äußerst nützlichen Thema *reguläre Ausdrücke* folgt.

Zeichenketten in Python können entweder mit einfachen oder doppelten Anführungszeichen definiert werden. Beide Varianten sind funktional gleichwertig:

In [1]:
x = 'a string'
y = "a string"
x == y

True

Darüber hinaus ist es möglich, mehrzeilige Zeichenfolgen mit einer Syntax mit dreifachen Anführungszeichen zu definieren:

In [2]:
multiline = """
one
two
three
"""

Nehmen wir also einen kurzen Einblick in einige der Python-Werkzeuge zur String-Manipulation.

## Einfache String-Manipulation in Python

Für die grundlegende Manipulation von Zeichenketten können die in Python eingebauten String-Methoden äußerst praktisch sein.
Wer schon einmal mit einer anderen Programmiersprache gearbeitet hat, wird die Einfachheit der Python-Methoden wahrscheinlich als sehr erfrischend empfinden.
Wir haben den String-Typ von Python und einige dieser Methoden bereits erkundet; hier werden wir etwas tiefer eintauchen:

### Zeichenketten formatieren: Formatting strings: Anpassung der Groß- und Kleinschreibung

Python macht es recht einfach, die Groß- und Kleinschreibung einer Zeichenkette anzupassen.
Hier werden wir die Methoden ``upper()``, ``lower()``, ``capitalize()``, ``title()`` und ``swapcase()`` am Beispiel der folgenden "unaufgeräumten" Zeichenkette betrachten:

In [3]:
fox = "tHe qUICk bROWn fOx."

Um die gesamte Zeichenkette in Groß- oder Kleinbuchstaben umzuwandeln, können wir die Methoden ``upper()`` bzw. ``lower()`` verwenden:

In [4]:
fox.upper()

'THE QUICK BROWN FOX.'

In [5]:
fox.lower()

'the quick brown fox.'

Eine häufige Anforderung an die Formatierung ist es, nur den ersten Buchstaben eines jeden Wortes oder vielleicht den ersten Buchstaben eines jeden Satzes groß zu schreiben.
Dies kann mit den Methoden ``title()`` und ``capitalize()`` erreicht werden:

In [6]:
fox.title()

'The Quick Brown Fox.'

In [7]:
fox.capitalize()

'The quick brown fox.'

Die Groß- und Kleinschreibung kann mit der Methode ``swapcase()`` umgekehrt werden:

In [8]:
fox.swapcase()

'ThE QuicK BrowN FoX.'

### Formatierung von Zeichenketten: Hinzufügen und Entfernen von Leerzeichen

Ein weiteres häufiges Bedürfnis ist es, Leerzeichen (oder andere Zeichen) am Anfang oder Ende einer Zeichenkette zu entfernen.
Die grundlegende Methode zum Entfernen von Zeichen ist die Methode ``strip()``, die Leerzeichen am Anfang und Ende der Zeile entfernt:

In [9]:
line = '         this is the content         '
line.strip()

'this is the content'

Um nur Leerzeichen rechts oder links zu entfernen, verwenden wir ``rstrip()`` bzw. ``lstrip()``:

In [10]:
line.rstrip()

'         this is the content'

In [11]:
line.lstrip()

'this is the content         '

Um andere Zeichen als Leerzeichen zu entfernen, können wir das gewünschte Zeichen an die Methode ``strip()`` übergeben:

In [12]:
num = "000000000000435"
num.strip('0')

'435'

Das Gegenteil dieser Operation, das Hinzufügen von Leerzeichen oder anderen Zeichen, kann mit den Methoden ``center()``, ``ljust()`` und ``rjust()`` erreicht werden.

Zum Beispiel können wir die Methode ``center()`` verwenden, um eine gegebene Zeichenkette innerhalb einer gegebenen Anzahl von Leerzeichen zu zentrieren:

In [1]:
line = "this is the content"
line.center(30)

'     this is the content      '

In ähnlicher Weise richten ``ljust()`` und ``rjust()`` die Zeichenkette innerhalb von Leerzeichen einer bestimmten Länge linksbündig oder rechtsbündig aus:

In [14]:
line.ljust(30)

'this is the content           '

In [15]:
line.rjust(30)

'           this is the content'

Alle diese Methoden akzeptieren zusätzlich ein beliebiges Zeichen, das zum Füllen der Zeichenanzahl verwendet wird.
Zum Beispiel:

In [16]:
'435'.rjust(10, '0')

'0000000435'

Weil das Auffüllen von Nullen ein so häufiges Anliegen ist, bietet Python auch ``zfill()``, eine spezielle Methode, um eine Zeichenkette mit Nullen aufzufüllen:

In [2]:
'435'.zfill(10)

'0000000435'

### Suchen und Ersetzen von Teilzeichenfolgen

Wenn wir Vorkommen eines bestimmten Zeichens in einer Zeichenkette finden wollen, sind die Methoden ``find()``/``rfind()``, ``index()``/`rindex()`` und ``replace()`` die besten eingebauten Methoden.

``find()`` und ``index()`` sind sehr ähnlich, da sie nach dem ersten Vorkommen eines Zeichens oder einer Teilzeichenkette innerhalb einer Zeichenkette suchen und den Index der Teilzeichenfolge zurückgeben:

In [5]:
line = 'the quick brown fox jumped over a lazy dog'
line.find('fox')

16

In [19]:
line.index('fox')

16

Der einzige Unterschied zwischen ``find()`` und ``index()`` ist ihr Verhalten, wenn der Suchstring nicht gefunden wird; ``find()`` liefert ``-1``, während ``index()`` einen ``ValueError`` auslöst:

In [20]:
line.find('bear')

-1

In [21]:
line.index('bear')

ValueError: substring not found

Die verwandten Funktionen ``rfind()`` und ``rindex()`` arbeiten ähnlich, nur dass sie nach dem ersten Vorkommen vom Ende und nicht vom Anfang der Zeichenkette aus suchen:

In [22]:
line.rfind('a')

35

Für den speziellen Fall der Prüfung auf eine Teilzeichenkette am Anfang oder Ende einer Zeichenfolge bietet Python die Methoden ``startswith()`` und ``endswith()``:

In [23]:
line.endswith('dog')

True

In [24]:
line.startswith('fox')

False

Um einen Schritt weiter zu gehen und eine gegebene Teilzeichenkette durch eine neue Zeichenkette zu ersetzen, können wir die Methode ``replace()`` verwenden.
Hier ersetzen wir ``'brown'`` durch ``'red'``:

In [25]:
line.replace('brown', 'red')

'the quick red fox jumped over a lazy dog'

Die Funktion ``replace()`` gibt eine neue Zeichenkette zurück, die alle Vorkommen der Eingabe ersetzt:

In [26]:
line.replace('o', '--')

'the quick br--wn f--x jumped --ver a lazy d--g'

Im Abschnitt [Flexible Mustererkennung mit regulären Ausdrücken](#Flexible-Mustererkennung-mit-regulären-Ausdrücken) werden wir noch flexiblere Ansätze unter Verwendung von regulären Ausdrücken betrachten.

### Aufteilen und Partitionieren von Zeichenketten

Wenn wir eine Teilzeichenkette finden *und dann* die Zeichenkette basierend auf ihrer Position aufteilen möchten, sind die Methoden ``partition()`` und/oder ``split()`` genau das Richtige für Sie.
Beide geben eine Folge von Teilstrings zurück.

Die Methode ``partition()`` gibt ein Tupel mit drei Elementen zurück: die Teilzeichenkette vor der ersten Instanz des Split-Punktes, den Split-Punkt selbst und die Teilzeichenkette danach:

In [3]:
line.partition('fox')

('this is the content', '', '')

Die Methode ``rpartition()`` ist ähnlich, sucht aber von der rechten Seite der Zeichenkette aus.

Die Methode ``Split()`` ist vielleicht noch nützlicher; sie findet *alle* Instanzen des Split-Punktes und gibt die Teilstrings dazwischen zurück.
Die Voreinstellung ist, dass an jedem Leerzeichen aufgespalten und eine Liste der einzelnen Wörter einer Zeichenkette zurückgegeben wird:

In [6]:
line.split()

['the', 'quick', 'brown', 'fox', 'jumped', 'over', 'a', 'lazy', 'dog']

Eine verwandte Methode ist ``splitlines()``, die bei Zeilenumbrüchen trennt.
Wir wollen dies mit einem Haiku tun, das gemeinhin dem Dichter Matsuo Bashō aus dem 17. Jahrhundert zugeschrieben wird:

In [7]:
haiku = """matsushima-ya
aah matsushima-ya
matsushima-ya"""

haiku.splitlines()

['matsushima-ya', 'aah matsushima-ya', 'matsushima-ya']

Mit einem ``join()`` können wir die ``split()``-Operation umkehren.

In [8]:
'--'.join(['1', '2', '3'])

'1--2--3'

Ein gängiges Muster ist die Verwendung des Sonderzeichens ``„\n“`` (Zeilenumbruch), um Zeilen, die zuvor geteilt wurden, zusammenzufügen und die Eingabe wiederherzustellen:

In [9]:
print("\n".join(['matsushima-ya', 'aah matsushima-ya', 'matsushima-ya']))

matsushima-ya
aah matsushima-ya
matsushima-ya


## Zeichenketten formatieren

In den vorangegangenen Methoden-Beispielen haben wir gelernt, wie man Werte aus Strings extrahiert und Strings selbst in die gewünschten Formate umwandelt.
Eine weitere Anwendung von String-Methoden ist die Manipulation von String- *Repräsentationen* von Werten anderer Typen.
Natürlich können String-Repräsentationen immer mit der Funktion ``str()`` gefunden werden, zum Beispiel:

In [10]:
pi = 3.14159
str(pi)

'3.14159'

Für kompliziertere Formate könnten wir versucht sein, die String-Arithmetik zu verwenden, wie wir sie im Abschnitt [Semantik Operatoren](./04-Semantik-Operatoren.ipynb) kennengelernt haben:

In [11]:
"The value of pi is " + str(pi)

'The value of pi is 3.14159'

Eine flexiblere Möglichkeit ist die Verwendung von *Format-Strings*, d.h. Strings mit speziellen Markierungen (durch geschweifte Klammern gekennzeichnet), in die als Zeichenfolgen formatierte Werte eingefügt werden.
Hier ist ein einfaches Beispiel:

In [34]:
"The value of pi is {}".format(pi)

'The value of pi is 3.14159'

Innerhalb der Markierung ``{}`` können wir auch Informationen darüber einfügen, was genau dort erscheinen soll.
Wenn wir eine Zahl angeben, bezieht sich diese auf den Index des einzufügenden Arguments:

In [35]:
"""First letter: {0}. Last letter: {1}.""".format('A', 'Z')

'First letter: A. Last letter: Z.'

Wenn wir eine Zeichenkette angeben, bezieht sich diese auf den Schlüssel eines beliebigen Schlüsselwortarguments:

In [36]:
"""First letter: {first}. Last letter: {last}.""".format(last='Z', first='A')

'First letter: A. Last letter: Z.'

Schließlich können wir bei numerischen Eingaben Format-Codes einfügen, die steuern, wie der Wert in eine Zeichenkette umgewandelt wird.
Wenn wir beispielsweise eine Zahl als Fließkommazahl mit drei Nachkommastellen ausgeben möchten, können wir den folgenden Code verwenden:

In [37]:
"pi = {0:.3f}".format(pi)

'pi = 3.142'

Wie zuvor bezieht sich auch hier die „``0``“ auf den Index des einzufügenden Wertes.
Das „``:``“ kennzeichnet, dass Formatcodes folgen werden.
Das „``.3f``“ kodiert die gewünschte Genauigkeit: drei Stellen hinter dem Komma, Fließkommaformat.

Diese Art der Formatspezifikation ist sehr flexibel, und die Beispiele hier kratzen nur an der Oberfläche der verfügbaren Formatierungsoptionen.
Weitere Informationen über die Syntax dieser Formatstrings sind unter [Format Specification](https://docs.python.org/3/library/string.html#formatspec) in der Python-Onlinedokumentation zu finden.

## Flexible Mustererkennung mit regulären Ausdrücken

Die Methoden des Python-Typs ``str`` geben uns eine Reihe von mächtigen Werkzeugen zur Formatierung, Aufteilung und Manipulation von Zeichenfolgedaten an die Hand.
Noch mächtigere Werkzeuge sind jedoch in Pythons eingebautem Modul für reguläre Ausdrücke verfügbar.
Reguläre Ausdrücke sind ein riesiges Thema; es gibt ganze Bücher zu diesem Thema (einschließlich Jeffrey E.F. Friedls [*Mastering Regular Expressions, 3rd Edition*](http://shop.oreilly.com/product/9780596528126.do)), so dass es schwer sein wird, diesem Thema in einem einzigen Unterabschnitt gerecht zu werden.

Wir wollen eine Vorstellung davon erhalten, welche Arten von Problemen wir mit regulären Ausdrücken in Python angehen können.

Grundsätzlich sind reguläre Ausdrücke ein Mittel zum *flexiblen Mustervergleich* in Zeichenfolgen.
Wer häufig die Kommandozeile benutzt, kennt diese Art des flexiblen Abgleichs mit dem „``*``“-Zeichen, das als Platzhalter fungiert. Wir können zum Beispiel alle IPython- Notebooks (d.h. Dateien mit der Endung *.ipynb*) mit „Python“ im Dateinamen auflisten, indem wir den Platzhalter „``*``“ verwenden, um alle Zeichen dazwischen zu berücksichtigen:

In [1]:
!ls *Python*.ipynb

02_Basic-Python-Syntax.ipynb


Reguläre Ausdrücke verallgemeinern diese „Wildcard“-Idee auf eine breite Palette von Anwendungen mit flexibler Sytax.
Die Python-Schnittstelle zu regulären Ausdrücken ist im eingebauten Modul ``re`` enthalten; als einfaches Beispiel wollen wir es verwenden, um die Funktionalität der String-Methode ``split()`` zu duplizieren:

In [3]:
import re
regex = re.compile('\s+')
regex.split(line)

  regex = re.compile('\s+')
  regex = re.compile('\s+')


NameError: name 'line' is not defined

Hier haben wir zuerst einen regulären Ausdruck *kompiliert* und ihn dann benutzt, um eine Zeichenkette *aufzuteilen*.
So wie Pythons Methode ``split()`` eine Liste aller Teilzeichenketten zwischen Leerzeichen zurückgibt, gibt die Methode ``split()`` für reguläre Ausdrücke eine Liste aller Teilzeichenketten zwischen den Übereinstimmungen mit dem Eingabemuster zurück.

In diesem Fall ist die Eingabe ``„\s+“``: „``\s``‚‘ ist ein spezielles Zeichen, das auf alle Whitespace-Zeichen (Leerzeichen, Tabulator, Zeilenumbruch usw.) passt, und ``+``' ist ein Zeichen, das *eine oder mehrere* der vorangehenden Entität angibt.
Der reguläre Ausdruck passt also auf jede Teilzeichenkette, die aus einem oder mehreren Whitespace-Zeichen besteht.

Die Methode ``split()`` ist im Grunde genommen eine Komfortmethode, die auf diesem Verhalten aufbaut; grundlegender ist die Methode ``match()``, die uns sagt, ob der Anfang einer Zeichenkette dem Muster entspricht:

In [40]:
for s in ["     ", "abc  ", "  abc"]:
    if regex.match(s):
        print(repr(s), "matches")
    else:
        print(repr(s), "does not match")

'     ' matches
'abc  ' does not match
'  abc' matches


Wie bei ``split()`` gibt es ähnliche Funktionen, um die erste Übereinstimmung zu finden (wie ``str.index()`` oder ``str.find()``) oder um zu suchen und zu ersetzen (wie ``str.replace()``).
Wir werden wieder die Zeile von vorhin verwenden:

In [15]:
line = 'the quick brown fox jumped over a lazy dog'

Daran sehen wir, dass die Methode ``regex.search()`` sehr ähnlich wie ``str.index()`` oder ``str.find()`` funktioniert:

In [13]:
line.index('fox')

16

In [20]:
regex = re.compile('fox')
match = regex.search(line)
match.start()

16

Die Methode ``regex.sub()`` funktioniert ähnlich wie die Methode ``str.replace()``:

In [22]:
line.replace('fox', 'BEAR')

'the quick brown BEAR jumped over a lazy dog'

In [23]:
regex.sub('BEAR', line)

'the quick brown BEAR jumped over a lazy dog'

Mit etwas Überlegung können auch andere native String-Operationen als reguläre Ausdrücke verwendet werden.

### Ein anspruchsvolleres Beispiel

Sie werden sich vielleicht fragen, warum Sie die kompliziertere und ausführlichere Syntax der regulären Ausdrücke verwenden wollen und nicht die intuitiveren und einfacheren String-Methoden?
Der Vorteil ist, dass reguläre Ausdrücke *weit* mehr Flexibilität bieten.

Im Folgenden werden wir ein komplizierteres Beispiel betrachten: die häufige Aufgabe, E-Mail-Adressen abzugleichen.
Wir beginnen damit, einen (etwas unleserlichen) regulären Ausdruck zu schreiben, und gehen dann Schritt für Schritt durch, was dabei geschieht.
Los geht's:

In [24]:
email = re.compile('\w+@\w+\.[a-z]{3}')

  email = re.compile('\w+@\w+\.[a-z]{3}')


Damit können wir, wenn wir eine Zeile aus einem Dokument erhalten, schnell Dinge extrahieren, die wie E-Mail-Adressen aussehen

In [25]:
text = "To email Guido, try guido@python.org or the older address guido@google.com."
email.findall(text)

['guido@python.org', 'guido@google.com']

(Beachten Sie, dass diese Adressen frei erfunden sind; wahrscheinlich gibt es bessere Möglichkeiten, mit [Guido](https://de.wikipedia.org/wiki/Guido_van_Rossum) in Kontakt zu treten).

Wir können weitere Operationen durchführen, wie z. B. das Ersetzen dieser E-Mail-Adressen durch eine andere Zeichenkette, um vielleicht Adressen in der Ausgabe zu verbergen:

In [48]:
email.sub('--@--.--', text)

'To email Guido, try --@--.-- or the older address --@--.--.'

Falls wir wirklich *jede* E-Mail-Adresse abgleichen wollen, ist der vorstehende reguläre Ausdruck viel zu einfach.
Er lässt zum Beispiel nur Adressen zu, die aus alphanumerischen Zeichen bestehen und auf eine von mehreren gängigen Domänensuffixen enden.
So bedeutet beispielsweise der hier verwendete Punkt, dass nur ein Teil der Adresse gefunden wird:

In [26]:
email.findall('barack.obama@whitehouse.gov')

['obama@whitehouse.gov']

Das zeigt, wie unerbittlich reguläre Ausdrücke sein können, wenn man nicht sorgfältig ist!
Wer sich im Internet umsieht, findet einige Vorschläge für reguläre Ausdrücke, die auf *alle* gültigen E-Mails passen, aber Vorsicht: diese Ausdrücke sind viel komplizierter als der hier verwendete einfache Ausdruck!

### Grundlagen der Syntax regulärer Ausdrücke

Die Syntax der regulären Ausdrücke ist ein viel zu umfangreiches Thema für diesen kurzen Abschnitt.
Dennoch kann ein wenig Vertrautheit sehr hilfreich sein: Wir werden hier einige der grundlegenden Konstrukte durchgehen. Weiter Informationen sind in umfassenderen Ressourcen zu finden, die sich mit dem hier erworbenen Wissen besser erschließen lassen.

#### Einfache Zeichenfolgen werden direkt erkannt

Wenn wir einen regulären Ausdruck auf einer einfachen Zeichen- oder Ziffernfolge aufbauen, wird er genau auf diese Zeichenfolge passen:

In [50]:
regex = re.compile('ion')
regex.findall('Great Expectations')

['ion']

#### Einige Zeichen haben besondere Bedeutungen

Während einfache Buchstaben oder Zahlen direkte Entsprechungen sind, gibt es eine Handvoll Zeichen, die in regulären Ausdrücken besondere Bedeutungen haben. Diese sind:
```
. ^ $ * + ? { } [ ] \ | ( )
```
Auf die Bedeutung einiger dieser Zeichen werden wir gleich noch eingehen.
In der Zwischenzeit sollten Sie wissen, dass Sie jedes dieser Zeichen mit einem umgekehrten Schrägstrich (back-slash) *markieren* können, wenn wir das Zeichen selbst verwenden wollen:

In [51]:
regex = re.compile(r'\$')
regex.findall("the cost is $20")

['$']

Das ``r`` in ``r'\$`` zeigt einen *raw string* an; in Standard-Python-Strings wird der Backslash verwendet, um Sonderzeichen anzuzeigen.
Ein Tabulator wird zum Beispiel durch ``„\t“`` angezeigt:

In [52]:
print('a\tb\tc')

a	b	c


Solche Ersetzungen werden in einer Rohzeichenfolge (*raw string*) nicht vorgenommen:

In [53]:
print(r'a\tb\tc')

a\tb\tc


Aus diesem Grund ist es ratsam, bei der Verwendung von Backslashes in einem regulären Ausdruck eine Rohzeichenfolge (*raw string*)  zu verwenden.

#### Sonderzeichen können Zeichengruppen entsprechen

Genauso wie das Zeichen ``„\“`` in regulären Ausdrücken Sonderzeichen in normale Zeichen umwandeln kann, kann es auch verwendet werden, um normalen Zeichen eine besondere Bedeutung zu geben.
Diese Sonderzeichen passen zu bestimmten Gruppen von Zeichen, und wir haben sie schon einmal gesehen.
Im regulären Ausdruck für E-Mail-Adressen  vorhin haben wir das Zeichen ``„\w“`` verwendet, ein Sonderzeichen, das auf *jedes alphanumerische Zeichen* passt. In ähnlicher Weise haben wir in dem einfachen ``split()`` Beispiel auch ``„\s“`` gesehen, eine spezielle Markierung, die *jedes Leerzeichen* (whitespace) angibt.

Mit diesen beiden Ausdrücken können wir einen regulären Ausdruck erstellen, der auf *alle zwei Buchstaben/Ziffern mit Leerzeichen dazwischen* passt:

In [27]:
regex = re.compile(r'\w\s\w')
regex.findall('the fox is 9 years old')

['e f', 'x i', 's 9', 's o']

Dieses Beispiel gibt einen ersten Hinweis auf die Leistungsfähigkeit und Flexibilität der regulären Ausdrücke.

In der folgenden Tabelle sind einige dieser Zeichen aufgelistet, die oft nützlich sind:

| Character | Description                 || Character | Description                     |
|-----------|-----------------------------||-----------|---------------------------------|
| ``"\d"``  | Match any digit             || ``"\D"``  | Match any non-digit             |
| ``"\s"``  | Match any whitespace        || ``"\S"``  | Match any non-whitespace        |
| ``"\w"``  | Match any alphanumeric char || ``"\W"``  | Match any non-alphanumeric char |

Dies ist *keine* umfassende Liste oder Beschreibung; für weitere Details siehe Pythons [regular expression syntax documentation](https://docs.python.org/3/library/re.html#re-syntax).

#### Eckige Klammern entsprechen benutzerdefinierten Zeichengruppen

Wenn uns die eingebauten Zeichengruppen nicht spezifisch genug sind, können wir eckige Klammern verwenden, um eine beliebige Gruppe von Zeichen anzugeben, an denen wir interessiert sind.
Das folgende Beispiel passt auf alle klein geschriebenen Vokale:

In [28]:
regex = re.compile('[aeiou]')
regex.split('consequential')

['c', 'ns', 'q', '', 'nt', '', 'l']

Ebenso können wir einen Bindestrich verwenden, um einen Bereich zu spezifizieren: z.B. ``„[a-z]“`` passt auf jeden Kleinbuchstaben, und ``„[1-3]“`` passt auf alle ``„1“``, ``„2“`` oder ``„3“``.
So kann es beispielsweise erforderlich sein, aus einem Dokument bestimmte numerische Codes zu extrahieren, die aus einem Großbuchstaben gefolgt von einer Ziffer bestehen. Wir könnten dies wie folgt tun:

In [29]:
regex = re.compile('[A-Z][0-9]')
regex.findall('1043879, G2, H6')

['G2', 'H6']

#### Wildcards passen zu wiederholten Zeichen

Wenn wir eine Zeichenkette mit, sagen wir, drei alphanumerischen Zeichen in einer Reihe abgleichen möchten, können wir zum Beispiel schreiben: ``„\w\w\w“``.
Da dies ein häufiges Anliegen ist, gibt es eine spezielle Syntax für die Übereinstimmung von Wiederholungen - geschweifte Klammern mit einer Zahl:

In [57]:
regex = re.compile(r'\w{3}')
regex.findall('The quick brown fox')

['The', 'qui', 'bro', 'fox']

Es gibt auch Markierungen, die auf eine beliebige Anzahl von Wiederholungen passen - zum Beispiel passt das Zeichen ``„+“`` auf *eine oder mehrere* Wiederholungen dessen, was ihm im Regulären Ausdruck vorausgeht:

In [58]:
regex = re.compile(r'\w+')
regex.findall('The quick brown fox')

['The', 'quick', 'brown', 'fox']

Hier ist eine Tabelle mit den Wiederholungsmarkern, die in regulären Ausdrücken verwendet werden können:

| Character | Description | Example |
|-----------|-------------|---------|
| ``?`` | Match zero or one repetitions of preceding  | ``"ab?"`` matches ``"a"`` or ``"ab"`` |
| ``*`` | Match zero or more repetitions of preceding | ``"ab*"`` matches ``"a"``, ``"ab"``, ``"abb"``, ``"abbb"``... |
| ``+`` | Match one or more repetitions of preceding  | ``"ab+"`` matches ``"ab"``, ``"abb"``, ``"abbb"``... but not ``"a"`` |
| ``{n}`` | Match ``n`` repetitions of preeeding | ``"ab{2}"`` matches ``"abb"`` |
| ``{m,n}`` | Match between ``m`` and ``n`` repetitions of preceding | ``"ab{2,3}"`` matches ``"abb"`` or ``"abbb"`` |

Mit diesen Grundlagen im Hinterkopf kehren wir nun zu unserem E-Mail-Adressabgleich zurück:

In [59]:
email = re.compile(r'\w+@\w+\.[a-z]{3}')

Wir können jetzt verstehen, was das bedeutet: Wir wollen ein oder mehrere alphanumerische Zeichen (``„\w+“``), gefolgt von dem *at-Zeichen* (``„@“``), gefolgt von einem oder mehreren alphanumerischen Zeichen (``„\w+“``), gefolgt von einem Punkt (``„\.“`` - Achtung: wir benötigen eine Backslash-Escape-Sequenz), gefolgt von genau drei Kleinbuchstaben.

Wenn wir dies nun so ändern wollen, dass die Obama-E-Mail-Adresse übereinstimmt, können wir die Notation in eckigen Klammern verwenden:

In [10]:
email2 = re.compile(r'[\w.]+\w@\w+\.[a-z]{3}')
email2.findall('barack.obama@whitehouse.org')

['barack.obama@whitehouse.org']

Wir haben ``„\w+“`` in ``„[\w.]+“`` geändert, so dass wir jedes alphanumerische Zeichen *oder* einen Punkt finden.
Mit diesem flexibleren Ausdruck können wir eine breitere Palette von E-Mail-Adressen abgleichen (wenn auch immer noch nicht alle - können Sie andere Unzulänglichkeiten dieses Ausdrucks erkennen?).

#### Klammern bezeichnen zu extrahierende *Gruppen*.

Bei zusammengesetzten regulären Ausdrücken wie unserem E-Mail-Matcher wollen wir oft die Komponenten extrahieren und nicht die vollständige Übereinstimmung. Dies kann mit Hilfe von Klammern geschehen, um die Ergebnisse zu *gruppieren*:

In [30]:
email3 = re.compile(r'([\w.]+)@(\w+)\.([a-z]{3})')

In [34]:
text = "To email Guido, try guido@python.org or the older address guido@google.com."
email3.findall(text)

[('guido', 'python', 'org'), ('guido', 'google', 'com')]

Wie wir sehen, extrahiert diese Gruppierung tatsächlich eine Liste der Unterkomponenten der E-Mail-Adresse.

Wir können noch einen Schritt weiter gehen und die extrahierten Komponenten mit der Syntax ``„(?P<name> )“`` benennen. In diesem Fall können die Gruppen als Python-Wörterbuch extrahiert werden:

In [35]:
email4 = re.compile(r'(?P<user>[\w.]+)@(?P<domain>\w+)\.(?P<suffix>[a-z]{3})')
match = email4.match('guido@python.org')
match.groupdict()

{'user': 'guido', 'domain': 'python', 'suffix': 'org'}

Die Kombination dieser Ideen (sowie einige der mächtigen regexp-Syntax, die wir hier nicht behandelt haben) ermöglicht es uns, flexibel und schnell Informationen aus Zeichenketten in Python zu extrahieren.

### Weitere Ressourcen zu regulären Ausdrücken

Die obige Diskussion ist nur eine kurze (und bei weitem nicht vollständige) Behandlung dieses umfangreichen Themas.
Wer mehr erfahren möchte, dem seien die folgenden Quellen empfohlen:

- [Python's ``re`` package Documentation](https://docs.python.org/3/library/re.html): tolle Übersicht, um sich daran zu erinnern, was die einzelnen Zeichen oder Sequenzen innerhalb eines regulären Ausdrucks bedeuten.
- [Python's official regular expression HOWTO](https://docs.python.org/3/howto/regex.html): ein eher erzählerischer Ansatz für reguläre Ausdrücke in Python.
- [Mastering Regular Expressions (OReilly, 2006)](http://shop.oreilly.com/product/9780596528126.do) ist ein über 500 Seiten starkes Buch zu diesem Thema. Wer eine wirklich umfassende Behandlung dieses Themas wünscht, ist hier genau richtig.