# Reguläre Ausdrücke

## Was sind reguläre Ausdrücke?
Reguläre Ausdrücke stammen aus dem Gebiet der Automatentheorie, die
wiederum Teil der theoretischen Informatik ist. Zu jedem regulären Ausdruck
(regulär deshalb, weil zur Familie der regulären Sprachen gehörend) besteht
ein endlicher Automat, der den Ausdruck akzeptiert. Ein endlicher Automat ist
einfach eine Zustandsmaschine mit einer endlichen Menge von Zuständen, die
diese einnehmen kann.

In der Praxis werden reguläre Ausdrücke vor allem zum Mustervergleich auf
Zeichenketten angewendet.

Diese Ausdrücke sind weitgehend sprachübergreifend:
Bis auf einige kleine Abweichungen lässt sich eine *regular expression* in
Programmiersprachen wie Python, Perl oder Java gleich oder zumindest sehr ähnlich 
schreiben. Auch
viele Texteditoren bieten ebenso Unterstützung für reguläre Ausdrücke wie
z.B. auch MS Word.


## Wozu reguläre Ausdrücke?

Wir haben bisher einige Möglichkeiten kennen gelernt, in einem String nach einem Substring zu suchen.

Den in-Operator überprüft, ob ein Substring im String vorkommt:

In [None]:
firstnames = ['Astrid', 'Ines', 'Christoph', 'Markus', 'Çınar', 
              'Đželila', 'Niklas', 'Anna', 'Stefanie', 'Raphael', 
              'Anna-Lena', 'Silvia', 'Julian', 'Simon', 'Katharina', 
              'Michael', 'Dominik', 'Maria', 'Kevin', 'Bianca', 
              'Thomas', 'Nora', 'Manuel', 'Selina', 'Gabriel', 
              'Daniel', 'Thomas', 'Nina', 'Michael', 'Fabio', 
              'Theresa', 'Manuel', 'Carina', 'Philipp', 'Lukas', 
              'Wolfgang', 'Anna', 'Doris', 'Thomas', 'Muhammed', 
              'Christoph', 'Lisa-Marie', 'Jessica', 'Maria', 
              'Thomas', 'Florian', 'Martin', 'Anna', 'Oliver', 
              'Gregor', 'Helmut', 'Florian', 'Matteo', 'David', 
              'Marlene', 'Vanessa', 'Lea', 'Jan', 'Béla', 'Verena', 
              'Manuel', 'Björn', 'Tobias', 'Denise', 'Emma', 'Lukas', 
              'Sarah', 'Oliver', 'Janine', 'Manuel', 'Georg', 'Lorenz', 
              'Verena', 'Caroline', 'Laura', 'Felix', 'Simon', 'Lea', 
              'Peter', 'Sandra', 'Julia', 'Sophie', 'Jacqueline', 
              'Nina', 'Sebastian', 'David', 'Matthias', 'Patrick', 
              'Selina', 'Fabian', 'Daniel', 'Sabine', 'Josef', 'Lisa', 
              'Carina', 'Florian', 'Fabian', 'Viktoria', 'Christoph', 
              'Emilia']
for firstname in firstnames:
    if 'ie' in firstname:
        print(firstname)

startswith() und endswith() testen, ob ein String mit einem Substring beginnt oder endet:

In [None]:
[firstname for firstname in firstnames if firstname.startswith('A')]

In [None]:
[firstname for firstname in firstnames if firstname.endswith('o')]

Reguläre Ausdrücke (oder regular expressions) erweitern die Möglichkeiten, in einem String nach einem Muster zu suchen, enorm. Sie sind auch nicht Python-spezifisch, sondern wie bereits gesagt, in den meisten Programmiersprachen und vielen Texteditoren verfügbar.

Ein regulärer Ausdruck ist ein in einer speziellen Syntax geschriebenes Muster, das auf einen String angewendet wird.

Hier gleich ein Tipp: Komplexere reguläre Ausdrücke sind oft schwer zu verstehen. Erfahrungsgemäß hilft hier die Verwendung interaktiver oder sogar visualisierender Regex-Tester. Hier zwei Empfehlungen:

* https://pythex.org/ 
* oder noch schöner mit Visualisierung: https://www.debuggex.com/

## Reguläre Ausrücke in Python

In Python werden reguläre Ausdrücke über das Modul `re` aus der Standard Library bereitgestellt. Alternativ gibt es das etwas neuere `regex` Modul, das wir zuerst via pip oder conda installieren müßten. Hier verwenden wir das überall bereits verfügbare Modul `re`.

In [None]:
import re

Das re-Modul stellt eine Reihe von Funktionen bereit, darunter die Funktion `search()`, mit der nach einem Muster in
einem String gesucht werden kann. `search()` erwartet zwei Argumente: das zu suchende Muster und den String, auf den das Muster anzuwenden ist.

Wird das Muster gefunden, liefert `search()` ein `Match`-Objekt:

In [None]:
re.search('de', 'abcdef')

Wird das Muster nicht gefunden, liefert `search()` statt eines ``Match``-Objekts `None` zurück: 

In [None]:
print(re.search('xyz', 'abcdef'))

Dasselbe hätte wir allerdings auch mit einem simplen 

```python
'xyz' in 'abcdef'
``` 

erreichen können:

In [None]:
'xyz' in 'abcdef'

Die Mächtigkeit von regulären Ausdrücken ergibt sich erst aus der Möglichkeit, komplexere Muster zu definieren.

## Muster

### Auf Anfang des Strings testen
Reguläre Ausdrücke verwenden das Zeichen `^` (links oben auf der Tastatur) um den Anfang des Strings zu markieren. Ist das erste Zeichen des Musters ein '^', dann muss das darauf folgende Muster am Anfang des Strings vorkommen:

In [None]:
re.search('^ab', 'abc')

liefert ein Match-Objekt, 

In [None]:
re.search('^ab', 'cab')

dagegen findet das Muster nicht: ``ab`` kommt zwar im String vor, jedoch nicht am Anfang des Strings.

### Auf Ende des Strings testen

Reguläre Ausdrücke verwenden das Zeichen `$` um das Ende des Strings zu markieren:

In [None]:
re.search('z$', 'xyz')

liefert einen Treffer, weil ``z`` am Ende des Strings vorkommt.

In [None]:
re.search('z$', 'xyz!')

liefert keinen Treffer, weil ``z`` nicht das letzte Zeichen des Strings ist.

<div class="alert alert-block alert-info">
<b>Übung Regex-1</b>
<p>Etwas zum Nachdenken: Auf welchen String passt das folgende Muster?</p>
</div>

In [None]:
re.search('^abc$', '')

### Beliebige Zeichen und Quantoren

Der  Punkt steht in einem regulären Ausdruck für jedes beliebige Zeichen.

In [None]:
re.search('v.n', 'Guido van Rossum')

In [None]:
re.search('v.n', 'Anton von Webern')

liefert also in beiden Fällen einen Treffer, weil das Muster  ``v.n`` sowohl auf ``van`` als auch auf ``von`` passt.

Jedes Zeichen lässt sich mit einem *Quantor* kombinieren, der angibt, wie oft das Zeichen an dieser Stelle vorkommen muss. Folgende Quantoren sollten Sie kennen:

* `*`: Das Stern-Zeichen bedeutet 0 bis beliebig viele Wiederholungen.
* `+`: Das Plus steht für eine oder mehr Wiederholungen
* `?`: Das Fragezeichen steht für keine oder eine Wiederholung

#### Beliebig viele Wiederholungen (*)

Ein Quantor kann mit jedem Zeichen kombiniert werden. Hier kombinieren wir den Quantor `*` mit dem Zeichen `a`, was soviel bedeutet wie: *An dieser Stelle kann keinmal, einmal oder beliebig oft das Zeichen `a` erscheinen.*

In [None]:
import re

for s in ['Pr', 'Par', 'Paar', 'Paaar']:
    if re.search('Pa*r', s):
        print(s)

Kombiniert man den Quantor `*` mit dem Platzhalterzeichen '.', so bedeutet das, dass an dieser Stelle jedes Zeichen beliebig oft vorkommen kann, es wird also eine beliebige Menge beliebiger Zeichen damit abgedeckt. 

In [None]:
re.search('G.*v', 'Guido van Rossum')

Das Muster passt auf `Guido v`, weil zwischen dem `G` und dem `v` beliebig viele Zeichen erlaubt sind. 
Beliebig viele inkludiert aber auch *keine*, wie wir an diesem Beispiel sehen können:

In [None]:
re.search('R.*o', 'Guido van Rossum')

obwohl das `o` in `Rossum` unmittelbar auf das `R` folgt, also kein weiteres Zeichen dazwischen steht, passt unser Muster. 

#### Eine oder mehr Wiederholungen (+)
Verwenden wir statt `*` den Quantor `+` (1 oder mehr Wiederholungen) passt das Muster für `Ro` nicht mehr, weil ``+`` mindestens 1 Zeichen an dieser Position erfordert:

In [None]:
re.search('R.+o', 'Guido van Rossum')

Dieses Muster wird hingegen nach wie vor gefunden:

In [None]:
re.search('G.+v', 'Guido van Rossum')

#### Keine oder eine Wiederholung (?)
Das folgende Beispiel (`R.?s`) passt, weil das Fragezeichen für keine oder eine Wiederholung steht, auf z.B. `Ros` oder `Rus`, aber auch auf `Rs`, aber nicht auf `Roos`.

In [None]:
for s in ['Ros', 'Rus', 'Rxs', 'Rs', 'Roos']:
    if re.search('R.?s', s):
        print(s)

#### Eine bestimmte Zahl von Wiederholungen
Wenn wir ein Muster festlegen wollen, in dem genau zwei Wiederholungen erwartet werden, können wir das so angeben: `{2}`

In [None]:
for s in ['Rs', 'Ras', 'Raas', 'Raus', 'Raaas']:
    if re.search('R.{2}s', s):
        print(s)

Hier suchen wir also nach Teilstrings, wo zwischen ``R`` und ``s`` genau zwei (beliebige) Zeichen stehen.

#### Ein Intervall von Wiederholungen
Es ist auch möglich, im Muster festzulegen, dass z.B. 1, 2 oder 3 Wiederholungen des Zeichens erlaubt sind. Dazu werden zwei Zahlen (min, max) zwischen die geschwungenen Klammern geschrieben:

In [None]:
for s in ['Rs', 'Ras', 'Rees', 'Riiis', 'Roooos']:
    if re.search('R.{1,3}s', s):
        print(s)

#### Quantoren funktionieren nicht nur mit Platzhaltern
Noch einmal zur Erinnerung: Quantoren können nicht nur zusammen mit dem Platzhalterzeichen `.` verwendet werden, sondern mit allen Zeichen oder Zeichenklassen:

In [None]:
for s in ['Pr', 'Par', 'Pur', 'Paar', 'Paur', 'Paaar']:
    if re.search('a+', s):
        print(s)

**Übung**: versuchen Sie das obige Beispiel auch mit anderen Quantoren!

## Muster sind gierig
Eine Regex-Engine versucht immer das breiteste Muster zu finden. Das wird deutlicher, wenn wir im nächsten Beispiel statt `re.search()` `re.findall()` verwenden. Diese Funktion liefert kein Match-Objekt, sondern eine Liste aller Substrings auf die das Muster passt, die Regeln für das Muster sind aber dieselben.

In [None]:
re.findall('G.*o', 'Guido van Rossum')

Der gefundene Teilstring ist nicht, wie man vielleicht erwarten könnte, `Guido`, sondern der längste String, auf den das Muster passt: `Guido van Ro`. 
Da dies nicht immer erwünscht ist, können wir einen Quantor durch ein nachgestelltes Fragezeichen als *non-greedy* markieren:

In [None]:
re.findall('G.*?o', 'Guido van Rossum')

Das ``?`` nach dem Quantor ``*`` bedeutet also: Brich ab, sobald du ein Muster gefunden hast (d.h. versuche nicht, ein breiteres Muster zu finden).

Um noch die Funktionsweise von `findall()` zu demonstrieren, ein weiteres Beispiel:

In [None]:
re.findall('.aa.', 'Ein paar Paare ohne Haar')

### Groß- und Kleinschreibung ignorieren
Normalerweise wird bei regulären Ausdrücken zwischen Groß- und Kleinschreibung unterschieden:

In [None]:
re.findall('a.{0,2}', 'Anton arbeitet am liebsten allein.')

Wenn wir diese Unterscheidung nicht wollen, müssen wir die Regex-Funktion mit dem Flag re.I (oder: re.IGNORECASE) aufrufen:

In [None]:
re.findall('a.{0,2}', 'Anton arbeitet am liebsten allein.', re.I)

Nun passt das Muster auch auf `'Ant'`.

## Zeichenklassen
Bisher haben wir nur Muster definiert, die entweder ein bestimmtes Zeichen oder einen Platzhalter für alle Zeichen verwenden. Oft wäre es aber nützlich, wenn wir nur auf bestimmte Zeichen (also eine Teilmenge von Zeichen), wie zum Beispiel alle Vokale testen könnten. Regular Expressions stellen dazu das Konzept der *Zeichenklasse* zur Verfügung. 
Alle Zeichen innerhalb eckiger Klammern werden als Mitglieder der Zeichenklasse betrachtet. Der Ausdruck `[aeiou]` passt somit auf jeden Vokal.

In [None]:
re.findall('[aeiou]{2}', 'Anton arbeitet am liebsten allein.')

findet alle Stellen, wo zwei Vokale aufeinander folgen.

Die Klasse aller Kleinbuchstaben können wir so angeben: `[a-z]`

In [None]:
re.findall('[a-z]', 'Anton arbeitet am liebsten allein.')

Das funktioniert auch für Ziffern: `[0-9]`

In [None]:
re.findall('[0-9]', 'Anton hat 1 Pferd und 2 Katzen.')

<div class="alert alert-block alert-info">
<b>Übung Regex-2</b>
<p>
Schreiben Sie den folgenden Ausdruck so um, dass das Ergebnis `['12', '3']` ist:    
</p>    
</div>



In [None]:
re.findall('[0-9]', 'Anna hat 12 Kühe Pferd und 3 Hunde.')

Entsprechend bildet ``[A-Z]`` die Klasse alle Großbuchstaben und ``[a-zA-Z]`` die Klasse aller Groß- und Kleinbuchstaben:

In [None]:
re.findall('[a-zA-Z]', 'Anton arbeitet am liebsten allein.')

### Vordefinierte Zeichenklassen

Einige Zeichenklassen sind vordefiniert und können uns das Leben erheblich erleichtern:

  * `\s` steht für Whitespace (Leerzeichen, Tabulatoren, 
    Zeilenumbrüche usw.)
  * `\S` steht für jedes Zeichen, dass kein Whitespace ist. (Diese
    Umkehrung durch Großschreibung funktioniert
    für alle hier vorgestellten Zeichenklassen)
  * `\b` steht für word *boundary*, also einen Worttrenner. 
  * `\d` steht für ein `decimal digit`, eine Ziffer in irgendeinem
    Zeichensystem, das in Unicode definiert ist (Siehe [hier]
    (http://www.fileformat.info/info/unicode/category/Nd/list.htm)).
  * `\w` steht für ein "Wortzeichen". In ASCII entspricht 
    das [a-zA-Z0-9_]

Da manche Backslash-Kombinationen (wie `\b`) auf Stringebene bereits eine besondere Bedeutung tragen (sie erinnern sich an ``\n``?), müssen wir sie bei der Verwendung in einem regulären Ausdruck entweder durch einen zweiten Backslash escapen oder den Ausdruck als *Raw String* schreiben (gekennzeichnet durch ein vor den String gestelltes `r`). Dieses Beispiel funktioniert nicht:

In [None]:
re.findall('\b[A-Z]\w*', 'Anton hat 1 Pferd und 2 Katzen.')

Das hingegen schon:

In [None]:
re.findall('\\b[A-Z]\w*', 'Anton hat 1 Pferd und 2 Katzen.')

Grundsätzlich sollten Sie sich zur Angewohnheit machen, Muster immer als *Raw Strings* zu schreiben, indem sie ein `r` vor den Ausdruck stellen:

In [None]:
re.findall(r'\b[A-Z]\w*', 'Anton hat 1 Pferd und 2 Katzen.')

Dieses neue Wissen können wir wir zum Beispiel anwenden, um alle Wörter zu finden, in denen zwei Vokale aufeinander folgen:

In [None]:
s = "Ein paar Paare in der Bar machen ohne Haare viele Klare alle"
re.findall(r'\b\w*[aeiou]{2}\w*', s)

Noch einmal zur Erinnerung: `\b` steht für word boundary, was wir hier zum Trenner in Wörter benötigen; `\w` für ein Wortzeichen (``[a-zA-Z0-9_]``), von denen im Wort vor und nach dem gesuchten Vokalpaar beliebig viele vorkommen dürfen.

### Alternativen

Eine Zeichenklasse steht immer für ein einzelnes Zeichen im String. Falls wir nach einer von mehreren Zeichenkombinationen suchen wollen, brauchen wir statt Zeichenklassen **Alternativen**:

In [None]:
s = 'Anton hat 1 Pferd, 2 Hunde und 3 Katzen'
re.findall(r'Katzen|Pferd|Hunde', s)

Wenn wir unabhängig von der Ein- oder Mehrzahl suchen wollen, können wir den ``?`` Quantor verwenden. Zur Erinnerung: ``?`` bedeutet, dass das davor stehende Zeichen keinmal oder einmal vorkommen kann. ``Pferde?``
matcht also mit ``Pferd`` und ``Pferde``. Damit können wir unser Muster flexibler gestalten:

In [None]:
s = 'Anton hat 1 Pferd, 2 Hunde und 3 Katzen'
re.findall(r'Katzen?|Pferde?|Hunde?', s)

Wir können uns sogar die Zahl der Tiere mitausgeben lassen, wenn wir davon ausgehen, dass die Zahl vor dem Tier steht und auf die Zahl ein oder mehrere Whitespace-Zeichen folgen:

In [None]:
s = 'Anton hat 1 Pferd, 2 Hunde und 3 Katzen'
re.findall(r'\d+\s+Pferde?|\d+\s*Hunde?|\d+\s*Katzen?', s)

Greifen wir das Beispiel von oben mit den Vokalen noch einmal auf. Falls wir nur an Wörtern mit Doppelvokalen (und nicht an zwei aufeinander folgenden Vokalen) interessiert sind, können wir mit *Alternativen* arbeiten:

In [None]:
s = "Ein paar Paare in der Bar machen ohne Haare viele Klare alle"
re.findall(r'\b\w*aa\w*|\b\wee\w*|\b\wii\w*|\b\woo\w*|\b\wuu\w*', s)

Dieses Muster lässt sich natürlich auch auf längere Texte anwenden. Finden wir heraus, welche Wörter mit Doppelvokalen Jakob Wassermann verwendet hat:

In [None]:
with open('data/wassermann/der_mann_von_vierzig_jahren.txt') as fh:
    text = fh.read()
re.findall(r'\b\w*aa\w*|\b\wee\w*|\b\wii\w*|\b\woo\w*|\b\wuu\w*', text)

<div class="alert alert-block alert-info">
<b>Übung Regex-3</b>
<p>Finden Sie mit einem Regex-Ausdruck im Mann von vierzig Jahren alle Tokens in denen entweder `straße`, `chaussee` oder `gasse` vorkommt. Suchen Sie unabhängig von der Groß- und Kleinschreibung (case insensitive). </p>
<p> Die Ausgabe wäre natürlich übersichtlicher, wenn jedes Wort nur einmal vorkommen und die gefundenen Wörter alphabetisch sortiert ausgegeben würden.</p>
</div>


## Match-Objekte

Zur Auffrischung: `re.search()`, das wir bereits kennengelernt haben, liefert, wenn das Muster gefunden wurde, ein Match-Objekt:

In [None]:
text = 'Guido van Rossum'
re.search('v.n', text)

Weisen wir das Match-Objekt einer Variable zu, um es genauer zu untersuchen:

In [None]:
m = re.search('v.n', text)
dir(m)

Ein Match-Objekt hat Funktionen, mit denen wir die Position des Match im String feststellen können:

In [None]:
print(m.start(), m.end())

Die Methode `span()` liefert uns beide Werte als Tupel:

In [None]:
m.span()

Besonders interessant sind die beiden Methoden `groups()` und `group()`. Damit wir diese nutzen können, müssen wir zuerst ein weiteres wichtiges Konzept von regulären Ausdrücken kennen lernen: *Gruppierungen*.

Wir haben oben an einem Beispiel gesehen, wie wir bestimmte Tiere mit ihrer Zahl extrahieren konnten:

In [None]:
s = 'Anton hat 1 Pferd, 2 Hunde und 3 Katzen'
re.findall(r'\d+\s+Pferde?|\d+\s*Hunde?|\d+\s*Katzen?', s)

`search()` liefert nur den ersten Treffer als Match-Objekt:

In [None]:
re.search(r'\d+\s+Pferde?|\d+\s*Hunde?|\d+\s*Katzen?', s)

Wollen wir diese Daten weiter verarbeiten, wäre es nicht schlecht, die Zahl von der Tierart zu trennen. Dazu müssen wir unseren Ausdruck durch runde Klammern gruppieren. 

In [None]:
re.search(r'(\d+)\s+(Pferde?|Hunde?|Katzen?)', s)

``(\d)`` bildet die erste Gruppe, ``(Pferde?|Hunde?|Katzen?)`` die zweite Gruppe.

Auf den ersten Blick ist kein Unterschied zu sehen. Allerdings gibt es einen wesentlichen Unterschied im Match-Objekt: ``groups()`` liefert die Teilstrings die auf die einzelnen Gruppen passen:

In [None]:
m = re.search(r'(\d+)\s+(Pferde?|Hunde?|Katzen?)', s)
m.groups()

### Kleiner Exkurs: Tiere zählen
Mit diesem Wissen können wir zählen, wie viele Pferde, Hunde und Katzen in einem Text vorkommen. Da `re.search()` immer nur den ersten Treffer liefert, müssen wir uns in einer Schleife durch den Text bewegen und so lange rechts vom letzten Treffer weitersuchen, bis kein Treffer mehr vorhanden ist. Dazu können wir die Eigenschaft `string` des Match-Objekts verwenden, die den durchsuchten String beinhaltet, und die Methode `end()`, die die Position des letzten Matches liefert.

In [None]:
s = 'Anton hat 12 Kühe, 1 Pferd, 2 Hunde und 3 Katzen.'
pattern = r'(\d+)\s+(Pferde?|Hunde?|Katzen?|Kuh|Kühe)'
animal_counter = 0
m = re.search(pattern, s)
while m:
    print(m.groups()) # only to show what's happening
    animal_counter += int(m.group(1))
    m = re.search(pattern, m.string[m.end():])  # process rest of string
print("{} Tiere gefunden".format(animal_counter))

### Weiter Funktionen des re-Moduls
Bisher haben wir nur zwei Funktion des re-Moduls kennen gelernt: `search()` und `findall()`. Es gibt aber noch einige weitere sehr nützliche Funktionen.

### match()

`match()` verhält sich wie `search()`, allerdings wird das Muster immer am Anfang des Strings gesucht. Ein `match('abc', s)` entspricht also einem `search('^abc', s)`

In [None]:
re.match('ab', 'abcdef')

In [None]:
re.match('ab', '-abcdef')

### split()
Wir haben bereits die `split()`-Methode des String-Objekt kennengelernt:

In [None]:
'1,2,3,4'.split(',')

`re` stellt eine ähnliche `split()`-Funktion zur Verfügung, bei der wir das Trennzeichen (bzw. den Trennstring) als
regulären Ausdruck angeben können. Dieses Split ist dadurch viel mächtiger. 

Wollen wir etwa einen Text in Sätze zerlegen, müssen wir den Text an jedem Satzzeichen trennen: `.!?`. Mit `re.split()` ist das ganz einfach:

In [None]:
with open('data/wassermann/der_mann_von_vierzig_jahren.txt') as fh:
    text = fh.read()
sentences = re.split(r'[.?!]\s*', text)
print(len(sentences))

Zur Erklärung: Das ``\s*`` am Ende des Musters stellt sicher, dass Whitespace zwischen Sätzen abgestreift wird.

In [None]:
print(sentences[:4])

*Hinweis*: Dieser Vorgang des Zerlegens eines Textes in kleiner Einheiten wie Sätze oder Wörter, nennt man Tokenisierung (tokenizing). Das lässt sich für einfache Fälle mit Regulären Ausdrücken erledigen, besser sind aber spezialisierte Funktionen, wie sie von Pakete zur Verarbeitung natürlicher Sprachen (z.B. NLTK) bereit gestellt werden.

### sub()

Diese Funktion entspricht der `replace()`-Methode des String-Objekts. Allerdings kann der zu ersetzende Substring hier ein Muster sein.
Wir könnten z.B. allen Whitespace in einem String zu einem Leerzeichen normalisieren, um mehrfach vorkommende Leerzeichen, aber auch Tabulatorzeichen, Zeilenumbrüche usw. zu zu einem einzigen Leerzeichen umzuwandeln.

In [None]:
with open('data/wassermann/der_mann_von_vierzig_jahren.txt') as fh:
    text = fh.read()
text = re.sub('\s+', ' ', text)    
sentences = re.split(r'[\.\?\!]\s*', text)
print(sentences[:4])

Jetzt können wir beispielsweise die mittlere Satzlänge (in Zeichen) berechnen:

In [None]:
# Für alle Fälle entfernen wir noch Sätze der Länge 0
sentences = [s for s in sentences if len(s) > 0]
sum([len(s) for s in sentences]) / len(sentences)

Oder die gemittelte Zahl von Wörtern pro Satz, den kürzesten und den längsten Satz:

In [None]:
words_per_sentence = [len(s.split()) for s in sentences] 
print('Mittlere Wortzahl pro Satz:', sum(words_per_sentence) / len(sentences))
print('Der längste Satz hat {} Wörter, der kürzeste {}'.format(max(words_per_sentence), min(words_per_sentence)))

## Vertiefende Literatur
Ich empfehle ausdrücklich, mindestens eine der folgenden Ressourcen zur Vertiefung zu lesen!

  * Python Standard Library: re — Regular expression operations
	(https://docs.python.org/3/library/re.html)
  * A.M. Kuchling: Regular Expression HOWTO 
    (https://docs.python.org/3/howto/regex.html#regex-howto)  
  * Klein, Buch: Kapitel 24.
  * Weigend: Kapitel 13.5.
  * Pilgrim: Kapitel 5
	(https://www.diveinto.org/python3/regular-expressions.html.
  * Sweigart: Kapitel 7.
  * Kofler, Kap. 5.6 (leider sehr kurz)

## Lizenz

This notebook ist part of the course [Grundlagen der Programmierung](https://github.com/gvasold/gdp) held by [Gunter Vasold](https://online.uni-graz.at/kfu_online/wbForschungsportal.cbShowPortal?pPersonNr=51488) at Graz University 2017&thinsp;ff. 

<p>
    It is licensed under <a href="https://creativecommons.org/licenses/by-nc-sa/4.0">CC BY-NC-SA 4.0</a>
</p>

<table>
    <tr>
    <td>
        <img style="height:22px" 
             src="https://mirrors.creativecommons.org/presskit/icons/cc.svg?ref=chooser-v1"/></li>
    </td>
    <td>
    <img style="height:22px;"
         src="https://mirrors.creativecommons.org/presskit/icons/by.svg?ref=chooser-v1" /></li>
    </td>
    <td>
        <img style="height:22px;"
         src="https://mirrors.creativecommons.org/presskit/icons/nc.svg?ref=chooser-v1" /></li>
    </td>
    <td>
        <img style="height:22px;"
             src="https://mirrors.creativecommons.org/presskit/icons/sa.svg?ref=chooser-v1" /></li>
    </td>
</tr>
</table>