**Web Scraping und Data Mining in Python**


# Reguläre Ausdrücke

Jan Riebling, *Universität Wuppertal*

# RegEx

> Some people, when confronted with a problem, think “I know, I'll use regular expressions.” Now they have two problems.

> *Jamie Zawinski* 	 # Reguläre Ausdrücke

## Reguläre Ausdrücke

Spezifizieren eine Auswahl aus einem endlichen Zeichenvorrat (Alphabet) $\Sigma$. Im Prinzip handelt es sich um eine sehr elgante Art Teile von Zeichenketten auszuwählen.

Sie stehen in fast allen Betriebssystemen und Programmiersprachen zur Verfügung (siehe [hier](https://www.regular-expressions.info/)).

## Formale Definition

Wenn $x$ und $y$ reguläre Ausdrücke sind, dann sind:

2. Verkettung: $(xy)$
1. Alternative: $(x|y)$
3. Wiederholung (Kleene-Stern): $(x^*)$

ebenfalls valide, reguläre Ausdrücke.

## `re`

Pythons [Modul](https://docs.python.org/3/library/re.html) für reguläre Ausdrücke. Kann sowohl als Methode, als auch als Funktion gerufen werden. Es empfiehlt sich reguläre Muster als *raw string* zu schreiben (`r''`). In einem raw string werden backslashes als normale Zeichen aufgefasst und verlieren ihre Sonderfunktion.

Tutorials und zusätzliche Infos:

* [PyDocs RegEx HowTo](https://docs.python.org/3/howto/regex.html)
* [Online RegEx-Tester](https://regexr.com/)

In [None]:
import re

## Funktion

* Pattern als Argument der Funktion:
    * `match = re.match(pattern, string)`
    * `match = re.search(pattern, string)`
* Treffer durch string substitution ausgeben:
    * `match.group()`

In [None]:
## As a function call:
print(re.match(r'am', 'Spam, Eggs and Bacon'))  # Matches only at the beginning of the string.
print(re.search(r'am', 'Spam, Eggs and Bacon')) # Matches first occurence.

In [None]:
## Returns either match-object or None
## To find the matched string:
match = re.search(r'am', 'Spam, Eggs and Bacon')
print(match.group())

## Methode

* Gewünschtes Muster als RegEx Objekt initialisieren:
    * `regex = re.compile(pattern)`
* RegEx Objekt gegen String prüfen:
    * `match = regex.match(string)`
    * `match = regex.search(string)`
* Treffer durch string substitution ausgeben:
    * `match.group()`

In [None]:
## As an instance of a re-object:
pattern = re.compile(r'a')

print(pattern.search('Spam, Eggs and Bacon'))
print(pattern.search('Spam, Eggs and Bacon').group())

## Spezialisierte Funktionen

Dokumentation [hier](https://docs.python.org/3/library/re.html#module-contents).

`re.findall(pattern, string, flags=0)`: Gibt eine Liste mit allen Vorkommnissen von `pattern` in `string` zurück.

`re.sub(pattern, repl, string, count=0, flags=0)`: Ersetzt alle Vorkommnisse von `pattern` in `string` mit `repl`.

`re.split(pattern, string, maxsplit=0, flags=0)`: Teilt `string` entlang `pattern` auf.

## Verkettung

Reguläre Ausdrücke können miteinander konkateniert werden. D.h. sie können in Form einer Sequenz aufgeschrieben werden und werden auch genau in dieser Reihenfolge verarbeitet.

In [None]:
print(re.findall(r'a', 'Spam, Eggs and Bacon'))

## Alternative

Reguläre Ausdrücke lassen ein einfaches "oder" zu, damit wird an der entsprechenden Stelle zwischen mehreren Alternativen unterschieden.

In [None]:
re.findall(r'm|a', 'Spam, Eggs and Bacon')

## Wiederholungen
Spezifiziert Anzahl der Wiederholungen des vorangegangenen regulären Ausdrucks $x$. Folgende Wiederholungen sind möglich:

Syntax | Bedeutung
-|-
`*` | 0 oder mehr Wiederholungen
`+` | 1 oder mehr Wiederholungen
`{m}` | Genau `m` Wiederholungen
`{m,n}` | Von `m` bis einschließlich `n`
`?` | 0 bis 1 Wiederholungen; Schaltet greedy ab.

Die Wiederholungen sind standardmäßig *greedy*, d.h. es wird soviel vom String verbraucht, wie möglich. Dieses Verhalten kann abgeschaltet werden, indem ein `?` nach der Wiederholung gesetzt wird.

In [None]:
re.findall(r'g+', 'Spam, Eggs and Bacon')

## Sonderzeichen

Folgende Zeichen haben besondere Bedeutungen in regulären Ausdrücken:

Zeichen | Bedeutung
-|-
`.`| Beliebiges Zeichen. Mit `DOTALL` auch die Newline (`\n`).
`^`| Anfang eines Strings. Wenn `MULTILINE`, dann auch nach jedem `\n`.
`$`| Ende des Strings. Wenn `MULTILINE`, dann auch vor jedem `\n`.
`\`| Escape für Sonderzeichen oder bezeichnet eine bestimmte Menge von Zeichen.
`[]`| Definiert eine Menge von Zeichen.
`()`| Definiert den Scope, d.h. legt Gruppen fest.  

In [None]:
## .* is always greed!
print(re.sub(r'<.*>', '', '<p>text</p>'))

## Übung: Kreuzworträtsel

Identifizieren sie folgende Worte im Text:

1. Das erste Wort mit 5 Zeichen Länge und einem 'm' in der Mitte.
2. Alle die mit einem 'f' beginnen und mit einem 'l' enden sowie 8 Zeichen lang sind.
3. Alle die 5 Zeichen lang sind und mit einem 'b', 'w' oder 'p' beginnen.

Hinweis: Wortgrenzen werden in RegEx (PCRE) als `\b` angegeben. 

In [None]:
print(re.findall(r'', 'Spam, Eggs and Bacon', flags=re.DOTALL))

## Spezifizierung von Gruppen

Syntax | Äquivalent | Bedeutung
-|-|-
`\d` | `[0-9]` | Ganze Zahlen
`\D` | `[^0-9]` | Alles was keine Zahl ist
`\s` | `[ \t\n\r\f\v]` | Alles was whitespace ist 
`\S` | `[^ \t\n\r\f\v] ` | Alles was nicht whitespace ist
`\w` | `[a-zA-Z0-9_]` | Alphanumerische Zeichen und Unterstrich
`\W` | `[^a-zA-Z0-9_]` | Kein alphanumerische Zeichen oder Unterstrich

## Übung: Tokenisieren

Alle alphanumerischen Worte ohne Sonderzeichen finden.

In [None]:
dennis = 'DENNIS: Listen, strange women lying in ponds \
distributing swords is no basis for a system of government. \
Supreme executive power derives from a mandate from the \
masses, not from some farcical aquatic ceremony.'

re.findall(r'', dennis)

## Prüfung

Neben der oder-Prüfung können noch weitere logische Prüfungen durchgeführt werden. Dies kann nur in *Scopes* geschehen und wird mit einem `?` eingeleitet. Grundlegende Syntax: `(?`...`)`

Syntax | Bedeutung
-|-
`(?:`...`)` | Substring wird geprüft, aber nicht extrahiert
`(?=`...`)` | Prüft nächsten Substring; *positive lookahead*
`(?!`...`)` | *negative lookahead*
`(?<=`...`)` | *positive lookbehind*
`(?<!`...`)` | *negative lookbehind*

## Übung: Verlaufsform finden

Nutzen sie Prüfungen um Worte mit englischer Verlaufsform zu finden (-ing).

In [None]:
re.findall(r'', dennis)

## Ersetzungen im String

Mit der Funktion `re.sub()` können Ersetzungen in einem String durchgeführt werden. Hiermit sind sehr weitreichende Möglichkeiten der Textmanipulation möglich.

In [None]:
bsp = """Ersetzen sie bei allen Zitaten die eckigen Klammern ([]) 
mit runden Klammern. 
Spezifisch bei Blabla [2010] aber auch bei anderen [z.B.: Foobaz 2009, 17].
"""

re.sub(r'', r'', bsp)

![Regular Expression](https://imgs.xkcd.com/comics/regular_expressions.png)

Und [deshalb](http://www.ex-parrot.com/~pdw/Mail-RFC822-Address.html) ist es hoffnungslos. 