In [5]:
import re

In [1]:
string = """I have no special talents. I am only passionately curious.

― Albert Einstein"""

string

'I have no special talents. I am only passionately curious.\n\n― Albert Einstein'

In [2]:
print(string)

I have no special talents. I am only passionately curious.

― Albert Einstein


### Suchbefehle

In [6]:
# Suche am Anfang des Textes (kein match)
re.match(r'e', string)

In [7]:
# Suche am Anfang des Textes (match)
re.match(r'I', string)

<re.Match object; span=(0, 1), match='I'>

In [21]:
# Suche im gesamten Text
re.search(r'e', string)

<_sre.SRE_Match object; span=(6, 7), match='e'>

In [9]:
# Extraktion des 1. Matches
re.search(r'e', string)[0]

'e'

In [10]:
# Extraktion des 2. Matches
re.search(r'e', string)[1]

IndexError: no such group

In [27]:
# Suche im gesamten Text (Extraktion aller Matches)
re.findall(r'e', string)

['e', 'e', 'e', 'e', 'e', 'e']

In [20]:
# Case-insensitive Suche
print(re.findall(r'A', string))
print(re.findall(r'A', string, flags=re.IGNORECASE))

['A']
['a', 'a', 'a', 'a', 'a', 'a', 'A']


In [28]:
# Suche nach Wörtern
re.search(r'curious', string)[0]

'curious'

In [29]:
re.search(r'Curious', string)

In [31]:
# Case-insensitive Suche
print(re.search(r'Curious', string))
print(re.search(r'CURIOUS', string, flags=re.IGNORECASE))

None
<re.Match object; span=(50, 57), match='curious'>


### Metacharacters

In [32]:
string = "abcABC123.: !?"

In [45]:
# Suche nach beliebigem Zeichen (inkl. Leerzeichen)
re.findall(r'.', string)

['a', 'b', 'c', 'A', 'B', 'C', '1', '2', '3', '.', ':', ' ', '!', '?']

In [33]:
string = "bar ber bir bor bur"

In [34]:
re.findall(r'bar', string)

['bar']

In [50]:
# Suche nach bestimmter Zeichenklassen
re.findall(r'b[aeiou]r', string)

['bar', 'ber', 'bir', 'bor', 'bur']

In [35]:
# Suche nach Zeichen außer der bestimmten Zeichenklassen (Negation/Komplement)
re.findall(r'b[^ae]r', string)

['bir', 'bor', 'bur']

In [37]:
string = "abcdefghijklmnopqrstuvwxyz0123456789"

In [38]:
# Suche nach bestimmter Zeichenklassen (ineffizient)
re.findall(r'[defghijk]', string)

['d', 'e', 'f', 'g', 'h', 'i', 'j', 'k']

In [61]:
# Suche nach bestimmter Zeichenklassen (effizient)
re.findall(r'[d-k]', string)

['d', 'e', 'f', 'g', 'h', 'i', 'j', 'k']

In [39]:
re.findall(r'[2-5]', string)

['2', '3', '4', '5']

In [40]:
string = "abcdefghijklm[hallo]nopqrstuvwxyz.0123456789"

### Escape Character

In [41]:
re.findall(r'\.', string)

['.']

In [42]:
re.findall(r'\[hallo\]', string)

['[hallo]']

### Wiederholungen

In [51]:
string = "br ber beer beeer beeeer"

In [52]:
# Das Zeichen `e` kann beliebig häufig auftreten
re.findall(r'be*r', string)

['br', 'ber', 'beer', 'beeer', 'beeeer']

In [53]:
# Das Zeichen `e` kann einmal oder mehrmals auftreten
re.findall(r'be+r', string)

['ber', 'beer', 'beeer', 'beeeer']

In [54]:
# Das Zeichen `e` kann einmal oder keinmal auftreten
re.findall(r'be?r', string)

['br', 'ber']

In [88]:
# Das Zeichen `e` kann genau zwei mal auftreten
re.findall(r'be{2}r', string)

['beer']

In [89]:
# Das Zeichen `e` kann zwei bis vier mal auftreten
re.findall(r'be{2,4}r', string)

['beer', 'beeer', 'beeeer']

### Anchors

In [45]:
string = "stream cream beam seamless Raheem"

In [46]:
re.findall(r'.*eam', string)

['stream cream beam seam']

In [65]:
# Die Zeichenfolge muss zu Beginn des strings auftreten
re.findall(r'^s.{0,2}eam', string)

['stream']

In [66]:
# Die Zeichenfolge muss zu Beginn des strings auftreten
re.findall(r'^c.{0,2}eam', string)

[]

In [67]:
# Die Zeichenfolge muss am Ende des strings auftreten
re.findall(r'eem$', string)

['eem']

In [68]:
# Die Zeichenfolge muss am Ende des strings auftreten
re.findall(r'eam$', string)

[]

### Groups

In [62]:
string = "2022-06-10 and 2020-June-10"

In [63]:
match = re.search(r'([0-9]{4})-([0-9]{2})-([0-9]{2})', string)
match

<re.Match object; span=(0, 10), match='2022-06-10'>

In [64]:
print("Gesamter Match:\t\t", match.group(0))
print("Jahr (1. Gruppe):\t", match.group(1))
print("Monat (2. Gruppe):\t", match.group(2))
print("Tag (3. Gruppe):\t", match.group(3))

Gesamter Match:		 2022-06-10
Jahr (1. Gruppe):	 2022
Monat (2. Gruppe):	 06
Tag (3. Gruppe):	 10


### Alternations

In [66]:
string = "I prefer TEXT DATA over tabular data"

In [67]:
re.findall(r'DATA|data', string)

['DATA', 'data']

### Andere spezielle Zeichen

In [68]:
string = "abc ABC\n123 .:\t!-_?"
print(string)

abc ABC
123 .:	!-_?


In [69]:
# Suche nach Buchstaben, Zahlen und Unterstrichen
re.findall(r'\w', string)

['a', 'b', 'c', 'A', 'B', 'C', '1', '2', '3', '_']

In [88]:
# Suche nach Zahlen
re.findall(r'\d', string)

['1', '2', '3']

In [89]:
# Suche nach Leerzeichen 
re.findall(r'\s', string)

[' ', '\n', ' ', '\t']