In [None]:
import re

### Suchbefehle

In [None]:
string = """I have no special talents. I am only passionately curious.

― Albert Einstein"""

string

In [None]:
print(string)

In [None]:
# Suche am Anfang des Textes (kein match -> produziert None)
re.match('e', string)

In [None]:
# Suche am Anfang des Textes (match)
re.match('I', string)

In [None]:
# Suche im gesamten Text
re.search('e', string)

In [None]:
# Extraktion des 1. Matches
re.search('e', string)[0]

In [None]:
# Extraktion des 2. Matches
re.search('e', string)[1]

In [None]:
# Suche im gesamten Text + Extraktion aller Matches
re.findall('e', string)

In [None]:
# Case-insensitive Suche
print(re.findall('A', string))
print(re.findall('A', string, flags=re.IGNORECASE))

In [None]:
# Suche nach Wörtern
re.search('curious', string)[0]

In [None]:
re.search('Curious', string)

In [None]:
# Case-insensitive Suche
print(re.search('Curious', string))
print(re.search('CURIOUS', string, flags=re.IGNORECASE))

### Metacharacters

In [None]:
string = "abcABC123.: !?"

In [None]:
# Suche nach beliebigem Zeichen (inkl. Leerzeichen), Ergebnis als Liste
re.findall('.', string)

In [None]:
# Suche nach bestimmter Zeichenklassen
print(re.findall('[a-z]', string))
print(re.findall('[a-zA-Z]', string))

In [None]:
string = "bar ber bir bor bur"

In [None]:
re.findall('bar', string)

In [None]:
# Suche nach bestimmter Zeichenklassen
re.findall('b[aeiou]r', string)

In [None]:
# Suche nach Zeichen außer der definierten Zeichenklassen (Negation/Komplement)
re.findall('b[^ae]r', string)

In [None]:
string = "abcdefghijklmnopqrstuvwxyz0123456789"

In [None]:
# Suche nach bestimmter Zeichenklassen (ineffizient)
re.findall(r'[defghijk]', string)

In [None]:
# Suche nach bestimmter Zeichenklassen (effizient)
re.findall('[d-k]', string)

In [None]:
re.findall('[2-5]', string)

### Escape Character

In [None]:
string = "abcdefghijklm[hallo]nopqrstuvwxyz.0123456789"

In [None]:
# Interpretation von '.' als Metacharacter
re.findall('.', string)

In [None]:
# Interpretation von '.' als Teil des Strings
re.findall('\.', string)

In [None]:
# Interpretation als Zeichenklasse
re.findall('[hallo]', string)

In [None]:
# Interpretation als Teil des Strings
re.findall('\[hallo\]', string)

### Wiederholungen

In [None]:
string = "br ber beer beeer beeeer"

In [None]:
# Das Zeichen `e` kann beliebig häufig auftreten
re.findall('be*r', string)

In [None]:
# Das Zeichen `e` kann einmal oder mehrmals auftreten
re.findall('be+r', string)

In [None]:
# Das Zeichen `e` kann einmal oder keinmal auftreten
re.findall(r'be?r', string)

In [None]:
# Das Zeichen `e` kann genau zwei mal auftreten
re.findall(r'be{2}r', string)

In [None]:
# Das Zeichen `e` kann zwei bis vier mal auftreten
re.findall(r'be{2,4}r', string)

### Anchors

In [None]:
string = "stream cream beam seamless Raheem"

In [None]:
re.findall('.*eam', string)

In [None]:
# Die Zeichenfolge muss zu Beginn des strings auftreten
re.findall('^s.{0,2}eam', string)  # alternativ: re.match('s.{0,2}eam', string)[0]

In [None]:
# Die Zeichenfolge muss zu Beginn des strings auftreten
re.findall('^c.{0,2}eam', string)

In [None]:
# Die Zeichenfolge muss am Ende des strings auftreten
re.findall('eem$', string)

In [None]:
# Die Zeichenfolge muss am Ende des strings auftreten
re.findall('eam$', string)

### Groups

In [None]:
string = "2022-06-10 and 2020-June-10"

In [None]:
# die erste Gruppe besteht aus 4 Zahlen
# die zweite Gruppe besteht aus 2 Zahlen
# die dritte Gruppe besteht aus 2 Zahlen
# die drei Gruppen sind jeweils getrennt durch einen Bindestrich (nicht Teil der Gruppe!)
regex = '([0-9]{4})-([0-9]{2})-([0-9]{2})'

In [None]:
match = re.search(regex, string)
match

In [None]:
print("Gesamter Match:", match.group(0))
print("Jahr (1. Gruppe):", match.group(1))
print("Monat (2. Gruppe):", match.group(2))
print("Tag (3. Gruppe):", match.group(3))

In [None]:
string = "2022-06-10 and 2023-07-12"

In [None]:
re.findall(regex, string)

In [None]:
print(re.findall(regex, string)[0])
print(re.findall(regex, string)[1])

In [None]:
re.findall(regex, string)[0][0]

### Alternations

In [None]:
string = "I prefer TEXT DATA over tabular data"

In [None]:
re.findall('DATA|data', string)

In [None]:
re.findall('data|text|tabular', string, flags=re.IGNORECASE)

### Andere spezielle Zeichen

In [None]:
string = "abc ABC\n123 .:\t!-_?"
print(string)

In [None]:
# Suche nach Buchstaben, Zahlen und Unterstrichen
re.findall('\w', string)

In [None]:
# Suche nach Zahlen
re.findall('\d', string)

In [None]:
# Suche nach Leerzeichen 
re.findall('\s', string)

### Anwendung: Name Matching

In [None]:
coname1 = 'SS&C TECHNOLOGIES HOLDINGS INCORPORATED'
coname2 = 'SS&C Technologies Hldgs Inc.'

print(coname1)
print(coname2)
print(coname1 == coname2)

In [None]:
 # lowercasing
coname1 = coname1.lower()
coname2 = coname2.lower()

print(coname1)
print(coname2)
print(coname1 == coname2)

In [None]:
# remove special characters
coname1 = re.sub(r'[^a-z0-9 ]', '', coname1)
coname2 = re.sub(r'[^a-z0-9 ]', '', coname2)

print(coname1)
print(coname2)
print(coname1 == coname2)

In [None]:
# remove legal forms
coname1 = re.sub(r' (incorporation|incorporated|inc)$', '', coname1)
coname2 = re.sub(r' (incorporation|incorporated|inc)$', '', coname2)

print(coname1)
print(coname2)
print(coname1 == coname2)

In [None]:
# normalize abbreviations
coname1 = re.sub(r'hldgs', 'holdings', coname1)
coname2 = re.sub(r'hldgs', 'holdings', coname2)

print(coname1)
print(coname2)
print(coname1 == coname2)