# Kleines ReGex Tutorial in Python

In [20]:
# Das re(gex) Modul beinhaltet den Umgang mit Regulären Ausdrücken in Python
import re 

### fullmatch

In [27]:
# Die re.fullmatch( [RegulärerAusdruck], [Zu Überprüfendes Wort]  ) überprüft,
# wie in der Vorlesung ob ein Wort in der Sprache aus einem regulären Ausdruck stammt
# z.b:

matchobject = re.fullmatch(r"a*b*","aaabb")

In [29]:
# Ein Matchobject beinhaltet mehrere Informationen:

# .span() gibt den Start und Endindex des gematchten Worts im String wieder (bei fullmatch immer 0 - ende des Strings)
matchobject.span()

(0, 5)

In [32]:
# .group() gibt den gematchten String zurück (bei fullmatch immer das ganze Wort)
matchobject.group()

'aaabb'

In [34]:
# Für uns eher interessant:
# Wandel es in Wahr oder Falsch (für ist in der Sprache oder nicht um)

'aaabb'

In [38]:
# True für aaabb 
bool(re.fullmatch(r"a*b*","aaabb"))

True

In [39]:
# False für aaacc
bool(re.fullmatch(r"a*b*","aaacc"))

False

### reguläre Ausdrücke

In [40]:
# Werden durch ein r vor dem String gekennzeichnet


In [46]:
R = r"hallo" 
# Ist ein regulärer Ausdruck der genau die Zeichenfolge "hallo" matched
print(bool(re.fullmatch(R,"hallo")))
print(bool(re.fullmatch(R,"hi")))

True
False


In [47]:
R = r"(hallo|hi)"
# | steht für oder/vereinigung also matched genau "hallo" und "hi"
print(bool(re.fullmatch(R,"hallo")))
print(bool(re.fullmatch(R,"hi")))

True
True


In [50]:
R = r"h(((a|e)llo)|i)"
# mit Klammer können operationen getrennt werden
print(bool(re.fullmatch(R,"hallo")))
print(bool(re.fullmatch(R,"hi")))
print(bool(re.fullmatch(R,"hello")))

True
True
True


In [51]:
R = r"(hallo|hi)*"
# * funktioniert wie Kleene Abschluss 
print(bool(re.fullmatch(R,"hallohihallohihi")))

True


In [58]:
R = r"."
# . Steht für ein belieiges Zeichen
print(bool(re.fullmatch(R,".")))
print(bool(re.fullmatch(R,"x")))

# So kann zb nur am Anfang eines längeren Strings überprüft werden:
R = r"Hallo.*"
print(bool(re.fullmatch(R,"Hallo, mein Name ist Dieter")))

True
True
True


In [60]:
R = r"[abc]"
# [] stehen für eine Auswahl an einzelnen Charakters wäre also das gleiche wie (a|b|c) hier.
print(bool(re.fullmatch(R,"a")))

# mit - kann man eine größeres Auswahl treffen:
R = r"[A-Z]"
# bedeutet alle großen Buchstaben.
print(bool(re.fullmatch(R,"U")))



True
True


In [61]:
R = r"[A-Z][a-z]*"
# Überprüft also ob ein Wort mit einem großen Buchstaben beginnt

print(bool(re.fullmatch(R,"hallo")))
print(bool(re.fullmatch(R,"Hallo")))

False
True


In [63]:
# mit \ kann man Sonderzeichen escapen:
# will man also nur * matchen:
R = r"\*"
print(bool(re.fullmatch(R,"*")))
print(bool(re.fullmatch(R,"a")))

True
False


## Aufgabe
Schreibe einen Regulären Ausdruck der nur genau auf Emailadressen matched. Also beginnt mit einer beliebigen Anzahl an Buchstaben, dann ein 
@, dann wieder beliebige Buchstaben, dann ein "mail". Dann ein Punkt und dann entweder "com" oder "de"