# Regular Expressions in Python

In Python werden reguläre Ausdrücke oder Regular Expressions oder RegEx über das Modul `re` aus der Standard Library bereitgestellt. Wir haben Regular Expressions bereits beim letzten Mal in https://regex101.com/ getestet. Regular Expressions können in unterschiedlichen Umgebungen verwendet werden, z.B. zum Suchen/Ersetzen in Texteditoren wie Word oder Oxygen oder in Programmiersprachen wie PHP oder Python. Dabei ist darauf zu achten, dass sich die Implementation von Regular Expressions leicht unterscheiden kann.   

Eine Einführung zu Regular Expressions finden Sie bei Gunter Vasold https://github.com/gvasold/gdp/blob/main/05-texte/02-regex.ipynb

In Python gibt es auch andere Möglichkeiten, um in einem String nach einem Substring zu suchen, z.B. über den in-Operator:

In [1]:
firstnames = ['Andreas', 'Christof', 'Franziska', 'Gisela', 'Linda', 
              'Johanna', 'Daniel', 'Georg', 'Melanie', 'Dusan']
for firstname in firstnames:
    if 'ie' in firstname:
        print(firstname)

Daniel
Melanie


Zunächst wird eine Liste mit Namen erzeugt, die über den `=` Operator an die Variable `firstnames` gebunden wird. Danach wird eine for-Schleife verwendet, die über jeden Namen in der Liste iteriert. Bei jeder Iteration wird der aktuelle Name der Variable `firstname` zugewiesen. `if` überprüft, ob der Substring 'ie' im aktuelle Textstring vorhanden ist und gibt den Namen über die Funktion print() zurück.  

Reguläre Ausdrücke (oder regular expressions) erweitern die Möglichkeiten, in einem String nach einem Muster zu suchen, enorm. Ein regulärer Ausdruck ist ein in einer speziellen Syntax geschriebenes Muster, das auf einen String angewendet wird. Zunächst muss aber Modul `re` importiert werden. 

In [2]:
import re

Das `re`-Modul stellt eine Reihe von Funktionen bereit:
* `search()` liefert ein `Match`-Objekt, sofern es einen Math im String gibt. `search()` erwartet zwei Argumente: das zu suchende Muster und den String, auf den das Muster anzuwenden ist.
* `findall()` liefert eine Liste zurück, die alle Matches enthält.
* `sub()` ersetzt einen oder mehrere Treffer durch einen String.
* `split()` liefert eine Liste mit den einzelnen Strings, die durch ein bestimmtes Argument getrennt wurden.  

In [3]:
re.search('rose', 'a rose is a rose is a rose')

<re.Match object; span=(2, 6), match='rose'>

In [4]:
sentence = "a rose is a rose is a rose"
re.search('rose', sentence)

<re.Match object; span=(2, 6), match='rose'>

<div class="alert alert-block alert-info">
<b>Übung Slicing</b>
<ul>
    <li>Mit Slicing können Teile aus einem String zurückgegeben werden. Dazu wird in eckiger Klammer ein Startindex und ein Endindex angegeben, z.B. [1:8].</li>
    <li>Geben Sie aus dem folgenden Satz das erste Vorkommen von "rose" aus.</li>
</ul>
</div>

In [5]:
sentence = "a rose is a rose is a rose"
sentence[2:]

'rose is a rose is a rose'

<div class="alert alert-block alert-info">
<b>Übung Regex</b>
<ul>
    <li>Erzeugen Sie eine Variable und übergeben Sie dieser den Text "Weißt du, was passiert, wenn man sich alle Türen offen hält?"</li>
    <li>Überprüfen Sie mittels Regex, ob der Satz mit einem "Weißt du" beginnt und mit einem "?" endet.</li>
</ul>
</div>

In [6]:
txt = "Weißt du, was passiert, wenn man sich alle Türen offen hält?"
x = re.search("Weißt du.*?", txt)
x.string


'Weißt du, was passiert, wenn man sich alle Türen offen hält?'

Wir haben in unserem Beispiel nicht nur ein Vorkommnis von "rose". Mit der Funktion `findall()` wird eine Liste an Treffern zurückgeliefert.

In [7]:
re.findall('rose', 'a rose is a rose is a rose')

['rose', 'rose', 'rose']

Nun wollen wir eine Datei öffenen und diese 

In [8]:
with open('data/XML.txt', 'r', encoding='utf-8') as fh:
    text_content = fh.read()
text_content[:200]

'Die Extensible Markup Language (dt. Erweiterbare Auszeichnungssprache), abgekürzt XML, ist eine Auszeichnungssprache zur Darstellung hierarchisch strukturierter Daten im Format einer Textdatei, die so'

Beim Einlesen der Daten sollte immer die Zeichenkodierung mit angegeben werden, um fehlerhafte Kodierung zu vermeiden:

In [9]:
with open('data/XML.txt', 'r', encoding='UTF-8') as fh:
    text = fh.read()
text_content #Geben Sie nur die ersten 200 Zeichen aus

'Die Extensible Markup Language (dt. Erweiterbare Auszeichnungssprache), abgekürzt XML, ist eine Auszeichnungssprache zur Darstellung hierarchisch strukturierter Daten im Format einer Textdatei, die sowohl von Menschen als auch von Maschinen lesbar ist.\n\nXML wird auch für den plattform- und implementationsunabhängigen Austausch von Daten zwischen Computersystemen eingesetzt, insbesondere über das Internet, und wurde vom World Wide Web Consortium (W3C) am 10. Februar 1998 veröffentlicht.[1] Die aktuelle Fassung ist die fünfte Ausgabe vom 26. November 2008.[2] XML ist eine Metasprache, auf deren Basis durch strukturelle und inhaltliche Einschränkungen anwendungsspezifische Sprachen definiert werden. Diese Einschränkungen werden entweder durch eine Document Type Description (DTD) oder durch ein XML Schema ausgedrückt. Beispiele für XML-Sprachen sind: RSS, MathML, GraphML, XHTML, XAML, Scalable Vector Graphics (SVG), GPX, aber auch das XML-Schema selbst.\n\nEin XML-Dokument besteht aus T

In [10]:
re.findall('XML', text_content)

['XML', 'XML', 'XML', 'XML', 'XML', 'XML', 'XML', 'XML', 'XML']

In [11]:
re.findall('\d+', text_content)

['3', '10', '1998', '1', '26', '2008', '2', '8', '8', '64']

Mit der Funktion `sub()` können wir Strings ersetzen. Dazu werden drei Argumente übergeben: das Suchmuster, das Ersetzungsmuster und der Ausgangstext.  

In [12]:
re.sub(r'(\d+)', r'<number>\1</number>', text_content)

'Die Extensible Markup Language (dt. Erweiterbare Auszeichnungssprache), abgekürzt XML, ist eine Auszeichnungssprache zur Darstellung hierarchisch strukturierter Daten im Format einer Textdatei, die sowohl von Menschen als auch von Maschinen lesbar ist.\n\nXML wird auch für den plattform- und implementationsunabhängigen Austausch von Daten zwischen Computersystemen eingesetzt, insbesondere über das Internet, und wurde vom World Wide Web Consortium (W<number>3</number>C) am <number>10</number>. Februar <number>1998</number> veröffentlicht.[<number>1</number>] Die aktuelle Fassung ist die fünfte Ausgabe vom <number>26</number>. November <number>2008</number>.[<number>2</number>] XML ist eine Metasprache, auf deren Basis durch strukturelle und inhaltliche Einschränkungen anwendungsspezifische Sprachen definiert werden. Diese Einschränkungen werden entweder durch eine Document Type Description (DTD) oder durch ein XML Schema ausgedrückt. Beispiele für XML-Sprachen sind: RSS, MathML, GraphM

<div class="alert alert-block alert-info">
<b>Übung Regex</b>
<ul>
    <li>Suchen Sie nach allen Datumsangaben.</li>
    <li>Ersetzen Sie die Datumsangaben durch das Muster `<date when=""></date>`</li>
</ul>
</div>

Ergänzen Sie die orthographischen Varianzen

In [13]:
import re

ortho = "bestetige bestätige Artzney Arznei jhre ihre Wirckung Wirkung vollnbringen vollbringen Krafft Kraft vnnd und superman super man super-man"

regex_patterns = [
    r"best[e|ä]tige",
    r"Art?zne[y|i]",
    r"[j|i]hre",
    r"Wirc?kung",
    r"volln?bringen",
    r"Kraff?t"
]

# Findet die Matches im Text
matches = [re.findall(pattern, ortho) for pattern in regex_patterns]
matches

[['bestetige', 'bestätige'],
 ['Artzney', 'Arznei'],
 ['jhre', 'ihre'],
 ['Wirckung', 'Wirkung'],
 ['vollnbringen', 'vollbringen'],
 ['Krafft', 'Kraft']]

## Datumsangaben suchen

Suchen Sie nach allen Datumsangaben, die dem Muster DD.MM.JJJJ entsprechen

In [14]:
datumsangaben = "1.08.2013 20.06.1998, 11.09.1776, 07. Juli 2020, 20.01.88, 13. Februar 1972, 22.11.2018, 99.12.2018, 30.04.1917"
tagMonatJahr = [re.findall(r"", datumsangaben )]
print(tagMonatJahr)

[['', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '']]


In [15]:
datumsangaben = "1.08.2013 20.06.1998, 11.09.1776, 07. Juli 2020, 20.01.88, 13. Februar 1972, 22.11.2018, 99.12.2018, 30.04.1917"

# Pattern, um alle korrekten Datierungen zu finden, die dem Muster DD.MM.JJJJ entsprechen.
pattern = r"(3[01]|[12][0-9]).\d{2}.(19|20)\d{2}"

volles_datum = [m.group(0) for m in re.finditer(pattern, datumsangaben)]
volles_datum

['20.06.1998', '22.11.2018', '30.04.1917']