# Modularisierung und Textmanipulation mit regulären Ausdrücken

## Ziel dieser Lern- und Übungseinheit

Die Materialien in diesem Notebook bauen auf den vorherigen Einheiten. Thema dieser Einheit sind Möglichkeiten der Modularisierung in Python im Verbund mit der Nutzung externer Bibliotheken sowie die Manipulation von Textinhalten mithilfe regulärer Ausdrücke. Am Ende sollten Sie mit folgenden Themen vertraut sein:

- Module einbinden
- Module installieren
- Grundlegende Syntax eines regulären Ausdrucks
- Verwendung von regulären Ausdrücken in Python

## Modularisierung

Die Arbeit in den bisherigen Übungseinheiten beschränkte sich auf den Code, der in den jeweiligen Notebooks erstellt wurde – solange unsere Programme recht übersichtlich gestaltet sind und wir jegliche Logik von Grund auf selbst implementieren, ist das ein Ansatz, der gut funktioniert. In der tatsächlichen Anwendung kommen wir hier allerdings recht schnell an unsere Grenzen. Die Lösung dafür heißt Modularisierung.

Modularisierung ist ein zentrales Konzept in der Programmierung, welches es ermöglicht, komplexe Skripte in kleinere, leichter verständliche Module aufzuteilen. Ein Modul in Python ist im Wesentlichen eine Sammlung von Funktionen, Klassen und Variablen, die in einer separaten Datei gespeichert sind und von anderen Python-Programmen importiert werden können. Diese Dateien fungieren als Container für verwandte Funktionalitäten und ermöglichen es den Code zu organisieren und zu strukturieren.

Python bietet auch eine umfangreiche Sammlung von Standardmodulen, die in der Python Standard Library enthalten sind, und die für verschiedene Aufgaben wie Dateiverwaltung, Datenbankzugriff, mathematische Berechnungen und vieles mehr verwendet werden können. Darüber hinaus gibt es eine Vielzahl von Drittanbieter-Modulen, die von der Python-Community entwickelt wurden und in Python-Projekten verwendet werden können, um zusätzliche Funktionalitäten hinzuzufügen.

Die Verwendung von Modulen in Python ist einfach. Um ein Modul zu verwenden, muss es zuerst importiert werden. Es gibt verschiedene Möglichkeiten, ein Modul zu importieren, einschließlich des Importierens des gesamten Moduls oder nur bestimmter Teile des Moduls. Einmal importiert, können die in einem Modul definierten Funktionen, Klassen oder Variablen wie jede andere Python-Funktion, Klasse oder Variable verwendet werden. Der Import passiert immer nach folgendem Prinzip:

```python
# Import eines ganzen Moduls
import Modulname
# Import von Teilen des Moduls
from Modulname import xyz
# Importe lassen sich zudem einem Alias zuordnen
import Modulname as MeinAlias
```

Neben den Modulen der Standardbibliothek beinhaltet die hier verwendete Python-Distribution bereits von Haus eine Reihe [zusätzlicher Pakete](https://docs.anaconda.com/anaconda/packages/pkg-docs/). Weitere Pakete lassen sich mit dem integrierten Paketmanager `pip installieren`:

```python
# auf der Kommandozeile
pip install Paketname
# im Jupyter Notebook
!pip install Paketname
```

Mehr zur Modularisierung in Python: [Libraries in Python](http://python-textbook.pythonhumanities.com/01_intro/01_04-04_libraries.html) aus *Introduction to Python for Humanists*

Lassen Sie sich die vorinstallierten Pakete (sofern vorhanden) anzeigen, indem Sie die nachfolgende Zelle ausführen.

In [None]:
# Ausgabe installierter Pakete
!pip list

## Textmanipulation mit regulären Ausdrücken

Reguläre Ausdrücke oder RegEx (kurz für Regular Expressions) sind ein leistungsstarkes Werkzeug in der Programmierung und Textverarbeitung, das es ermöglicht, komplexe Muster in Texten zu suchen, zu analysieren und zu manipulieren. Als (Mit-)Erfinder gilt der Mathematiker [Stephen Kleene](https://de.wikipedia.org/wiki/Regulärer_Ausdruck).  Sie sind ein Standardkonzept in vielen Programmiersprachen, einschließlich Python, und bieten eine flexible und effiziente Möglichkeit, Texte nach bestimmten Mustern zu durchsuchen und darauf basierende Aktionen auszuführen.

### Reguläre Ausdrücke sind fantastisch weil...

1. sie quasi universell einsetzbar sind
2. sie komplexe Operationen in kurzer Zeit ausführen
3. sich komplexe Anweisungen auf wenig Raum ausdrücken lassen

### Reguläre sind furchtbar weil...

1. sich komplexe Anweisungen auf wenig Raum ausdrücken lassen
2. es Domänenwissen braucht, um nicht in eine Reihe von Stolperfallen zu laufen
3. sie nicht sehr einsteigerfreundlich sind

### Reguläre Ausdrücke und Python

Reguläre Ausdrücke bestehen aus speziellen Zeichen in einer bestimmten Syntax, die es ermöglichen, Muster von Zeichen in Texten zu definieren. Diese Muster können einfache Zeichen wie Buchstaben und Zahlen, aber auch komplexere Muster wie Wiederholungen, Alternativen, Gruppierungen und mehr umfassen. In Python werden reguläre Ausdrücke durch das Modul `re` bereitgestellt, das in der [Python Standard Library](https://docs.python.org/3/library/re.html) enthalten ist. Das `re`-Modul bietet verschiedene Funktionen, mit denen reguläre Ausdrücke erstellt, auf Texte angewendet und Muster in den Texten gefunden werden können.

Nehmen wir einmal, dass wir aus dem Text `Der Apfel ist rot` das Wort `rot` extrahieren möchten, dann könnten wir dies ohne regulären Ausdruck folgendermaßen erledigen:

```python
text = "Der Apfel ist rot"
rot_index = text.find("rot")
rot = text[rot_index:rot_index+3]
```

Dieses Programm funktioniert im Wesentlich so:

1. Wir suchen zunächst den Index, an dem das Wort `rot` im Text beginnt
2. Anschließend extrahieren wir `rot` aus dem Text per sog. [Slicing](https://www.freecodecamp.org/news/python-slicing-how-to-slice-an-array/)

Dieses Vorgehen gerät schnell an seine Grenzen, wenn wir unseren Satz bspw. wie folgt erweitern: `Der Apfel ist rot, die Birne ist nicht rot`. Möchten wir nun wieder alle Vorkommen von `rot` mit dieser Methode extrahieren, müssen wir den Text in mehrere Teile unterteilen und mit einer Schleife über diese Einzelteile interieren. Mit einem regulären Ausdruck können wir das hingegen recht einfach erledigen:

```python
import re
re.findall('rot', text)
```

1. Zunächst wird hier das Modul `re` importiert
2. Anschließend wird hieraus die Methode `findall` aufgerufen
3. Diese bekommt als ersten Parameter den gesuchten Text (als regulären Ausdruck) und als zweiten Parameter den Text selbst übergeben

Der hier verwendete reguläre Ausdruck ist denkbar einfach. Suchen wir ein konkretes Wort bzw. vielmehr eine konkrete Zeichenfolge ohne weitere Nebenbedingungen, dann entspricht diese Zeichenfolge dem regulären Ausdrück. Anspruchsvollere reguläre Ausdrücke nutzen u.a. folgende Zeichenmuster, um bestimmte Bedingungen zur formulieren:

1. `\w` – alphanumerische Zeichen, dies bedeutet alles von a-z, A-Z sowie 0-9
2. `\d` – Zahlen 0–9
3. `\D` – alles außer Zahlen
4. `\s` – Leerzeichen
5. `+` - 1 oder mehr Zeichen
6. `?` - 0 oder 1 Zeichen
7. `*`- 0 oder beliebig viele Zeichen
8. `.` - beliebiges Zeichen
9. `[ ]` - Set von Zeichen; `[amk]` passt entweder auf `a`, `m` oder `k`, aber nicht auf `amk` (das wäre `[amk]+`)
10. `( )` - gruppiert eine Sequenz von Zeichen
11. `|` - oder
12. `^` - Anfang der Zeichensequenz
13. `$` - Ende der Zeichensequenz

### Ein reales Beispiel

In den vorherigen Übungseinheiten haben wir immer wieder einen Ausschnitt aus einer Rede des Bundeskanzlers als Beispiel verwendet. Diese sei auch hier noch einmal gegeben. Auf diese wird nun ein regulärer Ausdruck angewendet. Überlegen Sie zunächst, was das Ergebnis der Ausführung sein könnte und führen Sie dann die nächste Zelle aus.


In [None]:
import re
speech = "Wir erleben eine Zeitenwende. Und das bedeutet: Die Welt danach ist nicht mehr dieselbe wie die Welt davor. Im Kern geht es um die Frage, ob Macht das Recht brechen darf, ob wir es Putin gestatten, die Uhren zurückzudrehen in die Zeit der Großmächte des 19. Jahrhunderts, oder ob wir die Kraft aufbringen, Kriegstreibern wie Putin Grenzen zu setzen."
re.findall(r'\s([A-Z][a-z]+)', speech)

Der reguläre Ausdruck besteht hier drei Bestandteilen und sucht nach allen Worten, die mit einem Großbuchstaben beginnen:

1. `\s` - am Anfang soll zunächst ein Leerzeichen stehen
2. `( )` - wir interessieren uns für alles was in der Gruppe steht
3. `[A-Z][a-z]+` - unsere gesuchten Worte bestehen aus einem Großbuchstaben und mehreren Kleinbuchstaben

Weiterführende Informationen zu regulären Ausdrücken:

- [Understanding Regular Expressions](https://programminghistorian.org/en/lessons/understanding-regular-expressions) aus *Programming Historian*
- [Python for Digital Humanities](https://youtu.be/PpRifN_hQp8) (Video)
- [Reguläre Python-Ausdrücke](https://developers.google.com/edu/python/regular-expressions?hl=de) in *Google for Education*

### Übung reguläre Ausdrücke

#### Erste Aufgabe

Finden Sie im bekannten Textstück alle Worte, die mit einem Kleinbuchstaben beginnen und von einem `.`, `,` oder `:` gefolgt werden.

In [None]:
import re
speech_snippet = "Wir erleben eine Zeitenwende. Und das bedeutet: Die Welt danach ist nicht mehr dieselbe wie die Welt davor. Im Kern geht es um die Frage, ob Macht das Recht brechen darf, ob wir es Putin gestatten, die Uhren zurückzudrehen in die Zeit der Großmächte des neunzehnten Jahrhunderts, oder ob wir die Kraft aufbringen, Kriegstreibern wie Putin Grenzen zu setzen."

matches_lowercased = re.findall(____, speech_snippet)
print(matches_lowercased)

In [None]:
try:
    assert isinstance(matches_lowercased, list)
    assert len(matches_lowercased) > 0
except AssertionError:
    print("Die Variable matches_lowercased sollte eine Liste mit mehr als 0 Einträgen sein.")
try:
    assert len(matches_lowercased) == 6
    print("Alles korrekt!")
except AssertionError:
        print("Die Variable matches_lowercased sollte eine Liste mit genau 6 Einträgen sein.")

#### Zweite Aufgabe

Gegeben seien nun die mehrere Abschnitte Rede. Schreiben Sie nun einen regulären Ausdrück, welchen wir dafür verwenden können um alle Worte (Tokens) im Text identifiieren zu können. Zahlen, Weißraum und Satzzeichen sollen ignoriert werden. Achtung: Umlaute und Zeichen wie das scharfe S sind trickreich! 

Ergänzen Sie dazu den Code in der übernächsten Zelle und führen Sie zur Überprüfung die darauffolgende Zelle aus.


In [63]:
speech_long_snippet = """Sehr geehrte Frau Präsidentin! Verehrte Kolleginnen und Kollegen! Liebe Mitbürgerinnen und Mitbürger! Der 24. Februar 2022 markiert eine Zeitenwende in der Geschichte unseres Kontinents. Mit dem Überfall auf die Ukraine hat der russische Präsident Putin kaltblütig einen Angriffskrieg vom Zaun gebrochen – aus einem einzigen Grund: Die Freiheit der Ukrainerinnen und Ukrainer stellt sein eigenes Unterdrückungsregime infrage. Das ist menschenverachtend. Das ist völkerrechtswidrig. Das ist durch nichts und niemanden zu rechtfertigen.
Die schrecklichen Bilder aus Kiew, Charkiw, Odessa und Mariupol zeigen die ganze Skrupellosigkeit Putins. Die himmelschreiende Ungerechtigkeit, der Schmerz der Ukrainerinnen und Ukrainer, sie gehen uns allen sehr nahe.
Ich weiß genau, welche Fragen sich die Bürgerinnen und Bürger in diesen Tagen abends am Küchentisch stellen, welche Sorgen sie umtreiben angesichts der furchtbaren Nachrichten aus dem Krieg. Viele von uns haben noch die Erzählungen unserer Eltern oder Großeltern im Ohr vom Krieg, und für die Jüngeren ist es kaum fassbar: Krieg in Europa. Viele von ihnen verleihen ihrem Entsetzen Ausdruck – überall im Land, auch hier in Berlin.
Wir erleben eine Zeitenwende. Und das bedeutet: Die Welt danach ist nicht mehr dieselbe wie die Welt davor. Im Kern geht es um die Frage, ob Macht das Recht brechen darf, ob wir es Putin gestatten, die Uhren zurückzudrehen in die Zeit der Großmächte des 19. Jahrhunderts, oder ob wir die Kraft aufbringen, Kriegstreibern wie Putin Grenzen zu setzen.
Das setzt eigene Stärke voraus.
a, wir wollen und wir werden unsere Freiheit, unsere Demokratie und unseren Wohlstand sichern. Ich bin Ihnen, Frau Präsidentin, sehr dankbar, dass ich die Vorstellungen der Bundesregierung dazu heute in dieser Sondersitzung mit Ihnen teilen kann. Auch den Vorsitzenden aller demokratischen Fraktionen dieses Hauses danke ich dafür, dass sie diese Sitzung unterstützt haben."""

In [None]:
# Falls noch nicht geschehen das `re`-Modul zunächst importieren 
import re
tokens = re.findall(____, speech_long_snippet)
print(len(tokens))

In [None]:
try:
    assert isinstance(tokens, list)
    assert len(tokens) > 0
except AssertionError:
    print("Die Variable tokens sollte eine Liste mit mehr als 0 Einträgen sein.")
try:
    assert len(tokens) == 281
    print("Alles korrekt!")
except AssertionError:
        print("Die Variable tokens sollte eine Liste mit genau 281 Einträgen sein.")