# Regul√§re Ausdr√ºcke / RegEx

In diesem Notebook lernen wir sog. *Regul√§re Ausdr√ºcke* (engl.: *regular expressions*, abgek√ºrzt: *RegEx*) kennen. RegEx bezeichnet eine sehr leistungsf√§hige Suchsprache, die es uns erlaubt, komplexe, abstrakte Muster zum Suchen zu verwenden, anstatt blo√ü literaler (w√∂rtlicher) Suchbegriffe (z.&nbsp;B. ein bestimmtes Wort, nach welchem wir einen Text durchsuchen). Um das zu veranschaulichen und gleichzeitig den immensen Nutzen von RegEx herauszuarbeiten, n√§hern wir uns dem Thema √ºber zwei Beispiele von konkreten Anwendungen.

## Beispiel 1: Inputvalidierung

Beim Ausf√ºllen von Formularen auf einer Webseite, z.&nbsp;B. beim Bestellen in einem Onlineshop, wurdest Du sicherlich schon einmal darauf hingewiesen, dass eine Deiner Angaben nicht korrekt ist. Wie hier bei der Eingabe einer Lieferadresse:

<img src="../3_Dateien/Grafiken_und_Videos/Inputvalidierung.png">

Wieso kommt der Onlineshop zum Schluss, dass diese Eingabe fehlerhaft ist? Hier findet keine Abfrage in einer Datenbank mit allen existierenden Adressen in Deutschland (oder sonst wo) statt, das w√§re zu umst√§ndlich. Diese sog. *Inputvalidierung* verl√§uft viel simpler: Im Hintergrund wurde ein mehr oder minder abstrakter, regul√§rer Ausdruck definiert, der beschreibt, wie der Input, hier die Adresse, auszusehen hat. 

Dieser regul√§re Ausdruck scheint nicht nur eine Stra√üe (vermutlich operationalisiert als Abfolge alphabetischer Zeichen, ggf. mit Leerzeichen f√ºr F√§lle wie "Dresdner Stra√üe"), sondern ebenfalls eine Zahl f√ºr die Hausnummer zu verlangen. Bei jeder neuen Eingabe ver*sucht* das System, den regul√§ren Ausdruck wie eine Schablone √ºber den Input zu legen. L√§sst er sich dar√ºber legen, so haben wir einen sog. *match*. Das bedeutet, dass die Eingabe dem regul√§ren Ausdruck entspricht bzw. im Beispiel hier, dass die Eingabe korrekt ist. Andernfalls "spuckt" das System eine Fehlermeldung wie oben "aus". 

## Beispiel 2: Musterbasierte Suche

Neben der Inputvalidierung sind regul√§re Ausdr√ºcke √§u√üerst hilfreich, um bestimmte Elemente in einer gro√üen Datenmenge aufzusp√ºren. Damit sind nicht *identische* Elemente gemeint, denn da w√ºrde ja eine literale Suche ausreichen. Gemeint sind Elemente, die zwar nicht identisch sind, wohl aber insgesamt einem einheitlichen *Muster* entsprechen. Ein bestimmter regul√§rer Ausdruck wird daher auch oft *Muster* bzw. *pattern* auf Englisch genannt. 

In folgendem Ausschnitt des Quelltexts der [Homepage der TU Dresden](https://tu-dresden.de) verbergen sich f√ºnf Links auf andere Webseiten, die zwar allesamt identisch beginnen, aber nicht identisch enden (sonst w√§re es ja f√ºnfmal derselbe Link).

<img src="../3_Dateien/Grafiken_und_Videos/HTML_Regex.png">

Nun wollen wir alle Links aus dem Quelltext extrahieren, z.&nbsp;B. um auch den Quelltext der verlinkten Seiten automatisiert herunterzuladen (diese Technik nennt sich wie im Notebook "Einf√ºhrung" erw√§hnt *Web Scraping*, ein Aufbaumodul wird sich ihr ausf√ºhrlich widmen). Dazu k√∂nnen wir den HTML-Code nach folgendem regul√§ren Ausdruck absuchen:

<img src="../3_Dateien/Grafiken_und_Videos/Regex_Link.png">

Dieser regul√§re Ausdruck verlangt, dass ein Link mit der literalen Zeichenfolge "https://tu-dresden.de/" beginnt (gelb markiert). Nun folgen ein paar auf den ersten Blick kryptische Zeichen, die regul√§ren Ausdr√ºcken jedoch ihre Leistungsf√§higkeit verleihen, indem sie statt ihrer literalen Bedeutung eine Sonderbedeutung haben. Wir gehen unten detailiert auf diese Sonderzeichen ein. Hier ein kurzer Vorausblick: Die Zeichen definieren, dass im Anschluss an die literale Zeichenfolge beliebig viele, aber mindestens ein Zeichen (f√ºr diese Bedingung sorgt der Quantifikator ```+``` (gr√ºn)) der von den eckigen Klammern (pink) umrahmten Zeichen bzw. Zeichenklassen folgen d√ºrfen. Diese Zeichen k√∂nnen entweder alphanumerische Zeichen sein (konkret: gro√üe/kleine Buchstaben, Zahlen sowie der Unterstrich). F√ºr diese Gruppe von erlaubten Zeichen steht ```\w``` (blau). Alternativ darf auch ein Bindestrich (gelb) vorkommen. Dieser steht literal im Suchbegriff, da er f√ºr sich selbst steht und keine Sonderbedeutung hat. 

Im Screenshot oben wurde der Quelltext nach diesem regul√§ren Ausdruck durchsucht. Die Ergebnisse sind mit einem d√ºnnen Strich umrahmt. Die Anf√ºhrungszeichen nach den Links werden jeweils nicht mehr *gematcht*, da sie nicht zu den innerhalb der eckigen Klammern definierten Zeichen bzw. Zeichenklassen geh√∂ren. 

Unser regul√§rer Ausdruck funktioniert f√ºr die f√ºnf gegebenen Links. Bei l√§ngeren Links, die auf "tiefere" Unterseiten verlinken (mit weiteren "/" konkateniert), m√ºsste er aber verfeinert werden. Nat√ºrlich lie√üe er sich auch derart modifizieren, dass optional auch nicht-verschl√ºsselte Links (also ohne "s" nach "http") oder solche mit "www" zwischen "https://" und Domain (hier: "tu-dresden") gematcht werden. Wie das geht, lernen wir weiter unten.

Wir fassen zusammen: Sowohl bei der Inputvalidierung als auch bei der musterbasierten Suche ist das Prinzip von RegEx das gleiche: 

**Wir formulieren *einen* regul√§ren Ausdruck auf eine ausreichend abstrakte Weise, sodass er alle gew√ºnschten F√§lle auf einmal abdeckt.** 

Genau wie bei bedingten Anweisungen m√ºssen wir stets darauf achten, dass wir nicht "√ºber das Ziel hinausschie√üen", das Muster also *zu* abstrakt formulieren und dadurch wom√∂glich unerw√ºnschte F√§lle matchen (vgl. auch Wahrheitsmatrix im Notebook "Input und Output Teil 1").

Auch in diesem Notebook gibt es einen Anwendungsfall.

***

##  üîß Anwendungsfall: Der Pizzabot üçïü§ñ

Beim Pizzabot in der n√§chsten Zelle kannst Du Dir eine Pizza bestellen. Der Bot ist leider noch ein wenig unflexibel und akzeptiert nur sehr spezifischen Input. Wenn er Dich nicht versteht, gibt er Dir aber Hinweise dazu, was er verarbeiten kann. Bestell gleich ein paar Pizzen, indem Du die n√§chste Zelle mehrmals hintereinander ausf√ºhrst und Dich so mit ihm vertraut machst. Eventuell musst Du jeweils erst ins Antwortfeld unter der Frage klicken, sodass der Cursor blinkt.

In [None]:
"""Diese beiden Zeilen kannst Du ignorieren (sie sind n√∂tig, da sich das zu importierende Modul 
in einem anderen Verzeichnis als das Notebook befindet (vgl. Notebook "Funktionen und Methoden Teil 2")."""
import sys
sys.path.append("../3_Dateien/Module")

import pizzabot

#Hier aktivieren wir den Pizzabot.
pizzabot.order_pizza()

Wie Du siehst, funktioniert der Pizzabot prinzipiell ganz gut. Der Code daf√ºr, der sich bereits fertig in den Modulen ```pizzabot``` und ```pizza_functions``` im Ordner "3_Dateien/Module" befindet, tut also seinen Dienst. Einzig st√∂rend ist die Tatsache, dass Benutzer:innen genau wissen m√ºssen, welchen Input der Bot verarbeiten kann. Das ist nicht sehr kund:innenfreundlich. 

Der Anwendungsfall in diesem Notebook besteht aus zwei Teilaufgaben: Bei der RegEx-bezogenen Aufgabe wirst Du Deine in diesem Notebook erlernten Kenntnisse zu regul√§ren Ausdr√ºcken einsetzen. Bei der Dokumentationsaufgabe geht es darum, Code, den jemand anderes geschrieben hat, zu verstehen und zu dokumentieren.

### RegEx-bezogene Aufgabe

Die RegEx-bezogene Aufgabe besteht darin, den Pizzabot flexibler in Bezug auf Input zu machen. Daf√ºr wirst Du die regul√§ren Ausdr√ºcke erweitern m√ºssen, die schon jetzt im Code daf√ºr benutzt werden, den User:innen-Input zu validieren. 

Beispielsweise wird die Antwort auf Ja-Nein-Fragen momentan nur nach den strings "Ja" und "Nein" (unabh√§ngig von Gro√ü- und Kleinschreibung) abgesucht. Durch Deine regul√§ren Ausdr√ºcke sollen Kund:innen in Zukunft ohne Probleme auch mit "n√∂", "ne", "nope" etc. antworten k√∂nnen. Ebenfalls soll der Pizzabot mit Rechtschreibfehlern bei den Pizzanamen umgehen k√∂nnen (etwa "Margharita"), um Kund:innen nicht unn√∂tig vor den Kopf zu sto√üen. Letztlich besteht ein gro√ües Manko des Pizzabots noch darin, dass er nur an eine einzige Adresse liefern kann, n√§mlich an die what3words-Adresse "falschen.fliegen.beliebten", was √ºbrigens der [nord√∂stlichen Ecke der Zentralbibliothek der TU Dresden (SLUB)](https://w3w.co/falschen.fliegen.beliebten) entspricht. Das musst Du √§ndern, sodass der Pizzabot in Zukunft weltweit liefern kann, und zwar an jedes beliebige 3 x 3 m gro√üe Quadrat auf der Erdoberfl√§che. what3words hat n√§mlich jedes dieser Quadrate mit einer Adresse bestehend aus drei W√∂rtern analog zu "falschen.fliegen.beliebten" versehen. Solche Adressen erlauben einerseits eine viel genauere Angabe als konventionelle Stra√üennamen (z.&nbsp;B. auch Orte in einem Park oder am Strand) und sind andererseits wesentlich "menschenfreundlicher" als Koordinaten. Genauere Instruktionen, wie Du die regul√§ren Ausdr√ºcke erweitern sollst, findest Du weiter unten.

### Dokumentationsaufgabe

Die Dokumentationsaufgabe besteht darin, dass Du Dir den Code, der ja schon fertig ist, genau anschaust und ihn mithilfe von Kommentaren dokumentierst. Auch wenn Du hier nicht selbst programmieren musst, ist Dein Verst√§ndnis von Python sehr gefragt. Das Nachvollziehen von Code, den jemand anderes geschrieben hat, ist zuweilen eine m√ºhselige Aufgabe, weil wir alle unseren eigenen Programmierstil pflegen. Gleichzeitig lernen wir dadurch andere, vielleicht effizientere Herangehensweisen und erweitern so unser Programmierrepertoire. Auch hierzu findest Du n√§here Instruktionen weiter unten.

***

## Die Suchsprache im Detail

Regul√§re Ausdr√ºcke basieren auf einer Suchsprache, die literale Zeichen mit Sonderzeichen kombiniert. Genau diese Sonderzeichen verleihen der Suchsprache ihre gro√üe Leistungsf√§higkeit. Wir werden die wichtigsten unter ihnen im Folgenden kennenlernen und anwenden. 

Zun√§chst: Regul√§re Ausdr√ºcke sind keine Erfindung von Python. Die Suchsprache ist in diversen Programmiersprachen implementiert, ebenso wie in vielen Texteditoren wie z.&nbsp;B. Sublime Text (vgl. Notebook "Funktionen und Methoden Teil 2") und in einer abgewandelten Version auch in Microsoft Word. Was Du hier lernst, wirst Du also auch au√üerhalb Pythons anwenden k√∂nnen. Innerhalb Pythons sind regul√§re Ausdr√ºcke im ```re```-Modul der Standardbibliothek implementiert. Dieses importierst Du, indem Du die n√§chste Zelle ausf√ºhrst:

In [None]:
import re

Dem Modul und seinen Funktionen und Methoden ist weiter unten ein eigener Abschnitt gewidmet. Wir werden es im Folgenden aber bereits einsetzen, um erlernte Sonderzeichen gleich auszuprobieren. Konzentrier Dich vorerst nur auf die regul√§ren Ausdr√ºcke, die wir jeweils mit der Variable ```regex``` referenzieren. Die Syntax von ```re```-Funktionen/Methoden, denen wir ```regex``` √ºbergeben, kannst Du bis auf Weiteres ignorieren.

### Literale Zeichen

Wie gesagt, regul√§re Ausdr√ºcke kombinieren literale Zeichen mit Sonderzeichen. Zu den literalen Zeichen gibt es nicht mehr zu sagen, als dass sie schlicht sich selbst bedeuten. Das gilt etwa f√ºr alle Buchstaben und Zahlen, wobei bei Buchstaben wie immer Gro√ü- und Kleinschreibung eine Rolle spielt. 

Steht etwa ein "h" in einem regul√§ren Ausdruck, wie oben bei der Link-RegEx, so hat dieses "h" keine Sonderbedeutung, sondern steht nur f√ºr sich selbst und matcht folglich *einmal* den kleinen Buchstaben "h". Die Betonung liegt auf *einmal*, denn alle Zeichen in einem regul√§ren Ausdruck (auch Sonderzeichen) matchen standardm√§√üig *ein* einziges Zeichen. Ein (fehlerhafter) Link, der mit "hhttps://..." beginnt, w√§re oben folglich nicht gematcht worden. Dieses Verhalten kann nat√ºrlich angepasst werden, dazu gleich mehr unter "Quantifikatoren".

Nun zum eigentlich Spannenden an der Suchsprache:

### Sonderzeichen

Das simpelste aller Sonderzeichen ist die sog. Wildcard. 

#### Wildcard

Der ```.``` matcht ganz einfach ein beliebiges Zeichen, wie in der folgenden Tabelle ersichtlich ist. Solche Tabellen mit einer konzisen Zusammenfassung der Sonderzeichen gibt es zu allen Sonderzeichen und eine Zusammenstellung aller Tabellen findet sich am Ende dieses Notebooks.

| **Zeichen** | **Sonderbedeutung** | **Beispiel** | **Bemerkungen** 
|:-:|:-|:-|:-:|
| ```.``` | matcht ein beliebiges Zeichen &nbsp; | ```H.nd``` matcht z.&nbsp;B. *Hund*, *Hand* &nbsp;&nbsp;| einzige Ausnahme: `.` matcht keinen Zeilenumbruch

Auch die Wildcard matcht standardm√§√üig *ein* einziges Zeichen. Der regul√§re Ausdruck ```H.nd``` matcht also z.&nbsp;B. nicht "H*olla*nd".

#### Quantifikatoren

Mithilfe von Quantifikatoren k√∂nnen wir dieses Verhalten anpassen. Quantifikatoren stehen jeweils nach dem Zeichen, bei welchem wir (abweichend vom standardm√§√üig einmaligen Auftreten) definieren m√∂chten, wie oft es vorkommen darf bzw. muss, damit ein match vorliegt. Dazu k√∂nnen wir einerseits die Sonderzeichen ```*```, ```+``` und ```?``` f√ºr die g√§ngigsten quantitativen Bedingungen verwenden. Andererseits k√∂nnen wir mithilfe geschweifter Klammern auch eigene quantitative Bedingungen aufstellen. In folgenden Beispielen kommt neben den Quantifikatoren auch die bereits eingef√ºhrte Wildcard `.` zum Einsatz:

| **Zeichen** | **Sonderbedeutung** | **Beispiel** | **Bemerkungen** 
|:-:|:-|:-|:-|
| ```*``` | das davor stehende Zeichen darf 0 bis *n* mal vorkommen | ```Hund.*``` matcht z.&nbsp;B. *Hund*, *Hunde*, *Hundeh√ºtte* | ist *gierig* (engl. *greedy*), matcht also so viele Zeichen wie m√∂glich; kann durch Anf√ºgen von `?` *geb√§ndigt* werden (engl. *non-greedy/lazy quantifier*; vgl. √úbung 2 f√ºr sinnvolle Anwendung)
| ```+``` | das davor stehende Zeichen darf 1 bis *n* mal vorkommen | ```Hund.+``` matcht z.&nbsp;B. *Hunde*, *Hundeh√ºtte* | ist *gierig* (engl. *greedy*), matcht also so viele Zeichen wie m√∂glich; kann durch Anf√ºgen von `?` *geb√§ndigt* werden (engl. *non-greedy/lazy quantifier*)
| ```?``` | das davor stehende Zeichen darf 0 bis 1 mal vorkommen | ```Hund.?``` matcht z.&nbsp;B. *Hund*, *Hunde*, *Hunds* | ‚Äì
| ```{n}``` | das davor stehende Zeichen darf genau *n* mal vorkommen | ```Hu{7}nd``` matcht *Huuuuuuund* | ‚Äì
| ```{n,m}``` | das davor stehende Zeichen darf min. *n* und max. *m* mal vorkommen | ```Hu{2,3}nd``` matcht *Huund*, *Huuund* | bleiben *n* / *m* leer, werden nach unten / oben beliebig viele Zeichen gematcht; ist *gierig* (engl. *greedy*), matcht also so viele Zeichen wie m√∂glich; kann durch Anf√ºgen von `?` *geb√§ndigt* werden (engl. *non-greedy/lazy quantifier*)

***

‚úèÔ∏è **√úbung 1:** Find heraus, wie viele Male drei aufeinanderfolgende "f" im string ```text``` vorkommen. ```regex``` soll Deinen regul√§ren Ausdruck referenzieren. Es handelt sich dabei ebenfalls um einen string, allerdings mit einem dem √∂ffnenden Anf√ºhrungszeichen vorangestellten "r"/"R". Wie bei f-strings im Notebook "Input und Output Teil 2" teilen wir Python damit mit, dass der folgende string anders als ein normaler string zu interpretieren ist (wie genau, sind technische Details, die f√ºr uns nicht relevant sind, vgl. ebenfalls Notebook "Input und Output Teil 1" zu Dateipfaden bei Windows). 

Der Rest des Codes ist bereits fertig geschrieben. Grob formuliert, nimmt die ```findall```-Funktion des ```re```-Moduls Deinen regul√§ren Ausdruck (```regex```) und sucht ```text``` von links nach rechts danach ab. Alle matches landen in einer Liste, die mit ```matches``` referenziert wird und deren L√§nge wir uns abschlie√üend ausgeben lassen. Die Ausgabe sollte nat√ºrlich ```3``` sein, sobald Du den korrekten regul√§ren Ausdruck bei ```regex``` ausgef√ºllt hast.

<details>
<summary> üí° Tipp </summary>
<br>Um nach <i>drei</i> aufeinanderfolgenden "f" zu suchen, kannst Du in geschweiften Klammern angeben, wie oft das zu suchende Zeichen vorkommen soll. Sieh dazu in der Tabelle oben nach.
</details>
<br>
<details>
<summary> üí° Weiterf√ºhrender Tipp </summary>
<br>Verwend bei dieser und bei den folgenden √úbungen <a href="https://regexr.com">RegExr</a>. Auf dieser Webseite kannst Du verschiedene regul√§re Ausdr√ºcke ausprobieren (im Feld oben) und siehst dabei direkt, welche matches in einem zu durchsuchenden Text (den Du im Feld in der Mitte eingibst) gefunden werden. Oben drauf wird Dir im Feld unten jedes Zeichen Deines regul√§ren Ausdrucks erkl√§rt.
</details>

In [None]:
#In diese Zelle kannst Du den Code zur √úbung schreiben.
text = "Schadstofffreie Schifffahrt dank Auspufffilter"

#Hier regul√§ren Ausdruck einf√ºgen
regex = r""

"""Da wir das gesamte Modul (und nicht spezifisch die Funktion 'findall') importiert haben, 
m√ºssen wir den Modulnamen vor den Funktionsnamen setzen (vgl. Notebook "Funktionen und Methoden Teil 2")."""
matches = re.findall(regex, text)
print(len(matches))

***

Sehr gut! Machen wir weiter mit den Zeichenklassen.

#### Zeichenklassen

Zeichenklassen definieren, wie es der Name sagt, eine Klasse von Zeichen, die an einer bestimmten Stelle gematcht werden sollen. Anstatt eines einzigen Zeichens d√ºrfen an dieser Stelle also alle Zeichen in der gegebenen Klasse, aber keine anderen, stehen. 

Einerseits gibt es fertige Zeichenklassen f√ºr die g√§ngigsten Kombinationen. Daf√ºr haben wir im regul√§ren Ausdruck zum Absuchen des Quelltexts von [tu-dresden.de](https://tu-dresden.de) bereits ein Beispiel gesehen, n√§mlich ```\w```, das alphanumerische Zeichen matcht. Andererseits k√∂nnen wir mithilfe von eckigen Klammern unsere eigenen Klassen von Zeichen definieren (auch das haben wir in der Link-RegEx bereits gesehen). In der Tabelle findest Du erst drei fertige Zeichenklassen, dann zusammengefasst ihre jeweiligen Negationen und anschlie√üend verschiedene Ausf√ºhrungen eigener Klassen:

| **Zeichen** | **Sonderbedeutung** | **Beispiel** | **Bemerkungen** 
|:-:|:-|:-|:-|
| ```\w``` | matcht ein beliebiges alphanumerisches [ASCII](https://de.wikipedia.org/wiki/American_Standard_Code_for_Information_Interchange)-Zeichen | ```N\w*t``` matcht z.&nbsp;B. *Nacht*, *N8t*, *Nimmersatt* | Fertige Zeichenklasse; ASCII beinh√§lt A-Z, a-z, 0-9, Unterstrich, aber nicht die dt. Buchstaben √§, √∂, √º, √ü!
| ```\d``` | matcht eine Zahl | ```\d{4} \d{4} \d{4} \d{4}``` matcht Kreditkartennummern im g√§ngigen Schreibformat | Fertige Zeichenklasse
| ```\s``` | matcht ein whitespace-Zeichen (Leerschlag, Tabstopp, Zeilenumbruch) | ```\s{2,}``` matcht alle Vorkommen von mehrfachen Leerschl√§gen (und anderem whitespace) | Fertige Zeichenklasse
| ```\W```,```\D```,```\S``` | matcht jeweils das Gegenteil von ```\w```, ```\d``` bzw.```\s``` | ```\W+``` matcht z.&nbsp;B. *√§√∂√º√±√ü√•!!* | Fertige Zeichenklassen
| ```[...]``` | eigene Zeichenklasse | ```[\w√Ñ√§√ñ√∂√ú√º√ü]*``` matcht beliebig viele Buchstaben des dt. Alphabets | erlaubte Zeichen (inkl. fertiger Zeichenklassen) werden schlicht aneinandergereiht; Sonderzeichen (mit Ausnahme fertiger Klassen) verlieren ihre Sonderbedeutung innerhalb von Klassen (`.` steht f√ºr ".", also keine Wildcard)
| ```[a-z]``` | eigene Zeichenklasse mit Range | ```[1-3]{2}``` matcht *11*, *12*, *13*, *21*, *22*, *23*, *31*, *32*, *33* | Range mittels Bindestrich funktioniert bei Gro√ü-/Kleinbuchstaben und Zahlen
| ```[^...]``` | matcht ein Zeichen, das sich nicht in der Klasse befindet | ```[^aeiouAEIOU]``` matcht einen Konsonanten oder ein anderes nicht-alphabetisches Zeichen | ```^``` hat au√üerhalb von Klassen eine andere Sonderbedeutung (s.&nbsp;u.)


Auch eine Zeichenklasse matcht standardm√§√üig ein einziges erlaubtes Zeichen. ```N\wt``` matcht also beispielsweise "Not" und "N8t" (und nat√ºrlich auch "NFT", "N_t" etc.), aber nicht "Nacht" und "Nimmersatt". Daf√ºr ben√∂tigen wir wie im Beispiel oben einen entsprechenden Quantifikator. Wichtig: Bei eigenen Zeichenklassen stehen Quantifikatoren immer nach der schlie√üenden eckigen Klammer (siehe f√ºnftes Beispiel oben).

*** 

‚úèÔ∏è **√úbung 2:** Kopier den Text eines beliebigen Artikels einer Online-Zeitung (z.&nbsp;B. von [ZEIT Online](https://www.zeit.de), [tagesschau.de](https://www.tagesschau.de) oder den [Dresdner Neuesten Nachrichten](https://www.dnn.de)). Einzige Bedingung: Der Artikel sollte Zitate beinhalten. F√ºg den Text als string bei ```text``` unten ein. Formulier nun regul√§re Ausdr√ºcke f√ºr folgende Suchauftr√§ge:

1. alle kleingeschriebenen W√∂rter mit drei Buchstaben
2. alle W√∂rter mit Gro√übuchstaben am Anfang
3. alle Zitate (dieser regul√§re Ausdruck beinhaltet vermutlich doppelte Anf√ºhrungszeichen; umschlie√ü den string zwecks korrekter Abgrenzung daher mit drei einfachen Anf√ºhrungszeichen)

Lass Dir anschlie√üend alle Listen sch√∂n formatiert ausgeben.

<details>
<summary>üí° Tipp f√ºr den 3. regul√§ren Ausdruck </summary>
    <br>Nach oben uneingeschr√§nkte Quantifikatoren sind <i>gierig</i>. Will hei√üen: Sie matchen so viele Zeichen wie nur m√∂glich. Wenn wir beim dritten Suchauftrag also spezifizieren, dass beliebig viele beliebige Zeichen (<code>.*</code>) innerhalb von Anf√ºhrungszeichen vorkommen d√ºrfen, f√ºhrt das dazu, dass die Zitate nicht einzeln gematcht werden, sondern dass f√§lschlicherweise ein langes Zitat ‚Äì beginnend beim ersten √∂ffnenden Anf√ºhrungszeichen und endend beim letzten schlie√üenden Anf√ºhrungszeichen ‚Äì ausgegeben wird. Um diese <i>Gier</i> zu b√§ndigen und stattdessen alle k√ºrzesten, vollst√§ndigen matches, also alle Zitate einzeln, zu erhalten, k√∂nnen wir dem Quantifikator ganz einfach ein <code>?</code> anf√ºgen.
</details>

In [None]:
#In diese Zelle kannst Du den Code zur √úbung schreiben.

"""Dreifache Anf√ºhrungszeichen rund um den string erlauben das Vorkommen einfacher Anf√ºhrungszeichen
im string selbst, wie sie in diesem Fall bei Zitaten zu erwarten sind; au√üerdem kann der string 
dadurch √ºber mehrere Zeilen verteilt werden (wie auch in diesem Kommentar hier!)."""
text = """..."""

regex_1 = r""
regex_2 = r""
regex_3 = r'''...'''

three_letter_words = re.findall(regex_1, text)
capital_words = re.findall(regex_2, text)
quotes = re.findall(regex_3, text)


*** 

‚úèÔ∏è **√úbung 3:** Angelehnt an das Beispiel mit den Links auf [tu-dresden.de](https://tu-dresden.de) sollst Du in dieser √úbung ebenfalls Links von einer bestimmten Webseite (bzw. aus dessen Quelltext) extrahieren. 

1. √ñffne dazu den [Spielplan der Bundesligasaison 2019-2020 auf weltfussball.de](https://www.weltfussball.de/alle_spiele/bundesliga-2019-2020/). Nun wollen wir den Quelltext dieser Seite herunterladen. Da wir noch √ºber keine Web-Scraping-Skills verf√ºgen, machen wir es manuell. Geh dazu je nach Browser wie folgt vor:

    - bei Google Chrome und Firefox mittels Rechtsklick "Seitenquelltext anzeigen" w√§hlen
    - bei Safari mittels Rechtsklick "Seitenquelltext einblenden" w√§hlen
    
    <br>
    
    Markier und kopier nun den kompletten Quelltext und speicher ihn in einem neuen Dokument, das Du unter dem Namen "quelltext.txt" im Ordner "3_Dateien/Fussball" abspeicherst. F√ºr diesen Vorgang empfiehlt sich das im Notebook "Funktionen und Methoden Teil 2" erw√§hnte [Sublime Text](https://www.sublimetext.com).

    Der Quelltext im Browser sollte √ºbrigens so oder so √§hnlich ausschauen:

<img src="../3_Dateien/Grafiken_und_Videos/Quelltext.png">

2. √ñffne das Dokument wie im Notebook "Input und Output Teil 1" gelernt, lies es ein und weis es der Variablen ```source_code``` zu.

3. Geh noch einmal zum [Spielplan](https://www.weltfussball.de/alle_spiele/bundesliga-2019-2020/) im Browser und √∂ffne einige Spielberichte, indem Du auf die jeweiligen <b>Spielergebnisse</b> klickst. Schau Dir die Adresszeile an und analysier, wie die Links aufgebaut sind sowie worin sie sich unterscheiden. Schau ebenfalls im Quelltext nach, wie die Links da aussehen.
<details>
<summary>üí° Tipp </summary>
<br>Die Links im Quelltext sind abgek√ºrzt ‚Äì soll hei√üen, dass der erste Teil der URL (Protokoll, Subdomain und Domain) "https://www.weltfussball.de/" nicht vor jedem Link im Quelltext steht.
</details>
<br>
4. Formulier darauf aufbauend einen regul√§ren Ausdruck, der s√§mtliche Links zu allen Spielberichten im Quelltext matcht. F√ºg ihn als string bei der Variablen ```regex``` ein. Ist der regul√§re Ausdruck korrekt, sollte ```matches``` 306 Links beinhalten. Sowohl bei ```regex``` als auch bei ```matches``` musst Du nat√ºrlich noch die Hashtags entfernen.

5. Erstell eine Liste mit vollst√§ndigen Links zu allen Spielberichten und lass sie Dir ausgeben. Probier einige der Links aus.

Quelle: √úbung modifiziert √ºbernommen von Prof. Simon Meier-Vierackers Kurs [Reading Machines - Einf√ºhrung in die Korpuslinguistik](https://padlet.com/simonmeiervieracker/readingmachines), der unter dem angegebenen Link frei zug√§nglich ist.

In [None]:
#In diese Zelle kannst Du den Code zur √úbung schreiben.

#Hier Code zu Schritte 2 einf√ºgen

#Hier regul√§ren Ausdruck (Schritt 4) einf√ºgen
#regex = r""
#matches = re.findall(regex, source_code)

#Hier Code zu Schritt 5 einf√ºgen



***

#### Weitere Sonderzeichen

Zus√§tzlich zu den uns bereits bekannten Sonderzeichen gibt es noch folgende:

| **Zeichen** | **Sonderbedeutung** | **Beispiel** | **Bemerkungen** 
|:-:|:-|:-|:-|
| ```\n``` | matcht einen Zeilenumbruch |  - | -
| ```\t``` | matcht einen Tabstopp | - | -
| ```\b``` | matcht Wortgrenzen (whitespace oder nicht-alphanumerische Zeichen) | ```\b[a-z√§√∂√º√ü]{3}\b``` matcht ein kleingeschriebenes Wort mit drei Buchstaben und stellt eine elegantere L√∂sung f√ºr √úbung 2.1 dar (s.&nbsp;o. bzw. im L√∂sungsnotebook) | `\B` matcht das Gegenteil, also ein Zeichen, das keine Wortgrenze ist
| ```^``` | matcht den Anfang eines strings | ```^[A-Z√Ñ√ñ√ú]\w+\b``` matcht das erste Wort eines strings, sofern dieses mit einem Gro√übuchstaben beginnt | hat eine andere Bedeutung in eigenen Zeichenklassen (s.&nbsp;o.)
| ```$``` | matcht das Ende eines strings | ```te$``` matcht *te*, sofern diese Zeichen die letzten beiden eines strings sind | -
| ```\``` | "maskiert" (engl. *escapes*) Sonderzeichen, wenn diese literal interpretiert werden sollen | ```\.``` matcht ".", anstatt ein beliebiges Zeichen (Wildcard, s.&nbsp;o.) |  Maskierung ist innerhalb eigener Zeichenklassen nicht n√∂tig (s.&nbsp;o.)

***

‚úèÔ∏è **√úbung 4:** Lies das M√§rchen "Des Kaisers neue Kleider" von Hans Christian Andersen aus dem Ordner "3_Dateien" ein und weis es ```fairytale``` zu. Formulier nun regul√§re Ausdr√ºcke f√ºr folgende Suchauftr√§ge:

1. das erste Wort des M√§rchens
2. regelm√§√üige Verben in der 3. Person Singular/Plural im Pr√§teritum (z.&nbsp;B. "lebte" oder "sagten"; es ist in Ordnung, wenn Du mit diesem regul√§ren Ausdruck auch ein paar falsch positive matches kriegst ü§´, vgl. Wahrheitsmatrix im Notebook "Input und Output Teil 1")
3. letzte W√∂rter von S√§tzen, die mit einem Punkt enden (z.&nbsp;B. "einherzugehen", vgl. erster Satz des M√§rchens)
4. W√∂rter mit Doppel-a (z.&nbsp;B. "Saal")
5. das letzte Wort des M√§rchens

Da wir bei der ersten und letzten Aufgabe nicht nach *allen* matches suchen, sondern nur an einem einzigen interessiert sind (es kann ja auch nur jeweils einen match geben), verwenden wir eine neue Funktion, n√§mlich ```search```, auf die wir unten genauer eingehen. Dabei erhalten wir keine Liste zur√ºck, sondern ein sog. *match-Objekt*, wobei wir auf den eigentlichen match wie im ```print```-Statement bereits vorgegeben zugreifen k√∂nnen. √úberhaupt sollte das ```print```-Statement das Ergebnis aller f√ºnf Suchauftr√§ge sch√∂n formatiert ausgeben.

<details>
<summary> üëÜ Allgemeiner Hinweis </summary>
<br>Je komplexer die Suchauftr√§ge, desto mehr M√∂glichkeiten gibt es, einen regul√§ren Ausdruck daf√ºr zu konstruieren. Oft steht man vor der Frage, eine fertige Zeichenklasse wie z. B. <code>\w</code> einzubauen oder lieber eine eigene Zeichenklasse zusammenzustellen, um auch Nicht-ASCII-Zeichen zu matchen. Manchmal erreicht man sein Ziel auch aus der umgekehrten Richtung, z. B. mithilfe von <code>\S</code>, um alles <i>au√üer</i> whitespace zu matchen (was ja s√§mtliche Buchstaben, ASCII hin oder her, umfasst). Letzlich gilt es wie immer zwischen Genauigkeit und Effizienz abzuw√§gen. 
</details>
<br>
<details>
<summary>üí° Tipp </summary>
<br>Bedenk, dass es sich bei der eingelesenen Datei um einen einzigen string handelt. So kannst Du die Teilaufgaben 1 und 5 unkompliziert l√∂sen, indem Du Dich an der Position des Wortes im string orientierst und die entsprechenden Sonderzeichen aus der √ºber der √úbung stehenden Tabelle nutzt. F√ºr die anderen Teilaufgaben musst Du dagegen nach anderen strukturellen Merkmalen suchen.
</details>

In [None]:
#In diese Zelle kannst Du den Code zur √úbung schreiben.

regex_1 = r""
regex_2 = r""
regex_3 = r""
regex_4 = r""
regex_5 = r""

first_word = re.search(regex_1, fairytale)
verbs = re.findall(regex_2, fairytale)
last_words = re.findall(regex_3, fairytale)
double_vowel = re.findall(regex_4, fairytale)
last_word = re.search(regex_5, fairytale)

#Hashtag entfernen, um Ergebnisse auszugeben
#print(first_word.group(), "\n\n", verbs, "\n\n", [word.strip(".") for word in last_words], "\n\n", double_vowel, "\n\n", last_word.group().strip("."))

***


‚úèÔ∏è **√úbung 5:** Im Notebook "Funktionen und Methoden Teil 1" in √úbung 2 haben wir gesehen, dass das Wort "Klima" viel h√§ufiger im Koalitionsvertrag von 2021 als in demjenigen von 2018 vorkommt. Nun wollen wir herausfinden, in welcher Form das Wort verwendet wird. Neben dem alleinstehenden Auftreten von "Klima" (als sog. *Simplex*, da es aus nur einem Morphem besteht) ist "Klima" bzw. "klima" h√§ufig Teil von zusammengesetzten W√∂rtern, also sog. *Komposita*, wie etwa in "Klimakrise" oder "klimapolitisch".  

Lies den Koalitionsvertrag von 2021 noch einmal ein und weis ihn der Variablen ```kv21``` zu. Durchsuch ihn nun nach einem regul√§ren Ausdruck, der s√§mtliche Komposita, in denen "Klima" bzw. "klima" vorkommt, matcht. H√§ng alle Komposita der Liste ```climate_compounds``` an und lass Dir abschlie√üend die Liste ausgeben.

<details>
<summary>üí° Tipp </summary>
<br>Beachte, dass sowohl Komposita beginnend mit einer Majuskel (Gro√übuchstabe) als auch mit Minuskel (Kleinbuchstabe) gefunden werden sollen. Es reicht au√üerdem in dieser √úbung, wenn Du Dich auf zusammengeschriebene Komposita konzentrierst (Du kannst also solche mit Bindestrichschreibung ignorieren).
</details>


In [None]:
#In diese Zelle kannst Du den Code zur √úbung schreiben.

regex = r""

climate_compounds = re.findall(regex, kv21):
    


***

Damit kennen wir erst einmal die wichtigsten Sonderzeichen.

Bisher haben wir bei unseren regul√§ren Ausdr√ºcken nur jeweils definiert, welches bzw. welche Zeichen wo und wie oft vorkommen m√ºssen, damit ein match vorliegt. Wir konnten bei Aufgabe 4 in √úbung 4 beispielsweise festlegen, dass zwischen beliebig vielen anderen Buchstaben zwei "a" aufeinanderfolgen m√ºssen. Was aber, wenn wir nicht blo√ü an Doppel-"a"s, sondern generell an Doppelvokalen interessiert w√§ren? Der regul√§re Ausdruck ```r"\w*[aeiou]{2}\w*"``` ist daf√ºr keine L√∂sung, da er auch "gemischte" Doppelvokale wie z.&nbsp;B. den Diphtong "ie" in "schief" matchen w√ºrde. Hier kommen sog. *Gruppen* ins Spiel:

### Gruppen

Gruppen machen es m√∂glich, verschiedene Alternativen f√ºr eine bestimmte Position im regul√§ren Ausdruck zu definieren. Sie werden mit runden Klammern abgegrenzt und die Alternativen mit senkrechten Strich voneinander unterschieden. In der Tabelle unten folgt auch gleich die Aufl√∂sung, wie ein regul√§rer Ausdruck f√ºr W√∂rter mit Doppelvokalen ausschaut:

| **Zeichen** | **Sonderbedeutung** | **Beispiel** | **Bemerkungen** 
|:-:|:-|:-|:-|
| ```(...)``` | Gruppe | siehe Beispiel eine Zeile weiter unten | - 
| ```‚éÆ``` | Alternative | ```\w*(aa‚éÆee‚éÆii‚éÆoo‚éÆuu)\w*``` oder ```\w*(a{2}‚éÆe{2}‚éÆi{2}‚éÆo{2}‚éÆu{2})\w*```| -

***

‚úèÔ∏è **√úbung 6:** Find alle Substantive mit definitem Artikel (z.&nbsp;B. "der" oder "dem") in `text`, der der Einleitung des [Wikipedia-Artikels zu regul√§ren Ausdr√ºcken](https://de.wikipedia.org/wiki/Regul√§rer_Ausdruck) entspricht (Stand: 26.10.2022). Der Artikel (des Substantivs) sollte jeweils mitgemacht werden.

‚ö†Ô∏è Achtung: Sobald wir eine Gruppe in unserem regul√§ren Ausdruck verwenden, beschr√§nkt sich die <code>findall</code>-Funktion darauf, denjenigen Teil des gesamten matches, der von der Gruppe abgedeckt wird, zu speichern. Bei mehreren Gruppen speichert <code>findall</code> s√§mtliche matches, die von Gruppen abgedeckt werden, separat in einem Tupel. Das ist eine durchaus praktische Eigenschaft, die wir unten produktiv einsetzen werden. Da wir hier aber am gesamten match interessiert sind (in unserem Fall Artikel + Substantiv) k√∂nnen wir zus√§tzlich den gesamten Ausdruck in runde Klammern setzen. Dadurch erhalten wir den gesamten match als Hauptgruppe sowie alle weiteren darin befindlichen Gruppen als Tupel von <code>findall</code> zur√ºck. In den gegebenen <code>print</code>-Befehlen kannst Du Dir erstens nur den gesamten match (erstes Element im Tupel) oder zweitens die Hauptgruppe sowie alle anderen Gruppen ausgeben lassen.

In [None]:
#In diese Zelle kannst Du den Code zur √úbung schreiben.

text = """Ein regul√§rer Ausdruck (englisch regular expression, Abk√ºrzung RegExp oder Regex) ist in der theoretischen Informatik eine Zeichenkette, die der Beschreibung von Mengen von Zeichenketten mit Hilfe bestimmter syntaktischer Regeln dient. Regul√§re Ausdr√ºcke finden vor allem in der Softwareentwicklung Verwendung. Neben Implementierungen in vielen Programmiersprachen verarbeiten auch viele Texteditoren regul√§re Ausdr√ºcke in der Funktion ‚ÄûSuchen und Ersetzen‚Äú. Ein einfacher Anwendungsfall von regul√§ren Ausdr√ºcken sind Wildcards.
Regul√§re Ausdr√ºcke k√∂nnen als Filterkriterien in der Textsuche verwendet werden, indem der Text mit dem Muster des regul√§ren Ausdrucks abgeglichen wird. Dieser Vorgang wird auch Pattern Matching genannt. So ist es beispielsweise m√∂glich, alle W√∂rter aus einer Wortliste herauszusuchen, die mit S beginnen und auf D enden, ohne die dazwischen liegenden Buchstaben oder deren Anzahl explizit vorgeben zu m√ºssen.
Der Begriff des regul√§ren Ausdrucks geht im Wesentlichen auf den Mathematiker Stephen Kleene zur√ºck, der die √§hnliche Bezeichnung regul√§re Menge verwendete."""

regex = r"()"

matches = re.findall(regex, text)

#Hashtags entfernen, um Ergebnisse auszugeben
#Nur den gesamten match (Hauptgruppe) ausgeben lassen
#print([match[0] for match in matches])
    
#Den gesamten match (Hauptgruppe) und alle anderen Gruppen ausgeben lassen
#print([match for match in matches])

*** 

Einerseits k√∂nnen wir Gruppen in Kombination mit dem senkrechten Strich dazu einsetzen, verschiedene Alternativen f√ºr eine bestimmte Position im regul√§ren Ausdruck zu definieren, also z.&nbsp;B. "er", "ie" etc. im Anschluss an "d", um verschiedene Varianten des definiten Artikels gleichzeitig abzudecken.

Andererseits bieten Gruppen den praktischen Vorteil, dass wir nicht nur einen Gesamtmatch zur√ºckerhalten (sofern wir den gesamten regul√§ren Ausdruck ebenfalls in eine runde Klammer setzen, siehe √úbung 6), sondern auch beliebig viele Teilmatches. Alles, was in einem regul√§ren Ausdruck von einer runden Klammer umrahmt wird, wird als Teilmatch in einem Tupel zur√ºckgegeben, wobei die Reihenfolge im Tupel der Reihenfolge der √∂ffnenden Klammern im regul√§ren Ausdruck entspricht. 

Wir m√ºssen innerhalb von Gruppen √ºbrigens nicht unbedingt Alternativen definieren. In bestimmten Anwendungsf√§llen reicht uns eine Option, es ist uns aber wichtig, dass wir separat auf den Teil des Gesamtmatches zugreifen k√∂nnen, der von den entsprechenden runden Klammern umrahmt wird. Machen wir es in folgender √úbung konkret:

***

‚úèÔ∏è **√úbung 7 (fortgeschritten):** Gegeben sind kurze Beschreibungen von f√ºnf Personen in ```people```. In jeder Beschreibung findet sich der Vor- und Nachname, das Geburtsdatum sowie die E-Mailadresse der Person. Wir wollen daraus ein kleines Adressbuch in tabellarischer Form schaffen. Ziel ist es, die Daten wie im Screenshot gezeigt in die Datei "address_book.tsv" im Ordner "3_Dateien/Output" zu schreiben: 

<img src="../3_Dateien/Grafiken_und_Videos/address_book.png">

Zwischen den Namen und dem Geburtstag sowie dem Geburtstag und der E-Mailadresse soll also ein Tab stehen, da Dateien mit der Endung ".tsv" tabulatorsepariert sind (dem gleichen Prinzip wie kommaseparierte Dateien folgend, vgl. Notebook "Input und Output Teil 2").

Formulier *einen* regul√§ren Ausdruck, um f√ºnf matches zu erhalten (einen pro Person), und nutz Gruppen, um die Elemente *Nachname*, *Vorname*, *Geburtstag* und *E-Mailadresse* als Teilmatch separat zu erhalten. √ñffne und beschreib anschlie√üend die Datei "address_book.tsv", sodass jede Person in einer eigenen Zeile sowie jedes Element in einer eigenen Spalte abgespeichert wird.

<details>
<summary>üí° Tipp </summary> 
<br> <code>findall</code> findet stets den l√§ngstm√∂glichen match. Da die Wildcard alle beliebigen Zeichen <i>au√üer</i> einen Zeilenumbruch matcht, kannst Du sie getrost in Deinen regul√§ren Ausdruck einbauen, z. B. f√ºr die erste Gruppe der Vornamen, etwa so <code>(.+)</code>. Indem Du danach eine Gruppe f√ºr den Nachnamen anh√§ngst, kann die durch den Quantifikator <code>+</code> "ungeb√§ndigte" Wildcard nicht einfach die ganze Personenbeschreibung matchen (man spricht angesichts dieser Gier auch von <i>fressen</i>). Dies, da sie ja keinen Zeilenumbruch matchen kann und nach dem Zeilenumbruch nun mal nichts kommt, das von Deiner zweiten Gruppe sowie dem restlichen regul√§ren Ausdruck gematcht werden k√∂nnte.
</details>
<br>

Quelle: √úbung modifiziert √ºbernommen von Prof. Simon Meier-Vierackers Kurs [Reading Machines - Einf√ºhrung in die Korpuslinguistik](https://padlet.com/simonmeiervieracker/readingmachines), der unter dem angegebenen Link frei zug√§nglich ist.

In [None]:
#In diese Zelle kannst Du den Code zur √úbung schreiben.

people = """Detlef SCHULZ hat am 21.03.1967 Geburtstag, und das ist seine Emailadresse: schulz-detlef@gmail.net 
Ina SCHULTER wurde am 02.04.1992 geboren und ihre E-Mail-Adresse lautet: inaschulter@gmx.de
Katharina Anne LAMAI ist ein Dezemberkind, ihr Geburtstag ist der 08.12.1955 geboren und ihre E-Mail-Adresse lautet: KaAnLa@yahoo.com
Anuk MARGA ist am 15.01.1988 auf die Welt gekommen, ihre E-Mail-Adresse lautet: MargAnuk@gmail.com
Albus Percival Wulfric Brian DUMBLEDORE hat 17.06.1881 das Licht der Welt erblickt. Er hat sogar eine Emailadresse: fresh-dumbledore@hogwarts.com"""
 
regex = r""

matches = re.findall(regex, people)



*** 

Sehr gut!

Weiter unten folgen noch weitere Beispiele, in denen wir mit Teilmatches arbeiten, die aus Gruppen im regul√§ren Ausdruck erwachsen.

Bevor wir uns dem ```re```-Modul zuwenden, soll auf weitere Tutorials zu regul√§ren Ausdr√ºcken verwiesen werden, die zus√§tzliche Funktionalit√§ten thematisieren:

- [Umfangreiche und dennoch konzise Einf√ºhrung von Dr. Daniel Fett, die weitere Features wie Lookaheads und Lookbehinds bespricht](https://danielfett.de/2006/03/20/regulaere-ausdruecke-tutorial/) 
- [Kurzes, auf die Korpuslinguistik zugeschnittenes Tutorial von Prof. Dr. Noah Bubenhofer von der Universit√§t Z√ºrich](https://www.bubenhofer.com/korpuslinguistik/kurs/index.php?id=regexp.html)
- [Gut gegliederte, umfangreiche Anleitung mit √úbungen](http://regenechsen.de/wp/)

## Das ```re```-Modul

Nun schauen wir uns das Modul ```re``` genauer an. Grunds√§tzlich kann man unterscheiden zwischen Funktionen zum blo√üen Matchen regul√§rer Ausdr√ºcke sowie weiteren zum Matchen und Ersetzen bzw. Matchen und Splitten von strings basierend auf regul√§ren Ausdr√ºcken.

### Matchen

Zum Matchen haben wir oben bereits ```re.findall``` und ```re.search``` genutzt.

#### ```re.findall``` und ```re.search```

Beide Funktionen nehmen als erstes Argument einen regul√§ren Ausdruck und als zweites einen string, den sie nach dem regul√§ren Ausdruck absuchen. Als weiteres, bisher noch unbekanntes Argument, kann man ihnen, wie auch allen folgenden Funktionen, sog. Flags √ºbergeben, die Eigenschaften des regul√§ren Ausdrucks spezifizieren. N√ºtzlich ist hier vor allem die ```re.IGNORECASE```- bzw. abgek√ºrzt ```re.I```-Flag, die definiert, dass Gro√ü- und Kleinschreibung nicht beachtet werden soll. Ein Beispiel daf√ºr sehen wir weiter unten.

`re.findall` gibt alle matches (bzw. Teilmatches bei Gruppen, s.&nbsp;o.) auf einer Liste zur√ºck. ```re.search``` gibt dagegen *ein* sog. match-Objekt zur√ºck, bestehend aus dem ersten gefundenen match und dessen Position im abgesuchten string in Form von Indizes. Auf dieses match-Objekt k√∂nnen wir die etwas kryptisch benannten Methoden ```group``` und ```span``` anwenden, um separat auf match bzw. Indizes zuzugreifen. Der Unterschied wird in folgendem Code noch einmal veranschaulicht:

In [None]:
birth_notice = "Lena erblickte am 1. September 2022 genau 17 Sekunden nach Punkt 1 Uhr fr√ºh das Licht der Welt, sie wog 3403 Gramm und ma√ü 51 cm."
regex = r"\d+"
all_matches = re.findall(regex, birth_notice)
first_match = re.search(regex, birth_notice)

print([match for match in all_matches])
print(first_match.group(), first_match.span()) 

Der erste match befindet sich also zwischen den Indizes 18 und 19 (der Startindex ist wie immer inklusiv und der Endindex exklusiv). 

***

‚úèÔ∏è **√úbung 8:** Bei ```birth_notices``` handelt es nun um eine Liste mit mehreren Geburtsanzeigen. Deine Aufgabe ist es, die Geburtsdaten der Neugeboreren mithilfe eines regul√§ren Ausdrucks sowie einer geeigneten Funktion des ```re```-Moduls aus den Anzeigen zu extrahieren und einer Liste namens ```birth_dates``` anzuh√§ngen. Lass Dir abschlie√üend ```birth_dates``` ausgeben.

<details>
<summary>üí° Tipp </summary>
<br>Achte darauf, dass Du den Punkt mit einem backslash escapen musst, sonst wird er zur Wildcard.
</details>

In [None]:
#In diese Zelle kannst Du den Code zur √úbung schreiben.

birth_notices = ["Lena erblickte am 1. September 2022 die Welt.",
                 "Petra kam am 28. Februar 2022 zur Welt.",
                 "Yusuf strahlte uns am 14. Dezember 2022 mit gl√§nzenden √Ñuglein an.", 
                 "Juans Leben begann am sonnigen 19. August 2022.",
                 "Robert bereichert seit dem 5. Mai 2022 unser Leben.",
                 "Mi begl√ºckt uns seit dem 1. M√§rz 2022."]


***

Super!

#### ```re.finditer``` (fortgeschritten)

Angenommen, wir sind sowohl an allen matches in einem string als auch an deren jeweiligen Position interessiert, so k√∂nnen wir die ```re.finditer```-Funktion verwenden:

In [None]:
all_matches_with_indices = re.finditer(regex, birth_notice)

for match in all_matches_with_indices:
    print("Die Zahl", match.group(), "befindet sich zwischen Index", match.span()[0], "und", match.span()[1], "in der Geburtsanzeige.")

Wie bei ```re.findall``` landen alle matches in einer Art Liste (aber siehe Randnotiz unten). Die einzelnen Elemente sind wiederum match-Objekte, auf die wir wie bei ```re.search``` die Methoden ```group``` und ```span``` anwenden k√∂nnen, um auf den jeweiligen match bzw. die Indizes zuzugreifen.

Kurze Randnotiz, die Du auch gerne √ºberlesen kannst: ```finditer``` gibt keine normale Liste zur√ºck, sondern eine andere Art von iterierbarem Objekt, das nach einer einzigen Iteration leer (engl. *exhausted*) ist (√ºberpr√ºf es, indem Du eine neue Code-Zelle einf√ºgst und noch einmal versuchst √ºber ```all_matches_with_indices``` zu iterieren). Das bietet effizienztechnische Vorteile (wenn's Dich interessiert: [hier](https://stackoverflow.com/questions/628903/performance-advantages-to-iterators) eine Diskussion zum Thema), ist f√ºr gew√∂hnliche Programmierer:innen aber irritierend. üôà

#### ```re.match``` und ```re.fullmatch```

Daneben gibt es noch die Funktionen ```re.match``` und ```re.fullmatch```. Erstere √ºberpr√ºft bei einem string, ob dessen Anfang den regul√§ren Ausdruck matcht (wodurch ```^``` √ºberfl√ºssig wird, s.&nbsp;o.) und letztere, ob der gesamte string den regul√§ren Ausdruck matcht (wodurch ```^``` und ```$``` √ºberfl√ºssig werden). 

Der folgende, recht "dreiste" Code, der so √§hnlich im Pizzabot integriert ist, endet nur, wenn Du einer Pizza mit "Ja" zustimmst. Schau, was passiert, wenn Du z.&nbsp;B. mit "Ja, wobei nein doch nicht" antwortest.

In [None]:
prompt = "Willst Du eine Pizza?"
yes_regex, no_regex = r"Ja", r"Nein"
reaction_to_invalid_input = "\nIch akzeptiere nur ein 'Ja'.\n"
    
while True: 

    answer = input(prompt)

    if re.match(yes_regex, answer):
        print("Das ist die richtige Entscheidung!")
        break
    else:
        print(reaction_to_invalid_input)

Je nach Anwendungsfall macht es Sinn, etwas flexibler nur den Anfang eines strings zu matchen (```re.match```), oder strikt den kompletten string (```re.fullmatch```). Im Pizzabot wird ```re.fullmatch``` eingesetzt, um z.&nbsp;B. den (wenn auch wenig wahrscheinlichen) Input "Ja, wobei nein doch nicht" korrekt zu "handeln".

üí° In diesem Code sehen wir au√üerdem ein Verhalten Pythons, dem wir zwar schon einmal *en passant* im Notebook "Input und Output" begegnet sind, das wir aber noch nicht explizit besprochen haben: Wenn wir uns die bedingte Anweisung ```if re.match(regex, text)``` bzw. ```if re.fullmatch(regex, text)``` (vgl. auch Abschnitt zu Miss Sara Sampson im Notebook "Input und Output Teil 2") angucken, k√∂nnte der Eindruck entstehen, dass diese Funktionen die Boolschen Werte ```True``` oder ```False``` zur√ºckgeben, je nachdem ob ein match vorliegt oder nicht. Tats√§chlich geben sie aber ein gew√∂hnliches match-Objekt zur√ºck, wenn sie einen match finden, ansonsten ```None```, also *kein* Objekt. In der bedingten Anweisung oben machen wir uns den Umstand zunutze, dass ```if object == None``` (auf das es ja hinausl√§uft) f√ºr Python immer ```False``` ergibt und alles andere (also, wenn das Objekt *nicht* ```None``` ist) immer ```True``` ergibt. Dieses Verhalten gilt nat√ºrlich nicht nur im Zusammenhang mit regul√§ren Ausdr√ºcken. Wir k√∂nnen es produktiv einsetzen, wann immer es Sinn macht, den Ablauf des Codes von der Existenz eines Objekts abh√§ngig zu machen (im Code des Pizzabots kommt es √ºbrigens auch vor). 

Damit kennen wir alle wesentlichen Funktionen zum Matchen regul√§rer Ausdr√ºcke. 

### Matchen und Ersetzen: ```re.sub```

Aufbauend auf den Funktionen zum Matchen regul√§rer Ausdr√ºcke, bietet das ```re```-Modul auch die praktische Funktion ```re.sub```, die alle matches des regul√§ren Ausdrucks (```regex```) mit dem als zweiten Argument √ºbergebenen string ```replacement``` im als drittes Argument √ºbergegeben string (unten: ```birth_dates```) ersetzt. Im folgenden Code nutzen wir ```re.sub```, um Geburtsdaten zu schw√§rzen.

In [None]:
birth_dates = "Ich bin am 09.08.1992 geboren, meine Schwester am 3.4.95 und unser Bruder am 9.10.1998"
regex = r"\d{1,2}\.\d{1,2}\.(19)?\d{2}"
replacement = "‚óæ‚óæ.‚óæ‚óæ.‚óæ‚óæ‚óæ‚óæ" 
blackened = re.sub(regex, replacement, birth_dates)
print(blackened)

Klappt doch super!

```replacement``` kann √ºbrigens auch ein regul√§rer Ausdruck sein, in dem wir mithilfe von Gruppen separierte Teilmatches des Ausdrucks ```regex``` referenzieren. Wie oben gelernt, speichern viele Funktionen des ```re```-Moduls Teilmatches als Tupel ab, so auch `re.sub`. Innerhalb eines regul√§ren Ausdrucks f√ºr ```replacement``` k√∂nnen wir den Inhalt der einzelnen Teilmatches einbauen. Der erste Teilmatch wird mit der R√ºckreferenz `\1` eingebaut, der zweite mit ```\2```, etc. Die Reihenfolge der Teilmatches enspricht wie gesagt der Reihenfolge der √∂ffnenden Klammern im regul√§ren Ausdruck ```regex```. 

Machen wir es konkret und formatieren die Preisangaben in ```prices``` einheitlich um. Hier kommt au√üerdem die Flag ```re.I``` zum Einsatz, d.&nbsp;h. Gro√ü- und Kleinschreibung werden beim Matchen ignoriert:

In [None]:
prices = "Der Apfel kostet 0,99 EUR, die Banane 1,49 ‚Ç¨, das Brot 2,49 Euro und die Kaugummipackung 1 Euro."
regex = r"(\d+,?\d{0,2}) (euro?|‚Ç¨)"
replacement = r"EUR \1"
prices_standardized = re.sub(regex, replacement, prices, flags=re.I) #Mit flag
print(prices_standardized)

In ```regex``` matchen wir mit der ersten Gruppe den Betrag und bauen diesen mittels der R√ºckreferenz ```\1``` in ```replacement``` ein. Konkret hei√üt das: Sobald der gesamte regul√§re Ausdruck einen match in ```prices``` findet, wird derjenige Teil des matches, der von der ersten Gruppe gemacht wird, in genau der gleichen Form in der Ersetzung eingebaut. Die zweite Gruppe hingegen dient nur dem Definieren von Alternativen. Dieser Teilmatch wird nicht in ```replacement``` eingebaut. 

***

‚úèÔ∏è **√úbung 9:** Gegeben sind in ```people``` noch einmal die Personenbeschreibungen aus √úbung 7 sowie die Musterl√∂sung f√ºr den regul√§ren Ausdruck in ```regex```. ```regex``` beinhaltet Gruppen, auf deren Teilmatches wir zur√ºckgreifen k√∂nnen. Formulier unter Zuhilfenahme von R√ºckreferenzen einen regul√§ren Ausdruck f√ºr ```replacement```, um anschlie√üend ```people``` mithilfe von ```re.sub``` in dasselbe Format wie in √úbung 7 zu bringen:

"Nachname, Vorname \t Geburtsdatum \t E-Mailadresse" 

Es reicht diesmal, wenn Du das Dir das Ergebnis einfach ausgeben l√§sst.

<details>
<summary>üí° Tipp </summary>
<br>Achte darauf, neben den R√ºckreferenzen auch die Tabs in <code>replacement</code> zu schreiben. 
</details>
<br>

In [None]:
#In diese Zelle kannst Du den Code zur √úbung schreiben.

people = """Detlef SCHULZ hat am 21.03.1967 Geburtstag, und das ist seine Emailadresse: schulz-detlef@gmail.net 
Ina SCHULTER wurde am 02.04.1992 geboren und ihre E-Mail-Adresse lautet: inaschulter@gmx.de
Katharina Anne LAMAI ist ein Dezemberkind, ihr Geburtstag ist der 08.12.1955 geboren und ihre E-Mail-Adresse lautet: KaAnLa@yahoo.com
Anuk MARGA ist am 15.01.1988 auf die Welt gekommen, ihre E-Mail-Adresse lautet: MargAnuk@gmail.com
Albus Percival Wulfric Brian DUMBLEDORE hat 17.06.1881 das Licht der Welt erblickt. Er hat sogar eine Emailadresse: fresh-dumbledore@hogwarts.com"""

regex = r"(.+) ([A-Z]+) .+ (\d{2}\.\d{2}\.\d{4}) .+ (\S+@\S+)"
replacement = r""



***

Anstatt eines string, ob nun ein normaler oder ein regul√§rer Ausdruck, kann anstelle von ```replacement``` √ºbrigens auch eine Funktion stehen. 

Der Funktion wird iterativ jedes einzelne match-Objekt √ºbergeben. Innerhalb der Funktion wird mithilfe der ```group```-Methode auf Teilmatches zugegriffen. Die ```group```-Methode nimmt n√§mlich optional einen Parameter in Klammern, z.&nbsp;B. eine Eins, wenn wir den ersten Teilmatch referenzieren wollen oder eine Drei f√ºr den dritten, etc. (in den bisherigen Anwendungsbeispielen von ```group``` war die Klammer stets leer, da es gar keine Teilmatches gab). Am Ende der Funktion steht wie immer ein ```return```-Statement (siehe Notebook "Funktionen und Methoden Teil 2"). Das, was die Funktion zur√ºckgibt, ersetzt den match im abgesuchten string. 

Die Verwendung einer Funktion f√ºr die Ersetzung macht immer dann Sinn, wenn blo√ües Rearrangieren der Teilmatches mithilfe von R√ºckreferenzen nicht ausreicht, sondern die einzelnen Teilmatches zus√§tzlich modifiziert werden m√ºssen, wie in der folgenden √úbung.

***

‚úèÔ∏è **√úbung 10:** ```birth_dates``` von oben ist nun etwas l√§nger und beinhaltet mehr Geburtsdaten. Ziel ist es, s√§mtliche Geburtsdaten in das Datumsformat nach [ISO 8601](https://de.wikipedia.org/wiki/Datumsformat#ISO_8601_und_EN_28601), also YYYY/MM/DD, zu bringen. Geh dazu wie folgt vor:

1. Wenn n√∂tig, pass ```regex``` an, damit auch alle neuen Geburtsdaten gematcht werden.
2. Setz Klammern in ```regex```, um relevante Teile eines matches zu gruppieren.
3. Pass die Funktion ```to_ISO_format``` an, damit jedes einzelne match-Objekt entsprechend IS0 8601 umstrukturiert wird. Bei zweistelligen Jahreszahlen unter und gleich 22 kannst Du davon ausgehen, dass sie sich auf das 21. Jahrhundert beziehen, ansonsten auf das 20. Jahrhundert.

Der Funktionsaufruf innerhalb von ```re.sub(...)``` ist korrekt, so wie er gegeben ist (es fehlen also keine Klammern!).
    
<details>
<summary>üí° Tipp </summary>
<br>Verwend f-strings zur Formatierung der Teilmatches (vgl. Notebook "Input und Output Teil 2").
</details>


In [None]:
#In diese Zelle kannst Du den Code zur √úbung schreiben.

birth_dates = """Ich bin am 09.08.1992 geboren, meine Schwester am 3.4.95 und unser Bruder am 9.10.1998. 
Unsere Mutter ist am 23.10.1967 geboren und unser Vater am 14.1.68. 
Der letzte Familienzuwachs ist die Tochter meines Bruders, die am 1.1.2022 geboren wurde."""

regex = r"\d{1,2}\.\d{1,2}\.(19)?\d{2}"

def to_ISO_format(match_object):
    pass
     
iso_dates = re.sub(regex, to_ISO_format, birth_dates)
print(iso_dates)

***

Toll! 

So viel zur ```re.sub```-Funktion.

### Matchen und Splitten: ```re.split```

Widmen wir uns abschlie√üend kurz der Funktion ```re.split```, die dem Splitten von strings basierend auf einem regul√§ren Ausdruck dient. Im Gegensatz zur ```split```-Methode f√ºr strings k√∂nnen wir also nicht blo√ü ein Zeichen (bzw. eine Zeichenkette) definieren, bei welchem der string jeweils unterteilt wird, sondern ein komplexeres Muster, z.&nbsp;B. mehrere Zeichen, bei (all) denen  gesplittet werden soll:

In [None]:
text = "Das ist ein Satz. Aber ist das ein Satz? Das hingegen ist definitiv ein Satz: Das ist ein Satz!"
regex = r"[.?!:]"
sentences = re.split(regex, text)
print([sentence.strip() for sentence in sentences])

```re.split``` eignet sich also hervorragend zum Splitten eines string nicht nur in Aussages√§tze, sondern ebenfalls in Frage- und Exklamativs√§tze (mit "!"). Alles, was nach dem letzten match im zu splittenden string folgt, landet √ºbrigens in einem eigenen Element auf der Liste, kurioserweise auch, wenn kein Zeichen mehr nach dem letzten match folgt (wie im Code oben, in dem ein leeres Element die Liste beendet).

‚òùÔ∏è Eine letzte Bemerkung zum ```re```-Modul: Die oben verwendeten Funktionen begegnen einem in fremdem Code oft auch in Form von Methoden, z.&nbsp;B. in folgender Form: ```regex.split(string)```. Dieses Statement ist gleichbedeutend mit ```re.split(regex, string)```. Aber beachte: Um eine Methode auf einen regul√§ren Ausdruck anwenden zu k√∂nnen, muss dieser erst mithilfe der Funktion ```re.compile``` in ein kompiliertes *regular expression object* umgewandelt werden. Nur auf ein kompiliertes Objekt k√∂nnen dann ```re```-Methoden angewandt werden. Die Methoden bieten einige Finetuning-Parameter, die wir bei den Funktionen nicht nutzen k√∂nnen. In aller Regel sind die Funktionen aber praktischer, da der Kompilierschritt entf√§llt. Dennoch ist es gut, beide Herangehensweisen zu kennen, um nicht von einer abweichenden Syntax (Methode statt Funktion) verwirrt zu werden.

Wenden wir uns nun dem Anwendungsfall f√ºr dieses Notebook zu.

***

##  üîß Anwendungsfall: Der Pizzabot üçïü§ñ

Der Anwendungsfall besteht wie erw√§hnt aus zwei Teilaufgaben. In der RegEx-bezogenen Aufgabe baust Du bereits existierende, aber noch sehr primitive regul√§re Ausdr√ºcke aus, um den Pizzabot flexibler und kund:innenfreundlicher werden zu lassen. In der Dokumentationsaufgabe schaust Du Dir den ‚Äì abgesehen von den mangelhaften regul√§ren Ausdr√ºcken fertigen ‚Äì Code zum Pizzabot genau an und dokumentierst ihn Schritt f√ºr Schritt.

### RegEx-bezogene Aufgabe

In der Datei "pizzabot.py" im Ordner "3_Dateien/Module" befinden sich unter "REGEX PATTERNS" sechs regul√§re Ausdr√ºcke: drei f√ºr die verschiedenen Pizzen, die der Bot im Angebot hat, zwei zur Normalisierung und Validierung von Antworten (Input) auf Ja-/Nein-Fragen und einen zur Validierung von what3words-Adressen, an die die Bestellung geliefert werden soll. 

Jeder dieser Ausdr√ºcke dient dazu, den Input von User:innen zu validieren ("handelt es sich um eine Pizza im Angebot?", "handelt es sich um eine g√ºltige Antwort auf die Ja-/Nein-Frage?", "handelt es sich um eine g√ºltige Lieferadresse?"). Die regul√§ren Ausdr√ºcke f√ºr die Pizzen und diejenige f√ºr "Ja" bzw. "Nein" haben zus√§tzlich die Aufgabe, den Input zu normalisieren. Will hei√üen: Die Bestellung einer "Margerita" (mit Rechtschreibfehler) soll der dem Bot verst√§ndlichen Kategorie "Margherita" zugeordnet werden, ebenso wie ein "jap" im Code zu "yes" werden soll, wobei "yes" dann den weiteren Codeablauf steuert (```if answer == "yes"```, siehe Code in "pizza_functions.py").

Erweiter nun die befindlichen regul√§ren Ausdr√ºcke derart, dass der Pizzabot 

1) f√ºr die drei Pizzen jeweils mindestens folgende Alternativschreibweisen erkennt:
    - margherita: margerita, margarita, margarita, mergerita, margarita
    - prosciutto: proschutto, schinken, procciuto, prosciuto, proschuto
    - vegetariana: vegetarisch, vegi, vegetariano, vegetaria, vegetario</br></br>

2) bei der Normalisierung und Validierung des Inputs auf Ja-/Nein-Fragen mindestens mit folgendem alternativen Input umgehen kann:
    - ja: jo, jup, jop, jap, jaa, ja klar, klaro, mmhm, mhm, yes, si, oui, ja bitte, yes please, ja danke, yas, yeah
    - nein: ne, nee, n√∂, nein danke, niemals, bitte nicht, no, never, ne danke, n√∂ danke, nee danke, nope, nene, no thanks, no, niet</br></br>

3) bei der Validierung der [what3words](https://w3w.co/)-Adressen s√§mtlichen Input bestehend aus drei W√∂rtern des deutschen Alphabets, konkateniert durch je einen Punkt akzeptiert.

Gro√ü- und Kleinschreibung musst Du nicht beachten, da ```re.fullmatch``` in "pizza_functions.py" jeweils die ```re.I```-Flag (s.&nbsp;o.) √ºbergeben wird. Versuch, m√∂glichst kurze regul√§re Ausdr√ºcke zu formulieren.

Zum √úberpr√ºfen, ob der Pizzabot durch Deine angepassten regul√§ren Ausdr√ºcke mit alternativem Input umgehen kann, kannst folgende Zelle ausf√ºhren:

In [None]:
import sys
sys.path.append("../3_Dateien/Module")
from importlib import reload 

"""Falls der Pizzabot noch nicht importiert wurde (d. h. der Name "pizzabot" ist noch keine sog. lokale Variable, 
was wir √ºber 'locals()' √ºberpr√ºfen k√∂nnen), importieren wir ihn wie gew√∂hnlich."""
if "pizzabot" not in locals():
    import pizzabot
#Falls er schon einmal importiert wurde (sich also unter den lokalen Namen befindet), laden wir ihn erneut mithilfe von 'reload', um neueste √Ñnderungen ausprobieren zu k√∂nnen, ohne den Kernel neuzustarten.
else:
    reload(pizzabot)

pizzabot.order_pizza()

Die Funktion ```reload``` sorgt daf√ºr, dass jeweils die neuste gespeicherte Version des Moduls ```pizzabot``` geladen wird. Standardm√§√üig geschieht dies aus Arbeitsspeichergr√ºnden erst nach einem Neustart des Kernels. 

### Dokumentationsaufgabe

√ñffne die Datei "pizzabot.py" in Sublime Text (vgl. Notebook "Funktionen und Methoden Teil 2") und versuch Schritt f√ºr Schritt nachzuvollziehen, was in der darin befindlichen Funktion ```order_pizza``` geschieht. Unter anderem werden darin die Funktionen ```choose_pizza```, ```remove_ingredient```, ```add_ingredient```, ```request_address``` und ```yn_validator``` aus dem Modul ```pizza_functions``` importiert und aufgerufen. √ñffne parallel auch diese Datei ("pizza_function.py") und versuch zu verstehen, was in den einzelnen Funktionen passiert und wie sie mit ```order_pizza``` interagieren.

Konkret sollst Du folgendes tun:

1) F√ºg m√∂glichst vor jeder Code-Zeile einen Kommentar ein, in welchem Du dokumentierst, was in der folgenden Zeile passiert (vgl. Notebook "Einf√ºhrung" zu Kommentaren).
2) Erg√§nz alle Funktionen um docstrings, die sich anschlie√üend √ºber das ```__doc__```-Attribut abrufen lassen (vgl. Notebook "Funktionen und Methoden Teil 2" zu Modulen).

<details>
<summary>üí° Tipp </summary>
<br> In dieser Aufgabe lohnt es sich wirklich, <code>print</code>-Befehle in den Code einzubauen, um etwa Zwischenresultate zur√ºckzukriegen oder um zu verstehen, wann eine bedingte Anweisung "greift". Auch hier gilt: Wann immer Du den Code ver√§nderst und ihn erneut ausprobieren willst, musst Du das betreffende Modul speichern und den Bot mithilfe von <code>reload</code> erneut laden (s. o.). 
</details>
<br>
Nach getaner Arbeit kannst Du hier die docstrings s√§mtlicher Funktionen inspizieren:

In [None]:
#'reload' bei √Ñnderungen, gleiche Logik wie oben
if "pizza_functions" not in locals():
    import sys
    sys.path.append("../3_Dateien/Module")
    import pizzabot, pizza_functions
else:
    reload(pizzabot)
    reload(pizza_functions)

print("order_pizza:", pizzabot.order_pizza.__doc__, "\n")
print("yn_validator:", pizza_functions.yn_validator.__doc__, "\n")
print("choose_pizza:", pizza_functions.choose_pizza.__doc__, "\n")
print("remove_ingredient:", pizza_functions.remove_ingredient.__doc__, "\n")
print("add_ingredient:", pizza_functions.add_ingredient.__doc__, "\n")
print("request_address:", pizza_functions.request_address.__doc__, "\n")

***



Das war's. Sehr gute Arbeit!

## Cheat Sheet

Unten findest Du noch eine Zusammenstellung aller hier vorgestellten Sonderzeichen in einer Tabelle.

| **Zeichen** | **Sonderbedeutung** | **Beispiel** | **Bemerkungen** 
|:-:|:-|:-|:-:|
| ```.``` | matcht ein beliebiges Zeichen | ```H.nd``` matcht z.&nbsp;B. *Hund*, *Hand* | einzige Ausnahme: `.` matcht keinen Zeilenumbruch
| ```*``` | das davor stehende Zeichen darf 0 bis *n* mal vorkommen | ```Hund.*``` matcht z.&nbsp;B. *Hund*, *Hunde*, *Hundeh√ºtte* | ist *gierig* (engl. *greedy*), matcht also so viele Zeichen wie m√∂glich; kann durch Anf√ºgen von `?` *geb√§ndigt* werden (engl. *non-greedy/lazy quantifier*)
| ```+``` | das davor stehende Zeichen darf 1 bis *n* mal vorkommen | ```Hund.+``` matcht z.&nbsp;B. *Hunde*, *Hundeh√ºtte* | ist *gierig* (engl. *greedy*), matcht also so viele Zeichen wie m√∂glich; kann durch Anf√ºgen von `?` *geb√§ndigt* werden (engl. *non-greedy/lazy quantifier*)
| ```?``` | das davor stehende Zeichen darf 0 bis 1 mal vorkommen | ```Hund.?``` matcht z.&nbsp;B. *Hund*, *Hunde*, *Hunds* | ‚Äì
| ```{n}``` | das davor stehende Zeichen darf genau *n* mal vorkommen | ```Hu{7}nd``` matcht *Huuuuuuund* | ‚Äì
| ```{n,m}``` | das davor stehende Zeichen darf min. *n* und max. *m* mal vorkommen | ```Hu{2,3}nd``` matcht *Huund*, *Huuund* | bleiben *n* / *m* leer, werden nach unten / oben beliebig viele Zeichen gematcht; ist *gierig* (engl. *greedy*), matcht also so viele Zeichen wie m√∂glich; kann durch Anf√ºgen von `?` *geb√§ndigt* werden (engl. *non-greedy/lazy quantifier*)
| ```\w``` | matcht ein beliebiges alphanumerisches [ASCII](https://de.wikipedia.org/wiki/American_Standard_Code_for_Information_Interchange)-Zeichen | ```N\w*t``` matcht z.&nbsp;B. *Nacht*, *N8t*, *Nimmersatt* | Fertige Zeichenklasse; ASCII beinh√§lt A-Z, a-z, 0-9, Unterstrich, aber nicht die dt. Buchstaben √§, √∂, √º, √ü!
| ```\d``` | matcht eine Zahl | ```\d{4} \d{4} \d{4} \d{4}``` matcht Kreditkartennummern im g√§ngigen Schreibformat | Fertige Zeichenklasse
| ```\s``` | matcht ein whitespace-Zeichen (Leerschlag, Tabstopp, Zeilenumbruch) | ```\s{2,}``` matcht alle Vorkommen von mehrfachen Leerschl√§gen (und anderem whitespace) | Fertige Zeichenklasse
| ```\W```,```\D```,```\S``` | matcht jeweils das Gegenteil von ```\w```, ```\d``` bzw.```\s``` | ```\W+``` matcht z.&nbsp;B. *√§√∂√º√±√ü√•!!* | Fertige Zeichenklassen
| ```[...]``` | eigene Zeichenklasse | ```[\w√Ñ√§√ñ√∂√ú√º√ü]*``` matcht beliebig viele Buchstaben des dt. Alphabets | erlaubte Zeichen (inkl. fertiger Zeichenklassen) werden schlicht aneinandergereiht; Sonderzeichen (mit Ausnahme fertiger Klassen) verlieren ihre Sonderbedeutung innerhalb von Klassen (`.` steht f√ºr ".", also keine Wildcard)
| ```[a-z]``` | eigene Zeichenklasse mit Range | ```[1-3]{2}``` matcht *11*, *12*, *13*, *21*, *22*, *23*, *31*, *32*, *33* | Range mittels Bindestrich funktioniert bei Gro√ü-/Kleinbuchstaben und Zahlen
| ```[^...]``` | matcht ein Zeichen, das sich nicht in der Klasse befindet | ```[^aeiouAEIOU]``` matcht einen Konsonanten oder ein anderes nicht-alphabetisches Zeichen | ```^``` hat au√üerhalb von Klassen eine andere Sonderbedeutung (s.&nbsp;u.)
| ```\n``` | matcht einen Zeilenumbruch |  - | -
| ```\t``` | matcht einen Tabstopp | - | -
| ```\b``` | matcht Wortgrenzen (whitespace oder nicht-alphanumerische Zeichen) | ```\b[a-z√§√∂√º√ü]{3}\b``` matcht ein kleingeschriebenes Wort mit drei Buchstaben | `\B` matcht das Gegenteil, also ein Zeichen, das keine Wortgrenze ist
| ```^``` | matcht den Anfang eines strings | ```^[A-Z√Ñ√ñ√ú]\w+\b``` matcht das erste Wort eines strings, sofern dieses mit einem Gro√übuchstaben beginnt | hat eine andere Bedeutung in eigenen Zeichenklassen (s.&nbsp;o.)
| ```$``` | matcht das Ende eines strings | ```te$``` matcht *te*, sofern diese Zeichen die letzten beiden eines strings sind | -
| ```\``` | "maskiert" (engl. *escapes*) Sonderzeichen, wenn diese literal interpretiert werden sollen | ```\.``` matcht ".", anstatt ein beliebiges Zeichen (Wildcard, s.&nbsp;o.) |  Maskierung ist innerhalb eigener Zeichenklassen nicht n√∂tig (s.&nbsp;o.)
| ```(...)``` | Gruppe | siehe Beispiel eine Zeile weiter unten | - 
| ```‚éÆ``` | Alternative | ```\w*(aa‚éÆee‚éÆii‚éÆoo‚éÆuu)\w*``` oder ```\w*(a{2}‚éÆe{2}‚éÆi{2}‚éÆo{2}‚éÆu{2})\w*``` matcht ein Wort mit Doppelvokal | -