# Zusatzübungen zum Notebook "Reguläre Ausdrücke"

👆 Je komplexer die Suchaufträge, desto mehr Möglichkeiten gibt es, einen regulären Ausdruck dafür zu konstruieren. Bei der Abwägung zwischen Genauigkeit (decke ich alle gewünschten Fälle und nur diese ab?) und Effizienz (wie lange brauche ich, um den regulären Ausdruck zu konstruieren?) gibt es nicht immer Richtig und Falsch.


✏️ **Übung 1:** Um das Formulieren von regulären Ausdrücken zu üben, laden wir uns den [Wikipedia-Artikel zur Quantenphysik](https://de.wikipedia.org/wiki/Quantenphysik) herunter. Dies tun wir mithilfe des Moduls ```wikipediaapi```, das die offizielle Schnittstelle von Wikipedia (die sog. *API*) für Python zugänglich macht. 

Installier zuallererst das Modul über die Command Line (Terminal unter macOS und Linux/Eingabeaufforderung unter Windows): ```pip3 install wikipedia-api``` (beachte den Bindestrich!). Der Code zum Herunterladen des Artikels steht Dir bereits in der Code-Zelle zur Verfügung. Du musst bloß Deine Mailadresse bei ```mail_address``` angeben. Die Kontaktangabe beim "Anzapfen" einer Schnittstelle gehört nämlich zum guten Ton! 
    
Führ anschließend die Code-Zelle *einmal* aus. Da jede Abfrage die Server von Wikipedia beschäftigt, versuchen wir die Anzahl an Abfragen auf ein Minimum zu begrenzen. Im Extremfall (bei vielen Abfragen von der selben IP-Adresse innerhalb eines kurzen Zeitraums) sperrt Wikipedia Dich automatisch. 

In [None]:
mail_address = "" #Trag hier Deine Mailadresse ein.

import wikipediaapi #Kein Bindestrich beim Import

#Initialisieren der Schnittstelle mittels Angabe von 'user_agent', Sprache und Extraktionsformat 
Wiki_API = wikipediaapi.Wikipedia(user_agent=f"Programmierenlernen, {mail_address}", language="de", extract_format=wikipediaapi.ExtractFormat.WIKI)
qp = Wiki_API.page('Quantenphysik').text #Eigentliche Abfrage des angegebenen Artikels
print(". ".join(qp.split(".")[0:3])) #Ausgabe der ersten drei Sätze

***
✏️ **Übung 2:** Nun steht uns der Inhalt des Artikels als string-Objekt in ```qp``` zur Verfügung und wir können reguläre Ausdrücke üben. 

Extrahier als Erstes alle Wörter bestehend aus mindestens 20 Buchstaben.

<details>
    <summary>💡 Tipp 1 </summary>
    <br>Verwend hier und in den folgenden Übungen, wo sinnvoll, die <code>re.I</code>-Flag, um die regulären Ausdrücke kurz zu halten.
</details>
<br>
<details>
    <summary>💡 Tipp 2 </summary>
    <br>Beachte, dass die vordefinierte Zeichenklasse <code>\w</code> ä,ö,ü,ß usw. <b>nicht</b> matcht.
</details>

In [None]:
#In diese Zelle kannst Du den Code zur Übung schreiben.



***
✏️ **Übung 3:** Lass Dir nun alle einzigartigen kleingeschriebenen Wörter in ```qp``` bestehend aus zwei oder drei Buchstaben ausgeben.

<details>
    <summary>💡 Tipp </summary>
    <br>Um ganze Wörter zu matchen, muss der reguläre Ausdruck vor und nach den zwei bis drei Buchstaben auch nach Wortgrenzen suchen. 
</details>

In [None]:
#In diese Zelle kannst Du den Code zur Übung schreiben.



***
✏️ **Übung 4:** Schaff eine Liste mit allen Wörtern mit Bindestrich (z.&nbsp;B. "Wikipedia-Artikel") in ```qp```.


In [None]:
#In diese Zelle kannst Du den Code zur Übung schreiben.



***
✏️ **Übung 5:** Extrahier aus ```qp``` sämtliche Wörter mit Großbuchstaben am Anfang, die mindestens vier Buchstaben lang sind. Lass sie Dir alphabetisch ausgeben.

<details>
    <summary>💡 Tipp </summary>
    <br>Beachte, dass die zuvor eingesetzte Flag für diese Aufgabe nicht funktioniert. 
</details>

In [None]:
#In diese Zelle kannst Du den Code zur Übung schreiben.



***
✏️ **Übung 6:** Identifizier alle Substantivpaare in ```qp```, die mit "und" verbunden sind (z.&nbsp; B. "Phänomene und Effekte").

In [None]:
#In diese Zelle kannst Du den Code zur Übung schreiben.



***
✏️ **Übung 7:** Find sämtliche Klammerbemerkungen in ```qp```. 

<details>
    <summary> 💡 Tipp </summary>
    <br>Uneingeschränkte Quantifikatoren matchen so viele Zeichen wie möglich, d. h. <code>re</code> findet den längstmöglichen match. Kommt nach einer schließenden Klammer später im abzusuchenden Text noch einmal eine schließende Klammer (und unter der Voraussetzung, dass alles dazwischen ebenfalls gematcht werden kann), so matcht <code>re</code> den gesamten Abschnitt von der ersten öffnenden Klammer bis zur letzten schließenden Klammer. Um diese <i>Gier</i> zu bändigen (und die einzelnen Klammerbemerkungen separat zu matchen), können wir dem Quantifikator ein <code>?</code> anfügen. Dann matcht <code>re</code> nur so viele Zeichen wie nötig, um einen vollständigen match zu erreichen.
</details>

In [None]:
#In diese Zelle kannst Du den Code zur Übung schreiben.



***
✏️ **Übung 8:** An welcher Stelle und in welchem Wort in ```qp``` taucht "theorie" zum ersten Mal auf?

<details>
    <summary>💡 Tipp </summary>
    <br>Für diese Aufgabe benötigst Du eine im Notebook "Reguläre Ausdrücke" kennengelernte Methode, die das erste Vorkommen eines Ausdrucks ermittelt.  
</details>

In [None]:
#In diese Zelle kannst Du den Code zur Übung schreiben.



***
✏️ **Übung 9:** Erstell eine Häufigkeitsverteilung über alle Zahlen in ```qp```. 

<details>
    <summary>💡 Tipp </summary>
    <br>Nutz <code>pandas</code> für den letzten Schritt.
</details>

In [None]:
#In diese Zelle kannst Du den Code zur Übung schreiben.



***
✏️ **Übung 10:** Tausch die Position der beiden Substantive in allen in Übung 6 ermittelten Substantivpaaren in `qp`. Statt "Phänomene und Effekte" soll "Effekte und Phänomene" im Text stehen etc.

<details>
    <summary>💡 Tipp </summary>
    <br>Arbeite hierfür mit Teilmatches.
</details>

In [None]:
#In diese Zelle kannst Du den Code zur Übung schreiben.



***
<table>
      <tr>
        <td>
            <img src="../3_Dateien/Lizenz/CC-BY-SA.png" width="400">
        </td> 
        <td>
            <p>Dieses Notebook sowie sämtliche weiteren <a href="https://github.com/yannickfrommherz/exdimed-student/tree/main">Materialien zum Programmierenlernen für Geistes- und Sozialwissenschaftler:innen</a> sind im Rahmen des Projekts <i>Experimentierraum Digitale Medienkompetenz</i> als Teil von <a href="https://tu-dresden.de/gsw/virtuos/">virTUos</a> entstanden. Erstellt wurden sie von Yannick Frommherz unter Mitarbeit von Anne Josephine Matz. Sie stehen als Open Educational Resource nach <a href="https://creativecommons.org/licenses/by-sa/4.0/">CC BY SA</a> zur freien Verfügung. Für Feedback und bei Fragen nutz bitte das <a href="https://forms.gle/VsYJgy4bZTSqKioA7">Kontaktformular</a>.
        </td>
      </tr>
</table>