# Web Scraping Teil 2

Willkommen zur√ºck! 

Wir machen direkt weiter mit ein paar Informationen zu verantwortungsvollem Scrapen. Darauf folgt der bereits angeteaserte Anwendungsfall: Wir scrapen den Faust I. Das Notebook endet mit einem Exkurs zu der HTML-verwandten Auszeichnungssprache *XML*, die besonders in den Digital Humanities gerne verwendet wird, um Daten zu speichern und zu teilen.

Zun√§chst f√ºhren wir diese Zelle aus:

In [None]:
import requests
from bs4 import BeautifulSoup
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.99 Safari/537.36'}

## Recht und Ethik

Rechtlich gesehen ist Web Scraping zu Forschungszwecken vollkommen legal ([EU-Gesetz dazu](https://eur-lex.europa.eu/legal-content/DE/TXT/PDF/?uri=CELEX:32019L0790)). Wir m√ºssen dabei lediglich beachten, dass wir nur √∂ffentlich zug√§ngliche Daten scrapen ‚Äì die hier erlernten Methoden gestatten uns aber ohnehin nur das. Wenn wir unsere gescrapten Daten weiterver√∂ffentlichen, etwa in einem Paper, dann m√ºssen wir au√üerdem bedenken, personenbezogene Daten zu anonymisieren. 

Bei der Ethik wiederum geht es nicht darum, was legal ist, sondern darum, was nach gesundem Menschenverstand in Ordnung ist. Webseiten werden ja auf Servern betrieben, die f√ºr eine bestimmte Auslastung (also eine bestimmte Anzahl an Anfragen pro Zeiteinheit) ausgelegt sind. Wenn Server √ºberlastet werden, haben nicht nur wir ein Problem, sondern auch andere Leute, die die Webseite aufrufen m√∂chten. Verantwortungsvolles Web Scraping bedeutet folglich, nur so viele Anfragen an den Server zu schicken, wie n√∂tig. 

Die Aufteilung von Abruf- und Extraktionsschritt in verschiedene Zellen eines Jupyter Notebooks ist eine Ma√ünahme, die verhindert, dass wir den Server selbst dann belasten, wenn wir den Abrufschritt l√§ngst absolviert haben. Wenn wir im Abrufschritt an sich eine hohe Anzahl an Quelltexten herunterladen wollen, k√∂nnen wir au√üerdem einen Timer einbauen, der zwischen den einzelnen Anfragen eine kurze Pause einlegt. Dazu benutzen wir das Modul `time`, das zur Grundausstattung von Python geh√∂rt und folglich nicht erst installiert werden muss:

In [None]:
import time

links = ["https://de.wikipedia.org/wiki/Althochdeutsche_Sprache",
         "https://de.wikipedia.org/wiki/Mittelhochdeutsche_Sprache",
         "https://de.wikipedia.org/wiki/Fr√ºhneuhochdeutsche_Sprache"]

source_codes = []  

for link in links:
    
    response = requests.get(link, timeout=5, headers=headers)
    source_codes.append(response.text)
    
    print(f"Fertig abgerufen: {link}. Nun wird kurz pausiert.") #Zur besseren Nachvollziehbarkeit des Prozesses
    
    #Der Funktion 'sleep' √ºbergeben wir, wie viele Sekunden pausiert werden soll
    time.sleep(5)

Manchmal √ºbertreiben wir es mit den Anfragen aus Versehen trotzdem und wir werden vom Server blockiert. In anderen F√§llen wiederum werden wir selbst bei verantwortungsvollem Web Scraping blockiert, da der Server Anti-Scraping-Mechanismen implementiert hat und unsere Anfrage als automatisiert erkannt wurde. Eine Blockierung kann sich verschiedentlich √§u√üern, u.&nbsp;a. in den HTTP-Statuscodes 403 ("Forbidden") bzw. 429 ("Too many requests").

Beim Abrufen einer hohen Anzahl an Quelltexten lohnt es sich also zus√§tzlich zur Pausierung einen Mechanismus zur Kontrolle der Statuscodes einzubauen:

In [None]:
links = ["https://de.wikipedia.org/wiki/Althochdeutsche_Sprache",
         "https://de.wikipedia.org/wiki/Mittelhochdeutsche_Sprache",
         "https://de.wikipedia.org/Dieser_Link_funktioniert_nicht",
         "https://de.wikipedia.org/wiki/Fr√ºhneuhochdeutsche_Sprache"]

source_codes = []  

for link in links:
    
    response = requests.get(link, timeout=5, headers=headers)
    
    #Kontrolle des Statuscodes mithilfe eines in 'requests' eingebauten Mechanismus
    if not response.status_code == requests.codes.ok:
        print("Statuscode nicht ok!")
        break
        
    source_codes.append(response.text)

    print(f"Fertig abgerufen: {link}. Nun wird kurz pausiert.") #Zur besseren Nachvollziehbarkeit des Prozesses
    
    #Der Funktion 'sleep' √ºbergeben wir, wie viele Sekunden pausiert werden soll (hier f√ºnf Sekunden)
    time.sleep(5)

Die Abrufschleife bricht ab, sobald der Statuscode auf einen Fehler hindeutet. Hier trifft das beim dritten Link zu. Nicht, weil wir blockiert worden w√§re, sondern weil der Link schlicht nicht existiert (Statuscode 404). 

Die bereits erfolgreich abgerufenen Quelltexte bleiben uns dank diesem Code aber erhalten:

In [None]:
len(source_codes)

F√ºr den Fall, dass Du mal blockiert wirst, kannst Du versuchen, andere oder weitere Parameter in `headers` zu spezifizieren oder ggf. sogar zwischen unterschiedlichen `headers` zu rotieren. Dadurch sieht es so aus, als k√§men die Anfragen von unterschiedlichen Browsern. Eine weitere M√∂glichkeit besteht darin, √ºber einen VPN oder sog. *Proxies* Deine IP-Adresse zu √§ndern bzw. ebenfalls zwischen verschiedenen IP-Adressen zu rotieren. Informier Dich bei Bedarf im Internet zu diesen Methoden sowie in der [Dokumentation](https://requests.readthedocs.io/en/latest/user/advanced/#proxies) von `requests`.

Wenden wir uns dem Anwendungsfall zu:

***

## üîß Anwendungsfall: Den Faust I scrapen üé≠

Nun wollen wir den kompletten *Faust I* von [Projekt Gutenberg](https://www.projekt-gutenberg.org/goethe/faust1/chap002.html) scrapen und in einer Textdatei in folgendem Format abspeichern (der Auszug entstammt der Szene [*Nacht*](https://www.projekt-gutenberg.org/goethe/faust1/chap004.html)):

    Geist

        Wer ruft mir?

    Faust

        Schreckliches Gesicht!

    Geist

        Du hast mich m√§chtig angezogen,
        An meiner Sph√§re lang gesogen,
        Und nun ‚Äì

    Faust

        Weh! ich ertrag dich nicht!
        
Du kannst nun entweder den Anwendungsfall ohne weitere Anleitung in Angriff nehmen. An der ein oder anderen Stelle wirst Du vermutlich nach L√∂sungen im Internet suchen m√ºssen. Da dies au√üerhalb dieser Lernumgebung ohnehin h√§ufig vorkommen wird, stellt dies eine gute √úbungsgelegenheit daf√ºr dar. Andererseits steht Dir im Anschluss an die beiden Code-Zellen eine Schritt-f√ºr-Schritt-Anleitung zur Verf√ºgung, die Dich durch den Anwendungsfall lotst. 

In jedem Fall: viel Erfolg! üôå

In [None]:
#In diese Zelle kannst Du den Code f√ºr den Abrufschritt schreiben.
#F√ºhre diese Zelle nur so oft wie n√∂tig aus, um den Server nicht unn√∂tig zu belasten!





















In [None]:
#In diese Zelle kannst Du den Code f√ºr den Extraktionsschritt schreiben.





















*** 

**Schritt-f√ºr-Schritt-Anleitung**

<u>Abruf</u>

1. Schau Dir die [erste Seite](https://www.projekt-gutenberg.org/goethe/faust1/chap002.html) des Werks auf www.projekt-gutenberg.org im Browser an und untersuch den ihr zugrundeliegenden Quelltext. Find so heraus, wie Du an die Links zu den folgenden Seiten kommst, damit Du auch diese scrapen kannst.

2. Wie Du im Quelltext der ersten Seite erkennen kannst, verbirgt sich hinter der Schaltfl√§che "Weiter" nur jeweils die Linkendung, die um einen Stammlink erg√§nzt werden muss. 
    
    Definier den Stammlink in `base_link` sowie die Linkendung f√ºr die erste Seite in `link_ending`. Konkatenier die beiden strings zu `link` und lass Dir diesen ausgeben. Er sollte Dich zur ersten Seite des Werks f√ºhren.

In [None]:
base_link = ""
link_ending = ""



3. √úberleg Dir nun, mithilfe welcher Kontrollstruktur Du ausgehend von der ersten Seite nacheinander alle Seiten scrapen kannst, bis es keine weitere Seite mehr gibt. Welche weitere Kontrollstruktur kannst Du verwenden, um das Scraping in diesem Fall zu beenden? 

4. Um von einer Seite zur n√§chsten zu gelangen, m√ºssen wir ja jeweils den Link darauf aus der aktuellen Seite extrahieren. Definier daf√ºr einen regul√§ren Ausdruck, der den Link hinter der Schaltfl√§che "Weiter" matcht. Falls Du noch nicht mit regul√§ren Ausdr√ºcken vertraut bist, dann kopier den Code f√ºr diesen Schritt aus der L√∂sung.

    <details>
      <summary>üí° Tipp </summary>
      <br>Lass Deinen regul√§ren Ausdruck ruhig mehr als nur den eigentlichen Link matchen, also auch Zeichen davor bzw. danach im Quelltext. So stellst Du einfach sicher, dass nur der gew√ºnschte Link gematcht wird. Bau aber mithilfe von runden Klammern eine Gruppe ein, die nur den Link umfasst (vgl. Notebook "Regul√§re Ausdr√ºcke"). So kannst Du anschlie√üend einfach auf den relevanten Teil des matches zugreifen.
    </details>
    <br>

In [None]:
regex = r""

5. Setz nun Deine Erkenntnisse aus Schritt 3 in Code um: 
    
    A. Schreib eine Schleife (erste Kontrollstruktur), die wiederholt wird, bis sie auf ein `break`-Statement trifft. 
    
    B. Verwend das `request`-Modul, um die Seite zum aktuellen `link` abzurufen (`link` entspricht ja zumindest am Anfang der ersten Seite, s.&nbsp;o.). Speichere das Response-Objekt in `current_page`.
    
    C. Da `requests` automatisch von einem falschen Encoding ausgeht (weswegen etwa Umlaute falsch dekodiert w√ºrden), m√ºssen wir das Encoding korrigieren: `current_page.encoding = "UTF-8"`.
    
    D. H√§ng den eigentlichen Quelltext in `current_page` einer zuvor definierten Liste `all_pages` an, die s√§mtliche Quelltexte umfassen soll.
    
    E. Such den Quelltext nach `regex` ab. Verwend dazu die Funktion `search` des Moduls `re` (schau auch hier in der L√∂sung nach, wenn Du mit regul√§ren Ausdr√ºcken noch nicht vertraut bist).
    <details>
      <summary>üí° Tipp </summary>
      <br>Vergiss nicht, <code>re</code> erst zu importieren.<br>
    </details>
    <br>
    
    F. √úberpr√ºf nun mithilfe der zweiten Kontrollstruktur, ob ein match vorliegt. Wenn ja, √ºberschreib `link`, indem Du den match, also die neue Linkendung, an `base_link` anh√§ngst. Nun kann die n√§chste Seite gescrapt werden. Liegt kein match (mehr) vor, soll die Schleife abgebrochen werden.    
    <details>
      <summary>üí° Tipp </summary>
      <br>Die zum matchen benutzten Funktion <code>search</code> gibt ja ein sog. match-Objekt zur√ºck, bestehend aus dem ersten gefundenen match und dessen Position im abgesuchten string. Nun sind wir nicht am match als Ganzes interessiert, sondern nur an der Gruppe mit der Linkendung. Wend die Methode <code>group</code> auf das match-Objekt an und √ºbergib ihr in Klammern eine Eins, um direkt auf die erste (und einzige) Gruppe zuzugreifen (vgl. Notebook "Regul√§re Ausdr√ºcke").
    <br>
    </details>
    <br>

<u>Extraktion</u>

6. Nun haben wir alle Quelltexte gescrapt und es geht ans Extrahieren der relevanten Daten. Wir schreiben zun√§chst Code, um alle Strophen sowie die Figuren aus einem *einzelnen* Quelltext zu extrahieren. Anschlie√üend bauen wir diesen Code in eine Schleife, der √ºber *s√§mtliche* Quelltexte iteriert und nach und nach das gesamte Werk extrahiert.

    Analysier als Erstes die Quelltexte eingehend, entweder im Browser, in Sublime Text oder indem Du sie Dir mithilfe von `prettify` von BeautifulSoup ausgeben l√§sst. Welche Elemente mit welchen Tags und ggf. welchen Attributen beinhalten die Strophen und Figuren?

7. Verwend BeautifulSoup, um den ersten Quelltext zu parsen. Schaff ein Objekt `body`, das nur noch das `<body>`-Element beinhaltet.

8. Iterier mithilfe von `find_all` √ºber alle Elemente desjenigen Tags, das sowohl Strophen als auch Figuren umfasst. 

    √úberpr√ºf f√ºr jedes Element erstens, ob sich darin untergeordnet dasjenige Element befindet, das die Figuren enth√§lt. Wenn ja, extrahier es und weis es `speaker` zu. Bereinige `speaker` von √ºberfl√ºssigen Zeichen und lass es Dir ausgeben.

    <details>
      <summary>üí° Tipp</summary>
      <br>Es ist wichtig, dass Du zun√§chst mithilfe einer <code>if</code>-Bedingung √ºberpr√ºfst, ob ein solches Element gefunden werden kann, bevor Du auf dessen Inhalt zugreifst. Existiert das Element n√§mlich nicht, w√ºrde der Zugriff eine Fehlermeldung ausl√∂sen.
    </details>
    <br>
    
    √úberpr√ºf zweitens, ob das Element andernfalls √ºber dasjenige Attribut verf√ºgt, das s√§mtliche Elemente, die Strophen beinhalten, miteinander teilen. Wenn ja, extrahier es, unterteil es in Verse und weis diese `lines` zu. Lass Dir `lines` sch√∂n formatiert ausgeben.
    
    <details>
      <summary>üí° Tipp</summary>
      <br>Verwend die <code>get</code>-Methode, um zu √ºberpr√ºfen, ob das gew√ºnschte Attribut dem gesuchten Wert entspricht. Find au√üerdem heraus, ob der Wert des Attributs wirklich als string zur√ºckgegeben wird. 
    </details>
    <br>
    
    ‚ö†Ô∏è Achtung: Manche Strophen beinhalten auch Regieanweisungen in einem untergeordneten `<span>`-Element. Bau folgenden Code an der richtigen Stelle ein, um diese `<span>`-Elemente aus den Strophen zu entfernen:
    
    `if line.span:`
     <br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;`line.span.decompose()`
    
    Wir √ºberpr√ºfen damit erst, ob die entsprechende Strophe ein `<span>`-Element enth√§lt und wenn ja, entfernen wir es aus ihr mithilfe der `decompose`-Methode.

9. Modifizier den Code aus Schritt 8 derart, dass Du die relevanten Daten nicht nur aus *einem* Quelltext extrahierst, sondern aus *allen* auf `all_pages`. Pass ihn au√üerdem so an, dass Dir Figuren und Strophen nicht ausgegeben werden, sondern dass diese in eine externe Datei geschrieben werden. 

    <details>
          <summary>üí° Tipp</summary>
          <br>Beachte, dass die <code>print</code>-Funktion automatisch einen Zeilenumbruch im Anschluss an das Ausgegebene anf√ºgt. Beim Schreiben in externe Dateien musst Du diesen Zeilenumbruch manuell hinzuf√ºgen. 
        </details>
        <br>

Tolle Arbeit! üéâ

***

Zu guter Letzt werfen wir noch einen Blick auf die HTML-verwandte Auszeichnungssprache XML. W√§hrend HTML prim√§r dazu verwendet wird, Texte und Daten *zwecks der Darstellung* zu strukturieren (bzw. *auszuzeichnen*), wird XML vorwiegend dazu benutzt, Texte und Daten *zwecks der Speicherung* zu gliedern. 

## Exkurs: XML

Ein XML-Dokument (kurz f√ºr *E<u>x</u>tensible <u>M</u>arkup <u>L</u>anguage*) ist im Wesentlich gleich strukturiert wie ein in HTML verfasstes: Verschiedene **Elemente** sind in einem Stammbaum **hierarchisch** angeordnet. Die Elemente sind wiederum durch **Tags** sowie optional **Attribute** charakterisiert. 

Folgende Zelle enth√§lt ein Beispiel f√ºr XML-Code. Die erste Zeile deklariert den Dokumenttyp ‚Äì das kennen wir auch von HTML-Code. Es folgt ein Verzeichnis (`<verzeichnis>`), dessen Inhalt neben einem `<titel>`-Element zwei `<eintrag>`-Elemente umfasst. Jedes `<eintrag>`-Element verf√ºgt √ºber ein `id`-Attribut sowie drei Kinder mit Textinhalt, n√§mlich `<stichwort>`, `<abkuerzung>` und `<zweck>`. Die Einr√ºckungen dienen auch hier nur der Lesbarkeit.

An diesem Beispiel l√§sst sich bereits der wichtigste Unterschied zwischen XML und HTML erkennen: Die Namen der Tags sind nicht vorgegeben, sondern k√∂nnen frei gew√§hlt werden (u.&nbsp;a. daher kommt die Bezeichnung *extensible*, also "erweiterbar"). 

Arbeiten wir ganz praktisch mit einem XML-Dokument! Konkret schauen wir uns ein sog. *Plenarprotokoll* des Deutschen Bundestags an, und zwar das vom 10. April 2024. Darin befinden sich s√§mtliche √Ñu√üerungen der Abgeordneten, die an diesem Tag im Parlament gemacht wurden, stenografisch protokolliert. Ein solches Protokoll im XML-Format k√∂nnen wir f√ºr s√§mtliche Sitzungen des Bundestags [hier](https://www.bundestag.de/services/opendata) herunterladen. 

### XML parsen

Das ausgew√§hlte Protokoll befindet sich bereits in "3_Dateien/XML". Wie bis anhin gilt: √ñffne die Datei am besten parallel zu diesem Notebook in Sublime Text. So f√§llt es Dir leichter, die folgenden √úberlegungen im Code nachzuvollziehen.

<details>
<summary>üí° Tipp</summary>
<br>Benutz das im GIF unten gezeigte, praktische Feature, um Elemente ein- und auszuklappen. Dadurch siehst Du schnell, in welcher Beziehung die einzelnen Elemente zueinander stehen. Dieses Feature funktioniert √ºbrigens auch bei HTML-Code.<br><br>
    <img src="../3_Dateien/Grafiken_und_Videos/einklappen.gif" width="600">
</details>
<br>

Um die Datei hier einzulesen, importieren wir das Modul `xml` (bzw. einen spezifischen Teil davon). `xml` geh√∂rt bei Python zur Grundausstattung.

In [None]:
import xml.etree.ElementTree as ET #Wir weisen dem Modul(teil) den Kurznamen 'ET' zu, was der Konvention entspricht.

‚ö†Ô∏è Achtung: Viele der folgenden Techniken des Moduls `xml` √§hneln jenen von `BeautifulSoup` f√ºr HTML-Code. Bei den meisten gibt es aber kleine, teils sehr bedeutsame Unterschiede in der Implementierung. Ein Beispiel: Die Methoden `find` und `find_all` (`BeautifulSoup`) bzw. `findall` (`xml`) dienen bei beiden Modulen der Suche nach dem ersten resp. allen Elementen, die bestimmte Kriterien erf√ºllen. W√§hrend jedoch `BeautifulSoup` sog. *rekursiv*  sucht, also in s√§mtlichen untergeordneten Elementen (und den Elementen, die diesen untergeordnet sind, etc.), beschr√§nkt sich `xml` auf das Element, auf das wir die Methode anwenden. F√ºr die rekursive Suche h√§lt das Modul stattdessen die Methode `iter` bereit (s.&nbsp;u.). Behalt die Tatsache, dass es sich um zwei verschiedene Module, denen unterschiedlicher Code zugrunde liegt, einfach im Hinterkopf. Wo relevant, wird in den folgenden Code-Zellen auf Pendants bei `BeautifulSoup` verwiesen.

Um nun das Protokoll zu laden und gleich zu parsen, verwenden wir bei `xml` die `parse`-Funktion. Anschlie√üend m√ºssen wir noch das oberste Element, also den Stamm bzw. die Wurzel, √ºber die Methode `getroot` extrahieren:

In [None]:
tree = ET.parse("../3_Dateien/XML/plenarprotokoll.xml")
root = tree.getroot() 

Was k√∂nnte sich in `root` nun befinden? Schau dazu im Dokument bei Sublime Text nach.

Genau, das gesamte oberste Element unseres XML-Dokuments, also dasjenige mit dem Tag `<dbtplenarprotokoll>`. Das k√∂nnen wir folgendema√üen √ºberpr√ºfen:

In [None]:
root.tag #'tag' entspricht bei 'BeautifulSoup' dem 'name'-Attribut.

Wie Du im Dokument sehen kannst, verf√ºgt dieses Element √ºber diverse Attribute. Diese k√∂nnen wir uns wie folgt ausgeben lassen:

In [None]:
root.attrib #'attrib' entspricht bei 'BeautifulSoup' dem 'attrs'-Attribut.

Einzelne Werte zu bestimmten Attributen (bzw. Schl√ºsseln) k√∂nnen wir so extrahieren:

In [None]:
root.get("sitzung-datum") #Gleichnamige Methode wie bei 'BeautifulSoup'

Um s√§mtliche Elemente mit einem bestimmten Tag **rekursiv** zu extrahieren, benutzen wir bei `xml` wie erw√§hnt die `iter`-Methode, am besten direkt in eine Schleife eingebaut.

In [None]:
for item in root.iter("tagesordnungspunkt"):
    print(item.tag, item.attrib)

Am 10. April 2024 wurden also insgesamt sieben Tagesordnungspunkte abgehandelt. 

Angenommen wir sind nur an den "echten" Tagesordnungspunkten und nicht an den "Zusatzpunkten" interessiert, so k√∂nnen wir zus√§tzlich zum Tag nach dem Attribut `top-id` filtern. `iter` ‚Äì ebenso wie die nicht-rekursiven Methoden `find` und `findall` ‚Äì akzeptiert allerdings maximal ein Tag als Suchkriterium und keine Liste oder Kombination von Tags und Attributen. Stattdessen m√ºssen wir zu einer `if`-Bedingung greifen:

In [None]:
for item in root.iter("tagesordnungspunkt"):
    #√úberpr√ºfung, ob der Wert des Attributs bzw. des Schl√ºssels "top-id", der ja ein string ist, mit "T" beginnt
    if item.get("top-id").startswith("T"):
        print(item.tag, item.attrib)

Klappt hervorragend!

Nun wollen wir uns auf die √Ñu√üerungen der Abgeordneten im Protokoll konzentrieren. Wie ein Blick in das XML-Dokument verr√§t, befinden sich diese in Elementen mit dem Tag `<rede>` bzw. diesem untergeordnet in `<p>`-Elementen. In der folgenden Zelle verwenden wir wieder `iter` ‚Äì zweimal hintereinander geschaltet ‚Äì und extrahieren den in den `<p>`-Elementen befindlichen Textinhalt √ºber das `text`-Attribut. Die `if.paragraph.text`-Bedingung ist n√∂tig, da gewisse `<p>`-Elemente leer sind und `None` zur√ºckgeben w√ºrden.

In [None]:
for speech in root.iter("rede"):
    for paragraph in speech.iter("p"):
        if paragraph.text:
            print(paragraph.text.strip(), end=" ") #'text' hei√üt gleich bei 'BeautifulSoup'
    print("\n") #Einf√ºgen eines Zeilenumbruchs nach jeder Rede

Das scheint ganz gut zu klappen. 

√úberpr√ºfen wir aber zur Sicherheit, ob wir auch wirklich nur das Gew√ºnschte extrahiert haben, also die √Ñu√üerungen der Abgeordneten (bzw. die *True Positives*, vgl. "Die Wahrheitsmatrix" in Notebook "Input und Output Teil 1"). Beim Lesen der ersten Rede von Annalena Baerbock irritiert der Schluss (alles nach "Vielen Dank"). Dieser wurde, wie ein Blick in das XML-Dokument zeigt, denn auch gar nicht von der Rednerin selbst gesprochen, sondern von der Parlamentspr√§sidentin B√§rbel Bas. Einziger Hinweis ist ein dem fraglichen `<p>`-Element vorgeschobenes `<name>`-Element. Tats√§chlich finden sich solche √Ñu√üerungen der Parlamentspr√§sidentin (und sp√§ter im Protokoll ihres Vize-Pr√§sidenten Wolfgang Kubicki) am Ende der meisten `<rede>`-Elemente ‚Äì jeweils mit vorgeschobenem `<name>`-Element. Diese geh√∂ren nat√ºrlich nicht zur √Ñu√üerung des/der Abgeordneten der anderen `<p>`-Elemente unter `<rede>` und sollten somit nicht extrahiert werden.

Idealerweise lie√üen sich die `<p>`-Elemente, die wirklich zur √Ñu√üerung des/der Abgeordneten geh√∂ren von jenen, die von jemand anderem ge√§u√üert werden, √ºber unterschiedliche Tags voneinander abgrenzen. Bei Zwischenrufen ist dies der Fall, sind diese doch in `<kommentar>`-Elementen statt in `<p>`-Elementen gespeichert. Alternativ h√§tten `<p>`-Elemente, die nicht von dem/der betreffenden Abgeordneten stammen, √ºber Attribute charakterisiert werden k√∂nnen. Doch auch das ist nicht der Fall, wie ein Abgleich mit dem Dokument zeigt. 

Wenn wir nicht √ºber Tags bzw. Attribute gehen k√∂nnen, bleibt der Weg √ºber die Reihenfolge der Elemente ‚Äì wie erw√§hnt befinden sich die eingeschobenen √Ñu√üerungen der Parlamentspr√§sidentin meist am Ende eines `<rede>`-Elements. Wir k√∂nnen den Code also derart anpassen, dass wir statt blo√ü √ºber `<p>`-Elemente √ºber alle Kinder jedes `<rede>`-Elements iterieren. Daf√ºr k√∂nnen wir `speech` wie ein gew√∂hnliches iterierbares Objekt behandeln, das uns nach und nach seine Kinder zur√ºckgibt. Entscheidenderweise brechen wir die Schleife ab, sobald wir auf ein Kind mit `<name>`-Tag treffen:

In [None]:
for speech in root.iter("rede"):
    for element in speech:
        if element.tag == "name":
            break
        elif element.tag == "p" and element.text:
            print(element.text.strip(), end=" ") #Inkl. Bereinigung von leading/trailing whitespace
    print("\n") #Einf√ºgen eines Zeilenumbruchs nach jeder Rede

Das klappt, wie wir etwa am Ende der ersten Rede erkennen k√∂nnen. 

Wie gewohnt m√ºssen wir uns an dieser Stelle aber versichern, dass wir nicht "√ºbers Ziel hinausgeschossen" sind und √Ñu√üerungen, die tats√§chlich der/die jeweilige Abgeordnete gemacht hat, miteliminiert haben, weil ein `<name>`-Element noch vor dem Ende der Rede auftritt (etwa eine zwischenzeitliche Ordnungsbemerkung der Parlamentspr√§sidentin). Tats√§chlich gibt es wenige solche F√§lle, etwa in Zeile 2357.

Dieses Beispiel veranschaulicht zweierlei: Einerseits unterstreicht es, wie wichtig die vertiefte und repetitive Auseinandersetzung mit Daten ist. Andererseits zeigt es, dass eine einfache Programmierl√∂sung manchmal schlicht nicht existiert. Sicherlich k√∂nnten wir weitere Bedingungen aufstellen, um die Extraktion zu perfektionieren. Je mehr es sich jedoch um Sonderf√§lle handelt, desto mehr sinkt der Nutzen einer maschinellen Herangehensweise. Abh√§ngig vom Forschungsinteresse k√∂nnte man sich die verbleibenden *edge cases*  zur manuellen Entscheidung ausgeben lassen. Insbesondere bei quantitativen Vorhaben w√§re aber auch ein gewisses Ma√ü an Imperfektion der extrahierten Daten vertretbar.

Nun √ºben wir die Extraktion von Daten in XML-Dokumenten, wobei wir in Kauf nehmen, dass wir die √Ñu√üerungen von Abgeordneten nicht ganz fehlerfrei extrahieren k√∂nnen.

***

‚úèÔ∏è **√úbung 1:** Pass obigen Extraktionscode so an, dass vor jeder √Ñu√üerung der Name des/der jeweiligen Abgeordneten ausgegeben wird. 

<details>
<summary>üí° Tipp</summary>
<br>Setz den Namen am besten aus Vor- und Nachnamen zusammen. Bedenk au√üerdem, dass nur eine Methode bei <code>xml</code> rekursiv sucht.<br><br>
</details>
<br>

In [None]:
#In diese Zelle kannst Du den Code zur √úbung schreiben.




***

‚úèÔ∏è **√úbung 2:** Neben den Reden bzw. √Ñu√üerungen der Abgeordneten, die gerade das Rederecht besitzen, enth√§lt das Protokoll auch verbale Zwischenrufe sowie Anmerkungen √ºber Beifall, Lachen etc. Diese Informationen sind in Elementen mit dem Tag `<kommentar>` enthalten. Extrahier sie f√ºr alle Reden, f√ºr die mindestens ein `<kommentar>`-Element protokolliert wurde. Lass sie Dir zusammen mit dem Namen des/der Abgeordneten ausgeben, der/die eigentlich gerade am sprechen ist.


In [None]:
#In diese Zelle kannst Du den Code zur √úbung schreiben.




***

Sehr gut! 

Zum Abschluss lernen wir noch, wie wir selbst XML-Dokumente schreiben k√∂nnen. Wir exerzieren dies am Beispiel der in √úbung 1 extrahierten Daten durch und speichern alle √Ñu√üerungen inklusive der Information, von wem sie stammen, in einer Datei im XML-Format.

### XML schreiben

Der erste Schritt beim Erstellen eines XML-Dokuments besteht darin, das oberste Element in der Hierarchie zu initialisieren und ihm einen Namen zuzuweisen. Wir nennen es schlicht `corpus` und weisen es einer gleichnamigen Variablen zu:

In [None]:
corpus = ET.Element("corpus")

Angenommen wir fertigen so ein Dokument f√ºr mehrere Sitzungen des Bundestags an, so macht es Sinn, Informationen etwa zum Datum der gegebenen Sitzung als Attribute des `corpus`-Elements zu speichern ‚Äì wie das im originalen Plenarprotokoll auch getan wurde. Attribute *setzen* wir mit der `set`-Methode:

In [None]:
corpus.set("date", "10.04.2024") #Beachte, dass Schl√ºssel und Wert kommasepariert sind.

Die extrahierten √Ñu√üerungen bestehen ja typischerweise aus mehreren Paragraphen. Diese wollen wir nun pro √Ñu√üerung in je einem eigenen, `corpus` untergeordneten Element speichern. Das Schaffen dieser "Kinder" k√∂nnen wir direkt in die in √úbung 1 verwendete Extraktionsschleife integrieren. Anstatt uns die extrahierten Daten per `print` auszugeben, speichern wir sie in einem `xml`-Element. 

Lies die beiden Kommentare im folgenden Code, um zu verstehen, wie Elemente in einem XML-Stammbaum angelegt werden:

In [None]:
for speech in root.iter("rede"):

    name = list(speech.iter("vorname"))[0].text
    surname = list(speech.iter("nachname"))[0].text
    
    """F√ºr jede √Ñu√üerung schaffen wir ein Element namens 'statement' (zweites Argument der 'SubElement'-Funktion), 
    das dem 'corpus'-Element untergeordnet sein soll  (erstes Argument). 'statement' soll jeweils √ºber ein Attribut
    namens 'speaker' verf√ºgen, dessen Wert der zusammengesetzte Name des/der Abgeordneten ist (Achtung: das Schl√ºssel-
    Werte-Paar wird hier, anders als oben, wie bei einem dictionary geschaffen)."""
    statement = ET.SubElement(corpus, "statement", {"speaker": name + " " + surname})
    
    for element in speech:
        if element.tag == "name":
            break
        elif element.tag == "p" and element.text:
            
            """F√ºr jeden Paragraphen der jeweiligen √Ñu√üerung schaffen wir mithilfe derselben 'SubElement'-Funktion 
            ein Element namens 'p' (zweites Argument), das dem jeweiligen 'statement'-Element untergeordnet sein soll 
            (erstes Argument). Anschlie√üend weisen wir 'p' Textinhalt √ºber das Attribut 'text' zu."""
            paragraph = ET.SubElement(statement, "p")
            paragraph.text = element.text.strip()           

Bevor wir dieses XML-Objekt extern speichern, √ºberpr√ºfen wir, ob alles geklappt hat. Hierf√ºr lohnt es sich, Einr√ºckungen entsprechend der Hierarchie einzuf√ºgen. Das k√∂nnen wir wie folgt mit einem weiteren Teil von `xml` erledigen (`minidom`):

In [None]:
from xml.dom import minidom

pretty_corpus = minidom.parseString(ET.tostring(corpus)).toprettyxml(indent="  ")

print(pretty_corpus)

Schaut gut aus. 

Nun k√∂nnen wir das sch√∂n formatierte `pretty_corpus` wie gewohnt extern speichern:

In [None]:
with open("../3_Dateien/Output/aeusserungen_im_bundestag.xml", "w", encoding="utf-8") as write_file:
    write_file.write(pretty_corpus)

√úberpr√ºf, ob das funktioniert hat, indem Du die neu geschaffene Datei mit Sublime Text √∂ffnest. 

Bemerkung am Rande: F√ºr die Datenspeicherung sind die eingef√ºgten Einr√ºckungen nat√ºrlich unn√∂tig. Manchmal √∂ffnen wir XML-Dokumente aber eben auch mit grafischen Programmen wie Sublime Text. Ohne Einr√ºckungen w√§re das gesamte XML-Dokument auf eine einzigen, langen Zeile geschrieben worden, was f√ºr das menschliche Auge denkbar schwierig zu lesen ist.

Abschlie√üend √ºben wir das Schreiben von XML und machen uns ein paar konzeptionelle Gedanken zu verschiedenen Speicherformaten.

*** 

‚úèÔ∏è **√úbung 3:** Im Anwendungsfall haben wir s√§mtliche Strophen von Faust I in einer externen Textdatei gespeichert. Diese verf√ºgt (idealerweise) √ºber eine interne Struktur. In der Musterl√∂sung wurde etwa mit Tabstopps und Zeilenumbr√ºchen gearbeitet, um einzelne Strophen bzw. die zugeh√∂rigen Figuren voneinander abzugrenzen. Diese Struktur kommt uns sp√§testens dann zu Gute, wenn wir die Daten f√ºr irgendeine Form von Auswertung mit Python wieder einlesen. 

Um unseren Anwendungsfall zu "professionalisieren", ist es nun Deine Aufgabe, den Faust I in einem XML-Dokument zu speichern, also in einem Format, dessen "Aufgabe" es ist, Daten ordentlich zu strukturieren. Kopier dazu den Code vom Extraktionsschritt des Anwendungsfalls in die folgende Zelle. Pass ihn anschlie√üend so an, dass die Daten dynamisch in ein XML-Dokument statt in eine Textdatei geschrieben werden.

Als kleiner Bonus, der √ºberpr√ºft, ob bei der Speicherung alles geklappt hat, vor allem aber die N√ºtzlichkeit strukturierter Daten aufzeigt, kannst Du Dir anschlie√üend √ºber die bereits gegebene Code-Zelle einfach alle Verse des ber√ºhmten Teufels aus dem Faust ausgeben lassen. Wenn n√∂tig, pass den Dateipfad bzw. die Tags und Attribute Deiner Namensgebung an.

<details><summary>üìå Herausforderung </summary>
<br>Extrahier zus√§tzlich den Titel jeder Szene und speicher diese Information jeweils an der richtigen Position in der Hierarchie des zu schaffenden XML-Dokuments.
</details>
<br>

In [None]:
#In diese Zelle kannst Du den Code zur √úbung schreiben.




In [None]:
#Bonus: Ausgabe aller Verse von Mephisto(pheles)
root = ET.parse("../3_Dateien/Output/faust_1.xml").getroot()

for character in root.iter("character"):
    if not character.get("name") == "Mephistopheles":
        continue
    for line in character.iter("line"):
        print(line.text)

***

‚úèÔ∏è **√úbung 4:** XML ist wie gesagt ein beliebtes Format, um Daten zu speichern und zu teilen. Neben XML arbeiten wir beim Programmieren auch oft mit csv-Dateien (vgl. Notebooks "Input und Output" sowie "Datenanalyse"). Welchen Vorteil hat XML im Gegensatz zu csv?

<details>
<summary>üí° Tipp</summary>
<br>Analysier dazu folgenden Screenshot einer XML- bzw. csv-Datei, die fast die gleichen Daten beinhalten.
    <br><br>
    <img src="../3_Dateien/Grafiken_und_Videos/vergleich_xml_html.png">
    <br><br>
</details>

***

Wirklich gute Arbeit! 

Damit sind wir am Ende des Notebooks angelangt. üéâ

<br><br>
***
<table>
      <tr>
        <td>
            <img src="../3_Dateien/Lizenz/CC-BY-SA.png" width="400">
        </td> 
        <td>
            <p>Dieses Notebook sowie s√§mtliche weiteren <a href="https://github.com/yannickfrommherz/exdimed-student/tree/main">Materialien zum Programmierenlernen f√ºr Geistes- und Sozialwissenschaftler:innen</a> sind im Rahmen des Projekts <i>Experimentierraum Digitale Medienkompetenz</i> als Teil von <a href="https://tu-dresden.de/gsw/virtuos/">virTUos</a> entstanden. Erstellt wurden sie von Yannick Frommherz unter Mitarbeit von Anne Josephine Matz. Sie stehen als Open Educational Resource nach <a href="https://creativecommons.org/licenses/by-sa/4.0/">CC BY SA</a> zur freien Verf√ºgung. F√ºr Feedback und bei Fragen nutz bitte das <a href="https://forms.gle/VsYJgy4bZTSqKioA7">Kontaktformular</a>.
        </td>
      </tr>
</table>