# Web Scraping Teil 1 (Lösungen)

☝️ Beachte: Es gibt beim Programmieren fast immer verschiedene Lösungswege. Deine Lösung mag anders aussehen, aber dennoch zum gewünschten Resultat führen. Das richtige Resultat ist das Wichtigste. 

⚠️ Führ folgenden Code aus, bevor Du einzelne Lösungen ausführst. 

In [None]:
import requests
from bs4 import BeautifulSoup
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.99 Safari/537.36'}

***
✏️ **Lösung 1:** Besuch eine beliebige Webseite in einem Browser Deiner Wahl. Die Webseite sollte mehrere Links zu anderen Seiten beinhalten, was auf die meisten Webseiten zutrifft. Lass Dir wie oben beschrieben den Quelltext der Seite anzeigen. Geh nun wie folgt vor und verwend dabei die angegebenen Tastenkombinationen.

1. Markier den gesamten Quelltext (`Strg` + `a` (Windows und Linux) bzw. `⌘` + `a` (macOS)), kopier ihn (`Strg`/`⌘` + `c`) und füg ihn in ein leeres Dokument bei Sublime Text ein (`Strg`/`⌘` + `v`). 
2. Formulier einen regulären Ausdruck, der sämtliche Links in Deinem Quelltext matcht. Manche Webseiten enthalten komplette Links in ihrem Quelltext (z.&nbsp;B. "ht<span>tps://www.</span>domain<span>.de/</span>subdomain/page"), andere wiederum bloß abgekürzte Links ("subdomain/page"), die, wenn man im Browser draufklickt, um den gemeinsamen "Stammlink" ergänzt werden. Dein regulärer Ausdruck soll sich nach dem Linkformat im Quelltext Deiner Webseite richten und möglichst viele Links matchen.
3. Aktivier die Suche bei Sublime Text über `Strg`/`⌘` + `f`). Gib den regulären Ausdruck ein und such bzw. markier alle Matches über die Tastenkombination `Alt`/`option` + `Enter` (dies entspricht der Schaltfläche "Find All"). Ggf. musst Du reguläre Ausdrücke für die Suche aktivieren (links neben dem Suchfeld über `.*`).
5. Kopier alle Links. Öffne ein weiteres Dokument bei Sublime Text und füg die Links dort ein. Führ auch diese Schritte nach Möglichkeit mithilfe von Tastenkombinationen aus.

*Keine Lösung, da jede Webseite unterschiedlich aufgebaut ist. Der reguläre Ausdruck im Tipp bietet aber einen Anhaltspunkt, den Du vermutlich im Hinblick auf Deine Webseite anpassen musst.*

***

<!-- Da es sich um in Markdown eingebetteten HTML-Code handelt, ist die grundlegende HTML-Struktur mit Dokumenttypdeklaration, html- und body-Element nicht nötig. Markdown-Code kommt ohne diese Struktur aus. Dieser Text hier ist übrigens ein Kommentar, der nicht gerendert wird.-->

<table style="font-size: 16px; font-family: sans-serif; letter-spacing: 0.2px;">
      <tr>
        <td>
            <p>✏️ <b>Übung 2:</b> Um die Struktur von HTML-Code weiter zu verinnerlichen, wollen wir trotzdem eine (sehr basale) Webseite schreiben. 
                Deine Aufgabe ist es, die im Screenshot gezeigte Rezeptwebseite nachzuprogrammieren. 
                Viel mehr als die oben gegebene HTML-Grundstruktur benötigst Du dafür nicht. Bloß zwei Dinge fehlen Dir:</p>
            <ol>
                <li>Um den Link zum <a href="https://www.eat-this.org/baba-ganoush-orientalischer-auberginensalat/#recipe">Originalrezept</a> einzubetten, 
                    kannst Du folgende Syntax verwenden, wobei Du den Link bei "link" innerhalb der Anführungszeichen einsetzt.<br><br>
                    <code>&lt;a href="link"&gt;Eat this&lt;/a&gt;</code></li><br>
                <li>Um eine Liste zu nummerieren, verwendest Du das Tag <code>&lt;ol&gt;</code> für <u>o</u>rdered <u>l</u>ist 
                    statt <code>&lt;ul&gt;</code> (<u>u</u>nordered <u>l</u>ist).</li>
            </ol>
            <p>Schreib den Code in einem Sublime Text-Dokument und speichere es anschließend mit der Endung ".html". 
               Wenn Du es nun in einem beliebigen Browser öffnest, sollte Dir Deine Rezeptwebseite angezeigt werden.</p>
        </td>
        <td>
            <img src="../../3_Dateien/Grafiken_und_Videos/lieblingsrezept.png" width="1000">
        </td> 
      </tr>
</table>
    
*Die Lösung findet sich im Ordner "3_Dateien/HTML/lieblingsrezept.html". Öffne das Dokument mit Sublime Text, um den Code zu inspizieren, bzw. mit einem Browser, um die Webseite gerendert zu sehen.*

***

✏️ **Lösung 3:** In folgenden HTML-Code haben sich diverse Fehler eingeschlichen. Wieviele findest Du? Beheb sie alle.  

*Es befinden sich acht Fehler im Code, und zwar:*

- *Das erste Kind des `<html>`-Elements heißt `<head>` und nicht `<kopf>`.*
- *Textinhalte werden **nicht** von Anführungszeichen umrahmt, es sei denn diese sollen auch gerendert werden. Dieser Fehler betrifft alle Textinhalte.*
- *Das Encoding "UTF-9" gibt es nicht, korrekt ist "UTF-8".*
- *Das erste `<p>`-Element endet mit dem falschen Tag (`</q>`).*
- *Dem `<div>`-Element fehlt das schließende Tag (`</div>`).*
- *Dem zweiten `<p>`-Element fehlt ebenfalls das schließende Tag (`</p>`).*
- *Der Wert im `href`-Attribut, also der Link, muss in Anführungszeichen stehen. Außerdem können nur Links beginnend mit "http(s)://" angeklickt werden.*
- *Im schließenden `<html>`-Tag wird der falsche Schrägstrich verwendet.*

*Keine Fehler sind hingegen:*

- *die fehlende Einrückung der `<head>`- und `<body>`-Elemente unter dem `<html>`-Element. Einrückung spielt bei HTML keine Rolle. Einzig die korrekte Verschachtelung der Elemente ist relevant. HTML-Code wird meist eingerückt angezeigt, um die Beziehungen zwischen den Elementen zu verdeutlichen.*
- *das vermeintlich fehlende schließende Tag im `<img>`-Element. `<img>`-Elemente benötigen kein schließendes Tag, da sie über keinen Inhalt verfügen (außer natürlich den Bildinhalt, der aber über ein Attribut geladen wird).*

*Korrekt sollte der Code so aussehen (mit optionalen Einrückungen):*

***

✏️ **Lösung 4:** Reproduzier folgenden Text mithilfe von HTML. Achte auf die korrekte Hierarchie der Elemente sowie darauf, alle Tags zu schließen. Handelt es sich um formatierende Inline-Elemente oder um strukturierende Blockelemente?

<img src="../../3_Dateien/Grafiken_und_Videos/HTML_Formatierung.png"> 

*Doppelklick in die folgende Markdown-Zelle, um den zugrundeliegenden HTML-Code zu sehen. Sämtliche Elemente sind formatierende Inline-Elemente.*

Sog. <i><a href="https://irgendeinlink.com">Definitionen</a></i> kursiv zu setzen, ist <u>strengstens <b>verboten</b></u>!

***

✏️ **Lösung 5:** Besuch die Webseite der [Tagesschau](https://www.tagesschau.de) (und überprüf gleich mal, ob die oben extrahierte Schlagzeile wirklich die aktuelle ist!) und ergänz die in `categories` bereits angefangene Liste mit Ressorts, die Nachrichten zu spezifischen Themen bieten. Besuch außerdem die Webseiten einiger Ressorts und analysier, wie die jeweiligen Links aufgebaut sind. Nutz dieses Wissen und iterier über `categories`, um den Quelltext jedes Ressorts herunterzuladen. Benutz denselben Code wie oben, um die oberste Schlagzeile für jedes Ressort zu extrahieren. Lass Dir Ressort und aktuelle oberste Schlagzeile nacheinander ausgeben. 

Schreib den Code für den Abruf- bzw. Extraktionsschritt in separaten Zellen. In der ersten Zelle rufst Du alle Quelltexte ab und hängst sie einer Liste an. In der zweiten Zelle extrahierst Du aus jedem Quelltext die gewünschten Informationen. So führst Du den Abrufschritt nicht mehr aus, wenn Du am Extraktionsschritt arbeitest, wodurch der Server der Tagesschau nicht unnötig belastet wird. Dadurch sinkt das Risiko, dass Du blockiert wirst.

<details><summary>📌 Herausforderung </summary>
<br>Extrahier zusätzlich zur obersten Schlagzeile den Link, der zum entsprechenden Artikel führt und lass ihn Dir ebenfalls ausgeben. Klick auf die ausgegebenen Links, um zu schauen, ob sie wie erwartet funktionieren.
<br><br>
Das entsprechende Element findest Du auf die gleiche Weise wie für die oberste Schlagzeile beschrieben. Da sich der Link aber im <code>href</code>-Attribut (und nicht im Elementinhalt) verbirgt, hängst Du anstatt <code>text</code> die Methode <code>get("href")</code> an das im Quelltext gefundene Element. 
</details>
<br>

In [None]:
#Abrufschritt
categories = ["Inland", "Ausland", "Wirtschaft", "Wissen", "Faktenfinder"]

base_link = "https://www.tagesschau.de"

source_codes = []

for category in categories:
    
    #Abrufen des Quelltexts zum konkatenierten Link und Anhängen an 'source_codes'
    source_codes.append(requests.get(base_link + "/" + category, timeout=5, headers=headers).text)
    
    print(f'Fertig mit der Kategorie "{category}"') #Manuelle Fortschrittsausgabe

In [None]:
#Extraktionsschritt
for i in range(len(source_codes)):
    
    soup = BeautifulSoup(source_codes[i])
    
    headline = soup.find("span", class_="teaser__headline")
    
    #Herausforderung
    link = soup.find("a", class_="teaser__link").get("href")
    
    print(f"Aktuelle oberste Schlagzeile aus dem Ressort: '{categories[i]}': '{headline.text}'")
    
    #Herausforderung
    print(f"Artikellink: {base_link + link}.\n\n")

***

✏️ **Lösung 6:** Extrahier die oberste Überschrift ("Schlecht vernetzt? Psychische Störungen im Gehirn") sowie die erste Überschrift auf der nächstkleineren Ebene ("Hirnforschung: Damals und heute") aus dem Quelltext. Extrahier ebenfalls die erste Bildunterschrift ("Die Phrenologie (Bildquelle)"). Als Erstes musst Du dafür herausfinden, mit welchen Tags diese Elemente versehen sind. 

In [None]:
#Scrapen bzw. Einlesen des Quelltexts sowie Parsen (nur im Lösungsnotebook notwendig)
article = requests.get("https://scilogs.spektrum.de/hirn-und-weg/schlecht-vernetzt-psychische-stoerungen-im-gehirn/", timeout=5, headers=headers).text
#with open("../../3_Dateien/HTML/artikel.html") as f:
    #article = f.read()
    
soup = BeautifulSoup(article)

#Eigentliche Lösung (Wichtig: 'text'-Attribut am Ende)
print(soup.find("h1").text) #Oberste Überschrift
print(soup.find("h3").text) #Nächstniedrigere Überschrift, im Quelltext wird die von HTML vorgegebene Ebene h2 übersprungen
print(soup.figcaption.text) #Bildunterschrift über dot-Notation

***

✏️ **Lösung 7:** In dieser Übung sollst Du die Kommentare unter dem Artikel extrahieren. Identifizier dazu ein oder mehrere Suchkriterien im Quelltext, anhand derer Du alle Kommentare extrahieren kannst. Konzentrier Dich vorerst auf die Kommentare auf der ersten Ebene (ignorier also Kommentare zu Kommentaren). 

Lass Dir für jeden Kommentar folgende Informationen ausgeben:

1. Wer hat den Kommentar verfasst?
2. Wann wurde der Kommentar verfasst?
3. Wie lautet der Text des Kommentars?

<details><summary>📌 Herausforderung </summary>
<br>Extrahier zusätzlich die Kommentare zu den Kommentaren und lass sie Dir unterhalb des zugehörigen Hauptkommentars, wiederum mit Verfasser:in, Datum und Text, ausgeben. Benutz dafür einen regulären Ausdruck.
</details>
<br>

In [None]:
#Achtung: Code funktioniert nur, wenn der Code zur vorangehenden Übung ausgeführt wurde!

comments = soup.find("ol", class_="commentlist") #Extrahieren eines maßgeschneiderten Elements, das nur den Bereich mit den Kommentaren umfasst

"""Zwei Alternativen, um die gewünschten Werte des 'class'-Attributs zu spezifizieren: Erstens: Eine Liste an Werten, die im Quelltext 
für Kommentare auf erster Ebene verwendet werden (Achtung: Liste muss ggf. erweitert werden, sollten seit 03/24 weitere Kommentare gepostet 
worden sein, vgl. Übung 8 unten; die hier verwendete Liste funktioniert in jedem Fall für den Quelltext, wie er in "3_Dateien/HTML/artikel.html" 
gespeichert wurde). Zweitens: mit regulärem Ausdruck."""

#Erste Alternative
values = ["comment even thread-even depth-1", "comment odd alt thread-odd thread-alt depth-1"]

#Zweite Alternative
#import re
#values = re.compile("comment[\w\s-]+depth-1")

#Suchen nach allen Elementen mit bestimmten Werten beim 'class'-Attribut
for comment in comments.find_all(class_=values):
  
    #Suchen nach relevanter Tag-Attribut-Kombination für alle drei zu extrahierenden Informationen
    author = comment.find(class_="comment-headline").text #Extraktion des Textinhalts aus diesem Element (keine Unterelemente)
    date = comment.find("li", class_="comment-meta").text #Extraktion des Textinhalts aus dem Unterelement
    text = comment.find(class_="comment-text").text #Extraktion sämtlichen Textinhalts aus den Unterelementen
    print(f"Kommentar von {author}, gepostet am {date.strip()}: {text.strip()}\n")

In [None]:
#Herausforderung
import re
#Regulärer Ausdruck matcht Kommentare auf Ebene eins bis max. fünf
values = re.compile("comment[\w\s-]+depth-[1-5]")

for comment in comments.find_all(class_=values):
  
    #Suchen nach relevanter Tag-Attribut-Kombination für alle drei zu extrahierenden Informationen
    author = comment.find(class_="comment-headline").text #Extraktion des Textinhalts aus diesem Element (keine Unterelemente)
    date = comment.find("li", class_="comment-meta").text #Extraktion des Textinhalts aus dem Unterelement
    text = comment.find(class_="comment-text").text #Extraktion sämtlichen Textinhalts aus den Unterelementen
    
    #Optionale Extraktion der Ebene, auf der sich der Kommentar befindet (für Ausgabe unten)
    depth = int(comment.get("class")[-1][-1])
    
    #Ausgabe der Informationen inkl. Einrückung bei Kommentaren auf zweiter, dritter etc. Ebene
    print(f"{' '*depth*2 if depth > 1 else ''}Kommentar auf Ebene {depth} von {author}, veröffentlicht am {date.strip()}: {text.strip()}\n")

***

✏️ **Lösung 8:** Begib Dich auf die [SciLogs-Startseite](https://scilogs.spektrum.de) und trag einige Links zu Blogeinträgen manuell in `links` zusammen. Ruf in derselben Zelle die Quelltexte zu allen Seiten ab und speichere sie in einer weiteren Liste. 

Parse anschließend in der zweiten Zelle iterativ einen Quelltext nach dem anderen und extrahier jeweils die Kommentare. Hierfür kannst Du grundsätzlich den gleichen Code wie in Übung 7 verwenden. Pass ihn aber (sofern nötig) so an, dass nun alle Kommentare extrahiert werden, auch jene auf zweiter, dritter etc. Ebene. Stell sicher, dass Du auch wirklich alle Kommentare pro Blogeintrag extrahierst.

Lass Dir zusätzlich zu den Informationen aus Übung 7 vor den Kommentaren jeweils den Titel des Blogeintrags ausgeben.

In [None]:
#Abrufschritt
links = ["https://scilogs.spektrum.de/hirn-und-weg/das-raetsel-der-genitalien/",
         "https://scilogs.spektrum.de/natur-des-glaubens/der-atheistische-evolutionsbiologe-richard-dawkins-und-das-kulturchristentum/",
         "https://scilogs.spektrum.de/menschen-bilder/showdown-im-bundesrat-cannabis-ist-entkriminalisiert/",
         "https://scilogs.spektrum.de/natur-des-glaubens/ki-experiment-kann-deep-ai-die-ressourcenfluch-und-rentierstaatstheorie-unterscheiden/"]

articles = []

for link in links:
    articles.append(requests.get(link, timeout=5, headers=headers).text)

In [None]:
#Extraktionsschritt
for article in articles:
        
    soup = BeautifulSoup(article)
    
    #Ausgabe Titel des Blogeintrags
    print(soup.find("h1").text, "\n")
    
    comments = soup.find("ol", class_="commentlist") #Extrahieren eines maßgeschneiderten Elements, das nur den Bereich mit den Kommentaren umfasst

    i=0 #Zähler
    
    #Regulärer Ausdruck matcht Kommentare auf Ebene eins bis max. fünf
    values = re.compile("comment[\w\s-]+depth-[1-5]")

    for comment in comments.find_all(class_=values):

        #Suchen nach relevanter Tag-Attribut-Kombination für alle drei zu extrahierenden Informationen
        author = comment.find(class_="comment-headline").text #Extraktion des Textinhalts aus diesem Element (keine Unterelemente)
        date = comment.find("li", class_="comment-meta").text #Extraktion des Textinhalts aus dem Unterelement
        text = comment.find(class_="comment-text").text #Extraktion sämtlichen Textinhalts aus den Unterelementen

        #Optionale Extraktion der Ebene, auf der sich der Kommentar befindet (für Ausgabe unten)
        depth = int(comment.get("class")[-1][-1])

        #Ausgabe der Informationen inkl. Einrückung bei Kommentaren auf zweiter, dritter etc. Ebene
        print(f"{' '*depth*2 if depth > 1 else ''}Kommentar auf Ebene {depth} von {author}, veröffentlicht am {date.strip()}: {text.strip()}\n")
        i+=1      
            
    """Überprüfung, ob alle Kommentare gescrapt wurden, indem der Zähler mit der aus dem Element mit id='comments-title'
    herausgesclicten Zahl übereinstimmt"""
    if not soup.find(id="comments-title").text.strip().split(" ")[0] == str(i):
        print("⚠️ NICHT ALLE KOMMENTARE WURDEN GESCRAPT!")
    
    print("----------------------------------------------------\n")

***

✏️ **Lösung 9:** Benutz `trafilatura`, um Dir die Artikeltexte sämtlicher Blogeinträge ausgeben zu lassen, deren URLs Du in Übung 8 in `links` zusammengetragen hast. Recherchier in der [Dokumentation](https://trafilatura.readthedocs.io/en/latest/corefunctions.html#trafilatura.bare_extraction) von `trafilatura`, wie Du die Kommentare dabei herausfiltern kannst. Lass Dir bei jedem Blogeintrag den Link, die ersten 300 Zeichen des Texts, das Auslassungszeichen "[...]" sowie die finalen 300 Zeichen ausgeben.

In [None]:
#Achtung: Code funktioniert nur, wenn der Code zur vorangehenden Übung ausgeführt wurde!

import trafilatura

for link in links:
    downloaded = trafilatura.fetch_url(link) #Abrufschritt
    extract = trafilatura.extract(downloaded, include_comments=False) #Extraktionsschritt mit Parameter zum Ausschließen von Kommentaren
    
    #Ausgabe von Link und gewünschtem Textausschnitt
    print(f"{link}: {extract[0:300]}\n[...]\n{extract[-300:]}\n")
    
    """Wie sich zeigt, funktioniert das Herausfiltern von Kommentaren gut, allerdings erkennt 'trafilatura'
    die Quellen als Teil des Haupttexts (was natürlich am HTML-Aufbau der Seiten liegt). Je nach Anwendungsfall 
    muss 'trafilatura'-Output nachbearbeitet werden bzw. stattdessen der Weg über das zielgerichtete
    Extrahieren mit 'BeautifulSoup' gewählt werden."""


***
<table>
      <tr>
        <td>
            <img src="../../3_Dateien/Lizenz/CC-BY-SA.png" width="400">
        </td> 
        <td>
            <p>Dieses Notebook sowie sämtliche weiteren <a href="https://github.com/yannickfrommherz/exdimed-student/tree/main">Materialien zum Programmierenlernen für Geistes- und Sozialwissenschaftler:innen</a> sind im Rahmen des Projekts <i>Experimentierraum Digitale Medienkompetenz</i> als Teil von <a href="https://tu-dresden.de/gsw/virtuos/">virTUos</a> entstanden. Erstellt wurden sie von Yannick Frommherz unter Mitarbeit von Anne Josephine Matz. Sie stehen als Open Educational Resource nach <a href="https://creativecommons.org/licenses/by-sa/4.0/">CC BY SA</a> zur freien Verfügung. Für Feedback und bei Fragen nutz bitte das <a href="https://forms.gle/VsYJgy4bZTSqKioA7">Kontaktformular</a>.
        </td>
      </tr>
</table>