# Skript: Webscraping mit BeautifulSoup

Benötigt werden:

* Pakete `requests` und `bs4`

* Grundverständnis von HTML

### Achtung!

Vor jedem Webscraping stellen wir uns folgende Fragen:
- Gibt es auf der Webseite stattdessen eine API, auf welche wir zugreifen können? Das erspart uns Arbeit.
- Verbietet die Webseite das Scrapen von Daten? (`/robots.txt` überprüfen)

## Beautiful Soup 4

Dieses Modul kann HTML-Text auslesen und alle Informationen extrahieren. Wir können aus einem  BeautifulSoup-Objekt dann die Schnipsel holen, die für uns Wert haben. Das Modul müssen wir zunächst installieren. Achtung! Installiert wird es unter dem Namen `beautifulsoup4`, importiert wird es jedoch unter `bs4`! Wir können conda für die Installation nutzen.

In [None]:
# Modulimporte
import pandas as pd
import requests
import bs4
from bs4 import BeautifulSoup

In [None]:
# Beispiel HTML:
html = '''<section><article><h1>Test-Artikel</h1><p>Dies ist ein Beispiel-Artikel in HTML-Form.</p><p>Absatz 2.</p></article></section>'''
print(html)

In [None]:
# Verwendung bs4: Suppen-Objekt erstellen
soup = BeautifulSoup(html)

In [None]:
# Was kann unser Objekt alles?
dir(soup)

In [None]:
# Wie sieht der Inhalt aus?
soup

In [None]:
# Ausgabe-Formatierung mit .prettify() "verschönern"
print(soup.prettify())

In [None]:
# Wir können auch spezielle Formatierer
# "Formatter" benutzen, die uns den Inhalt
# schön darstellen.
formatter = bs4.formatter.HTMLFormatter(indent=4)
print(soup.prettify(formatter=formatter))

In [None]:
# Wichtigste Funktionen:
# find - Findet den ersten Eintrag
# des angegebenen HTML Tags
soup.find("h1")

In [None]:
# Alternative Notation: 
soup.h1

In [None]:
soup.find("p")

In [None]:
soup.p

In [ ]:
# Find ist mächtiger als die Punkt-Notation, da man 
# hier spezifischer werden kann.

In [None]:
# find_all - Findet alle Einträge
# einer Art von HTML-Tag (und gibt sie in Liste zurück)
soup.find_all("p")
# Einstellbar über Parameter "name", "attrs" und "class_"

In [None]:
# find_all gibt Liste mit Treffern zurück
# Einzelelemente extrahierbar
soup.find_all("p")[0]

In [None]:
# Iteration möglich:
paragraph_soup = soup.find_all("p")

for paragraph in paragraph_soup:
    print(paragraph)

In [None]:
# Nur Text, ohne Tags ausgeben
soup.find_all("p")[0].text

In [None]:
paragraph_soup = soup.find_all("p")

for paragraph in paragraph_soup:
    print(paragraph.text)

In [ ]:
# Webscraping aus einer lokalen HTML-Datei
# Bisschen Zusatz-Infos: https://wiki.selfhtml.org/wiki/HTML/Tabellen/Aufbau_einer_Tabelle

In [None]:
# Reinladen, die gute Datei!
with open('Liste der größten Schiffe der Welt – Wikipedia.html', encoding='utf-8') as f:
    soup = BeautifulSoup(f, 'html.parser')

# bs4 hat mehrere Parser, die Web-Dokumente scannen.
# Die Wahl des passenden Parsers hängt von den Anforderungen ab und sie stellen das
# Dokument unterschiedlich dar. Wir benutzen im Folgenden den html-Parser.
# Mehr Infos:
# https://www.crummy.com/software/BeautifulSoup/bs4/doc/#differences-between-parsers

In [None]:
# Suppe bestaunen:
soup

In [None]:
# Die Tabelle heraussondern:
soup.find('table')

In [None]:
# Selbes Element, anderer Weg:
soup.table

In [None]:
soup.table == soup.find('table')

In [None]:
# Wenn's hübscher aussehen soll:
print(soup.find('table').prettify())

In [None]:
# Alle Datenfelder holen:
fields = soup.find('table').find_all('td')
fields

In [None]:
# Nur die Text-Inhalte der Datenfelder:
for field in fields:
    print(field.text)

In [None]:
# Alle Links sammeln:
soup.find('table').find_all('a')

In [None]:
# Was ist eigentlich in dieser Liste drin?
for element in soup.find('table').find_all('a'):
    print(type(element))

In [None]:
# Packen wir doch das Zwischenergebnis für die Lesbarkeit auf eine Variabel:
table_links = soup.find('table').find_all('a')
table_links

In [None]:
# Wir wollen JEDEN Link aus dieser Liste bekommen, starten aber erstmal klein
# mit nur einem Link: 
table_links[0]

In [None]:
# Man kann auf Attribute mit Schlüssel-Notation zugreifen (kennen wir von Dicts):
table_links[0]['href']

In [None]:
# Alternativ geht das auch mit der get-Notation:
table_links[0].get('href')

In [ ]:
# Und jetzt Denkschmalz-Aufgabe: Wie lasse ich mir ALLE Links ausgeben?

### Natürlich müssen wir für unsere Suppen keine lokale HTML-Datei vorliegen haben

In [None]:
# Schiffe mit requests an Land ziehen:
ships_url = 'https://de.wikipedia.org/wiki/Liste_der_gr%C3%B6%C3%9Ften_Schiffe_der_Welt'
response = requests.get(ships_url, 'html.parser')
ship_soup = BeautifulSoup(response.text)
ship_soup.find('table')

In [ ]:
# Und jetzt seid ihr dran! Nehmt DataCraft und holt von dort die Namen 
# und Background der Dozenten! URL: https://www.data-craft.de/
# Bonus: Regelt die Sache mit dem Encoding. ;)

## Webscraping am Beispiel erklärt

Als Beispiel untersuchen wir die Webseite https://worldofwarcraft.com/de-de/game/classes

Um zu prüfen, was wir auf der Webseite dürfen und ob bestimmte Inhalte von Webscraping verboten sind, müssen wir die robots.txt Seite aufsuchen
https://worldofwarcraft.com/robots.txt

Den Inhalt der Webseite können wir schon in python abrufen. Dazu können wir `requests.get` verwenden. Wir erhalten allerdings HTML Code zurück, und müssen diesen durchsuchen, um an die Infos zu kommen, die uns interessieren. Dafür benutzen wir "Beautiful Soup 4".

In [None]:
# Schritt 1: Webseiten Inhalte abrufen
url = 'https://worldofwarcraft.com/de-de/game/classes'
response = requests.get(url)
response.text

In [None]:
# Schritt 2: Suppen-Objekt erstellen -> Inhalt wird von bs4 ausgelesen und umgewandelt
results = BeautifulSoup(
    response.text,  
    'html.parser'  # Angabe, welche Art von Inhalt ausgelesen wird (XML wird auch unterstützt)
)

In [None]:
# Schritt 3: Die Suppe durchsuchen
#            Welche HTML-Tags wollen wir finden?


# <div class="Card-title">
classes = results.find_all(name="div", class_="Card-title")
classes

In [None]:
# Schritt 4: Jetzt wollen wir für jedes Objekt nur den
# Textinhalt und diesen als neue Liste speichern.
classes = {'Klasse': [cl.text for cl in classes]}
classes

In [None]:
# Schritt 5: Gesammelte Daten optional zu einem
# DataFrame umwandeln.
classes_df = pd.DataFrame(classes)
classes_df

In [ ]:
# Aufgabe: 
# Holt Euch die Zitate und Autorennamen von folgender URL:
# https://quotes.toscrape.com/
# Lasst Euch alle Zitate mit Autoren ausgeben oder schreibt diese in eine txt-Datei!