# Webscraping mit der Python Library Beautiful Soup

In [1]:
import requests
from bs4 import BeautifulSoup

Beautiful Soup ist eine Python-Bibliothek, die hauptsächlich zur Extraktion von Informationen aus HTML- und XML-Dokumenten verwendet wird. Mit Beautiful Soup können Sie verschiedene Aufgaben im Zusammenhang mit dem Web-Scraping und der Analyse von Webinhalten ausführen.

In [2]:
url = "https://books.toscrape.com"

Die Website "https://books.toscrape.com" ist eine speziell für das Üben von Web Scraping erstellte Seite. Sie enthält eine Sammlung von Büchern mit Titeln, Preisen und Bewertungen – ideal um BeautifulSoup kennenzulernen.

Im ersten Schritt verwenden wir die request.get Funktion aus der Bibliothek requests, um eine Anfrage an die URL zu senden und die Webinhalte abzurufen. Das Ergebnis speichern wir direkt in der Variable request ab.

In [3]:
request = requests.get(url)

Nun können wir BeautifulSoup verwenden, um den HTML-Inhalt der Webseite zu analysieren. 

In [4]:
soup = BeautifulSoup(request.content, "html.parser")

Zuerst wird die Methode request.content verwendet, um den HTML-Inhalt aus der HTTP-Antwort (request) abzurufen. Dann wird "html.parser" als Parser angegeben, der verwendet wird, um das HTML-Dokument zu analysieren.

Der resultierende soup-Objekt enthält die geparsten und strukturierten Informationen aus dem HTML-Dokument.

In [None]:
print(soup)

Hier sehen wir unseren analysierten HTML-Inhalt. Aber recht unübersichtlich. Wir können die Methode prettify nutzen, um den HTML Inhalt formatiert und eingerückt zurückzubekommen.

Alternativ könnte man sich den Quelltext auch auf der Seite selbst mit F12 oder einem rechtsklick "Quelltext untersuchen" anschauen, um sich einen Überblick zu verschaffen.

Mit BeautifulSoup können wir uns jetzt einzelne Elemente des HTML Inhalts ausgeben lassen. Zum Beispiel den Titel der Seite.

In [None]:
print(soup.prettify())

In [5]:
soup.title

<title>All products | Books to Scrape - Sandbox</title>

Damit haben wir zwar den Titel, aber auch den tag-name.
Mit name bekommen wir nur den tag zurück, mit string nur den Titel

In [6]:
soup.title.name

'title'

In [7]:
soup.title.string

'All products | Books to Scrape - Sandbox'

In [8]:
# gibt den tag head zurück, da der tag title sich innerhalb dieses tags befinden
soup.title.parent.name 

'head'

Durchsuchen wir den Inhalt nach a Tags

a-Tags (Anchor-Tags): Die Hauptfunktion von a-Tags besteht darin, Hyperlinks zu anderen Webseiten oder Ressourcen zu erstellen.

In [None]:
# wird verwendet, um alle <a>-Tags in einem geparsten HTML-Dokument zu finden 
# und eine Liste von BeautifulSoup-Tag-Instanzen zurückzugeben, die diese Tags darstellen.
soup.find_all("a")

Das ganze können wir wiederum übersichtlicher machen, indem wir die einzelnen Rückgaben durch Striche voneinander abtrennen. Dazu können wir eine Schleife bauen:

In [None]:
for a in soup.find_all("a"):
    print(a)
    print("----")

Wir können auch nach bestimmten Elementen suchen. Jedes Buch auf der Seite steckt in einem `<article>` Tag mit der Klasse `product_pod`. Schauen wir uns die gefundenen Einträge an:

In [None]:
# hier sehen wir alle Bücher als article-Elemente
soup.find_all("article", {"class": "product_pod"})

Unter `article` mit der Klasse `product_pod` finden wir alle Bücher. Innerhalb jedes Artikels gibt es verschiedene Klassen. Die letzte `price_color` enthält den Preis. Diese können wir gezielt ansprechen.

Wenn wir nur die Bücher (ohne weitere Elemente wie Navigation) haben wollen, können wir gezielt die Klasse ansprechen, die wir brauchen → `product_pod`

In [None]:
soup.find_all("article", {"class": "product_pod"})

Jetzt können wir diese Liste nehmen und uns nur die Buchtitel ausgeben lassen. Der Titel steckt im `<h3>` Tag innerhalb des Artikels, genauer im `title` Attribut des darin enthaltenen `<a>` Tags.

In [None]:
for book in soup.find_all("article", {"class": "product_pod"}):
    print(book.h3.a["title"])

A Light in the Attic
Tipping the Velvet
Soumission
Sharp Objects
Sapiens: A Brief History of Humankind
The Requiem Red
The Dirty Little Secrets of Getting Your Dream Job
The Coming Woman: A Novel Based on the Life of the Infamous Feminist, Victoria Woodhull
The Boys in the Boat: Nine Americans and Their Epic Quest for Gold at the 1936 Berlin Olympics
The Black Maria
Starving Hearts (Triangular Trade Trilogy, #1)
Shakespeare's Sonnets
Set Me Free
Scott Pilgrim's Precious Little Life (Scott Pilgrim #1)
Rip it Up and Start Again
Our Band Could Be Your Life: Scenes from the American Indie Underground, 1981-1991
Olio
Mesaerion: The Best Science Fiction Stories 1800-1849
Libertarianism for Beginners
It's Only the Himalayas


Wenn wir auch die Preise haben wollen, können wir diese mit in die Schleife einbauen. Um den `<p>` Tag mit dem Preis aufzurufen, sprechen wir die Klasse `price_color` an. Den Preis selbst bekommen wir mit `.string`.

In [None]:
for book in soup.find_all("article", {"class": "product_pod"}):
    print("Titel:", book.h3.a["title"])
    print("Preis:", book.find("p", {"class": "price_color"}).string)
    print("-----")

Titel: A Light in the Attic
Preis: £51.77
-----
Titel: Tipping the Velvet
Preis: £53.74
-----
Titel: Soumission
Preis: £50.10
-----
Titel: Sharp Objects
Preis: £47.82
-----
Titel: Sapiens: A Brief History of Humankind
Preis: £54.23
-----

## Ende