# Webscraping mit der Python Library Beautiful Soup

In [1]:
import requests
from bs4 import BeautifulSoup

Beautiful Soup ist eine Python-Bibliothek, die hauptsächlich zur Extraktion von Informationen aus HTML- und XML-Dokumenten verwendet wird. Mit Beautiful Soup können Sie verschiedene Aufgaben im Zusammenhang mit dem Web-Scraping und der Analyse von Webinhalten ausführen.

In [2]:
url = "https://dl.acm.org/doi/proceedings/10.1145/2814864"

Die Website "https://dl.acm.org/" dient als Portal für die ACM Digital Library. In der ACM Digital Library finden Sie eine umfangreiche Sammlung von wissenschaftlichen Arbeiten, Zeitschriftenartikeln, Konferenzberichten und anderen Publikationen im Bereich der Informatik und Computertechnologie. 

Im ersten Schritt verwenden wir die request.get Funktion aus der Bibliothek requests, um eine Anfrage an die URL zu senden un die Webinhalte abzurufen. Das Ergebnis speichern wir direkt in der Variable request ab.

In [3]:
request = requests.get(url)

Nun können wir BeautifulSoup verwenden, um den HTML-Inhalt der Webseite zu analysieren. 

In [4]:
soup = BeautifulSoup(request.content, "html.parser")

Zuerst wird die Methode request.content verwendet, um den HTML-Inhalt aus der HTTP-Antwort (request) abzurufen. Dann wird "html.parser" als Parser angegeben, der verwendet wird, um das HTML-Dokument zu analysieren.

Der resultierende soup-Objekt enthält die geparsten und strukturierten Informationen aus dem HTML-Dokument.

In [None]:
print(soup)

Hier sehen wir unseren analysierten HTML-Inhalt. Aber recht unübersichtlich. Wir können die Methode prettify nutzen, um den HTML Inhalt formatiert und eingerückt zurückzubekommen.

Alternativ könnte man sich den Quelltext auch auf der Seite selbst mit F12 oder einem rechtsklick "Quelltext untersuchen" anschauen, um sich einen Überblick zu verschaffen.

mit BeautifulSoup können wir uns jetzt einzelne Elemente des HTML Inhalts ausgeben lassen. Zum Beispiel den Titel der Publikation

In [None]:
print(prettify(soup))

In [5]:
soup.title

<title>Proceedings of the 11th International Conference on Semantic Systems | ACM Other conferences</title>

Damit haben wir zwar den Titel, aber auch den tag-name.
Mit name bekommen wir nur den tag zurück, mit string nur den Titel

In [6]:
soup.title.name

'title'

In [7]:
soup.title.string

'Proceedings of the 11th International Conference on Semantic Systems | ACM Other conferences'

In [8]:
# gibt den tag head zurück, da der tag title sich innerhalb dieses tags befinden
soup.title.parent.name 

'head'

Durchsuchen wir den Inhalt nach a Tags  
a-Tags (Anchor-Tags):
Die Hauptfunktion von a-Tags besteht darin, Hyperlinks zu anderen Webseiten oder Ressourcen zu erstellen.

In [None]:
# wird verwendet, um alle <a>-Tags in einem geparsten HTML-Dokument zu finden 
# und eine Liste von BeautifulSoup-Tag-Instanzen zurückzugeben, die diese Tags darstellen.
soup.find_all("a")

Das ganze können wir wiederum übersichtlicher machen, indem wir die einzelnen Rückgaben durch Striche voneinander abtrennen. Dazu können wir eine Schleife bauen:

In [None]:
for a in soup.find_all("a"):
    print(a)
    print("----")

Wir können auch nach Überschriften einer bestimmten Stufe suchen: h1, h2, h3, usw  
Suchen wir nach h5

In [9]:
# hier sehen wir sowohl die Titel der Artikel, als auch die doi
soup.find_all("h5")

[<h5>Save to Binder</h5>,
 <h5 class="issue-item__title"><a href="/doi/10.1145/2814864.2814887">Crowdsourced semantic annotation of scientific publications and tabular data in PDF</a></h5>,
 <h5 class="issue-item__title"><a href="/doi/10.1145/2814864.2814870">Complex event extraction from real-time news streams</a></h5>,
 <h5 class="issue-item__title"><a href="/doi/10.1145/2814864.2814869">An elastic and scalable spatiotemporal query processing for linked sensor data</a></h5>,
 <h5 class="issue-item__title"><a href="/doi/10.1145/2814864.2814879">Toward a statistical data integration environment: the role of semantic metadata</a></h5>,
 <h5 class="issue-item__title"><a href="/doi/10.1145/2814864.2814867">The role of reasoning for RDF validation</a></h5>,
 <h5 class="issue-item__title"><a href="/doi/10.1145/2814864.2814874">Accessing and reasoning with data from disparate data sources using modular ontologies and OBDA</a></h5>,
 <h5 class="issue-item__title"><a href="/doi/10.1145/2814864

Unter h5 finden wir alle Artikel und ihre DOI. Die letzen 3 Einträge, zeigen eine andere Klasse (creative-work__title) die wir nicht brauchen. Diese können wir entfernen, indem wir gezielt die class ansprechen, die wir brauchen > issue-item_title

In [10]:
soup.find_all("h5", {"class":"issue-item__title"})

[<h5 class="issue-item__title"><a href="/doi/10.1145/2814864.2814887">Crowdsourced semantic annotation of scientific publications and tabular data in PDF</a></h5>,
 <h5 class="issue-item__title"><a href="/doi/10.1145/2814864.2814870">Complex event extraction from real-time news streams</a></h5>,
 <h5 class="issue-item__title"><a href="/doi/10.1145/2814864.2814869">An elastic and scalable spatiotemporal query processing for linked sensor data</a></h5>,
 <h5 class="issue-item__title"><a href="/doi/10.1145/2814864.2814879">Toward a statistical data integration environment: the role of semantic metadata</a></h5>,
 <h5 class="issue-item__title"><a href="/doi/10.1145/2814864.2814867">The role of reasoning for RDF validation</a></h5>,
 <h5 class="issue-item__title"><a href="/doi/10.1145/2814864.2814874">Accessing and reasoning with data from disparate data sources using modular ontologies and OBDA</a></h5>,
 <h5 class="issue-item__title"><a href="/doi/10.1145/2814864.2814866">Making sense of 

Jetzt könnnen wir diese Liste nehmen und uns nur die Strings zurückgeben lassen, wie am anfang, um die reinen Titel zurückzubekommen

In [11]:
for publication in soup.find_all("h5", {"class":"issue-item__title"}):
    print(publication.string)

Crowdsourced semantic annotation of scientific publications and tabular data in PDF
Complex event extraction from real-time news streams
An elastic and scalable spatiotemporal query processing for linked sensor data
Toward a statistical data integration environment: the role of semantic metadata
The role of reasoning for RDF validation
Accessing and reasoning with data from disparate data sources using modular ontologies and OBDA
Making sense of description logics
TailR: a platform for preserving history on the web of data
Integrating custom index extensions into virtuoso RDF store for e-commerce applications
Knowledge base shipping to the linked open data cloud
iCM-Hydraulic: semantics-empowered condition monitoring of hydraulic machines
A linked data platform for finite element biosimulations
Cross-lingual lexical matching with word translation and local similarity optimization
Updating OWL2 ontologies using pruned rulesets
A semantic method for multiple resources exploitation
SemaGr

Wenn wir auch die DOIs haben wollen, können wir diese mit in die Sleife einbauen.
Um den a tag innerhalb h5 aufzurrufen können wir anstatt find_all("a") in beautfilsoup auch ein .a schreiben. Innerhalb des a tags können wir dann den href tag angeben und das /doi/ durch nicht ersetzen mit replace

In [12]:
for publication in soup.find_all("h5", {"class":"issue-item__title"}):
    print("Title:", publication.string)
    print("DOI:", publication.a["href"].replace("/doi/", ""))
    print("-----")

Title: Crowdsourced semantic annotation of scientific publications and tabular data in PDF
DOI: 10.1145/2814864.2814887
-----
Title: Complex event extraction from real-time news streams
DOI: 10.1145/2814864.2814870
-----
Title: An elastic and scalable spatiotemporal query processing for linked sensor data
DOI: 10.1145/2814864.2814869
-----
Title: Toward a statistical data integration environment: the role of semantic metadata
DOI: 10.1145/2814864.2814879
-----
Title: The role of reasoning for RDF validation
DOI: 10.1145/2814864.2814867
-----
Title: Accessing and reasoning with data from disparate data sources using modular ontologies and OBDA
DOI: 10.1145/2814864.2814874
-----
Title: Making sense of description logics
DOI: 10.1145/2814864.2814866
-----
Title: TailR: a platform for preserving history on the web of data
DOI: 10.1145/2814864.2814875
-----
Title: Integrating custom index extensions into virtuoso RDF store for e-commerce applications
DOI: 10.1145/2814864.2814877
-----
Title

## Ende