In [None]:
%pip install requests beautifulsoup4

### Installieren der benötigten Abhängigkeiten

Um Webseiten programmatisch aufrufen zu können, nutzen wir die Python-Libraries ```requests``` und ```Beautiful Soup```. Erstere dient dazu, überhaupt eine Verbindung zwischen dem lokalen Script und einem Webserver aufbauen zu können. Hierzu stellt die Library ein paar Methoden bereit, um eine HTTP-Verbindung zu einem Server herzustellen und die Daten entsprechend abzurufen. Beautiful Soup hingegen ermöglicht es, den HTML-Inhalt einer Webseite programmatisch auszulesen und die enthaltenen Informationen abzurufen sowie entsprechend zu verarbeiten.

In [None]:
import requests
from bs4 import BeautifulSoup

Nun wird eine Webseite definiert, welche im Anschluss ausgelesen werden soll:

In [None]:
# URL der zu untersuchenden Website
url = "https://en.wikipedia.org/wiki/Web_crawler"

Nachdem die Ziel-URL der auszulesenden Webseite definiert wurde, kann diese im Folgenden abgerufen werden. Mittels ```requests.get(url)``` wird der Inhalt an der Adresse entsprechend abgerufen (das Ergebnis entspricht dem HTML-Inhalt der Webseite). Natürlich kann das auch potenziell fehlerhaft sein, insbesondere wenn die Webseite unter der URL beispielsweise nicht erreichbar ist - deshalb ist es nötig, einen Try-Except-Block zu nutzen, um keine Abbrüche zu erhalten.

In [None]:
try:
    response = requests.get(url)
except Exception as e:
        print(f"An error occurred: {e}")

Da der Inhalt im ```response```-Objekt relativ schwer zu verarbeiten ist, wird im Folgenden der Text in eine HTML-Baumstruktur umgewandelt:

In [None]:
soup = BeautifulSoup(response.text, 'html.parser')

Die erhaltene Baumstruktur sieht grob so aus: 


![](https://www.w3schools.com/whatis/img_htmltree.gif)


Um in dieser Struktur nun Inhalte, welche von Relevanz sind, zu finden, werden mittels der ```find()```-Funktion einfache Selektoren genutzt. Hiermit kann beispielsweise der Titel der Seite gefunden werden (```soup.find('h1', {'id': 'firstHeading'})```). Da das Ergebnis dieser Abfrage noch HTML ist, wird mittels ```.text``` der textuelle Inhalt ausgelesen.

Genau so wird auch der eigentliche Inhalt ausgelesen, welcher in einem HTML-Tag mit der Bezeichnung ```main``` und der ID ```content``` enthalten ist (```soup.find('main', {'id': 'content'})```).

Innerhalb des Seiteninhalts existieren mehrere Abschnitte, welche mittels der ```find_all```-Funktion sowie dem zugehörigen HTML-Element (```p```) gefunden werden können.

In [None]:
title = soup.find('h1', {'id': 'firstHeading'}).text
print(f"Title: {title}\n")
# Extract and print the main content of the page (the article)
content = soup.find('main', {'id': 'content'})
paragraphs = content.find_all('p')
for paragraph in paragraphs:
    print(paragraph.text)

### Aufgabe

Erstelle eine Funktion, welche den Inhalt einer beliebigen Wikipedia-Seite abruft und diesen Inhalt entsprechend zurückgibt.

<details>
  <summary>Hinweis 1</summary>
  
  Zunächst muss der Inhalt der Website abgerufen werden. Folgender Codeschnipsel kann hierbei helfen:
  
  ```Python
  requests.get()
  ```
  
</details>

<details>
  <summary>Hinweis 2</summary>
  
  Der erhaltene Inhalt muss mittels Beautiful Soup geparsed werden, um les- und abfragbar zu sein:
  ```Python
  soup = BeautifulSoup(response.text, 'html.parser')
  ```
  
</details>

<details>
  <summary>Hinweis 3</summary>
  
  Der Inhalt der Webseite muss gefunden werden. Welches Tag enthält diesen? In den Developer Tools des Browsers kann man die HTML-Struktur der Seite anschauen (F12 in Chrome/Safari).
  
</details>

In [None]:
# Hier Lösung eintragen