# Data Mining von Webseiten

## Einführung in Requests zum Herunterladen von Webseiten und die Bibliothek Beautiful Soup zum Parsen

Dieses Notebook befasst sich mit dem  Extrahieren (Scraping) der gewünschten Inhalte aus Webseiten.

Der erste Schritt beim Scrapen einer Webseite besteht darin, die Seite herunterzuladen. Dafür können wir die [Python-Bibliothek `requests`](https://pypi.org/project/requests/) verwenden.

Die `requests`-Bibliothek sendet eine `get()`*-Anfrage* an einen Webserver, wodurch der HTML-Inhalt einer angegebenen Webseite für uns heruntergeladen wird. Es gibt verschiedene Arten von Anfragen, die wir mit `requests` stellen können – `get()` ist nur eine davon. 

Probieren wir es aus, indem wir die einfache Beispielseite [https://dataquestio.github.io/web-scraping-pages/simple.html](https://dataquestio.github.io/web-scraping-pages/simple.html) herunterladen.

### Download

Zuerst müssen wir die `requests`-Bibliothek importieren und anschließend die Seite mit der Methode `requests.get()` herunterladen:

In [None]:
import requests

page = requests.get("https://dataquestio.github.io/web-scraping-pages/simple.html")
page

Nachdem wir unsere Anfrage ausgeführt haben, erhalten wir ein **Response-Objekt**. Dieses Objekt besitzt die Eigenschaft [`status_code`](https://de.wikipedia.org/wiki/HTTP-Statuscode#Liste_der_HTTP-Statuscodes), die angibt, ob die Seite erfolgreich heruntergeladen wurde:


In [None]:
page.status_code

Ein **status_code** von `200` bedeutet, dass die Seite erfolgreich heruntergeladen wurde. Wir werden hier nicht vollständig auf Statuscodes eingehen, aber generell gilt: Ein Code, der mit `2` beginnt, weist auf einen erfolgreichen Vorgang hin, während ein Code, der `4` oder `5` beginnt, auf einen Fehler hindeutet.

Wir können nun den **HTML-Inhalt** der Seite mit der Eigenschaft `content` ausgeben:

In [None]:
page.content

### Eine Seite parsen

Wie oben zu sehen ist, haben wir nun ein HTML-Dokument heruntergeladen.

Wir können die [`BeautifulSoup`](https://pypi.org/project/beautifulsoup4/)-Bibliothek verwenden, um dieses Dokument zu parsen und den Text aus dem **`<p>`-Tag** zu extrahieren.

Zuerst müssen wir die Bibliothek importieren und eine Instanz der **BeautifulSoup**-Klasse erstellen, um unser Dokument zu parsen:


In [None]:
from bs4 import BeautifulSoup
soup = BeautifulSoup(page.content, 'html.parser')

Wir können nun den **HTML-Inhalt** der Seite schön formatiert ausgeben, indem wir die [`prettify()`](https://www.crummy.com/software/BeautifulSoup/bs4/doc/#pretty-printing)-Methode des BeautifulSoup-Objekts verwenden.

In [None]:
print(soup.prettify())

Dieser Schritt ist nicht unbedingt erforderlich, und wir werden ihn nicht immer durchführen, aber es kann hilfreich sein, das **prettified HTML** anzuschauen, um die Struktur und die Verschachtelung der Tags besser zu erkennen.

Da alle Tags verschachtelt sind, können wir die Struktur **eine Ebene nach der anderen** durchgehen.
Zuerst können wir alle Elemente auf der obersten Ebene der Seite mit der **children**-Eigenschaft von `soup` auswählen.

Beachte, dass **children** einen **Listengenerator** zurückgibt, daher müssen wir die **list**-Funktion darauf anwenden:

In [None]:
list(soup.children)

Das Obige zeigt uns, dass es zwei Tags auf der obersten Ebene der Seite gibt – das anfängliche **<!DOCTYPE html>**-Tag und das **<html>**-Tag. In der Liste befindet sich außerdem ein **Zeilenumbruchzeichen (\n)**.
Schauen wir uns an, welchen **Typ** jedes Element in der Liste hat:


In [None]:
[type(item) for item in list(soup.children)]

Wie wir sehen, sind alle Elemente **BeautifulSoup-Objekte**:

* Ein **Doctype-Objekt**, das Informationen über den **Dokumenttyp** enthält.
* Ein **NavigableString**, der **Text** im HTML-Dokument repräsentiert.
* Ein **Tag-Objekt**, das **andere verschachtelte Tags** enthält.

Der wichtigste Objekttyp, mit dem wir am häufigsten arbeiten werden, ist das **Tag-Objekt**.

Das **Tag-Objekt** ermöglicht es uns, durch ein HTML-Dokument zu navigieren und andere Tags sowie Text zu extrahieren. Mehr über die verschiedenen BeautifulSoup-Objekte kannst du [hier](https://www.crummy.com/software/BeautifulSoup/bs4/doc/#) erfahren.


Wir können nun das **html-Tag** und seine **Kinder** auswählen, indem wir das **dritte Element** in der Liste nehmen:


In [None]:
html = list(soup.children)[2]

Jedes Element in der von der **children**-Eigenschaft zurückgegebenen Liste ist ebenfalls ein **BeautifulSoup-Objekt**, daher können wir auch die **children**-Methode auf dem **html-Tag** aufrufen.

Nun können wir die **Kinder** innerhalb des **html-Tags** finden:


In [None]:
list(html.children)

Wie oben zu sehen ist, gibt es hier zwei Tags: `<head>` und `<body>`>.
Wir möchten den Text innerhalb des `<p>`-Tags extrahieren, also gehen wir in den `<body>` hinein:

In [None]:
body = list(html.children)[3]

Nun können wir das **p-Tag** erhalten, indem wir die **Kinder des body-Tags** betrachten:


In [None]:
list(body.children)

Wir können nun das **p-Tag** isolieren:


In [None]:
p = list(body.children)[1]

In [None]:
list(p.children)

Sobald wir das Tag isoliert haben, können wir die **get_text**-Methode verwenden, um den gesamten Text innerhalb des Tags zu extrahieren:


In [None]:
p.get_text()

### Tags finden

**Alle Vorkommen eines Tags auf einmal finden**

Das, was wir oben gemacht haben, war nützlich, um herauszufinden, wie man sich auf einer Seite zurechtfindet, aber es erforderte viele Befehle, um etwas ziemlich Einfaches zu erledigen.


Wenn wir ein einzelnes Tag extrahieren möchten, können wir stattdessen die `find_all`-Methode verwenden, die **alle Vorkommen eines Tags** auf einer Seite findet.


In [None]:
soup = BeautifulSoup(page.content, 'html.parser')
soup.find_all('p')

Beachte, dass `find_all()` eine **Liste** zurückgibt, daher müssen wir die Liste entweder **durchlaufen** oder **Indexierung** verwenden, um den Text zu extrahieren:

In [None]:
soup.find_all('p')[0].get_text()

Wenn wir stattdessen nur das **erste Vorkommen eines Tags** finden möchtest, können wir die `find()`-Methode verwenden, die ein einzelnes **BeautifulSoup-Objekt** zurückgibt:

In [None]:
soup.find('p')

**Tags nach Klasse und ID suchen:**

Klassen und IDs werden von **CSS** verwendet, um zu bestimmen, welche HTML-Elemente bestimmte **Styles** erhalten. Beim **Scraping** können wir sie jedoch auch verwenden, um die Elemente anzugeben, die wir extrahieren möchten.

Probieren wir eine **andere Seite** aus.


In [None]:
page = requests.get("https://dataquestio.github.io/web-scraping-pages/ids_and_classes.html")
soup = BeautifulSoup(page.content, 'html.parser')
soup

Nun können wir die `find_all()`-Methode verwenden, um Elemente nach **Klasse** oder **ID** zu suchen. Im folgenden Beispiel suchen wir nach allen **`<p>`-Tags**, die die Klasse **outer-text** haben:


In [None]:
soup.find_all('p', class_='outer-text')

Im folgenden Beispiel suchen wir nach **allen Tags**, die die Klasse **outer-text** haben:


In [None]:
soup.find_all(class_="outer-text")

Wir können auch nach **Elementen anhand ihrer ID** suchen:


In [None]:
soup.find_all(id="first")

**Verwendung von CSS-Selektoren**

Wir können Elemente auch mithilfe von **CSS-Selektoren** suchen. Diese Selektoren ermöglichen es Entwicklern in CSS, bestimmte HTML-Tags zum Stylen auszuwählen. Hier sind einige Beispiele:

* **p a** — findet alle **a-Tags** innerhalb eines **p-Tags**.
* **body p a** — findet alle **a-Tags** innerhalb eines **p-Tags**, das sich innerhalb eines **body-Tags** befindet.
* **html body** — findet alle **body-Tags** innerhalb eines **html-Tags**.
* **p.outer-text** — findet alle **p-Tags** mit der Klasse **outer-text**.
* **p#first** — findet alle **p-Tags** mit der ID **first**.
* **body p.outer-text** — findet alle **p-Tags** mit der Klasse **outer-text** innerhalb eines **body-Tags**.


**BeautifulSoup-Objekte** unterstützen die Suche auf einer Seite über **CSS-Selektoren** mithilfe der **select**-Methode.
Wir können CSS-Selektoren verwenden, um **alle p-Tags** auf unserer Seite zu finden, die sich innerhalb eines **div-Tags** befinden, wie folgt:


In [None]:
soup.select("div p")

Beachte, dass die **select**-Methode wie **find** und **find_all** eine **Liste von BeautifulSoup-Objekten** zurückgibt.


## Fallstudie: Wetter!


### Herunterladen von Wetterdaten

Wir wissen nun genug, um Informationen über das **lokale Wetter** von der Website des **National Weather Service** zu extrahieren!

Das lokale Wetter von **Boulder, CO** ist hier zu finden:
[https://forecast.weather.gov/MapClick.php?lat=40.0466&lon=-105.2523#.YwpRBy2B1f0](https://forecast.weather.gov/MapClick.php?lat=40.0466&lon=-105.2523#.YwpRBy2B1f0)

Zeit, mit dem **Scraping** zu beginnen!


Wir wissen nun genug, um die Seite herunterzuladen und mit dem Parsen zu beginnen. Im folgenden Code werden wir:

* Die Webseite mit der **Vorhersage** herunterladen.
* Eine **BeautifulSoup-Klasse** erstellen, um die Seite zu parsen.
* Das **div** mit der ID **seven-day-forecast** finden und der Variablen **seven_day** zuweisen.
* Innerhalb von **seven_day** jedes einzelne **Forecast-Element** finden.
* Das **erste Forecast-Element** extrahieren und ausgeben.


In [None]:
import requests
from bs4 import BeautifulSoup

page = requests.get("https://forecast.weather.gov/MapClick.php?lat=40.0466&lon=-105.2523#.YwpRBy2B1f0")
soup = BeautifulSoup(page.content, 'html.parser')
seven_day = soup.find(id="seven-day-forecast")
forecast_items = seven_day.find_all(class_="tombstone-container")
print(forecast_items)

In [None]:
tonight = forecast_items[0]
print(tonight.prettify())

### Informationen für „Tonight“ extrahieren

Wie wir sehen, befinden sich innerhalb des **Forecast-Elements „Tonight“** alle Informationen, die wir benötigen. Wir können vier Informationen extrahieren:

* Den **Namen** des Forecast-Elements.
* Die **Beschreibung der Bedingungen** — diese ist in der **title-Eigenschaft** des **img-Tags** gespeichert.
* Eine **kurze Beschreibung** der Bedingungen.
* Die **Höchsttemperatur**.


Zuerst extrahieren wir den **Namen** des Forecast-Elements, die **kurze Beschreibung** und die **Temperatur**, da diese alle ähnlich sind.

> **Hinweis:** Wenn das ausgewählte Forecast-Element keine der erwarteten Informationen enthält, einfach einen **anderen Index** in der Liste `forecast_items` ausprobieren.


In [None]:
period = tonight.find(class_="period-name").get_text()
short_desc = tonight.find(class_="short-desc").get_text()
temp = tonight.find(class_="temp").get_text()
print(period)
print(short_desc)
print(temp)

Nun können wir die **title-Eigenschaft** des **img-Tags** extrahieren.
Dazu behandeln wir das **BeautifulSoup-Objekt** wie ein **Dictionary** und übergeben das gewünschte Attribut als Schlüssel:


In [None]:
img = tonight.find("img")
desc = img['title']
print(desc)

### Alle Nächte extrahieren!

Da wir nun wissen, wie man **jedes einzelne Informationsstück** extrahiert, können wir unser Wissen mit **CSS-Selektoren** und **List Comprehensions** kombinieren, um alles auf einmal zu extrahieren.

Im folgenden Code werden wir:

* Alle Elemente mit der Klasse **period-name** innerhalb eines Elements mit der Klasse **tombstone-container** in **seven_day** auswählen.
* Eine **List Comprehension** verwenden, um die **get_text-Methode** auf jedes BeautifulSoup-Objekt anzuwenden.


In [None]:
period_tags = seven_day.select(".tombstone-container .period-name")
periods = [pt.get_text() for pt in period_tags]
periods

Wie oben zu sehen ist, liefert uns unsere Technik **alle Periodennamen** in der richtigen Reihenfolge.

Wir können dieselbe Technik anwenden, um die **anderen drei Felder** zu erhalten:


In [None]:
short_descs = [sd.get_text() for sd in seven_day.select(".tombstone-container .short-desc")]
temps = [t.get_text() for t in seven_day.select(".tombstone-container .temp")]
descs = [d.get("title", "") for d in seven_day.select(".tombstone-container img")]

print(short_descs)
print(temps)
print(descs)

> **Hinweis:** Das `title`-Attribut kann leer sein, da nicht bei allen `<img>`-Elementen ein Titel vorhanden ist.


### Mit Daten arbeiten

Wir können die Daten nun in einem **Pandas DataFrame** zusammenführen und analysieren. Ein **DataFrame** ist ein Objekt, das **tabellarische Daten** speichern kann, wodurch die **Datenanalyse** erleichtert wird.

Dazu rufen wir die **DataFrame-Klasse** auf und übergeben jede unserer **Listen von Elementen**. Wir übergeben sie als Teil eines **Dictionaries**.

Jeder **Schlüssel im Dictionary** wird zu einer **Spalte im DataFrame**, und jede **Liste** wird zu den **Werten in der Spalte**:


In [None]:
import pandas as pd
weather = pd.DataFrame({
    "period": periods,
    "short_desc": short_descs,
    "temp": temps,
    "desc":descs
})
weather

Nun speichern wir die Daten in einer **CSV-Datei**.


In [None]:
# create directory 'data' if it does not exist
import os
newpath = r'data' 
if not os.path.exists(newpath):
    os.makedirs(newpath)

# write weather data to CSV file
weather.to_csv('data/Boulder_Weather_7_Days.csv')

Credits: Dieses Notebook basiert auf [*Collect Data From Web* von *Di Wu*](https://github.com/diwucub/Data-Mining-with-Python/blob/main/01%20Data%20Integration/CollectDataFromWeb.ipynb) (lizenziert unter [CC BY NC SA 4.0](https://creativecommons.org/licenses/by-nc-sa/4.0/)) und [https://www.dataquest.io/blog/web-scraping-python-using-beautiful-soup/](https://www.dataquest.io/blog/web-scraping-python-using-beautiful-soup/).


# Deutsches Wetter mit Web Scraping (Iserlohn, 10-Tage-Trend)

In diesem Abschnitt scrapen wir die 10-Tage-Wettervorhersage für Iserlohn von der Webseite  
[wetterdienst.de](https://www.wetterdienst.de/Deutschlandwetter/Iserlohn/Vorhersage/10-Tage-Trend/).

## Webseite abrufen

Wir verwenden `requests`, um die HTML-Seite herunterzuladen.  
Dabei setzen wir einen **User-Agent**, um als normaler Browser erkannt zu werden.


In [None]:
url = "https://www.wetterdienst.de/Deutschlandwetter/Iserlohn/Vorhersage/10-Tage-Trend/"

response = requests.get(url)
soup = BeautifulSoup(response.content, "html.parser")

## Daten aus den Forecast-Boxen extrahieren

Jede Tagesvorhersage befindet sich in einem `<div>` mit der Klasse `.forecast_box`.  
Daraus lesen wir:
- den **Tag** (z. B. Montag),
- das **Datum** (z. B. 27.10.2025),
- und die **Temperaturen** (min / max),
- sowie die **Wetterbeschreibung** (z. B. „Regen und Gewitter“).

Am Ende speichern wir alle einzelnen Wetterdatensätze in einer **Liste von Dictionaries** (`data`).  
Das hat zwei Vorteile:
1. Wir können **mehrere Tage** hintereinander sammeln (jede Box = ein Dictionary).
2. Wir können die Liste später **einfach in ein Pandas DataFrame** umwandeln, um sie tabellarisch darzustellen oder als CSV zu speichern.


In [None]:
data = []

for box in soup.select(".forecast_box"):
    # Tag + Datum
    tag = box.find("h3").contents[0].strip() if box.find("h3") else None
    datum = box.select_one(".forecast_timerange")
    datum = datum.text.strip() if datum else None

    # Wetterbeschreibung
    weather_img = box.select_one("img.weather_symbol")
    wetter = weather_img["alt"].strip() if weather_img and weather_img.has_attr("alt") else None

    # Temperaturen
    temp_min_tag = box.select_one(".forecast_temp span:not(.temp_rounded)")
    temp_min = temp_min_tag.text.strip() if temp_min_tag else None

    temp_max_tag = box.select_one(".forecast_temp span.temp_rounded")
    temp_max = temp_max_tag.text.strip() if temp_max_tag else None
    
    data.append({
        "Tag": tag,
        "Datum": datum,
        "Wetter": wetter,
        "Temp_min": temp_min,
        "Temp_max": temp_max
    })

## Ergebnis anzeigen

Wir erstellen ein DataFrame, um die extrahierten Daten übersichtlich darzustellen.


In [None]:
import pandas as pd

iserlohn_weather = pd.DataFrame(data)
iserlohn_weather

Nun speichern wir die Daten in einer **CSV-Datei**.


In [None]:
import os
newpath = r'data' 
if not os.path.exists(newpath):
    os.makedirs(newpath)

iserlohn_weather.to_csv('data/Iserlohn_10_Days.csv')