Zurück zum:
- [Inhaltsverzeichnis](../../../_Inhaltsverzeichnis_Data_Analyses_.ipynb)
- [Syllabus](../../../_Syllabus_PCED_.ipynb)

Siehe auch:
- [Umfragen](../Umfragen.ipynb)
- [Interviews](../Interview.ipynb)
- [API's](../API.ipynb)
- [Datenerhebung](../_Data_Collection_.ipynb)
- [Auslesen von Datenspeichern](../auslesen.ipynb)
- [Stichproben](../Stichproben.ipynb)
- [Recht und Ethik](../recht_ethik.ipynb)
- [Anonymisierung](../Anonymisierung.ipynb)
- [Einfluss des Data-Analysten auf die Geschäftsprozesse](../Einfluss.ipynb)

Beispiele:
- [BitCoin](web_scrap_bit_coin.ipynb)
- [BeautifulSoup](web_scraping_beautiful_soup.ipynb)

Web Scraping ist das automatisierte Extrahieren von Daten aus Webseiten. Es ermöglicht die Sammlung von Informationen, die online verfügbar sind, aber nicht als Rohdaten zum Download bereitgestellt werden. Mit Web Scraping lassen sich Inhalte, wie Tabellen, Texte, Bilder und andere Elemente, systematisch sammeln und speichern.

# Wie funktioniert Web Scraping?

Web Scraping funktioniert durch das Laden einer Webseite, das Analysieren ihrer Struktur und das Extrahieren der benötigten Daten. Webseiten werden in HTML geschrieben, und ein Scraper durchsucht das HTML-Dokument, um bestimmte Informationen zu extrahieren. Python-Bibliotheken wie `BeautifulSoup`, `Scrapy` und `Selenium` ermöglichen es, diese Prozesse zu automatisieren.

## Theoretischer Hintergrund

Eine Webseite besteht aus HTML, CSS und oft auch JavaScript. Beim Scraping geht es hauptsächlich darum, das HTML zu analysieren, um gezielt die Daten auszulesen. Jede HTML-Seite hat eine DOM-Struktur (Document Object Model), in der verschiedene Elemente wie Überschriften (`<h1>`), Absätze (`<p>`), Tabellen (`<table>`) und Links (`<a>`) angeordnet sind. Web Scraping extrahiert diese Elemente, indem es den HTML-Baum durchläuft und die relevanten Teile extrahiert.



Die Abkürzungen in HTML-Tags stehen für bestimmte Elemente:

- `<h1>`: „Heading 1“ – Dies ist ein Tag für die größte Überschrift auf einer Seite. Es gibt auch `<h2>`, `<h3>`, usw., um kleinere Überschriften zu definieren.
- `<p>`: „Paragraph“ – Ein Tag für einen Absatz Text.
- `<table>`: „Table“ – Ein Tag für Tabellenstrukturen, die aus Zeilen und Spalten bestehen.
- `<a>`: „Anchor“ – Ein Tag für Links (Anker), die auf andere Seiten oder Ressourcen verweisen.

Diese Tags sind Teil der HTML-Sprache, die die Struktur und den Inhalt einer Webseite beschreibt.




## Techniken und Methoden des Web Scraping

1. **HTML Parsing (z. B. mit BeautifulSoup)**:
   - Analyse des HTML-Codes der Seite, um bestimmte Tags, Klassen oder Attribute auszulesen.
   - Gut geeignet für Seiten mit statischen Inhalten.
   - Bibliotheken: `BeautifulSoup`, `lxml`.

2. **API Requests**:
   - Einige Webseiten bieten APIs an, die speziell für den Datenzugriff entwickelt wurden.
   - Hierbei wird direkt auf die Daten zugegriffen, ohne das Parsing von HTML.
   - Dies ist die effizienteste Methode, wenn eine API vorhanden ist.

3. **Browser Automation (z. B. mit Selenium)**:
   - Wenn Webseiten dynamische Inhalte verwenden (z. B. durch JavaScript), können Browserautomatisierungstools wie `Selenium` eingesetzt werden, um die Seite zu laden und die Daten zu extrahieren.
   - Gut geeignet für dynamische Webseiten.

4. **Headless Browser Scraping**:
   - Ein Webbrowser ohne Benutzeroberfläche wird verwendet, um Webseiten zu laden. `Puppeteer` oder `Selenium` kann verwendet werden, um diese zu automatisieren.
   - Effizient bei Webseiten mit dynamischen Inhalten.

5. **Scrapy (Framework)**:
   - Eine leistungsfähige Bibliothek für das Scraping von großen Webseiten oder komplexen Datenmodellen.
   - Unterstützt parallele Anfragen und ist effizient für große Mengen von Daten.

## Häufige Fehler und Probleme

1. **Rate Limiting**: Viele Webseiten begrenzen die Anzahl der Anfragen pro Zeiteinheit, um Überlastungen zu vermeiden.
2. **IP-Blockierung**: Webseiten können Scraper blockieren, wenn sie ungewöhnlich viele Anfragen erkennen.
3. **Captcha**: Einige Seiten verwenden Captchas, um automatisierte Zugriffe zu verhindern.
4. **Dynamische Inhalte**: Inhalte, die durch JavaScript nachgeladen werden, sind oft nicht direkt über einfaches HTML-Parsen zugänglich.
5. **Urheberrecht und Nutzungsbedingungen**: Viele Webseiten haben Regeln bezüglich der Verwendung ihrer Inhalte. Es ist wichtig, diese zu beachten.


## Beispiel: Einfaches Scraping einer statischen Seite

In [None]:

import requests
from bs4 import BeautifulSoup

# URL der Webseite
url = 'https://example.com'

# Sende Anfrage
response = requests.get(url)

# Parse das HTML der Seite
soup = BeautifulSoup(response.text, 'html.parser')

# Finde alle Überschriften der Klasse 'title'
titles = soup.find_all('h1', class_='title')

# Gib die Überschriften aus
for title in titles:
    print(title.text)



### Import der Module
```python
import requests
from bs4 import BeautifulSoup
```
- **`import requests`**: Importiert das `requests`-Modul, das für HTTP-Anfragen verwendet wird. Es ermöglicht das Senden von GET- und POST-Anfragen an Webseiten und das Abrufen von Inhalten.
- **`from bs4 import BeautifulSoup`**: Importiert die `BeautifulSoup`-Klasse aus dem `bs4` (BeautifulSoup4)-Modul, das für das Parsen und Analysieren von HTML- und XML-Daten verwendet wird.

### Definieren der URL
```python
# URL der Webseite
url = 'https://example.com'
```
- Hier wird die URL der Webseite, die du scrapen möchtest, in der Variablen `url` gespeichert. In diesem Fall ist es eine Platzhalter-URL (`example.com`).

### Senden der Anfrage
```python
# Sende Anfrage
response = requests.get(url)
```
- **`requests.get(url)`**: Sendet eine HTTP GET-Anfrage an die angegebene URL. Diese Methode versucht, den HTML-Inhalt der Webseite abzurufen.
- **`response`**: Die Antwort des Servers wird in der Variablen `response` gespeichert. Diese Antwort enthält den Statuscode (z. B. 200 für Erfolg) und den Inhalt der Webseite.

### Parsen des HTML
```python
# Parse das HTML der Seite
soup = BeautifulSoup(response.text, 'html.parser')
```
- **`response.text`**: Dies gibt den HTML-Inhalt der abgerufenen Webseite als String zurück.
- **`BeautifulSoup(response.text, 'html.parser')`**: Erstellt ein `BeautifulSoup`-Objekt, das den HTML-Inhalt analysiert. 
  - **`'html.parser'`**: Dies ist der Parser, der verwendet wird, um den HTML-Inhalt zu verarbeiten. In diesem Fall ist es der integrierte HTML-Parser von Python.

### Finden der Überschriften
```python
# Finde alle Überschriften der Klasse 'title'
titles = soup.find_all('h1', class_='title')
```
- **`soup.find_all('h1', class_='title')`**: Diese Methode sucht nach allen `<h1>`-Tags im geparsten HTML, die die Klasse `title` haben.
  - **`'h1'`**: Der Tag, den du suchst (in diesem Fall eine Überschrift der ersten Ebene).
  - **`class_='title'`**: Dies ist ein Filter, um nur die Elemente mit der Klasse `title` zu finden. (Beachte, dass du möglicherweise eine tatsächliche Klasse verwenden musst, die auf der Zielseite existiert.)
- Das Ergebnis wird in der Liste `titles` gespeichert, die alle gefundenen `<h1>`-Elemente enthält.

### Ausgeben der Überschriften
```python
# Gib die Überschriften aus
for title in titles:
    print(title.text)
```
- **`for title in titles:`**: Iteriert über jedes Element in der Liste `titles`.
- **`print(title.text)`**: Gibt den Textinhalt jedes gefundenen `<h1>`-Tags aus. Die `.text`-Methode extrahiert nur den sichtbaren Text ohne HTML-Tags.

### Zusammenfassung des Ablaufs
1. Das Skript importiert die benötigten Module.
2. Es definiert die URL der Webseite, die gescrapt werden soll.
3. Eine GET-Anfrage wird an diese URL gesendet, um den HTML-Inhalt abzurufen.
4. Der HTML-Inhalt wird mit BeautifulSoup geparst.
5. Das Skript sucht nach allen `<h1>`-Tags mit der Klasse `title` und speichert sie in einer Liste.
6. Schließlich wird der Text dieser Überschriften ausgegeben.

### Wichtige Punkte
- **Error Handling**: Der Code enthält kein Fehlerhandling (z. B. für 404-Fehler oder andere HTTP-Statuscodes). Es wäre ratsam, dies hinzuzufügen, um Probleme bei der Verbindung zur Webseite zu erkennen.
- **Robots.txt und rechtliche Aspekte**: Bevor du mit dem Scraping beginnst, solltest du die `robots.txt`-Datei der Webseite überprüfen und die rechtlichen Bestimmungen beachten, um sicherzustellen, dass das Scraping zulässig ist.



## Unterschiede zwischen den Methoden

- **HTML Parsing** ist effizient, wenn die Inhalte statisch und gut strukturiert sind.
- **API Requests** bieten direkte Datenzugriffe, sind jedoch nur verfügbar, wenn eine API bereitgestellt wird.
- **Browser Automation** eignet sich für dynamische Seiten, die mit JavaScript arbeiten.
- **Headless Browsers** bieten ähnliche Vorteile wie Browser Automation, sind aber ressourcenschonender.

## Worauf muss man achten?

- **Nutzungsbedingungen**: Viele Webseiten erlauben das Scraping nicht. Überprüfe immer die `robots.txt` und die Nutzungsbedingungen.
- **Respektiere die Serverkapazitäten**: Sende nicht zu viele Anfragen in kurzer Zeit (Rate Limiting).
- **IP-Blockierung vermeiden**: Nutze Rotationen von User-Agents oder Proxies, um IP-Blockierungen zu umgehen.

## Spezialfälle

- **Captcha-Handling**: Mit Tools wie `Selenium` oder speziellen Diensten lässt sich dieses Problem umgehen.
- **AJAX-Inhalte**: Dynamisch nachgeladene Inhalte können durch Browser Automation oder durch Nachahmung der API-Anfragen geladen werden.



## Beispiel API

In [None]:
# Lösung Web-Scraping

import requests
import pandas as pd
from faker import Faker

# Schritt 1: Daten von einer API-Datenquelle abrufen (Random User API)
url = 'https://randomuser.me/api/?results=10'  # Abrufen von 10 zufälligen Benutzern
response = requests.get(url)
data = response.json()

# Schritt 2: Die relevanten Daten extrahieren
users_data = []
for user in data['results']:
    user_info = {
        'Name': f"{user['name']['first']} {user['name']['last']}",
        'Geschlecht': user['gender'],
        'Email': user['email'],
        'Land': user['location']['country'],
        'Telefonnummer': user['phone']
    }
    users_data.append(user_info)

# Schritt 3: Anonymisierung der Daten
fake = Faker()  # Faker-Bibliothek zur Erstellung zufälliger, gefälschter Daten
anonymized_data = []
for user in users_data:
    anonymized_user = {
        'Anonymisierter Name': fake.name(),
        'Geschlecht': user['Geschlecht'],  # Behalten wir bei
        'Anonymisierte Email': fake.email(),
        'Anonymisiertes Land': fake.country(),
        'Anonymisierte Telefonnummer': fake.phone_number()
    }
    anonymized_data.append(anonymized_user)

# Schritt 4: In ein DataFrame umwandeln und anzeigen
df_anonymized = pd.DataFrame(anonymized_data)
print("Anonymisierte Daten:")
print(df_anonymized)

# Optional: Daten in eine CSV-Datei speichern
df_anonymized.to_csv('anonymized_users.csv', index=False)


---
# Pagination

Pagination ist ein wichtiger Aspekt beim Web Scraping, insbesondere wenn Daten auf mehreren Seiten einer Webseite verteilt sind. Webseiten mit vielen Inhalten wie Produktlisten, Nachrichtenartikeln oder Foren verwenden oft Pagination, um die Inhalte auf mehrere Seiten zu verteilen.

## Was ist Pagination?

Pagination bezeichnet die Praxis, große Mengen an Inhalten auf mehrere Seiten aufzuteilen, sodass die Benutzer nicht alles auf einer Seite sehen. Dies wird oft durch Links wie „Nächste Seite“ oder durch Nummerierungen („Seite 1, Seite 2, …“) realisiert. Beim Scraping muss man daher nicht nur die Daten einer Seite extrahieren, sondern auch systematisch durch die verschiedenen Seiten navigieren.

## Wie funktioniert Scraping mit Pagination?

Beim Scraping von paginierten Inhalten ist es wichtig, den Mechanismus zu verstehen, wie eine Seite zur nächsten übergeht. Dies kann auf verschiedene Arten geschehen:

1. **URL-basiertes Paging**: Die URL enthält eine Parameteränderung für jede neue Seite, z. B. `?page=2`.
2. **Link-basiertes Paging**: Es gibt Links auf der Webseite wie „Nächste Seite“ oder eine Liste von Seitenzahlen, auf die man klicken muss.
3. **JavaScript-basierte Pagination**: Dynamische Webseiten laden neue Inhalte mittels AJAX (ohne Neuladen der Seite).

## Beispiel 1: Scraping mit URL-basierter Pagination (BeautifulSoup)

Hier wird die Seitennummer als URL-Parameter verwendet, was den Scraping-Prozess erleichtert:

```python
import requests
from bs4 import BeautifulSoup

# Basis-URL ohne Seitenparameter
base_url = 'https://example.com/products?page='

# Definiere die Anzahl der Seiten (z.B. 5 Seiten)
for page in range(1, 6):
    # Konstruiere die URL für jede Seite
    url = base_url + str(page)
    
    # Sende die Anfrage
    response = requests.get(url)
    
    # Parse den HTML-Inhalt
    soup = BeautifulSoup(response.text, 'html.parser')
    
    # Extrahiere die gewünschten Daten
    products = soup.find_all('div', class_='product-name')
    for product in products:
        print(product.text)
```

## Beispiel 2: Scraping mit Link-basierter Pagination (Selenium)

Wenn es einen „Nächste Seite“-Button oder andere Links für die Navigation gibt, kannst du Selenium verwenden, um die Links zu klicken:

```python
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys

# Öffne den Browser
driver = webdriver.Chrome()

# Lade die erste Seite
driver.get('https://example.com/products')

# Extrahiere Daten von der ersten Seite
products = driver.find_elements(By.CLASS_NAME, 'product-name')
for product in products:
    print(product.text)

# Durchlaufe die Seiten, solange der "Nächste"-Button vorhanden ist
while True:
    try:
        # Finde und klicke auf den "Nächste Seite"-Button
        next_button = driver.find_element(By.LINK_TEXT, 'Nächste')
        next_button.click()
        
        # Extrahiere die Produkte der nächsten Seite
        products = driver.find_elements(By.CLASS_NAME, 'product-name')
        for product in products:
            print(product.text)
    except:
        # Wenn kein "Nächste"-Button mehr vorhanden ist, breche die Schleife ab
        print("Keine weiteren Seiten.")
        break

# Schließe den Browser
driver.quit()
```

## Wichtige Aspekte beim Scraping mit Pagination:

1. **URL-Änderungen überwachen**: Prüfe, ob sich die URL zwischen den Seiten ändert, um die Struktur der Seite zu verstehen.
2. **Ende der Seiten erkennen**: Du solltest in der Lage sein, zu erkennen, wann du die letzte Seite erreicht hast. Dies könnte daran erkennbar sein, dass kein „Nächste Seite“-Link mehr existiert oder die Seitennummerierung aufhört.
3. **Datenvalidierung**: Manchmal sind bestimmte Seiten leer oder enthalten Fehler. Es ist wichtig, Mechanismen einzubauen, um fehlerhafte Daten oder leere Seiten zu erkennen.

## Verschiedene Pagination-Methoden und ihre Herausforderungen

1. **Statische URLs** (wie im Beispiel oben): Am einfachsten zu handhaben, da du nur die URL anpassen musst.
2. **JavaScript-basierte Pagination (AJAX)**: Hier lädt JavaScript die neuen Inhalte nach. In solchen Fällen kann Selenium oder das direkte Simulieren von AJAX-Anfragen nötig sein.
3. **Unendliches Scrollen**: Viele moderne Seiten verwenden unendliches Scrollen, bei dem die Seite automatisch mehr Inhalte lädt, wenn der Benutzer nach unten scrollt. Auch hier ist `Selenium` oder ein `Headless Browser` notwendig.

## Häufige Fehler beim Pagination-Scraping

1. **Falsche Seitennavigation**: Wenn der Scraper nicht korrekt von Seite zu Seite navigiert, können Seiten übersprungen oder doppelt verarbeitet werden.
2. **Timeouts und Ladefehler**: Manchmal laden Seiten nicht schnell genug oder es kommt zu Ladefehlern, insbesondere bei vielen Anfragen.
3. **Rate Limiting/Blocking**: Bei vielen Seitenanfragen kann der Server deine IP blockieren.



# Statische und dynamische Inhalte
Der Unterschied zwischen **statischen** und **dynamischen** Inhalten liegt in der Art, wie die Daten auf einer Webseite bereitgestellt und angezeigt werden.

## Statische Inhalte
Statische Inhalte sind fix und ändern sich nicht, wenn die Seite geladen wird. Sie werden direkt in HTML auf dem Server erstellt und bleiben für alle Besucher gleich. Der Server sendet dieselben Daten an jeden Benutzer, ohne dass diese durch Benutzereingaben oder andere Faktoren beeinflusst werden.

### Eigenschaften:
- **Festgelegt**: Einmal erstellt, bleiben sie unverändert, bis der Entwickler sie manuell ändert.
- **Einfach zu scrapen**: Da der HTML-Code die Inhalte direkt enthält, können sie leicht extrahiert werden.
- **Schneller zu laden**: Da keine zusätzlichen Anfragen oder Verarbeitungen nötig sind, laden sie schneller.

### Beispiele für statische Inhalte:
- Eine einfache Informationsseite mit Text und Bildern (z. B. eine „Über uns“-Seite).
- Statische Produktseiten, die immer dieselben Informationen anzeigen (z. B. eine Produktübersicht).
- Blogbeiträge oder Nachrichtenartikel, die nach dem Veröffentlichen nicht mehr geändert werden.

### Web Scraping bei statischen Inhalten:
Für statische Inhalte kann man HTML-Parser wie **BeautifulSoup** verwenden, um den HTML-Code direkt zu durchsuchen und die gewünschten Daten zu extrahieren.

## Dynamische Inhalte
Dynamische Inhalte ändern sich in Abhängigkeit von Benutzereingaben, Interaktionen oder Echtzeitdaten. Sie werden oft durch Skriptsprachen wie JavaScript oder durch serverseitige Technologien (z. B. PHP, Python) generiert und nachträglich geladen. Wenn ein Benutzer eine Webseite besucht, wird der Inhalt je nach den aktuellen Bedingungen, Benutzereinstellungen oder anderen Faktoren erstellt.

### Eigenschaften:
- **Veränderbar**: Die angezeigten Inhalte ändern sich, z. B. durch Benutzereingaben oder Zeitereignisse.
- **Schwerer zu scrapen**: Da der Inhalt oft durch JavaScript nachgeladen wird, kann ein einfacher HTML-Parser nicht die vollständigen Daten extrahieren. Es muss ein Tool wie **Selenium** oder ein Headless-Browser verwendet werden, um den dynamischen Inhalt zu laden.
- **Interaktiv**: Diese Seiten sind oft benutzerfreundlicher und reagieren auf Nutzeraktionen (z. B. durch Filter, Suchanfragen oder interaktive Elemente).

### Beispiele für dynamische Inhalte:
- **Soziale Netzwerke**: Der Inhalt von Facebook oder Twitter ändert sich ständig und wird durch Benutzereingaben (Posts, Likes) und Updates dynamisch geladen.
- **Produktsuchseiten**: Online-Shops wie Amazon passen die Inhalte basierend auf Suchfiltern, Sortierungen und Benutzervorlieben an.
- **Live-Daten**: Webseiten mit Live-Updates, wie Wetterseiten, Aktienkurse oder Sportergebnisse, bei denen sich der Inhalt regelmäßig ändert, ohne die Seite neu zu laden.
- **Infinite Scroll**: Seiten, bei denen Inhalte automatisch nachgeladen werden, wenn der Benutzer nach unten scrollt, wie bei sozialen Netzwerken oder Nachrichtenseiten.

### Web Scraping bei dynamischen Inhalten:
Für dynamische Inhalte ist es notwendig, Tools zu verwenden, die JavaScript interpretieren können, wie **Selenium**, oder die Netzwerkanfragen direkt zu analysieren (z. B. durch Nachahmung von API-Anfragen).

## Zusammenfassung der Unterschiede:

| Merkmal              | Statische Inhalte                         | Dynamische Inhalte                         |
|----------------------|-------------------------------------------|--------------------------------------------|
| **Datenquelle**       | Direkt in HTML vorhanden                  | Werden per JavaScript oder Servergenerierung nachgeladen |
| **Veränderbarkeit**   | Fix und unveränderlich                    | Ändert sich basierend auf Benutzereingaben oder Zeitereignissen |
| **Scraping**          | Einfach zu scrapen (mit BeautifulSoup)    | Schwerer zu scrapen (mit Selenium oder API-Anfragen) |
| **Beispiele**         | „Über uns“-Seiten, Blogartikel            | Soziale Netzwerke, Online-Shops, Live-Daten |

Diese Unterscheidung ist wichtig, um die richtige Scraping-Technik zu wählen.

# Praktische Aufgabe: Zitate scrapen

Praktische Aufgabe: Scrapen Sie die Seite http://quotes.toscrape.com/ und fragen Sie nach einem Zitat, was "life" enthält

## Einfache Anfrage

In [None]:
# Einfache Anfrage

import requests
from bs4 import BeautifulSoup

# URL der Webseite mit Zitaten
url = "http://quotes.toscrape.com/"

# Anfrage an die Webseite senden
response = requests.get(url)

# Überprüfen, ob die Anfrage erfolgreich war
if response.status_code == 200:
    print("Anfrage erfolgreich!")
else:
    print(f"Fehler bei der Anfrage: {response.status_code}")

# HTML-Inhalt der Webseite parsen
soup = BeautifulSoup(response.text, 'html.parser')

# Zitate und Autoren auf der Seite finden
quotes = soup.find_all('div', class_='quote')

# Anzeigen der Zitate und Autoren
for i, quote in enumerate(quotes, 1):
    text = quote.find('span', class_='text').text
    author = quote.find('small', class_='author').text
    print(f"{i}. {text} - {author}")


print("Anzeige mit Life")
# Anzeigen der Zitate und Autoren, die das Wort "animal" enthalten
for i, quote in enumerate(quotes, 1):
    text = quote.find('span', class_='text').text
    author = quote.find('small', class_='author').text
    if "life" in text.lower():  # Sucht nach dem Wort "animal" im Zitat
        print(f"{i}. {text} - {author}")


## Umfangreicher über alle Seiten

In [None]:


import requests
from bs4 import BeautifulSoup

# Start-URL der Webseite
base_url = "http://quotes.toscrape.com/page/{}/"
page = 1
found_quotes = []

# Schleife durch Seiten, bis mindestens 20 Zitate gefunden wurden
while len(found_quotes) < 2:
    # Anfrage an die aktuelle Seite senden
    response = requests.get(base_url.format(page))

    # Überprüfen, ob die Anfrage erfolgreich war
    if response.status_code != 200:
        print(f"Fehler bei der Anfrage auf Seite {page}: {response.status_code}")
        break

    # HTML-Inhalt der Seite parsen
    soup = BeautifulSoup(response.text, 'html.parser')

    # Zitate auf der Seite finden
    quotes = soup.find_all('div', class_='quote')

    # Zitate sammeln, die das Wort "life" enthalten
    for quote in quotes:
        text = quote.find('span', class_='text').text
        author = quote.find('small', class_='author').text
        if "life" in text.lower():
            found_quotes.append(f"{len(found_quotes) + 1}. {text} - {author}")
        
        # Wenn wir mindestens 20 Zitate gefunden haben, abbrechen
        if len(found_quotes) >= 5:
            break

    # Zur nächsten Seite wechseln
    page += 1

# Gefundene Zitate anzeigen
for quote in found_quotes:
    print(quote)
