# Was ist Beautiful Soup?

BeautifulSoup ist ein Python-Paket, das entwickelt wurde, um das Parsen (Analysieren) und Navigieren von HTML- und XML-Dokumenten zu erleichtern. Sie ermöglicht es, Webdaten einfach zu extrahieren und zu verarbeiten. BeautifulSoup arbeitet gut in Kombination mit der `requests`-Bibliothek, um Webseiten abzurufen und zu analysieren.

---
# Wie arbeitet BeautifulSoup?

BeautifulSoup ermöglicht es, HTML- oder XML-Dokumente in ein Baumdiagramm zu konvertieren, das leicht navigierbar und manipulierbar ist. Es extrahiert Daten, indem es Tags, Attribute oder den Textinhalt durchsucht und verarbeitet.

Ein typisches Web-Scraping-Szenario besteht aus den folgenden Schritten:

- HTTP-Anfrage senden: Die Webseite wird geladen, um den HTML-Quellcode zu erhalten.
- HTML-Dokument parsen: Das HTML-Dokument wird mit BeautifulSoup in einen Baum umgewandelt.
- Daten extrahieren: Bestimmte Tags, Klassen oder IDs werden durchsucht, um die benötigten Daten zu extrahieren.

https://datascientest.com/de/beautiful-soup-einfuehrung-in-web-scraping-mit-python

# Vorteile

- Einfach zu verwenden: Die API ist einfach zu erlernen und zu verstehen.
- Flexibilität: BeautifulSoup kann mit verschiedenen Parsern wie html.parser, lxml oder html5lib verwendet werden.
- Leistungsfähig: Es ermöglicht den Zugriff auf HTML-Elemente und Attribute und bietet verschiedene Methoden, um den HTML-Baum zu navigieren und zu durchsuchen.

---
# Beautiful Soup verwenden

**zunächst installieren:**

```bash
pip install beautifulsoup4 requests
```

<br><br>

**Entwicklertools öffnen**, z.B. auf Firefox:

Rechtsklicke irgendwo auf der Webseite und wähle im Kontextmenü „Seitenquelltext anzeigen“ aus. Dadurch wird der HTML-Code der Seite in einem neuen Tab geöffnet.

## Erste Schritte

In [2]:
# Bibliotheken importieren
import requests
from bs4 import BeautifulSoup

# Eine einfache Webseite abrufen
url = 'https://example.com'
response = requests.get(url)

# HTML der Webseite parsen
soup = BeautifulSoup(response.text, 'html.parser')

# Die ersten 100 Zeichen des HTML anzeigen
print(soup.prettify()[:100])

# Titel der Webseite extrahieren
title = soup.title.string
print(f"Der Titel der Webseite lautet: {title}")

<!DOCTYPE html>
<html>
 <head>
  <title>
   Example Domain
  </title>
  <meta charset="utf-8"/>
  <m
Der Titel der Webseite lautet: Example Domain


<br>


**Erklärung der Befehle:**

- requests.get(url): &nbsp;&nbsp; Diese Funktion sendet eine HTTP-Anfrage an die angegebene URL und gibt die Antwort zurück.
- BeautifulSoup(response.text, 'html.parser'): &nbsp;&nbsp; Diese Funktion analysiert das HTML-Dokument und erstellt eine BeautifulSoup-Objektstruktur.
- soup.prettify(): &nbsp;&nbsp;Gibt den geparsten HTML-Code in einer gut formatierten Weise zurück.
- soup.title.string: &nbsp;&nbsp;Extrahiert den Titel der Webseite aus dem title-Tag.



## im DOM-Baum navigieren und HTML-Elemente extrahieren


In [3]:
# Beispiel: Alle Links auf der Webseite extrahieren
links = soup.find_all('a')  # Alle <a>-Tags finden
for link in links:
    print(link.get('href'))

https://www.iana.org/domains/example


<br>

**Erklärung der Befehle:**

- soup.find_all('a'): Findet alle Tags, die den Tag-Namen `<a>` haben, was typischerweise Links auf einer Webseite sind.
- link.get('href'): Extrahiert den href-Attributwert (die URL) eines Links.

## Komplexe Suchfunktionen und Attribute filtern

In [4]:
# Beispiel: Ersten Absatz der Webseite extrahieren
first_paragraph = soup.find('p').text  # Ersten <p>-Tag finden und Text extrahieren
print(first_paragraph)


This domain is for use in illustrative examples in documents. You may use this
    domain in literature without prior coordination or asking for permission.


<br>

**Erklärung der Befehle:**

- soup.find('p'): Findet den ersten $<p>-Tag$ (Absatz).
- .text: Extrahiert den Textinhalt des gefundenen Tags.

Suche nach dem Wort "domain" in dem Text first_paragraph:

In [5]:

# Suche nach dem Wort "domain"
word_to_search = "domain"

# Anzahl der Vorkommen des Wortes "domain"
occurrences = first_paragraph.lower().count(word_to_search)

print(f'Das Wort "{word_to_search}" kommt {occurrences} Mal im Absatz vor.')

# Position(en) des Wortes "domain" im Text finden
start_pos = 0
while True:
    start_pos = first_paragraph.lower().find(word_to_search, start_pos)
    if start_pos == -1:
        break
    print(f'Das Wort "{word_to_search}" wurde an der Position {start_pos} gefunden.')
    start_pos += len(word_to_search)  # Startet die Suche nach dem nächsten Vorkommen

Das Wort "domain" kommt 2 Mal im Absatz vor.
Das Wort "domain" wurde an der Position 5 gefunden.
Das Wort "domain" wurde an der Position 83 gefunden.


In [4]:
# Beispiel: Alle Links mit dem Attribut class="external" extrahieren
external_links = soup.find_all('a', class_='external')
for link in external_links:
    print(link.get('href'))


<br>

**Erklärung der Befehle:**

- soup.find_all('a', class_='external'): Sucht alle <a>-Tags, die das Attribut class="external" haben.
- class_='external': In BeautifulSoup wird class_ mit einem Unterstrich verwendet, weil class in Python ein reserviertes Schlüsselwort ist.

In [5]:
# Das <style>-Tag extrahieren
style_tag = soup.find('style')

# Das type-Attribut extrahieren
style_type = style_tag.get('type')
print(f"Type Attribut des <style>-Tags: {style_type}")

# Den CSS-Inhalt extrahieren
style_content = style_tag.string
print(f"\nCSS Inhalt im <style>-Tag:\n{style_content}")

Type Attribut des <style>-Tags: text/css

CSS Inhalt im <style>-Tag:

    body {
        background-color: #f0f0f2;
        margin: 0;
        padding: 0;
        font-family: -apple-system, system-ui, BlinkMacSystemFont, "Segoe UI", "Open Sans", "Helvetica Neue", Helvetica, Arial, sans-serif;
        
    }
    div {
        width: 600px;
        margin: 5em auto;
        padding: 2em;
        background-color: #fdfdff;
        border-radius: 0.5em;
        box-shadow: 2px 3px 7px 2px rgba(0,0,0,0.02);
    }
    a:link, a:visited {
        color: #38488f;
        text-decoration: none;
    }
    @media (max-width: 700px) {
        div {
            margin: 0 auto;
            width: auto;
        }
    }
    


<br>

**Erklärung der Befehle:**
- find() sucht nach dem $<style>-Tag$.
- get('type') extrahiert das type-Attribut des $<style>-Tags.$
- string gibt den CSS-Code als String aus.

# Beispiele


In [6]:
# Beispiel 1:  Web-Seite analysieren

# Import der benötigten Bibliotheken
import requests
from bs4 import BeautifulSoup

# Schritt 1: HTTP-Anfrage an die Webseite senden
url = "https://example.com"
response = requests.get(url)

# Schritt 2: HTML-Dokument mit BeautifulSoup parsen
soup = BeautifulSoup(response.content, 'lxml')

# Schritt 3: Daten extrahieren - Beispiel: Alle Links finden
links = soup.find_all('a')

# Ausgabe der Links
for link in links:
    print(link.get('href'))


https://www.iana.org/domains/example


In [7]:
# Beispiel 2: Extraktion von Tabellem:

# HTML-Beispiel mit einer Tabelle
html_doc = """
<table>
    <tr><th>Name</th><th>Alter</th></tr>
    <tr><td>Max</td><td>30</td></tr>
    <tr><td>Anna</td><td>25</td></tr>
</table>
"""

# HTML parsen
soup = BeautifulSoup(html_doc, 'lxml')

# Tabelle finden
table = soup.find('table')

# Alle Zeilen extrahieren
rows = table.find_all('tr')

# Daten aus den Zeilen extrahieren
for row in rows:
    cols = row.find_all('td')
    cols = [ele.text for ele in cols]
    print(cols)


[]
['Max', '30']
['Anna', '25']


In [None]:
# Beispiel 3: Links extrahieren

import requests
from bs4 import BeautifulSoup

# Schritt 1: Webseite abrufen (z.B. Wikipedia Startseite)
url = 'https://en.wikipedia.org/wiki/Web_scraping'
response = requests.get(url)

# Schritt 2: HTML der Webseite parsen
soup = BeautifulSoup(response.text, 'html.parser')

# Den Titel der Seite extrahieren
title = soup.title.string
print(f"Seitentitel: {title}")

# Alle Links auf der Seite extrahieren
links = soup.find_all('a')
print("\nAlle Links auf der Seite:")
for link in links:
    href = link.get('href')
    if href:  # nur Links mit einer URL
        print(href)


Erklärung:

- soup.title.string extrahiert den Titel der Webseite.
- soup.find_all('a') sucht nach allen Links (`<a>`-Tags) auf der Seite und gibt die href-Attribute (URLs) aus.

---
# Diskussionen
## weitere Python-Bibliotheken, die nützlich für Web Scraping sind

1. **Selenium**:
   - Selenium ist ein Tool, das verwendet wird, um Webbrowser zu automatisieren. Es eignet sich besonders für dynamische Webseiten, die Inhalte durch JavaScript laden.
   - Es kann mit verschiedenen Browsern wie Chrome oder Firefox verwendet werden.
   - Selenium ermöglicht Interaktionen mit Webseiten, wie das Ausfüllen von Formularen, Klicken auf Buttons oder das Scrollen der Seite.

<br>

2. **Scrapy**:
   - Scrapy ist ein leistungsstarkes Web-Scraping-Framework, das für große Scraping-Projekte gut geeignet ist.
   - Es unterstützt automatisierte Anfragen an Webseiten, folgt Links und kann Daten durch Pipelines weiterverarbeiten.
   - Scrapy ist besonders effizient, da es asynchrone Anfragen unterstützt, was das Scraping von großen Mengen an Daten beschleunigt.

<br>

3. **Requests-HTML**:
   - Requests-HTML ist eine benutzerfreundliche Bibliothek, die HTML-Dokumente einfach parsen und Inhalte extrahieren kann.
   - Sie ermöglicht das Scraping von JavaScript-basierten Inhalten durch eine einfache API.
   - Man kann DOM-Elemente ähnlich wie bei Beautiful Soup selektieren und durchsuchen.

<br>

4. **LXML**:
   - LXML ist eine schnelle Bibliothek zum Parsen und Manipulieren von XML und HTML.
   - Sie kombiniert die Geschwindigkeit des libxml2-Parsers mit der Einfachheit von Beautiful Soup und bietet XPath-Unterstützung für fortgeschrittene Queries.

<br>

5. **Pyppeteer**:
   - Pyppeteer ist eine Python-Portierung von Puppeteer, einer Node.js-Bibliothek zur Steuerung von Chrome oder Chromium über das DevTools-Protokoll.
   - Es ist besonders nützlich für das Scraping von Webseiten, die stark auf JavaScript setzen.
   - Pyppeteer kann dynamische Inhalte verarbeiten und bietet volle Browser-Funktionalität.

<br>

6. **MechanicalSoup**:
   - MechanicalSoup ist eine leichte Bibliothek, die auf Beautiful Soup und Requests aufbaut und es ermöglicht, Webseiten zu durchsuchen und Formulare auszufüllen.
   - Sie eignet sich gut für einfache Interaktionen mit Webseiten und unterstützt Session-Handling.

<br>
Diese Bibliotheken decken ein breites Spektrum an Web-Scraping-Szenarien ab, von einfachen statischen Seiten bis hin zu komplexen, JavaScript-gesteuerten Webseiten.

---
## Welche rechtlichen und ethischen Überlegungen gibt es beim Scraping von Webseiten?

### Rechtliche Überlegungen

1. **Nutzungsbedingungen der Website (Terms of Service)**:
   - Viele Webseiten haben in ihren Nutzungsbedingungen klare Richtlinien zum Scraping. Es kann ausdrücklich verboten sein, Inhalte ohne Erlaubnis automatisiert zu extrahieren.
   - Verstöße gegen die Nutzungsbedingungen können zivilrechtliche Konsequenzen nach sich ziehen. Auch wenn das Ignorieren von Nutzungsbedingungen oft nicht strafrechtlich verfolgt wird, kann es dennoch rechtliche Schritte wie Abmahnungen oder Klagen zur Folge haben.

<br>

2. **Urheberrecht**:
   - Inhalte auf Webseiten, wie Texte, Bilder oder Videos, sind oft urheberrechtlich geschützt. Das Scraping und Wiederveröffentlichen von urheberrechtlich geschützten Inhalten ohne Erlaubnis kann eine Verletzung darstellen.
   - Es ist wichtig sicherzustellen, dass die gescrapten Daten entweder gemeinfrei (public domain) sind oder mit der ausdrücklichen Zustimmung des Rechteinhabers verwendet werden.

<br>

3. **Datenschutz (GDPR, CCPA)**:
   - Scraping von personenbezogenen Daten unterliegt strengen Datenschutzgesetzen wie der Datenschutz-Grundverordnung (GDPR) in der EU oder dem California Consumer Privacy Act (CCPA) in den USA.
   - Das Sammeln von personenbezogenen Informationen ohne die Zustimmung der betroffenen Personen kann gegen diese Gesetze verstoßen und empfindliche Geldstrafen nach sich ziehen.

<br>

4. **Robots.txt**:
   - Viele Webseiten enthalten eine `robots.txt`-Datei, die angibt, welche Bereiche der Seite von Crawlern indexiert werden dürfen. Auch wenn `robots.txt` technisch nicht durchsetzbar ist, signalisiert es den Wunsch des Website-Betreibers, dass bestimmte Inhalte nicht gecrawlt oder gescraped werden sollten.
   - Das Ignorieren von `robots.txt` könnte als missbräuchliches Verhalten ausgelegt werden und rechtliche Folgen haben.

<br>

5. **Computer Fraud and Abuse Act (CFAA)**:
   - In den USA verbietet das CFAA das unautorisierte Zugreifen auf Computersysteme. Dies kann beim Scraping problematisch werden, wenn Webseiten so gestaltet sind, dass das Scraping als „unauthorisierter Zugriff“ interpretiert werden kann.
   - Ähnliche Gesetze existieren in anderen Ländern, die den unbefugten Zugang zu Computernetzwerken und Daten regulieren.

---
### Ethische Überlegungen

1. **Serverbelastung und Ressourcenverbrauch**:
   - Web Scraping kann, wenn es in großem Umfang und ohne Rücksicht auf die Zielserver durchgeführt wird, den Server stark belasten und die Leistung der Website beeinträchtigen.
   - Eine ethische Vorgehensweise ist, Anfragen langsam und kontrolliert zu senden, z. B. durch „Rate Limiting“, um die Belastung der Website zu minimieren.

<br>

2. **Einwilligung und Transparenz**:
   - Auch wenn das Scraping technisch möglich ist, kann es ethisch problematisch sein, wenn die Website-Betreiber dem nicht zugestimmt haben. Eine vorherige Anfrage oder Erlaubnis zeigt Respekt gegenüber den Inhalten und den Betreibern.
   - Transparenz darüber, wie und warum die Daten gesammelt werden, ist ebenfalls ein ethischer Faktor. Besonders bei öffentlich zugänglichen Daten sollte klar kommuniziert werden, wofür die gescrapten Daten genutzt werden.

<br>

3. **Verwendung der Daten**:
   - Die Nutzung gescrapter Daten für schädliche Zwecke, wie Spam, Betrug, oder um sensible Informationen offenzulegen, ist sowohl rechtlich als auch ethisch fragwürdig.
   - Eine verantwortungsvolle Nutzung der Daten bedeutet, dass sie in einer Weise verwendet werden, die weder den Eigentümern der Daten noch den betroffenen Personen Schaden zufügt.

<br>

4. **Privatsphäre der Nutzer**:
   - Besonders wenn personenbezogene Daten gescraped werden, sollte die Privatsphäre der betroffenen Nutzer respektiert werden. Dies umfasst den verantwortungsvollen Umgang mit Daten und die Minimierung von potenziellen Risiken durch Datenlecks oder Missbrauch.



Während Web Scraping ein mächtiges Werkzeug zur Datenerfassung ist, muss es verantwortungsvoll genutzt werden. Die Beachtung von rechtlichen Rahmenbedingungen, den Interessen der Webseitenbetreiber und der ethischen Implikationen ist entscheidend, um rechtliche Auseinandersetzungen und ethische Verstöße zu vermeiden.