# Grundlagen


In [3]:
# Importieren von BeautifulSoup und Requests
from bs4 import BeautifulSoup
import requests

In [4]:
# Laden eines HTML Dokuments vom Webserver 
request = requests.get("https://www.hszg.de/hochschule/aktuelles/neuigkeiten")
if request.status_code == 200:
    html = request.content
    print("HTML Dokument erfolgreich geladen.")
else: 
    print("Fehler beim laden der Website!")
    html = ""
print(f'Zeichenanzahl des HTML Dokuments: {len(html)}')

HTML Dokument erfolgreich geladen.
Zeichenanzahl des HTML Dokuments: 155060


In [7]:
# Laden des HTML Dokuments aus lokaler Resource
try:
    with open("../../website/index.html", "r", encoding="UTF-8") as file:
        html_local = file.read()
        print("HTML Dokument erfolgreich geladen.")
        print(f'Zeichenanzahl des HTML Dokuments: {len(html_local)}')
except FileNotFoundError:
    print("Datei nicht gefunden. Bitte den angegebenen Pfad überprüfen.")

HTML Dokument erfolgreich geladen.
Zeichenanzahl des HTML Dokuments: 7189


In [36]:
# BeautifulSoup instanziieren
soup = BeautifulSoup(html, "html.parser")

## Parser übersicht

<table style="float:left; font-size:1.1em" >
<thead>
  <tr>
    <th>Parser</th>
    <th>Nutzung</th>
    <th>Vorteile</th>
    <th>Nachteile</th>
  </tr>
</thead>
<tbody>
  <tr>
    <td>Python's html.parser</td>
    <td>BeautifulSoup(markup, "html.parser") oder per Default</td>
      <td><ul>
          <li>integriert in Python</li>
          <li>durchschnittliche Geschwindigkeit</li>
          <li>nachsichtig im Umgang mit unsauberem HTML</li>
          </ul></td>
    <td><ul>
          <li>langsamer als lxml</li>
          <li>nicht so nachsichtig wie html5lib</li>
          </ul>
    </td>
  </tr>
  <tr>
    <td>lxml's HTML parser</td>
    <td>BeautifulSoup(markup, "lxml")</td>
        <td><ul>
            <li>sehr schnell</li>
            <li>nachsichtig im Umgang mit unsauberem HTML</li>
    </ul></td>
        <td><ul>
            <li>externe C Bibliothek</li>
    </ul></td>
  </tr>
  <tr>
    <td>lxml's XML parser</td>
    <td>BeautifulSoup(markup, "lxml-xml")<br>
        BeautifulSoup(markup, "xml")
    </td>
    <td><ul>
            <li>sehr schnell</li>
            <li>einziger XML Parser</li>
    </ul></td>
        <td><ul>
            <li>externe C Bibliothek</li>
    </ul></td>
  </tr>
  <tr>
    <td>html5lib</td>
    <td>BeautifulSoup(markup, "html5lib")</td>
        <td><ul>
            <li>sehr nachsichtig im Umgang mit unsauberem HTML</li>
            <li>Verarbeitet HTML Seiten wie ein Webbrowser</li>
            <li>erstellt valides HTML5</li>
    </ul></td>
        <td><ul>
            <li>sehr langsam</li>
            <li>externe Python Bibliothek</li>
    </ul></td>
  </tr>
</tbody>
</table>

## Typen

**BeautifulSoup**
- Repräsentiert das komplette eingelesene HTML oder XML Dokument in dem gesucht, navigiert, extrahiert und modifiziert werden kann
**Tag**
- Repräsentiert das HTML oder XML Tag mit allen Attributen und der Position im DOM
- BeautifulSoup Objekt ebenfalls ein Tag jedoch ohne Attribute
**NavigableString**
- Repräsentiert den Text eines HTML oder XML Tags wobei er ebenfalls Methoden zum navigieren und Suchen bereitstellt
- So kann bspw. weiterhin zu Nachbar-, Kind- oder Elternelementen des NavigableString navigiert oder innerhalb des NavigableString gesucht werden


## Extrahieren

### Extrahieren von Text

In [43]:
markup = """<p>Beautiful Soup ist eine Python Bibliothek um Daten aus XML und HTML zu extrahieren.</p>
            <p>Sie ermöglicht aber auch das Durchsuchen, die Navigation und Modifikation des Dokuments.</p>"""
soup = BeautifulSoup(markup, "html.parser")

print(soup)
print(soup.text)
print(soup.string)

<p>Beautiful Soup ist eine Python Bibliothek um Daten aus XML und HTML zu extrahieren.</p>
<p>Sie ermöglicht aber auch das Durchsuchen, die Navigation und Modifikation des Dokuments.</p>
Beautiful Soup ist eine Python Bibliothek um Daten aus XML und HTML zu extrahieren.
Sie ermöglicht aber auch das Durchsuchen, die Navigation und Modifikation des Dokuments.
None


In [42]:
markup = "<p>Beautiful Soup ist eine Python Bibliothek um Daten aus XML und HTML zu extrahieren.</p>"
soup = BeautifulSoup(markup, "html.parser")

print(soup.text)
print(soup.string)

Beautiful Soup ist eine Python Bibliothek um Daten aus XML und HTML zu extrahieren.
Beautiful Soup ist eine Python Bibliothek um Daten aus XML und HTML zu extrahieren.


### Extrahieren von Attributen

In [19]:
markup = "<p class='text-bold' id='paragraph'>Beautiful Soup ist eine Python Bibliothek um Daten aus XML und HTML zu extrahieren.</p>"
soup = BeautifulSoup(markup, "html.parser")

print(soup.p['id'])
print(soup.p['class'])
print(soup.p.attrs)

paragraph
['text-bold']
{'class': ['text-bold'], 'id': 'paragraph'}
