# Teil XY: Webscraping
Mit `requests` k√∂nnen wir bereits auf Internetressourcen zugreifen, darunter APIs mit strukturierten Daten. Der Gro√üteil des Internets besteht allerdings aus Webseiten, die f√ºr Menschen und nicht Maschinen gemacht sind. Um sie in Python zu verarbeiten, ben√∂tigen wir neue Tools und ein Grundverst√§ndnis der zugrundeliegenden Technologie.

## X.0 Die Auszeichnungssprache HTML

Webseiten bestehen nicht nur aus Text - praktisch jede Seite besitzt √úberschriften, Bilder, Links und viele andere **Strukturelemente**. Die [Hypertext Markup Language (HTML)](https://de.wikipedia.org/wiki/Hypertext_Markup_Language) ist die Standardsprache, um diese Elemente zu definieren. Daf√ºr werden **Tags** genutzt, die entweder f√ºr sich stehen oder als eine Art Klammer vor und nach einen Text stehen.

Nebenbemerkung: Die **visuelle Darstellung** einer Webseite wird getrennt davon mit [Cascading Style Sheets (CSS)](https://de.wikipedia.org/wiki/Cascading_Style_Sheets) festgelegt, die uns gl√ºcklicherweise hier nicht interessieren.

### √úberschriften, Bl√∂cke, Abs√§tze, Links und Bilder

Die wichtigsten HTML-Elemente f√ºr unsere Zwecke sind:
- √úberschriften, markiert durch das Tag-Paar `<h1>` und `</h1>` bzw. `<h2>`, `<h3>`, `<h4>`, `<h5>` und `<h6>`.
- Bl√∂cke, markiert durch das Tag-Paar `<div>` und `</div>`.
- Abs√§tze, markiert durch das Tag-Paar `<p>` und `</p>`.
- Links, markiert durch das Tag-Paar `<a>` und `</a>`.
- Bilder, markiert durch den alleinstehenden Tag `<img>`.

Am Rande sei au√üerdem auf `<ul>`, `<ol>` und `<li>` f√ºr Listen verwiesen (s. https://www.w3schools.com/html/html_lists.asp).

### üß™Experiment: HTML ver√§ndern

Der folgende HTML-Code definiert eine einfache Webseite, die darunter abgebildet ist.

```html
<h3>Meine Webseite</h3>
<img src="https://cdn.pixabay.com/photo/2016/05/08/14/58/icon-1379228_1280.png" width="200em">
<div>
    <p>Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua.</p>
    <p>At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet.</p>
</div>
<h4>Was hei√üt das?</h4>
<div>
    <p>Vielleicht fragst du dich, was die einleitenden Abs√§tze bedeuten. Die Antwort ist: Nichts! Es handelt sich um <a href="https://de.wikipedia.org/wiki/Lorem_ipsum">Lorem Ipsum</a>, einen klassischen Platzhaltertext.</p>
</div>
```

Mit einem **Doppel-Klick auf das untenstehende Textfeld** kannst du den zugrundeliegenden HTML-Code einsehen und bearbeiten. √Ñndere ihn ein wenig ab und sie dir das Ergebnis an. Versuche, die **Reihenfolge der √úberschriften** zu √§ndern, **Tags** zu entfernen und einen **neuen Link** zu einer anderen Webseite einzuf√ºgen.

<h1>Meine Webseite</h1>
<img src="https://cdn.pixabay.com/photo/2016/05/08/14/58/icon-1379228_1280.png" width="200em">
<div>
    <p>Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua.</p>
    <p>At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet.</p>
</div>
<h2>Was hei√üt das?</h2>
<div>
    <p>Vielleicht fragst du dich, was die einleitenden Abs√§tze bedeuten. Die Antwort ist: Nichts! Es handelt sich um <a href="https://de.wikipedia.org/wiki/Lorem_ipsum">Lorem Ipsum</a>, einen klassischen Platzhaltertext.</p>
</div>

### Attribute

Im vorherigen Beispiel sind bereits zwei **Attribute** aufgetaucht: 
- `href`, um die Adresse eines Links zu definieren
- `src`, um den Speicherort einer Bilddatei zu benennen.

Ein Attribut steht innerhalb eines Tags direkt nach dem Elementnamen, getrennt durch ein Leerzeichen. Wie **Schl√ºsselwortparameter** in Python besteht das Attribut aus dem Namen des Attributs, einem `=` und dem Wert des Attributs:
```html
<ELEMENT ATTRIBUT=WERT>...</ELEMENT>
```

Ein Element kann auch mehrere Attribute besitzen, die mit Leerzeichen getrennt werden:
```html
<ELEMENT ATTRIBUT1=X ATTRIBUT2=Y ATTRIBUT3=Z>...</ELEMENT>
```

F√ºr unsere Zwecke sind zwei Attribute besonders wichtig: `class` und `id`. Eine Klasse ist meist mehreren Elementen zugeordnet, um die Elemente als zusammengeh√∂rig zu markieren. IDs  zeichnen hingegen ein bestimmtes Element aus.

### üß™Experiment: HTML-Klassen
F√ºge dem untenstehenden `<div>`-Tag das `class`-Attribut hinzu und setze seinen Wert auf einen beliebigen String. Setze ihn anschlie√üend auf "jp-Collapse-header". Hast du eine Vermutung, was passiert?

<div>
    Doppel-Klick hier!
</div>

### Zusammenfassung

F√ºr Webscraping mit Pyhton sollten wir folgende Dinge √ºber HTML wissen:
- Eine Webseite besteht aus **Elementen** wie √úberschriften, Bl√∂cken und Links.
- Diese Elemente werden mit **Tags** gekennzeichnet, z.B. `<p>...</p>`.
- Elemente k√∂nnen **Attribute** enthalten, z.B. `href` f√ºr Linkadressen.
- Elemente k√∂nnen **Klassen** und **IDs** besitzen, mit denen sie maschinell identifiziert werden k√∂nnen.

## 1. Webseiten finden

Im Verlauf dieses Kapitels werden wir einen Crawler entwickeln, der die Webseiten des LehrLernZentrums verarbeitet, um **alle Seminare f√ºr Studierende chronologisch aufzulisten**.

Der erste Schritt besteht darin, die Webseite mit Hinblick auf unser Ziel zu analysieren: https://www.hs-rm.de/lehrlernzentrum

### üõ†Ô∏è√úbung: Relevante Seiten finden
Durchsuche die Webseiten des LLZ. Welche Unterseite(n) sind vielversprechend, um die ben√∂tigten Informationen zu erhalten?

## 2. Webseiten untersuchen

Die meisten Webbrowser (Chrome, Firefox, etc.) stellen **Entwicklertools** zur Verf√ºgung, mit denen wir den HTML-Code einer Seite analysieren k√∂nnen. Meist reicht ein **Rechtsklick** und dann die Option **Untersuchen** bzw. **Inspect**. Es sollte sich dann eine Seitenleiste √∂ffnen, bei der ggf. noch der Tab **Elemente** oder **Inspektor** ausgew√§hlt werden muss.

In dieser Ansicht k√∂nnen wir uns den HTML-Code neben der gerenderten Webseite anschauen und so die Elemente identifizieren, die uns interessieren. Dabei ist es n√ºtzlich, besonders auf **Klassen**, **IDs** und **Element-Verschachtelungen** zu achten: Diese werden es uns sp√§ter erlauben, gezielt auf bestimmte Informationen zuzugreifen.

Wir schauen uns das zusammen an der LLZ-Webseite an: https://www.hs-rm.de/lehrlernzentrum

### üõ†Ô∏è√úbung: Elemente identifizieren
Nutze Entwicklertools, um die folgende Seite zu analysieren: https://www.hs-rm.de/lehrlernzentrum/fuer-studierende/studierende-angebote-von-a-bis-z  

Wie k√∂nnte es gelingen, genau die Links zu identifizieren, die auf Seminare verweisen?

## 3. Webseiten verarbeiten

Nachdem wir eine Webseite mit `requests` heruntergeladen haben, werden wir die Bibliothek [Beautiful Soup](https://beautiful-soup-4.readthedocs.io/en/latest/) bzw. `bs4` verwenden, um das HTML-Dokument zu **parsen**, d.h. anhand der Struktur die f√ºr uns relevanten Informationen zu extrahieren.

Der erste Schritt ist das Importieren der Bibliotheken (die leicht unterschiedliche Syntax h√§ngt mit der objektorientierten Natur von Beautiful Soup zusammen):

In [None]:
import requests
from bs4 import BeautifulSoup

### Einlesen

Wie zuvor laden wir die Webseite mit `requests` herunter und speichern sie als String ab.

In [None]:
page = requests.get('https://www.hs-rm.de/lehrlernzentrum/fuer-studierende/studierende-angebote-von-a-bis-z')

Mit dem `BeautifulSoup()`-Befehl k√∂nnen wir den HTML-String einlesen. Wir erhalten ein **Objekt**, das viele n√ºtzliche Methoden besitzt, um die Seite √ºbersichtlicher darzustellen und bestimmte Elemente zu finden.

In [None]:
soup = BeautifulSoup(page.content, 'html.parser')

Die `prettify()`-Methode stellt die Seite √§hnlich wie die Entwicklertools dar.

In [None]:
print(soup.prettify())

### Durchsuchen

*Beautiful Soup* stellt uns zwei intuitive, m√§chtige Suchfunktionen zur Verf√ºgung:
- `find` liefert das erste HTML-Element mit bestimmten Kriterien
- `find_all` liefert alle HTML-Elemente mit bestimmten Kriterien


Die **Suchkriterien** werden √ºber die **Funktionsparameter** bestimmt (wir beschr√§nken uns auf die drei grundlegenden, [es gibt aber noch mehr](https://beautiful-soup-4.readthedocs.io/en/latest/#kinds-of-filters):
```python
soup.find('TAG', ATTRIBUT='WERT', string='TEXT')
```
Wir gehen sie Schritt f√ºr Schritt an Beispielen durch.

In [19]:
# Finde den ersten <a>-Tag
soup.find('a')

<a class="u-skip-link btn btn--right-link" href="#content">
	Skip to Content
</a>

In [22]:
# Finde das erste Element mit der id 'c54658'
soup.find(id='c54658')

<div class="frame frame-default frame-type-textmedia frame-layout-0" data-element="textmedia" data-list-type="" id="c54658">
<div class="container">
<div class="c-textmedia c-textmedia--above c-textmedia--center">
<div class="c-textmedia__bodytext">
<header class="frame__header">
<h2 class="">
                Unsere Angebote von A bis Z im Wintersemester 2025/26
            </h2>
</header>
</div>
</div>
</div>
</div>

In [47]:
# Finde den ersten <h2>-Tag, in dem der String "LLZ" vorkommt
import re
soup.find('h2', string=re.compile('LLZ'))

<h2 class="c-mobile-navigation__list-title">Projekte am LLZ</h2>

### Auf Attribute zugreifen

# TODO

Sp√§ter: An LLZ-Webseite Seiten-Inspektor illustrieren, Schritt f√ºr Schritt Crawler entwickeln, der Kurse nach Datum auflistet.