# Teil 15 (Exkurs): Die Auszeichnungssprache HTML
Webseiten bestehen nicht nur aus Text - praktisch jede Seite besitzt √úberschriften, Bilder, Links und viele andere **Strukturelemente**. Die [Hypertext Markup Language (HTML)](https://de.wikipedia.org/wiki/Hypertext_Markup_Language) ist die Standardsprache, um diese Elemente zu definieren. Daf√ºr werden **Tags** genutzt, die entweder f√ºr sich stehen oder als eine Art Klammer vor und nach einen Text stehen.

Nebenbemerkung: Die **visuelle Darstellung** einer Webseite wird getrennt davon mit [Cascading Style Sheets (CSS)](https://de.wikipedia.org/wiki/Cascading_Style_Sheets) festgelegt, die uns gl√ºcklicherweise hier nicht interessieren.

## √úberschriften, Bl√∂cke, Abs√§tze, Links und Bilder

Die wichtigsten HTML-Elemente f√ºr unsere Zwecke sind:
- √úberschriften, markiert durch das Tag-Paar `<h1>` und `</h1>` bzw. `<h2>`, `<h3>`, `<h4>`, `<h5>` und `<h6>`.
- Bl√∂cke, markiert durch das Tag-Paar `<div>` und `</div>`.
- Abs√§tze, markiert durch das Tag-Paar `<p>` und `</p>`.
- Links, markiert durch das Tag-Paar `<a>` und `</a>`.
- Bilder, markiert durch den alleinstehenden Tag `<img>`.

Am Rande sei au√üerdem auf `<ul>`, `<ol>` und `<li>` f√ºr Listen verwiesen (s. https://www.w3schools.com/html/html_lists.asp).

### üß™Experiment: HTML ver√§ndern

Der folgende HTML-Code definiert eine einfache Webseite, die darunter abgebildet ist.

```html
<h3>Meine Webseite</h3>
<img src="https://cdn.pixabay.com/photo/2016/05/08/14/58/icon-1379228_1280.png" width="200em">
<div>
    <p>Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua.</p>
    <p>At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet.</p>
</div>
<h4>Was hei√üt das?</h4>
<div>
    <p>Vielleicht fragst du dich, was die einleitenden Abs√§tze bedeuten. Die Antwort ist: Nichts! Es handelt sich um <a href="https://de.wikipedia.org/wiki/Lorem_ipsum">Lorem Ipsum</a>, einen klassischen Platzhaltertext.</p>
</div>
```

Mit einem **Doppel-Klick auf das untenstehende Textfeld** kannst du den zugrundeliegenden HTML-Code einsehen und bearbeiten. √Ñndere ihn ein wenig ab und sie dir das Ergebnis an. Versuche, die **Reihenfolge der √úberschriften** zu √§ndern, **Tags** zu entfernen und einen **neuen Link** zu einer anderen Webseite einzuf√ºgen.

<h1>Meine Webseite</h1>
<img src="https://cdn.pixabay.com/photo/2016/05/08/14/58/icon-1379228_1280.png" width="200em">
<div>
    <p>Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua.</p>
    <p>At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet.</p>
</div>
<h2>Was hei√üt das?</h2>
<div>
    <p>Vielleicht fragst du dich, was die einleitenden Abs√§tze bedeuten. Die Antwort ist: Nichts! Es handelt sich um <a href="https://de.wikipedia.org/wiki/Lorem_ipsum">Lorem Ipsum</a>, einen klassischen Platzhaltertext.</p>
</div>

## Attribute

Im vorherigen Beispiel sind bereits zwei **Attribute** aufgetaucht: 
- `href`, um die Adresse eines Links zu definieren
- `src`, um den Speicherort einer Bilddatei zu benennen.

Ein Attribut steht innerhalb eines Tags direkt nach dem Elementnamen, getrennt durch ein Leerzeichen. Wie **Schl√ºsselwortparameter** in Python besteht das Attribut aus dem Namen des Attributs, einem `=` und dem Wert des Attributs:
```html
<ELEMENT ATTRIBUT=WERT>...</ELEMENT>
```

Ein Element kann auch mehrere Attribute besitzen, die mit Leerzeichen getrennt werden:
```html
<ELEMENT ATTRIBUT1=X ATTRIBUT2=Y ATTRIBUT3=Z>...</ELEMENT>
```

F√ºr unsere Zwecke sind zwei Attribute besonders wichtig: `class` und `id`. Eine Klasse ist meist mehreren Elementen zugeordnet, um die Elemente als zusammengeh√∂rig zu markieren. IDs  zeichnen hingegen ein bestimmtes Element aus.

### üß™Experiment: HTML-Klassen
F√ºge dem untenstehenden `<div>`-Tag das `class`-Attribut hinzu und setze seinen Wert auf einen beliebigen String. Setze ihn anschlie√üend auf "jp-Collapse-header". Hast du eine Vermutung, was passiert?

<div>
    Doppel-Klick hier!
</div>

## Zusammenfassung

F√ºr Webscraping mit Pyhton sollten wir folgende Dinge √ºber HTML wissen:
- Eine Webseite besteht aus **Elementen** wie √úberschriften, Bl√∂cken und Links.
- Diese Elemente werden mit **Tags** gekennzeichnet, z.B. `<p>...</p>`.
- Elemente k√∂nnen **Attribute** enthalten, z.B. `href` f√ºr Linkadressen.
- Elemente k√∂nnen **Klassen** und **IDs** besitzen, mit denen sie maschinell identifiziert werden k√∂nnen.