# …von HTML-Seiten

In [1]:
import requests
    
url = 'https://de.wikipedia.org/wiki/Liste_der_Stra%C3%9Fen_und_Pl%C3%A4tze_in_Berlin-Mitte'

r = requests.get(url)

## BeautifulSoup

1. Installieren:

    ```
    $ pipenv install beautifulsoup4
    ```

2. Mit `r.content` können wir uns das HTML der Seite ausgeben lassen:

In [2]:
r.content

b'<!DOCTYPE html>\n<html class="client-nojs" lang="de" dir="ltr">\n<head>\n<meta charset="UTF-8"/>\n<title>Liste der Stra\xc3\x9fen und Pl\xc3\xa4tze in Berlin-Mitte \xe2\x80\x93 Wikipedia</title>\n<script>document.documentElement.className="client-js";RLCONF={"wgBreakFrames":!1,"wgSeparatorTransformTable":[",\\t.",".\\t,"],"wgDigitTransformTable":["",""],"wgDefaultDateFormat":"dmy","wgMonthNames":["","Januar","Februar","M\xc3\xa4rz","April","Mai","Juni","Juli","August","September","Oktober","November","Dezember"],"wgMonthNamesShort":["","Jan.","Feb.","M\xc3\xa4r.","Apr.","Mai","Jun.","Jul.","Aug.","Sep.","Okt.","Nov.","Dez."],"wgRequestId":"Xi4KrQpAIDAAADHWQfYAAAAF","wgCSPNonce":!1,"wgCanonicalNamespace":"","wgCanonicalSpecialPageName":!1,"wgNamespaceNumber":0,"wgPageName":"Liste_der_Stra\xc3\x9fen_und_Pl\xc3\xa4tze_in_Berlin-Mitte","wgTitle":"Liste der Stra\xc3\x9fen und Pl\xc3\xa4tze in Berlin-Mitte","wgCurRevisionId":195321606,"wgRevisionId":195321606,"wgArticleId":5730632,"wgIsArt

3. Als nächstes müssen wir diesen String mit BeautifulSoup  in eine Python-Darstellung der Seite zerlegen:

In [3]:
from bs4 import BeautifulSoup
soup = BeautifulSoup(r.content, 'html.parser')

4. Um den Code zu strukturieren, erstellen wir eine neue Funktion `get_dom` (**D**ocument **O**bject **M**odel), die den gesamten vorhergehenden Code einschließt:

In [4]:
def get_dom(url):
   r = request.get(url)
   r.raise_for_status()
   return BeautifulSoup(r.content, 'html.parser')

Das Herausfiltern einzelner Elemente kann z.B. über CSS-Selektoren erfolgen. Diese können in einer Website ermittelt werden, indem ihr z.B. in Firefox mit der rechten Maustaste auf eine der Tabellenzellen in der ersten Spalte der Tabelle klickt. Im sich nun öffnenden *Inspector* könnt ihr das Element erneut mit der rechten Maustaste anklicken und dann *Copy → CSS Selector* auswählen. In der Zwischenablage befindet sich dann z.B.
`table.wikitable:nth-child(13) > tbody:nth-child(2) > tr:nth-child(1)`. Diesen *CSS-Selector* bereinigen wir nun, da wir weder nach dem 13. Kindelement der Tabelle `table.wikitable` noch dem 2. Kindelement in `tbody` filtern wollen sondern nur nach der 1. Spalte innerhalb von `tbody`.

Schließlich lassen wir uns mit `limit=3` in diesem Notebook exemplarisch nur die ersten drei Ergebnisse anzeigen:

In [5]:
links = soup.select('table.wikitable > tbody > tr > td:nth-child(1) > a', limit=3)
print(links)

[<a href="/wiki/Ackerstra%C3%9Fe" title="Ackerstraße">Ackerstraße</a>, <a href="/wiki/Alexanderplatz" title="Alexanderplatz">Alexanderplatz</a>, <a href="/wiki/Almstadtstra%C3%9Fe" title="Almstadtstraße">Almstadtstraße</a>]


Wir wollen jedoch nicht den gesamten HTML-Link, sondern nur dessen Textinnhalt:

In [6]:
for content in links:
    print(content.text)

Ackerstraße
Alexanderplatz
Almstadtstraße


## Siehe auch:

* [Beautiful Soup Documentation](https://www.crummy.com/software/BeautifulSoup/bs4/doc/)