# 2. HTML-Code verarbeiten mit der BeautifulSoup-Bibliothek

Wie bereits erwähnt, besteht Webscraping im Wesentlichen aus zwei Schritten:
1. Webseite aufrufen und den HTML-Code der Seite herunterladen
2. gesuchte Informationen aus dem HTML-Code auslesen.

Für den zweiten Schritt wird in Python häufig die [*BeautifulSoup*](https://www.crummy.com/software/BeautifulSoup/bs4/doc/)-Bibliothek verwendet. Mit *BeautifulSoup* wird [HTML](https://de.wikipedia.org/wiki/Hypertext_Markup_Language)-Code (der Quellcode der jeweiligen Webseite) in Objekte umgewandelt, die es erlauben, durch diesen Code zu navigieren, in diesem Code nach spezifischen Inhalten zu suchen und diese Inhalte zu extrahieren. Diesen Prozess, bei dem der Quellcode in seine strukturellen Einzelteile zerlegt und analysiert wird, nennt man auch [*Parsen*](https://de.wikipedia.org/wiki/Parser).

## Installieren und importieren der *BeautifulSoup*-Bibliothek

Die Python-Bibliothek *BeautifulSoup* muss vor der ersten Verwendung installiert werden. Die Installation geht folgendermaßen:

In [1]:
! python -m pip install bs4



Mit `! python -m pip install --upgrade bs4` ist es möglich, die *BeautifulSoup*-Bibliothek zu aktualisieren.<br>
Beide Codezeilen setzen voraus, dass das sowohl Python als auch das Paketverwaltungsprogramm *pip* installiert sind. Beides kann wie folgt überprüft werden:

In [2]:
! python --version
! python -m pip --version

Python 3.8.8
pip 21.0.1 from C:\ProgramData\Anaconda3\lib\site-packages\pip (python 3.8)



Da *BeautifulSoup* eine Bibliothek ist und nicht zu den Kernbefehlen von Python gehört, muss sie erst *importiert* werden, bevor man sie verwenden kann:

In [1]:
from bs4 import BeautifulSoup

Im vorherigen Notebook haben wir mit Hilfe der *requests*-Bibliothek den HTML-Quellcode der Hamburg-Seite der deutschen Wikipedia aus dem Internet geladen und in die Variable *html* gespeichert. Diese Variable haben wir dann mit Hilfe eines [*magic commands*](https://ipython.readthedocs.io/en/stable/interactive/magics.html) in die programmeigene IPython-Datenbank gespeichert, damit die Variable über verschiedene Notebooks hinweg verfügbar ist.<br>
Mit folgendem *magic command* können wir die Variable wieder für dieses Notebook aus der IPython-Datenbank abrufen:

In [3]:
%store -r html

## HTML-Quellcode der Webseite an BeautifulSoup übergeben

Diese Variable wird nun als Input an *BeautifulSoup* übergeben und von *BeautifulSoup* in ein *BeautifulSoup*-Objekt umgewandelt. Dieses *BeautifulSoup*-Objekt wird dann der Variable *bs* zugewiesen:

In [4]:
bs = BeautifulSoup(html)

In [5]:
print(type(bs)) # Abfrage: Was für einen Datentyp liefert uns BeautifulSoup eigentlich? Was befindet sich in bs? Antwort: ein BeautifulSoup-Objekt! 

<class 'bs4.BeautifulSoup'>


Mit Hilfe des *BeautifulSoup*-Objekts ist es nun möglich, die gesuchten Informationen aus dem HTML-Code (bzw. der HTML-Suppe, deshalb der Name *BeautifulSoup*) zu extrahieren. Um dieses Vorgehen zu verstehen, ist es hilfreich, rudimentäre Kenntnisse von HTML und [CSS](https://de.wikipedia.org/wiki/Cascading_Style_Sheets) zu haben.

## Aufbau von HTML

HTML ist der Standard zur Erstellung von Webseiten. Immer wenn man im Internet eine Webseite aufruft, interpretiert der Webbrowser den "dahinterliegenden" HTML-Quellcode und stellt die Webseite entsprechend dar.<br>
Während HTML die *Struktur* einer Webseite definiert (HTML ist eine [Auszeichnungssprache](https://de.wikipedia.org/wiki/Auszeichnungssprache)), wird mit CSS die *Gestaltung* der Webseite festgelegt (CSS ist eine [Stylesheetsprache](https://de.wikipedia.org/wiki/Stylesheet-Sprache)). Tutorials zu HTML und CSS findet man zahlreich im Netz, wie etwa diese hier:
+ [knappes HTML-Tutorial](https://htmldog.com/guides/html/) oder [ausführlicheres HTML-Tutorial](https://www.w3schools.com/html/default.asp)
+ [knappes CSS-Tutorial](https://htmldog.com/guides/css/) oder [ausführlicheres CSS-Tutorial](https://www.w3schools.com/css/default.asp)

<div class="alert alert-block alert-info">
<b>Tipp:</b> Im Webbrowser kann man sich den HTLM-Quellcode jeder Webseite folgendermaßen anzeigen lassen:
<ol>
  <li>Rechtsklick in einen freien Bereich der jeweiligen Webseite</li>
  <li>"Seitenquelltext anzeigen" (oder ähnliches - je nach Browser) aus dem Kontextmenü auswählen.</li>
</ol>
</div>

HTML beschreibt die Struktur einer Webseite mit Hilfe sog. [*HTML-Elemente*](https://en.wikipedia.org/wiki/HTML_element). Diese Elemente bestehen in der Regel aus einem *Start-Tag*, einem *Inhalt* und einem *End-Tag*. Innerhalb des Start-Tags können darüber hinaus [*Attribute*](https://de.wikipedia.org/wiki/Attribut_(Auszeichnungssprache) über Attributname und Attributwert angegeben werden, die Eigenschaften des HTML-Elements beschreiben. Ein HTML-Element hat somit folgende Komponenten:

![HTML-Element](https://wikimedia.org/api/rest_v1/media/math/render/svg/37506127f0730d9b6035530f46c706af4e2319d4)

Beispiele für HTML-Elemente:

```html
<h1>Dies ist eine große Überschrift</h1>
<h3>Dies ist eine kleinere Überschrift</h3>
<p>Dies ist ein Absatz</p>
<div>Dies ist eine Untergliederung</div>
<a href="https://www.wiso.uni-hamburg.de/fachbereich-sozoek.html">Das ist ein Link</a> 
```

<h1>Dies ist eine große Überschrift</h1>
<h3>Dies ist eine kleinere Überschrift</h3>
<p>Dies ist ein Absatz</p>
<div>Dies ist eine Untergliederung</div>
<a href="https://www.wiso.uni-hamburg.de/fachbereich-sozoek.html">Das ist ein Link</a> 

Eine Liste aller HTML-Tags findet sich [hier](https://www.w3schools.com/TAGS/default.ASP).
Ein für das Webscraping wichtiges Tag ist *div*. Dieses Tag wird meist zur Gestaltung bestimmter Teile einer Webseite verwendet, indem diese Teile über die Attribute *id* oder *class* mit CSS-Gestaltungsangaben verküpft werden:

```css
.center {
  text-align: center;
  color: red;
}
```
```html
<div class="center">Dieser Teil ist über das Attribut class="center" gestaltet.</div> 
```

## Informationen aus HTML-Quellcode auslesen

Mit *BeautifulSoup* kann man nun Inhalte aus dem HTML-Quellcode extrahieren. Hierbei macht man es sich zu nutze, dass HTML-Quellcode üblicherweise eine gewisse Struktur aufweist. Gleichartige Informationen sind meist in gleichen HTML-Elementen zu finden oder sind über entsprechende CSS-Definitionen gleich gestaltet. Aus diesem Grund werden HTML-Dateien auch als [semi-strukturierte Daten](https://de.wikipedia.org/wiki/Semistrukturierte_Daten) bezeichnet. Diese Struktur- bzw. Gestaltungsinformationen kann man beim Webscraping nutzen, indem man die Informationen in genau diesen Elementen extrahiert.

<div class="alert alert-block alert-info">
<b>Tipp:</b> Wenn man die HTML-Elemente oder CSS-Definitionen im Quellcode identifizieren möchte, welche die Informationen beinhalten, die wir extrahieren möchten, ist der <i>Element-Inspektor</i> aus den <a href="https://www.youtube.com/watch?v=WUArM-7NFIo">Entwickler-Tools</a> des jeweiligen Browsers hilfreich.
</div>

Dazu bietet *BeautifulSoup* unter anderem die Funktionen `find()` und `find_all()` an. In den Klammern gibt man z.B. HTML-Tags, Text, Attribute oder CSS-Selektoren an, die man extrahieren möchte. `find()` liefert nur die *erste* Instanz im Quellcode. `find_all()` liefert eine Liste aller Übereinstimmungen.<br>

### Anwendungsbeispiel

Im Wikipedia-Beispiel gibt es nur ein *h1*-Tag, das die Hauptüberschrift der Webseite beeinhaltet. Somit ist die Funktion `find()` ausreichend, um diese Information aus dem Quellcode zu extrahieren. Die Funktion `find()` muss auf die Variable *bs* angewendet werden, die das *BeautifulSoup*-Objekt beinhaltet. Um das h1-Tag zu suchen und zu extrahieren, muss "h1" in der Funktion `find()` als Argument angegeben werden. Das Ergebnis wird in die Variable *h1_tag* gespeichert.

In [6]:
h1_tag = bs.find("h1")

Die Inhalte der Variable *h1_tag* bzw. Teile davon können dann über die Funktion `print()` ausgegeben werden:

In [7]:
print(h1_tag) # vollständiges HTML-Element ausgeben
print(type(h1_tag)) # Datentyp: BeautifulSoup-Tag-Objekt
print(100*'-')
print(h1_tag.attrs) # Tag-Attribute ausgeben
print(type(h1_tag.attrs)) # Datentyp: Python dictionary
print(100*'-')
print(h1_tag.string) # Element-Text ausgeben
print(type(h1_tag.string)) # Datentyp: BeautifulSoup-NavigableString-Objekt und kein normaler String!

<h1 class="firstHeading mw-first-heading" id="firstHeading">Hamburg</h1>
<class 'bs4.element.Tag'>
----------------------------------------------------------------------------------------------------
{'id': 'firstHeading', 'class': ['firstHeading', 'mw-first-heading']}
<class 'dict'>
----------------------------------------------------------------------------------------------------
Hamburg
<class 'bs4.element.NavigableString'>


Benötigt man den Element-Text für die Weiterverarbeitung als normalen String, kann der Text mit der Funktion `get_text()` aus dem HTML-Element extrahiert werden:

In [8]:
h1_tag_str = h1_tag.get_text()
print(h1_tag_str)
print(type(h1_tag_str)) # Datentyp: string

Hamburg
<class 'str'>


Möchte man alle HTML-Tags der gleichen Art extrahieren, muss die Funktion `find_all()` verwendet werden. Im Folgenden werden alle h2-Tags extrahiert.

In [9]:
h2_tag = bs.find_all("h2")

Da es nun mehrere Inhalte gibt, legt *BeautifulSoup* eine [Liste](https://www.w3schools.com/python/python_lists.asp) an. Eine Liste ist eine Art Datencontainer, der mehrere Elemente in einer festgelegten Reihenfolge beinhaltet.

In [10]:
print(h2_tag)

[<h2 id="mw-toc-heading">Inhaltsverzeichnis</h2>, <h2><span class="mw-headline" id="Geographie">Geographie</span></h2>, <h2><span class="mw-headline" id="Geschichte">Geschichte</span></h2>, <h2><span id="Bev.C3.B6lkerung"></span><span class="mw-headline" id="Bevölkerung">Bevölkerung</span></h2>, <h2><span class="mw-headline" id="Politik_und_Staat">Politik und Staat</span></h2>, <h2><span class="mw-headline" id="Kultur">Kultur</span></h2>, <h2><span class="mw-headline" id="Wirtschaft_und_Infrastruktur">Wirtschaft und Infrastruktur</span></h2>, <h2><span class="mw-headline" id="Siehe_auch">Siehe auch</span></h2>, <h2><span class="mw-headline" id="Literatur">Literatur</span></h2>, <h2><span class="mw-headline" id="Weblinks">Weblinks</span></h2>, <h2><span class="mw-headline" id="Einzelnachweise">Einzelnachweise</span></h2>, <h2>Navigationsmenü</h2>]


Listen kann man mit einer [for-Schleife](https://www.w3schools.com/python/python_for_loops.asp) elementweise bearbeiten. Hier wird jedes Element in *h2_tag* nacheinander der Indexvariable *h2* zugewiesen und dann der entsprechende Inhalt ausgegeben:

In [12]:
for h2 in h2_tag:
    print(h2.string)

Inhaltsverzeichnis
Geographie
Geschichte
None
Politik und Staat
Kultur
Wirtschaft und Infrastruktur
Siehe auch
Literatur
Weblinks
Einzelnachweise
Navigationsmenü


Möchte man alle Links auf der Hamburg-Seite der deutschen Wikipedia extrahieren geht das folgendermaßen (es werden nur die Links extrahiert, bei denen das Attribut *href*, also der Hyperlink, vorhanden ist):

In [18]:
links = bs.find_all('a', href = True)

In [25]:
for l in links:
        print(l['href'])

#Vorlage_Lesenswert
#mw-head
#searchInput
/wiki/Hamburg_(Begriffskl%C3%A4rung)
/wiki/Datei:Flag_of_Hamburg.svg
/wiki/Datei:Locator_map_Hamburg_in_Germany.svg
/wiki/Landeswappen_Hamburgs#Flaggen
/wiki/Datei:Wappen_der_Hamburgischen_B%C3%BCrgerschaft.svg
/wiki/Landeswappen_Hamburgs#Großes_Staatswappen_und_Logo
/wiki/Amtssprachen_innerhalb_Deutschlands
/wiki/Deutsche_Sprache
#cite_note-1
/wiki/Staatsform
/wiki/Parlamentarische_Republik
/wiki/Souver%C3%A4nit%C3%A4t
/wiki/Bundesstaat_(F%C3%B6deraler_Staat)
/wiki/Postleitzahl_(Deutschland)
/wiki/Neuwerk
/wiki/Telefonvorwahl_(Deutschland)
/wiki/Neuwerk
/wiki/Kfz-Kennzeichen_(Deutschland)
/wiki/Kaufkraft_(Konsum)
#cite_note-GfK_Kaufkraft_2021-2
/wiki/Kaufkraft_(Konsum)
#cite_note-GfK_Kaufkraft_2021-2
/wiki/Bruttoinlandsprodukt
/wiki/Liste_der_deutschen_Bundesl%C3%A4nder_nach_Bruttoinlandsprodukt
#cite_note-3
/wiki/Liste_der_deutschen_Bundesl%C3%A4nder_nach_Bruttoinlandsprodukt
/wiki/Schulden
#cite_note-Schulden-4
/wiki/Senat_der_Freien_und_Han

/wiki/Spezial:ISBN-Suche/9783954515202
#cite_ref-28
http://www.landesrecht-hamburg.de/jportal/portal/page/bshaprod.psml?nid=6&showdoccase=1&doc.id=jlr-VerfHAV5Art4&st=lr
#cite_ref-29
https://www.hamburg.de/behoerdenfinder/hamburg/info/ortsamt/
#cite_ref-RäumGiG_30-0
http://www.landesrecht-hamburg.de/jportal/portal/page/bshaprod.psml?showdoccase=1&doc.id=jlr-RGlGHArahmen&doc.part=X&doc.origin=bs&st=lr
#cite_ref-31
https://web.archive.org/web/20190505204054/https://de.statista.com/statistik/daten/studie/1081561/umfrage/einwohnerzahl-in-hamburg-nach-bezirken/
/wiki/Web-Archivierung#Begrifflichkeiten
/wiki/Internet_Archive
#cite_ref-32
https://www.openstreetmap.org/relation/312038#map=16/53.6690/10.1679
#cite_ref-33
https://www.wetterdienst.de/Klima/Wetterrekorde/Deutschland/Temperatur/
#cite_ref-34
https://www.hamburg.de/regen
#cite_ref-35
https://worldweather.wmo.int/en/city.html?cityId=55
#cite_ref-36
https://web.archive.org/web/20170227064205/http://bund-hamburg.bund.net/nc/presse/pres

Man sieht, dass auf der Seite viele Links zu finden sind. Es gibt
- interne Verlinkungen innerhalb der Hamburgseite der Wikipedia (diese beginnen mit #)
- Verlinkungen zu anderen Artikeln auf den Seiten innerhalb der Wikipedia (diese beginnen mit /wiki/)
- Verlinkungen zu anderen Webseiten außerhalb der Wikipedia (diese beginnen mit http oder https).

Mit Hilfe von Bedingungen kann man die Links entsprechend filtern. Nur Verlinkungen zu anderen Wikipedia-Artikeln kann man folgendermaßen anzeigen lassen: 

In [27]:
for l in links:
    if l['href'].startswith('/wiki'):
        print(l['href'])

/wiki/Hamburg_(Begriffskl%C3%A4rung)
/wiki/Datei:Flag_of_Hamburg.svg
/wiki/Datei:Locator_map_Hamburg_in_Germany.svg
/wiki/Landeswappen_Hamburgs#Flaggen
/wiki/Datei:Wappen_der_Hamburgischen_B%C3%BCrgerschaft.svg
/wiki/Landeswappen_Hamburgs#Großes_Staatswappen_und_Logo
/wiki/Amtssprachen_innerhalb_Deutschlands
/wiki/Deutsche_Sprache
/wiki/Staatsform
/wiki/Parlamentarische_Republik
/wiki/Souver%C3%A4nit%C3%A4t
/wiki/Bundesstaat_(F%C3%B6deraler_Staat)
/wiki/Postleitzahl_(Deutschland)
/wiki/Neuwerk
/wiki/Telefonvorwahl_(Deutschland)
/wiki/Neuwerk
/wiki/Kfz-Kennzeichen_(Deutschland)
/wiki/Kaufkraft_(Konsum)
/wiki/Kaufkraft_(Konsum)
/wiki/Bruttoinlandsprodukt
/wiki/Liste_der_deutschen_Bundesl%C3%A4nder_nach_Bruttoinlandsprodukt
/wiki/Liste_der_deutschen_Bundesl%C3%A4nder_nach_Bruttoinlandsprodukt
/wiki/Schulden
/wiki/Senat_der_Freien_und_Hansestadt_Hamburg
/wiki/Rathausmarkt_(Hamburg)
/wiki/Amtlicher_Gemeindeschl%C3%BCssel
/wiki/ISO_3166-2:DE
/wiki/UN/LOCODE
/wiki/Einwohner
/wiki/Ausl%C3%A4nd

/wiki/Spezial:ISBN-Suche/9783406661938
/wiki/Spezial:ISBN-Suche/3784546102
/wiki/Spezial:ISBN-Suche/9783937904931
/wiki/Hermann_Rauhe
/wiki/Spezial:ISBN-Suche/9783831903146
/wiki/Spezial:ISBN-Suche/3798406332
/wiki/Spezial:ISBN-Suche/3455113338
/wiki/Spezial:ISBN-Suche/3831901376
/wiki/Wikipedia:Schwesterprojekte
/wiki/GfK_(Unternehmen)
/wiki/Web-Archivierung#Begrifflichkeiten
/wiki/Internet_Archive
/wiki/Spiegel
/wiki/UNESCO
/wiki/Internationale_Standardnummer_f%C3%BCr_fortlaufende_Sammelwerke
/wiki/Cuxhaven-Vertrag
/wiki/Spezial:ISBN-Suche/9783954515202
/wiki/Web-Archivierung#Begrifflichkeiten
/wiki/Internet_Archive
/wiki/Web-Archivierung#Begrifflichkeiten
/wiki/Internet_Archive
/wiki/Spezial:ISBN-Suche/3927637491
/wiki/Internationale_Standardnummer_f%C3%BCr_fortlaufende_Sammelwerke
/wiki/Internationale_Standardnummer_f%C3%BCr_fortlaufende_Sammelwerke
/wiki/Bekenntnisschriften_der_evangelisch-lutherischen_Kirche
/wiki/Wikipedia:Defekte_Weblinks
/wiki/Web-Archivierung#Begrifflichkeite

Alle externen Verlinkungen kann man sich folgendermaßen ausgeben lassen:

In [28]:
for l in links:
    if l['href'].startswith('http'):
        print(l['href'])

https://www.hamburg.de/stadt-staat/
https://geohack.toolforge.org/geohack.php?pagename=Hamburg&language=de&params=53.550556_N_9.993333_E_dim:40000_region:DE-HH_type:adm1st(1773218)
https://geohack.toolforge.org/geohack.php?pagename=Hamburg&language=de&params=53.550556_N_9.993333_E_dim:40000_region:DE-HH_type:adm1st(1773218)
https://tools.wmflabs.org/zoomviewer/?flash=no&f=Hamburg.jpg
http://d-nb.info/451634675
https://commons.wikimedia.org/wiki/Category:Hamburg
https://de.wiktionary.org/wiki/Hamburg
https://de.wikinews.org/wiki/Portal:Hamburg
https://de.wikiquote.org/wiki/Hamburg
https://de.wikisource.org/wiki/Hamburg
https://de.wikivoyage.org/wiki/Hamburg
https://www.wikidata.org/wiki/Q1055
https://www.hamburg.de/stadt-staat/
https://www.hamburgwissen-digital.de/home.html
https://www.orgelstadt-hamburg.de
https://www.sub.uni-hamburg.de/hamburg/hamburg-bibliographie.html
http://www.landesrecht-hamburg.de/jportal/portal/page/bshaprod.psml?nid=1c&showdoccase=1&doc.id=jlr-VwVfGHAV1P23&st=

**Weiteres Anwendungsbeispiel:**  
Auf der Hamburgseite der deutschen Wikipedia befindet sich am rechten Rand innerhalb der Tabelle die Einwohnerzahl. Diese Information soll aus dem Quellcode extrahiert werden.

Man kann die Tabelle als Ganzes aus dem Code extrahieren:

In [43]:
table = bs.find('table')

In [45]:
print(hh_table)

[<table class="wikitable float-right hintergrundfarbe2 toptextcells">
<tbody><tr>
<th class="hintergrundfarbe5" colspan="2" style="font-size:1.3em;">Freie und Hansestadt Hamburg
</th></tr>
<tr>
<td><div class="center"><div class="floatnone"><a class="image" href="/wiki/Datei:Flag_of_Hamburg.svg" title="Landesflagge der Freien und Hansestadt Hamburg"><img alt="Landesflagge der Freien und Hansestadt Hamburg" data-file-height="400" data-file-width="600" decoding="async" height="93" src="//upload.wikimedia.org/wikipedia/commons/thumb/7/74/Flag_of_Hamburg.svg/140px-Flag_of_Hamburg.svg.png" srcset="//upload.wikimedia.org/wikipedia/commons/thumb/7/74/Flag_of_Hamburg.svg/210px-Flag_of_Hamburg.svg.png 1.5x, //upload.wikimedia.org/wikipedia/commons/thumb/7/74/Flag_of_Hamburg.svg/280px-Flag_of_Hamburg.svg.png 2x" width="140"/></a></div></div>
</td>
<td rowspan="4"><div class="center"><div class="floatnone"><div class="noresize" style="height: 271px; width: 200px; "><map name="ImageMap_90f4e28b646

Nun muss man einen Weg finden, die Einwohnerzahl zu isolieren. Eine Lösung: Die Zeilennummer finden und die entsprechende Zeile extrahieren:

In [46]:
rows = table.find_all('tr')

Insgesamt gibt es 55 Zeilen:

In [48]:
len(rows)

55

Lässt man sich Zeilennummer und Zeileninhalt ausgeben, erkennt man, dass die Eiwohnerzahl in der 22. Zeile steht:

In [54]:
print([list((i, rows[i])) for i in range(len(rows))])

[[0, <tr>
<th class="hintergrundfarbe5" colspan="2" style="font-size:1.3em;">Freie und Hansestadt Hamburg
</th></tr>], [1, <tr>
<td><div class="center"><div class="floatnone"><a class="image" href="/wiki/Datei:Flag_of_Hamburg.svg" title="Landesflagge der Freien und Hansestadt Hamburg"><img alt="Landesflagge der Freien und Hansestadt Hamburg" data-file-height="400" data-file-width="600" decoding="async" height="93" src="//upload.wikimedia.org/wikipedia/commons/thumb/7/74/Flag_of_Hamburg.svg/140px-Flag_of_Hamburg.svg.png" srcset="//upload.wikimedia.org/wikipedia/commons/thumb/7/74/Flag_of_Hamburg.svg/210px-Flag_of_Hamburg.svg.png 1.5x, //upload.wikimedia.org/wikipedia/commons/thumb/7/74/Flag_of_Hamburg.svg/280px-Flag_of_Hamburg.svg.png 2x" width="140"/></a></div></div>
</td>
<td rowspan="4"><div class="center"><div class="floatnone"><div class="noresize" style="height: 271px; width: 200px; "><map name="ImageMap_90f4e28b646220b9"><area alt="Berlin" coords="163,87,9" href="/wiki/Berlin" sh

In [56]:
print(rows[22].text)


Einwohner:
1.851.430 (31. März 2021)[5]



Eine weitere Möglichkeit, Elemente von einer Webseite zu extrahieren, sind [CSS-Selektoren](https://www.w3schools.com/cssref/css_selectors.asp). CSS-Selektoren ermöglichen die präzise Auswahl von Elementen im HTML-Code. Die Funktionen `find()` und `find_all()` unterstützen CSS-Selektoren nicht. Daher muss man in diesem Fall die Funktion `select()` von *BeautifulSoup* verwenden:

In [63]:
einwohner = bs.select('table.wikitable:nth-child(2) > tbody:nth-child(1) > tr:nth-child(23) > td:nth-child(2)')[0].get_text().split(' ')[0]

In [64]:
print(einwohner)

1.851.430
