# Skript: Webscraping mit BeautifulSoup

Benötigt werden:

* Pakete `requests` und `bs4`

* Grundverständnis von HTML

### Achtung!

Vor jedem Webscraping stellen wir uns folgende Fragen:
- Gibt es auf der Webseite stattdessen eine API, auf welche wir zugreifen können? Das erspart uns Arbeit.
- Verbietet die Webseite das Scrapen von Daten? (`/robots.txt` überprüfen)

## Beautiful Soup 4

Dieses Modul kann HTML-Text auslesen und alle Informationen extrahieren. Wir können aus einem  BeautifulSoup-Objekt dann die Schnipsel holen, die für uns Wert haben. Das Modul müssen wir zunächst installieren. Achtung! Installiert wird es unter dem Namen `beautifulsoup4`, importiert wird es jedoch unter `bs4`! Wir können conda für die Installation nutzen.

In [1]:
# Modulimporte
import pandas as pd
import requests
import bs4
from bs4 import BeautifulSoup

In [2]:
# Beispiel-HTML:
html = '''<section><article><h1>Test-Artikel</h1><p>Dies ist ein Beispiel-Artikel in HTML-Form.</p><p>Absatz 2.</p></article></section>'''
print(html)

<section><article><h1>Test-Artikel</h1><p>Dies ist ein Beispiel-Artikel in HTML-Form.</p><p>Absatz 2.</p></article></section>


In [3]:
# Verwendung bs4: Suppen-Objekt erstellen
soup = BeautifulSoup(html)

In [4]:
# Was kann unser Objekt alles?
dir(soup)

['ASCII_SPACES',
 'DEFAULT_BUILDER_FEATURES',
 'DEFAULT_INTERESTING_STRING_TYPES',
 'EMPTY_ELEMENT_EVENT',
 'END_ELEMENT_EVENT',
 'ROOT_TAG_NAME',
 'START_ELEMENT_EVENT',
 'STRING_ELEMENT_EVENT',
 '__bool__',
 '__call__',
 '__class__',
 '__contains__',
 '__copy__',
 '__deepcopy__',
 '__delattr__',
 '__delitem__',
 '__dict__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattr__',
 '__getattribute__',
 '__getitem__',
 '__getstate__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__iter__',
 '__le__',
 '__len__',
 '__lt__',
 '__module__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__setitem__',
 '__setstate__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 '__unicode__',
 '__weakref__',
 '_all_strings',
 '_clone',
 '_decode_markup',
 '_event_stream',
 '_feed',
 '_find_all',
 '_find_one',
 '_format_tag',
 '_indent_string',
 '_is_xml',
 '_lastRecursiveChild',
 '_last_descendant',
 '_linkage_fixer',
 '_marku

In [5]:
# Wie sieht der Inhalt aus?
soup

<html><body><section><article><h1>Test-Artikel</h1><p>Dies ist ein Beispiel-Artikel in HTML-Form.</p><p>Absatz 2.</p></article></section></body></html>

In [6]:
type(soup)

bs4.BeautifulSoup

In [7]:
# Ausgabe-Formatierung mit .prettify() "verschönern"
print(soup.prettify())

<html>
 <body>
  <section>
   <article>
    <h1>
     Test-Artikel
    </h1>
    <p>
     Dies ist ein Beispiel-Artikel in HTML-Form.
    </p>
    <p>
     Absatz 2.
    </p>
   </article>
  </section>
 </body>
</html>



In [9]:
# Wir können auch spezielle Formatierer
# "Formatter" benutzen, die uns den Inhalt
# schön darstellen.
formatter = bs4.formatter.HTMLFormatter(indent=4)
print(soup.prettify(formatter=formatter))

<section>
    <article>
        <h1>
            Test-Artikel
        </h1>
        <p>
            Dies ist ein Beispiel-Artikel in HTML-Form.
        </p>
        <p>
            Absatz 2.
        </p>
    </article>
</section>


In [10]:
# Wichtigste Funktionen:
# find - Findet den ersten Eintrag
# des angegebenen HTML Tags
soup.find('h1')

<h1>Test-Artikel</h1>

In [11]:
# Alternative Notation: 
soup.h1

<h1>Test-Artikel</h1>

In [14]:
soup.find('p')

<p>Dies ist ein Beispiel-Artikel in HTML-Form.</p>

In [15]:
soup.p

<p>Dies ist ein Beispiel-Artikel in HTML-Form.</p>

In [16]:
soup.find('section')

<section><article><h1>Test-Artikel</h1><p>Dies ist ein Beispiel-Artikel in HTML-Form.</p><p>Absatz 2.</p></article></section>

In [17]:
soup.find('article')

<article><h1>Test-Artikel</h1><p>Dies ist ein Beispiel-Artikel in HTML-Form.</p><p>Absatz 2.</p></article>

In [18]:
# So kommt man an die Textdaten:
soup.find('section').text

'Test-ArtikelDies ist ein Beispiel-Artikel in HTML-Form.Absatz 2.'

In [19]:
# h1-Überschrift-Text extrahieren:
soup.h1.text

'Test-Artikel'

In [20]:
# p-Text extrahieren:
soup.p.text

'Dies ist ein Beispiel-Artikel in HTML-Form.'

In [21]:
# Oder eben mit find():
soup.find('p').text

'Dies ist ein Beispiel-Artikel in HTML-Form.'

In [None]:
# Find ist mächtiger als die Punkt-Notation, da man 
# hier spezifischer werden kann.

In [22]:
# find_all - Findet alle Einträge
# einer Art von HTML-Tag (und gibt sie in Liste zurück)
soup.find_all('p')
# Einstellbar über Parameter "name", "attrs" und "class_"

[<p>Dies ist ein Beispiel-Artikel in HTML-Form.</p>, <p>Absatz 2.</p>]

In [25]:
# find_all gibt Liste mit Treffern zurück
# Einzelelemente extrahierbar
soup.find_all('p')[0]

<p>Dies ist ein Beispiel-Artikel in HTML-Form.</p>

In [26]:
# Oftmals lesbarer mit Variablen!
paragraphs = soup.find_all('p')

In [27]:
# Iteration möglich:
for p in paragraphs:
	print(p)
	print()

<p>Dies ist ein Beispiel-Artikel in HTML-Form.</p>

<p>Absatz 2.</p>


In [28]:
# Jetzt nur den Text in Vorschleife ausgeben:
for p in paragraphs:
	print(p.text)
	print()

Dies ist ein Beispiel-Artikel in HTML-Form.

Absatz 2.


In [29]:
# Mit List Comprehension das Ergebnis wieder in einer Liste ablegen:
paragraphs_text = [p.text for p in paragraphs]
paragraphs_text

['Dies ist ein Beispiel-Artikel in HTML-Form.', 'Absatz 2.']

In [None]:
# Webscraping aus einer lokalen HTML-Datei
# Bisschen Zusatz-Infos: https://wiki.selfhtml.org/wiki/HTML/Tabellen/Aufbau_einer_Tabelle

In [30]:
# Reinladen, die gute Datei!
with open('Liste der größten Schiffe der Welt – Wikipedia.html', encoding='utf-8') as f:
	ship_soup = BeautifulSoup(f, 'html.parser')

# bs4 hat mehrere Parser, die Web-Dokumente scannen.
# Die Wahl des passenden Parsers hängt von den Anforderungen ab und sie stellen das
# Dokument unterschiedlich dar. Wir benutzen im Folgenden den html-Parser.
# Mehr Infos:
# https://www.crummy.com/software/BeautifulSoup/bs4/doc/#differences-between-parsers

In [31]:
# Suppe bestaunen:
ship_soup

<!DOCTYPE html>

<html class="client-nojs" dir="ltr" lang="de">
<head>
<meta charset="utf-8"/>
<title>Liste der größten Schiffe der Welt – Wikipedia</title>
<script>document.documentElement.className="client-js";RLCONF={"wgBreakFrames":false,"wgSeparatorTransformTable":[",\t.",".\t,"],"wgDigitTransformTable":["",""],"wgDefaultDateFormat":"dmy","wgMonthNames":["","Januar","Februar","März","April","Mai","Juni","Juli","August","September","Oktober","November","Dezember"],"wgRequestId":"85d2fc8f-8e94-4b28-bad9-7c90c40ddfe3","wgCanonicalNamespace":"","wgCanonicalSpecialPageName":false,"wgNamespaceNumber":0,"wgPageName":"Liste_der_größten_Schiffe_der_Welt","wgTitle":"Liste der größten Schiffe der Welt","wgCurRevisionId":241862931,"wgRevisionId":241862931,"wgArticleId":1548947,"wgIsArticle":true,"wgIsRedirect":false,"wgAction":"view","wgUserName":null,"wgUserGroups":["*"],"wgCategories":["Liste (Schiffe)","Liste (technische Rekorde)"],"wgPageViewLanguage":"de","wgPageContentLanguage":"de","wg

In [34]:
# Die Tabelle heraussondern:
table = ship_soup.find('table')
table

<table class="wikitable sortable zebra">
<caption>Größte und längste Schiffe ihrer Art
</caption>
<tbody><tr>
<th>Kategorie</th>
<th>Schiffsname
</th></tr>
<tr>
<td><a href="/wiki/Kreuzfahrtschiff" title="Kreuzfahrtschiff">Kreuzfahrtschiff</a></td>
<td><i><a href="/wiki/Icon_of_the_Seas" title="Icon of the Seas">Icon of the Seas</a><sup class="reference" id="cite_ref-1"><a href="#cite_note-1">[1]</a></sup></i>
</td></tr>
<tr>
<td><a href="/wiki/Segelschiff" title="Segelschiff">Segelschiff</a></td>
<td><i><a href="/wiki/SY_A" title="SY A">SY A</a></i>
</td></tr>
<tr>
<td><a href="/wiki/Frachtsegler" title="Frachtsegler">Frachtsegler</a></td>
<td><i><a href="/wiki/France_(Schiff,_1912%E2%80%931922)" title="France (Schiff, 1912–1922)">France</a></i>
</td></tr>
<tr>
<td><a href="/wiki/Eisbrecher" title="Eisbrecher">Eisbrecher</a></td>
<td><a class="mw-redirect" href="/wiki/Arktika_(Schiff,_2020)" title="Arktika (Schiff, 2020)"><i>Arktika</i></a>
</td></tr>
<tr>
<td><a href="/wiki/Autof%C3%

In [35]:
# Selbes Element, anderer Weg:
ship_soup.table

<table class="wikitable sortable zebra">
<caption>Größte und längste Schiffe ihrer Art
</caption>
<tbody><tr>
<th>Kategorie</th>
<th>Schiffsname
</th></tr>
<tr>
<td><a href="/wiki/Kreuzfahrtschiff" title="Kreuzfahrtschiff">Kreuzfahrtschiff</a></td>
<td><i><a href="/wiki/Icon_of_the_Seas" title="Icon of the Seas">Icon of the Seas</a><sup class="reference" id="cite_ref-1"><a href="#cite_note-1">[1]</a></sup></i>
</td></tr>
<tr>
<td><a href="/wiki/Segelschiff" title="Segelschiff">Segelschiff</a></td>
<td><i><a href="/wiki/SY_A" title="SY A">SY A</a></i>
</td></tr>
<tr>
<td><a href="/wiki/Frachtsegler" title="Frachtsegler">Frachtsegler</a></td>
<td><i><a href="/wiki/France_(Schiff,_1912%E2%80%931922)" title="France (Schiff, 1912–1922)">France</a></i>
</td></tr>
<tr>
<td><a href="/wiki/Eisbrecher" title="Eisbrecher">Eisbrecher</a></td>
<td><a class="mw-redirect" href="/wiki/Arktika_(Schiff,_2020)" title="Arktika (Schiff, 2020)"><i>Arktika</i></a>
</td></tr>
<tr>
<td><a href="/wiki/Autof%C3%

In [36]:
table['class']

['wikitable', 'sortable', 'zebra']

In [37]:
ship_soup.table == ship_soup.find('table')

True

In [None]:
# Selbes Element, anderer Weg:
ship_soup.table

In [38]:
# Selbe Suche, aber mit Klasse:
ship_soup.find(class_='wikitable sortable zebra')

<table class="wikitable sortable zebra">
<caption>Größte und längste Schiffe ihrer Art
</caption>
<tbody><tr>
<th>Kategorie</th>
<th>Schiffsname
</th></tr>
<tr>
<td><a href="/wiki/Kreuzfahrtschiff" title="Kreuzfahrtschiff">Kreuzfahrtschiff</a></td>
<td><i><a href="/wiki/Icon_of_the_Seas" title="Icon of the Seas">Icon of the Seas</a><sup class="reference" id="cite_ref-1"><a href="#cite_note-1">[1]</a></sup></i>
</td></tr>
<tr>
<td><a href="/wiki/Segelschiff" title="Segelschiff">Segelschiff</a></td>
<td><i><a href="/wiki/SY_A" title="SY A">SY A</a></i>
</td></tr>
<tr>
<td><a href="/wiki/Frachtsegler" title="Frachtsegler">Frachtsegler</a></td>
<td><i><a href="/wiki/France_(Schiff,_1912%E2%80%931922)" title="France (Schiff, 1912–1922)">France</a></i>
</td></tr>
<tr>
<td><a href="/wiki/Eisbrecher" title="Eisbrecher">Eisbrecher</a></td>
<td><a class="mw-redirect" href="/wiki/Arktika_(Schiff,_2020)" title="Arktika (Schiff, 2020)"><i>Arktika</i></a>
</td></tr>
<tr>
<td><a href="/wiki/Autof%C3%

In [40]:
# Wenn's hübscher aussehen soll:
print(table.prettify())

<table class="wikitable sortable zebra">
 <caption>
  Größte und längste Schiffe ihrer Art
 </caption>
 <tbody>
  <tr>
   <th>
    Kategorie
   </th>
   <th>
    Schiffsname
   </th>
  </tr>
  <tr>
   <td>
    <a href="/wiki/Kreuzfahrtschiff" title="Kreuzfahrtschiff">
     Kreuzfahrtschiff
    </a>
   </td>
   <td>
    <i>
     <a href="/wiki/Icon_of_the_Seas" title="Icon of the Seas">
      Icon of the Seas
     </a>
     <sup class="reference" id="cite_ref-1">
      <a href="#cite_note-1">
       [1]
      </a>
     </sup>
    </i>
   </td>
  </tr>
  <tr>
   <td>
    <a href="/wiki/Segelschiff" title="Segelschiff">
     Segelschiff
    </a>
   </td>
   <td>
    <i>
     <a href="/wiki/SY_A" title="SY A">
      SY A
     </a>
    </i>
   </td>
  </tr>
  <tr>
   <td>
    <a href="/wiki/Frachtsegler" title="Frachtsegler">
     Frachtsegler
    </a>
   </td>
   <td>
    <i>
     <a href="/wiki/France_(Schiff,_1912%E2%80%931922)" title="France (Schiff, 1912–1922)">
      France
     </a>


In [42]:
# Alle Datenfelder holen:
fields = table.find_all('td')
fields

[<td><a href="/wiki/Kreuzfahrtschiff" title="Kreuzfahrtschiff">Kreuzfahrtschiff</a></td>,
 <td><i><a href="/wiki/Icon_of_the_Seas" title="Icon of the Seas">Icon of the Seas</a><sup class="reference" id="cite_ref-1"><a href="#cite_note-1">[1]</a></sup></i>
 </td>,
 <td><a href="/wiki/Segelschiff" title="Segelschiff">Segelschiff</a></td>,
 <td><i><a href="/wiki/SY_A" title="SY A">SY A</a></i>
 </td>,
 <td><a href="/wiki/Frachtsegler" title="Frachtsegler">Frachtsegler</a></td>,
 <td><i><a href="/wiki/France_(Schiff,_1912%E2%80%931922)" title="France (Schiff, 1912–1922)">France</a></i>
 </td>,
 <td><a href="/wiki/Eisbrecher" title="Eisbrecher">Eisbrecher</a></td>,
 <td><a class="mw-redirect" href="/wiki/Arktika_(Schiff,_2020)" title="Arktika (Schiff, 2020)"><i>Arktika</i></a>
 </td>,
 <td><a href="/wiki/Autof%C3%A4hre" title="Autofähre">Autofähre</a></td>,
 <td><i><a href="/wiki/Color_Magic" title="Color Magic">Color Magic</a></i> (nach Größe (BRZ)); <i><a href="/wiki/Cruise_Barcelona" tit

In [43]:
# Nur die Text-Inhalte der Datenfelder:
for field in fields:
	print(field.text)

Kreuzfahrtschiff
Icon of the Seas[1]

Segelschiff
SY A

Frachtsegler
France

Eisbrecher
Arktika

Autofähre
Color Magic (nach Größe (BRZ)); Cruise Barcelona und Cruise Roma (nach Länge)

LNG-Fähre
Nils Holgerson, Peter Pan

Kombifähre (Eisenbahn/RoRo)
Skåne

Autotransporter
Tysla, Salome (nach Länge und Tragfähigkeit); Höegh Target (nach Tonnage und Fahrzeugkapazität)

Flugzeugträger
USS Gerald R. Ford (CVN-78) (nach Tonnage); USS Enterprise (CVN 65) (nach Länge)

Schlachtschiff
Yamato und Musashi

Unterseeboot
Dmitri Donskoi (TK-208)

Containerschiff
MSC Irina[2][3]

Schüttgutschiff
Yuan He Hai (Valemax-Klasse)

Öltanker (doppelwandig)
TI Europe, TI Oceania ⁠Anm. 1

Öltanker (einwandig)
Jahre Viking ⁠Anm. 2; Pierre Guillaumat

Flüssiggastanker
Mozah

Dockschiff
Boka Vanguard

Schwimmkran
Sleipnir

Motoryacht
REV Ocean (nach Länge); Dilbar (nach Größe (BRZ))

Schlepper
Island Victory

Schubboot
E. Bronson Ingram

Katamaran
Stena Explorer

Seenotrettungskreuzer
Hermann Marwede

Trimaran


In [44]:
# Spaltenüberschriften holen:
header = table.find_all('th')
header

[<th>Kategorie</th>,
 <th>Schiffsname
 </th>]

In [45]:
# Liste hat kein Attribut Text.
# Deswegen kann man nicht direkt .text anwenden.
# Die Elemente INNERHALB der Liste dagegen sind bs4-Tags und verfügen über das Attribut text.
print(header.text)

AttributeError: ResultSet object has no attribute 'text'. You're probably treating a list of elements like a single element. Did you call find_all() when you meant to call find()?

In [46]:
type(header)

bs4.element.ResultSet

In [47]:
for h in header:
	print(type(h))

<class 'bs4.element.Tag'>
<class 'bs4.element.Tag'>


In [48]:
for h in header:
	print(h.text)

Kategorie
Schiffsname


In [49]:
header_texts = [h.text for h in header]
header_texts

['Kategorie', 'Schiffsname\n']

In [51]:
# Alle Links sammeln:
table_links = table.find_all('a')
table_links

[<a href="/wiki/Kreuzfahrtschiff" title="Kreuzfahrtschiff">Kreuzfahrtschiff</a>,
 <a href="/wiki/Icon_of_the_Seas" title="Icon of the Seas">Icon of the Seas</a>,
 <a href="#cite_note-1">[1]</a>,
 <a href="/wiki/Segelschiff" title="Segelschiff">Segelschiff</a>,
 <a href="/wiki/SY_A" title="SY A">SY A</a>,
 <a href="/wiki/Frachtsegler" title="Frachtsegler">Frachtsegler</a>,
 <a href="/wiki/France_(Schiff,_1912%E2%80%931922)" title="France (Schiff, 1912–1922)">France</a>,
 <a href="/wiki/Eisbrecher" title="Eisbrecher">Eisbrecher</a>,
 <a class="mw-redirect" href="/wiki/Arktika_(Schiff,_2020)" title="Arktika (Schiff, 2020)"><i>Arktika</i></a>,
 <a href="/wiki/Autof%C3%A4hre" title="Autofähre">Autofähre</a>,
 <a href="/wiki/Color_Magic" title="Color Magic">Color Magic</a>,
 <a href="/wiki/Cruise_Barcelona" title="Cruise Barcelona">Cruise Barcelona</a>,
 <a href="/wiki/Cruise_Roma" title="Cruise Roma">Cruise Roma</a>,
 <a class="new" href="/w/index.php?title=LNG-F%C3%A4hre&amp;action=edit&am

In [52]:
# Was ist eigentlich in dieser Liste drin?
for a in table_links:
	print(type(a))

<class 'bs4.element.Tag'>
<class 'bs4.element.Tag'>
<class 'bs4.element.Tag'>
<class 'bs4.element.Tag'>
<class 'bs4.element.Tag'>
<class 'bs4.element.Tag'>
<class 'bs4.element.Tag'>
<class 'bs4.element.Tag'>
<class 'bs4.element.Tag'>
<class 'bs4.element.Tag'>
<class 'bs4.element.Tag'>
<class 'bs4.element.Tag'>
<class 'bs4.element.Tag'>
<class 'bs4.element.Tag'>
<class 'bs4.element.Tag'>
<class 'bs4.element.Tag'>
<class 'bs4.element.Tag'>
<class 'bs4.element.Tag'>
<class 'bs4.element.Tag'>
<class 'bs4.element.Tag'>
<class 'bs4.element.Tag'>
<class 'bs4.element.Tag'>
<class 'bs4.element.Tag'>
<class 'bs4.element.Tag'>
<class 'bs4.element.Tag'>
<class 'bs4.element.Tag'>
<class 'bs4.element.Tag'>
<class 'bs4.element.Tag'>
<class 'bs4.element.Tag'>
<class 'bs4.element.Tag'>
<class 'bs4.element.Tag'>
<class 'bs4.element.Tag'>
<class 'bs4.element.Tag'>
<class 'bs4.element.Tag'>
<class 'bs4.element.Tag'>
<class 'bs4.element.Tag'>
<class 'bs4.element.Tag'>
<class 'bs4.element.Tag'>
<class 'bs4.

In [60]:
# Wir wollen JEDEN Link aus dieser Liste bekommen, starten aber erstmal klein
# mit nur einem Link: 
table_links[0]

<a href="/wiki/Kreuzfahrtschiff" title="Kreuzfahrtschiff">Kreuzfahrtschiff</a>

In [62]:
# Man kann auf Attribute mit Schlüssel-Notation zugreifen (kennen wir von Dicts):
first_link = table_links[0]['href']
first_link

'/wiki/Kreuzfahrtschiff'

In [66]:
# EXKURS: Links zusammensetzen und neue request an diese Links senden:
base = 'https://de.wikipedia.org'

In [67]:
print(base + first_link)

https://de.wikipedia.org/wiki/Kreuzfahrtschiff


In [73]:
''.join([base, first_link])

'https://de.wikipedia.org/wiki/Kreuzfahrtschiff'

In [74]:
first_complete_link = base + first_link
first_complete_link

'https://de.wikipedia.org/wiki/Kreuzfahrtschiff'

In [76]:
# Mit dem so gewonnenen Link einen request durchführen:
first_page = requests.get(first_complete_link)
first_soup = BeautifulSoup(first_page.text, 'html.parser')

In [79]:
first_soup.h1.text

'Kreuzfahrtschiff'

In [None]:
# EXKURS ENDE

In [80]:
# Alternativ geht das auch mit der get-Notation:
table_links[0].get('href')

'/wiki/Kreuzfahrtschiff'

In [None]:
# Und jetzt Denkschmalz-Aufgabe: Wie lasse ich mir ALLE vollständigen Links ausgeben?

In [84]:
for link in table_links:
	print(base + link.get('href'))

https://de.wikipedia.org/wiki/Kreuzfahrtschiff
https://de.wikipedia.org/wiki/Icon_of_the_Seas
https://de.wikipedia.org#cite_note-1
https://de.wikipedia.org/wiki/Segelschiff
https://de.wikipedia.org/wiki/SY_A
https://de.wikipedia.org/wiki/Frachtsegler
https://de.wikipedia.org/wiki/France_(Schiff,_1912%E2%80%931922)
https://de.wikipedia.org/wiki/Eisbrecher
https://de.wikipedia.org/wiki/Arktika_(Schiff,_2020)
https://de.wikipedia.org/wiki/Autof%C3%A4hre
https://de.wikipedia.org/wiki/Color_Magic
https://de.wikipedia.org/wiki/Cruise_Barcelona
https://de.wikipedia.org/wiki/Cruise_Roma
https://de.wikipedia.org/w/index.php?title=LNG-F%C3%A4hre&action=edit&redlink=1
https://de.wikipedia.org/wiki/Nils_Holgersson_(Schiff,_2022)
https://de.wikipedia.org/wiki/Peter_Pan_(Schiff,_2022)
https://de.wikipedia.org/wiki/Sk%C3%A5ne_(Schiff,_1998)
https://de.wikipedia.org/wiki/Mark-V-Klasse
https://de.wikipedia.org/wiki/New-Horizon-Klasse
https://de.wikipedia.org/wiki/Flugzeugtr%C3%A4ger
https://de.wikipedi

### Natürlich müssen wir für unsere Suppen keine lokale HTML-Datei vorliegen haben

In [85]:
# Schiffe mit requests an Land ziehen:
ships_url = 'https://de.wikipedia.org/wiki/Liste_der_gr%C3%B6%C3%9Ften_Schiffe_der_Welt'
ships_html = requests.get(ships_url)

In [88]:
print(ships_html.text)

<!DOCTYPE html>
<html class="client-nojs" lang="de" dir="ltr">
<head>
<meta charset="UTF-8">
<title>Liste der größten Schiffe der Welt – Wikipedia</title>
<script>document.documentElement.className="client-js";RLCONF={"wgBreakFrames":false,"wgSeparatorTransformTable":[",\t.",".\t,"],"wgDigitTransformTable":["",""],"wgDefaultDateFormat":"dmy","wgMonthNames":["","Januar","Februar","März","April","Mai","Juni","Juli","August","September","Oktober","November","Dezember"],"wgRequestId":"85d2fc8f-8e94-4b28-bad9-7c90c40ddfe3","wgCanonicalNamespace":"","wgCanonicalSpecialPageName":false,"wgNamespaceNumber":0,"wgPageName":"Liste_der_größten_Schiffe_der_Welt","wgTitle":"Liste der größten Schiffe der Welt","wgCurRevisionId":241862931,"wgRevisionId":241862931,"wgArticleId":1548947,"wgIsArticle":true,"wgIsRedirect":false,"wgAction":"view","wgUserName":null,"wgUserGroups":["*"],"wgCategories":["Liste (Schiffe)","Liste (technische Rekorde)"],"wgPageViewLanguage":"de","wgPageContentLanguage":"de","wgPa

In [89]:
ship_soup = BeautifulSoup(ships_html.text, 'html.parser')
ship_soup

<!DOCTYPE html>

<html class="client-nojs" dir="ltr" lang="de">
<head>
<meta charset="utf-8"/>
<title>Liste der größten Schiffe der Welt – Wikipedia</title>
<script>document.documentElement.className="client-js";RLCONF={"wgBreakFrames":false,"wgSeparatorTransformTable":[",\t.",".\t,"],"wgDigitTransformTable":["",""],"wgDefaultDateFormat":"dmy","wgMonthNames":["","Januar","Februar","März","April","Mai","Juni","Juli","August","September","Oktober","November","Dezember"],"wgRequestId":"85d2fc8f-8e94-4b28-bad9-7c90c40ddfe3","wgCanonicalNamespace":"","wgCanonicalSpecialPageName":false,"wgNamespaceNumber":0,"wgPageName":"Liste_der_größten_Schiffe_der_Welt","wgTitle":"Liste der größten Schiffe der Welt","wgCurRevisionId":241862931,"wgRevisionId":241862931,"wgArticleId":1548947,"wgIsArticle":true,"wgIsRedirect":false,"wgAction":"view","wgUserName":null,"wgUserGroups":["*"],"wgCategories":["Liste (Schiffe)","Liste (technische Rekorde)"],"wgPageViewLanguage":"de","wgPageContentLanguage":"de","wg

In [90]:
ship_soup.table

<table class="wikitable sortable zebra">
<caption>Größte und längste Schiffe ihrer Art
</caption>
<tbody><tr>
<th>Kategorie</th>
<th>Schiffsname
</th></tr>
<tr>
<td><a href="/wiki/Kreuzfahrtschiff" title="Kreuzfahrtschiff">Kreuzfahrtschiff</a></td>
<td><i><a href="/wiki/Icon_of_the_Seas" title="Icon of the Seas">Icon of the Seas</a><sup class="reference" id="cite_ref-1"><a href="#cite_note-1">[1]</a></sup></i>
</td></tr>
<tr>
<td><a href="/wiki/Segelschiff" title="Segelschiff">Segelschiff</a></td>
<td><i><a href="/wiki/SY_A" title="SY A">SY A</a></i>
</td></tr>
<tr>
<td><a href="/wiki/Frachtsegler" title="Frachtsegler">Frachtsegler</a></td>
<td><i><a href="/wiki/France_(Schiff,_1912%E2%80%931922)" title="France (Schiff, 1912–1922)">France</a></i>
</td></tr>
<tr>
<td><a href="/wiki/Eisbrecher" title="Eisbrecher">Eisbrecher</a></td>
<td><a class="mw-redirect" href="/wiki/Arktika_(Schiff,_2020)" title="Arktika (Schiff, 2020)"><i>Arktika</i></a>
</td></tr>
<tr>
<td><a href="/wiki/Autof%C3%

In [92]:
table_data = ship_soup.table.find_all('td')

In [93]:
for td in table_data:
	print(td.text)

Kreuzfahrtschiff
Icon of the Seas[1]

Segelschiff
SY A

Frachtsegler
France

Eisbrecher
Arktika

Autofähre
Color Magic (nach Größe (BRZ)); Cruise Barcelona und Cruise Roma (nach Länge)

LNG-Fähre
Nils Holgerson, Peter Pan

Kombifähre (Eisenbahn/RoRo)
Skåne

Autotransporter
Tysla, Salome (nach Länge und Tragfähigkeit); Höegh Target (nach Tonnage und Fahrzeugkapazität)

Flugzeugträger
USS Gerald R. Ford (CVN-78) (nach Tonnage); USS Enterprise (CVN 65) (nach Länge)

Schlachtschiff
Yamato und Musashi

Unterseeboot
Dmitri Donskoi (TK-208)

Containerschiff
MSC Irina[2][3]

Schüttgutschiff
Yuan He Hai (Valemax-Klasse)

Öltanker (doppelwandig)
TI Europe, TI Oceania ⁠Anm. 1

Öltanker (einwandig)
Jahre Viking ⁠Anm. 2; Pierre Guillaumat

Flüssiggastanker
Mozah

Dockschiff
Boka Vanguard

Schwimmkran
Sleipnir

Motoryacht
REV Ocean (nach Länge); Dilbar (nach Größe (BRZ))

Schlepper
Island Victory

Schubboot
E. Bronson Ingram

Katamaran
Stena Explorer

Seenotrettungskreuzer
Hermann Marwede

Trimaran


In [None]:
# Und jetzt seid ihr dran! Nehmt DataCraft und holt von dort die Namen 
# und Background der Dozenten! URL: https://www.data-craft.de/
# Bonus: Regelt die Sache mit dem Encoding. ;)

## Webscraping am Beispiel erklärt

Als Beispiel untersuchen wir die Webseite https://worldofwarcraft.com/de-de/game/classes

Um zu prüfen, was wir auf der Webseite dürfen und ob bestimmte Inhalte von Webscraping verboten sind, müssen wir die robots.txt Seite aufsuchen
https://worldofwarcraft.com/robots.txt

Den Inhalt der Webseite können wir schon in python abrufen. Dazu können wir `requests.get` verwenden. Wir erhalten allerdings HTML Code zurück, und müssen diesen durchsuchen, um an die Infos zu kommen, die uns interessieren. Dafür benutzen wir "Beautiful Soup 4".

In [None]:
# Schritt 1: Webseiten Inhalte abrufen


In [None]:
# Schritt 2: Suppen-Objekt erstellen -> Inhalt wird von bs4 ausgelesen und umgewandelt



In [None]:
# Schritt 3: Die Suppe durchsuchen
#            Welche HTML-Tags wollen wir finden?


# <div class="Card-title">


In [None]:
# Schritt 4: Jetzt wollen wir für jedes Objekt nur den
# Textinhalt und diesen als neue Liste speichern.


In [None]:
# Schritt 5: Gesammelte Daten optional zu einem
# DataFrame umwandeln.



In [None]:
# Aufgabe: 
# Holt Euch die Zitate und Autorennamen von folgender URL:
# https://quotes.toscrape.com/
# Lasst Euch alle Zitate mit Autoren ausgeben oder schreibt diese in eine txt-Datei!