# Skript: Webscraping mit BeautifulSoup

Benötigt werden:

* Pakete `requests` und `bs4`

* Grundverständnis von HTML

### Achtung!

Vor jedem Webscraping stellen wir uns folgende Fragen:
- Gibt es auf der Webseite stattdessen eine API, auf welche wir zugreifen können? Das erspart uns Arbeit.
- Verbietet die Webseite das Scrapen von Daten? (`/robots.txt` überprüfen)

## Beautiful Soup 4

Dieses Modul kann HTML-Text auslesen und alle Informationen extrahieren. Wir können aus einem  BeautifulSoup-Objekt dann die Schnipsel holen, die für uns Wert haben. Das Modul müssen wir zunächst installieren. Achtung! Installiert wird es unter dem Namen `beautifulsoup4`, importiert wird es jedoch unter `bs4`! Wir können conda für die Installation nutzen.

In [1]:
# Modulimporte
import pandas as pd
import requests
import bs4
from bs4 import BeautifulSoup

In [2]:
# Beispiel HTML:
html = '''<section><article><h1>Test-Artikel</h1><p>Dies ist ein <strong>Beispiel-Artikel</strong> in HTML-Form.</p><p>Absatz 2.</p></article></section>'''
print(html)

<section><article><h1>Test-Artikel</h1><p>Dies ist ein <strong>Beispiel-Artikel</strong> in HTML-Form.</p><p>Absatz 2.</p></article></section>


In [3]:
# Verwendung bs4: Suppen-Objekt erstellen
soup = BeautifulSoup(html)

In [4]:
# Was kann unser Objekt alles?
dir(soup)

['ASCII_SPACES',
 'DEFAULT_BUILDER_FEATURES',
 'DEFAULT_INTERESTING_STRING_TYPES',
 'EMPTY_ELEMENT_EVENT',
 'END_ELEMENT_EVENT',
 'ROOT_TAG_NAME',
 'START_ELEMENT_EVENT',
 'STRING_ELEMENT_EVENT',
 '__bool__',
 '__call__',
 '__class__',
 '__contains__',
 '__copy__',
 '__deepcopy__',
 '__delattr__',
 '__delitem__',
 '__dict__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__firstlineno__',
 '__format__',
 '__ge__',
 '__getattr__',
 '__getattribute__',
 '__getitem__',
 '__getstate__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__iter__',
 '__le__',
 '__len__',
 '__lt__',
 '__module__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__setitem__',
 '__setstate__',
 '__sizeof__',
 '__static_attributes__',
 '__str__',
 '__subclasshook__',
 '__unicode__',
 '__weakref__',
 '_all_strings',
 '_clone',
 '_decode_markup',
 '_event_stream',
 '_feed',
 '_find_all',
 '_find_one',
 '_format_tag',
 '_indent_string',
 '_is_xml',
 '_lastRecursiveChild',
 '

In [5]:
# Wie sieht der Inhalt aus?
soup

<section><article><h1>Test-Artikel</h1><p>Dies ist ein <strong>Beispiel-Artikel</strong> in HTML-Form.</p><p>Absatz 2.</p></article></section>

In [6]:
type(soup)

bs4.BeautifulSoup

In [8]:
# Ausgabe-Formatierung mit .prettify() "verschönern"
print(soup.prettify())

<section>
 <article>
  <h1>
   Test-Artikel
  </h1>
  <p>
   Dies ist ein
   <strong>
    Beispiel-Artikel
   </strong>
   in HTML-Form.
  </p>
  <p>
   Absatz 2.
  </p>
 </article>
</section>



In [9]:
# Wir können auch spezielle Formatierer
# "Formatter" benutzen, die uns den Inhalt
# schön darstellen.
formatter = bs4.formatter.HTMLFormatter(indent=4)
print(soup.prettify(formatter=formatter))

<section>
    <article>
        <h1>
            Test-Artikel
        </h1>
        <p>
            Dies ist ein
            <strong>
                Beispiel-Artikel
            </strong>
            in HTML-Form.
        </p>
        <p>
            Absatz 2.
        </p>
    </article>
</section>



In [10]:
# Wichtigste Funktionen:
# find - Findet den ersten Eintrag
# des angegebenen HTML Tags
soup.find('h1')

<h1>Test-Artikel</h1>

In [11]:
# Alternative Notation: 
soup.h1

<h1>Test-Artikel</h1>

In [12]:
soup.find('p')

<p>Dies ist ein <strong>Beispiel-Artikel</strong> in HTML-Form.</p>

In [13]:
soup.p

<p>Dies ist ein <strong>Beispiel-Artikel</strong> in HTML-Form.</p>

In [None]:
# Find ist mächtiger als die Punkt-Notation, da man 
# hier spezifischer werden kann.

In [14]:
# Find gibt ein bs4-Tag zurück:
print(soup.find('p'))
print(type(soup.find('p')))

<p>Dies ist ein <strong>Beispiel-Artikel</strong> in HTML-Form.</p>
<class 'bs4.element.Tag'>


In [16]:
# Solche bs4-Tags können mit find weiter (tiefer) durchsucht werden!
soup.find('p').find('strong')

<strong>Beispiel-Artikel</strong>

In [17]:
# find_all - Findet alle Einträge
# einer Art von HTML-Tag
soup.find_all('p')
# Einstellbar über Parameter "name", "attrs" und "class_"

[<p>Dies ist ein <strong>Beispiel-Artikel</strong> in HTML-Form.</p>,
 <p>Absatz 2.</p>]

In [18]:
# Was ist der Datentyp von find_all?
type(soup.find_all('p'))

bs4.element.ResultSet

In [19]:
paragraph_soup = soup.find_all('p')

In [20]:
paragraph_soup

[<p>Dies ist ein <strong>Beispiel-Artikel</strong> in HTML-Form.</p>,
 <p>Absatz 2.</p>]

In [21]:
# Resultset verhält sich wie eine Liste,
# Einzelelemente sind per Indexposition extrahierbar
paragraph_soup[0]

<p>Dies ist ein <strong>Beispiel-Artikel</strong> in HTML-Form.</p>

In [22]:
type(paragraph_soup[0])

bs4.element.Tag

In [23]:
paragraph_soup[0].find('strong')

<strong>Beispiel-Artikel</strong>

In [24]:
# Iteration möglich:
for p in paragraph_soup:
    print(p)

<p>Dies ist ein <strong>Beispiel-Artikel</strong> in HTML-Form.</p>
<p>Absatz 2.</p>


In [26]:
# Nur Text, ohne Tags ausgeben
paragraph_soup[0].text

'Dies ist ein Beispiel-Artikel in HTML-Form.'

In [27]:
for p in paragraph_soup:
    print(p.text)

Dies ist ein Beispiel-Artikel in HTML-Form.
Absatz 2.


In [None]:
# Webscraping aus einer lokalen HTML-Datei
# Bisschen Zusatz-Infos: https://wiki.selfhtml.org/wiki/HTML/Tabellen/Aufbau_einer_Tabelle

In [28]:
# Reinladen, die gute Datei!
with open('Liste der größten Schiffe der Welt – Wikipedia.html', encoding='utf-8') as f:
    soup = BeautifulSoup(f, 'html.parser')

# bs4 hat mehrere Parser, die Web-Dokumente scannen.
# Die Wahl des passenden Parsers hängt von den Anforderungen ab und sie stellen das
# Dokument unterschiedlich dar. Wir benutzen im Folgenden den html-Parser.
# Mehr Infos:
# https://www.crummy.com/software/BeautifulSoup/bs4/doc/#differences-between-parsers

In [29]:
# Suppe bestaunen:
soup

<!DOCTYPE html>

<html class="client-nojs" dir="ltr" lang="de">
<head>
<meta charset="utf-8"/>
<title>Liste der größten Schiffe der Welt – Wikipedia</title>
<script>document.documentElement.className="client-js";RLCONF={"wgBreakFrames":false,"wgSeparatorTransformTable":[",\t.",".\t,"],"wgDigitTransformTable":["",""],"wgDefaultDateFormat":"dmy","wgMonthNames":["","Januar","Februar","März","April","Mai","Juni","Juli","August","September","Oktober","November","Dezember"],"wgRequestId":"85d2fc8f-8e94-4b28-bad9-7c90c40ddfe3","wgCanonicalNamespace":"","wgCanonicalSpecialPageName":false,"wgNamespaceNumber":0,"wgPageName":"Liste_der_größten_Schiffe_der_Welt","wgTitle":"Liste der größten Schiffe der Welt","wgCurRevisionId":241862931,"wgRevisionId":241862931,"wgArticleId":1548947,"wgIsArticle":true,"wgIsRedirect":false,"wgAction":"view","wgUserName":null,"wgUserGroups":["*"],"wgCategories":["Liste (Schiffe)","Liste (technische Rekorde)"],"wgPageViewLanguage":"de","wgPageContentLanguage":"de","wg

In [30]:
# Die erste Tabelle heraussondern:
soup.find('table')

<table class="wikitable sortable zebra">
<caption>Größte und längste Schiffe ihrer Art
</caption>
<tbody><tr>
<th>Kategorie</th>
<th>Schiffsname
</th></tr>
<tr>
<td><a href="/wiki/Kreuzfahrtschiff" title="Kreuzfahrtschiff">Kreuzfahrtschiff</a></td>
<td><i><a href="/wiki/Icon_of_the_Seas" title="Icon of the Seas">Icon of the Seas</a><sup class="reference" id="cite_ref-1"><a href="#cite_note-1">[1]</a></sup></i>
</td></tr>
<tr>
<td><a href="/wiki/Segelschiff" title="Segelschiff">Segelschiff</a></td>
<td><i><a href="/wiki/SY_A" title="SY A">SY A</a></i>
</td></tr>
<tr>
<td><a href="/wiki/Frachtsegler" title="Frachtsegler">Frachtsegler</a></td>
<td><i><a href="/wiki/France_(Schiff,_1912%E2%80%931922)" title="France (Schiff, 1912–1922)">France</a></i>
</td></tr>
<tr>
<td><a href="/wiki/Eisbrecher" title="Eisbrecher">Eisbrecher</a></td>
<td><a class="mw-redirect" href="/wiki/Arktika_(Schiff,_2020)" title="Arktika (Schiff, 2020)"><i>Arktika</i></a>
</td></tr>
<tr>
<td><a href="/wiki/Autof%C3%

In [31]:
soup.find('table')['class']

['wikitable', 'sortable', 'zebra']

In [32]:
soup.find(class_='wikitable sortable zebra')

<table class="wikitable sortable zebra">
<caption>Größte und längste Schiffe ihrer Art
</caption>
<tbody><tr>
<th>Kategorie</th>
<th>Schiffsname
</th></tr>
<tr>
<td><a href="/wiki/Kreuzfahrtschiff" title="Kreuzfahrtschiff">Kreuzfahrtschiff</a></td>
<td><i><a href="/wiki/Icon_of_the_Seas" title="Icon of the Seas">Icon of the Seas</a><sup class="reference" id="cite_ref-1"><a href="#cite_note-1">[1]</a></sup></i>
</td></tr>
<tr>
<td><a href="/wiki/Segelschiff" title="Segelschiff">Segelschiff</a></td>
<td><i><a href="/wiki/SY_A" title="SY A">SY A</a></i>
</td></tr>
<tr>
<td><a href="/wiki/Frachtsegler" title="Frachtsegler">Frachtsegler</a></td>
<td><i><a href="/wiki/France_(Schiff,_1912%E2%80%931922)" title="France (Schiff, 1912–1922)">France</a></i>
</td></tr>
<tr>
<td><a href="/wiki/Eisbrecher" title="Eisbrecher">Eisbrecher</a></td>
<td><a class="mw-redirect" href="/wiki/Arktika_(Schiff,_2020)" title="Arktika (Schiff, 2020)"><i>Arktika</i></a>
</td></tr>
<tr>
<td><a href="/wiki/Autof%C3%

In [33]:
# Selbes Element, anderer Weg:
soup.table

<table class="wikitable sortable zebra">
<caption>Größte und längste Schiffe ihrer Art
</caption>
<tbody><tr>
<th>Kategorie</th>
<th>Schiffsname
</th></tr>
<tr>
<td><a href="/wiki/Kreuzfahrtschiff" title="Kreuzfahrtschiff">Kreuzfahrtschiff</a></td>
<td><i><a href="/wiki/Icon_of_the_Seas" title="Icon of the Seas">Icon of the Seas</a><sup class="reference" id="cite_ref-1"><a href="#cite_note-1">[1]</a></sup></i>
</td></tr>
<tr>
<td><a href="/wiki/Segelschiff" title="Segelschiff">Segelschiff</a></td>
<td><i><a href="/wiki/SY_A" title="SY A">SY A</a></i>
</td></tr>
<tr>
<td><a href="/wiki/Frachtsegler" title="Frachtsegler">Frachtsegler</a></td>
<td><i><a href="/wiki/France_(Schiff,_1912%E2%80%931922)" title="France (Schiff, 1912–1922)">France</a></i>
</td></tr>
<tr>
<td><a href="/wiki/Eisbrecher" title="Eisbrecher">Eisbrecher</a></td>
<td><a class="mw-redirect" href="/wiki/Arktika_(Schiff,_2020)" title="Arktika (Schiff, 2020)"><i>Arktika</i></a>
</td></tr>
<tr>
<td><a href="/wiki/Autof%C3%

In [40]:
# Die Klassenzugehörigkeiten aller Tabellen im Artikel (Mini-Exkurs):
for table in soup.find_all('table'):
    print(table['class'])

['wikitable', 'sortable', 'zebra']
['wikitable', 'sortable', 'toptextcells', 'zebra']


In [41]:
soup.table == soup.find('table')

True

In [42]:
# Wenn's hübscher aussehen soll:
print(soup.find('table').prettify())

<table class="wikitable sortable zebra">
 <caption>
  Größte und längste Schiffe ihrer Art
 </caption>
 <tbody>
  <tr>
   <th>
    Kategorie
   </th>
   <th>
    Schiffsname
   </th>
  </tr>
  <tr>
   <td>
    <a href="/wiki/Kreuzfahrtschiff" title="Kreuzfahrtschiff">
     Kreuzfahrtschiff
    </a>
   </td>
   <td>
    <i>
     <a href="/wiki/Icon_of_the_Seas" title="Icon of the Seas">
      Icon of the Seas
     </a>
     <sup class="reference" id="cite_ref-1">
      <a href="#cite_note-1">
       [1]
      </a>
     </sup>
    </i>
   </td>
  </tr>
  <tr>
   <td>
    <a href="/wiki/Segelschiff" title="Segelschiff">
     Segelschiff
    </a>
   </td>
   <td>
    <i>
     <a href="/wiki/SY_A" title="SY A">
      SY A
     </a>
    </i>
   </td>
  </tr>
  <tr>
   <td>
    <a href="/wiki/Frachtsegler" title="Frachtsegler">
     Frachtsegler
    </a>
   </td>
   <td>
    <i>
     <a href="/wiki/France_(Schiff,_1912%E2%80%931922)" title="France (Schiff, 1912–1922)">
      France
     </a>


In [43]:
# Alle Datenfelder holen:
data_fields = soup.find('table').find_all('td')
data_fields

[<td><a href="/wiki/Kreuzfahrtschiff" title="Kreuzfahrtschiff">Kreuzfahrtschiff</a></td>,
 <td><i><a href="/wiki/Icon_of_the_Seas" title="Icon of the Seas">Icon of the Seas</a><sup class="reference" id="cite_ref-1"><a href="#cite_note-1">[1]</a></sup></i>
 </td>,
 <td><a href="/wiki/Segelschiff" title="Segelschiff">Segelschiff</a></td>,
 <td><i><a href="/wiki/SY_A" title="SY A">SY A</a></i>
 </td>,
 <td><a href="/wiki/Frachtsegler" title="Frachtsegler">Frachtsegler</a></td>,
 <td><i><a href="/wiki/France_(Schiff,_1912%E2%80%931922)" title="France (Schiff, 1912–1922)">France</a></i>
 </td>,
 <td><a href="/wiki/Eisbrecher" title="Eisbrecher">Eisbrecher</a></td>,
 <td><a class="mw-redirect" href="/wiki/Arktika_(Schiff,_2020)" title="Arktika (Schiff, 2020)"><i>Arktika</i></a>
 </td>,
 <td><a href="/wiki/Autof%C3%A4hre" title="Autofähre">Autofähre</a></td>,
 <td><i><a href="/wiki/Color_Magic" title="Color Magic">Color Magic</a></i> (nach Größe (BRZ)); <i><a href="/wiki/Cruise_Barcelona" tit

In [44]:
# Nur die Text-Inhalte der Datenfelder:
for field in data_fields:
    print(field.text)

Kreuzfahrtschiff
Icon of the Seas[1]

Segelschiff
SY A

Frachtsegler
France

Eisbrecher
Arktika

Autofähre
Color Magic (nach Größe (BRZ)); Cruise Barcelona und Cruise Roma (nach Länge)

LNG-Fähre
Nils Holgerson, Peter Pan

Kombifähre (Eisenbahn/RoRo)
Skåne

Autotransporter
Tysla, Salome (nach Länge und Tragfähigkeit); Höegh Target (nach Tonnage und Fahrzeugkapazität)

Flugzeugträger
USS Gerald R. Ford (CVN-78) (nach Tonnage); USS Enterprise (CVN 65) (nach Länge)

Schlachtschiff
Yamato und Musashi

Unterseeboot
Dmitri Donskoi (TK-208)

Containerschiff
MSC Irina[2][3]

Schüttgutschiff
Yuan He Hai (Valemax-Klasse)

Öltanker (doppelwandig)
TI Europe, TI Oceania ⁠Anm. 1

Öltanker (einwandig)
Jahre Viking ⁠Anm. 2; Pierre Guillaumat

Flüssiggastanker
Mozah

Dockschiff
Boka Vanguard

Schwimmkran
Sleipnir

Motoryacht
REV Ocean (nach Länge); Dilbar (nach Größe (BRZ))

Schlepper
Island Victory

Schubboot
E. Bronson Ingram

Katamaran
Stena Explorer

Seenotrettungskreuzer
Hermann Marwede

Trimaran


In [46]:
# Alle Links sammeln:
soup.find('table').find_all('a')

[<a href="/wiki/Kreuzfahrtschiff" title="Kreuzfahrtschiff">Kreuzfahrtschiff</a>,
 <a href="/wiki/Icon_of_the_Seas" title="Icon of the Seas">Icon of the Seas</a>,
 <a href="#cite_note-1">[1]</a>,
 <a href="/wiki/Segelschiff" title="Segelschiff">Segelschiff</a>,
 <a href="/wiki/SY_A" title="SY A">SY A</a>,
 <a href="/wiki/Frachtsegler" title="Frachtsegler">Frachtsegler</a>,
 <a href="/wiki/France_(Schiff,_1912%E2%80%931922)" title="France (Schiff, 1912–1922)">France</a>,
 <a href="/wiki/Eisbrecher" title="Eisbrecher">Eisbrecher</a>,
 <a class="mw-redirect" href="/wiki/Arktika_(Schiff,_2020)" title="Arktika (Schiff, 2020)"><i>Arktika</i></a>,
 <a href="/wiki/Autof%C3%A4hre" title="Autofähre">Autofähre</a>,
 <a href="/wiki/Color_Magic" title="Color Magic">Color Magic</a>,
 <a href="/wiki/Cruise_Barcelona" title="Cruise Barcelona">Cruise Barcelona</a>,
 <a href="/wiki/Cruise_Roma" title="Cruise Roma">Cruise Roma</a>,
 <a class="new" href="/w/index.php?title=LNG-F%C3%A4hre&amp;action=edit&am

In [47]:
# Packen wir doch das Zwischenergebnis für die Lesbarkeit auf eine Variabel:
anchors = soup.find('table').find_all('a')

In [48]:
# Wir wollen JEDEN Link aus dieser Liste bekommen, starten aber erstmal klein
# mit nur einem Link: 
anchors[0]

<a href="/wiki/Kreuzfahrtschiff" title="Kreuzfahrtschiff">Kreuzfahrtschiff</a>

In [49]:
# Man kann auf Attribute mit Schlüssel-Notation zugreifen (kennen wir von Dicts):
anchors[0]['href']

'/wiki/Kreuzfahrtschiff'

In [50]:
# Mini-Übung: Wie komm ich an title?
anchors[0]['title']

'Kreuzfahrtschiff'

In [51]:
# Alternativ geht das auch mit der get-Notation:
anchors[0].get('href')

'/wiki/Kreuzfahrtschiff'

In [None]:
# Und jetzt Denkschmalz-Aufgabe: Wie lasse ich mir ALLE Links ausgeben?

In [54]:
for anchor in anchors:
    print(anchor.get('href'))

/wiki/Kreuzfahrtschiff
/wiki/Icon_of_the_Seas
#cite_note-1
/wiki/Segelschiff
/wiki/SY_A
/wiki/Frachtsegler
/wiki/France_(Schiff,_1912%E2%80%931922)
/wiki/Eisbrecher
/wiki/Arktika_(Schiff,_2020)
/wiki/Autof%C3%A4hre
/wiki/Color_Magic
/wiki/Cruise_Barcelona
/wiki/Cruise_Roma
/w/index.php?title=LNG-F%C3%A4hre&action=edit&redlink=1
/wiki/Nils_Holgersson_(Schiff,_2022)
/wiki/Peter_Pan_(Schiff,_2022)
/wiki/Sk%C3%A5ne_(Schiff,_1998)
/wiki/Mark-V-Klasse
/wiki/New-Horizon-Klasse
/wiki/Flugzeugtr%C3%A4ger
/wiki/USS_Gerald_R._Ford_(CVN-78)
/wiki/USS_Enterprise_(CVN-65)
/wiki/Schlachtschiff
/wiki/Yamato_(Schiff,_1941)
/wiki/Musashi_(Schiff,_1942)
/wiki/Unterseeboot
/wiki/TK-208_Dmitri_Donskoj
/wiki/Containerschiff
/wiki/MSC-Irina-Typ
#cite_note-2
#cite_note-3
/wiki/Sch%C3%BCttgutschiff
/wiki/Valemax-Klasse
/wiki/%C3%96ltanker
/wiki/Hellespont-Alhambra-Klasse
/wiki/Hellespont-Alhambra-Klasse
#FNZ_Anm._1
/wiki/Jahre_Viking
#FNZ_Anm._2
/wiki/Pierre_Guillaumat_(Schiff)
/wiki/Fl%C3%BCssiggastanker
/wik

In [55]:
ressource_paths = [anchor.get('href') for anchor in anchors]
ressource_paths

['/wiki/Kreuzfahrtschiff',
 '/wiki/Icon_of_the_Seas',
 '#cite_note-1',
 '/wiki/Segelschiff',
 '/wiki/SY_A',
 '/wiki/Frachtsegler',
 '/wiki/France_(Schiff,_1912%E2%80%931922)',
 '/wiki/Eisbrecher',
 '/wiki/Arktika_(Schiff,_2020)',
 '/wiki/Autof%C3%A4hre',
 '/wiki/Color_Magic',
 '/wiki/Cruise_Barcelona',
 '/wiki/Cruise_Roma',
 '/w/index.php?title=LNG-F%C3%A4hre&action=edit&redlink=1',
 '/wiki/Nils_Holgersson_(Schiff,_2022)',
 '/wiki/Peter_Pan_(Schiff,_2022)',
 '/wiki/Sk%C3%A5ne_(Schiff,_1998)',
 '/wiki/Mark-V-Klasse',
 '/wiki/New-Horizon-Klasse',
 '/wiki/Flugzeugtr%C3%A4ger',
 '/wiki/USS_Gerald_R._Ford_(CVN-78)',
 '/wiki/USS_Enterprise_(CVN-65)',
 '/wiki/Schlachtschiff',
 '/wiki/Yamato_(Schiff,_1941)',
 '/wiki/Musashi_(Schiff,_1942)',
 '/wiki/Unterseeboot',
 '/wiki/TK-208_Dmitri_Donskoj',
 '/wiki/Containerschiff',
 '/wiki/MSC-Irina-Typ',
 '#cite_note-2',
 '#cite_note-3',
 '/wiki/Sch%C3%BCttgutschiff',
 '/wiki/Valemax-Klasse',
 '/wiki/%C3%96ltanker',
 '/wiki/Hellespont-Alhambra-Klasse',
 

In [None]:
# Das sind jetzt aber keine funktionsfähigen Links, sondern nur die Ressourcenpfade.
# Die Basis-URL fehlt.
# Wie kriegen wir alle diese URL-Teile als ganze URLs?

In [56]:
base_url = 'https://de.wikipedia.org'

In [57]:
full_urls = [base_url + ressource for ressource in ressource_paths]
full_urls

['https://de.wikipedia.org/wiki/Kreuzfahrtschiff',
 'https://de.wikipedia.org/wiki/Icon_of_the_Seas',
 'https://de.wikipedia.org#cite_note-1',
 'https://de.wikipedia.org/wiki/Segelschiff',
 'https://de.wikipedia.org/wiki/SY_A',
 'https://de.wikipedia.org/wiki/Frachtsegler',
 'https://de.wikipedia.org/wiki/France_(Schiff,_1912%E2%80%931922)',
 'https://de.wikipedia.org/wiki/Eisbrecher',
 'https://de.wikipedia.org/wiki/Arktika_(Schiff,_2020)',
 'https://de.wikipedia.org/wiki/Autof%C3%A4hre',
 'https://de.wikipedia.org/wiki/Color_Magic',
 'https://de.wikipedia.org/wiki/Cruise_Barcelona',
 'https://de.wikipedia.org/wiki/Cruise_Roma',
 'https://de.wikipedia.org/w/index.php?title=LNG-F%C3%A4hre&action=edit&redlink=1',
 'https://de.wikipedia.org/wiki/Nils_Holgersson_(Schiff,_2022)',
 'https://de.wikipedia.org/wiki/Peter_Pan_(Schiff,_2022)',
 'https://de.wikipedia.org/wiki/Sk%C3%A5ne_(Schiff,_1998)',
 'https://de.wikipedia.org/wiki/Mark-V-Klasse',
 'https://de.wikipedia.org/wiki/New-Horizon-Kl

### Natürlich müssen wir für unsere Suppen keine lokale HTML-Datei vorliegen haben

In [68]:
# Schiffe mit requests an Land ziehen:
ships_url = 'https://de.wikipedia.org/wiki/Liste_der_gr%C3%B6%C3%9Ften_Schiffe_der_Welt'
response = requests.get(ships_url)

In [70]:
response.text

'<!DOCTYPE html>\n<html class="client-nojs" lang="de" dir="ltr">\n<head>\n<meta charset="UTF-8">\n<title>Liste der größten Schiffe der Welt – Wikipedia</title>\n<script>(function(){var className="client-js";var cookie=document.cookie.match(/(?:^|; )dewikimwclientpreferences=([^;]+)/);if(cookie){cookie[1].split(\'%2C\').forEach(function(pref){className=className.replace(new RegExp(\'(^| )\'+pref.replace(/-clientpref-\\w+$|[^\\w-]+/g,\'\')+\'-clientpref-\\\\w+( |$)\'),\'$1\'+pref+\'$2\');});}document.documentElement.className=className;}());RLCONF={"wgBreakFrames":false,"wgSeparatorTransformTable":[",\\t.",".\\t,"],"wgDigitTransformTable":["",""],"wgDefaultDateFormat":"dmy","wgMonthNames":["","Januar","Februar","März","April","Mai","Juni","Juli","August","September","Oktober","November","Dezember"],"wgRequestId":"909436f0-5822-4606-87cf-4f0a5fa8153c","wgCanonicalNamespace":"","wgCanonicalSpecialPageName":false,"wgNamespaceNumber":0,"wgPageName":"Liste_der_größten_Schiffe_der_Welt","wgTit

In [71]:
ship_soup = BeautifulSoup(response.text)

In [72]:
ship_soup.find('table')

<table class="wikitable sortable zebra">
<caption>Größte und längste Schiffe ihrer Art
</caption>
<tbody><tr>
<th>Kategorie</th>
<th>Schiffsname
</th></tr>
<tr>
<td><a href="/wiki/Kreuzfahrtschiff" title="Kreuzfahrtschiff">Kreuzfahrtschiff</a></td>
<td><i><a href="/wiki/Icon_of_the_Seas" title="Icon of the Seas">Icon of the Seas</a><sup class="reference" id="cite_ref-1"><a href="#cite_note-1"><span class="cite-bracket">[</span>1<span class="cite-bracket">]</span></a></sup></i>
</td></tr>
<tr>
<td><a href="/wiki/Segelschiff" title="Segelschiff">Segelschiff</a></td>
<td><i><a href="/wiki/SY_A" title="SY A">SY A</a></i>
</td></tr>
<tr>
<td><a href="/wiki/Frachtsegler" title="Frachtsegler">Frachtsegler</a></td>
<td><i><a href="/wiki/France_(Schiff,_1912%E2%80%931922)" title="France (Schiff, 1912–1922)">France</a></i> (nach Größe [BRT])<i>, <a href="/wiki/Preu%C3%9Fen_(Schiff,_1902)" title="Preußen (Schiff, 1902)">Preußen</a></i> (nach Länge)
</td></tr>
<tr>
<td><a href="/wiki/Eisbrecher" t

In [None]:
# Und jetzt seid ihr dran! Nehmt DataCraft und holt von dort die Namen 
# und Background der Dozenten! Bitte als Text, ohne HTML-Elemente!
# Bonus: Regelt das mit den Umlauten!

In [73]:
response = requests.get('https://www.data-craft.de/')

In [74]:
# Encoding anpassen für Umlaute:
response.encoding = 'utf-8'

In [75]:
soup = BeautifulSoup(response.text)

In [76]:
# :-1 weil, letztes Element keine Teaminfo ist:
team_infos = soup.find_all('strong')[:-1]
team_infos

[<strong class="bold-text">M.Sc. Eric Rost</strong>,
 <strong class="bold-text-2">Master of Science</strong>,
 <strong class="bold-text-3">Dr. Pascal Kroh</strong>,
 <strong class="bold-text-2">Doktor der Biophysik</strong>,
 <strong class="bold-text-4">B.A. Merve Yalcin</strong>,
 <strong class="bold-text-2">Doktor der Mathematik</strong>,
 <strong class="bold-text-5">Dr. Nils Höche</strong>,
 <strong class="bold-text-2">Doktor der Geologie</strong>,
 <strong class="bold-text-6">M.A. V. Raskatov</strong>,
 <strong class="bold-text-2">Master der Germanistik</strong>]

In [77]:
for info in team_infos:
    print(info.text)

M.Sc. Eric Rost
Master of Science
Dr. Pascal Kroh
Doktor der Biophysik
B.A. Merve Yalcin
Doktor der Mathematik
Dr. Nils Höche
Doktor der Geologie
M.A. V. Raskatov
Master der Germanistik


## Webscraping am Beispiel erklärt

Als Beispiel untersuchen wir die Webseite https://worldofwarcraft.com/de-de/game/classes

Um zu prüfen, was wir auf der Webseite dürfen und ob bestimmte Inhalte von Webscraping verboten sind, müssen wir die robots.txt Seite aufsuchen
https://worldofwarcraft.com/robots.txt

Den Inhalt der Webseite können wir schon in python abrufen. Dazu können wir `requests.get` verwenden. Wir erhalten allerdings HTML Code zurück, und müssen diesen durchsuchen, um an die Infos zu kommen, die uns interessieren. Dafür benutzen wir "Beautiful Soup 4".

In [79]:
# Schritt 1: Webseiten-Inhalte abrufen
url = 'https://worldofwarcraft.com/de-de/game/classes'
response = requests.get(url)
response.text

'<!DOCTYPE html><html lang="de-DE"><head><title>Spielbare Klassen</title><script>var optimizelyEnabled = false;\ntry {\n  optimizelyEnabled = JSON.parse(\'true\');\n} catch (err) {\n  console.log(err);\n}\n</script><script>var optimizelyLoaded = (function () {\n  var OPTIMIZELY_AGENT_LOADED_EVENT = \'OptimizelyWebLoaded\';\n  var OPTIMIZELY_FULLSTACK_DATAFILE_LOADED_EVENT = \'OptimizelyFullstackDataFileLoaded\';\n\n  function initOptimizely() {\n    var agentScript = document.createElement(\'script\');\n    agentScript.src = \'https://cdn.optimizely.com/js/8521175242.js\';\n    agentScript.onload = function () {\n      optimizelyLoaded = true;\n      trigger(OPTIMIZELY_AGENT_LOADED_EVENT);\n    };\n    document.head.appendChild(agentScript);\n\n    var optimizelySdkKey = \'\';\n    var optimizelySdkEnabled = false;\n    try {\n      optimizelySdkEnabled = JSON.parse(\'true\');\n    } catch (err) {\n      console.log(err);\n    }\n    if (optimizelySdkKey && optimizelySdkEnabled) {\n   

In [80]:
# Schritt 2: Suppen-Objekt erstellen -> Inhalt wird von bs4 ausgelesen und umgewandelt
soup = BeautifulSoup(response.text)

In [83]:
# Schritt 3: Die Suppe durchsuchen
#            Welche HTML-Tags wollen wir finden?
# Klasse Card-title ist interessant!
classes = soup.find_all(class_='Card-title')
classes

[<div class="Card-title">Krieger</div>,
 <div class="Card-title">Jäger</div>,
 <div class="Card-title">Priester</div>,
 <div class="Card-title">Magier</div>,
 <div class="Card-title">Mönch</div>,
 <div class="Card-title">Dämonenjäger</div>,
 <div class="Card-title">Rufer</div>,
 <div class="Card-title">Paladin</div>,
 <div class="Card-title">Schurke</div>,
 <div class="Card-title">Schamane</div>,
 <div class="Card-title">Hexenmeister</div>,
 <div class="Card-title">Druide</div>,
 <div class="Card-title">Todesritter</div>]

In [84]:
# Schritt 4: Jetzt wollen wir für jedes Objekt nur den
# Textinhalt und diesen als neue Liste speichern.
classes = {'Klasse': [c.text for c in classes]}
classes

{'Klasse': ['Krieger',
  'Jäger',
  'Priester',
  'Magier',
  'Mönch',
  'Dämonenjäger',
  'Rufer',
  'Paladin',
  'Schurke',
  'Schamane',
  'Hexenmeister',
  'Druide',
  'Todesritter']}

In [85]:
# Schritt 5: Gesammelte Daten optional zu einem
# DataFrame umwandeln.
classes_df = pd.DataFrame(classes)
classes_df

Unnamed: 0,Klasse
0,Krieger
1,Jäger
2,Priester
3,Magier
4,Mönch
5,Dämonenjäger
6,Rufer
7,Paladin
8,Schurke
9,Schamane


In [86]:
# Schritt 3 alternativ (und spezifischer):
classes = [c.text for c in soup.css.select('.Card-title')]
classes

['Krieger',
 'Jäger',
 'Priester',
 'Magier',
 'Mönch',
 'Dämonenjäger',
 'Rufer',
 'Paladin',
 'Schurke',
 'Schamane',
 'Hexenmeister',
 'Druide',
 'Todesritter']

In [None]:
# Aufgabe: 
# Holt Euch die Zitate und Autorennamen von folgender URL:
# https://quotes.toscrape.com/
# Lasst Euch alle Zitate auf der ersten Seite mit Autoren ausgeben oder schreibt diese in eine txt-Datei!
# Bonus: Holt euch alle Zitate von allen Seiten, auf denen es Zitate gibt!

In [80]:
quotes_url = 'https://quotes.toscrape.com/'

In [81]:
response = requests.get(quotes_url)
response.encoding = 'utf-8'
soup = BeautifulSoup(response.text, 'html.parser')

In [82]:
quotes = soup.find_all('div', class_='quote')
quotes

[<div class="quote" itemscope="" itemtype="http://schema.org/CreativeWork">
 <span class="text" itemprop="text">“The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.”</span>
 <span>by <small class="author" itemprop="author">Albert Einstein</small>
 <a href="/author/Albert-Einstein">(about)</a>
 </span>
 <div class="tags">
             Tags:
             <meta class="keywords" content="change,deep-thoughts,thinking,world" itemprop="keywords"/>
 <a class="tag" href="/tag/change/page/1/">change</a>
 <a class="tag" href="/tag/deep-thoughts/page/1/">deep-thoughts</a>
 <a class="tag" href="/tag/thinking/page/1/">thinking</a>
 <a class="tag" href="/tag/world/page/1/">world</a>
 </div>
 </div>,
 <div class="quote" itemscope="" itemtype="http://schema.org/CreativeWork">
 <span class="text" itemprop="text">“It is our choices, Harry, that show what we truly are, far more than our abilities.”</span>
 <span>by <small class="author" itempr

In [83]:
quotes[0]

<div class="quote" itemscope="" itemtype="http://schema.org/CreativeWork">
<span class="text" itemprop="text">“The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.”</span>
<span>by <small class="author" itemprop="author">Albert Einstein</small>
<a href="/author/Albert-Einstein">(about)</a>
</span>
<div class="tags">
            Tags:
            <meta class="keywords" content="change,deep-thoughts,thinking,world" itemprop="keywords"/>
<a class="tag" href="/tag/change/page/1/">change</a>
<a class="tag" href="/tag/deep-thoughts/page/1/">deep-thoughts</a>
<a class="tag" href="/tag/thinking/page/1/">thinking</a>
<a class="tag" href="/tag/world/page/1/">world</a>
</div>
</div>

In [84]:
quotes[0].find('span').text

'“The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.”'

In [85]:
quotes[0].find('small').text

'Albert Einstein'

In [86]:
for quote in quotes:
    print('Quote:\n',quote.find('span').text)
    print('Author:', quote.find('small').text)
    print()

Quote:
 “The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.”
Author: Albert Einstein

Quote:
 “It is our choices, Harry, that show what we truly are, far more than our abilities.”
Author: J.K. Rowling

Quote:
 “There are only two ways to live your life. One is as though nothing is a miracle. The other is as though everything is a miracle.”
Author: Albert Einstein

Quote:
 “The person, be it gentleman or lady, who has not pleasure in a good novel, must be intolerably stupid.”
Author: Jane Austen

Quote:
 “Imperfection is beauty, madness is genius and it's better to be absolutely ridiculous than absolutely boring.”
Author: Marilyn Monroe

Quote:
 “Try not to become a man of success. Rather become a man of value.”
Author: Albert Einstein

Quote:
 “It is better to be hated for what you are than to be loved for what you are not.”
Author: André Gide

Quote:
 “I have not failed. I've just found 10,000 ways that won't work.”
Author