# Web-Scraping mit BeautifulSoup

## Web-Scraping

Der Begriff Web-Scraping bezeichnet unterschiedliche Verfahren, mit denen Informationen aus Webseiten extrahiert werden können. Das können z.B. E-Mail-Adressen, Kontaktinformationen oder Verkaufspreise sein. 

Beim Web-Scraping finden unterschiedliche Techniken anwendung, um die gewünschten Informationen auszulesen: 

<b>Manuelles-Scraping</b>

Bei dieser Methode werden die Informationen vom Benutzer selbst manuell ausgelesen und zugeordnet. Dies ist die älteste und auch die aufwendigste Methode, vor allem wenn große Datenmengen eingelesen werden sollen.

<b>Abgleich von Textmustern</b>

In Linux können, mit dem "grep Befehl", Dateien nach bestimmten Begriffen durchsucht werden. Dieser Befehl kann auch in Python verwendet werden. 

<b>HTML-Parsing-Technik</b>

Mithilfe des HTML-Parsings können verschachtelte und lineare HTML Seiten gelesen, zerlegt und in einer strukturierten Form wieder ausgegeben werden. Diese Methode ist eine der schnellsten und robustesten Methoden für die Anwendung von Web-Scraping. Hiermit können leicht unterschiedliche Informationen, wie z.B. Texte und Links extrahiert werden.

<b>DOM-Parsing-Technik und XPath</b>

Diese Techniken werden für Webseiten mit XML-Dateien genutzt. Dabei können ausführliche Informationen über die Art und Struktur einer Webseite gewonnen werden.


### Wozu Web-Scraping?

Die Meisten von uns rufen Webseiten im Browser auf, da dieser viele Inhalte, wie JavaScript und Bilder, im Menschen-lesbaren Format darstellen kann. Dies bedeutet aber auch, dass wir in kurzer Zeit nur wenige Webseiten betrachten und nach den gewünschten Informationen suchen können.

Wohingegen Web-Scraper mehrere Seiten innerhalb kürzester Zeit nach Informationen durchsuchen können. Die gewonnenen Daten können anschließend in Datenbanken gespeichert werden. 

Auch mit einem Python Skript können fast alle Webseiten, die im Browser angezeigt werden, ausgelesen werden. Diese Daten können zudem in einer Datenbank gespeichert und weiterverarbeitet bzw. -genutzt werden.

Das Auslesen von Informationen ist zunächst nicht illegal. Die Verwendung dieser Daten kann aber unter Umständen illegal sein. Das trifft unter anderem bei persönlichen und urheberrechtlich geschützen Daten zu. Mithilfe von Web-Scrapern können zum Beispiel E-Mail Adressen auf unterschiedlichen Webseiten ausgelesen werden. Wenn die gelesenen E-Mail Adressen nun zu Spamzwecken missbraucht werden, ist dies illegal.
Zudem dürfen Daten von Webseiten nur ausgelesen werden, wenn es der Webbetreiber "erlaubt". Einige Webbetreiber schützen sich vor dem Auslesen ihrer Daten. Wenn dieser Schutz umgangen wird, ist bereits das Lesen der Informationen rechtswiedrig.

Es gibt einige Tools mit denen es möglich ist, Webseiten auszulesen. Diese sind hilfreich für Menschen, die keinerlei Programmiererfahrungen vorweisen. Da wir aber inzwischen den Umgang mit Python erlernt haben, verwenden wir in diesem Skript das Python-Paket "BeautifulSoup". Mit diesem Paket können wir Informationen aus HTML und XML Seiten gewinnen.

## BeautifulSoup

In [1]:
from bs4 import BeautifulSoup  # importiert BeautifulSoup

Falls der Import nicht funktioniert, kann das Paket über Anaconda oder über die Console mit folgendem Befehl installiert werden:

$ pip install beautifulsoup4

In der <a href="https://www.crummy.com/software/BeautifulSoup/bs4/doc/#">BeautifulSoup Dokumentation</a> sind die vier folgenden Objekttypen definiert, mit denen wir auch in diesem Notebook arbeiten werden.

- Das BeautifulSoup-Objekt
- Das Tag-Objekt
- Das NavigableString-Objekt
- Das Comment-Objekt

Bevor wir beginnen aus einer Webseite Daten auszulesen, werde ich euch anhand eines kleinen selbst geschriebenen HTML Code zeigen, wie Daten mit BeautifulSoup ausgelesen werden können. 

Den Quellcode findet ihr in der Datei "Einkauf.html".

Dieser HTML-Code sieht im Browser folgendermaßen aus:


![Einkauf_html](img/einkauf_html.png)

## Das BeautifulSoup Objekt

Zunächst wird der Quellcode der Datei eingelesen

In [2]:
html_temp = ''' <html><head><title>Einkaufsliste</title></head>
<body>

<b><!--Hier Angebote vergleichen!--></b>

<p class='description'><h1>Liste für den nächsten Einkauf</h1>


<h2>Lebensmittel:</h2>
       
 <ul>
  <li>Tomatensoße</li>
  <li>Nudeln</li>
  <li>Käse</li>
  <li>Joghurt</li>   
  </ul>
  
<br>
  
<h2>Getränke:</h2>
    
 <ul>
  <li>Wasser</li>
  <li>Orangensaft</li>
  <li>Cola</li>
  <li>Bier</li>   
  </ul>
<br>

</p> 

<p class='description'><h1>Angebotsvergleich</h1>
Angebote in folgenden Supermärkten vergleichen:
<br>
<a href='https://shop.rewe.de/' class = 'preview' id='link 1'>Rewe</a>, <br>
<a href='https://www.kaufland.de/' class = 'preview' id='link 2'>Kaufland</a>, <br>
<a href='https://www.lidl.de/' class = 'preview' id='link 3'>Lidl</a>, <br>
<a href='https://www.aldi-sued.de/' class = 'preview' id='link 3'>Aldi</a>
</p> '''

Anschließend wird damit ein BeautifulSoup-Objekt erstellt. Das BeautifulSoup-Objekt repräsentiert also ein Dokument. Wir können nun mit dem Objekt weiterarbeiten und Daten auslesen. 

Wir verwenden hierfür den "html.parser". Dieser ist bereits in der Standard Bibliothek von Python enthalten. Weitere Parser können installiert werden. Eine Übersicht über die unterstützen Parser findet ihr in der <a href="https://www.crummy.com/software/BeautifulSoup/bs4/doc/#installing-a-parser">BeautifulSoup Dokumentation.</a>


In [3]:
soup = BeautifulSoup(html_temp, 'html.parser') # Erzeugt ein BeautifulSoup Objekt

In [4]:
type(soup)  # Gibt den Typ des Objektes aus

bs4.BeautifulSoup

In [5]:
print(soup) # Gibt das Objekt aus

 <html><head><title>Einkaufsliste</title></head>
<body>
<b><!--Hier Angebote vergleichen!--></b>
<p class="description"><h1>Liste für den nächsten Einkauf</h1>
<h2>Lebensmittel:</h2>
<ul>
<li>Tomatensoße</li>
<li>Nudeln</li>
<li>Käse</li>
<li>Joghurt</li>
</ul>
<br/>
<h2>Getränke:</h2>
<ul>
<li>Wasser</li>
<li>Orangensaft</li>
<li>Cola</li>
<li>Bier</li>
</ul>
<br/>
</p>
<p class="description"><h1>Angebotsvergleich</h1>
Angebote in folgenden Supermärkten vergleichen:
<br/>
<a class="preview" href="https://shop.rewe.de/" id="link 1">Rewe</a>, <br/>
<a class="preview" href="https://www.kaufland.de/" id="link 2">Kaufland</a>, <br/>
<a class="preview" href="https://www.lidl.de/" id="link 3">Lidl</a>, <br/>
<a class="preview" href="https://www.aldi-sued.de/" id="link 3">Aldi</a>
</p> </body></html>


Wie ihr sehen könnt, wird der eben eingelesene HTML Code ausgegeben. Um Die Darstellung etwas übersichtlicher zu gestalten, kann das Objekt mit der Methode prettify() ausgegeben werden. Mit dieser Darstellung erhält man einen sogenannten Syntaxbaum.

In [6]:
print(soup.prettify())

<html>
 <head>
  <title>
   Einkaufsliste
  </title>
 </head>
 <body>
  <b>
   <!--Hier Angebote vergleichen!-->
  </b>
  <p class="description">
   <h1>
    Liste für den nächsten Einkauf
   </h1>
   <h2>
    Lebensmittel:
   </h2>
   <ul>
    <li>
     Tomatensoße
    </li>
    <li>
     Nudeln
    </li>
    <li>
     Käse
    </li>
    <li>
     Joghurt
    </li>
   </ul>
   <br/>
   <h2>
    Getränke:
   </h2>
   <ul>
    <li>
     Wasser
    </li>
    <li>
     Orangensaft
    </li>
    <li>
     Cola
    </li>
    <li>
     Bier
    </li>
   </ul>
   <br/>
  </p>
  <p class="description">
   <h1>
    Angebotsvergleich
   </h1>
   Angebote in folgenden Supermärkten vergleichen:
   <br/>
   <a class="preview" href="https://shop.rewe.de/" id="link 1">
    Rewe
   </a>
   ,
   <br/>
   <a class="preview" href="https://www.kaufland.de/" id="link 2">
    Kaufland
   </a>
   ,
   <br/>
   <a class="preview" href="https://www.lidl.de/" id="link 3">
    Lidl
   </a>
   ,
   <br/>
   <a cl

## Das Tag-Objekt

Mit dem Tag-Objekt kann in einem Dokument nach HTML und XML-Tags gesucht werden, um diese anschließend auszugeben.

In [7]:
title = soup.title # Gibt den Titel aus
title

<title>Einkaufsliste</title>

In [8]:
type(title) # Zeigt den Datentyp an

bs4.element.Tag

Mit tag.name kann wiederum der Tag ausgegeben werden:

In [9]:
title.name

'title'

mit soup.a kann ein Link und dessen Attribute von der Webseite eingelesen werden. Allerdings wird immer nur der erste gefundene Link gelesen.

In [10]:
link = soup.a  # Liest einen Link ein
link

<a class="preview" href="https://shop.rewe.de/" id="link 1">Rewe</a>

In [11]:
type(link)

bs4.element.Tag

In [12]:
link.name

'a'

Mit tag.attrs können alle vorhandenen Attribute eines Tags ausgelesen werden.

In [13]:
link.attrs

{'class': ['preview'], 'href': 'https://shop.rewe.de/', 'id': 'link 1'}

Der Tag kann auch nach bestimmten Attributen gefiltert werden. In diesem Fall interessiert uns nur der Link, weshalb wir nach dem Attribut "href" filtern.

In [14]:
link_attr = soup.a['href']  # 1. Variante
link_attr

'https://shop.rewe.de/'

In [15]:
link_attr2  = link.attrs['href'] # 2. Variante
link_attr2 

'https://shop.rewe.de/'

In [16]:
body = soup.body # Liest den Tag "body" aus
body

<body>
<b><!--Hier Angebote vergleichen!--></b>
<p class="description"><h1>Liste für den nächsten Einkauf</h1>
<h2>Lebensmittel:</h2>
<ul>
<li>Tomatensoße</li>
<li>Nudeln</li>
<li>Käse</li>
<li>Joghurt</li>
</ul>
<br/>
<h2>Getränke:</h2>
<ul>
<li>Wasser</li>
<li>Orangensaft</li>
<li>Cola</li>
<li>Bier</li>
</ul>
<br/>
</p>
<p class="description"><h1>Angebotsvergleich</h1>
Angebote in folgenden Supermärkten vergleichen:
<br/>
<a class="preview" href="https://shop.rewe.de/" id="link 1">Rewe</a>, <br/>
<a class="preview" href="https://www.kaufland.de/" id="link 2">Kaufland</a>, <br/>
<a class="preview" href="https://www.lidl.de/" id="link 3">Lidl</a>, <br/>
<a class="preview" href="https://www.aldi-sued.de/" id="link 3">Aldi</a>
</p> </body>

## NavigableString-Objekt

Mithilfe des NavigableString-Objektes können wir einen Text, der von Tags umschlossen ist, auslesen. Die Tags selbst werden dabei nicht ausgegeben.

In [17]:
link.string # Gibt den String des eben ausgelesenen Links aus

'Rewe'

In [18]:
title.string

'Einkaufsliste'

### Das Comment-Objekt

Dieses Objekt repräsentiert Kommentare in einem Dokument.

In [19]:
comment = soup.b.string # Kommentar auslesen
comment

'Hier Angebote vergleichen!'

In [20]:
type(comment) # Typ anzeigen lassen

bs4.element.Comment

### Syntaxbaum navigieren

Beim einlesen von einem Dokument mit einem BeautifulSoup-Parser wird das Dokument in einen Syntaxbaum transformiert. Dieser repräsentiert die Struktur des Dokumentes. In diesem Syntaxbaum sind mehrere Tag- und NavigableString-Objekte vorhanden. 

Wir können nun mit den unten aufgeführten Befehlen von einem Tag bzw. Element zum nächsten Tag bzw. Element im Syntaxbaum navigieren. 

* <b>parent</b>

* <b>contents</b>

* <b>string</b>

* <b>nextSibling und previousSibling</b>

* <b>next_element und previous_element</b>

* <b>find() und find_all()</b>


Alle Befehle können auf Tag-Objekte angewendet werden. NavigableString-Objekte von Tag-Objekten können mit "string" ausgelesen werden.

Um dies zu verdeutlichen, erzeugen wir zunächst ein neues BeautifulSoup-Objekt.

Das Template könnt Ihr euch auf <a href = "http://freietemplates.de/templates/template_52/preview/index.html">dieser Webseite</a> anschauen.


In [21]:
html_temp2 = '''
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"
    "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">

<head>

	<link href='http://fonts.googleapis.com/css?family=Droid+Serif|Oswald' rel='stylesheet' type='text/css'>
	
	<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1" />
	<meta name="description" content="" />
	<meta name="keywords" content="" />
	<meta name="robots" content="index, follow" />

	<title>freietemplates.de | Template 52</title>

	<link type="text/css" href="style.css" rel="stylesheet" media="screen" /> 

</head>

<body>

<div id="wrapper">

		<div id="header">
		<a href="#" id="logo">Template 52</a>
		</div>
		
		<!-- Topnavigation -->
		<div id="topnav">
			<ul>
				<li><a href="#">Startseite</a></li>
				<li><a href="#">News</a></li>
				<li><a href="#">Downloads</a></li>
				<li><a href="#">Support</a></li>
				<li><a href="#">Partner</a></li>
				<li><a href="#">Über diese Seite</a></li>
			</ul>
		</div>	
	
	<div id="content">
	<p><script async src="//pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script>
<!-- universal_templates -->
<ins class="adsbygoogle"
     style="display:inline-block;width:728px;height:15px"
     data-ad-client="ca-pub-2863103493790456"
     data-ad-slot="3845429577"></ins>
<script>
(adsbygoogle = window.adsbygoogle || []).push({});
</script></p>
			<h1>Template 52 - Informationen</h1>
			Dieses Template ist eines der frei verfügbaren Templates von <a href="http://freietemplates.de">freietemplates.de</a>. Die Templates von dieser Seite sind kostenfrei erhältlich. Jedes einzelne Template ist XHTML/CSS valide und tabellenfrei umgesetzt. Alle Templates sind für die private und kommerzielle Verwendung geeignet.<br/>
			<br/>
			
			
			<b>Lorem ipsum dolor sit amet</b>, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet.<br/>
			<br/>
			<h1>Informationen</h1>
			Dieses <b>Template</b> ist eines der frei verfügbaren Templates von <a href="http://freietemplates.de">freietemplates.de</a>. Die Templates von dieser Seite sind kostenfrei erhältlich. Jedes einzelne Template ist XHTML/CSS valide und tabellenfrei umgesetzt. Alle Templates sind für die private und kommerzielle Verwendung geeignet.<br/>
		
	</div>
	
	<div id="sidebar">
	
		<div class="sbox">
			<div class="sbox_head">Navigation</div>
				<ul>
					<li><a href="#">Startseite</a></li>
					<li><a href="#">News</a></li>
					<li><a href="#">Downloads</a></li>
					<li><a href="#">Support</a></li>
					<li><a href="#">Partner</a></li>
					<li><a href="#">Über diese Seite</a></li>
					<li><a href="#">Blog</a></li>
				</ul>
		</div>
		
		<div class="sbox">
			<div class="sbox_head">Informationen</div>
			Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum.
		</div>
		
	</div>
	
		<!-- footer -->
		<div id="footer">
		
		<!-- Dieser Backlink darf NICHT entfernt werden. DO NOT REMOVE-->
		Webseite.de | Designed by <a href="http://freietemplates.de/">freietemplates.de</a>

		</div>

</div>

</body>
</html>

'''

In [22]:
soup_nav = BeautifulSoup(html_temp2, 'html.parser') # Erzeugt ein BeautifulSoup-Objekt

In [23]:
print(soup_nav.prettify()) # Gibt den Syntaxbaum aus

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"
    "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
 <head>
  <link href="http://fonts.googleapis.com/css?family=Droid+Serif|Oswald" rel="stylesheet" type="text/css"/>
  <meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
  <meta content="" name="description"/>
  <meta content="" name="keywords"/>
  <meta content="index, follow" name="robots"/>
  <title>
   freietemplates.de | Template 52
  </title>
  <link href="style.css" media="screen" rel="stylesheet" type="text/css">
  </link>
 </head>
 <body>
  <div id="wrapper">
   <div id="header">
    <a href="#" id="logo">
     Template 52
    </a>
   </div>
   <!-- Topnavigation -->
   <div id="topnav">
    <ul>
     <li>
      <a href="#">
       Startseite
      </a>
     </li>
     <li>
      <a href="#">
       News
      </a>
     </li>
     <li>
      <a href="#">
       Downloads
      </a>
     </li>


#### parent

In [24]:
head = soup_nav.head # Gibt den Tag "head" aus
head

<head>
<link href="http://fonts.googleapis.com/css?family=Droid+Serif|Oswald" rel="stylesheet" type="text/css"/>
<meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
<meta content="" name="description"/>
<meta content="" name="keywords"/>
<meta content="index, follow" name="robots"/>
<title>freietemplates.de | Template 52</title>
<link href="style.css" media="screen" rel="stylesheet" type="text/css">
</link></head>

Mit head.parent, wird der "html" Tag angesprochen, da dieser vor dem "head" Tag geöffnet wird. Mit tag.parent kann im Syntaxbaum also nach oben navigiert werden.

In [25]:
parent_tag = head.parent
parent_tag

<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<link href="http://fonts.googleapis.com/css?family=Droid+Serif|Oswald" rel="stylesheet" type="text/css"/>
<meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
<meta content="" name="description"/>
<meta content="" name="keywords"/>
<meta content="index, follow" name="robots"/>
<title>freietemplates.de | Template 52</title>
<link href="style.css" media="screen" rel="stylesheet" type="text/css">
</link></head>
<body>
<div id="wrapper">
<div id="header">
<a href="#" id="logo">Template 52</a>
</div>
<!-- Topnavigation -->
<div id="topnav">
<ul>
<li><a href="#">Startseite</a></li>
<li><a href="#">News</a></li>
<li><a href="#">Downloads</a></li>
<li><a href="#">Support</a></li>
<li><a href="#">Partner</a></li>
<li><a href="#">Über diese Seite</a></li>
</ul>
</div>
<div id="content">
<p><script async="" src="//pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script>
<!-- universal_templates -->
<ins class="adsbygoogle

#### contents 
Mit contents wird der Inhalt eines Tags ausgegeben. Das Ergebnis von  head.contents ist der Inhalt des "head" Tags.

In [26]:
head_neu = head.contents
head_neu

['\n',
 <link href="http://fonts.googleapis.com/css?family=Droid+Serif|Oswald" rel="stylesheet" type="text/css"/>,
 '\n',
 <meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>,
 '\n',
 <meta content="" name="description"/>,
 '\n',
 <meta content="" name="keywords"/>,
 '\n',
 <meta content="index, follow" name="robots"/>,
 '\n',
 <title>freietemplates.de | Template 52</title>,
 '\n',
 <link href="style.css" media="screen" rel="stylesheet" type="text/css">
 </link>]

Wenn wir uns den contents des "html" Tags ausgeben lassen, wird uns das gesamte Dokument ab dem "head" Tag angezeigt. Wie ihr sehen könnt, besteht dies wiederum aus mehreren Tags (head und body).

In [27]:
parent_tag.contents

['\n', <head>
 <link href="http://fonts.googleapis.com/css?family=Droid+Serif|Oswald" rel="stylesheet" type="text/css"/>
 <meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
 <meta content="" name="description"/>
 <meta content="" name="keywords"/>
 <meta content="index, follow" name="robots"/>
 <title>freietemplates.de | Template 52</title>
 <link href="style.css" media="screen" rel="stylesheet" type="text/css">
 </link></head>, '\n', <body>
 <div id="wrapper">
 <div id="header">
 <a href="#" id="logo">Template 52</a>
 </div>
 <!-- Topnavigation -->
 <div id="topnav">
 <ul>
 <li><a href="#">Startseite</a></li>
 <li><a href="#">News</a></li>
 <li><a href="#">Downloads</a></li>
 <li><a href="#">Support</a></li>
 <li><a href="#">Partner</a></li>
 <li><a href="#">Über diese Seite</a></li>
 </ul>
 </div>
 <div id="content">
 <p><script async="" src="//pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script>
 <!-- universal_templates -->
 <ins class="adsbygoogle" d

Mit dem Code unten können wir angeben, den wievielten Tag wir ausgeben lassen wollen.

In [28]:
parent_tag.contents[1]

<head>
<link href="http://fonts.googleapis.com/css?family=Droid+Serif|Oswald" rel="stylesheet" type="text/css"/>
<meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
<meta content="" name="description"/>
<meta content="" name="keywords"/>
<meta content="index, follow" name="robots"/>
<title>freietemplates.de | Template 52</title>
<link href="style.css" media="screen" rel="stylesheet" type="text/css">
</link></head>

#### string 

Wenn ein Tag lediglich einen untergeordneten Knoten hat und dieser ein ASCII oder Unicode String ist, kann der untergeordnete Knoten mit tag.string ausgegeben werden.

In [29]:
print(soup_nav.prettify())

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"
    "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
 <head>
  <link href="http://fonts.googleapis.com/css?family=Droid+Serif|Oswald" rel="stylesheet" type="text/css"/>
  <meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
  <meta content="" name="description"/>
  <meta content="" name="keywords"/>
  <meta content="index, follow" name="robots"/>
  <title>
   freietemplates.de | Template 52
  </title>
  <link href="style.css" media="screen" rel="stylesheet" type="text/css">
  </link>
 </head>
 <body>
  <div id="wrapper">
   <div id="header">
    <a href="#" id="logo">
     Template 52
    </a>
   </div>
   <!-- Topnavigation -->
   <div id="topnav">
    <ul>
     <li>
      <a href="#">
       Startseite
      </a>
     </li>
     <li>
      <a href="#">
       News
      </a>
     </li>
     <li>
      <a href="#">
       Downloads
      </a>
     </li>


In [30]:
soup_nav.b.string  # Gibt den String, der vom "b" Tag umschlossen ist aus.

'Lorem ipsum dolor sit amet'

In [31]:
soup_nav.title.string # Gibt den String, der vom "title" Tag umschlossen ist aus.

'freietemplates.de | Template 52'

Nun möchten wir alle Strings des Dokuments ausgeben lassen. Zuerst versuchen wir dies mit BeautifulSoup-Objekt.strings

In [32]:
for string in soup_nav.strings:
    print(repr(string))

'\n'
'\n'
'\n'
'\n'
'\n'
'\n'
'\n'
'\n'
'\n'
'freietemplates.de | Template 52'
'\n'
'\n'
'\n'
'\n'
'\n'
'\n'
'Template 52'
'\n'
'\n'
'\n'
'\n'
'\n'
'Startseite'
'\n'
'News'
'\n'
'Downloads'
'\n'
'Support'
'\n'
'Partner'
'\n'
'Über diese Seite'
'\n'
'\n'
'\n'
'\n'
'\n'
'\n'
'\n'
'\n(adsbygoogle = window.adsbygoogle || []).push({});\n'
'\n'
'Template 52 - Informationen'
'\n\t\t\tDieses Template ist eines der frei verfügbaren Templates von '
'freietemplates.de'
'. Die Templates von dieser Seite sind kostenfrei erhältlich. Jedes einzelne Template ist XHTML/CSS valide und tabellenfrei umgesetzt. Alle Templates sind für die private und kommerzielle Verwendung geeignet.'
'\n'
'\n'
'Lorem ipsum dolor sit amet'
', consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Lorem ipsum dolor

Hier werden allerdings auch die Zeilenumbrüche angezeigt. Eine bessere Variante für die Ausgabe von Strings stellt die Methode BeautifulSoup-Objekt.stripped_strings dar.

In [33]:
for string in soup_nav.stripped_strings:
    print(repr(string))

'freietemplates.de | Template 52'
'Template 52'
'Startseite'
'News'
'Downloads'
'Support'
'Partner'
'Über diese Seite'
'(adsbygoogle = window.adsbygoogle || []).push({});'
'Template 52 - Informationen'
'Dieses Template ist eines der frei verfügbaren Templates von'
'freietemplates.de'
'. Die Templates von dieser Seite sind kostenfrei erhältlich. Jedes einzelne Template ist XHTML/CSS valide und tabellenfrei umgesetzt. Alle Templates sind für die private und kommerzielle Verwendung geeignet.'
'Lorem ipsum dolor sit amet'
', consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea

#### nextSibling and previousSibling

Mit diesen Befehlen gelangen wir zum nächsten (nextSibling) oder vorherigen (previousSibling) Tag, welcher sich auf der selbenen Ebene des Syntaxbaums befindet.


In [34]:
print(soup_nav.prettify())

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"
    "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
 <head>
  <link href="http://fonts.googleapis.com/css?family=Droid+Serif|Oswald" rel="stylesheet" type="text/css"/>
  <meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
  <meta content="" name="description"/>
  <meta content="" name="keywords"/>
  <meta content="index, follow" name="robots"/>
  <title>
   freietemplates.de | Template 52
  </title>
  <link href="style.css" media="screen" rel="stylesheet" type="text/css">
  </link>
 </head>
 <body>
  <div id="wrapper">
   <div id="header">
    <a href="#" id="logo">
     Template 52
    </a>
   </div>
   <!-- Topnavigation -->
   <div id="topnav">
    <ul>
     <li>
      <a href="#">
       Startseite
      </a>
     </li>
     <li>
      <a href="#">
       News
      </a>
     </li>
     <li>
      <a href="#">
       Downloads
      </a>
     </li>


In [35]:
soup_nav.head.next_sibling

'\n'

Hier ist das nächste Element ein Zeilenumbruch. Wenn noch einmal vorwärts navigieren wird, erhält man den "body" Tag.

In [36]:
next_sib = soup_nav.head.next_sibling.next_sibling
next_sib

<body>
<div id="wrapper">
<div id="header">
<a href="#" id="logo">Template 52</a>
</div>
<!-- Topnavigation -->
<div id="topnav">
<ul>
<li><a href="#">Startseite</a></li>
<li><a href="#">News</a></li>
<li><a href="#">Downloads</a></li>
<li><a href="#">Support</a></li>
<li><a href="#">Partner</a></li>
<li><a href="#">Über diese Seite</a></li>
</ul>
</div>
<div id="content">
<p><script async="" src="//pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script>
<!-- universal_templates -->
<ins class="adsbygoogle" data-ad-client="ca-pub-2863103493790456" data-ad-slot="3845429577" style="display:inline-block;width:728px;height:15px"></ins>
<script>
(adsbygoogle = window.adsbygoogle || []).push({});
</script></p>
<h1>Template 52 - Informationen</h1>
			Dieses Template ist eines der frei verfügbaren Templates von <a href="http://freietemplates.de">freietemplates.de</a>. Die Templates von dieser Seite sind kostenfrei erhältlich. Jedes einzelne Template ist XHTML/CSS valide und tabellenf

Mit previous_sibling können wir nach oben navigieren.

In [37]:
next_sib.previous_sibling

'\n'

In [38]:
next_sib.previous_sibling.previous_sibling

<head>
<link href="http://fonts.googleapis.com/css?family=Droid+Serif|Oswald" rel="stylesheet" type="text/css"/>
<meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
<meta content="" name="description"/>
<meta content="" name="keywords"/>
<meta content="index, follow" name="robots"/>
<title>freietemplates.de | Template 52</title>
<link href="style.css" media="screen" rel="stylesheet" type="text/css">
</link></head>

#### next_element and previous_element

Mit diesen Befehlen kann über die Elemente des Dokuments navigiert werden. Hier gilt die Reihenfolge, die durch den Parser festgelegt wurde. Egal, ob Tag oder String.

Das nächste Element von "head" ist nun der Tag "title", da dieser Tag direkt nach dem Tag "head" im Dokument geöffnet wird. 

In [39]:
print(soup_nav.prettify())

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"
    "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
 <head>
  <link href="http://fonts.googleapis.com/css?family=Droid+Serif|Oswald" rel="stylesheet" type="text/css"/>
  <meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
  <meta content="" name="description"/>
  <meta content="" name="keywords"/>
  <meta content="index, follow" name="robots"/>
  <title>
   freietemplates.de | Template 52
  </title>
  <link href="style.css" media="screen" rel="stylesheet" type="text/css">
  </link>
 </head>
 <body>
  <div id="wrapper">
   <div id="header">
    <a href="#" id="logo">
     Template 52
    </a>
   </div>
   <!-- Topnavigation -->
   <div id="topnav">
    <ul>
     <li>
      <a href="#">
       Startseite
      </a>
     </li>
     <li>
      <a href="#">
       News
      </a>
     </li>
     <li>
      <a href="#">
       Downloads
      </a>
     </li>


In [40]:
soup_nav.head.next_element # Gibt das Element nach dem "head" Tag aus

'\n'

In [41]:
soup_nav.head.next_element.next_element # Gibt das übernächste Element nach dem "head" Tag aus

<link href="http://fonts.googleapis.com/css?family=Droid+Serif|Oswald" rel="stylesheet" type="text/css"/>

In [42]:
next_element = soup_nav.a.next_element # Gibt das Element nach dem "a" Tag aus
next_element

'Template 52'

In [43]:
soup_nav.a.previous_element.previous_element # Gibt das Element vor dem a Tag aus

<div id="header">
<a href="#" id="logo">Template 52</a>
</div>

#### find() und find_all()

In [44]:
print(soup_nav.prettify())

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"
    "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
 <head>
  <link href="http://fonts.googleapis.com/css?family=Droid+Serif|Oswald" rel="stylesheet" type="text/css"/>
  <meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
  <meta content="" name="description"/>
  <meta content="" name="keywords"/>
  <meta content="index, follow" name="robots"/>
  <title>
   freietemplates.de | Template 52
  </title>
  <link href="style.css" media="screen" rel="stylesheet" type="text/css">
  </link>
 </head>
 <body>
  <div id="wrapper">
   <div id="header">
    <a href="#" id="logo">
     Template 52
    </a>
   </div>
   <!-- Topnavigation -->
   <div id="topnav">
    <ul>
     <li>
      <a href="#">
       Startseite
      </a>
     </li>
     <li>
      <a href="#">
       News
      </a>
     </li>
     <li>
      <a href="#">
       Downloads
      </a>
     </li>


Weiter oben haben wir uns folgendermaßen einen Link ausgeben lassen:

In [45]:
soup_nav.a

<a href="#" id="logo">Template 52</a>

Dies ist auch mit find() möglich. Allerdings wird auch hier nur der erste gefundene Link ausgegeben.

In [46]:
soup_nav.find('a')

<a href="#" id="logo">Template 52</a>

Um alle Links ausgeben zu lassen wird find_all() benötigt.

In [47]:
soup_nav.find_all('a')

[<a href="#" id="logo">Template 52</a>,
 <a href="#">Startseite</a>,
 <a href="#">News</a>,
 <a href="#">Downloads</a>,
 <a href="#">Support</a>,
 <a href="#">Partner</a>,
 <a href="#">Über diese Seite</a>,
 <a href="http://freietemplates.de">freietemplates.de</a>,
 <a href="http://freietemplates.de">freietemplates.de</a>,
 <a href="#">Startseite</a>,
 <a href="#">News</a>,
 <a href="#">Downloads</a>,
 <a href="#">Support</a>,
 <a href="#">Partner</a>,
 <a href="#">Über diese Seite</a>,
 <a href="#">Blog</a>,
 <a href="http://freietemplates.de/">freietemplates.de</a>]

Nun wollen wir aber nur den Wert des Attributs "href" ausgeben lassen, damit wir an die Links gelangen.

In [48]:
for link in soup_nav.find_all('a'): # Sucht nach allen Links
    print(link.get('href')) # Gibt aber nur den Attributwert von "href" aus

#
#
#
#
#
#
#
http://freietemplates.de
http://freietemplates.de
#
#
#
#
#
#
#
http://freietemplates.de/


In [49]:
for link in soup_nav.find_all('a'): # Sucht nach allen Links
    print(link.string) # Gibt aber nur den jeweiligen String aus

Template 52
Startseite
News
Downloads
Support
Partner
Über diese Seite
freietemplates.de
freietemplates.de
Startseite
News
Downloads
Support
Partner
Über diese Seite
Blog
freietemplates.de


Es kann auch nach mehreren Tags gesucht werden.

In [50]:
soup_nav.find_all(['a', 'ul']) # Sucht nach "a" und "ul" Tags

[<a href="#" id="logo">Template 52</a>, <ul>
 <li><a href="#">Startseite</a></li>
 <li><a href="#">News</a></li>
 <li><a href="#">Downloads</a></li>
 <li><a href="#">Support</a></li>
 <li><a href="#">Partner</a></li>
 <li><a href="#">Über diese Seite</a></li>
 </ul>, <a href="#">Startseite</a>, <a href="#">News</a>, <a href="#">Downloads</a>, <a href="#">Support</a>, <a href="#">Partner</a>, <a href="#">Über diese Seite</a>, <a href="http://freietemplates.de">freietemplates.de</a>, <a href="http://freietemplates.de">freietemplates.de</a>, <ul>
 <li><a href="#">Startseite</a></li>
 <li><a href="#">News</a></li>
 <li><a href="#">Downloads</a></li>
 <li><a href="#">Support</a></li>
 <li><a href="#">Partner</a></li>
 <li><a href="#">Über diese Seite</a></li>
 <li><a href="#">Blog</a></li>
 </ul>, <a href="#">Startseite</a>, <a href="#">News</a>, <a href="#">Downloads</a>, <a href="#">Support</a>, <a href="#">Partner</a>, <a href="#">Über diese Seite</a>, <a href="#">Blog</a>, <a href="http

In [51]:
id_link1 = soup_nav.find_all(id="sidebar") # Sucht nach dem Begriff ' id="sidebar" '
print(id_link1)

[<div id="sidebar">
<div class="sbox">
<div class="sbox_head">Navigation</div>
<ul>
<li><a href="#">Startseite</a></li>
<li><a href="#">News</a></li>
<li><a href="#">Downloads</a></li>
<li><a href="#">Support</a></li>
<li><a href="#">Partner</a></li>
<li><a href="#">Über diese Seite</a></li>
<li><a href="#">Blog</a></li>
</ul>
</div>
<div class="sbox">
<div class="sbox_head">Informationen</div>
			Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum.
		</div>
</div>]


In [52]:
print(len(id_link1)) # Gibt die Anzahl der Ergebnisse aus

1


Wenn wir nach einem Text suchen möchten, der mit einem bestimmten Buchstaben beginnt bzw. einen bestimmten Buchstaben enthält, können wir den import re verwenden.

In [53]:
import re  # Für reguläre Ausdrücke

In [54]:
for tag in soup_nav.find_all(re.compile('^b')):
    print(tag.name) # Gibt nur Tags aus, die mit b beginnen

body
br
br
b
br
br
b
br


In [55]:
for tag in soup_nav.find_all(re.compile('l')):
    print(tag.name) # Gibt alle Tags aus, die ein l enthalten

html
link
title
link
ul
li
li
li
li
li
li
ul
li
li
li
li
li
li
li


In [56]:
soup_nav.find_all(string = re.compile("Template")) #Gibt nur Sätze aus, die das Wort "Template" enthalten

['freietemplates.de | Template 52',
 'Template 52',
 'Template 52 - Informationen',
 '\n\t\t\tDieses Template ist eines der frei verfügbaren Templates von ',
 '. Die Templates von dieser Seite sind kostenfrei erhältlich. Jedes einzelne Template ist XHTML/CSS valide und tabellenfrei umgesetzt. Alle Templates sind für die private und kommerzielle Verwendung geeignet.',
 'Template',
 ' ist eines der frei verfügbaren Templates von ',
 '. Die Templates von dieser Seite sind kostenfrei erhältlich. Jedes einzelne Template ist XHTML/CSS valide und tabellenfrei umgesetzt. Alle Templates sind für die private und kommerzielle Verwendung geeignet.']

Wir können aber auch den gesamten Text, wie er im Browser dargestellt wird mit .get_text() auslesen lassen.

In [57]:
text_only = soup_nav.get_text()
print(text_only)










freietemplates.de | Template 52





Template 52




Startseite
News
Downloads
Support
Partner
Über diese Seite







(adsbygoogle = window.adsbygoogle || []).push({});

Template 52 - Informationen
			Dieses Template ist eines der frei verfügbaren Templates von freietemplates.de. Die Templates von dieser Seite sind kostenfrei erhältlich. Jedes einzelne Template ist XHTML/CSS valide und tabellenfrei umgesetzt. Alle Templates sind für die private und kommerzielle Verwendung geeignet.

Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea 

Im folgenden werden die eben vorgestellten Befehle nochmals mit dem Tag "title" ausgeführt, damit euch der Unterschied klarer wird.

In [58]:
soup_nav.title.contents # Inhalt des Tags "title"

['freietemplates.de | Template 52']

In [59]:
soup_nav.title.parent # Der Tag vor "title"

<head>
<link href="http://fonts.googleapis.com/css?family=Droid+Serif|Oswald" rel="stylesheet" type="text/css"/>
<meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
<meta content="" name="description"/>
<meta content="" name="keywords"/>
<meta content="index, follow" name="robots"/>
<title>freietemplates.de | Template 52</title>
<link href="style.css" media="screen" rel="stylesheet" type="text/css">
</link></head>

In [60]:
soup_nav.title.nextSibling.nextSibling # Nächster Tag auf der gleichen Ebene

<link href="style.css" media="screen" rel="stylesheet" type="text/css">
</link>

In [61]:
soup_nav.title.previousSibling.previousSibling # Vorheriger Tag auf der gleichen Ebene

<meta content="index, follow" name="robots"/>

In [62]:
soup_nav.title.next_element # Das Element nach "title"

'freietemplates.de | Template 52'

In [63]:
soup_nav.title.previous_element.previous_element # Das Element vor "title"

<meta content="index, follow" name="robots"/>

In [64]:
soup_nav.find('title') # Findet den Tag "title"

<title>freietemplates.de | Template 52</title>

In [65]:
soup_nav.find_all('title') # Findet alle Tags "title"

[<title>freietemplates.de | Template 52</title>]

# Praktische Anwendung

In [66]:
from urllib.request import urlopen # Zum öffnen und lesen von Webseiten

Um eine Webseite (deren Quellcode) einzulesen, benötigen wir die Funktion urlopen()

In [67]:
page = urlopen('https://www.lovelybooks.de/').read()  # Öffnet und liest die Webseite ein 
book = BeautifulSoup(page, 'html.parser') # Erzeugt ein BeautifulSoup Objekt
print(book.prettify()) # Gibt den Syntaxbaum aus

<!DOCTYPE doctype html>
<html>
 <head>
  <meta charset="utf-8"/>
  <meta content="width=device-width, initial-scale=1.0, maximum-scale=1.0, user-scalable=0" name="viewport">
   <!-- Google Tag Manager -->
   <script>
    (function(w,d,s,l,i){w[l]=w[l]||[];w[l].push({'gtm.start':
                    new Date().getTime(),event:'gtm.js'});var f=d.getElementsByTagName(s)[0],
                    j=d.createElement(s),dl=l!='dataLayer'?'&l='+l:'';j.async=true;j.src=
                    'https://www.googletagmanager.com/gtm.js?id='+i+dl;f.parentNode.insertBefore(j,f);
                })(window,document,'script','dataLayer','GTM-K4D3ZF');
   </script>
   <!-- End Google Tag Manager -->
   <meta content="#ece0c2" name="theme-color"/>
   <link href="/favicon.ico" rel="shortcut icon" type="image/x-icon"/>
   <link href="/assets/apple-touch-icon.png" rel="icon" sizes="152x152" type="image/png"/>
   <link href="/assets/apple-touch-icon.png" rel="apple-touch-icon" sizes="152x152"/>
   <link href="htt

## Beispiel 1

In diesem Beispiel wollen wir alle Autoren auslesen, die auf der Startseite verlinkt sind. 
Bei genauerem hinschauen fällt auf, dass alle Verlinkungen zu den Autoren mit /autor/ beginnen. 
Wir lassen uns mit der getAutorLinks Methode zunächst diese Links ausgeben.

In [68]:
def getAutorLinks(pageUrl, parser):
    
    html = urlopen(pageUrl).read() # Einlesen einer beliebigen URL
    book2 = BeautifulSoup(html, parser) # Erzeugen eines BeautifulSoupObjektes
    
    try:
        print(book2.title.contents) # Gibt Title aus
        print(book2.h1.get_text())  # Gibt h1 aus
        
    except AttributError:
        # Ausgabe, falls der Try Block fehlerhaft abschließt
        print("Fehlerhaft")
        
    # Sucht nach allen Links die mit /autor/ beginnen
    for link in book2.find_all('a',{'href':re.compile('^(/autor/)')}): 
         print(link.get('href'))
            
getAutorLinks('https://www.lovelybooks.de/', 'html.parser')

['LovelyBooks - Leser empfehlen Dir die besten Bücher und Autoren']
Entdecke dein neues Lieblingsbuch
/autor/Daniel-Cole/Hangman-Das-Spiel-des-Mörders-1484330408-w/
/autor/Daniel-Cole/
/autor/Daniel-Cole/Hangman-Das-Spiel-des-Mörders-1484330408-w/
/autor/Stephan-Ludwig/Zorn-Lodernder-Hass-1451112565-w/
/autor/Stephan-Ludwig/
/autor/Stephan-Ludwig/Zorn-Lodernder-Hass-1451112565-w/
/autor/Frank-Goldammer/Tausend-Teufel-1436392647-w/
/autor/Frank-Goldammer/
/autor/Frank-Goldammer/Tausend-Teufel-1436392647-w/
/autor/Camilla-Läckberg/Die-Eishexe-1455484297-w/
/autor/Camilla-Läckberg/
/autor/Camilla-Läckberg/Die-Eishexe-1455484297-w/
/autor/Ruth-Ware/Woman-in-Cabin-10-1488685914-w/
/autor/Ruth-Ware/
/autor/Ruth-Ware/Woman-in-Cabin-10-1488685914-w/
/autor/Daniel-Cole/Ragdoll-Dein-letzter-Tag-1362945482-w/
/autor/Daniel-Cole/
/autor/Daniel-Cole/Ragdoll-Dein-letzter-Tag-1362945482-w/
/autor/Tyrell-Johnson/Wie-Wölfe-im-Winter-1441733855-w/
/autor/Tyrell-Johnson/
/autor/Tyrell-Johnson/Wie-Wölfe-i

Im Folgenden wird die Methode erweitert, so dass nur der Name und das Buch des Autors ausgegeben werden. Mit split() können wir die URL zerlegen. Anschließend rufen wir nur die Stellen der Liste auf, die wir benötigen - Also den Autor an der Stelle 2 und das Buch an der Stelle 3.

In [69]:
def getAutor(pageUrl, parser):
   
    hilfs_var = "" # Hilfsvariable für den Vergleich
    html = urlopen(pageUrl).read()
    book3 = BeautifulSoup(html, parser) 
   
    try:
        print(book3.title.contents) 
        print(book3.h1.get_text())  
    
    except AttributError:  
        print("This page is missing something! No worries though!")
    
    for link in book3.find_all('a',{'href':re.compile('^(/autor/)')}): 
        links = link.get('href') # Speichert alle Links in s 
        links_split = links.split('/') # Zerlegt den String an Stellen mit dem Zeichen '/'
        autor = links_split[2] # Gibt die 2. Stelle aus - den Autor
        buch = links_split[3] # Gibt die 3. Stelle aus - das Buch       
    
        if autor == hilfs_var: 
            continue 
        else:
            print("Autor: ", autor, "; Buch: ", buch)        
        
            hilfs_var = links.split('/')[2]
  

getAutor('https://www.lovelybooks.de/', 'html.parser')

['LovelyBooks - Leser empfehlen Dir die besten Bücher und Autoren']
Entdecke dein neues Lieblingsbuch
Autor:  Daniel-Cole ; Buch:  Hangman-Das-Spiel-des-Mörders-1484330408-w
Autor:  Stephan-Ludwig ; Buch:  Zorn-Lodernder-Hass-1451112565-w
Autor:  Frank-Goldammer ; Buch:  Tausend-Teufel-1436392647-w
Autor:  Camilla-Läckberg ; Buch:  Die-Eishexe-1455484297-w
Autor:  Ruth-Ware ; Buch:  Woman-in-Cabin-10-1488685914-w
Autor:  Daniel-Cole ; Buch:  Ragdoll-Dein-letzter-Tag-1362945482-w
Autor:  Tyrell-Johnson ; Buch:  Wie-Wölfe-im-Winter-1441733855-w
Autor:  Megan-Miranda ; Buch:  TICK-TACK-Wie-lange-kannst-Du-lügen--1470149161-w
Autor:  Viveca-Sten ; Buch:  Mörderisches-Ufer-1445718710-w
Autor:  Andreas-Gößling ; Buch:  Wolfswut-1445121524-w
Autor:  Daniel-Cole ; Buch:  Hangman-Das-Spiel-des-Mörders-1484330408-w
Autor:  Stephan-Ludwig ; Buch:  Zorn-Lodernder-Hass-1451112565-w
Autor:  Frank-Goldammer ; Buch:  Tausend-Teufel-1436392647-w
Autor:  Camilla-Läckberg ; Buch:  Die-Eishexe-1455484297-

## Beispiel 2

Nun wollen wir wissen, welche Themengebiete alle zur Verfügung stehen. Wenn man sich den Quellcode der Webseite genauer ansieht, erkennt man, dass die internen Links zu einem bestimmten Themengebiet immer mit /buecher/ beginnen und im Link das Genre enthalten. Also müssen wir nun nach Links (a) mit dem Attribut "href" suchen, welche mit /buecher/ beginnen. Die Links müssen, wie im oberen Beispiel, zerlegt werden, um nur die Themengebiete ausgeben zu lassen.
Anschließend sollen die Themengebiete in einer Textdatei gespeichert werden.

In [70]:
def getGenre(pageUrl, parser):
    
    file = open('links.text', 'w') # Legt eine Textdatei an
    
    html = urlopen(pageUrl).read()
    book4 = BeautifulSoup(html, parser)
    
    for link in book4.find_all('a', {'href':re.compile('^(/buecher/)')}):
        soup_link = str(link.get('href'))
        links_split = soup_link.split('/') # Zerlegt den String an Stellen mit dem Zeichen '/'
        genre = links_split[2] # Gibt die 2. Stelle aus - das Genre
        
        if genre != "":
            print("Genre: ", genre) 
        else:
            continue
            
        file.write(soup_link) # Schreibt das Ergebnis in die Textdatei
        file.flush()
                   
getGenre('https://www.lovelybooks.de/', 'html.parser')

Genre:  krimi-thriller
Genre:  fantasy
Genre:  romane
Genre:  liebesroman
Genre:  jugendbuch
Genre:  historische-romane
Genre:  sachbuch
Genre:  kinderbuch
Genre:  Neuerscheinungen
Genre:  neu-und-beachtenswert
Genre:  Bestseller
Genre:  Hörbücher
Genre:  eBooks
Genre:  listen
Genre:  Neuerscheinungen
Genre:  Bestseller
Genre:  listen
Genre:  krimi-thriller
Genre:  fantasy
Genre:  romane
Genre:  liebesroman
Genre:  jugendbuch
Genre:  historische-romane
Genre:  sachbuch
Genre:  kinderbuch
Genre:  science-fiction
Genre:  klassiker
Genre:  comic
Genre:  humor
Genre:  biografie
Genre:  gedichte-drama
Genre:  erotische-literatur
Genre:  krimi-thriller
Genre:  krimi-thriller
Genre:  listen


Mit " %pwd " kann das aktuelle Verzeichnis angezeigt werden. Dort wird auch die Textdatei abgelegt.

In [71]:
%pwd

'C:\\Users\\Jasmin\\Dropbox\\Ulm\\Vorlesungen\\5. Semester\\DSPyR\\Ausarbeitung BeautifulSoup\\BeautifulSoup\\Notebooks\\Kommentare'

## Beispiel 3

Das nächste Beispiel zeigt, wie Angebotspreise einer Webseite ausgelesen werden können.
Zunächst befinden wir uns auf der Startseite. Auf der Startseite können wir den Link, der zu den Angeboten führt auslesen und anschließend zu dieser Seite navigieren.

Im nächsten Schritt werden die Angebotsartikel und die Angebotspreise eingelesen und ausgegeben.

In [72]:
# Listen, um die Ergebnisse zu speichern und später aufzurufen
list_euro = []
list_cent = []
list_angebot = []

def getAngebot(pageUrl, angebot_url):
    
    html = urlopen(pageUrl+angebot_url).read()
    angebot_soup = BeautifulSoup(html, 'html.parser')
    
    # Wird nur beim ersten Aufruf der Methode ausgeführt, danach besitzt angebot_url den Wert /angebote/
    if angebot_url == '':
        # Sucht nach Links, deren Attributwert href mit /angebote/ beginnt
        for link in angebot_soup.find_all('a', {'href':re.compile('^(/angebote/)')}):
            angebot_link = link.get('href')     
        angebot_url = angebot_link
        # Methode wird erneut aufgerufen. Es wird folgende URL geöffnet: https://www.rewe.de/angebote/
        getAngebot('https://www.rewe.de/', angebot_url)

    else:
            # Schreibt alle Namen der Artikel in die Liste 'list_angebot'
            for tag in angebot_soup.find_all('div', {'class':'dotdot'}):
                artikel = tag.next_element.next_element
                artikel2= artikel.string
                list_angebot.append(artikel2)
            
            # Schreibt alle Angebotspreise in die Listen 'list_euro' und 'list_cent'
            for tag in angebot_soup.find_all('div', {'class':'price'}):
                price = tag.contents
                euro = price[0]                  
                cent = price[1].string
                list_euro.append(euro)
                list_cent.append(cent)  
                
    i = 0
    # Gibt die Listen aus
    while i < len(list_angebot): 
        print(list_angebot[i])
        print('Kostet: ', list_euro[i], list_cent[i], '€') 
        print('') 
        i = i + 1
             
getAngebot('https://www.rewe.de/', '')

Corny
Müsliriegel
Kostet:  1. 11 €

Seeberger
Walnusskerne
Kostet:  3. 33 €

Meica 
Curry King
Kostet:  1. 49 €

Exquisa oder Mirée
Frischkäse
Kostet:  0. 88 €

Popp
Brotaufstrich
Kostet:  0. 88 €

Zimmermann Farmlandschinken
Kostet:  1. 11 €

Landliebe
Landkäse Scheiben
Kostet:  1. 59 €

Patros
Kostet:  1. 49 €

Sori
Büffel-Mozzarella
Kostet:  1. 69 €

REWE Beste Wahl
Speise Quark
Kostet:  0. 39 €

Meica 
Curry King
Kostet:  1. 49 €

Exquisa oder Mirée
Frischkäse
Kostet:  0. 88 €

Alpro
Kokosnuss- 
oder Mandeldrink
Kostet:  1. 99 €

Rama
Brotaufstrich
Kostet:  0. 99 €

Botterram
Streichfett mit Butter
oder Du darfst
Leichte Butter
Kostet:  1. 11 €

Popp
Brotaufstrich
Kostet:  0. 88 €

Weihenstephan
Rahmjoghurt
Kostet:  0. 44 €

Landliebe
Landkäse Scheiben
Kostet:  1. 59 €

Dr. Oetker
Sahnepudding Vanille
oder Rote Grütze
Kostet:  1. 69 €

Weideglück
Landjoghurt
Kostet:  1. 49 €

Arla
Kaergården
Kostet:  1. 49 €

Innocent
Smoothie
Kostet:  1. 11 €

Patros
Kostet:  1. 49 €

Sori
Büffel-

Diese Methode kann nach belieben erweitert werden. Es können zum Beispiel nur Artikel einer Kategorie ausgelesen werden oder nur Preise, die um min. 40 % runtergesetzt wurden.

Zusammenfassend kann man sagen, dass das Schreiben eines Web-Scrapers einen viel Zeit bei der manuellen Suche ersparen kann. Es dauert zwar eine Weile einen Web-Scraper zu schreiben, vor allem wenn man noch nicht viel Erfahrung besitzt. Dafür muss dies aber nur einmal gemacht werden. Danach kann die Anwendung beliebig oft ausgeführt werden.
Im Beispiel mit den Angebotspreisen, erspart man sich die manuelle Suche auf der Webseite oder in Prospekten.

Ein Nachteil ist, dass regelmäßige Anpassung eines Web-Scrapers erforderlich sind, da eine Webseite immer wieder verändert wird.

# Quellen

Buch: Web Scraping with Python by Ryan
Mitchell (O’Reilly). Copyright 2015 Ryan Mitchell, 978-1-491-91029-0

Buch: Getting Started with Beautiful Soup by Vineeth G. Nair. Copyright 2014 Packt Publishing, 978-1-78328-955-4

https://www.crummy.com/software/BeautifulSoup/bs4/doc/

https://www.advidera.com/glossar/web-scraping/

https://semalt.com/qa/7563-website-schaber.htm

https://www.lovelybooks.de/

https://www.rewe.de/