# Web-Scraping mit BeautifulSoup

## Web-Scraping

Der Begriff Web-Scraping bezeichnet unterschiedliche Verfahren, mit denen Texte aus Webseiten  ausgelesen werden können. Es wird eine Anfrage an den Web Server gestellt, welcher die angefragten Daten anschließend zurücksendet. Diese Inhalte werden dann eingelesen, können in strukturierter und gut lesbarer Form ausgegeben und weiterverarbeitet werden.

Es gibt unterschiedliche Techniken um Daten aus den Webseiten auszulesen:

<b>Manuelles-Scraping</b>

Bei dieser Methode werden die Informationen vom Benutzer selbst manuell ausgelesen und zugeordnet. Dies ist die älteste Technik des Web-Scrapings. Sie ist allerdings auch die aufwendigste Methode, vor allem wenn große Datenmengen eingelesen werden sollen.

<b>Abgleich von Textmustern</b>

In Linux können, mit dem "grep Befehl", Dateien nach bestimmten Begriffen durchsucht werden. Dieser Befehl kann auch in Python verwendet werden. 

<b>HTML-Parsing-Technik</b>

Mithilfe des HTML-Parsings können verschachtelte und lineare HTML Seiten gelesen, zerlegt und in einer strukturierten Form wieder ausgegeben werden. Diese Methode ist eine der schnellsten und robustesten Methoden für die Anwendung von Web-Scraping. Hiermit können leicht unterschiedliche Informationen, wie z.B. Texte und Links extrahiert werden.

<b>DOM-Parsing-Technik und XPath</b>

Diese Technik wird für Webseiten mit XML-Dateien verwendet. Dabei können ausführliche Informationen über die Art und Struktur einer Webseite gewonnen werden.


### Wozu Web-Scraping?

Die Meisten von uns benutzen mithilfe des Browser das Internet, da ein Browser viele Inhalte, wie JavaScript und Bilder im Menschen-lesbaren Format darstellen kann. Dies bedeutet aber auch, dass wir lediglich eine Webseite zur selben Zeit betrachten können.

Web-Scraper hingegen können über tausende und sogar Millionen von Webseiten gleichzeitig durchschauen, Daten sammeln und entsprechende Informationen extrahieren.

Mit einem Python Skript können so gut wie alle Webseiten, die auch im Browser angezeigt werden können, ausgelesen werden. Diese Daten können zudem in einer Datenbank gespeichert und weiterverarbeitet bzw. -genutzt werden.

An sich ist Web-Scraping nicht illegal. Allerdings ist die Verwendung von persönlichen Daten zu missbräuchlichen Zwecken illegal, wie z.B. versenden von Spam-Mails.

Es gibt einige Tools mithilfe deren Webseiten ausgelesen werden können. Diese sind hilfreich für Menschen, die        keinerlei Programmiererfahrung vorweisen können. Da wir aber inzwischen den Umgang mit Python erlernt haben, werden wir in  diesem Notebook Code erzeugen, mit welchem wir Informationen aus Webseiten lesen können. Hierfür verwenden wir das Python-Packet "BeautifulSoup".


## BeautifulSoup

In [73]:
from bs4 import BeautifulSoup  # importiert BeautifulSoup

Falls der Import nicht funktioniert, könnt Ihr das Packet über Anaconda oder über die Console mit folgendem Befehl installieren:

$ pip install beautifulsoup4

In der BeautifulSoup Bibliothek sind vier folgenden Objekttypen definiert, mit denen wir auch in diesem Notebook arbeiten werden.

- Das BeautifulSoup-Objekt
- Das Tag-Objekt
- Das NavigableString-Objekt
- Das Comment-Objekt

Bevor wir beginnen aus einer Webseite Daten auszulesen, werde ich euch anhand eines kleinen selbst geschriebenen HTML Code zeigen, wie Daten mit BeautifulSoup ausgelesen werden können. 

Den Quellcode findet ihr in der Datei "Einkauf.html".

## Das BeautifulSoup Objekt

Zunächst wird der Quellcode der Datei eingelesen

In [74]:
html_temp = ''' <html><head><title>Einkaufsliste</title></head>
<body>

<b><!--Hier Angebote vergleichen!--></b>

<p class='description'><h1>Eine Liste für den nächsten Einkauf</h1>


<h2>Lebensmittel:</h2>
       
 <ul>
  <li>Tomatensoße</li>
  <li>Nudeln</li>
  <li>Käse</li>
  <li>Joghurt</li>   
  </ul>
  
<br>
  
<h2>Getränke:</h2>
    
 <ul>
  <li>Wasser</li>
  <li>Orangensaft</li>
  <li>Cola</li>
  <li>Bier</li>   
  </ul>
<br>

</p> 

<p class='description'><h1>Angebotsvergleich</h1>
Angebot in folgenden Supermärkten vergleichen:
<br>
<a href='https://shop.rewe.de/' class = 'preview' id='link 1'>Rewe</a>, <br>
<a href='https://www.kaufland.de/' class = 'preview' id='link 2'>Kaufland</a>, <br>
<a href='https://www.lidl.de/' class = 'preview' id='link 3'>Lidl</a>, <br>
<a href='https://www.aldi-sued.de/' class = 'preview' id='link 3'>Aldi</a>, <br>
</p> '''

Anschließend wird damit ein BeautifulSoup-Objekt erstellt. Das BeautifulSoup-Objekt repräsentiert also ein Dokument. Wir können nun mit dem Objekt weiterarbeiten und Daten auslesen. 

Wir verwenden hierfür den "html.parser". Dieser ist bereits in der Standard Bibliothek von Python vorhanden. Weitere parser können installiert werden. Eine Übersicht über die unterstützen Parser findet ihr in der <a href="https://www.crummy.com/software/BeautifulSoup/bs4/doc/#installing-a-parser">BeautifulSoup Dokumentation.</a>


In [75]:
soup = BeautifulSoup(html_temp, 'html.parser') # Erzeugt ein BeautifulSoup Objekt

In [76]:
type(soup)  # Gibt den Typ des Objektes aus

bs4.BeautifulSoup

In [77]:
print(soup) # Gibt das Objekt aus

 <html><head><title>Einkaufsliste</title></head>
<body>
<b><!--Hier Angebote vergleichen!--></b>
<p class="description"><h1>Eine Liste für den nächsten Einkauf</h1>
<h2>Lebensmittel:</h2>
<ul>
<li>Tomatensoße</li>
<li>Nudeln</li>
<li>Käse</li>
<li>Joghurt</li>
</ul>
<br/>
<h2>Getränke:</h2>
<ul>
<li>Wasser</li>
<li>Orangensaft</li>
<li>Cola</li>
<li>Bier</li>
</ul>
<br/>
</p>
<p class="description"><h1>Angebotsvergleich</h1>
Angebot in folgenden Supermärkten vergleichen:
<br/>
<a class="preview" href="https://shop.rewe.de/" id="link 1">Rewe</a>, <br/>
<a class="preview" href="https://www.kaufland.de/" id="link 2">Kaufland</a>, <br/>
<a class="preview" href="https://www.lidl.de/" id="link 3">Lidl</a>, <br/>
<a class="preview" href="https://www.aldi-sued.de/" id="link 3">Aldi</a>, <br/>
</p> </body></html>


Wir ihr sehen könnt, wird der eben eingelesen HTML Code ausgegeben. Um Die Darstellung etwas übersichtlicher zu gestalten, kann das Objekt mit der Methode prettify() ausgegeben werden. Mit dieser Darstellung erhält man einen sogenannten Syntaxbaum.

In [78]:
print(soup.prettify())

<html>
 <head>
  <title>
   Einkaufsliste
  </title>
 </head>
 <body>
  <b>
   <!--Hier Angebote vergleichen!-->
  </b>
  <p class="description">
   <h1>
    Eine Liste für den nächsten Einkauf
   </h1>
   <h2>
    Lebensmittel:
   </h2>
   <ul>
    <li>
     Tomatensoße
    </li>
    <li>
     Nudeln
    </li>
    <li>
     Käse
    </li>
    <li>
     Joghurt
    </li>
   </ul>
   <br/>
   <h2>
    Getränke:
   </h2>
   <ul>
    <li>
     Wasser
    </li>
    <li>
     Orangensaft
    </li>
    <li>
     Cola
    </li>
    <li>
     Bier
    </li>
   </ul>
   <br/>
  </p>
  <p class="description">
   <h1>
    Angebotsvergleich
   </h1>
   Angebot in folgenden Supermärkten vergleichen:
   <br/>
   <a class="preview" href="https://shop.rewe.de/" id="link 1">
    Rewe
   </a>
   ,
   <br/>
   <a class="preview" href="https://www.kaufland.de/" id="link 2">
    Kaufland
   </a>
   ,
   <br/>
   <a class="preview" href="https://www.lidl.de/" id="link 3">
    Lidl
   </a>
   ,
   <br/>
   <

## Das Tag-Objekt

Mit dem Tag-Objekt können wir in einem Dokument nach HTML und XML-Tags suchen und diese ausgeben lassen.

In [79]:
title = soup.title # Gibt den Titel aus
title

<title>Einkaufsliste</title>

In [80]:
type(title) # Zeigt den Datentyp an

bs4.element.Tag

Mit tag.name können wir uns wiederum den Tag ausgeben lassen:

In [81]:
title.name

'title'

In [82]:
link = soup.a  # Liest einen Link aus
link

<a class="preview" href="https://shop.rewe.de/" id="link 1">Rewe</a>

In [83]:
type(link)

bs4.element.Tag

In [84]:
link.name

'a'

Mit tag.attrs können alle vorhanden Attribute eines Tags ausgelesen werden.

In [85]:
link.attrs

{'class': ['preview'], 'href': 'https://shop.rewe.de/', 'id': 'link 1'}

Der Tag kann auch nach bestimmten Attributen gefiltert werden. In diesem Fall interessiert uns nur der Link, weshalb wir nach dem Attribut "href" filtern.

In [86]:
link_attr = soup.a['href']  # 1. Variante
link_attr

'https://shop.rewe.de/'

In [87]:
link_attr2  = link.attrs['href'] # 2. Variante
link_attr2 

'https://shop.rewe.de/'

In [88]:
body = soup.body # Liest den "body" des HTML-Dokumentes aus
body

<body>
<b><!--Hier Angebote vergleichen!--></b>
<p class="description"><h1>Eine Liste für den nächsten Einkauf</h1>
<h2>Lebensmittel:</h2>
<ul>
<li>Tomatensoße</li>
<li>Nudeln</li>
<li>Käse</li>
<li>Joghurt</li>
</ul>
<br/>
<h2>Getränke:</h2>
<ul>
<li>Wasser</li>
<li>Orangensaft</li>
<li>Cola</li>
<li>Bier</li>
</ul>
<br/>
</p>
<p class="description"><h1>Angebotsvergleich</h1>
Angebot in folgenden Supermärkten vergleichen:
<br/>
<a class="preview" href="https://shop.rewe.de/" id="link 1">Rewe</a>, <br/>
<a class="preview" href="https://www.kaufland.de/" id="link 2">Kaufland</a>, <br/>
<a class="preview" href="https://www.lidl.de/" id="link 3">Lidl</a>, <br/>
<a class="preview" href="https://www.aldi-sued.de/" id="link 3">Aldi</a>, <br/>
</p> </body>

## NavigableString-Objekt

Mithilfe des NavigableString-Objektes können wir Text der von Tags umschlossen ist auslesen, ohne die Tags mit ausgeben zu lassen.

In [89]:
link_string = link.string # Gibt nur den String des eben ausgelesenen Links aus
link_string

'Rewe'

In [90]:
title.string

'Einkaufsliste'

### Das Comment-Objekt

Repräsentiert Kommentare in einem Dokument

In [91]:
comment = soup.b.string
comment

'Hier Angebote vergleichen!'

In [92]:
type(comment)

bs4.element.Comment

### Syntaxbaum navigieren

Beim einlesen eines Dokumentes mit einem BeautifulSoup-Parser, wird das Dokument in einen Syntaxbaum transformiert. Dieser repräsentiert die Struktur des Dokumentes. In diesem Syntaxbaum sind mehrere Tag-Objekte und NavigableText-Objekte vorhanden. 

Wir können nun mit den unten aufgeführten Befehlen von einem Tag bzw. Element zum nächsten Tag bzw. Element im Syntaxbaum navigieren. 

* <b>parent</b>

* <b>contents</b>

* <b>string</b>

* <b>nextSibling und previousSibling</b>

* <b>next_element und previous_element</b>

* <b>find() und find_all()</b>


Alle Befehle können auf Tag-Objekte angewendet werden. Auf NavigableText-Objekte können alle außer den Befehlen "contents" und "string" angewendet werden.

Um dies zu verdeutlichen, erzeugen wir zunächst ein neues BeautifulSoup-Objekt.

Dass in diesem Kapitel verwendete Template stammt von <a href = "http://freietemplates.de/">dieser Webseite (Template #52)</a>.


In [93]:
from bs4 import BeautifulSoup  # importiert BeautifulSoup

In [94]:
html_temp2 = '''
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"
    "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">

<head>

	<link href='http://fonts.googleapis.com/css?family=Droid+Serif|Oswald' rel='stylesheet' type='text/css'>
	
	<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1" />
	<meta name="description" content="" />
	<meta name="keywords" content="" />
	<meta name="robots" content="index, follow" />

	<title>freietemplates.de | Template 52</title>

	<link type="text/css" href="style.css" rel="stylesheet" media="screen" /> 

</head>

<body>

<div id="wrapper">

		<div id="header">
		<a href="#" id="logo">Template 52</a>
		</div>
		
		<!-- Topnavigation -->
		<div id="topnav">
			<ul>
				<li><a href="#">Startseite</a></li>
				<li><a href="#">News</a></li>
				<li><a href="#">Downloads</a></li>
				<li><a href="#">Support</a></li>
				<li><a href="#">Partner</a></li>
				<li><a href="#">Über diese Seite</a></li>
			</ul>
		</div>	
	
	<div id="content">
	<p><script async src="//pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script>
<!-- universal_templates -->
<ins class="adsbygoogle"
     style="display:inline-block;width:728px;height:15px"
     data-ad-client="ca-pub-2863103493790456"
     data-ad-slot="3845429577"></ins>
<script>
(adsbygoogle = window.adsbygoogle || []).push({});
</script></p>
			<h1>Template 52 - Informationen</h1>
			Dieses Template ist eines der frei verfügbaren Templates von <a href="http://freietemplates.de">freietemplates.de</a>. Die Templates von dieser Seite sind kostenfrei erhältlich. Jedes einzelne Template ist XHTML/CSS valide und tabellenfrei umgesetzt. Alle Templates sind für die private und kommerzielle Verwendung geeignet.<br/>
			<br/>
			
			
			<b>Lorem ipsum dolor sit amet</b>, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet.<br/>
			<br/>
			<h1>Informationen</h1>
			Dieses <b>Template</b> ist eines der frei verfügbaren Templates von <a href="http://freietemplates.de">freietemplates.de</a>. Die Templates von dieser Seite sind kostenfrei erhältlich. Jedes einzelne Template ist XHTML/CSS valide und tabellenfrei umgesetzt. Alle Templates sind für die private und kommerzielle Verwendung geeignet.<br/>
		
	</div>
	
	<div id="sidebar">
	
		<div class="sbox">
			<div class="sbox_head">Navigation</div>
				<ul>
					<li><a href="#">Startseite</a></li>
					<li><a href="#">News</a></li>
					<li><a href="#">Downloads</a></li>
					<li><a href="#">Support</a></li>
					<li><a href="#">Partner</a></li>
					<li><a href="#">Über diese Seite</a></li>
					<li><a href="#">Blog</a></li>
				</ul>
		</div>
		
		<div class="sbox">
			<div class="sbox_head">Informationen</div>
			Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum.
		</div>
		
	</div>
	
		<!-- footer -->
		<div id="footer">
		
		<!-- Dieser Backlink darf NICHT entfernt werden. DO NOT REMOVE-->
		Webseite.de | Designed by <a href="http://freietemplates.de/">freietemplates.de</a>

		</div>

</div>

</body>
</html>

'''

In [95]:
soup_nav = BeautifulSoup(html_temp2, 'html.parser')

In [96]:
print(soup_nav.prettify()) # Gibt den Syntaxbaum aus

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"
    "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
 <head>
  <link href="http://fonts.googleapis.com/css?family=Droid+Serif|Oswald" rel="stylesheet" type="text/css"/>
  <meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
  <meta content="" name="description"/>
  <meta content="" name="keywords"/>
  <meta content="index, follow" name="robots"/>
  <title>
   freietemplates.de | Template 52
  </title>
  <link href="style.css" media="screen" rel="stylesheet" type="text/css">
  </link>
 </head>
 <body>
  <div id="wrapper">
   <div id="header">
    <a href="#" id="logo">
     Template 52
    </a>
   </div>
   <!-- Topnavigation -->
   <div id="topnav">
    <ul>
     <li>
      <a href="#">
       Startseite
      </a>
     </li>
     <li>
      <a href="#">
       News
      </a>
     </li>
     <li>
      <a href="#">
       Downloads
      </a>
     </li>


#### parent

In [97]:
head = soup_nav.head # Gibt den Tag head aus
head

<head>
<link href="http://fonts.googleapis.com/css?family=Droid+Serif|Oswald" rel="stylesheet" type="text/css"/>
<meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
<meta content="" name="description"/>
<meta content="" name="keywords"/>
<meta content="index, follow" name="robots"/>
<title>freietemplates.de | Template 52</title>
<link href="style.css" media="screen" rel="stylesheet" type="text/css">
</link></head>

Wenn wir nun head.parent ausführen lassen, wird der Teil, der vom "html" Tag umgeben ist ausgegeben. Wir sprechen mit head.parent den "html" Tag an, da dieser vor dem "head" Tag geöffnet wird. Mit tag.parent können wir im Syntaxbaum also nach oben navigieren.

In [98]:
parent_tag = head.parent
parent_tag

<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<link href="http://fonts.googleapis.com/css?family=Droid+Serif|Oswald" rel="stylesheet" type="text/css"/>
<meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
<meta content="" name="description"/>
<meta content="" name="keywords"/>
<meta content="index, follow" name="robots"/>
<title>freietemplates.de | Template 52</title>
<link href="style.css" media="screen" rel="stylesheet" type="text/css">
</link></head>
<body>
<div id="wrapper">
<div id="header">
<a href="#" id="logo">Template 52</a>
</div>
<!-- Topnavigation -->
<div id="topnav">
<ul>
<li><a href="#">Startseite</a></li>
<li><a href="#">News</a></li>
<li><a href="#">Downloads</a></li>
<li><a href="#">Support</a></li>
<li><a href="#">Partner</a></li>
<li><a href="#">Über diese Seite</a></li>
</ul>
</div>
<div id="content">
<p><script async="" src="//pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script>
<!-- universal_templates -->
<ins class="adsbygoogle

#### contents 
Mit contents können wir im Syntaxbaum nach unten navigieren. Das Ergebnis von  head.contents ist der "title" Tag.


In [99]:
head.contents

['\n',
 <link href="http://fonts.googleapis.com/css?family=Droid+Serif|Oswald" rel="stylesheet" type="text/css"/>,
 '\n',
 <meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>,
 '\n',
 <meta content="" name="description"/>,
 '\n',
 <meta content="" name="keywords"/>,
 '\n',
 <meta content="index, follow" name="robots"/>,
 '\n',
 <title>freietemplates.de | Template 52</title>,
 '\n',
 <link href="style.css" media="screen" rel="stylesheet" type="text/css">
 </link>]

Wenn wir uns den contents des "html" Tags ausgeben lassen, wird uns das gesamte Dokument ab dem "head" Tag angezeigt. Wie ihr sehen könnt, besteht dies wiederum aus mehreren Tags (head und body).

In [100]:
parent_tag.contents

['\n', <head>
 <link href="http://fonts.googleapis.com/css?family=Droid+Serif|Oswald" rel="stylesheet" type="text/css"/>
 <meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
 <meta content="" name="description"/>
 <meta content="" name="keywords"/>
 <meta content="index, follow" name="robots"/>
 <title>freietemplates.de | Template 52</title>
 <link href="style.css" media="screen" rel="stylesheet" type="text/css">
 </link></head>, '\n', <body>
 <div id="wrapper">
 <div id="header">
 <a href="#" id="logo">Template 52</a>
 </div>
 <!-- Topnavigation -->
 <div id="topnav">
 <ul>
 <li><a href="#">Startseite</a></li>
 <li><a href="#">News</a></li>
 <li><a href="#">Downloads</a></li>
 <li><a href="#">Support</a></li>
 <li><a href="#">Partner</a></li>
 <li><a href="#">Über diese Seite</a></li>
 </ul>
 </div>
 <div id="content">
 <p><script async="" src="//pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script>
 <!-- universal_templates -->
 <ins class="adsbygoogle" d

Mit dem Code unten können wir angeben, den wievielten Tag wir ausgeben lassen wollen.

In [101]:
parent_tag.contents[1]

<head>
<link href="http://fonts.googleapis.com/css?family=Droid+Serif|Oswald" rel="stylesheet" type="text/css"/>
<meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
<meta content="" name="description"/>
<meta content="" name="keywords"/>
<meta content="index, follow" name="robots"/>
<title>freietemplates.de | Template 52</title>
<link href="style.css" media="screen" rel="stylesheet" type="text/css">
</link></head>

Hier wird '\n' ausgegeben, da dieses Element mit keinem Tag umschlossen wird. Als nächstes wird dann der "body" Tag ausgegeben.

In [102]:
parent_tag.contents[2]

'\n'

In [103]:
parent_tag.contents[3]

<body>
<div id="wrapper">
<div id="header">
<a href="#" id="logo">Template 52</a>
</div>
<!-- Topnavigation -->
<div id="topnav">
<ul>
<li><a href="#">Startseite</a></li>
<li><a href="#">News</a></li>
<li><a href="#">Downloads</a></li>
<li><a href="#">Support</a></li>
<li><a href="#">Partner</a></li>
<li><a href="#">Über diese Seite</a></li>
</ul>
</div>
<div id="content">
<p><script async="" src="//pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script>
<!-- universal_templates -->
<ins class="adsbygoogle" data-ad-client="ca-pub-2863103493790456" data-ad-slot="3845429577" style="display:inline-block;width:728px;height:15px"></ins>
<script>
(adsbygoogle = window.adsbygoogle || []).push({});
</script></p>
<h1>Template 52 - Informationen</h1>
			Dieses Template ist eines der frei verfügbaren Templates von <a href="http://freietemplates.de">freietemplates.de</a>. Die Templates von dieser Seite sind kostenfrei erhältlich. Jedes einzelne Template ist XHTML/CSS valide und tabellenf

#### string 

Wenn ein Tag lediglich einen untergeordneten Knoten hat und dieser ein ASCII oder Unicode String ist, kann der untergeordnete Knoten mit tag.string ausgegeben werden. Auch tag.contents kann den String ausgeben lassen.

In [104]:
print(soup_nav.prettify())

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"
    "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
 <head>
  <link href="http://fonts.googleapis.com/css?family=Droid+Serif|Oswald" rel="stylesheet" type="text/css"/>
  <meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
  <meta content="" name="description"/>
  <meta content="" name="keywords"/>
  <meta content="index, follow" name="robots"/>
  <title>
   freietemplates.de | Template 52
  </title>
  <link href="style.css" media="screen" rel="stylesheet" type="text/css">
  </link>
 </head>
 <body>
  <div id="wrapper">
   <div id="header">
    <a href="#" id="logo">
     Template 52
    </a>
   </div>
   <!-- Topnavigation -->
   <div id="topnav">
    <ul>
     <li>
      <a href="#">
       Startseite
      </a>
     </li>
     <li>
      <a href="#">
       News
      </a>
     </li>
     <li>
      <a href="#">
       Downloads
      </a>
     </li>


In [105]:
soup_nav.b.string  # Gibt den String, der vom "b" Tag umschlossen ist aus.

'Lorem ipsum dolor sit amet'

In [106]:
soup_nav.b.contents[0] # Dasselbe mit contents

'Lorem ipsum dolor sit amet'

In [107]:
soup_nav.title.string # Gibt den String, der vom "title" Tag umschlossen ist aus.

'freietemplates.de | Template 52'

In [108]:
soup_nav.title.contents # Dasselbe mit contents

['freietemplates.de | Template 52']

Nun möchten wir alle Strings des Dokuments ausgeben lassen. Zuerst versuchen wir dies mit BeautifulSoup-Objekt.strings

In [109]:
for string in soup_nav.strings:
    print(repr(string))

'\n'
'\n'
'\n'
'\n'
'\n'
'\n'
'\n'
'\n'
'\n'
'freietemplates.de | Template 52'
'\n'
'\n'
'\n'
'\n'
'\n'
'\n'
'Template 52'
'\n'
'\n'
'\n'
'\n'
'\n'
'Startseite'
'\n'
'News'
'\n'
'Downloads'
'\n'
'Support'
'\n'
'Partner'
'\n'
'Über diese Seite'
'\n'
'\n'
'\n'
'\n'
'\n'
'\n'
'\n'
'\n(adsbygoogle = window.adsbygoogle || []).push({});\n'
'\n'
'Template 52 - Informationen'
'\n\t\t\tDieses Template ist eines der frei verfügbaren Templates von '
'freietemplates.de'
'. Die Templates von dieser Seite sind kostenfrei erhältlich. Jedes einzelne Template ist XHTML/CSS valide und tabellenfrei umgesetzt. Alle Templates sind für die private und kommerzielle Verwendung geeignet.'
'\n'
'\n'
'Lorem ipsum dolor sit amet'
', consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Lorem ipsum dolor

Hier werden allerdings auch die Zeilenumbrüche angezeigt. Eine bessere Variante für die Ausgabe von Strings stellt die Methode BeautifulSoup-Objekt.stripped_strings dar

In [110]:
for string in soup_nav.stripped_strings:
    print(repr(string))

'freietemplates.de | Template 52'
'Template 52'
'Startseite'
'News'
'Downloads'
'Support'
'Partner'
'Über diese Seite'
'(adsbygoogle = window.adsbygoogle || []).push({});'
'Template 52 - Informationen'
'Dieses Template ist eines der frei verfügbaren Templates von'
'freietemplates.de'
'. Die Templates von dieser Seite sind kostenfrei erhältlich. Jedes einzelne Template ist XHTML/CSS valide und tabellenfrei umgesetzt. Alle Templates sind für die private und kommerzielle Verwendung geeignet.'
'Lorem ipsum dolor sit amet'
', consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea

#### nextSibling and previousSibling

Mit diesen Befehlen gelangen wird zum nächsten (nextSibling) oder vorherigen (previousSibling) Tag, welches sich auf demselben Level des Syntaxbaums befindet.


In [111]:
print(soup_nav.prettify())

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"
    "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
 <head>
  <link href="http://fonts.googleapis.com/css?family=Droid+Serif|Oswald" rel="stylesheet" type="text/css"/>
  <meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
  <meta content="" name="description"/>
  <meta content="" name="keywords"/>
  <meta content="index, follow" name="robots"/>
  <title>
   freietemplates.de | Template 52
  </title>
  <link href="style.css" media="screen" rel="stylesheet" type="text/css">
  </link>
 </head>
 <body>
  <div id="wrapper">
   <div id="header">
    <a href="#" id="logo">
     Template 52
    </a>
   </div>
   <!-- Topnavigation -->
   <div id="topnav">
    <ul>
     <li>
      <a href="#">
       Startseite
      </a>
     </li>
     <li>
      <a href="#">
       News
      </a>
     </li>
     <li>
      <a href="#">
       Downloads
      </a>
     </li>


In [112]:
soup_nav.head.next_sibling

'\n'

Hier ist das nächste Element ein Zeilenumbruch. Wenn wir noch einmal vorwärts navigieren, erhalten wir den "body" Tag.

In [113]:
next_sib = soup_nav.head.next_sibling.next_sibling
next_sib

<body>
<div id="wrapper">
<div id="header">
<a href="#" id="logo">Template 52</a>
</div>
<!-- Topnavigation -->
<div id="topnav">
<ul>
<li><a href="#">Startseite</a></li>
<li><a href="#">News</a></li>
<li><a href="#">Downloads</a></li>
<li><a href="#">Support</a></li>
<li><a href="#">Partner</a></li>
<li><a href="#">Über diese Seite</a></li>
</ul>
</div>
<div id="content">
<p><script async="" src="//pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script>
<!-- universal_templates -->
<ins class="adsbygoogle" data-ad-client="ca-pub-2863103493790456" data-ad-slot="3845429577" style="display:inline-block;width:728px;height:15px"></ins>
<script>
(adsbygoogle = window.adsbygoogle || []).push({});
</script></p>
<h1>Template 52 - Informationen</h1>
			Dieses Template ist eines der frei verfügbaren Templates von <a href="http://freietemplates.de">freietemplates.de</a>. Die Templates von dieser Seite sind kostenfrei erhältlich. Jedes einzelne Template ist XHTML/CSS valide und tabellenf

Mit previous_sibling können wir nach oben navigieren.

In [114]:
next_sib.previous_sibling

'\n'

In [115]:
next_sib.previous_sibling.previous_sibling

<head>
<link href="http://fonts.googleapis.com/css?family=Droid+Serif|Oswald" rel="stylesheet" type="text/css"/>
<meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
<meta content="" name="description"/>
<meta content="" name="keywords"/>
<meta content="index, follow" name="robots"/>
<title>freietemplates.de | Template 52</title>
<link href="style.css" media="screen" rel="stylesheet" type="text/css">
</link></head>

#### next_element and previous_element

Mit diesen Befehlen kann über die Elemente des Dokuments navigiert werden. Hier gilt die Reihenfolge, die durch den Parser festgelegt wurde. Egal, ob Tag oder String.

Das nächste Element von "head" ist nun der Tag "title" und nicht "body", wie bei next_sibling. Dies ist der Fall, da "title" direkt nach dem Tag "head" im Dokument kommt.

In [116]:
print(soup_nav.prettify())

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"
    "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
 <head>
  <link href="http://fonts.googleapis.com/css?family=Droid+Serif|Oswald" rel="stylesheet" type="text/css"/>
  <meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
  <meta content="" name="description"/>
  <meta content="" name="keywords"/>
  <meta content="index, follow" name="robots"/>
  <title>
   freietemplates.de | Template 52
  </title>
  <link href="style.css" media="screen" rel="stylesheet" type="text/css">
  </link>
 </head>
 <body>
  <div id="wrapper">
   <div id="header">
    <a href="#" id="logo">
     Template 52
    </a>
   </div>
   <!-- Topnavigation -->
   <div id="topnav">
    <ul>
     <li>
      <a href="#">
       Startseite
      </a>
     </li>
     <li>
      <a href="#">
       News
      </a>
     </li>
     <li>
      <a href="#">
       Downloads
      </a>
     </li>


In [117]:
soup_nav.head.next_element # Gibt das Element nach dem "head" Tag aus

'\n'

In [118]:
soup_nav.head.next_element.next_element # Gibt das übernächste Element nach dem "head" Tag aus

<link href="http://fonts.googleapis.com/css?family=Droid+Serif|Oswald" rel="stylesheet" type="text/css"/>

In [119]:
next_element = soup_nav.a.next_element # Gibt das Element nach dem "a" Tag aus
next_element

'Template 52'

In [120]:
next_element.previous_element 

<a href="#" id="logo">Template 52</a>

#### find() und find_all()

Weiter oben haben wir uns folgendermaßen einen Link ausgeben lassen:

In [121]:
print(soup_nav.prettify())

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"
    "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
 <head>
  <link href="http://fonts.googleapis.com/css?family=Droid+Serif|Oswald" rel="stylesheet" type="text/css"/>
  <meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
  <meta content="" name="description"/>
  <meta content="" name="keywords"/>
  <meta content="index, follow" name="robots"/>
  <title>
   freietemplates.de | Template 52
  </title>
  <link href="style.css" media="screen" rel="stylesheet" type="text/css">
  </link>
 </head>
 <body>
  <div id="wrapper">
   <div id="header">
    <a href="#" id="logo">
     Template 52
    </a>
   </div>
   <!-- Topnavigation -->
   <div id="topnav">
    <ul>
     <li>
      <a href="#">
       Startseite
      </a>
     </li>
     <li>
      <a href="#">
       News
      </a>
     </li>
     <li>
      <a href="#">
       Downloads
      </a>
     </li>


In [122]:
soup_nav.a

<a href="#" id="logo">Template 52</a>

Dies ist auch mit find() möglich.

In [123]:
soup_nav.find('a')

<a href="#" id="logo">Template 52</a>

Euch ist sicherlich schon aufgefallen, dass das Template aber nicht nur einen Link enthält. Alle Links können mit find_all() ausgegeben werden.

In [124]:
soup_nav.find_all('a')

[<a href="#" id="logo">Template 52</a>,
 <a href="#">Startseite</a>,
 <a href="#">News</a>,
 <a href="#">Downloads</a>,
 <a href="#">Support</a>,
 <a href="#">Partner</a>,
 <a href="#">Über diese Seite</a>,
 <a href="http://freietemplates.de">freietemplates.de</a>,
 <a href="http://freietemplates.de">freietemplates.de</a>,
 <a href="#">Startseite</a>,
 <a href="#">News</a>,
 <a href="#">Downloads</a>,
 <a href="#">Support</a>,
 <a href="#">Partner</a>,
 <a href="#">Über diese Seite</a>,
 <a href="#">Blog</a>,
 <a href="http://freietemplates.de/">freietemplates.de</a>]

Nun wollen wir aber nur den Wert des Attributs "href" ausgeben lassen, damit wir an die Links gelangen.

In [125]:
for link in soup_nav.find_all('a'): # Sucht nach allen Links
    print(link.get('href')) # Gibt aber nur den Attributwert von "href" aus

#
#
#
#
#
#
#
http://freietemplates.de
http://freietemplates.de
#
#
#
#
#
#
#
http://freietemplates.de/


In [126]:
for link in soup_nav.find_all('a'): # Sucht nach allen Links (Tag a)
    print(link.string) # Gibt aber nur den jeweiligen String aus

Template 52
Startseite
News
Downloads
Support
Partner
Über diese Seite
freietemplates.de
freietemplates.de
Startseite
News
Downloads
Support
Partner
Über diese Seite
Blog
freietemplates.de


Es kann auch nach mehreren Tags gesucht werden.

In [127]:
soup_nav.find_all(['a', 'ul']) # Sucht nach "a" und "ul" Tags

[<a href="#" id="logo">Template 52</a>, <ul>
 <li><a href="#">Startseite</a></li>
 <li><a href="#">News</a></li>
 <li><a href="#">Downloads</a></li>
 <li><a href="#">Support</a></li>
 <li><a href="#">Partner</a></li>
 <li><a href="#">Über diese Seite</a></li>
 </ul>, <a href="#">Startseite</a>, <a href="#">News</a>, <a href="#">Downloads</a>, <a href="#">Support</a>, <a href="#">Partner</a>, <a href="#">Über diese Seite</a>, <a href="http://freietemplates.de">freietemplates.de</a>, <a href="http://freietemplates.de">freietemplates.de</a>, <ul>
 <li><a href="#">Startseite</a></li>
 <li><a href="#">News</a></li>
 <li><a href="#">Downloads</a></li>
 <li><a href="#">Support</a></li>
 <li><a href="#">Partner</a></li>
 <li><a href="#">Über diese Seite</a></li>
 <li><a href="#">Blog</a></li>
 </ul>, <a href="#">Startseite</a>, <a href="#">News</a>, <a href="#">Downloads</a>, <a href="#">Support</a>, <a href="#">Partner</a>, <a href="#">Über diese Seite</a>, <a href="#">Blog</a>, <a href="http

In [128]:
id_link1 = soup_nav.find_all(id="sidebar") # Sucht nach dem Begriff ' id = "link 1" '
print(id_link1)

[<div id="sidebar">
<div class="sbox">
<div class="sbox_head">Navigation</div>
<ul>
<li><a href="#">Startseite</a></li>
<li><a href="#">News</a></li>
<li><a href="#">Downloads</a></li>
<li><a href="#">Support</a></li>
<li><a href="#">Partner</a></li>
<li><a href="#">Über diese Seite</a></li>
<li><a href="#">Blog</a></li>
</ul>
</div>
<div class="sbox">
<div class="sbox_head">Informationen</div>
			Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum.
		</div>
</div>]


In [129]:
print(len(id_link1)) # Gibt die Anzahl der Ergebnisse aus

1


Wenn wir nach Text suchen möchten, der mit einem bestimmten Buchstaben beginnt bzw. einen bestimmten Buchstaben enthält können wir dem import re verwenden.

In [130]:
import re  #Für reguläre Ausdrücke

In [131]:
for tag in soup_nav.find_all(re.compile('^b')):
    print(tag.name) # Gibt nur Tags aus, die mit b beginnen

body
br
br
b
br
br
b
br


In [132]:
for tag in soup_nav.find_all(re.compile('l')):
    print(tag.name) # Gibt alle Tags aus, die ein l enthalten

html
link
title
link
ul
li
li
li
li
li
li
ul
li
li
li
li
li
li
li


In [133]:
soup_nav.find_all(string = re.compile("Template")) #Gibt nur Sätze aus, die das Wort "science" enthalten

['freietemplates.de | Template 52',
 'Template 52',
 'Template 52 - Informationen',
 '\n\t\t\tDieses Template ist eines der frei verfügbaren Templates von ',
 '. Die Templates von dieser Seite sind kostenfrei erhältlich. Jedes einzelne Template ist XHTML/CSS valide und tabellenfrei umgesetzt. Alle Templates sind für die private und kommerzielle Verwendung geeignet.',
 'Template',
 ' ist eines der frei verfügbaren Templates von ',
 '. Die Templates von dieser Seite sind kostenfrei erhältlich. Jedes einzelne Template ist XHTML/CSS valide und tabellenfrei umgesetzt. Alle Templates sind für die private und kommerzielle Verwendung geeignet.']

Wir können aber auch den gesamten Text, wie er im Browser dargestellt wird mit .get_text() auslesen lassen.

In [134]:
text_only = soup_nav.get_text()
print(text_only)










freietemplates.de | Template 52





Template 52




Startseite
News
Downloads
Support
Partner
Über diese Seite







(adsbygoogle = window.adsbygoogle || []).push({});

Template 52 - Informationen
			Dieses Template ist eines der frei verfügbaren Templates von freietemplates.de. Die Templates von dieser Seite sind kostenfrei erhältlich. Jedes einzelne Template ist XHTML/CSS valide und tabellenfrei umgesetzt. Alle Templates sind für die private und kommerzielle Verwendung geeignet.

Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea 

# Praktische Anwendung

In [135]:
from bs4 import BeautifulSoup  # importiert BeautifulSoup

import re

from urllib.request import urlopen # Zum öffnen und lesen von Webseiten

Um eine Webseite (deren Quellencode) einzulesen, benötigen wir die Funktion urlopen()

In [136]:
page = urlopen('https://www.lovelybooks.de/').read()  # Öffnet und liest die Webseite ein 
book = BeautifulSoup(page, 'html.parser') # Erzeugt ein BeautifulSoup Objekt
print(book.prettify()) # Gibt den Syntaxbaum aus

<!DOCTYPE html>
<html lang="de" prefix="og: http://ogp.me/ns# fb: http://www.facebook.com/2008/fbml" xmlns="http://www.w3.org/1999/xhtml">
 <head>
  <link href="//s3-eu-west-1.amazonaws.com/media.lovelybooks.de/aktionen-2017/leserpreis-2017-navigation/css/mainNav.css" rel="stylesheet" type="text/css"/>
  <meta content="text/html; charset=utf-8" http-equiv="content-type"/>
  <title>
   LovelyBooks - Leser empfehlen Dir die besten Bücher und Autoren
  </title>
  <meta content="Dein Guide für Bücher - der Treffpunkt für Leser: Entdecke Bücher und Autoren auf eine neue Art - dazu die schönsten Buchverlosungen, Leserunden &amp; ..." name="description"/>
  <meta content="index,follow" name="robots"/>
  <meta content="https://www.lovelybooks.de/" name="baseurl"/>
  <meta content="IE=edge" http-equiv="X-UA-Compatible"/>
  <meta content="width=device-width" name="viewport"/>
  <link href="https://www.lovelybooks.de/" rel="canonical"/>
  <link href="/favicon.ico" rel="icon" type="image/x-icon"/>

Mit der Methode getAutorLinks() können Tags ausgegeben werden und nach allen Autoren auf der Startseite, die mit M beginnen gesucht werden

In [137]:
def getAutorLinks(pageUrl, parser):
    
    html = urlopen(pageUrl).read() # Einlesen einer beliebige URL
    book2 = BeautifulSoup(html, parser) # Erzeugen eines BeautifulSoupObjektes
    
    try:
        print(book2.title.contents) # Gibt Title aus
        print(book2.h1.get_text())  # Gibt h1 aus
        
    except AttributError:
        # Ausgabe, falls der Try Block fehlerhaft abschließt
        print("This page is missing something! No worries though!")
        
    # Sucht nach allen Links deren Autor mit M beginnt
    for link in book2.findAll('a',{'href':re.compile('^(/autor/M)')}): 
         print(link.get('href'))
            
getAutorLinks('https://www.lovelybooks.de/', 'html.parser')

['LovelyBooks - Leser empfehlen Dir die besten Bücher und Autoren']
Leserunden und Buchverlosungen Tolle Bücher entdecken und gewinnen
/autor/Martin-Navarro/Der-Drache-der-Eisenberge-1496779388-w/leserunde/1510187511/
/autor/Martin-Navarro/Der-Drache-der-Eisenberge-1496779388-w/leserunde/1510187511/
/autor/Michael-Robotham/Die-Rivalin-1474445078-w/
/autor/Michael-Robotham/
/autor/Maria-M.-Lacroix/Secrets-Das-Geheimnis-der-Feentochter-1439279404-w/
/autor/Maria-M.-Lacroix/
/autor/Michael-Zadoorian/Das-Leuchten-der-Erinnerung-1441733329-w/
/autor/Michael-Zadoorian/
/autor/Marie-Adams/Gl%C3%BCck-schmeckt-nach-Popcorn-1453416518-w/
/autor/Marie-Adams/
/autor/Mary-E.-Pearson/Das-Herz-des-Verr%C3%A4ters-1461094399-w/
/autor/Mary-E.-Pearson/
/autor/Mary-Basson/Die-Malerin-1452024210-w/
/autor/Mary-Basson/
/autor/Martin-Navarro/Der-Drache-der-Eisenberge-1496779388-w/leserunde/1510187511/
/autor/Martin-Navarro/
/autor/Martin-Navarro/Der-Drache-der-Eisenberge-1496779388-w/
/autor/Martin-Navarro/

Im Folgenden wird die Methode erweitert, so dass nur der Name und das Buch eines Autors ausgegeben werden. Mit split() können wir die URL zerlegen. Anschließend rufen wir nur die Stellen der Liste auf, die wir benötigen - Also den Autor an der Stelle 2 und das Buch an der Stelle 3. Zudem soll jeder Autor nur einmal ausgegeben werden.

In [140]:
def getAutor(pageUrl, parser):
   
    hilfs_var = "" # Hilfsvariable für den Vergleich
    html = urlopen(pageUrl).read()
    book3 = BeautifulSoup(html, parser) 
   
    try:
        print(book3.title.contents) 
        print(book3.h1.get_text())  
    
    except AttributError:  
        print("This page is missing something! No worries though!")
    
    for link in book3.findAll('a',{'href':re.compile('^(/autor/M)')}): 
        links = link.get('href') # Speichert alle Links in s 
        links_split = links.split('/') # Zerlegt den String an Stellen mit dem Zeichen '/'
        autor = links_split[2] # Gibt die 2. Stelle aus - den Autor
        buch = links_split[3] # Gibt die 3. Stelle aus - das Buch       
    
        if autor == hilfs_var: # Vergleicht, ob der Autor bereits ausgegeben wurde
            continue # Falls ja, wird die Schleife fortgefahren (wir wollen jeden Autor nur einmal)
        else:
            print("Autor: ", autor, "; Buch: ", buch)        
        
        hilfs_var = links.split('/')[2]
  

getAutor('https://www.lovelybooks.de/', 'html.parser')

['LovelyBooks - Leser empfehlen Dir die besten Bücher und Autoren']
Leserunden und Buchverlosungen Tolle Bücher entdecken und gewinnen
Autor:  Martin-Navarro ; Buch:  Der-Drache-der-Eisenberge-1496779388-w
Autor:  Michael-Robotham ; Buch:  Die-Rivalin-1474445078-w
Autor:  Maria-M.-Lacroix ; Buch:  Secrets-Das-Geheimnis-der-Feentochter-1439279404-w
Autor:  Michael-Zadoorian ; Buch:  Das-Leuchten-der-Erinnerung-1441733329-w
Autor:  Marie-Adams ; Buch:  Gl%C3%BCck-schmeckt-nach-Popcorn-1453416518-w
Autor:  Mary-E.-Pearson ; Buch:  Das-Herz-des-Verr%C3%A4ters-1461094399-w
Autor:  Mary-Basson ; Buch:  Die-Malerin-1452024210-w
Autor:  Martin-Navarro ; Buch:  Der-Drache-der-Eisenberge-1496779388-w
Autor:  Michelle-Schrenk ; Buch:  Wann-immer-ich-die-Sonne-sehe-1491085254-w


Nun wollen wir wissen, welche Themengebiete alle zur Verfügung stehen. Wenn man sich den Quellcode der Webseite genauer ansieht, erkennt man, dass die internen Links zu einem bestimmten Themengebiet immer mit /buecher/ beginnen. Also müssen wir nun nach Links (a) mit dem Attribut "href" suchen, welche mit /buecher/ beginnen und das Attribut "class" besitzen. Anschließend soll das Ergebnis als Textdatei gespeichert werden.

In [141]:
def getGenre(pageUrl, parser):
    
    file = open('links.text', 'w') # Legt eine Textdatei im Verzeichnis an
    
    html = urlopen(pageUrl).read()
    book4 = BeautifulSoup(html, parser)
    
    for link in book4.findAll('a', {'href':re.compile('^(/buecher/)'), 'class':re.compile('^')}):
        soup_link = str(link.get('class'))
        print(soup_link)
        file.write(soup_link) # Schreibt das Ergebnis in die Textdatei
        file.flush()
            
getGenre('https://www.lovelybooks.de/', 'html.parser')

['krimi-thriller']
['fantasy']
['romane']
['liebesroman']
['jugendbuch']
['historische-romane']
['sachbuch']
['kinderbuch']
['science-fiction']
['klassiker']
['comic']
['humor']
['biografie']
['gedichte-drama']
['erotische-literatur']
['more', '-do']
['btn-stoebern']
['btn-stoebern']
['btn-stoebern']
['btn-stoebern']
['btn-stoebern']
['btn-stoebern']


Wenn ihr euch nicht sicher seid, wo die Text-Datei gespeichert wird, könnt ihr mit " %pwd " das aktuelle Verzeichnis ausgeben lassen

In [None]:
%pwd

In [143]:
# Listen, um die Ergebnisse zu speichern und später aufzurufen
list_euro = []
list_cent = []
list_angebot = []
list_gespart = []

def getAngebot(pageUrl, angebot_url):
    
    html = urlopen(pageUrl+angebot_url).read()
    angebot_soup = BeautifulSoup(html, 'html.parser')
    
    # Wird nur beim ersten Aufruf der Methode ausgeführt, danach besitzt angebot_url den Wert /angebote/
    if angebot_url == '':
        # Sucht nach Links, deren Attributwert href mit /angebote/ beginnt
        for link in angebot_soup.find_all('a', {'href':re.compile('^(/angebote/)')}):
            angebot_link = link.get('href')     
        angebot_url = angebot_link
        # Methode wird erneut aufgerufen. Es wird folgende URL geöffnet: https://www.rewe.de/angebote/
        getAngebot('https://www.rewe.de/', angebot_url)

    else:
            # Schreibt alle Namen der Artikel in die Liste 'list_angebot'
            for tag in angebot_soup.findAll('div', {'class':'dotdot'}):
                artikel = tag.next_element.next_element
                artikel2= artikel.string
                list_angebot.append(artikel2)
            
            # Schreibt alle Angebotspreise in die Listen 'list_euro' und 'list_cent'
            for tag in angebot_soup.findAll('div', {'class':'price'}):
                price = tag.contents
                euro = price[0]                  
                cent = price[1].string
                list_euro.append(euro)
                list_cent.append(cent)  
                
    i = 0
    # Gibt die Listen aus
    while i < len(list_angebot): 
        print(list_angebot[i])
        print('Kostet: ', list_euro[i], list_cent[i], '€') 
        print('') 
        i = i + 1
             
getAngebot('https://www.rewe.de/', '')

Karottini
Kostet:  0. 79 €

REWE Beste Wahl 
Beutelsalat 
Der Aromatische
Kostet:  1. 49 €

Frischwurst-Aufschnitt
Kostet:  0. 69 €

Karottini
Kostet:  0. 79 €

Adler 
Edelcreme 
Sahne
Kostet:  0. 99 €

Homann
Thunfisch- oder Geflügelsalat Hawaii
Kostet:  1. 49 €

REWE Bio
Körniger Frischkäse
Kostet:  0. 79 €

Grana Padano
Kostet:  1. 29 €

Brunch
Brotaufstrich
Kostet:  1. 11 €

Rügenwalder Mühle 
Mühlen Schinken
Kostet:  1. 59 €

Hochland
Almette
Kostet:  0. 99 €

REWE Beste Wahl 
Beutelsalat 
Der Aromatische
Kostet:  1. 49 €

REWE Bio
Tofu Natur
Kostet:  1. 29 €

Rügenwalder
Mühlen Currywurst
Kostet:  1. 59 €

Saint Agur
oder Saint Albray
Kostet:  1. 99 €

Gutfried 
Geflügel-Fleischwurst
Kostet:  1. 79 €

Karottini
Kostet:  0. 79 €

Adler 
Edelcreme 
Sahne
Kostet:  0. 99 €

Homann
Thunfisch- oder Geflügelsalat Hawaii
Kostet:  1. 49 €

Kinder 
Überraschung
Kostet:  0. 49 €

REWE Bio
Körniger Frischkäse
Kostet:  0. 79 €

Grana Padano
Kostet:  1. 29 €

Rama
Kostet:  0. 89 €

Müller
Jogh

# Quellen

Buch: Web Scraping with Python by Ryan
Mitchell (O’Reilly). Copyright 2015 Ryan Mitchell, 978-1-491-91029-0

https://www.crummy.com/software/BeautifulSoup/bs4/doc/

https://www.advidera.com/glossar/web-scraping/

https://wiki.selfhtml.org/wiki/CSS/fertige_Layouts

https://semalt.com/qa/7563-website-schaber.htm