# Webscraping mit Scrapy

## Einleitung
Mit *Scraping* meint man in der Regel die Informationsextraktion aus Dokumenten. Von *Crawling* spricht man dagegen, wenn man auf einer Seite gefundene Links wiederum automatisch aufruft (und auf den gefundenen Seiten ggf. wieder usw.).

**Scrapy** ist ein sehr mächtiges Framework zum Scrapen und Crawlen von Websites.

Wir wollen uns hier zunächst damit vertraut machen, wie wir Informationen aus einem einzelnen Dokument extrahieren können.

Der DataCamp-Kurs zu Scrapy (https://campus.datacamp.com/courses/web-scraping-with-python) ist einsteigerfreundlich und sehr empfehlenswert!

## Setup
Eine Installationsanleitung für Scrapy gibt es hier: https://docs.scrapy.org/en/latest/intro/install.html

Unter Linux oder MacOs sollte es sich leicht via pip installieren lassen, für Windows bietet sich Anaconda an (https://docs.anaconda.com/anaconda/install/windows/).

Wir importieren erst einmal nur den Teil, den wir hier brauchen.

In [1]:
from scrapy import Selector

`blurbs_dev_edit.txt` ist eine XML-Datei, die Kurzbeschreibungen und Metadaten von Büchern aus dem Verlagsprogramm von Random House enthält. Gedacht ist sie eigentlich für eine Klassifikationsaufgabe im Rahmen von *GermEval* (siehe https://www.inf.uni-hamburg.de/en/inst/ab/lt/resources/data/germeval-2019-hmc.html), aber wir zweckentfremden sie hier etwas. 

In [3]:
import gzip
with gzip.open('../data/blurbs.xml.gz') as f:
    xml = f.read()

Um mit Scrapy damit arbeiten zu können, müssen wir einen `Selector` erstellen. Beim tatsächlichen Scrapen von Webseiten müssen wir das nicht mehr explizit tun.

In [4]:
sel = Selector(text=xml, type="xml")
print(sel)        

<Selector xpath=None data='<books>\n<book date="2019-01-04" xml:l...'>


## XPath
Die *XML Path Language* ist eine Abfragesprache, um auf Baumbestandteile eines XML-Dokuments zuzugreifen. Sie wird u.a. in XSLT (für XML-Transformationen) und XQuery (Abfragesprache für XML-Datenbanken) verwendet.

Alternativ kann man mit Scrapy auch *CSS Locators* verwenden (siehe z.B. DataCamp-Kurs). Diese machen insbesondere die Auswahl nach Klassen oder IDs etwas einfacher.

### Grundlagen
Cheat Sheet (mit Vergleich zu CSS-Selektoren): https://devhints.io/xpath

Auch ganz schön: https://wiki.selfhtml.org/wiki/XML/XSL/XPath

- Navigation mit Schrägstrichen wie bei Dateipfaden
- Schrägstrich am Anfang: Wurzel
- Zwei Schrägstriche am Anfang: Suche im ganzen Dokument
- Schrägstriche im Pfad:
    - `/element1/element2` => wähle `element2`, wenn es *direkt* von `element1` abhängt
    - `/element1//element2` => wähle `element2`, wenn es *irgendwo* unterhalb von `element1` vorkommt
- `@attribut`: Wert des Attributs
    - `//a/@href` => Werte aller `href`-Attribute von `a`-Elementen im Dokument (also alle Links in einem HTML-Dokument)
- `element/text()`: Textinhalt des Elements
- `element//text()`: Textinhalt des Elements und von Unterelementen
- Genauere Auswahl mittels eckiger Klammern:
    - Zahl: n-tes Element
    - `@attribut="wert"`: nur Elemente, bei denen das genannte Attribut den genannten Wert annimmt (Achtung: gerade bei class-Attributen können hier auch mehrere Klassennamen stehen – damit die Elemente gefunden werden, muss der komplette String übereinstimmen)
    - `contains(@attribut, "wert")`: String "wert" im genannten Attribut enthalten
- Wildcards:
    - `*` => egal, welches Element
    - `@*` => egal, welches Attribut
    - `node()` => egal, welche Node (Vorsicht!)
- Und noch einiges mehr ...

### Beispiele
#### Das zweite Buch auswählen
Achtung, XPath beginnt beim Zählen nicht wie Python bei 0, sondern bei 1!

In [5]:
book2 = sel.xpath('/books/book[2]')
print(book2)

[<Selector xpath='/books/book[2]' data='<book date="2019-01-04" xml:lang="de"...'>]


Die Rückgabe ist wieder ein `Selector`-Objekt. Wenn der XPath-Ausdruck auf mehrere Elemente passt, erhält man stattdessen ein `SelectorList`-Objekt, also eine Liste von `Selector`-Objekten.

Mit `get()` (oder `extract_first()`) erhält man das erste Element als String. Mit `getall()` (oder `extract()`) erhält man alle Elemente als Liste von Strings.

In [6]:
print(book2.get())

<book date="2019-01-04" xml:lang="de">
<title>Das Buch der Schatten - Schwarze Seelen</title>
<body>Als Morgan von einer prophetischen Vision heimgesucht wird, brechen sie und Hunter nach New York auf. Dort scheint ein dunkler Hexenclan Böses zu planen und der Anführer ist niemand Geringeren als Ciaran – der Seelenverwandte und Mörder von Morgans leiblicher Mutter. Auf wen hat er es diesmal abgesehen? Ein Wolfsjunges war in Morgans Vision das Opfer – ein Symbol für ein Kind? Morgan und Hunter setzen alles daran, dieses Kind zu beschützen …</body>
<copyright>(c) Verlagsgruppe Random House GmbH</copyright>
<categories>
<category>
<topic d="0">Kinderbuch &amp; Jugendbuch</topic>
<topic d="1" label="True">Echtes Leben, Realistischer Roman</topic>
</category>
<category>
<topic d="0">Kinderbuch &amp; Jugendbuch</topic>
<topic d="1" label="True">Geister- und Gruselgeschichten</topic>
</category>
<category>
<topic d="0">Kinderbuch &amp; Jugendbuch</topic>
<topic d="1" label="True">Fantasy und 

In [7]:
print(book2.getall())

['<book date="2019-01-04" xml:lang="de">\n<title>Das Buch der Schatten - Schwarze Seelen</title>\n<body>Als Morgan von einer prophetischen Vision heimgesucht wird, brechen sie und Hunter nach New York auf. Dort scheint ein dunkler Hexenclan Böses zu planen und der Anführer ist niemand Geringeren als Ciaran – der Seelenverwandte und Mörder von Morgans leiblicher Mutter. Auf wen hat er es diesmal abgesehen? Ein Wolfsjunges war in Morgans Vision das Opfer – ein Symbol für ein Kind? Morgan und Hunter setzen alles daran, dieses Kind zu beschützen …</body>\n<copyright>(c) Verlagsgruppe Random House GmbH</copyright>\n<categories>\n<category>\n<topic d="0">Kinderbuch &amp; Jugendbuch</topic>\n<topic d="1" label="True">Echtes Leben, Realistischer Roman</topic>\n</category>\n<category>\n<topic d="0">Kinderbuch &amp; Jugendbuch</topic>\n<topic d="1" label="True">Geister- und Gruselgeschichten</topic>\n</category>\n<category>\n<topic d="0">Kinderbuch &amp; Jugendbuch</topic>\n<topic d="1" label="T

Dasselbe Element hätten wir in diesem Fall auch so erhalten können:

In [13]:
book2 = sel.xpath('//book[2]')
print(book2.get())

<book date="2019-01-04" xml:lang="de">
<title>Das Buch der Schatten - Schwarze Seelen</title>
<body>Als Morgan von einer prophetischen Vision heimgesucht wird, brechen sie und Hunter nach New York auf. Dort scheint ein dunkler Hexenclan Böses zu planen und der Anführer ist niemand Geringeren als Ciaran – der Seelenverwandte und Mörder von Morgans leiblicher Mutter. Auf wen hat er es diesmal abgesehen? Ein Wolfsjunges war in Morgans Vision das Opfer – ein Symbol für ein Kind? Morgan und Hunter setzen alles daran, dieses Kind zu beschützen …</body>
<copyright>(c) Verlagsgruppe Random House GmbH</copyright>
<categories>
<category>
<topic d="0">Kinderbuch &amp; Jugendbuch</topic>
<topic d="1" label="True">Echtes Leben, Realistischer Roman</topic>
</category>
<category>
<topic d="0">Kinderbuch &amp; Jugendbuch</topic>
<topic d="1" label="True">Geister- und Gruselgeschichten</topic>
</category>
<category>
<topic d="0">Kinderbuch &amp; Jugendbuch</topic>
<topic d="1" label="True">Fantasy und 

#### Verknüpfen von Selektoren
Hier, um die Texte der `<topic>`-Elemente zu erhalten:

In [14]:
topics = book2.xpath('.//topic/text()')
print(topics.getall())

['Kinderbuch & Jugendbuch', 'Echtes Leben, Realistischer Roman', 'Kinderbuch & Jugendbuch', 'Geister- und Gruselgeschichten', 'Kinderbuch & Jugendbuch', 'Fantasy und Science Fiction']


Der Punkt ist bei XPath wichtig – sonst wird nicht verknüpft, sondern wieder im ganzen Dokument gesucht!

Jedes Element `<category>` hat ein Kindelement `<topic>`, das die feinste, genaueste Kategorie angibt. Dieses Element hat das Attribut `label` mit dem Wert `True`. Um also für `book2` nur die genauesten Kategorien zu erhalten:

In [15]:
spec_topics = book2.xpath('.//topic[@label = "True"]/text()')
print(spec_topics.getall())

['Echtes Leben, Realistischer Roman', 'Geister- und Gruselgeschichten', 'Fantasy und Science Fiction']


Alternativ hätten wir auch `last()` verwenden können, um das jeweils letzte Element zu suchen. Mit der Suche nach bestimmten Attributwerten ist der Bezug aber vermutlich klarer.

In [16]:
spec_topics = book2.xpath('.//topic[last()]/text()')
print(spec_topics.getall())

['Echtes Leben, Realistischer Roman', 'Geister- und Gruselgeschichten', 'Fantasy und Science Fiction']


Um umgekehrt die Oberkategorien für ein bestimmtes Buch zu erhalten, können wir auf das Attribut `d` zurückgreifen (das ergibt z.T. Dopplungen):

In [11]:
print(sel.xpath('/books/book[98]/categories/category/topic[@d = "0"]/text()').getall())

['Ratgeber', 'Ganzheitliches Bewusstsein', 'Ratgeber', 'Ganzheitliches Bewusstsein']


#### Wie viele ISBNs sind im Dokument?

In [17]:
isbns = sel.xpath('//isbn/text()')
len(isbns)

2079

#### Textabgleich
Suche nach einer bestimmten ISBN:

In [18]:
sel.xpath('//isbn[text() = "9783734161131"]')

[<Selector xpath='//isbn[text() = "9783734161131"]' data='<isbn>9783734161131</isbn>'>]

Wie viele Bücher haben das Label "Große Gefühle"?

In [19]:
gg = sel.xpath('//book[.//topic/text() = "Große Gefühle"]') # Vorsicht: ohne Punkt werden alle Bücher zurückgegeben
print(len(gg))

59


Erster Treffer davon:

In [20]:
print(gg.get())

<book date="2019-01-04" xml:lang="de">
<title>Die erste Nacht</title>
<body>Aus Keiras und Adrians Begegnung ist Liebe geworden, aus ihren Forschungen über den Ursprung der Welt ein verhängnisvolles Chaos. Als Keira im chinesischen Gelben Fluss verunglückt, ist für Adrian alles verloren. Aber dann erhält er einen Hinweis darauf, dass die Frau, die er liebt, noch am Leben sein könnte. Voller Hoffnung macht er sich auf die Suche nach ihr. Doch dunkle Mächte walten im Hintergrund, und Adrian muss sich zwischen seiner Liebe und der Suche nach der Wahrheit entscheiden …</body>
<copyright>(c) Verlagsgruppe Random House GmbH</copyright>
<categories>
<category>
<topic d="0">Literatur &amp; Unterhaltung</topic>
<topic d="1">Frauenunterhaltung</topic>
<topic d="2" label="True">Große Gefühle</topic>
</category>
<category>
<topic d="0">Literatur &amp; Unterhaltung</topic>
<topic d="1" label="True">Romane &amp; Erzählungen</topic>
</category>
</categories>
<authors>Marc Levy</authors>
<published>20

Welche Bücher enthalten irgendwo in der Beschreibung das Wort *Schildkröte*?

In [21]:
sk = sel.xpath('//book[.//body[contains(text(), "Schildkröte")]]')
for buch in sk.getall():
    print(buch)
    print()

<book date="2019-01-04" xml:lang="de">
<title>Was hör ich da? Unsere Haustiere</title>
<body>Alle Kinder wünschen sich ein Haustier, auch Anton und Lena. Doch welches soll es sein? Ein Hund, eine Katze oder ein Meerschweinchen? Bis sich die Geschwister entscheiden können, hüten sie erst einmal Willi, den Hund ihrer Nachbarin, und lernen viele andere Tiere beim Tierarzt und in der Tierhandlung kennen – auch so exotische wie einen Papagei oder eine Schildkröte. Dabei erfahren sie viel über die Pflege von Haustieren und hören ganz unterschiedliche Tierstimmen: das Schnurren einer Katze, das Quieken von Meerschweinchen, Hundegebell und vieles mehr.</body>
<copyright>(c) Verlagsgruppe Random House GmbH</copyright>
<categories>
<category>
<topic d="0">Kinderbuch &amp; Jugendbuch</topic>
<topic d="1" label="True">Abenteuer</topic>
</category>
<category>
<topic d="0">Kinderbuch &amp; Jugendbuch</topic>
<topic d="1" label="True">Echtes Leben, Realistischer Roman</topic>
</category>
</categories

#### Verknüpfung von Bedingungen
Wie viele Bücher haben als Labels "Fantasy" oder "Science Fiction"?

In [23]:
scifi_fantasy = sel.xpath('//book[.//topic/text() = "Fantasy" or .//topic/text() = "Science Fiction"]')
len(scifi_fantasy)

278

Und wie viele Bücher haben *beide* Labels?

In [24]:
scifi_fantasy = sel.xpath('//book[.//topic/text() = "Fantasy" and .//topic/text() = "Science Fiction"]')
len(scifi_fantasy)

3

In [25]:
print(scifi_fantasy.get())

<book date="2019-01-04" xml:lang="de">
<title>Armageddon Rock</title>
<body>1971 wird Peter Hobbins, der Sänger der legendären Rockband Nazgûl, während eines Konzerts auf offener Bühne erschossen. Zehn Jahre später gehen die übrigen Bandmitglieder, begleitet von dem abgebrannten Musikjournalisten Sandy Blair, wieder auf Tour. Doch noch während die Nazgûl ein furioses Comeback feiern, geschehen mehrere bestialische Morde. Sandy beginnt Fragen zu stellen, und schnell wird ihm klar, dass es bei den Konzerten der Band nicht mit rechten Dingen zugeht …</body>
<copyright>(c) Verlagsgruppe Random House GmbH</copyright>
<categories>
<category>
<topic d="0">Literatur &amp; Unterhaltung</topic>
<topic d="1">Science Fiction</topic>
<topic d="2" label="True">Phantastik</topic>
</category>
<category>
<topic d="0">Literatur &amp; Unterhaltung</topic>
<topic d="1" label="True">Fantasy</topic>
</category>
</categories>
<authors>George R.R. Martin</authors>
<published>2016-11-14</published>
<isbn>97834