*Disclaimer: Die Inhalte dieses Notebooks wurden zuletzt am 15.06.2020 geprüft. Da sich Webseiten häufig verändern, kann es sein, dass der Code zu einem späteren Zeitpunkt nicht mehr funktioniert.*

## Web Scraping - Die Spielregeln

(*orientiert an [Pablo Barberás](http://pablobarbera.com/) Vorschlägen*)

1. Respektiert die Wünsche der angezielten Webseite(n):

    - überprüft ob eine API verfügbar ist oder die Daten anderweitig heruntergeladen werden können
    - behaltet im Hinterkopf woher die Daten kommen, respektiert Copyrights und verweist ggf. auf die Quelle
    - spielt mit offenen Karten, d.h. tarnt eure Programme nicht als menschliche Nutzer*innen

2.  Limitiert die Serverbelastung:

    -  wartet ein oder zwei Sekunden nach jeder Anfrage
    -  scrapt nur was für euer Projekt gebraucht wird und zwar nur einmal (speichert z.B. HTML-Datein auf eurer Festplatte ab und bearbeitet diese erst im Anschluss)
    
3. Wie finden wir raus ob der Zugang genehmigt ist?

    - einige Websites verbieten den Zugang von Scrapern über ein [`robots.txt`](http://www.robotstxt.org/robotstxt.html) file
    - auch in den Nutzungsbedingungen (AGB's) finden sich häufig Hinweise darauf, ob Scraping erlaubt ist
    - im Zweifelsfall immer zuerst Kontakt mit den Betreiber*innen aufnehmen


    
  

### Beispiel ResearchGate.net - ist scrapen hier erlaubt?

[ResearchGate.net](https://de.wikipedia.org/wiki/ResearchGate) ist ein soziales Netzwerk für Wissenschaftler*innen.


Erster Check: die `robots.txt` Datei: https://www.researchgate.net/robots.txt

````
User-agent: *
Allow: /
Disallow: /connector/
Disallow: /plugins.
Disallow: /firststeps.
Disallow: /publicliterature.PublicLiterature.search.html
Disallow: /lite.publication.PublicationRequestFulltextPromo.requestFulltext.html
Disallow: /amp/authorize
Allow: /signup.SignUp.html
Disallow: /signup.
````

- User-agent: * bedeutet, dass die folgenden Zeilen für alle möglichen User-Agents (z.B. Google Bots, oder unsere Python Programme) gelten.
- In der Datei ist definiert welche Bereiche nicht gescrapt werden dürfen, z.B: `/connector/`.

Allein auf Basis der ``robots.txt`` Datei wäre es demnach in Ordnung die Jobangebote der Seite (`/jobs/`) zu scrapen:
<img src="https://www.dropbox.com/s/oxijm8u7pv30n89/researchgate_jobs.PNG?dl=1" alt="Drawing" style="width: 500px;"/>

In den [Nutzungsbedingungen von researchgate](https://www.researchgate.net/application.TermsAndConditions.html) ist allerdings klar formuliert, dass die  Betreiber*innen Web Scraping nicht gestatten (you shall not ...):
<img src="https://www.dropbox.com/s/11oxi2504bu7u8l/researchgate_tos.JPG?dl=1" alt="Drawing" style="width: 800px;"/>

**Fazit**: Ihr solltet die Seite researchgate.net nicht ohne Genehmigung der Betreiber*innen scrapen.

### Beispiel ted.com - ist scrapen hier erlaubt?

[TED](https://de.wikipedia.org/wiki/TED_(Konferenz)) - Technology, Entertainment, Design - ist ursprünglich eine Konferenz, auf der Reden nach dem Motto "Ideas Worth Spreading" vorgetragen werden. Der [YouTube Channel](https://www.youtube.com/user/TEDtalksDirector) von TED ist unter den weltweit meist abonnierten Kanälen und Transkripte zu den Reden sind über die TED Homepage verfügbar.


Erster Check: die `robots.txt` Datei: https://www.ted.com/robots.txt

````
User-agent: *
Disallow: /latest
Disallow: /latest-talk
Disallow: /latest-playlist
Disallow: /people
Disallow: /profiles
Disallow: /conversations
Disallow: /themes/rss
Disallow: /discussions
Disallow: /tpv4
````

Ein paar Bereiche, wie z.B. [/profiles](https://www.ted.com/profiles) dürfen nicht programmatisch abgegriffen werden. Andere, wie z.B. [/talks](https://www.ted.com/talks) dagegen schon.

In den [Nutzungsbedingungen von TED](https://www.ted.com/about/our-organization/our-policies-terms/ted-com-terms-of-use) ist angeben, dass die Inhalte [Creative Commons](https://de.wikipedia.org/wiki/Creative_Commons#Lizenzen) lizensiert sind:
<img src="https://www.dropbox.com/s/zasdioadj5qgu29/ted_tos.png?dl=1" alt="Drawing" style="width: 600px;"/>

**Fazit**: 
 - Die TED Inhalte dürfen - abgesehen von den in der `robots.txt` gelisteten Endpunkten - für nicht kommerzielle Zwecke gescrapt werden. 
 - Die Daten sollten aber nur unter bestimmten Bedingungen weitergegeben werden.
 - Grundsätzlich sollten im Zweifelsfall die Seitenbetreiber\*innen kontaktiert oder rechtliche Beratung aufgesucht werden.

### Übungsaufgabe 1

Prüft, ob die Webseite der HU Berlin, https://www.hu-berlin.de, gescrapt werden darf.

## HTML -  Hypertext Markup Language

[HTML](https://de.wikipedia.org/wiki/Hypertext_Markup_Language) ist eine Sprache zur Strukturierung digitaler Dokumente und besteht aus mehreren Elementen, die in einer Baumstruktur angeordnet sind. Elemente bestehen generell aus drei Teilen:

```html
<a href="https://www.hu-berlin.de/">Link zur HU Berlin</a>
```

1. Anführende bzw. schließende  **Tags**.
2. **Attribute** des Elements innerhalb der Tags
3. Der zu strukturierende **Text** 


<img src="https://www.w3schools.com/js/pic_htmltree.gif" alt="Drawing" style="width: 500px;"/>

Was wir im Browser sehen ist eine Interpretation des HTML Dokuments:


````
Dokument Elemente: <head>, <body>, <footer>...
Dokument Komponenten: <title>,<h1>, <div>...
Textstil: <b>, <i>, <strong>...
Hyperlinks: <a>
````

Neben HTML sind hauptsächlich noch CSS und Javascript relevant für Webscraping:

#### CSS
- [Cascading Style Sheets](https://de.wikipedia.org/wiki/Cascading_Style_Sheets) (CSS) beschreiben die Formatierung und z.B. Farben von HTML Komponenten (wie z.B. ``<h1>``, ``<div>``, ...)
- CSS ist nützlich für uns, da die CSS Zeiger (Selektoren) verwendet werden können, um HTML Elemente zu finden.

#### Javascript
- [Javascript](https://de.wikipedia.org/wiki/JavaScript) erweitert die Funktionalität von Webseiten (z.B. Veränderung der Inhalte nach dem laden einer Webseite)
- Javascript wird client-seitig und nicht server-seitig ausgeführt
- Für uns ist Javascript häufig ein Problem, da client-seitig bedingte Veränderungen des HTML Dokuments nicht über konventionelle `requests` erfasst werden können 

### HTML im Chrome Browser

- Ruft die [HU Berlin Seite](https://www.hu-berlin.de) im Chrome Browser auf und öffnet die Developer Tools mit der Taste `F12` (alternativ Rechtsklick + Inspect):
    <img src=" https://developer.chrome.com/devtools/images/elements-panel.png" alt="Drawing" style="width: 800px;"/>

- Setzt euren Cursor über verschiedene Elemente in der Developer Console und schaut, was auf der Homepage hervorgehoben wird.
- Im Developer Bereich könnt ihr alle Informationen zu den Elemente, z.B. `id`, `class`, usw., auslesen.

## BeautifulSoup

[BeautifulSoup](http://www.crummy.com/software/BeautifulSoup/bs4/doc/#) ist ein Python Parser Package, über das HTML und XML Strings eingelesen und als Dokumente in einer Baumstruktur repräsentiert werden können. 

In [None]:
from bs4 import BeautifulSoup

## Beispiel aus der Beautiful Soup Dokumentation:
html_doc = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>

<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>

<p class="story">...</p>
"""

Ein String, der HTML Code beinhaltet, wird zunächst über die Funktion `BeautifulSoup()` eingelesen:

In [None]:
soup = BeautifulSoup(html_doc, "html5lib") 
# html5lib ->  parser, ggf. vorher über pip installieren

Anschließend können einzelne Attribute aus der Baumstruktur abgerufen werden:

In [None]:
print(soup.title.text)

In [None]:
print(soup.prettify()) ## ähnlich wie pprint, nur für html

Besonders nützlich ist, dass im kompletten HTML Dokument nach bestimmten Tags, z.B. `a` für Links, gesucht werden kann:

In [None]:
print(soup.find_all('a'))

first_link = soup.find_all('a')[0]
first_link.get('href')

Weiterhin können Elemente über Attribute wie `id`, `href`, oder `class` gefunden werden:

In [None]:
print('id',  soup.find(id = "link2"))
print('href', soup.find(href = 'http://example.com/lacie'))
print('class', soup.find(class_ = 'story'))

In sämtlichen Suchen können außerdem reguläre Ausdrücke  verwendet werden:

In [None]:
import re
soup.find_all('a', href = re.compile('til'))

In [None]:
soup.find_all('a', id = re.compile('link[\d]+'))

  
## Web Scraping - How To

1.  Struktur der Webseite verinnerlichen
2.  Scraping Strategie wählen
3.  Prototypen Code schreiben: Daten extrahieren, verarbeiten, validieren
4.  Generalisieren: Funktionen, Schleifen, Debugging
5.  Datenaufbereitung

#### Der erste Versuch - HU Berlin Homepage

In [None]:
from bs4 import BeautifulSoup
import requests
import pandas as pd
import time

In [None]:
html = requests.get('https://www.hu-berlin.de')

In [None]:
print('Request header:\n', html.request.headers)
print('Status Code:\n', html.status_code)
print('HTML String:\n',html.text[:200])

HTML parsen:

In [None]:
soup = BeautifulSoup(html.text, "html5lib")

Links finden:

In [None]:
links = soup.find_all('a')
links[:4]

In [None]:
links[0].get('href') # attribut 'href' des ersten soup elements

In [None]:
links[0].text # attribut 'text' des ersten soup elements

### Übungsaufgabe 2

Speichert alle Links der HU-Berlin, die auf externe Webseiten verweisen, in einer Liste.

In [None]:
# Code für Übungsaufgabe 2

### CSS Selektoren

- Neben Attributen wie Klassen oder id's  ist es auch möglich Elemente über CSS Selektoren auszuwählen.
- Der komplette Selektor Pfad kann dabei z.B. in Chrome über *Rechtsklick auf Element -> Copy -> Copy Selector* ausfindig gemacht werden:

In [None]:
soup.select('#content a')

Eine sehr nützliche Alternative (oder Ergänzung) ist das Tool [selectorgadget](http://selectorgadget.com/):
        <img src="https://s3-ap-south-1.amazonaws.com/av-blog-media/wp-content/uploads/2017/03/26153207/WS3.png" alt="Drawing" style="width: 800px;"/>
    

In [None]:
soup.select('.news-listing .title a') # gefunden mit selector gadget

### Exkurs: Fehlermeldungen abfangen



Webscraping ist anfällig für unvorhergesehene Fehler. Beispiel: Ein Server reagiert nicht auf eine Anfrage. Für diese Zwecke ist es nützlich, Fehlermeldungen abzufangen um einen Programmabsturz zu vermeiden.

In [None]:
l = ['a', 'b', 1, 'c']
for i in l:
    print(i.upper())

In [None]:
for i in l:
    try:
        print(i.upper())
    except Exception as e: # fehler abfangen
        print('Error for ', i, ': ', e)

### Übung 3

- Macht euch mit der Struktur des [Nachrichtenarchivs](https://www.hu-berlin.de/de/pr/nachrichten/hu_foldernr_archiv) der HU Berlin Seite vertraut.
- Verwendet das selector gadget oder eine andere Strategie um den CSS Selektor für die Links zu allen Monatsarchiven zu finden.
- Scrapt das Nachrichtenarchiv und speichert die Links zu allen Monatsarchiven in einer Liste.
- Geht eine Ebene tiefer und extrahiert die Links der einzelnen News Artikeln aus allen Monatsarchiven. Achtet hierbei darauf, den HU-Server nicht zu überlasten und baut [kurze Pausen](https://stackoverflow.com/questions/510348/how-can-i-make-a-time-delay-in-python) (2 Sekunden) in euer Programm ein.
- Überprüft anschließend durch manuelle Inspektion einiger Archive, ob irgendwelche Artikellinks durch euren Code nicht erfasst wurden.

In [None]:
# Code für Übungsaufgabe 3

### Scraping - Tabellarische Daten

- In den meisten Fällen sind tabellarische Daten relativ einfach zu scrapen, da die Tabellenstruktur mit Hilfe der pandas Funktion `read_html()` direkt in einen Datensatz überführt werden kann. 
- Die Funktion erwartet als Input entweder eine URL oder einen HTML String.
- Als Output wird eine Liste mit Dataframes aller gefundenen Tabellen generiert

In [None]:
from bs4 import BeautifulSoup
import requests
import pandas as pd
import time
import re

#### Wikipedia

In [2]:
from IPython.display import IFrame
IFrame('https://de.wikipedia.org/wiki/Datenbanktabelle', width = 800, height = 400)

Auf der Wikipedia Seite wird eine Tabelle gefunden:

In [None]:
tables = pd.read_html('https://de.wikipedia.org/wiki/Datenbanktabelle',
                      header = 0, # erste Zeile als Spaltenbezeichnungen
                     flavor = 'html5lib') # parser bestimmen
print(len(tables))

In [None]:
type(tables) # Achtung: Tabellen sind in Liste abgelegt

In [None]:
tables[0]

Häufig enthält eine Seite jedoch mehrere Tabellen, so dass die gesuchte Tabelle über "Trial and Error" gefunden werden muss.

### Shanghai rankings

In [None]:
IFrame('http://www.shanghairanking.com/ARWU2008.html', width = 800, height = 400)

In [None]:
seed = 'http://www.shanghairanking.com/'
response = requests.get(seed)
html = response.text
seedsoup = BeautifulSoup(html, "html5lib")

### Einschub -  HTML in Files abspeichern

- Um HTML Code in Files abzuspeichern können die I/O Tools von Python verwendet werden
- Es wird lediglich das "rohe" HTML ohne zusätzliche Inhalte wie Bilder gespeichert

In [None]:
%cd "D:\datascraping\data"

with open('shanghai_rankings.html', 'w', encoding = 'utf-8') as f:
    f.write(html)

In [None]:
seedsoup.find_all('a')[:15] # alle links finden

Die Links zu allen Tabellen über eine Regular Expression:

In [None]:
arwu_links = seedsoup.find_all('a', href = re.compile('^ARWU[0-9]{4}'))
arwu_links[:10]

Die Links werden mit der Base URL kombiniert: 

In [None]:
url_list = set([seed + link.get('href') for link in arwu_links])
sorted(url_list)

Alternativ über String Formatting:

In [None]:
base = 'http://www.shanghairanking.com/ARWU{}.html' # {} = platzhalter
for year in range(2003, 2018):
    print(base.format(year))

### Übungsaufgabe 4

- Versucht ```robots.txt``` Datei der Webseite zu überprüfen. Was fällt auf?
- Speichert jede Shanghai Ranking Tabelle von 2010 bis 2015 lokal in einem `.html` File ab.
- Überführt die Tabellen anschließend in einen gemeinsamen Pandas Datensatz (siehe [pd.concat](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.concat.html)). 
- Was fällt beim betrachten der Daten auf? Welche Cleaning Prozeduren müssten an dieser Stelle noch durchgeführt werden?

In [None]:
# Code für Übungsaufgabe 4

###  Scraping - Blogarchive

In [None]:
IFrame('http://blogfraktion.de/archiv/', width = 800, height = 400) # CDU/CSU Blog

Nach einer Inspektion der Nutzungsbedingungen sowie der ``robots.txt`` Datei (Stand: 15.06.2020) scheint Scraping in Ordnung zu sein. 

#### Gesamtarchiv

In [None]:
import requests
from bs4 import BeautifulSoup
seed = 'http://blogfraktion.de/archiv/'
response = requests.get(seed)
seedsoup = BeautifulSoup(response.text, 'html5lib')
seedsoup.title

In [None]:
all_links = seedsoup.find_all('a') # alle links im archiv
print(len(all_links))
all_links[:20]

Die Links zu Monatsarchiven folgen einer einheitlichen Struktur:

In [None]:
archive = [link.get('href') for link in seedsoup.find_all('a', 
                        href = re.compile('\d{4}/[0-9]{2}/$'))] # regex
sorted(archive)[:10]

In [None]:
len(archive)

#### Monatsarchive

In [None]:
IFrame('https://blogfraktion.de/2017/05/', width = 800, height = 400)

In [None]:
print(archive[0])
r = requests.get(archive[0])
soup = BeautifulSoup(r.text, 'html5lib')
soup.title

Links zu Artikeln finden:

In [None]:
links = soup.find_all('a', attrs = {'rel': 'bookmark'}) # alternative: css selector
for link in links:
    print(link.get('href'))

#### Einzelne Artikel

In [None]:
IFrame('https://blogfraktion.de/2019/05/06/die-woche-fuer-das-leben-im-zeichen-der-suizidpraevention/', 
width = 800, height = 400)

In [None]:
raw = requests.get('https://blogfraktion.de/2019/05/06/die-woche-fuer-das-leben-im-zeichen-der-suizidpraevention/').text
article = BeautifulSoup(raw, 'html5lib')

Der eigentliche Text der Blog-Artikel kann über ein Klassen-Attribut gefunden werden:

In [None]:
main = article.find('div', { "class" : "entry-content" }).text
print(main[:500])

### Übungsaufgabe 5

- Findet einen Weg euch sämtliche Blogposts aus allen Monatsarchiven der "blogfraktion" zu scrapen. Achtet hierbei darauf den  Server nicht zu überlasten.
- Erstellt aus den Posts einen Pandas Datensatz, in dem mindestens folgende Informationen für jeden Blogpost enthalten sind:
    - Autor
    - Datum
    - Titel
    - Text
    - URL zum Post
- Speichert den Datensatz anschließend in einem Format eurer Wahl ab.

*Hinweis: Es empfiehlt sich, den Prozess in mehrere Teilschritte und entsprechende Hilfsfunktionen aufzuteilen (z.B. eine Funktion für die Extraktion von Archivlinks, eine Funktion für die Verarbeitung dieser Links und eine Funktion zur Verarbeitung von Artikellinks)*

In [None]:
# Code Übungsaufgabe 5

<br>
<br>


___

                
**Kontakt: Carsten Schwemmer** (Webseite: www.carstenschwemmer.com,  Email: c.schwem2er@gmail.com)