# Web Scraping in Python

Quelle: Datamics

In dieser Lektion schauen wir uns in einem Beispiel an, wie man mit Python Informationen aus dem Web zieht.


##### Wir werden jetzt die folgenden Schritte ausführen

1.) Wir gehen auf eine Webseite

2.) suchen uns Informationen die wir haben möchten 

3.) schauen uns an wo diese gespeichert wird 

4.) Danach extrahieren wir diese

5.) und speichern die Information als ein Pandas DataFrame!

#### Allerdings solltest Du diese Dinge in Betracht ziehen, bevor Du mit dem scrapen einer Webseite beginnst:

1.) Auf jeden fall solltest Du die *"Terms and Conditions"* der Web Seite anschauen

2.) Sparsam mit den Anfragen umgehen damit der Zielserver nicht überlastet wird. Ansonsten kannst du blockiert werden.

3.) "Scrapers" werden im Laufe der Zeit fehlerhaft, da Webseiten ihr Layout ständig ändern. Du wirst wahrscheinlich häufig Deinen Code Anpassen müssen. 

4.) Webseiten sind gewöhnlich inkonsistent, daher wirst du wahrscheinlich die Daten nach dem einlesen aufbereiten müssen.

5.) Jede Webseite und jede Situation ist unterschiedlich, daher wirst du viel Zeit für die Konfiguration Deines Scrapers aufbringen.


#### Um mehr über HTML zu lernen, empfehle ich die folgenden Seiten: 

[SELFHTML](https://wiki.selfhtml.org/wiki/HTML/Tutorials)

[W3School](http://www.w3schools.com/html/)




#### Wir müssen die folgenden 3 Python Pakete installieren (falls noch nicht installiert):

1.) **BeautifulSoup: **
    *pip install beautifulsoup4* or *conda install beautifulsoup4* 

2.) **lxml:** 
    *pip install lxml* oder *conda install lxml* 

3.) **requests:** 
    *pip install requests* oder *conda install requests*



Beginnen wir mit den Importen:

In [1]:
from bs4 import BeautifulSoup
import requests

In [2]:
import pandas as pd
from pandas import Series,DataFrame

Für unser kurzes Web Scraping Tutorial schauen wir uns Berichte von der Webseite der University of California an. Ihr könnt natürlich gerne weitere Webseiten selbst ausprobieren. Seid dabei allerdings bitte respektvoll und vorsichtig mit dem was und mit der Menge die ihr "scrapt". Überprüft vorher auch auf jeden Fall noch die rechtliche Grundlage für ein automatisches Auslesen des Inhalts der Webseite.


OK, fangen wir an und legen die URL fest.

In [3]:
url = 'http://www.ucop.edu/operating-budget/budgets-and-reports/legislative-reports/2013-14-legislative-session.html'

Als nächstes verwenden wir requests um den Inhalt der Webseite zu laden und definieren dieses als ein Beautiful Soup Object.

In [5]:
# Request Inhalt der Webseite
result = requests.get(url)
c = result.content

# Beautiful Soup Object
soup = BeautifulSoup(c, "html5lib")

Jetzt verwenden wir Beautiful Soup um die Tabelle zu finden, die wir nehmen möchten! 


In [19]:
# Gehe zur Sektion mit den Informationen
summary = soup.find("div",{'class':'list-land','id':'content'})

# Finde die Tabellen in dem HTML
tables = summary.find_all('table')


Jetzt benötigen wir Beautiful Soup um die Tabelleneinträge zu finden. Ein 'td' Tag definiert eine Standardzelle in einer HTML Tabelle. Der 'tr' Tag definiert eine Zeile in einer HTML Tabelle.

Wir parsen durch unser Tabellenobjekt und versuchen jede Zelle mit der findALL('td') Methode zu finden.

Es gibt viele Möglichkeiten um findALL mit Beautiful Soup zu verwenden. Du kannst diese gerne  [hier](http://www.crummy.com/software/BeautifulSoup/bs4/doc/#find-all) nachlesen.

 

In [21]:
# Definiere eine leere Liste data
data = []

# Setzte rows (Zeilen) als erstes indexierte Objekt in der Tabelle mit einer Zeile
rows = tables[0].findAll('tr')

# Jetzt lesen wir jede HTML-Zelle aus jeder Zeile aus
for tr in rows:
    cols = tr.findAll('td')
    # Überprüfe, ob die Zelle einen Text enthält
    for td in cols:
        text = td.find(text=True) 
        print (text)
        data.append(text)
    

1
08/01/13
2013-14 (EDU 92495) Proposed Capital Outlay Projects (2013-14 only) (pdf)
2
09/01/13
2014-15  (EDU 92495) Proposed Capital Outlay Projects (pdf)
3
11/01/13
Utilization of Classroom and Teaching Laboratories (pdf)
4
11/01/13
Instruction and Research Space Summary & Analysis (pdf)
5
11/15/13
Statewide Energy Partnership Program (pdf)
6
11/30/13
2013-23 Capital Financial Plan (pdf)
7
11/30/13
Projects Savings Funded from Capital Outlay Bond Funds (pdf)
8
12/01/13
Streamlined Capital Projects Funded from Capital (pdf)
9
01/01/14
Annual General Obligation Bonds Accountability (pdf)
10
01/01/14
Small Business Utilization (pdf)
11
01/01/14
Institutional Financial Aid Programs - Preliminary report (pdf)
12
01/10/14
Summer Enrollment (pdf)
13
01/15/14
Contracting Out for Services at Newly Developed Facilities (pdf)
14
03/01/14
Performance Measures (pdf)
15
03/01/14
Entry Level Writing Requirement (pdf)
16
03/31/14
Annual Report on Student Financial Support (pdf)
17
04/01/14
Unique St

Schauen wir unsere Liste "data" nochmal genauer an.

In [13]:
data

['1',
 '08/01/13',
 '2013-14 (EDU 92495) Proposed Capital Outlay Projects (2013-14 only) (pdf)',
 '2',
 '09/01/13',
 '2014-15\xa0 (EDU 92495) Proposed Capital Outlay Projects (pdf)',
 '3',
 '11/01/13',
 'Utilization of Classroom and Teaching Laboratories (pdf)',
 '4',
 '11/01/13',
 'Instruction and Research Space Summary & Analysis (pdf)',
 '5',
 '11/15/13',
 'Statewide Energy Partnership Program (pdf)',
 '6',
 '11/30/13',
 '2013-23 Capital Financial Plan (pdf)',
 '7',
 '11/30/13',
 'Projects Savings Funded from Capital Outlay Bond Funds (pdf)',
 '8',
 '12/01/13',
 'Streamlined Capital Projects Funded from Capital (pdf)',
 '9',
 '01/01/14',
 'Annual General Obligation Bonds Accountability (pdf)',
 '10',
 '01/01/14',
 'Small Business Utilization (pdf)',
 '11',
 '01/01/14',
 'Institutional Financial Aid Programs - Preliminary report (pdf)',
 '12',
 '01/10/14',
 'Summer Enrollment (pdf)',
 '13',
 '01/15/14',
 'Contracting Out for Services at Newly Developed Facilities (pdf)',
 '14',
 '03/

Jetzt könenn wir eine For-Schleife einsetzten um durch die Liste zu iterieren. Dabei nehmen wir nur die Zellen die ein  PDF Dokument beinhalten. Außerdem müssen wir den Index mit dem Datum des Berichts auslesen.



In [14]:
# Definiere die leeren Listen
reports = []
date = []

# Definiere den Indexzähler
index = 0

# Suche die PDF Zellen
for item in data:
    if 'pdf' in item:
        # Füge das Datum des Berichts hinzu
        date.append(data[index-1])
        
        # Entferne \xa0
        reports.append(item.replace(u'\xa0', u' '))
                    
    index += 1

Jetzt müssen wir nur noch unsere Daten in einem Pandas DataFrame speichern!

In [15]:
# Dazu wandeln wir date und reports in Series um
date = Series(date)
reports = Series(reports)

In [16]:
# Fügen diese zu einem DataFrame zusammen
legislative_df = pd.concat([date,reports],axis=1)

In [23]:
# Definieren die Spalten
legislative_df.columns = ['Datum','Bericht']

In [22]:
# und schauen uns das DataFrame an
legislative_df

Unnamed: 0,Date,Reports
0,08/01/13,2013-14 (EDU 92495) Proposed Capital Outlay Pr...
1,09/01/13,2014-15 (EDU 92495) Proposed Capital Outlay P...
2,11/01/13,Utilization of Classroom and Teaching Laborato...
3,11/01/13,Instruction and Research Space Summary & Analy...
4,11/15/13,Statewide Energy Partnership Program (pdf)
5,11/30/13,2013-23 Capital Financial Plan (pdf)
6,11/30/13,Projects Savings Funded from Capital Outlay Bo...
7,12/01/13,Streamlined Capital Projects Funded from Capit...
8,01/01/14,Annual General Obligation Bonds Accountability...
9,01/01/14,Small Business Utilization (pdf)


Du kannst natürlich gerne weitere Webseiten selbst ausprobieren. Sei dabei allerdings bitte respektvoll und vorsichtig mit dem was und mit der Menge die ihr "scrapt". Überprüfe vorher auch auf jeden Fall noch die rechtliche Grundlage für ein automatisches Auslesen des Inhalts der Webseite.


## Gute Arbeit!