# Einführung in BeautifulSoup, einlesen von Files

Und als aller Erstes wollen wir die Developer Tools kennenlernen:

- Gehen wir auf: www.srf.ch.
- Öffnen den Chrome Browser. Die Developer Tools findest DU im Menü unter More Tools -> Developer Tools. Shortcuts: F12, Str-Ctr-I oder Cmd + Opt + I (alle Browser die Dev Tools, wir fokussieren hier auf den Chrome Browser) 
- Der Reiter, der uns interessiert, ist: “Elements”. Steuere ihn an.
- Wir können hier zwischen Mobilansicht und Desktop wechseln
- Oder Elemente auf der Website suchen. Wähle den Pfeil an. Und suche nun etwas auf der Website. 
- Hier können wir auch Texte manipulieren, teste es auf www.srf.ch. 
- Aber das interessiert uns nicht. Wir wollen die Struktur der Website kennenlernen. Vertiefen wir uns eine Weile in diese Struktur. Je besser wir sie kennen, desto einfacher ist es, Daten auszulesen.
- Das sollte euch nun etwas bekannter vorkommen. Ihr habt eben selber solche Zeilen geschrieben. 

Gehen wir zurück zu dem File, den ihr eben selber bearbeitet habt. Zuerst müssen wir das File einlesen.

In [None]:
file = open('02 HTML Code.htm', 'r')

```open``` ist eine eingebaute Funktion von Python. Ihr findet hier [eine Zusammenstellung](https://docs.python.org/2/library/functions.html) all dieser Funktionen. Es gibt neben ```r```und ```w``` noch die Binary modi. ```rb```und ```wb```. Binary heisst, dass der Computer sich die Buchstaben im Format abspeichert, der ihm am besten liegt. 0 und 1. E = 01000101, F = 01000110, ihr findet mehr [hier](http://sticksandstones.kstrom.com/appen.html) (allerdings Python 2) und mehr [hier](https://docs.python.org/3/tutorial/inputoutput.html).

In [None]:
file2 = open('testingopen.txt', 'w')

Oben seht ihr das Ergebnis, wenn ihr ein File schreibt. Im selben Ordner wie dieses Jupyter Notebook erscheint nun eben dieses file2. Das einfach der vollständigkeitshalber.

In [None]:
file.read()

In [None]:
text = file.read()

In [None]:
file = open('02 HTML Code.htm', 'r')

In [None]:
file.readline()

In [None]:
#Das sieht aber nicht sehr schön aus
file = open('02 HTML Code.htm', 'r')
text = file.read()
text

Mit BeautifulSoup kann man HTML-Sites in eine Form bringen, die es uns Menschen wieder einfacher macht, die Inhalte zu lesen. Wir beginnne wir immer, indem wir die Library installieren. Wie mit ```!pip import BS4```falls ihr das nicht schon getan habt. Und dann importieren wir die Library.

In [None]:
from bs4 import BeautifulSoup

In [None]:
soup = BeautifulSoup(text, "html.parser")

In [None]:
soup.find('h2')

In [None]:
soup.find_all('h2')

In [None]:
#Bauen wir eine neue Liste
new_lst = []
for elem in soup.find_all('h2'):
    new_lst.append(elem.text)

In [None]:
new_lst

In [None]:
#Bauen wir eine Liste von Dictionaries
new_lst = []
for elem in soup.find_all('h2'):
    mini_dict = {'Überschrift':elem.text}
    new_lst.append(mini_dict)

In [None]:
import pandas as pd

In [None]:
pd.DataFrame(new_lst)

## Gehen wir auf eine Seite mit mehr INhalt, aber immer noch sehr strukturiert: Ein RSS-Feed
Was wir hier haben, ist die aktuelle Ausbuchung der Parkplätze in der Stadt Zürich. Sie werden von der Stadt in einem RSS Feed abgeboten. Schauen wir uns den [Link einmal an](http://www.plszh.ch/plsFeed/rss). Nicht sehr lesbar, aber äusserst strukturiert. Lesen wir die Plätze aus.

In [None]:
import requests

In [None]:
r = requests.get('https://www.pls-zh.ch/plsFeed/rss') #Besuchen wir die URL

In [None]:
contents = r.text #Wandeln wir den Text in ein Format um, mit dem BeautifulSoup umgehen kann.
soup = BeautifulSoup(contents,"html.parser") #Geben wir das an BeautifulSoup weiter
titles = soup.find_all('title') #Nun lesen wir Titel aus.
len(titles) #Schauen wir, wie lange die Titel sind.

In [None]:
titles[0] 

In [None]:
titles[1]

In [None]:
titles[1].text

In [None]:
descr = soup.find_all('description')
descr[1]

In [None]:
#Bauen wir die eigene Liste
lst = []
for garage,b in zip(titles,descr):
    
    mini_dict = {'Parkgarage':garage.text,
                 'Descr':b.text}
    
    lst.append(mini_dict)

In [None]:
lst

In [None]:
pd.DataFrame(lst).head()

In [None]:
pd.DataFrame(lst)[1:]

# Gehen wir zur [Übung 3](https://github.com/MAZ-CAS-DDJ/kurs_18_19/blob/master/06%20APIs%2C%20Scraping%20I/%C3%9Cbung3.ipynb)

# Komplexere Websites

In [None]:
#laden wir die Frontpage von Watson
r = requests.get('https://www.watson.ch')
contents = r.text #Wir lesen den Inhalt aus
soup = BeautifulSoup(contents,"html.parser")

In [None]:
#Ziehen wir die Titel raus
titelliste = soup.find_all('a')

In [None]:
len(titelliste)

In [None]:
#Ziehen wir alle Kommentare raus
kommentare = soup.find_all('div', {'class':'standard comments'})

In [None]:
len(kommentare)

Hier sehen wir, dass also nicht immer dieselbe Anzahl Kommentare und Artikel herausgelesen werden kann. Nicht jeder Artikel hat einen Kommentar. Wir müssen deshalb unseren Code anpassen.

In [None]:
storybox = soup.find_all('div', {'class':'text'})

In [None]:
len(storybox)

In [None]:
storybox[0]

In [None]:
storybox[2]

In [None]:
storybox[2].find('h2').text  

In [None]:
#Diesen Fehler müssen wir auffangen, das tun wir am einfachsten mit try und except.
storybox[2].find('div', {'class':'standard'}).text

In [None]:
lst = []
for elem in storybox:
    try:
        t = elem.find('h2').text
    except:
        t = "N/A" 
    
    try:
        
        k = elem.find('div', {'class':'standard comments'}).text.replace("\n", "")
    except:
        k = "N/A"
    
    mini_dict = {'Titel': t,
                 'Kommentar': k}
    
    lst.append(mini_dict)

In [None]:
lst

In [None]:
pd.DataFrame(lst)

# Als Übung: Mit Funktion dasselbe tun.
Wenn man sehr ausführlichen Code entwickelt, ist es oft praktisch, mit Funktionen zu arbeiten. Hier ein Beispiel davon, wie das aussehen könnte.

In [None]:
def kommentarezählen(url):
    
    r = requests.get(url)
    soup = BeautifulSoup(r.text,'xml')
    storybox = soup.find_all('div', {'class':'text'})
    
    lst = []   
    for elem in storybox:
        try: #Hier kannn man mit Fehlern umgehen. Man muss allerdings spärlcih damit umgehen. 
            t = elem.find('h2').text
        except:
            t = 'Kein Titel'
        try:
            k = elem.find('div', {'class':'standard comments'}).text.replace("\n", "")
        except:
            k = 'Keine Kommentare'
        mini_dict = {'Titel': t,
                 'Kommentar': k}
        lst.append(mini_dict)
    
    return pd.DataFrame(lst)

In [None]:
kommentarezählen('https://www.watson.ch/')

Das können wir natürlich auf der Kommandozeile auslösen. Speichern wir unsere Skript und wandeln wir ihn um. (Wir müssen noch dafür sorgen, dass er mit einem Parameter ausgestattet werden kann. Aber auch das lässt sich einfach googeln).

# Nun üben wir das ein wenig: Weiter zu Übung 4