# HTTP-Request

Manchmal möchte man eine bestehende Web-Anwendung aus einem Python-Skript heraus aufrufen. 

Das folgende Beispiel verwendet die Suchfunktion der FH-Webseite, um Kontakdaten per HTTP-Request abzurufen. Auch hier empfiehlt es sich, das `with`-Statement zu verwenden.

In [10]:
import urllib.request
import json

url = 'https://www4.fh-swf.de/media/js/fhsearch/dist/lib/api.php?database=contacts&query=Gawron'
with urllib.request.urlopen(url) as f:
    for l in f:
        data = json.loads(str(l, 'UTF8'))
        print(data['results'])

{'hits': 1, 'result': [{'id': '6173', 'info': {'MAid': '6173', 'Titel': 'Prof. Dr.', 'NName': 'Gawron', 'VName': 'Christian', 'eMail': 'gawron.christian', 'BRid': '70', 'dstg': '1', 'hold': 'N', 'URL': 'https://www4.fh-swf.de/de/home/ueber_uns/standorte/is/fb_in/doz_in/profs_in/gawron/index.php', 'emailPreffered': 'N', 'Bereich': {'BRid': '70', 'Kurzbez': 'FB I+N', 'Bereich': 'Fachbereich Informatik und Naturwissenschaften'}, 'Daten': {'MAid': '6173', 'Datum_ab': '2019-01-01', 'Datum_bis': '0000-00-00'}, 'activityarea': [{'MAid': '6173', 'GBid': 'F', 'RNR': 'H.214', 'NST': '565', 'AdressCo': '', 'Fax': '', 'PLZ': '58644', 'Ort': 'Iserlohn', 'Strasse': 'Frauenstuhlweg', 'Nr': '31', 'Vorwahl': '02371', 'HauptNr': '566', 'POPLZ': '58590', 'POBOX': 'Postfach 2061'}]}}]}


## POST Requests

Möchte man per HTTP Daten versenden, ist das Modul `urllib` etwas unhandlich, da man sich z.B. um die passende Kodierung von Argumenten eines POST Requests selbst kümmern muss. 

Einfacher geht es mit dem Modul `requests`.

In [16]:
import requests

url = 'https://jupiter.fh-swf.de/captioning/caption'
img = 'http://images.cocodataset.org/val2014/COCO_val2014_000000401092.jpg'

resp = requests.post(url, { 'url': img })
resp.json()

{'annotation': 'a plate of food and a glass of orange juice .'}

## Web Scraping

Eine häufige Aufgabe ist es, Informationen aus Webseiten auszulesen, die eigentlich für Menschen gedacht und daher in HTML als Tabelle formatiert sind. 
Da dies mit regulären Ausdrücken sehr schnell sehr komplex wird, bietet sich das Modul `lxml.html` an, mit dem man HTML leicht parsen kann.

Im folgenden Beispiel lesen wir Daten der Pokemon Datenbank aus:

In [20]:
import requests
import lxml.html as lh

url = 'http://pokemondb.net/pokedex/all'

# Lese die Webseite
page = requests.get(url)

# Analysiere den HTML-Code
doc = lh.fromstring(page.content)

# Wähle alle Tabellenzeilen (`<tr>`) via XPath aus
tr_elements = doc.xpath('//tr')

# Erzeuge eine Liste, in dem wir die Spalten speichern
cols = []

# Lege für jede Spalte einen Eintrag `(name, [])` an. Der Name der Spalte steht in der ersten Zeile
for col in tr_elements[0]:
    name = col.text_content()
    cols.append((name, []))
    
for row in tr_elements[1:]:
    i = 0
    for col in row:
        val = col.text_content()
        cols[i][1].append(val)
        i += 1


Nun können wir zum Beispiel die Namen aller Pokemon ausgeben:

In [21]:
# Die zweite Spalte ist die Namensspalte, darin das zweite Element das Array mit den Werten
for name in cols[1][1]:
    print(name)

Bulbasaur
Ivysaur
Venusaur
Venusaur Mega Venusaur
Charmander
Charmeleon
Charizard
Charizard Mega Charizard X
Charizard Mega Charizard Y
Squirtle
Wartortle
Blastoise
Blastoise Mega Blastoise
Caterpie
Metapod
Butterfree
Weedle
Kakuna
Beedrill
Beedrill Mega Beedrill
Pidgey
Pidgeotto
Pidgeot
Pidgeot Mega Pidgeot
Rattata
Rattata Alolan Rattata
Raticate
Raticate Alolan Raticate
Spearow
Fearow
Ekans
Arbok
Pikachu
Pikachu Partner Pikachu
Raichu
Raichu Alolan Raichu
Sandshrew
Sandshrew Alolan Sandshrew
Sandslash
Sandslash Alolan Sandslash
Nidoran♀
Nidorina
Nidoqueen
Nidoran♂
Nidorino
Nidoking
Clefairy
Clefable
Vulpix
Vulpix Alolan Vulpix
Ninetales
Ninetales Alolan Ninetales
Jigglypuff
Wigglytuff
Zubat
Golbat
Oddish
Gloom
Vileplume
Paras
Parasect
Venonat
Venomoth
Diglett
Diglett Alolan Diglett
Dugtrio
Dugtrio Alolan Dugtrio
Meowth
Meowth Alolan Meowth
Persian
Persian Alolan Persian
Psyduck
Golduck
Mankey
Primeape
Growlithe
Arcanine
Poliwag
Poliwhirl
Poliwrath
Abra
Kadabra
Alakazam
Alakazam Mega 