## HTTP requests, Buchstadt 1912,

> Die Sammlung ist ein vollständiges Exzerpt aller relevanten
Firmenadressen aus dem Leipziger Adressbuch von 1913. 

* Files
* APIs

Python has a [urllib](https://docs.python.org/3/library/urllib.html) module in the standard library. But there is also a popular library, called requests, which make the process much simpler.

In [1]:
import requests
import json

In [2]:
url = "https://speicherwolke.uni-leipzig.de/index.php/s/UUOordMT6H2ixwo/download?path=%2FXML&files=Strassen.xml"

In [3]:
r = requests.get(url)

In [4]:
r.url

'https://speicherwolke.uni-leipzig.de/index.php/s/UUOordMT6H2ixwo/download?path=%2FXML&files=Strassen.xml'

In [5]:
r.status_code

200

In [6]:
for k, v in r.headers.items():
    print("%s => %s" % (k, v))

Date => Sun, 15 Apr 2018 07:53:43 GMT
Server => Apache/2.4.23 (Linux/SUSE)
Set-Cookie => ocg1ttv2pl5w=ccj5p50lf2rnnhfb8aj4lktkpsdd8oe3c20a4dlo5o5je1udadu1; path=/; HttpOnly, oc_sessionPassphrase=gGKWLWIF6vrfRae3F8wpX91kHkcx83nxmYEOZTUHQCJj9srrgUNh7x3iVmbsn2VQcOqbYVwmQYrbKlzC6XYxRuX%2BZtNbC32EtJLLUpO9%2FiRFkbXca4JDTbo%2FXh6HoJo4; path=/; secure; HttpOnly, __Host-nc_sameSiteCookielax=true; path=/; httponly;secure; expires=Fri, 31-Dec-2100 23:59:59 GMT; SameSite=lax, __Host-nc_sameSiteCookiestrict=true; path=/; httponly;secure; expires=Fri, 31-Dec-2100 23:59:59 GMT; SameSite=strict
Expires => 0
Cache-Control => must-revalidate, post-check=0, pre-check=0
Pragma => public
Content-Security-Policy => default-src 'self'; script-src 'self' 'unsafe-eval' 'nonce-bHNWL2cwKzFNV080Q2lzTUduZTZFUTVYZWk2djh6WVV0OGxhNk1neVp3VT06b3ZRYjlpbndmeVdBZW0wMVd3SDhlRWhuRVV2YnNuOW0wNDhqM1BoYkNtYz0='; style-src 'self' 'unsafe-inline'; frame-src *; img-src * data: blob:; font-src 'self' data:; media-src *; connect-s

In [7]:
r.headers['Content-Type']

'text/plain;charset=UTF-8'

In [8]:
r.text[:400]

'<?xml version="1.0" encoding="UTF-8"?>\r\n<dataroot xmlns:od="urn:schemas-microsoft-com:officedata" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"  xsi:noNamespaceSchemaLocation="Strassen.xsd" generated="2015-03-23T14:08:50">\r\n<Strassen>\r\n<Strasse>Aeußere Hallische Straße</Strasse>\r\n<Strassenteil>1 - 9 und 2 - 24</Strassenteil>\r\n<StadtteilNr>1</StadtteilNr>\r\n<StrassenNr>2</StrassenNr>\r\n</Stra'

In [9]:
import xmltodict

In [10]:
obj = xmltodict.parse(r.text)

In [11]:
obj

OrderedDict([('dataroot',
              OrderedDict([('@xmlns:od',
                            'urn:schemas-microsoft-com:officedata'),
                           ('@xmlns:xsi',
                            'http://www.w3.org/2001/XMLSchema-instance'),
                           ('@xsi:noNamespaceSchemaLocation', 'Strassen.xsd'),
                           ('@generated', '2015-03-23T14:08:50'),
                           ('Strassen',
                            [OrderedDict([('Strasse',
                                           'Aeußere Hallische Straße'),
                                          ('Strassenteil', '1 - 9 und 2 - 24'),
                                          ('StadtteilNr', '1'),
                                          ('StrassenNr', '2')]),
                             OrderedDict([('Strasse',
                                           'Aeußere Hallische Straße'),
                                          ('Strassenteil',
                                           

In [12]:
obj["dataroot"]

OrderedDict([('@xmlns:od', 'urn:schemas-microsoft-com:officedata'),
             ('@xmlns:xsi', 'http://www.w3.org/2001/XMLSchema-instance'),
             ('@xsi:noNamespaceSchemaLocation', 'Strassen.xsd'),
             ('@generated', '2015-03-23T14:08:50'),
             ('Strassen',
              [OrderedDict([('Strasse', 'Aeußere Hallische Straße'),
                            ('Strassenteil', '1 - 9 und 2 - 24'),
                            ('StadtteilNr', '1'),
                            ('StrassenNr', '2')]),
               OrderedDict([('Strasse', 'Aeußere Hallische Straße'),
                            ('Strassenteil', '11 - 165 und 36 - 144a'),
                            ('StadtteilNr', '8'),
                            ('StrassenNr', '3')]),
               OrderedDict([('Strasse', 'Aeußere Hallische Straße'),
                            ('Strassenteil', '167 - 293 und 146 - 268'),
                            ('StadtteilNr', '14'),
                            ('StrassenNr', '

Wie viele Leipziger Strassen sind hinterlegt?

In [13]:
len(obj["dataroot"]["Strassen"])

475

In [14]:
streets = [tup['Strasse'] for tup in obj["dataroot"]["Strassen"]]

In [15]:
streets

['Aeußere Hallische Straße',
 'Aeußere Hallische Straße',
 'Aeußere Hallische Straße',
 'Aeußere Hallische Straße',
 'Albertinerstraße',
 'Albertstraße',
 'An der alten Elster',
 'An der Milchinsel',
 'Angerstraße',
 'Antonienstraße',
 'Antonstraße',
 'Apelstraße',
 'Arndtstraße',
 'Arnoldstraße',
 'Auenstraße',
 'Augustenstraße',
 'Augustusplatz',
 'Aurelienstraße',
 'Bahnhofstraße',
 'Bauhofstraße',
 'Bayersche Straße',
 'Bayerscher Platz',
 'Beethovenstraße',
 'Bennigsenstraße',
 'Bennigsenstraße',
 'Bergstraße',
 'Bergstraße',
 'Berliner Straße',
 'Bernhardstraße',
 'Bernhardstraße',
 'Biedermannstraße',
 'Tröndlinring',
 'Blücherstraße',
 'Blumengasse',
 'Blumenstraße',
 'Blumenstraße',
 'Blumenstraße',
 'Böhmestraße',
 'Bornaische Straße',
 'Bornaische Straße',
 'Bornaische Straße',
 'Bosestraße',
 'Brandenburger Straße',
 'Brandiser Straße',
 'Brandvorwerkstraße',
 'Braustraße',
 'Breite Straße',
 'Breitenfelder Straße',
 'Breitkopfstraße',
 'Brockhausstraße',
 'Brommestraße',
 

In [20]:
unique_streets = list(set(streets))

In [21]:
unique_streets

['Cäcilienstraße',
 'Thiemstraße',
 'Packhofstraße',
 'Hofer Straße',
 'Elsterstraße',
 'Thomasring',
 'Goethestraße',
 'Kronprinzstraße',
 'Haydnstraße',
 'Viktoriastraße',
 'Bayerscher Platz',
 'Industriestraße',
 'Dreilindenstraße',
 'Crottendorfer Straße',
 'Löhrstraße',
 'Scharnhorststraße',
 'Hildegardstraße',
 'Markgrafenstraße',
 'Mühlstraße',
 'Dolzstraße',
 'Nonnenstraße',
 'Täubchenweg',
 'Lindenthaler Straße',
 'Brandenburger Straße',
 'Dufourstraße',
 'Delitzscher Straße',
 'Meusdorfer Straße',
 'Fichtestraße',
 'Angerstraße',
 'Wittstockstraße',
 'Rosentalgasse',
 'Hospitalstraße',
 'Aurelienstraße',
 'Stephanstraße',
 'Nikolaistraße',
 'Mölkauer Straße',
 'Biedermannstraße',
 'Rabenerstraße',
 'Hebelstraße',
 'Grassistraße',
 'Petersstraße',
 'Waldstraße',
 'Wörthstraße',
 'Leipziger Straße',
 'Reudnitzer Straße',
 'Weststraße',
 'Breitkopfstraße',
 'Mittelstraße',
 'Ungerstraße',
 'Perthestraße',
 'Frickestraße',
 'Wachsmuthstraße',
 'Reitzenhainer Straße',
 'Frommannst

Let's try to geocode these street names.

In [22]:
import geocoder

In [33]:
unique_streets[4]

'Elsterstraße'

In [28]:
g = geocoder.google("%s Leipzig" % unique_streets[4])

In [29]:
g

<[OK] Google - Geocode [Elsterstraße, 04109 Leipzig, Germany]>

In [32]:
g.latlng

[51.3401912, 12.3642987]

'Bayerscher Platz'

In [35]:
g = geocoder.google("%s Leipzig" % unique_streets[10])

In [36]:
g.latlng

[51.3301671, 12.3803878]