# Scraping Wikipedia about Stolpersteine in Hamburg (Germany, Europe)

#### In the first draft this project will be about the city of Hamburg where I live – and I am starting in my own neighborhood in the borough Wilhelmsburg
#### Later on I want to expand my project to every city of Germany and every other place where you can find them

In [1]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

In [68]:
url_Wilhelmsburg = "https://de.wikipedia.org/wiki/Liste_der_Stolpersteine_in_Hamburg-Wilhelmsburg"
html = requests.get(url_Wilhelmsburg).text

In [70]:
html = html.replace("<br /><b>", " ")
html = html.replace("</b><br />", " ")
html = html.replace("<br />", " ")

In [71]:
soup = BeautifulSoup(html)

# 1. Select table

In [99]:
table = soup.select("table.wikitable")[0]
print(table.text[:100])



Adresse

Person(en)

Inschrift

Bilder

Anmerkung


Ilenbrook 14 

Bruno Schulz

Hier wohnte Bruno


# 2. Select header columns

In [73]:
header_el = table.select("tr")[0]

In [74]:
columns = []
for cell in header_el.select("th"):
     columns.append(cell.text.strip())
        
columns

['Adresse', 'Person(en)', 'Inschrift', 'Bilder', 'Anmerkung']

In [75]:
## list comprehension:

columns = [ cell.text.strip()
    for cell in header_el.select("th") ]

columns

['Adresse', 'Person(en)', 'Inschrift', 'Bilder', 'Anmerkung']

# 3. Select rows

In [76]:
row_els = table.select("tr")[1:]
len(row_els)

22

In [77]:
rows = []

for row in row_els:
    cells = []
    for cell in row.select("td"):  
        cells.append(cell.text.strip())
    rows.append(cells)
    
rows[:2]

[['Ilenbrook 14',
  'Bruno Schulz',
  'Hier wohnte Bruno Schulz Jg. 1912 verhaftet 1939 KZ Fuhlsbüttel KZ Neuengamme ermordet 8.2.1943',
  '',
  'Eintrag auf stolpersteine-hamburg.de'],
 ['Industriestraße 160',
  'Edith Eggers geb. Libis',
  'Hier wohnte Edith Eggers geb. Libis Jg. 1908 deportiert 1941 Minsk ???',
  '',
  'Eintrag auf stolpersteine-hamburg.de am Zugang zur Parkanlage am Ende der Karl-Kunert-Straße']]

In [78]:
## list comprehension

rows = [
    [ cell.text.strip() for cell in row.select("td") ]
    for row in row_els ]

rows[:2]

[['Ilenbrook 14',
  'Bruno Schulz',
  'Hier wohnte Bruno Schulz Jg. 1912 verhaftet 1939 KZ Fuhlsbüttel KZ Neuengamme ermordet 8.2.1943',
  '',
  'Eintrag auf stolpersteine-hamburg.de'],
 ['Industriestraße 160',
  'Edith Eggers geb. Libis',
  'Hier wohnte Edith Eggers geb. Libis Jg. 1908 deportiert 1941 Minsk ???',
  '',
  'Eintrag auf stolpersteine-hamburg.de am Zugang zur Parkanlage am Ende der Karl-Kunert-Straße']]

# 4. Turn data into data frame

In [92]:
df = pd.DataFrame(rows, columns=columns)
df.head()

Unnamed: 0,Adresse,Person(en),Inschrift,Bilder,Anmerkung
0,Ilenbrook 14,Bruno Schulz,Hier wohnte Bruno Schulz Jg. 1912 verhaftet 19...,,Eintrag auf stolpersteine-hamburg.de
1,Industriestraße 160,Edith Eggers geb. Libis,Hier wohnte Edith Eggers geb. Libis Jg. 1908 d...,,Eintrag auf stolpersteine-hamburg.de am Zugang...
2,Industriestraße 160,Frida Libis geb. Blumann,Hier wohnte Frida Libis geb. Blumann Jg. 1878 ...,,Eintrag auf stolpersteine-hamburg.de am Zugang...
3,Industriestraße 160,Siegmund Libis,Hier wohnte Siegmund Libis Jg. 1878 deportiert...,,Eintrag auf stolpersteine-hamburg.de am Zugang...
4,Kunertweg 5,Martin Furmanek,Hier wohnte Martin Furmanek Jg. 1877 hingerich...,,Eintrag auf stolpersteine-hamburg.de


In [80]:
df.describe()

Unnamed: 0,Adresse,Person(en),Inschrift,Bilder,Anmerkung
count,22,22,22,22.0,22
unique,10,21,22,1.0,9
top,Rotenhäuser Straße 67,Hermine Baron geb. Löw,Hier wohnte Bruno Schulz Jg. 1912 verhaftet 19...,,Eintrag auf stolpersteine-hamburg.de
freq,4,2,1,22.0,10


# 5. Add column "Stadtteil" (borough)

In [81]:
df['Stadtteil'] = "Wilhelmsburg"
df['Bezirk'] = "Hamburg-Mitte"
df.head()

Unnamed: 0,Adresse,Person(en),Inschrift,Bilder,Anmerkung,Stadtteil,Bezirk
0,Ilenbrook 14,Bruno Schulz,Hier wohnte Bruno Schulz Jg. 1912 verhaftet 19...,,Eintrag auf stolpersteine-hamburg.de,Wilhelmsburg,Hamburg-Mitte
1,Industriestraße 160,Edith Eggers geb. Libis,Hier wohnte Edith Eggers geb. Libis Jg. 1908 d...,,Eintrag auf stolpersteine-hamburg.de am Zugang...,Wilhelmsburg,Hamburg-Mitte
2,Industriestraße 160,Frida Libis geb. Blumann,Hier wohnte Frida Libis geb. Blumann Jg. 1878 ...,,Eintrag auf stolpersteine-hamburg.de am Zugang...,Wilhelmsburg,Hamburg-Mitte
3,Industriestraße 160,Siegmund Libis,Hier wohnte Siegmund Libis Jg. 1878 deportiert...,,Eintrag auf stolpersteine-hamburg.de am Zugang...,Wilhelmsburg,Hamburg-Mitte
4,Kunertweg 5,Martin Furmanek,Hier wohnte Martin Furmanek Jg. 1877 hingerich...,,Eintrag auf stolpersteine-hamburg.de,Wilhelmsburg,Hamburg-Mitte


# 6. Tidy or split columns "Inschrift"

In [82]:
#### The Text in the column "Inschrift" looked like this: "Hier wohnteBruno SchulzJg. 1912verhaftet"
#### It needed space behind "wohnte" and in front of "Jg." etc. – actually for every row

In [84]:
## This did not work. Also I don't want to look for every single word where a space is needed.
#df['Inschrift'].str.replace("wohnte", "wohnte ")
#df['Inschrift'].str.replace("verhaftet", " verhaftet")
#df['Inschrift'].str.replace("deportiert", " deportiert")
#df['Inschrift'].str.replace("hingerichtet", " hingerichtet")
#df['Inschrift'].str.replace("ermordet", " ermordet")

In [83]:
# I had to change the code beforde I used BeautifulSoup - though, this code did not work: html = html.replace("<br>", " ")

In [None]:
## But this code was working:
## html = html.replace("<br /><b>", " ")
## html = html.replace("</b><br />", " ")
## html = html.replace("<br />", " ")

In [93]:
df.Inschrift

0     Hier wohnte Bruno Schulz Jg. 1912 verhaftet 19...
1     Hier wohnte Edith Eggers geb. Libis Jg. 1908 d...
2     Hier wohnte Frida Libis geb. Blumann Jg. 1878 ...
3     Hier wohnte Siegmund Libis Jg. 1878 deportiert...
4     Hier wohnte Martin Furmanek Jg. 1877 hingerich...
5     Hier wohnte Hermine Baron geb. Löw Jg. 1866 de...
6     Hier wohnte Dr. Katharina Leipelt geb. Baron J...
7     Hier wohnte Hans Konrad Leipelt Jg. 1921 Weiße...
8     Hier wohnte Israel Bartfeld Jg. 1870 1939 KZ F...
9     Hier wohnte Sara Bartfeld geb. Fleischmann Jg....
10    Hier wohnte Rudolf Mokry Jg. 1905 im Widerstan...
11    Hier wohnte Hermine Baron geb. Löw Jg. 1866 Fl...
12    Hier lernte Hans Leipelt Jg. 1921 im Widerstan...
13    Hier wohnte Dr. Katharina Leipelt Jg. 1892 im ...
14    Hier lernte Maria Leipelt Jg. 1925 im Widersta...
15    Hier wohnte Helene Guttmann geb. Goldberg Jg. ...
16    Hier wohnte Jacob Guttmann Jg. 1877 deportiert...
17    Hier wohnte Fanny Borower geb. Schwarz Jg.

# 7. Add geolocation lat / long

#### Get urls with geolocation

In [85]:
from urllib.parse import urlparse, urlunparse

Geohack = []

for row in row_els:
    cells = []
    geo = []
    for cell in row.select("a"):
        cells.append(cell["href"])  
    for cell in cells:
        parsed_url = urlparse(cell)[4]
        geo.append(parsed_url)  
    for g in geo:
        if "pagename" in g:
            Geohack.append(g)
                
Geohack[:2]

['pagename=Liste_der_Stolpersteine_in_Hamburg-Wilhelmsburg&language=de&params=53.5178221_N_9.9893026_E_region:DE-HH_type:landmark&title=Bruno+Schulz',
 'pagename=Liste_der_Stolpersteine_in_Hamburg-Wilhelmsburg&language=de&params=53.5192427_N_9.984024_E_region:DE-HH_type:landmark&title=Edith+Eggers+geb.+Libis']

#### Add urls to dataframe and extract geolocation

In [86]:
df['Geohack_url'] = Geohack

df['params'] = df['Geohack_url'].str.extract("params=(.*)region", expand=False)
df['lat'] = df['params'].str.extract("(.*)_N", expand=False)
df['lon'] = df['params'].str.extract("N_(.*)_E", expand=False)
df.head()

Unnamed: 0,Adresse,Person(en),Inschrift,Bilder,Anmerkung,Stadtteil,Bezirk,Geohack_url,params,lat,lon
0,Ilenbrook 14,Bruno Schulz,Hier wohnte Bruno Schulz Jg. 1912 verhaftet 19...,,Eintrag auf stolpersteine-hamburg.de,Wilhelmsburg,Hamburg-Mitte,pagename=Liste_der_Stolpersteine_in_Hamburg-Wi...,53.5178221_N_9.9893026_E_,53.5178221,9.9893026
1,Industriestraße 160,Edith Eggers geb. Libis,Hier wohnte Edith Eggers geb. Libis Jg. 1908 d...,,Eintrag auf stolpersteine-hamburg.de am Zugang...,Wilhelmsburg,Hamburg-Mitte,pagename=Liste_der_Stolpersteine_in_Hamburg-Wi...,53.5192427_N_9.984024_E_,53.5192427,9.984024
2,Industriestraße 160,Frida Libis geb. Blumann,Hier wohnte Frida Libis geb. Blumann Jg. 1878 ...,,Eintrag auf stolpersteine-hamburg.de am Zugang...,Wilhelmsburg,Hamburg-Mitte,pagename=Liste_der_Stolpersteine_in_Hamburg-Wi...,53.5192427_N_9.984024_E_,53.5192427,9.984024
3,Industriestraße 160,Siegmund Libis,Hier wohnte Siegmund Libis Jg. 1878 deportiert...,,Eintrag auf stolpersteine-hamburg.de am Zugang...,Wilhelmsburg,Hamburg-Mitte,pagename=Liste_der_Stolpersteine_in_Hamburg-Wi...,53.5192427_N_9.984024_E_,53.5192427,9.984024
4,Kunertweg 5,Martin Furmanek,Hier wohnte Martin Furmanek Jg. 1877 hingerich...,,Eintrag auf stolpersteine-hamburg.de,Wilhelmsburg,Hamburg-Mitte,pagename=Liste_der_Stolpersteine_in_Hamburg-Wi...,53.5192451_N_9.9834458_E_,53.5192451,9.9834458


In [88]:
#df.to_csv('stolpersteine_wilhelmsburg.csv', index = False)

# 8. Think of possible questions

In [21]:
# year of deportation or death?

In [22]:
# age

In [23]:
# doubles (people who have more than one stone)

In [24]:
# create caterogory: jewish, resistance, homosexual, sinti & roma, disabled etc. - not in the table, but in the biographies in the links

In [25]:
# contact Landeszentrale für politische Bildung Hamburg (stoplersteine-hamburg.de)

In [26]:
# contact artist

In [27]:
# research other projects on this topic

# 9. Analysis

In [89]:
df = pd.read_csv('stolpersteine_wilhelmsburg.csv')

In [90]:
df.head()

Unnamed: 0,Adresse,Person(en),Inschrift,Bilder,Anmerkung,Stadtteil,Bezirk,Geohack_url,params,lat,lon
0,Ilenbrook 14,Bruno Schulz,Hier wohnte Bruno Schulz Jg. 1912 verhaftet 19...,,Eintrag auf stolpersteine-hamburg.de,Wilhelmsburg,Hamburg-Mitte,pagename=Liste_der_Stolpersteine_in_Hamburg-Wi...,53.5178221_N_9.9893026_E_,53.517822,9.989303
1,Industriestraße 160,Edith Eggers geb. Libis,Hier wohnte Edith Eggers geb. Libis Jg. 1908 d...,,Eintrag auf stolpersteine-hamburg.de am Zugang...,Wilhelmsburg,Hamburg-Mitte,pagename=Liste_der_Stolpersteine_in_Hamburg-Wi...,53.5192427_N_9.984024_E_,53.519243,9.984024
2,Industriestraße 160,Frida Libis geb. Blumann,Hier wohnte Frida Libis geb. Blumann Jg. 1878 ...,,Eintrag auf stolpersteine-hamburg.de am Zugang...,Wilhelmsburg,Hamburg-Mitte,pagename=Liste_der_Stolpersteine_in_Hamburg-Wi...,53.5192427_N_9.984024_E_,53.519243,9.984024
3,Industriestraße 160,Siegmund Libis,Hier wohnte Siegmund Libis Jg. 1878 deportiert...,,Eintrag auf stolpersteine-hamburg.de am Zugang...,Wilhelmsburg,Hamburg-Mitte,pagename=Liste_der_Stolpersteine_in_Hamburg-Wi...,53.5192427_N_9.984024_E_,53.519243,9.984024
4,Kunertweg 5,Martin Furmanek,Hier wohnte Martin Furmanek Jg. 1877 hingerich...,,Eintrag auf stolpersteine-hamburg.de,Wilhelmsburg,Hamburg-Mitte,pagename=Liste_der_Stolpersteine_in_Hamburg-Wi...,53.5192451_N_9.9834458_E_,53.519245,9.983446


#### Get year of birth from inscription ("Inschrift")

In [94]:
df['Jahrgang'] = df['Inschrift'].str.extract("Jg. (\d*)", expand=False).astype(float)

#### Get year of deportation from inscription¶

In [95]:
df['deportiert'] = df['Inschrift'].str.extract("deportiert (\d*)", expand=False).astype(float)

#### Get age when deported

In [96]:
df['age_when_deported']= "deportiert - Jahrgang"

#### Get murderd ("ermordet")

In [97]:
df['ermordet'] = df['Inschrift'].str.contains("ermordet")

In [98]:
df.head()

Unnamed: 0,Adresse,Person(en),Inschrift,Bilder,Anmerkung,Jahrgang,deportiert,age_when_deported,ermordet
0,Ilenbrook 14,Bruno Schulz,Hier wohnte Bruno Schulz Jg. 1912 verhaftet 19...,,Eintrag auf stolpersteine-hamburg.de,1912.0,,deportiert - Jahrgang,True
1,Industriestraße 160,Edith Eggers geb. Libis,Hier wohnte Edith Eggers geb. Libis Jg. 1908 d...,,Eintrag auf stolpersteine-hamburg.de am Zugang...,1908.0,1941.0,deportiert - Jahrgang,False
2,Industriestraße 160,Frida Libis geb. Blumann,Hier wohnte Frida Libis geb. Blumann Jg. 1878 ...,,Eintrag auf stolpersteine-hamburg.de am Zugang...,1878.0,1941.0,deportiert - Jahrgang,False
3,Industriestraße 160,Siegmund Libis,Hier wohnte Siegmund Libis Jg. 1878 deportiert...,,Eintrag auf stolpersteine-hamburg.de am Zugang...,1878.0,1941.0,deportiert - Jahrgang,False
4,Kunertweg 5,Martin Furmanek,Hier wohnte Martin Furmanek Jg. 1877 hingerich...,,Eintrag auf stolpersteine-hamburg.de,1877.0,,deportiert - Jahrgang,False
