# Data preparation
In diesem Notebook wird versucht, aus den Daten der [Strassennamen](https://data.bs.ch/explore/dataset/100189/information/) des Kanton Basel-Stadt die Strassen, welche nach Personen benannt sind, zu extrahieren.

---
## Laden der Daten

In [1]:
url = 'https://data.bs.ch/explore/dataset/100189/download/?format=csv&timezone=Europe/Zurich&lang=de&use_labels_for_header=true&csv_separator=%3B '

Daten in ein pandas-Dataframe abfüllen um eine tabelarische Übersicht über die Daten zu erhalten.
Sollte pandas nicht installiert sein `pip install pandas`

In [2]:
import pandas as pd

df = pd.read_csv(url, sep=';')
df.head()

Unnamed: 0,Id Strasse,Strassenname,Erklärung erste Zeile,Erklärung zweite Zeile,Geo Shape,Geo Point,Erstmals erwähnt,Amtlich benannt,Indextext,Kurztext
0,270,Homburgerstrasse,"Homburg, Ruine (13. Jh.) bei Läufelfingen,","1798 niedergebrannt, ab 1937 wieder restauriert","{""coordinates"": [[[7.61278605186816, 47.555152...","47.555191739157635,7.612705706212208",,1889,HOM,Homburgerstr.
1,607,Türkheimerstrasse,"Turckheim (dt. Türkheim), elsässische Gemeinde",,"{""coordinates"": [[[7.574517169860521, 47.55728...","47.55899007999238,7.57348436232413",,1877,TÜR,Türkheimerstr.
2,862,Kleinriehen-Promenade,"Kleinriehen, heute Bäumlihof,","Landgut und Gartenhaus, erbaut 17.–19. Jh.","{""coordinates"": [[7.617915208772566, 47.569080...","47.56972353042248,7.620056107528803",1811.0,1954,KLE,Kleinriehen-Prom.
3,659,Zürcherstrasse,"Zürich, Hauptort des gleichnamigen Kantons",,"{""coordinates"": [[[7.605110252387607, 47.55265...","47.554425569580275,7.611323562492265",1811.0,1871,ZÜR,Zürcherstr.
4,233,Hardstrasse,"Hard, mittelalterlicher Flurname für",stadtnahen Nutzwald des Klosters St. Alban,"{""coordinates"": [[[7.608488168809716, 47.54850...","47.55021939912588,7.605043946927342",1695.0,1860,HAR,Hardstr.


Nach den Texten suchen, die in `Erklärung erste Zeile` eine Ziffer aufweisen

In [3]:
a = df.query("`Erklärung erste Zeile`.notnull()")
a.head()

Unnamed: 0,Id Strasse,Strassenname,Erklärung erste Zeile,Erklärung zweite Zeile,Geo Shape,Geo Point,Erstmals erwähnt,Amtlich benannt,Indextext,Kurztext
0,270,Homburgerstrasse,"Homburg, Ruine (13. Jh.) bei Läufelfingen,","1798 niedergebrannt, ab 1937 wieder restauriert","{""coordinates"": [[[7.61278605186816, 47.555152...","47.555191739157635,7.612705706212208",,1889,HOM,Homburgerstr.
1,607,Türkheimerstrasse,"Turckheim (dt. Türkheim), elsässische Gemeinde",,"{""coordinates"": [[[7.574517169860521, 47.55728...","47.55899007999238,7.57348436232413",,1877,TÜR,Türkheimerstr.
2,862,Kleinriehen-Promenade,"Kleinriehen, heute Bäumlihof,","Landgut und Gartenhaus, erbaut 17.–19. Jh.","{""coordinates"": [[7.617915208772566, 47.569080...","47.56972353042248,7.620056107528803",1811.0,1954,KLE,Kleinriehen-Prom.
3,659,Zürcherstrasse,"Zürich, Hauptort des gleichnamigen Kantons",,"{""coordinates"": [[[7.605110252387607, 47.55265...","47.554425569580275,7.611323562492265",1811.0,1871,ZÜR,Zürcherstr.
4,233,Hardstrasse,"Hard, mittelalterlicher Flurname für",stadtnahen Nutzwald des Klosters St. Alban,"{""coordinates"": [[[7.608488168809716, 47.54850...","47.55021939912588,7.605043946927342",1695.0,1860,HAR,Hardstr.


In [4]:
dfnumber = a[a["Erklärung erste Zeile"].str.contains('[0-9]')]

In [5]:
dfnumber.head(5)

Unnamed: 0,Id Strasse,Strassenname,Erklärung erste Zeile,Erklärung zweite Zeile,Geo Shape,Geo Point,Erstmals erwähnt,Amtlich benannt,Indextext,Kurztext
0,270,Homburgerstrasse,"Homburg, Ruine (13. Jh.) bei Läufelfingen,","1798 niedergebrannt, ab 1937 wieder restauriert","{""coordinates"": [[[7.61278605186816, 47.555152...","47.555191739157635,7.612705706212208",,1889,HOM,Homburgerstr.
6,199,General Guisan-Strasse,"Henri Guisan (1874–1960), General der",Schweizer Armee im Zweiten Weltkrieg,"{""coordinates"": [[[7.560156530968611, 47.54856...","47.55001731919121,7.565384100053732",1881.0,1960,GUI,General Guisan-Str.
10,634,Beim Wasserturm,"Wasserturm, 1925/26 erbaut als Teil der Basler...",,"{""coordinates"": [[[7.592887776795289, 47.52673...","47.52675607510471,7.5928652947510695",,1928,WAS,Beim Wasserturm
14,591,Tanzgässlein,"Zum Tanz, 1401 erstmals",erwähnter Hausname,"{""coordinates"": [[7.587851334546428, 47.559169...","47.55926891324485,7.587562251856013",1610.0,1899,TAN,Tanzgässlein
21,963,Wiesenschanzweg,"Wiesenschanze, 1799 angelegte und",1856 erneuerte ehemalige Befestigungsanlage,"{""coordinates"": [[[7.59510707687182, 47.571088...","47.572389285986375,7.595065312329401",,1890,WIE,Wiesenschanzweg


**💡 Erkenntnis**  
Es gibt zu viele Objekt mit einer Jahreszahl

Versuch nach den Texten zu suchen, die in `Erklärung erste Zeile` einen Ziffer und anschliessend ein `-` (En Dash, Unicode: U+2013) aufweisen

In [6]:
dfnumber = a[a["Erklärung erste Zeile"].str.contains('[0-9]–')]
dfnumber.head(5)

Unnamed: 0,Id Strasse,Strassenname,Erklärung erste Zeile,Erklärung zweite Zeile,Geo Shape,Geo Point,Erstmals erwähnt,Amtlich benannt,Indextext,Kurztext
6,199,General Guisan-Strasse,"Henri Guisan (1874–1960), General der",Schweizer Armee im Zweiten Weltkrieg,"{""coordinates"": [[[7.560156530968611, 47.54856...","47.55001731919121,7.565384100053732",1881.0,1960,GUI,General Guisan-Str.
50,502,Rütimeyerstrasse,"Ludwig Rütimeyer (1825–1895), Professor für","Anatomie und Zoologie, Evolutionsbiologe","{""coordinates"": [[[7.575890304203304, 47.54895...","47.54925418512208,7.5757593685345315",,1897,RÜT,Rütimeyerstr.
51,2,Aeneas Silvius-Strasse,"Enea Silvio Piccolomini (1405–1464),","ab 1458 Papst Pius II., Stifter der Universitä...","{""coordinates"": [[[7.593205357077371, 47.53096...","47.531027360197285,7.593113406541522",,1922,SIL,Aeneas Silvius-Str.
53,434,Oekolampadstrasse,"Johannes Oekolampad (1482–1531), Basler Reform...",,"{""coordinates"": [[7.570211275392267, 47.557483...","47.55786035014962,7.570172036221308",,1924,OEK,Oekolampadstr.
58,857,Klingentalgraben,"Klingental, Dominikanerinnenkloster 1274–1557","Graben, Teil der früheren Stadtbefestigung","{""coordinates"": [[[7.588554684036573, 47.56315...","47.56363547284315,7.58999466529051",1820.0,1860,KLI,Klingentalgraben


In [7]:
dfnumber.to_csv("1_StrassenBpotentielMenschzuweisung.csv")

In [7]:
dfnumber.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 147 entries, 26 to 1425
Data columns (total 10 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   Id Strasse              147 non-null    int64 
 1   Strassenname            147 non-null    object
 2   Erklärung erste Zeile   147 non-null    object
 3   Erklärung zweite Zeile  119 non-null    object
 4   Geo Shape               147 non-null    object
 5   Geo Point               147 non-null    object
 6   Erstmals erwähnt        33 non-null     object
 7   Amtlich benannt         147 non-null    object
 8   Indextext               147 non-null    object
 9   Kurztext                147 non-null    object
dtypes: int64(1), object(9)
memory usage: 12.6+ KB


----
### Namen extrahieren
Gemäss dp-StrassenBS-Wikidata.ipynb

In [8]:
seperators =["strasse", "-Strasse", "weg", "-Weg", "-Anlage", "anlage", "-Promenade", "rain", "gasse", "gässlein", "gässchen",
             "-Steg", "platz", "-Platz", "-Brücke", "-Passage", "graben", "-Graben", "steg", "-Park", "park", "schanze", "tunnel", "kreisel", "ring", "allee"]

In [9]:
import numpy as np

dfnumberStam = dfnumber.copy() #Sonst gibt es eine Warnung beim setzen der neuen Spalte
dfnumberStam["Stamm"] = dfnumberStam["Strassenname"]
dfnumberStam["suffix"] = np.nan

dfnumberStam.head(3)

Unnamed: 0,Id Strasse,Strassenname,Erklärung erste Zeile,Erklärung zweite Zeile,Geo Shape,Geo Point,Erstmals erwähnt,Amtlich benannt,Indextext,Kurztext,Stamm,suffix
26,627,Wallstrasse,"Wall, Teil der 1859–1878",abgetragenen Stadtbefestigung,"{""coordinates"": [[[7.588986935147142, 47.55017...","47.55034565110816,7.589412843688632",1610,1861,WAL,Wallstr.,Wallstrasse,
27,660,Zwingerstrasse,"Theodor Zwinger (1533–1588),",Arzt und Universalgelehrter,"{""coordinates"": [[7.593796395226887, 47.544954...","47.544216908270066,7.593255463957239",1905,1912,ZWI,Zwingerstr.,Zwingerstrasse,
28,120,Daniel Fechter-Promenade,"Daniel Albert Fechter (1805–1876),","Lokalhistoriker, erster Basler Strassennamenfo...","{""coordinates"": [[[7.596007858759982, 47.53294...","47.531446924918995,7.595551798612379",1922,1935,FEC,Daniel Fechter-Prom.,Daniel Fechter-Promenade,


In [10]:
for seperator in seperators:

    seriesnumberStam1 = dfnumberStam.Strassenname.str.removesuffix(seperator)
    dfnumberStam2 = pd.DataFrame(seriesnumberStam1)
    dfnumberStam2.rename(columns = {"Strassenname":"temp"}, inplace = True)

    dfnumberStam = pd.concat([dfnumberStam, dfnumberStam2], axis=1)

    dfnumberStam['suffix'] = np.where(dfnumberStam["Strassenname"] != dfnumberStam["temp"], seperator, dfnumberStam["suffix"])
    dfnumberStam['Stamm'] = np.where(dfnumberStam['Strassenname'] != dfnumberStam['temp'], dfnumberStam['temp'], dfnumberStam['Stamm'])

    del dfnumberStam['temp']


In [11]:
dfnumberStam.head()

Unnamed: 0,Id Strasse,Strassenname,Erklärung erste Zeile,Erklärung zweite Zeile,Geo Shape,Geo Point,Erstmals erwähnt,Amtlich benannt,Indextext,Kurztext,Stamm,suffix
26,627,Wallstrasse,"Wall, Teil der 1859–1878",abgetragenen Stadtbefestigung,"{""coordinates"": [[[7.588986935147142, 47.55017...","47.55034565110816,7.589412843688632",1610.0,1861,WAL,Wallstr.,Wall,strasse
27,660,Zwingerstrasse,"Theodor Zwinger (1533–1588),",Arzt und Universalgelehrter,"{""coordinates"": [[7.593796395226887, 47.544954...","47.544216908270066,7.593255463957239",1905.0,1912,ZWI,Zwingerstr.,Zwinger,strasse
28,120,Daniel Fechter-Promenade,"Daniel Albert Fechter (1805–1876),","Lokalhistoriker, erster Basler Strassennamenfo...","{""coordinates"": [[[7.596007858759982, 47.53294...","47.531446924918995,7.595551798612379",1922.0,1935,FEC,Daniel Fechter-Prom.,Daniel Fechter,-Promenade
32,661,Friedrich Miescher-Strasse,"Friedrich Miescher (1844–1895), Mediziner,","Zellkernforscher, Entdecker der Nukleinsäuren","{""coordinates"": [[7.564820619486617, 47.573896...","47.572725336470974,7.563001055009233",,1968,MIE,Friedrich Miescher-Str.,Friedrich Miescher,-Strasse
47,147,Emil Angst-Strasse,"Emil Angst (1861–1941),","Politiker, Lehrer und Genossenschafter","{""coordinates"": [[[7.603258581899125, 47.53131...","47.53115025344692,7.602878868374037",,1944,ANG,Emil Angst-Str.,Emil Angst,-Strasse


#### Mit Wikidata abgleichen

In [12]:
from SPARQLWrapper import SPARQLWrapper, JSON
wdUrl = "https://query.wikidata.org/sparql"
sparql = SPARQLWrapper(wdUrl)

In [13]:
def queryWd(sparql, subject):
    #print(wdKey)
    query = """
    SELECT ?subject ?subjectLabel ?instanceLabel WHERE {
      ?subject rdfs:label "%s"@de;
               wdt:P31 ?instance.
      SERVICE wikibase:label { bd:serviceParam wikibase:language "de" . }   
    }
    """ % (subject)
    #print(query)
    
    sparql.setQuery(query)
    sparql.setReturnFormat(JSON)
    return sparql

In [14]:
import time, sys
from IPython.display import clear_output

def update_progress(progress):
    bar_length = 20
    if isinstance(progress, int):
        progress = float(progress)
    if not isinstance(progress, float):
        progress = 0
    if progress < 0:
        progress = 0
    if progress >= 1:
        progress = 1

    block = int(round(bar_length * progress))

    clear_output(wait = True)
    text = "Progress: [{0}] {1:.1f}%".format( "#" * block + "-" * (bar_length - block), progress * 100)
    print(text)

In [15]:
from time import sleep

i = 0
total = int(len(dfnumberStam.index))
dfr = pd.DataFrame(columns=["Name", "wikiQLabel", "wikiQ", "instance"])

maxresults = 10

for x in dfnumberStam.index:
    i+=1
    #print(i)
    subject = dfnumberStam['Stamm'][x]
    subjectStr = dfnumberStam['Strassenname'][x]
    #print(f"Subjekt: {subject}")
    sparql = queryWd(sparql, subject)
    update_progress(i / total)
    try:
        results = sparql.query()
        #print(results.info())
        
    except Exception as e:
        print(f"{i} Anfragen bis jetzt")
        #Prüfen auf Statuscode 429 (Too many Requests)
        if e.status == 429:
            print(f'Statuscode 429 aufgetreten: Anfrage geht in {e.headers.get("retry-after")}sec weiter')
            sleep(int(e.headers.get("retry-after"))+2)


    result = results.convert()
    #print(result)

    results_df = pd.json_normalize(result['results']['bindings'])
    #print(results_df)

    if not results_df.empty:
        wikiQ = results_df['subject.value'][0]
        wikiQLabel = results_df['subjectLabel.value'][0]
        instance = results_df['instanceLabel.value'][0]

        #print(f"{subjectStr} | {wikiQLabel}: {wikiQ} -> {instance}")
        dfrtemp = pd.DataFrame([[subjectStr, wikiQLabel, wikiQ, instance]], columns=dfr.columns)
        dfr = pd.concat([dfr, dfrtemp])

    else:
        #print(f"{subjectStr} | {subject}: Kein Eintrag in Wikidata gefunden")
        dfrtemp = pd.DataFrame([[subjectStr, subject, np.nan, np.nan]], columns=dfr.columns)
        dfr = pd.concat([dfr, dfrtemp])

    #print(x)
    #if i > maxresults:
        #break

Progress: [####################] 100.0%


In [16]:
dfr.head()

Unnamed: 0,Name,wikiQLabel,wikiQ,instance
0,Wallstrasse,Wall,http://www.wikidata.org/entity/Q1182629,Borough in Pennsylvania
0,Zwingerstrasse,Zwinger,http://www.wikidata.org/entity/Q155107,Palast
0,Daniel Fechter-Promenade,Daniel Fechter,,
0,Friedrich Miescher-Strasse,Friedrich Miescher,http://www.wikidata.org/entity/Q116072,Mensch
0,Emil Angst-Strasse,Emil Angst,,


In [17]:
n = dfr.groupby("instance").nunique()

In [18]:
print(n)

                                 Name  wikiQLabel  wikiQ
instance                                                
Achterbahn                          1           1      1
Album                               2           1      1
Basler Quartiere                    5           2      2
Borough in Pennsylvania             1           1      1
City in den Vereinigten Staaten     1           1      1
Familienname                        4           3      3
Fluss                               1           1      1
Mensch                             55          49     49
Ortsteil                            1           1      1
Palast                              1           1      1
Regionalverband                     1           1      1
Stadt                               1           1      1
Straßenbrücke                       1           1      1
Taxon                               1           1      1
Turm                                1           1      1
Warenhaus                      

Prüfen wieso in Namen mehr eindeutige Werte stehen als in wikiQLabel und wikiQ

In [19]:
t = dfr[dfr['instance'] == 'Album']


In [20]:
t.head()

Unnamed: 0,Name,wikiQLabel,wikiQ,instance
0,Voltaplatz,Volta,http://www.wikidata.org/entity/Q174563,Album
0,Voltastrasse,Volta,http://www.wikidata.org/entity/Q174563,Album


Von den potenziel 147 Menschen werden "nur" 55 also solche erkannt.  
Ein Problem ist unter anderem, dass Strassen ohne Vor- und Nachnamen überhaupt nicht erkannt werden.  
Versuch auch Personen von Strassen mit nur dem Nachnamen zu treffen.  

In [21]:
dfnm = dfr[dfr['instance'] != 'Mensch'].reset_index(drop=True)

In [22]:
def queryWdMenschen(sparql, subject):
    #print(wdKey)
    query = """
    SELECT ?subject ?subjectLabel WHERE {
      ?subject wdt:P734 ?familyname;
               wdt:P31 wd:Q5.
      ?familyname rdfs:label "%s"@de;
      SERVICE wikibase:label { bd:serviceParam wikibase:language "de" . }   
    }
    """ % (subject)
    #print(query)
    
    sparql.setQuery(query)
    sparql.setReturnFormat(JSON)
    return sparql

In [24]:
from time import sleep

i = 0
total = int(len(dfnm.index))
dfr2 = pd.DataFrame(columns=["2Name", "2wikiQLabel", "2wikiQ"])

maxresults = 10

for x in dfnm.index:
    i+=1
    #print(i)
    subject = dfnm['wikiQLabel'][x]
    subjectStr = dfnm['Name'][x]
    #print(f"Subjekt: {subject}")
    sparql = queryWdMenschen(sparql, subject)
    update_progress(i / total)
    try:
        results = sparql.query()
        #print(results.info())
        
    except Exception as e:
        print(f"{i} Anfragen bis jetzt")
        #Prüfen auf Statuscode 429 (Too many Requests)
        if e.status == 429:
            print(f'Statuscode 429 aufgetreten: Anfrage geht in {e.headers.get("retry-after")}sec weiter')
            sleep(int(e.headers.get("retry-after"))+2)


    result = results.convert()
    #print(result)

    results_df = pd.json_normalize(result['results']['bindings'])
    #print(results_df)

    if not results_df.empty:
        wikiQ = results_df['subject.value'][0]
        wikiQLabel = results_df['subjectLabel.value'][0]

        #print(f"{subjectStr} | {wikiQLabel}: {wikiQ} -> {instance}")
        dfrtemp = pd.DataFrame([[subjectStr, wikiQLabel, wikiQ]], columns=dfr2.columns)
        dfr2 = pd.concat([dfr2, dfrtemp])

    else:
        #print(f"{subjectStr} | {subject}: Kein Eintrag in Wikidata gefunden")
        dfrtemp = pd.DataFrame([[subjectStr, subject, np.nan]], columns=dfr2.columns)
        dfr2 = pd.concat([dfr2, dfrtemp])

    #print(x)
    #if i > maxresults:
        #break

In [26]:
dfr2.head(10)

Unnamed: 0,2Name,2wikiQLabel,2wikiQ
0,Wallstrasse,Larry Wall,http://www.wikidata.org/entity/Q92597
0,Zwingerstrasse,Theodor Zwinger der Ältere,http://www.wikidata.org/entity/Q116094
0,Daniel Fechter-Promenade,Daniel Fechter,
0,Emil Angst-Strasse,Emil Angst,
0,Brantgasse,Sebastian Brant,http://www.wikidata.org/entity/Q60351
0,Mittlere Rheinbrücke,Mittlere Rheinbrücke,
0,Eulerstrasse,Leonhard Euler,http://www.wikidata.org/entity/Q7604
0,Socinstrasse,Albert Socin,http://www.wikidata.org/entity/Q89647
0,Fatiostrasse,Victor Fatio,http://www.wikidata.org/entity/Q114588
0,Schanzenstrasse,Schanzen,


In [36]:
dfnan = dfr2[dfr2['2wikiQ'].isna()]

In [40]:
dfnan.head(5)

Unnamed: 0,2Name,2wikiQLabel,2wikiQ
0,Daniel Fechter-Promenade,Daniel Fechter,
0,Emil Angst-Strasse,Emil Angst,
0,Mittlere Rheinbrücke,Mittlere Rheinbrücke,
0,Schanzenstrasse,Schanzen,
0,Im Schmiedenhof,Im Schmiedenhof,


In [41]:
dfnan.to_csv("2_StrassenBSohneMenschzuweisung.csv")