# Data preparation
In diesem Notebook wird versucht, aus den Daten der [Strassennamen](https://data.bs.ch/explore/dataset/100189/information/) des Kanton Basel-Stadt die Strassen, welche nach Personen benannt sind, zu extrahieren.  
Die Angaben können beim Abgleich des [Amtliches Verzeichnis der Strassen](https://www.cadastre.ch/de/services/service/registry/street.html) als Qualitätsindiz verwendet werden

---
## Laden der Daten

In [2]:
url = 'https://data.bs.ch/explore/dataset/100189/download/?format=csv&timezone=Europe/Zurich&lang=de&use_labels_for_header=true&csv_separator=%3B '

Daten in ein pandas-Dataframe abfüllen um eine tabelarische Übersicht über die Daten zu erhalten.
Sollte pandas nicht installiert sein `pip install pandas`

In [3]:
import pandas as pd

df = pd.read_csv(url, sep=';')
df.head(3)

Unnamed: 0,Id Strasse,Strassenname,Erklärung erste Zeile,Erklärung zweite Zeile,Geo Shape,Geo Point,Erstmals erwähnt,Amtlich benannt,Indextext,Kurztext
0,1126,Chrischonawegli,,,"{""coordinates"": [[7.667988129055762, 47.581336...","47.58080503699653,7.669538131660866",,,CHR,Chrischonawegli
1,1127,Bosenhaldenwegli,,,"{""coordinates"": [[[7.661009283844488, 47.58807...","47.588200174216325,7.661081403131866",,,BOS,Bosenhaldenwegli
2,1129,Dinkelbergstrasse,,,"{""coordinates"": [[[7.656449004322722, 47.57908...","47.580338384068064,7.657475271526051",,,DIN,Dinkelbergstr.


---
## Strassen mit Bezug zu Menschen
Nach den Texten suchen, die in `Erklärung erste Zeile` eine Ziffer aufweisen

In [4]:
a = df.query("`Erklärung erste Zeile`.notnull()")
a.head(3)

Unnamed: 0,Id Strasse,Strassenname,Erklärung erste Zeile,Erklärung zweite Zeile,Geo Shape,Geo Point,Erstmals erwähnt,Amtlich benannt,Indextext,Kurztext
130,649,Auf dem Wolf,"Flurname, vermutlich nach einer",Besitzerfamilie namens Wolf benannt,"{""coordinates"": [[[7.613729202434849, 47.53972...","47.54051684622605,7.614526612663169",,1952,WOL,Auf dem Wolf
131,549,Solothurnerstrasse,"Solothurn, Hauptort des gleichnamigen Kantons",,"{""coordinates"": [[[7.589618233853652, 47.54325...","47.54365633732963,7.58996066969177",1874.0,1879,SOL,Solothurnerstr.
132,1881,Salmgässli,Mundartliche Bezeichnung für den,rheinaufwärts ziehenden Lachs,"{""coordinates"": [[7.618985256615217, 47.551792...","47.552182343954776,7.619304235758716",,2008,SAL,Salmgässli


In [5]:
dfnumber = a[a["Erklärung erste Zeile"].str.contains('[0-9]')]

In [6]:
dfnumber.head(3)

Unnamed: 0,Id Strasse,Strassenname,Erklärung erste Zeile,Erklärung zweite Zeile,Geo Shape,Geo Point,Erstmals erwähnt,Amtlich benannt,Indextext,Kurztext
133,1,Adlerstrasse,"Adlerberg (535 m ü.M.), Juraanhöhe",zwischen Pratteln und Liestal,"{""coordinates"": [[[7.609655864672153, 47.54761...","47.54681645762456,7.6103056835129435",,1913,ADL,Adlerstr.
134,820,Greifengasse,"Zum Greifen, 1465 erstmals",erwähnter Hausname,"{""coordinates"": [[[7.592067564952283, 47.56117...","47.561150198319474,7.592014032759988",1375.0,1861,GRE,Greifengasse
136,330,Kaltbrunnen-Promenade,"Kaltbrunnental bei Grellingen, Quellen von End...",Anfang des 21. Jh. für die Basler Wasserversor...,"{""coordinates"": [[7.570479149220351, 47.546955...","47.547652902800635,7.569540006488252",,1949,KAL,Kaltbrunnen-Prom.


**💡 Erkenntnis**  
Es gibt zu viele Objekt mit einer Jahreszahl

Versuch nach den Texten zu suchen, die in `Erklärung erste Zeile` einen Ziffer und anschliessend ein `-` (En Dash, Unicode: U+2013) aufweisen

In [7]:
dfnumber = a[a["Erklärung erste Zeile"].str.contains('[0-9]–')]
dfnumber.head(3)

Unnamed: 0,Id Strasse,Strassenname,Erklärung erste Zeile,Erklärung zweite Zeile,Geo Shape,Geo Point,Erstmals erwähnt,Amtlich benannt,Indextext,Kurztext
153,1941,Friedrich Miescher-Weg,"Friedrich Miescher (1844–1895), Mediziner,","Zellkernforscher, Entdecker der Nukleinsäuren","{""coordinates"": [[7.561170150285444, 47.571576...","47.57115977292299,7.560402160714845",,2020,MIE,Friedrich Miescher-Weg
164,36,Achilles Bischoff-Strasse,"Achilles Bischoff (1795–1867), erster baselstä...",,"{""coordinates"": [[7.59352881105616, 47.5399726...","47.540631989866604,7.594145011664927",,1966,BIS,Achilles Bischoff-Str.
173,1939,Anne Frank-Platz,"Anne Frank (1929–1945), ihr Tagebuch als Zeugn...","der Jüdinnen und Juden im Nationalsozialismus,...","{""coordinates"": [[7.600824973699854, 47.570228...","47.570717480288025,7.601451427451075",,2020,FRA,Anne Frank-Platz


In [8]:
dfnumber.to_csv("out_dp-StrassenBS-Menschen_1_StrassenPotentielMensch.csv")

In [9]:
dfnumber.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 147 entries, 153 to 1425
Data columns (total 10 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   Id Strasse              147 non-null    int64 
 1   Strassenname            147 non-null    object
 2   Erklärung erste Zeile   147 non-null    object
 3   Erklärung zweite Zeile  119 non-null    object
 4   Geo Shape               147 non-null    object
 5   Geo Point               147 non-null    object
 6   Erstmals erwähnt        33 non-null     object
 7   Amtlich benannt         147 non-null    object
 8   Indextext               147 non-null    object
 9   Kurztext                147 non-null    object
dtypes: int64(1), object(9)
memory usage: 12.6+ KB


**💡 Erkenntnis**  
Ca. 147 Strassen könnten in Basel nach einer Person benannt sein

----
## Strassennamen an Wikidata zuweisen
Versuchen die identifizierten Strassen einem Wikidata-Element zuzuweisen.

### Strassennamen auftrennen
Das Namensgebende Objekt aus den Strassennamen extrahieren 

In [10]:
seperators =["strasse", "-Strasse", "weg", "-Weg", "-Wegli", "weglein" "-Anlage", "anlage", "-Promenade", "rain", "gasse", "gässlein", "gässchen",
             "-Steg", "platz", "-Platz", "-Brücke", "brücke", "-Passage", "graben", "-Graben", "steg", "-Park", "park", "schanze", "tunnel", "kreisel", "ring", "allee", "-Allee"]

In [11]:
import numpy as np

dfnumberStam = dfnumber.copy() #Sonst gibt es eine Warnung beim setzen der neuen Spalte
dfnumberStam["Stamm"] = dfnumberStam["Strassenname"]
dfnumberStam["suffix"] = np.nan

In [12]:
dfnumberStam.head(3)

Unnamed: 0,Id Strasse,Strassenname,Erklärung erste Zeile,Erklärung zweite Zeile,Geo Shape,Geo Point,Erstmals erwähnt,Amtlich benannt,Indextext,Kurztext,Stamm,suffix
153,1941,Friedrich Miescher-Weg,"Friedrich Miescher (1844–1895), Mediziner,","Zellkernforscher, Entdecker der Nukleinsäuren","{""coordinates"": [[7.561170150285444, 47.571576...","47.57115977292299,7.560402160714845",,2020,MIE,Friedrich Miescher-Weg,Friedrich Miescher-Weg,
164,36,Achilles Bischoff-Strasse,"Achilles Bischoff (1795–1867), erster baselstä...",,"{""coordinates"": [[7.59352881105616, 47.5399726...","47.540631989866604,7.594145011664927",,1966,BIS,Achilles Bischoff-Str.,Achilles Bischoff-Strasse,
173,1939,Anne Frank-Platz,"Anne Frank (1929–1945), ihr Tagebuch als Zeugn...","der Jüdinnen und Juden im Nationalsozialismus,...","{""coordinates"": [[7.600824973699854, 47.570228...","47.570717480288025,7.601451427451075",,2020,FRA,Anne Frank-Platz,Anne Frank-Platz,


In [13]:
for seperator in seperators:

    seriesnumberStam1 = dfnumberStam.Strassenname.str.removesuffix(seperator)
    dfnumberStam2 = pd.DataFrame(seriesnumberStam1)
    dfnumberStam2.rename(columns = {"Strassenname":"temp"}, inplace = True)

    dfnumberStam = pd.concat([dfnumberStam, dfnumberStam2], axis=1)

    dfnumberStam['suffix'] = np.where(dfnumberStam["Strassenname"] != dfnumberStam["temp"], seperator, dfnumberStam["suffix"])
    dfnumberStam['Stamm'] = np.where(dfnumberStam['Strassenname'] != dfnumberStam['temp'], dfnumberStam['temp'], dfnumberStam['Stamm'])

    del dfnumberStam['temp']


In [14]:
dfnumberStam.head(3)

Unnamed: 0,Id Strasse,Strassenname,Erklärung erste Zeile,Erklärung zweite Zeile,Geo Shape,Geo Point,Erstmals erwähnt,Amtlich benannt,Indextext,Kurztext,Stamm,suffix
153,1941,Friedrich Miescher-Weg,"Friedrich Miescher (1844–1895), Mediziner,","Zellkernforscher, Entdecker der Nukleinsäuren","{""coordinates"": [[7.561170150285444, 47.571576...","47.57115977292299,7.560402160714845",,2020,MIE,Friedrich Miescher-Weg,Friedrich Miescher,-Weg
164,36,Achilles Bischoff-Strasse,"Achilles Bischoff (1795–1867), erster baselstä...",,"{""coordinates"": [[7.59352881105616, 47.5399726...","47.540631989866604,7.594145011664927",,1966,BIS,Achilles Bischoff-Str.,Achilles Bischoff,-Strasse
173,1939,Anne Frank-Platz,"Anne Frank (1929–1945), ihr Tagebuch als Zeugn...","der Jüdinnen und Juden im Nationalsozialismus,...","{""coordinates"": [[7.600824973699854, 47.570228...","47.570717480288025,7.601451427451075",,2020,FRA,Anne Frank-Platz,Anne Frank,-Platz


#### Mit Wikidata abgleichen
Das Namensgebende Objekt mit Wikidata abgleichen

In [15]:
from SPARQLWrapper import SPARQLWrapper, JSON

URL und Header für Wikidata-Query erstellen gemäss [Access best practices](https://www.wikidata.org/wiki/Wikidata:Data_access#Access_best_practices)

In [16]:
wdUrl = "https://query.wikidata.org/sparql"
user_agent = 'Streetnamequery/1.0 (https://github.com/CaptainInler/cassda-zertifikatsarbeit)'
sparql = SPARQLWrapper(wdUrl, agent=user_agent)

In [17]:
def queryWd(sparql, subject):
    #print(wdKey)
    query = """
    SELECT ?subject ?subjectLabel ?instanceLabel WHERE {
      ?subject rdfs:label "%s"@de;
               wdt:P31 ?instance.
      SERVICE wikibase:label { bd:serviceParam wikibase:language "de" . }   
    }
    """ % (subject)
    #print(query)
    
    sparql.setQuery(query)
    sparql.setReturnFormat(JSON)
    return sparql

In [18]:
import time, sys
from IPython.display import clear_output

def update_progress(progress):
    bar_length = 20
    if isinstance(progress, int):
        progress = float(progress)
    if not isinstance(progress, float):
        progress = 0
    if progress < 0:
        progress = 0
    if progress >= 1:
        progress = 1

    block = int(round(bar_length * progress))

    clear_output(wait = True)
    text = "Progress: [{0}] {1:.1f}%".format( "#" * block + "-" * (bar_length - block), progress * 100)
    print(text)

In [19]:
from time import sleep

i = 0
total = int(len(dfnumberStam.index))
dfr = pd.DataFrame(columns=["Name", "wikiQLabel", "wikiQ", "instance"])

maxresults = 10

for x in dfnumberStam.index:
    i+=1
    #print(i)
    subject = dfnumberStam['Stamm'][x]
    subjectStr = dfnumberStam['Strassenname'][x]
    #print(f"Subjekt: {subject}")
    sparql = queryWd(sparql, subject)
    update_progress(i / total)
    try:
        results = sparql.query()
        #print(results.info())
        
    except Exception as e:
        print(f"{i} Anfragen bis jetzt")
        #Prüfen auf Statuscode 429 (Too many Requests)
        if e.status == 429:
            print(f'Statuscode 429 aufgetreten: Anfrage geht in {e.headers.get("retry-after")}sec weiter')
            sleep(int(e.headers.get("retry-after"))+2)
        else:
            break
            #raise


    result = results.convert()
    #print(result)

    results_df = pd.json_normalize(result['results']['bindings'])
    #print(results_df)

    if not results_df.empty:
        wikiQ = results_df['subject.value'][0]
        wikiQLabel = results_df['subjectLabel.value'][0]
        instance = results_df['instanceLabel.value'][0]

        #print(f"{subjectStr} | {wikiQLabel}: {wikiQ} -> {instance}")
        dfrtemp = pd.DataFrame([[subjectStr, wikiQLabel, wikiQ, instance]], columns=dfr.columns)
        dfr = pd.concat([dfr, dfrtemp])

    else:
        #print(f"{subjectStr} | {subject}: Kein Eintrag in Wikidata gefunden")
        dfrtemp = pd.DataFrame([[subjectStr, subject, np.nan, np.nan]], columns=dfr.columns)
        dfr = pd.concat([dfr, dfrtemp])

    #print(x)
    #if i > maxresults:
        #break

Progress: [####################] 100.0%


In [20]:
dfr.head(3)

Unnamed: 0,Name,wikiQLabel,wikiQ,instance
0,Friedrich Miescher-Weg,Friedrich Miescher,http://www.wikidata.org/entity/Q116072,Mensch
0,Achilles Bischoff-Strasse,Achilles Bischoff,http://www.wikidata.org/entity/Q15455792,Mensch
0,Anne Frank-Platz,Anne Frank,http://www.wikidata.org/entity/Q4583,Mensch


In [21]:
n = dfr.groupby("instance").nunique()

In [22]:
print(n)

                                 Name  wikiQLabel  wikiQ
instance                                                
Achterbahn                          1           1      1
Album                               2           1      1
Basler Quartiere                    6           2      2
Borough in Pennsylvania             1           1      1
City in den Vereinigten Staaten     1           1      1
Familienname                        4           3      3
Fluss                               1           1      1
Mensch                             53          47     47
Ortsteil                            1           1      1
Palast                              1           1      1
Regionalverband                     1           1      1
Stadt                               1           1      1
Taxon                               1           1      1
Turm                                1           1      1
Warenhaus                           1           1      1
Wikimedia-Begriffsklärungsseite

**💡 Erkenntnis**  
53 Strassennamen konnten einer Person zugewiesen werden

### Abgleich überprüfen
Wieso stehen in Namen mehr eindeutige Werte als in wikiQLabel und wikiQ

In [23]:
t = dfr[dfr['instance'] == 'Album']

In [24]:
t.head(3)

Unnamed: 0,Name,wikiQLabel,wikiQ,instance
0,Voltaplatz,Volta,http://www.wikidata.org/entity/Q174563,Album
0,Voltastrasse,Volta,http://www.wikidata.org/entity/Q174563,Album


**💡 Erkenntnis**  
- Unterschiedliche Strassenkörper (z.b. Platz und Strasse) können nach der selben Person benannt sein. 
- Von den potenziel 147 Menschen werden "nur" 53 als solche erkannt.  
Ein Problem besteht unter anderem, dass Strassenname, welche nicht dem Schema "[Vorname] [Nachnamen]-Strasse" entsprechen, überhaupt nicht erkannt werden.  

### Strassennamen mit nur Nachnamen
Versuch auch Personen von Strassen mit nur dem Nachnamen zuzuweisen.  

In [25]:
dfnm = dfr[dfr['instance'] != 'Mensch'].reset_index(drop=True)

In [26]:
def queryWdMenschen(sparql, subject):
    #print(wdKey)
    query = """
    SELECT ?subject ?subjectLabel WHERE {
      ?subject wdt:P734 ?familyname;
               wdt:P31 wd:Q5.
      ?familyname rdfs:label "%s"@de;
      SERVICE wikibase:label { bd:serviceParam wikibase:language "de" . }   
    }
    """ % (subject)
    #print(query)
    
    sparql.setQuery(query)
    sparql.setReturnFormat(JSON)
    return sparql

In [43]:
from time import sleep

i = 0
total = int(len(dfnm.index))
dfr2 = pd.DataFrame(columns=["Name", "wikiQLabel", "wikiQ"])

maxresults = 10

for x in dfnm.index:
    i+=1
    #print(i)
    subject = dfnm['wikiQLabel'][x]
    subjectStr = dfnm['Name'][x]
    #print(f"Subjekt: {subject}")
    sparql = queryWdMenschen(sparql, subject)
    update_progress(i / total)
    try:
        results = sparql.query()
        #print(results.info())
        
    except Exception as e:
        print(f"{i} Anfragen bis jetzt")
        #Prüfen auf Statuscode 429 (Too many Requests)
        if e.status == 429:
            print(f'Statuscode 429 aufgetreten: Anfrage geht in {e.headers.get("retry-after")}sec weiter')
            sleep(int(e.headers.get("retry-after"))+2)


    result = results.convert()
    #print(result)

    results_df = pd.json_normalize(result['results']['bindings'])
    #print(results_df)

    if not results_df.empty:
        wikiQ = results_df['subject.value'][0]
        wikiQLabel = results_df['subjectLabel.value'][0]

        #print(f"{subjectStr} | {wikiQLabel}: {wikiQ} -> {instance}")
        dfrtemp = pd.DataFrame([[subjectStr, wikiQLabel, wikiQ]], columns=dfr2.columns)
        dfr2 = pd.concat([dfr2, dfrtemp])

    else:
        #print(f"{subjectStr} | {subject}: Kein Eintrag in Wikidata gefunden")
        dfrtemp = pd.DataFrame([[subjectStr, subject, np.nan]], columns=dfr2.columns)
        dfr2 = pd.concat([dfr2, dfrtemp])

    #print(x)
    #if i > maxresults:
        #break

Progress: [####################] 100.0%


In [44]:
dfr2.head(10)

Unnamed: 0,Name,wikiQLabel,wikiQ
0,Gotthelfplatz,Jeremias Gotthelf,http://www.wikidata.org/entity/Q122358
0,Kaufhausgasse,Kaufhaus,
0,Redingbrücke,Ital Reding der Jüngere,http://www.wikidata.org/entity/Q122737
0,C.F. Meyer-Strasse,C.F. Meyer,
0,Oserweglein,Oserweglein,
0,Schäublinstrasse,Christoph Schäublin,http://www.wikidata.org/entity/Q1085851
0,Joh.Jak. Spreng-Gässlein,Joh.Jak. Spreng-Gässlein,
0,Voltamatte,Voltamatte,
0,Wettsteinstrasse,Richard Wettstein,http://www.wikidata.org/entity/Q78599
0,Urs Graf-Strasse,Urs Graf,


In [45]:
dfNotNan = dfr2[dfr2['wikiQ'].notna()]

In [46]:
dfNotNan.head(5)

Unnamed: 0,Name,wikiQLabel,wikiQ
0,Gotthelfplatz,Jeremias Gotthelf,http://www.wikidata.org/entity/Q122358
0,Redingbrücke,Ital Reding der Jüngere,http://www.wikidata.org/entity/Q122737
0,Schäublinstrasse,Christoph Schäublin,http://www.wikidata.org/entity/Q1085851
0,Wettsteinstrasse,Richard Wettstein,http://www.wikidata.org/entity/Q78599
0,Hochbergersteg,Juliusz Hochberger,http://www.wikidata.org/entity/Q3608670


In [47]:
print(len(dfNotNan.index))

49


**💡 Erkenntnis**  
Es konnten zusätzlich 49 Strassen gefunden werden, die als Strassennamen potentiel nach einem Nachnamen einer Person benannt sind

### Ausgabe der Namen ohne Zuweisung
Für weitere Abklärungen die Strassen ohne Zuweisung exportieren

In [48]:
dfnan = dfr2[dfr2['wikiQ'].isna()]

In [49]:
dfnan.head(5)

Unnamed: 0,Name,wikiQLabel,wikiQ
0,Kaufhausgasse,Kaufhaus,
0,C.F. Meyer-Strasse,C.F. Meyer,
0,Oserweglein,Oserweglein,
0,Joh.Jak. Spreng-Gässlein,Joh.Jak. Spreng-Gässlein,
0,Voltamatte,Voltamatte,


In [50]:
dfnan.to_csv("out_dp-StrassenBS-Menschen_2_StrassenOhneMenschzuweisung.csv")

## Ausgabe der Strassen mit Menschzuweisungen
Die Strassennamen exportieren, welche potentiel nach Menschen benannt sind

In [51]:
dfname = pd.concat([dfr[dfr['instance'] == 'Mensch'], dfNotNan])

In [53]:
dfname.head(10)

Unnamed: 0,Name,wikiQLabel,wikiQ,instance
0,Friedrich Miescher-Weg,Friedrich Miescher,http://www.wikidata.org/entity/Q116072,Mensch
0,Achilles Bischoff-Strasse,Achilles Bischoff,http://www.wikidata.org/entity/Q15455792,Mensch
0,Anne Frank-Platz,Anne Frank,http://www.wikidata.org/entity/Q4583,Mensch
0,Peter Merian-Brücke,Peter Merian,http://www.wikidata.org/entity/Q2077023,Mensch
0,Wibrandis Rosenblatt-Weg,Wibrandis Rosenblatt,http://www.wikidata.org/entity/Q120460,Mensch
0,Friedrichstrasse,Friedrich,http://www.wikidata.org/entity/Q63086,Mensch
0,Peter Merian-Weg,Peter Merian,http://www.wikidata.org/entity/Q2077023,Mensch
0,Gottfried Keller-Strasse,Gottfried Keller,http://www.wikidata.org/entity/Q122370,Mensch
0,Christoph Merian-Platz,Christoph Merian,http://www.wikidata.org/entity/Q122485,Mensch
0,Meret Oppenheim-Strasse,Meret Oppenheim,http://www.wikidata.org/entity/Q61594,Mensch


**🪁 Resultat**  
Die Daten sind zwar nicht perfekt, können jedoch für eine erste Verifikation weiter verwendet werden.

In [55]:
dfname.to_csv("out_dp-StrassenBS-Menschen_3_StrassenMitMenschzuweisung.csv")