# Data understanding
In diesem Notebook werden die Daten der [Strassennamen](https://data.bs.ch/explore/dataset/100189/information/) des Kanton Basel-Stadt explorativ begutachtet.

---
## Laden der Daten

In [11]:
url = 'https://data.bs.ch/explore/dataset/100189/download/?format=csv&timezone=Europe/Zurich&lang=de&use_labels_for_header=true&csv_separator=%3B '

Daten in ein pandas-Dataframe abfüllen um eine tabelarische Übersicht über die Daten zu erhalten.
Sollte pandas nicht installiert sein `pip install pandas`

In [12]:
import pandas as pd

df = pd.read_csv(url, sep=';')
df.head()

Unnamed: 0,Id Strasse,Strassenname,Erklärung erste Zeile,Erklärung zweite Zeile,Geo Shape,Geo Point,Erstmals erwähnt,Amtlich benannt,Indextext,Kurztext
0,1267,Unterm Schellenberg,,,"{""coordinates"": [[[7.646100416914682, 47.57103...","47.57438530908011,7.647476787299508",,,SCH,Unterm Schellenberg
1,1311,Wendelinsgasse,,,"{""coordinates"": [[[7.652143633582508, 47.58464...","47.585508929842106,7.652674199435162",,,WEN,Wendelinsgasse
2,1197,Keltenweg,,,"{""coordinates"": [[[7.638296801699711, 47.57292...","47.57320240950238,7.635561106232719",,,KEL,Keltenweg
3,1095,Artelweg,,,"{""coordinates"": [[[7.664556024301177, 47.57864...","47.578660346190595,7.662622581792329",,,ART,Artelweg
4,1098,Auhaldenweg,,,"{""coordinates"": [[[7.664022858336189, 47.58385...","47.58413931663541,7.66205361334022",,,AUH,Auhaldenweg


---
## Daten begutachten

Prüfen auf Null-Values. Vor allem in den Spalten `STR_ESID`, `STN_LABEL` und `STR_EASTING`/`STR_NORTHING` interessant. Diese enthalten die Daten mit welchen später gearbeitet wird.

In [13]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1442 entries, 0 to 1441
Data columns (total 10 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   Id Strasse              1442 non-null   int64 
 1   Strassenname            1442 non-null   object
 2   Erklärung erste Zeile   1047 non-null   object
 3   Erklärung zweite Zeile  667 non-null    object
 4   Geo Shape               1442 non-null   object
 5   Geo Point               1442 non-null   object
 6   Erstmals erwähnt        283 non-null    object
 7   Amtlich benannt         1047 non-null   object
 8   Indextext               1442 non-null   object
 9   Kurztext                1442 non-null   object
dtypes: int64(1), object(9)
memory usage: 112.8+ KB


### Sortieren nach "Erklärung erste Zeile"
Begutachten der ersten Werte in dieser Zeile

In [17]:
dfErklarung = df.sort_values("Erklärung erste Zeile")
dfErklarung.head()

Unnamed: 0,Id Strasse,Strassenname,Erklärung erste Zeile,Erklärung zweite Zeile,Geo Shape,Geo Point,Erstmals erwähnt,Amtlich benannt,Indextext,Kurztext
596,141,Eisengasse,"1190 erstmals erwähnt, vermutlich nach",einer Person oder Eisenwaren-Gewerbe,"{""coordinates"": [[[7.588775507702763, 47.55967...","47.559273737843974,7.58811097913832",1190.0,1861,EIS,Eisengasse
106,381,Marktplatz,1191 erstmals als «Kornmarkt» erwähnt,,"{""coordinates"": [[[7.58791968386567, 47.557635...","47.558172236888765,7.587761308581137",1191.0,1861,MAR,Marktplatz
330,553,Spalenberg,"1230 erstmals erwähnter Flurname, Hinweis",auf Tritthölzer («Spalen») im Hanggelände,"{""coordinates"": [[[7.58507254835823, 47.556740...","47.55699049070984,7.585485686682233",1230.0,1861,SPA,Spalenberg
1044,664,Spalen-Durchgang,"1230 erstmals erwähnter Flurname, Hinweis",auf Tritthölzer («Spalen») im Hanggelände,"{""coordinates"": [[7.58507254835823, 47.5567403...","47.55655963487137,7.584892951394445",,1970,SPA,Spalen-Durchgang
173,555,Spalenring,"1230 erstmals erwähnter Flurname, Hinweis",auf Tritthölzer («Spalen») im Hanggelände,"{""coordinates"": [[[7.576696572401048, 47.55379...","47.55723056234537,7.575318123399374",1861.0,1901,SPA,Spalenring


In [34]:
pd.options.display.max_colwidth = 100
dfErklarung["Erklaerung"] = dfErklarung["Erklärung erste Zeile"] + " " + dfErklarung["Erklärung zweite Zeile"].fillna('')
dfErklarung.head()

Unnamed: 0,Id Strasse,Strassenname,Erklärung erste Zeile,Erklärung zweite Zeile,Geo Shape,Geo Point,Erstmals erwähnt,Amtlich benannt,Indextext,Kurztext,Erklaerung
596,141,Eisengasse,"1190 erstmals erwähnt, vermutlich nach",einer Person oder Eisenwaren-Gewerbe,"{""coordinates"": [[[7.588775507702763, 47.559678065689305], [7.588507090057935, 47.55953665202661...","47.559273737843974,7.58811097913832",1190.0,1861,EIS,Eisengasse,"1190 erstmals erwähnt, vermutlich nach einer Person oder Eisenwaren-Gewerbe"
106,381,Marktplatz,1191 erstmals als «Kornmarkt» erwähnt,,"{""coordinates"": [[[7.58791968386567, 47.55763538527361], [7.587918541703599, 47.55763554862353],...","47.558172236888765,7.587761308581137",1191.0,1861,MAR,Marktplatz,1191 erstmals als «Kornmarkt» erwähnt
330,553,Spalenberg,"1230 erstmals erwähnter Flurname, Hinweis",auf Tritthölzer («Spalen») im Hanggelände,"{""coordinates"": [[[7.58507254835823, 47.556740306985226], [7.585075507507463, 47.55673413356719]...","47.55699049070984,7.585485686682233",1230.0,1861,SPA,Spalenberg,"1230 erstmals erwähnter Flurname, Hinweis auf Tritthölzer («Spalen») im Hanggelände"
1044,664,Spalen-Durchgang,"1230 erstmals erwähnter Flurname, Hinweis",auf Tritthölzer («Spalen») im Hanggelände,"{""coordinates"": [[7.58507254835823, 47.556740306985226], [7.585009097905052, 47.55667376109581],...","47.55655963487137,7.584892951394445",,1970,SPA,Spalen-Durchgang,"1230 erstmals erwähnter Flurname, Hinweis auf Tritthölzer («Spalen») im Hanggelände"
173,555,Spalenring,"1230 erstmals erwähnter Flurname, Hinweis",auf Tritthölzer («Spalen») im Hanggelände,"{""coordinates"": [[[7.576696572401048, 47.55379605626075], [7.57671097682789, 47.55377671165761],...","47.55723056234537,7.575318123399374",1861.0,1901,SPA,Spalenring,"1230 erstmals erwähnter Flurname, Hinweis auf Tritthölzer («Spalen») im Hanggelände"


In [48]:
dfErklarung2 = dfErklarung.sort_values("Id Strasse", ascending=True)
dfErklarung2.head()

Unnamed: 0,Id Strasse,Strassenname,Erklärung erste Zeile,Erklärung zweite Zeile,Geo Shape,Geo Point,Erstmals erwähnt,Amtlich benannt,Indextext,Kurztext,Erklaerung
620,1,Adlerstrasse,"Adlerberg (535 m ü.M.), Juraanhöhe",zwischen Pratteln und Liestal,"{""coordinates"": [[[7.609655864672153, 47.54761676818526], [7.609904921571146, 47.54731029022987]...","47.54681645762456,7.6103056835129435",,1913,ADL,Adlerstr.,"Adlerberg (535 m ü.M.), Juraanhöhe zwischen Pratteln und Liestal"
848,2,Aeneas Silvius-Strasse,"Enea Silvio Piccolomini (1405–1464),","ab 1458 Papst Pius II., Stifter der Universität Basel","{""coordinates"": [[[7.593205357077371, 47.53096642331732], [7.593311354213149, 47.530961641798854...","47.531027360197285,7.593113406541522",,1922,SIL,Aeneas Silvius-Str.,"Enea Silvio Piccolomini (1405–1464), ab 1458 Papst Pius II., Stifter der Universität Basel"
1407,3,Aeschengraben,"Aeschen, mittelalterlicher Flurname für Saatfelder","Graben, Teil der früheren Stadtbefestigung","{""coordinates"": [[[7.591241181351867, 47.548716860643985], [7.591137995237585, 47.54864390344171...","47.54984776794978,7.592878444059154",1811.0,1861,AES,Aeschengraben,"Aeschen, mittelalterlicher Flurname für Saatfelder Graben, Teil der früheren Stadtbefestigung"
1120,4,Aeschenplatz,"Aeschen, mittelalterlicher Flurname für Saatfelder",Platz ab 1860 angelegt,"{""coordinates"": [[[7.594640435431612, 47.5510190059684], [7.59469277467552, 47.550986459435094],...","47.55151803087923,7.59579033270256",1861.0,1956,AES,Aeschenplatz,"Aeschen, mittelalterlicher Flurname für Saatfelder Platz ab 1860 angelegt"
342,5,Aeschenvorstadt,"Aeschentor, Teil der inneren Stadtmauer des 13. Jh.",Vorstadt nach 1356 in das Stadtgebiet einbezogen,"{""coordinates"": [[[7.593386085227093, 47.55249384603031], [7.593711654587654, 47.5521991197484],...","47.55261537370155,7.593317686601817",1328.0,1861,AES,Aeschenvorstadt,"Aeschentor, Teil der inneren Stadtmauer des 13. Jh. Vorstadt nach 1356 in das Stadtgebiet einbez..."


In [52]:
dfErklarung3 = dfErklarung['Erklärung erste Zeile'].isna()
dfErklarung3.head()

596     False
106     False
330     False
1044    False
173     False
Name: Erklärung erste Zeile, dtype: bool