# Open Data, und dann? 
## Einführung in die Visualisierung von offenen Daten

In unserem Projekt sensor.community messen Menschen auf der ganzen Welt mit selbst gebauten Sensoren die Luftqualität in ihrem Garten, vor ihrer Haustür, auf ihrem Balkon. In diesem interaktiven Workshop zeigen wir euch, wie die gemessenen Daten aussehen und wie ihr daraus erste Visualisierungen erstellt.

Wir benutzen dafür Jupyter-Notebooks, Datensätze des Open Data Portals der Stadt Bielefeld und die Feinstaubdaten von sensor.community.

Für den Workshop ist kein besonderes Vorwissen nötig, lediglich eine stabile Internetverbindung und das Interesse, ein wenig Programmiercode näher gebracht zu bekommen. Der Workshop ist also auch offen für alle Open-Data-Neulinge. 

***

Agenda:

1. Sehr kurze Einführung in Python
2. Visualisierung eines Datensatzes des Open Data-Portals der Stadt Bielefeld
3. Zugriff auf Daten der Feinstaubsensoren in Bielefeld
4. Zeichnen einer interaktiven Karte

## Sehr kurze Einführung in Python
Python ist eine im Data Science-Bereich sehr verbreitete Programmiersprache und bietet mit vielen Programmbibliotheken wie Numpy (Verarbeitung von Matrizen), Pandas (Verwaltung von Daten), Plotly (Datenvisualisierung) und verschiedenen Frameworks wie Flask (Webserver), Dash (Visualisierung) und Tensorflow (Machine Learning) ein großes Spektrum an frei verfügbaren und sehr gut dokumentiertem Code.  

Achtung: Die Strukturierung des Codes wird nicht wie bei vielen anderen Programmiersprachen über Klammern geregelt, sondern über die Einrückungen des Codes.

### Schleifen
Mithilfe verschiedener Schleifen kann wiederholbarer Code für eine gegebene Sequenz oder eine Liste an Werten abgebildet werden.

#### For-Schleife
Zur Iteration über Listen, Squenzen oder einer Range können For-Schleifen genutzt werden.

In [None]:
for i in [1, 2, 3, 4]:
    print(i)

#### While-Schleife
Widerholung des Schleifeninhaltes solange eine Bedingung gültig ist.

In [None]:
i = 1
while i <= 4:
    print(i)
    i += 1    

### If-Else-Bedingungen
Code innerhalb der if-Bedingung wird nur ausgeführt, wenn die if-Bedingung wahr ist.

In [None]:
for i in [0, 1]:
    if i == 1:
        print(i, ': ', True)
    else:
        print(i, ': ', False)

### Funktionen
Zur besseren Strukturierung, Wiederverwendbarkeit und Lesbarkeit sollten klar abgrenzbare Codeschnipsel mit wohldefinierten Methodennamen in Funktionen gezogen werden. Eine Methode kann Übergabeparameter entgegennehmen, die innerhalb der Methode genutzt und / oder verändert werden. Gleichzeitig kann die Methode zum Schluss keinen, einen oder mehrere Werte als Rückgabeparameter über das Wort "return" zurückgeben.

In [None]:
# Methode definieren
def get_center_value(values: [int]):
    center_index: int = int(len(values) / 2)
    return values[center_index]

# Übergabeparameter definieren
values = [1, 2, 3, 4, 5]

# Methode aufrufen
center_value = get_center_value(values)
print('Center value: ', center_value)

## Pandas
Programmierbibliothek zur Verarbeitung, Verwaltung und Analyse von Daten.

In [None]:
import pandas as pd

### Laden von CSV Dateien
Comma-separated values(CSV) beschreibt den Aufbau einer Textdatei zur Speicherung oder zum Austausch einfach strukturierter Daten.

data = pd.read_csv('data.csv') 

## Visualisierung eines Datensatzes des Open Data-Portals der Stadt Bielefeld

Zunächst möchten wir uns Daten des Portals zur Anzeige bringen. Hierzu verwenden wir 

1. die Wahlergebnisse der Bundestagswahl 2017 und
2. die demographischen Daten der Stadtbezirke.

### Wahlergebnisse
Auf [dieser Webseite](https://open-data.bielefeld.de/dataset/wahlen-und-abstimmungen-bielefeld) finden sich alle Datensätze zu Wahlen und Abstimmungen der Stadt. Ganz unten auf der Seite finden sich die aktuellsten Daten, und dort sehen wir 

<img src="img/Daten_Download_1.png" width="750" height="250" align="left">

Fahren wir nun mit dem Mauszeiger über den Button `Download`, so sehen wir die eigentliche URL des Datensatzes:

<img src="img/Daten_Download_2.png" width="900" height="250" align="left">

Diese URL fügen wir in die Funktion zum Einlesen einer CSV-Datei ein.

In [None]:
url_bundestagswahl2017 = 'https://open-data.bielefeld.de/sites/default/files/BTW 2017_1.csv'
df_btw = pd.read_csv(url_bundestagswahl2017)

Leider erhalten wir die Fehlermeldung, dass kein Leerzeichen in einer URL als Eingabe dieser Funktion vorhanden sein darf. 

Ersetzen wir also das Leerzeichen mit `%20`, welches wir aus reinem Zufall kennen.

In [None]:
url_bundestagswahl2017 = 'https://open-data.bielefeld.de/sites/default/files/BTW%202017_1.csv'
df_btw = pd.read_csv(filepath_or_buffer=url_bundestagswahl2017)

Ein andere Fehler taucht auf. Es wird eine Encodierung angesprochen und wir haben den Verdacht, dass die CSV-Datei mithilfe von Word auf einer Windows-Maschine erstellt sein könnte. Wenn nicht explizit darauf geachtet wird, werden so leider Dateien erstellt, welche nicht ein Standard-Format besitzen.

Aber wieder wissen wir uns zu helfen und tippen darauf, dass wir die Encodierung `ANSI` verwenden sollten.

In [None]:
url_bundestagswahl2017 = 'https://open-data.bielefeld.de/sites/default/files/BTW%202017_1.csv'
df_btw = pd.read_csv(filepath_or_buffer=url_bundestagswahl2017, encoding='palmos')

Und noch ein Fehler...

Irgendetwas scheint mit der erwarteten Anzahl der Spalten nicht zu stimmen. Obwohl das Datenformat CSV (comma-separated values), wird häufig ein Semikolon anstelle eines Kommas eingesetzt. Probieren wir es also aus.

In [None]:
url_bundestagswahl2017 = 'https://open-data.bielefeld.de/sites/default/files/BTW%202017_1.csv'
df_btw = pd.read_csv(filepath_or_buffer=url_bundestagswahl2017, sep=';', encoding='palmos')
df_btw.head()

Um einen besseren Eindruck über die verfügbaren Daten zu erhalten, lassen wir uns alle Spaltennamen anzeigen:

In [None]:
list(df_btw.keys())

Wenn wir uns lediglich für die prozentuale Verteilung der Stimmen interessieren, so können wir die entsprechenden Spalten filtern. Leider ist im Portal nicht beschrieben, inwiefern sich die Spalten mit dem Präfix `Z_` von denjenigen ohne unterscheiden. Wir wählen diejenigen ohne Präfix.

In [None]:
list_btw_prc = [x for x in list(df_btw.keys()) if '_Proz' in x and 'Z_' not in x]
list_btw_prc

Wir erzeugen einen Dataframe mit nur obigen Spalten und der Wahlbezirksnummer.

In [None]:
df_btw_prc = df_btw[['Nr'] + list_btw_prc].copy()

Leider ist in dem Datensatz nicht ein international gültiges Nummernformat verwendet worden, sodass wir als Text erkannte Zahlen wie `2,7` in echte Zahlen wie `2.7` umwandeln.

In [None]:
for col in list_btw_prc:
    if df_btw_prc[col].dtype == object:
        df_btw_prc[col] = df_btw_prc[col].str.replace(',', '.').astype(float)

Hierdurch erhalten wir folgenden Dataframe:

In [None]:
df_btw_prc.head()

Um die Verteilung von Wahlbezirk 1.1 darzustellen, legen wir einen eigenen Datafram an.

In [None]:
df_btw_1_1 = df_btw_prc[list_btw_prc].iloc[0].to_frame()
df_btw_1_1.reset_index(inplace=True)
df_btw_1_1 = df_btw_1_1.rename(columns = {'index':'Partei', 0:'Proz'})
df_btw_1_1['Partei'] = df_btw_1_1['Partei'].str.replace('_Proz', '')

Ein Kreisdiagramm mit der prozentualen Stimmenverteilung kann nach dieser Vorarbeit einfach dargestellt werden:

In [None]:
import plotly.express as px

fig = px.pie(df_btw_1_1.loc[df_btw_1_1['Proz'] > 0.02], values='Proz', names='Partei', title='Wahlbezirk 1.1')
fig.show()

Es ließen sich noch eine Vielzahl an weiteren Grafiken und Statistiken bilden, allerdings warten noch andere Datensätze auf uns.

### Demographische Daten
Nun betrachten wir die demographischen Daten der Stadt Bielefeld und verwenden hierfür die Daten [dieser Seite](https://open-data.bielefeld.de/dataset/
demographie-und-statistische-gebietsgliederung). 

Die entsprechende URL erhalten wir per Mouse-Over über den Download-Button.

In [None]:
url_alter = 'https://open-data.bielefeld.de/sites/default/files/altersstruktur_halbjaehrlich2013bisEnde2020.csv'
df_alter = pd.read_csv(filepath_or_buffer=url_alter, sep=';', encoding='palmos')
df_alter.head()

Betrachten wir zunächst wieder alle Spaltennamen:

In [None]:
list_alter_spaltennamen = list(df_alter.keys())
list_alter_spaltennamen

Da so lange Spaltennamen sehr unhandlich sind, weisen wir den Daten einfach neue zu.

In [None]:
list_alter_neueSpaltennamen = ['jahr', 'stichtag', 'gebiet', 'gesamt', '0_1', '1_3', '3_5', '5_6', '6_10', '10_14', '14_15', '15_18', '18_21', '21_25', '25_30', '30_40', '40_45', '45_60', '60_65', '65_70', '70_75', '75_', 'durchschnittsalter']
df_alter.columns = list_alter_neueSpaltennamen
df_alter.head()

Um Daten im Anschluss korrekt anzeigen zu lassen, müssen wir die Datumsangabe von `stichtag` in ein Datenformat übertragen:

In [None]:
df_alter['stichtag'] = pd.to_datetime(df_alter['stichtag'], format='%Y%m%d')

Nun sind wir in der Position für einen Stadtbezirk die Demographie anzuzeigen:

In [None]:
import plotly.express as px
fig__alter_mitte = px.bar(df_alter[df_alter['gebiet']=='Stadtbezirk Mitte'], x='stichtag', y='gesamt')
fig__alter_mitte.show()

Interessant ist natürlich auch die Entwicklung in der gesamten Stadt, also binden wir alle Stadtbezirke ein:

In [None]:
fig__alter = px.bar(df_alter, x='stichtag', y='gesamt', color='gebiet')
fig__alter.show()

Oh, anscheinend gibt es einen Stadtbezirk, welchen es per Definition gar nicht gibt, nämlich `Bielefeld gesamt`. Das überprüfen wir, indem wir uns alle eindeutigen Werte der Spalte `gebiet` anzeigen lassen:

In [None]:
df_alter['gebiet'].unique()

Für eine korrekte Darstellung müssen wir also `Bielefeld gesamt` ausschließen und erhalten:

In [None]:
df_alter = df_alter[df_alter['gebiet']!='Bielefeld insgesamt']
fig__alter_2 = px.bar(df_alter, x='stichtag', y='gesamt', color='gebiet')
fig__alter_2.show()

## Zugriff auf Daten der Feinstaubsensoren in Bielefeld

Im Rahmen von [Code for Bielefeld](https://codefor.de/bielefeld) beschäftigen wir uns unter anderem mit der Erhebung und Auswertung von Feinstaubdaten im Stadtgebiet. Wer sich einen Eindruck über die aktuell im Einsatz befindlichen Sensoren machen möchte, der kann diese auf [sensor.community](https://sensor.community/de/) nachschauen.

Wer selbst Interesse hat einen Feinstaubsensor in Betrieb zu nehmen, der findet [hier](https://sensor.community/de/sensors/airrohr/) eine Anleitung oder kann sich den [NW-Beitrag](https://www.nw.de/lokal/bielefeld/mitte/22873870_Sich-einfach-mal-selbst-einen-Feinstaubsensor-bauen-und-auch-aufhaengen.html) zu unserem Familienworkshop Anfang Oktober letzten Jahres durchlesen.

Die Sensoren übermitteln per WLAN die Messdaten alle 5 Minuten an die Plattform von [sensor.community](https://sensor.community/de/), welche wir im Folgenden nutzen.

Zunächst laden wir notwendige Bibliotheken.

In [None]:
import requests
import pandas as pd

Zum einen haben wir die Möglichkeit, die Daten der letzten 5 Minuten eines beliebigen Sensors per Rest-API abzufragen.

In [None]:
url = "https://data.sensor.community/airrohr/v1/sensor/49366/"
res = requests.get(url)
print(res.text)

Eine zweite Möglichkeit besteht darin, bereits archivierte Daten von dem entsprechenden FTP-Server abzufragen.

In [None]:
df_sensor_49366 = pd.read_csv('https://archive.sensor.community/2021-02-23/2021-02-23_sds011_sensor_49366.csv', sep=';')
df_sensor_49366

Wie zuvor müssen wir für die zukünftige Nutzung den Zeitstempel konvertieren.

In [None]:
df_sensor_49366['timestamp'] = pd.to_datetime(df_sensor_49366['timestamp'], format='%Y-%m-%dT%H:%M:%S')
df_sensor_49366

### Plotly zur Datenvisualisierung

Zur Darstellung der Messdaten verwenden wir die Bibliothek [https://plotly.com/python/](Plotly). Eine Vielzahl von Beispielen wie verschiedene Datentypen zur Anzeige gebracht werden können, sind dort zu finden.

In [None]:
import plotly.express as px

Als ersten Plot stellen wir die Daten der Spalte `P1` zum Zeitstempel dar:

In [None]:
fig = px.line(df_sensor_49366, x='timestamp', y="P1")
fig.show()

An dieser Stelle sei erwähnt, dass die Spalte `P1` für die Feinstaubdaten des Typs `PM10` stehen, und `P2` für die des Typs `PM2.5`. Dementsprechend handelt es sich bei `P2` um die gesundheitlich schädlicheren Daten, da diese Partikel besonders fein sind und in die Lunge eindringen können.

Bilden wir also `P1` und `P2` gemeinsam ab:

In [None]:
fig = px.line(
    df_sensor_49366[['timestamp','P1','P2']], 
    x="timestamp",
    y=df_sensor_49366[['timestamp','P1','P2']].columns,
    title='Feinstaubdaten des Sensors 49366 am 23.02.2021')
fig.show()

Was müssen wir tun, um alle Daten seit dem Beginn von 2021 abzurufen? Nun, wir müssen wir jeden Tag die entsprechende URL generieren, die einzelnen Datensätze herunterladen und zuletzt zusammensetzen. Gehen wir es also an.

Zunächst generieren wir alle Tage seit Jahresbeginn und formatieren diese entsprechend der Ziel-URL.

In [None]:
from datetime import datetime
start = datetime(2021, 1, 1)
end = datetime.today()
list_dates = pd.date_range(start, end).tolist()
list_dates = [x.strftime("%Y-%m-%d") for x in list_dates]
list_dates[:5]

Dann erzeugen wir eine Liste mit allen URLs unter zu Hilfe nahme der obigen Datumsliste:

In [None]:
url_front = 'https://archive.sensor.community/'
url_back = '_sds011_sensor_49366.csv'
list_url = [url_front + x + '/' + x + url_back for x in list_dates]
list_url[:5]

Da Daten erst mit einem Tag Versatz archiviert werden, müssen wir die letzte URL ausschließen, welche auf den heutigen Tag zugreifen würde:

In [None]:
list_url.pop()

Zusätzlich benötigen wir den Namen des Sensortypens, um die Daten aus dem Archiv laden zu können.

In [None]:
# Sensortyp des Sensors 49366 für Download URL holen
df_sensor_type_49366 = df_sensor_49366['sensor_type']
df_sensor_type_49366 = df_sensor_type_49366[0].lower()
df_sensor_type_49366

In [None]:
import json

# Alle Sensordaten im Bereich Bielefeld runterladen
url = 'https://data.sensor.community/airrohr/v1/filter/box=51.9,8.3,52.1,8.7'
res = requests.get(url)
data = json.loads(res.text)

# Daten als pandas DataFrame laden
df_sensor_bielefeld = pd.json_normalize(data)

df_sensor_bielefeld

Obige Schritte fassen wir in einer Funktion zusammen, sodass wir sie einfacher verwenden können:

Methode, um anhand der Daten und der Sensor ID zu checken, ob der Sensor 'indoor' ist. Diese Information wird im Positivfall an die Download URL gehängt. 

In [None]:
def is_indoor(id: int, data: pd.DataFrame):
    indoor = data[data['sensor.id'] == id]['location.indoor'].unique()[0]
    if indoor == 0:
        return False
    else:
        return True

is_indoor(56514, df_sensor_bielefeld)

In [None]:
is_indoor(35381, df_sensor_bielefeld)

In [None]:
def get_sensor_data_download_urls(id: int, dates: [str], sensor_type: str, indoor: bool):
    url_front = 'https://archive.sensor.community/'
    indoor_param = ''
    if indoor:
        indoor_param = '_indoor'
    url_back = '_sensor_' + str(id) + indoor_param + '.csv'
    
    # URL Beginn für alle Daten generieren (ohne Sensortyp und Sensor ID)
    list_url = [url_front + date + '/' + date + '_' + sensor_type + url_back for date in dates]
    list_url.pop()
    return list_url

# Sensortyp vom Sensor 
sensor_id = 49366
list_urls_sensor_49366 = get_sensor_data_download_urls(sensor_id, list_dates, df_sensor_type_49366, is_indoor(sensor_id, df_sensor_bielefeld))
list_urls_sensor_49366[:5]

In [None]:
sensor_id = 56514
list_urls_sensor_56514 = get_sensor_data_download_urls(sensor_id, list_dates, df_sensor_type_49366, is_indoor(sensor_id, df_sensor_bielefeld))
list_urls_sensor_56514[:5]

Im Anschluss verwenden wir eine `for`-Schleife um die Daten einzeln abzurufen und fügen sie im Anschluss zusammen.

ACHTUNG: Durch die Masse an Daten im Archiv dauert der Download eine gewisse Zeit.

In [None]:
list_df_sensor_49366 = list()
for url in list_urls_sensor_49366:
    list_df_sensor_49366.append(pd.read_csv(url, sep=';'))
df_sensor_49366 = pd.concat(list_df_sensor_49366)
df_sensor_49366

Auch diese Prozessschritte fassen wir in einer Funktion zusammen:

In [None]:
def get_sensor_data_by_url(urls: [str]):
    list_df_sensor = list()
    for url in urls:
        try:
            result = pd.read_csv(url, sep=';')
            list_df_sensor.append(result)
        except:
            None
    if len(list_df_sensor) == 0:
        return None
    df = pd.concat(list_df_sensor)
    df['timestamp'] = pd.to_datetime(df['timestamp'], format='%Y-%m-%dT%H:%M:%S')
    return df
    
df_sensor_49366 = get_sensor_data_by_url(list_urls_sensor_49366)
df_sensor_49366

In [None]:
df_sensor_49366['timestamp'] = pd.to_datetime(df_sensor_49366['timestamp'], format='%Y-%m-%dT%H:%M:%S')
fig = px.line(
    df_sensor_49366[['timestamp','P1','P2']], 
    x="timestamp",
    y=df_sensor_49366[['timestamp','P1','P2']].columns,
    #hover_data={"date": "|%B %d, %Y"},
    title='custom tick labels')
fig.show()

Wir holen uns alle Sensor IDs für Bielefeld.

In [None]:
# Alle Sensor IDs für Bielfeld
sensor_ids_bielefeld = df_sensor_bielefeld['sensor.id'].unique()

sensor_ids_bielefeld

Da wir nun wissen, wie die Daten aussehen, können wir uns eine Methode schreiben, um den Namen des Sensortypen eines Sensors holen können.

Übersicht des Dataframes für Bielefeld...

In [None]:
df_sensor_bielefeld

In [None]:
# Sensortyp für Sensor ID holen
def get_sensor_type_name_by_id(id: int, data: pd.DataFrame):
    sensor_type = data[data['sensor.id'] == id]['sensor.sensor_type.name']
    sensor_type = sensor_type.iloc[0].lower()
    return sensor_type

get_sensor_type_name_by_id(23236, df_sensor_bielefeld)

In [None]:
# Filter die Sensordaten nach dem aktuellen Jahr
df_sensor_bielefeld['timestamp'] = pd.to_datetime(df_sensor_bielefeld['timestamp'], format='%Y-%m-%dT%H:%M:%S')
df_sensor_bielefeld_2021 = df_sensor_bielefeld[df_sensor_bielefeld['timestamp'].dt.year == 2021]
df_sensor_bielefeld_2021

In [None]:
# Figur für einen Sensor erstellen

def create_sensor_figure(data: pd.DataFrame, sensor_id: int):
    return px.line(
        data[['P1', 'P2', 'timestamp']], 
        x='timestamp',
        y=data[['P1', 'P2', 'timestamp']].columns,
        title='Luftdaten Bielefeld 2021 - ' + str(sensor_id))

fig = create_sensor_figure(df_sensor_49366, 49366)
fig.show()

In [None]:
df_sensor_bielefeld

In [None]:
list_df_sensor_bielefeld = list()
for sensor in sensor_ids_bielefeld[:5]:
    sensor_type = get_sensor_type_name_by_id(int(sensor), df_sensor_bielefeld)
    download_urls = get_sensor_data_download_urls(sensor, list_dates, sensor_type, is_indoor(sensor, df_sensor_bielefeld))
    sensor_data = get_sensor_data_by_url(download_urls)
    list_df_sensor_bielefeld.append(sensor_data)

df_sensor_bielefeld_2021 = pd.concat(list_df_sensor_bielefeld)
df_sensor_bielefeld_2021  

Entfernen der nicht validen "nan" Werte...

In [None]:
df_sensor_bielefeld_2021 = df_sensor_bielefeld_2021.dropna(subset=['sensor_id', 'timestamp', 'P1', 'P2'])
df_sensor_bielefeld_2021

In [None]:
# Plot mit P1
fig = px.line(df_sensor_bielefeld_2021, x="timestamp", y="P1", color="sensor_id", line_group="sensor_id", hover_name="sensor_id",
        line_shape="spline", render_mode="svg")
fig.show()

In [None]:
# Plot mit P2
fig = px.line(df_sensor_bielefeld_2021, x="timestamp", y="P2", color="sensor_id", line_group="sensor_id", hover_name="sensor_id",
        line_shape="spline", render_mode="svg")
fig.show()

## Analyse der Feinstaubveränderungen in Bielefeld zu Silvester 2019 / 2020

Wir erstellen eine Liste mit den Tagen für Dezember 2019 und Januar 2020.

In [None]:
from datetime import datetime
start = datetime(2019, 12, 1)
end = datetime(2020, 1, 31)
list_dates_silvester_19_20 = pd.date_range(start, end).tolist()
list_dates_silvester_19_20 = [x.strftime("%Y-%m-%d") for x in list_dates_silvester_19_20]
list_dates_silvester_19_20[:5]

Da wir nur die aktuellen Sensor IDs aus den letzten 5 Minuten ziehen können, verändern wir die get_sensor_data_by_url Methode ein wenig...

In [None]:
def get_sensor_data_by_url(urls: [str]):
    list_df_sensor = list()
    try:
        for url in urls:
            result = pd.read_csv(url, sep=';')
            list_df_sensor.append(result)
    except:
        print('Sensor für gegebenen Zeitraum nicht verfügbar:', url)
    if len(list_df_sensor) == 0:
        return None
    df = pd.concat(list_df_sensor)
    df['timestamp'] = pd.to_datetime(df['timestamp'], format='%Y-%m-%dT%H:%M:%S')
    return df

Wir holen uns die Daten für Bielefeld mithilfe dieser Datumsliste

In [None]:
list_df_sensor_bielefeld_silvester_19_20 = list()
for sensor in sensor_ids_bielefeld[10:]:
    try:
        sensor_type = get_sensor_type_name_by_id(int(sensor), df_sensor_bielefeld)
        download_urls = get_sensor_data_download_urls(sensor, list_dates_silvester_19_20, sensor_type, is_indoor(sensor, df_sensor_bielefeld))
        sensor_data = get_sensor_data_by_url(download_urls)
        if sensor_data is not None:
            list_df_sensor_bielefeld_silvester_19_20.append(sensor_data)
    except:
        None
df_sensor_bielefeld_silvester_19_20 = pd.concat(list_df_sensor_bielefeld_silvester_19_20)
df_sensor_bielefeld_silvester_19_20 

In [None]:
# Plot mit P1
fig = px.line(df_sensor_bielefeld_silvester_19_20, x="timestamp", y="P1", color="sensor_id", line_group="sensor_id", hover_name="sensor_id",
        line_shape="spline", render_mode="svg")
fig.show()

In [None]:
# Plot mit P2
fig = px.line(df_sensor_bielefeld_silvester_19_20, x="timestamp", y="P2", color="sensor_id", line_group="sensor_id", hover_name="sensor_id",
        line_shape="spline", render_mode="svg")
fig.show()

## Zeichnen einer interaktiven Karte

TO-DO:

- Normalisiere Zeitstempel auf 5min-Intervalle
- Plotte Karte für je PM10 und PM2.5
- Gib Ausblick über Weiterführung und Einladung zu Code for


In [None]:
df_sensor_bielefeld

In [None]:
df_sensor_bielefeld_2021[['location.latitude', 'location.longitude', 'sensor.sensor_type.id']]

In [None]:
df.head()

In [None]:
df = df_sensor_bielefeld_2021[['location.latitude', 'location.longitude', 'sensor.sensor_type.id']].copy()

In [None]:
df['location.latitude'] = df['location.latitude'].astype(float)
df['location.longitude'] = df['location.longitude'].astype(float)

In [None]:
import plotly.express as px
fig = px.scatter_mapbox(
    df, 
    lat="location.latitude", 
    lon="location.longitude", 
    color="sensor.sensor_type.id", 
    size="sensor.sensor_type.id",
    color_continuous_scale=px.colors.cyclical.IceFire, 
    size_max=15, 
    zoom=10,
    mapbox_style="carto-positron"
    )
fig.show()