# Open Data, und dann? 
## Einführung in die Visualisierung von offenen Daten

In unserem Projekt sensor.community messen Menschen auf der ganzen Welt mit selbst gebauten Sensoren die Luftqualität in ihrem Garten, vor ihrer Haustür, auf ihrem Balkon. In diesem interaktiven Workshop zeigen wir euch, wie die gemessenen Daten aussehen und wie ihr daraus erste Visualisierungen erstellt.

Wir benutzen dafür Jupyter-Notebooks, Datensätze des Open Data Portals der Stadt Bielefeld und die Feinstaubdaten von sensor.community.

Für den Workshop ist kein besonderes Vorwissen nötig, lediglich eine stabile Internetverbindung und das Interesse, ein wenig Programmiercode näher gebracht zu bekommen. Der Workshop ist also auch offen für alle Open-Data-Neulinge. 

***

Agenda:

1. Sehr kurze Einführung in Python
2. Visualisierung eines Datensatzes des Open Data-Portals der Stadt Bielefeld
3. Zugriff auf Daten der Feinstaubsensoren in Bielefeld
4. Statistische Auswertungen der Feinstaubdaten
5. Zeichnen einer interaktiven Karte

## Sehr kurze Einführung in Python

In [10]:
for i in [0,1,2,3]:
    print(i)

0
1
2
3


In [2]:
import pandas as pd

## Visualisierung eines Datensatzes des Open Data-Portals der Stadt Bielefeld

In [4]:
url_bundestagswahl2017 = 'https://open-data.bielefeld.de/sites/default/files/BTW 2017_1.csv'
df_btw = pd.read_csv(filepath_or_buffer=url_bundestagswahl2017)

InvalidURL: URL can't contain control characters. '/sites/default/files/BTW 2017_1.csv' (found at least ' ')

In [5]:
url_bundestagswahl2017 = 'https://open-data.bielefeld.de/sites/default/files/BTW%202017_1.csv'
df_btw = pd.read_csv(filepath_or_buffer=url_bundestagswahl2017)

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xfc in position 51: invalid start byte

In [6]:
url_bundestagswahl2017 = 'https://open-data.bielefeld.de/sites/default/files/BTW%202017_1.csv'
df_btw = pd.read_csv(filepath_or_buffer=url_bundestagswahl2017, encoding='ANSI')

ParserError: Error tokenizing data. C error: Expected 25 fields in line 4, saw 27


In [7]:
url_bundestagswahl2017 = 'https://open-data.bielefeld.de/sites/default/files/BTW%202017_1.csv'
df_btw = pd.read_csv(filepath_or_buffer=url_bundestagswahl2017, sep=';', encoding='ANSI')
df_btw.head()

Unnamed: 0,Nr,Name,Wahlberechtigte,abgegeben,Wahlbeteiligung,gültig Erststimme,ungültig Erststimme,gültig Zweitstimme,ungültig Zweitstimme,CDU,...,Z_Gesundheitsforschung,Z_Gesundheitsforschung_Proz,Tierschutzpartei,Tierschutzpartei_Proz,Z_Tierschutzpartei,Z_Tierschutzpartei_Proz,V-Partei³,V-Partei³_Proz,Z_V-Partei³,Z_V-Partei³_Proz
0,1.1,Stimmbezirk 001.1,1231,604,4907,599,5,600,4,132,...,0,0,0,0,2,33,0,0,3,5
1,1.2,Stimmbezirk 001.2,1394,701,5029,699,2,700,1,226,...,0,0,0,0,6,86,0,0,3,43
2,1.3,Stimmbezirk 001.3,1440,626,4347,614,12,620,6,116,...,0,0,0,0,8,129,0,0,1,16
3,1.4,Stimmbezirk 001.4,1185,546,4608,536,10,540,6,83,...,0,0,0,0,6,111,0,0,3,56
4,1.5,Stimmbezirk 001.5,1513,693,458,687,6,689,4,125,...,1,15,0,0,5,73,0,0,3,44


In [56]:
df_btw['Nr'].unique()

array([ 1.1,  1.2,  1.3,  1.4,  1.5,  1.6,  2.1,  2.2,  2.3,  2.4,  2.5,
        2.6,  3.1,  3.2,  3.3,  3.4,  3.5,  4.1,  4.2,  4.3,  4.4,  4.5,
        5.1,  5.2,  5.3,  5.4,  5.5,  6.1,  6.2,  6.3,  6.4,  7.1,  7.2,
        7.3,  7.4,  7.5,  8.1,  8.2,  8.3,  8.4,  8.5,  9.1,  9.2,  9.3,
        9.4,  9.5, 10.1, 10.2, 10.3, 10.4, 10.5, 11.1, 11.2, 11.3, 11.4,
       11.5, 11.6, 12.1, 12.2, 12.3, 12.4, 12.5, 13.1, 13.2, 13.3, 13.4,
       13.5, 13.6, 13.7, 14.1, 14.2, 14.3, 14.4, 14.5, 15.1, 15.2, 15.3,
       15.4, 15.5, 15.6, 16.1, 16.2, 16.3, 16.4, 16.5, 16.6, 17.1, 17.2,
       17.3, 17.4, 17.5, 18.1, 18.2, 18.3, 18.4, 18.5, 18.6, 19.1, 19.2,
       19.3, 19.4, 19.5, 19.6, 19.7, 20.1, 20.2, 20.3, 20.4, 20.5, 20.6,
       21.1, 21.2, 21.3, 21.4, 21.5, 21.6, 22.1, 22.2, 22.3, 22.4, 22.5,
       23.1, 23.2, 23.3, 23.4, 23.5, 23.6, 24.1, 24.2, 24.3, 24.4, 24.5,
       25.1, 25.2, 25.3, 25.4, 25.5, 26.1, 26.2, 26.3, 26.4, 26.5, 27.1,
       27.2, 27.3, 27.4, 27.5, 27.6, 28.1, 28.2, 28

In [59]:
df_btw[df_btw['Nr']==1.1].stack().reset_index()


Unnamed: 0,level_0,level_1,0
0,0,Nr,1.1
1,0,Name,Stimmbezirk 001.1
2,0,Wahlberechtigte,1231
3,0,abgegeben,604
4,0,Wahlbeteiligung,4907
...,...,...,...
96,0,Z_Tierschutzpartei_Proz,033
97,0,V-Partei³,0
98,0,V-Partei³_Proz,0
99,0,Z_V-Partei³,3


In [51]:
list(df_btw.keys())

['Nr',
 'Name',
 'Wahlberechtigte',
 'abgegeben',
 'Wahlbeteiligung',
 'gültig Erststimme',
 'ungültig Erststimme',
 'gültig Zweitstimme',
 'ungültig Zweitstimme',
 'CDU',
 'CDU_Proz',
 'Z_CDU',
 'Z_CDU_Proz',
 'SPD',
 'SPD_Proz',
 'Z_SPD',
 'Z_SPD_Proz',
 'GRÜNE',
 'GRÜNE_Proz',
 'Z_GRÜNE',
 'Z_GRÜNE_Proz',
 'DIE LINKE',
 'DIE LINKE_Proz',
 'Z_DIE LINKE',
 'Z_DIE LINKE_Proz',
 'FDP',
 'FDP_Proz',
 'Z_FDP',
 'Z_FDP_Proz',
 'AfD',
 'AfD_Proz',
 'Z_AfD',
 'Z_AfD_Proz',
 'PIRATEN',
 'PIRATEN_Proz',
 'Z_PIRATEN',
 'Z_PIRATEN_Proz',
 'NPD',
 'NPD_Proz',
 'Z_NPD',
 'Z_NPD_Proz',
 'Die PARTEI',
 'Die PARTEI_Proz',
 'Z_Die PARTEI',
 'Z_Die PARTEI_Proz',
 'FREIE WÄHLER',
 'FREIE WÄHLER_Proz',
 'Z_FREIE WÄHLER',
 'Z_FREIE WÄHLER_Proz',
 'Volksabstimmung',
 'Volksabstimmung_Proz',
 'Z_Volksabstimmung',
 'Z_Volksabstimmung_Proz',
 'ÖDP',
 'ÖDP_Proz',
 'Z_ÖDP',
 'Z_ÖDP_Proz',
 'MLPD',
 'MLPD_Proz',
 'Z_MLPD',
 'Z_MLPD_Proz',
 'SGP',
 'SGP_Proz',
 'Z_SGP',
 'Z_SGP_Proz',
 'Allianz Deutscher Demokrat

In [None]:
fig__btw_0011 = px.pie(df_alter[df_alter['Name']=='Stimmbezirk 001.1'], values='', y='gesamt')
fig__alter_mitte.show()

In [18]:
url_alter = 'https://open-data.bielefeld.de/sites/default/files/altersstruktur_halbjaehrlich2013bisEnde2020.csv'
df_alter = pd.read_csv(filepath_or_buffer=url_alter, sep=';', encoding='ANSI')
df_alter.head()

Unnamed: 0,jahr,stichtag,gebiet,Einwohnerzahl_am_Ort_der_Hauptwohnung,Einwohnerzahl_Altersgruppe_0bis_unter1Jahr,Einwohnerzahl_Altersgruppe_1bis_unter3Jahre,Einwohnerzahl_Altersgruppe_3bis_unter5Jahre,Einwohnerzahl_Altersgruppe_5bis_unter6Jahre,Einwohnerzahl_Altersgruppe_6bis_unter10Jahre,Einwohnerzahl_Altersgruppe_10bis_unter14Jahre,...,Einwohnerzahl_Altersgruppe_21bis_unter25Jahre,Einwohnerzahl_Altersgruppe_25bis_unter30Jahre,Einwohnerzahl_Altersgruppe_30bis_unter40Jahre,Einwohnerzahl_Altersgruppe_40bis_unter45Jahre,Einwohnerzahl_Altersgruppe_45bis_unter60Jahre,Einwohnerzahl_Altersgruppe_60bis_unter65Jahre,Einwohnerzahl_Altersgruppe_65bis_unter70Jahre,Einwohnerzahl_Altersgruppe_70bis_unter75Jahre,Einwohnerzahl_Altersgruppe_75_Jahre_u_aelter,Durchschnittsalter_in_Jahren
0,2020,20201231,Stadtbezirk Mitte,80613,788,1511,1326,664,2398,2441,...,6304,8860,13722,4996,15542,4271,3505,2748,6536,408
1,2020,20201231,Stadtbezirk Schildesche,42322,385,745,786,367,1443,1331,...,3143,3768,5718,2381,8408,2392,2119,1683,4833,43
2,2020,20201231,Stadtbezirk Gadderbaum,10300,80,156,159,60,307,374,...,543,669,1324,608,2465,696,598,381,1171,449
3,2020,20201231,Stadtbezirk Brackwede,40621,435,874,854,373,1510,1508,...,1938,2533,5453,2554,8618,2574,2053,1760,4709,436
4,2020,20201231,Stadtbezirk Dornberg,19588,139,353,392,193,676,707,...,1065,1186,2364,1158,4148,1367,1119,984,2430,45


In [22]:
list_alter_spaltennamen = list(df_alter.keys())
list_alter_spaltennamen

['jahr',
 'stichtag',
 'gebiet',
 'Einwohnerzahl_am_Ort_der_Hauptwohnung',
 'Einwohnerzahl_Altersgruppe_0bis_unter1Jahr',
 'Einwohnerzahl_Altersgruppe_1bis_unter3Jahre',
 'Einwohnerzahl_Altersgruppe_3bis_unter5Jahre',
 'Einwohnerzahl_Altersgruppe_5bis_unter6Jahre',
 'Einwohnerzahl_Altersgruppe_6bis_unter10Jahre',
 'Einwohnerzahl_Altersgruppe_10bis_unter14Jahre',
 'Einwohnerzahl_Altersgruppe_14bis_unter15Jahre',
 'Einwohnerzahl_Altersgruppe_15bis_unter18Jahre',
 'Einwohnerzahl_Altersgruppe_18bis_unter21Jahre',
 'Einwohnerzahl_Altersgruppe_21bis_unter25Jahre',
 'Einwohnerzahl_Altersgruppe_25bis_unter30Jahre',
 'Einwohnerzahl_Altersgruppe_30bis_unter40Jahre',
 'Einwohnerzahl_Altersgruppe_40bis_unter45Jahre',
 'Einwohnerzahl_Altersgruppe_45bis_unter60Jahre',
 'Einwohnerzahl_Altersgruppe_60bis_unter65Jahre',
 'Einwohnerzahl_Altersgruppe_65bis_unter70Jahre',
 'Einwohnerzahl_Altersgruppe_70bis_unter75Jahre',
 'Einwohnerzahl_Altersgruppe_75_Jahre_u_aelter',
 'Durchschnittsalter_in_Jahren']

In [48]:
list_alter_neueSpaltennamen = ['jahr', 'stichtag', 'gebiet', 'gesamt', '0_1', '1_3', '3_5', '5_6', '6_10', '10_14', '14_15', '15_18', '18_21', '21_25', '25_30', '30_40', '40_45', '45_60', '60_65', '65_70', '70_75', '75_', 'durchschnittsalter']
df_alter.columns = list_alter_neueSpaltennamen

In [28]:
df_alter.head()

Unnamed: 0,jahr,stichtag,gebiet,gesamt,0_1,1_3,3_5,5_6,6_10,10_14,...,21_25,25_30,30_40,40_45,45_60,60_65,65_70,70_75,75_,durchschnittsalter
0,2020,20201231,Stadtbezirk Mitte,80613,788,1511,1326,664,2398,2441,...,6304,8860,13722,4996,15542,4271,3505,2748,6536,408
1,2020,20201231,Stadtbezirk Schildesche,42322,385,745,786,367,1443,1331,...,3143,3768,5718,2381,8408,2392,2119,1683,4833,43
2,2020,20201231,Stadtbezirk Gadderbaum,10300,80,156,159,60,307,374,...,543,669,1324,608,2465,696,598,381,1171,449
3,2020,20201231,Stadtbezirk Brackwede,40621,435,874,854,373,1510,1508,...,1938,2533,5453,2554,8618,2574,2053,1760,4709,436
4,2020,20201231,Stadtbezirk Dornberg,19588,139,353,392,193,676,707,...,1065,1186,2364,1158,4148,1367,1119,984,2430,45


In [32]:
df_alter['stichtag'] = pd.to_datetime(df_alter['stichtag'], format='%Y%m%d')

In [33]:
import plotly.express as px
fig__alter_mitte = px.bar(df_alter[df_alter['gebiet']=='Stadtbezirk Mitte'], x='stichtag', y='gesamt')
fig__alter_mitte.show()

In [34]:
fig__alter = px.bar(df_alter, x='stichtag', y='gesamt', color='gebiet')
fig__alter.show()

In [46]:
df_alter['gebiet'].unique()

array(['Stadtbezirk Mitte', 'Stadtbezirk Schildesche',
       'Stadtbezirk Gadderbaum', 'Stadtbezirk Brackwede',
       'Stadtbezirk Dornberg', 'Stadtbezirk Jöllenbeck',
       'Stadtbezirk Heepen', 'Stadtbezirk Stieghorst',
       'Stadtbezirk Sennestadt', 'Stadtbezirk Senne',
       'Bielefeld insgesamt'], dtype=object)

In [47]:
df_alter = df_alter[df_alter['gebiet']!='Bielefeld insgesamt']
fig__alter_2 = px.bar(df_alter, x='stichtag', y='gesamt', color='gebiet')
fig__alter_2.show()

## Zugriff auf Daten der Feinstaubsensoren in Bielefeld

In [4]:
import requests
import pandas as pd

<font color=red>API funktioniert aktuell nicht!!</font>

In [60]:
url = "https://data.sensor.community/airrohr/v1/sensor/11608/"
res = requests.post(url)

print(res.text)

[]


In [63]:
df_sensor_49366 = pd.read_csv('https://archive.sensor.community/2021-02-23/2021-02-23_sds011_sensor_49366.csv', sep=';')

In [64]:
df_sensor_49366

Unnamed: 0,sensor_id,sensor_type,location,lat,lon,timestamp,P1,durP1,ratioP1,P2,durP2,ratioP2
0,49366,SDS011,35245,52.026,8.54,2021-02-23T00:01:23,23.35,,,6.40,,
1,49366,SDS011,35245,52.026,8.54,2021-02-23T00:03:49,16.98,,,6.70,,
2,49366,SDS011,35245,52.026,8.54,2021-02-23T00:06:18,19.92,,,5.82,,
3,49366,SDS011,35245,52.026,8.54,2021-02-23T00:08:46,24.33,,,6.93,,
4,49366,SDS011,35245,52.026,8.54,2021-02-23T00:11:15,21.55,,,6.75,,
...,...,...,...,...,...,...,...,...,...,...,...,...
555,49366,SDS011,35245,52.026,8.54,2021-02-23T23:12:21,23.15,,,5.45,,
556,49366,SDS011,35245,52.026,8.54,2021-02-23T23:14:47,20.10,,,5.90,,
557,49366,SDS011,35245,52.026,8.54,2021-02-23T23:35:39,17.85,,,6.20,,
558,49366,SDS011,35245,52.026,8.54,2021-02-23T23:38:07,19.33,,,5.72,,


In [65]:
df_sensor_49366['timestamp'] = pd.to_datetime(df_sensor_49366['timestamp'], format='%Y-%m-%dT%H:%M:%S')
df_sensor_49366

Unnamed: 0,sensor_id,sensor_type,location,lat,lon,timestamp,P1,durP1,ratioP1,P2,durP2,ratioP2
0,49366,SDS011,35245,52.026,8.54,2021-02-23 00:01:23,23.35,,,6.40,,
1,49366,SDS011,35245,52.026,8.54,2021-02-23 00:03:49,16.98,,,6.70,,
2,49366,SDS011,35245,52.026,8.54,2021-02-23 00:06:18,19.92,,,5.82,,
3,49366,SDS011,35245,52.026,8.54,2021-02-23 00:08:46,24.33,,,6.93,,
4,49366,SDS011,35245,52.026,8.54,2021-02-23 00:11:15,21.55,,,6.75,,
...,...,...,...,...,...,...,...,...,...,...,...,...
555,49366,SDS011,35245,52.026,8.54,2021-02-23 23:12:21,23.15,,,5.45,,
556,49366,SDS011,35245,52.026,8.54,2021-02-23 23:14:47,20.10,,,5.90,,
557,49366,SDS011,35245,52.026,8.54,2021-02-23 23:35:39,17.85,,,6.20,,
558,49366,SDS011,35245,52.026,8.54,2021-02-23 23:38:07,19.33,,,5.72,,


In [66]:
fig = px.line(df_sensor_49366, x='timestamp', y="P1")
fig.show()

In [69]:
df_sensor_49366[['timestamp','P1','P2']]

Unnamed: 0,timestamp,P1,P2
0,2021-02-23 00:01:23,23.35,6.40
1,2021-02-23 00:03:49,16.98,6.70
2,2021-02-23 00:06:18,19.92,5.82
3,2021-02-23 00:08:46,24.33,6.93
4,2021-02-23 00:11:15,21.55,6.75
...,...,...,...
555,2021-02-23 23:12:21,23.15,5.45
556,2021-02-23 23:14:47,20.10,5.90
557,2021-02-23 23:35:39,17.85,6.20
558,2021-02-23 23:38:07,19.33,5.72


In [73]:
fig = px.line(
    df_sensor_49366[['timestamp','P1','P2']], 
    x="timestamp",
    y=df_sensor_49366[['timestamp','P1','P2']].columns,
    #hover_data={"date": "|%B %d, %Y"},
    title='custom tick labels')
fig.show()

In [83]:
from datetime import datetime
start = datetime(2021, 1, 1)
end = datetime.today()
list_dates = pd.date_range(start, end).tolist()

In [90]:
list_dates[:5]

[Timestamp('2021-01-01 00:00:00', freq='D'),
 Timestamp('2021-01-02 00:00:00', freq='D'),
 Timestamp('2021-01-03 00:00:00', freq='D'),
 Timestamp('2021-01-04 00:00:00', freq='D'),
 Timestamp('2021-01-05 00:00:00', freq='D')]

In [91]:
list_dates = [x.strftime("%Y-%m-%d") for x in list_dates]

In [93]:
list_dates[:5]

['2021-01-01', '2021-01-02', '2021-01-03', '2021-01-04', '2021-01-05']

In [94]:
url_front = 'https://archive.sensor.community/'
url_back = '_sds011_sensor_49366.csv'
list_url = [url_front + x + '/' + x + url_back for x in list_dates]

In [95]:
list_url[:5]

['https://archive.sensor.community/2021-01-01/2021-01-01_sds011_sensor_49366.csv',
 'https://archive.sensor.community/2021-01-02/2021-01-02_sds011_sensor_49366.csv',
 'https://archive.sensor.community/2021-01-03/2021-01-03_sds011_sensor_49366.csv',
 'https://archive.sensor.community/2021-01-04/2021-01-04_sds011_sensor_49366.csv',
 'https://archive.sensor.community/2021-01-05/2021-01-05_sds011_sensor_49366.csv']

In [98]:
list_url.pop()

'https://archive.sensor.community/2021-02-25/2021-02-25_sds011_sensor_49366.csv'

In [99]:
list_df_sensor_49366 = list()
for url in list_url:
    list_df_sensor_49366.append(pd.read_csv(url, sep=';'))

In [100]:
df_sensor_49366 = pd.concat(list_df_sensor_49366)

In [101]:
df_sensor_49366['timestamp'] = pd.to_datetime(df_sensor_49366['timestamp'], format='%Y-%m-%dT%H:%M:%S')
fig = px.line(
    df_sensor_49366[['timestamp','P1','P2']], 
    x="timestamp",
    y=df_sensor_49366[['timestamp','P1','P2']].columns,
    #hover_data={"date": "|%B %d, %Y"},
    title='custom tick labels')
fig.show()

- Verwende `https://data.sensor.community/airrohr/v1/filter/box=51.9,8.3,52.1,8.7` um alle Sensoren in einem Quadrat um Bielefeld herum abzufragen
- Ziehe alle Daten obiger Sensoren seit Januar 2021
- Großer Plot mit je einem Histogram pro Sensor

## Statistische Auswertungen der Feinstaubdaten

Nur optional

## Zeichnen einer interaktiven Karte

- Plotte Standorte der Sensoren auf einer Karte
