# Data Science Projektaufgabe zur Vorlesung „Einführung in Python für Data Scientists“

__Autoren__: Sven Bingert, Philipp Wieder<br>
__Stand__: 04/06/2021; ST 2021<br>
__Version__: v10

Ziel dieser Projektaufgabe ist es, Daten des Citizen-Science-Projekts
[sensor.community](https://sensor.community) im Rahmen einer Teamarbeit auszuwerten. In diesem Projekt werden
u.a. die Feinstaubwerte PM2.5 und PM10 mittels preiswerter Selbstbausensoren erfasst,
die von Bürger*innen betrieben werden. Aktuell sind es weit über 14.000 Sensoren weltweit und
fast 12 Billionen Messungen.

In Deutschland gelten aktuell die folgenden Feinstaub-Jahresgrenzwerte von
25 μg/m<sup>3</sup> (PM2.5) und 40 μg/m<sup>3</sup> (PM10).

Die GWDG speichert die Messwerte dieser Sensoren in einer Zeitseriendatenbank (InfluxDB)
und stellt diese über eine REST-Schnittstelle bereit.

In der Projektaufgabe soll ein Python-Package erstellt werden, das eine einfache Analyse
und Darstellung von Feinstaubmesswerten ermöglicht. Die Aufgabenstellung umfasst
die Programmierung des Packages inklusive der Dokumentation zur Verwendung
(deutsch oder englisch sind möglich).

### Teamarbeit
#### Vorbereitung
Vor Beginn der Teamarbeit werden Sie in Gruppen eingeteilt.
Erstellen Sie für ihre Gruppe auf GWDG
Gitlab (gitlab.gwdg.de) ein privates Git Repository.
Stellen sie sicher das neben den Gruppenmitgliedern auch
Philipp Wieder (@pwieder), Sven Bingert (@sbinger1) und Alireaz Zarei
 (@azarei) Zugriff haben. In diesem Git Repository
verwalten sie sowohl den Quelltext des Packages als auch
eine Beispielanwendung. Weitere Informationen zur Verwendung von Gitlab
finden Sie [hier](https://info.gwdg.de/docs/doku.php?id=de%3Aservices%3Aemail_collaboration%3Agitlab%3Astart).

#### Anforderungen an das Python Package
Das Python-Package soll folgenden Punkte erfüllen:
1. Verbindungsaufbau zur REST-API (siehe Hilfestellung 1 im Anhang).
2. Abruf von PM2.5 und PM10 Messwerten für einen benutzerdefinierten Zeitraum und
benutzerdefinierten Koordinaten (Längengrad, Breitengrad).
3. Messwerte und Metadaten werden in einem Pandas Dataframe abgelegt.
Darauf basierend werden verschiedene (mind. 2) Algorithmen für die Filterung von Ausreißern
bereitgestellt (z.B. Fester Grenzwert, Angabe der Quantilen oder Z-Score).
Die Angabe des Filters ist ein Parameter beim Aufruf des Packages.
5. Es werden statistische Werte zu den Daten nach der Filterung ausgegeben:
   1. Maximale Feinstaubbelastung über den gesamten Wertebereich (wann und wo).
   2. Mittlere Feinstaubbelastung über die Zeit für den gewählten Bereich.
Für die Erstellung der Plots wird das Python-Package ```matplotlib``` verwendet.
6. Es werden Zeitverläufe der Feinstaubbelastung für die Sensoren mit der höchsten
und der niedrigsten mittleren Belastung dargestellt (ebenfalls mit Hilfe von
```matplotlib```).
7. Es ist die Korrelation zwischen PM2.5 und PM10 zu bestimmen. Mit der Python-
Bibliothek ```numpy``` kann dazu die Korrelationsmatrix der Zeitserien erstellt
werden. Für die Darstellung kann die Bibliothek ```seaborn``` verwendet werden.
8. (OPTIONAL) Durch Angabe eines zweiten Zeitraums stellt das Python-Package die
über den Bereich gemittelten zeitlichen Verläufe als Grafik dar und berechnet den
Korrelationskoeffizient der beiden Zeiträume für jeweils PM2.5 und PM10.
9. Durch Angabe eines Parameters *map* erstellt das Paket eine interaktive Karte für
den gegebenen Zeitraum mit Geo-Koordinaten und speichert diese
als ```index.html``` ab (z.B. mit der Python Bibliothek ```folium```).

### Termine
Der grobe Projektplan sieht folgendermaßen aus:
- 15/06/2021: Vorstellung der Aufgabe und Teams
- 22/06/2021: Offene Sprechstunde (10:15 - 12:00)
- 29/06/2021: Offene Sprechstunde (10:15 - 12:00)
- 30/06/2021: Offene Sprechstunde (10:15 - 12:00)
- 06/07/2021: Offene Sprechstunde (10:15 - 12:00)
- 07/07/2021: Offene Sprechstunde (10:15 - 12:00)
- 12/07/2021: Einreichung der Lösung (bis 23:59 Uhr Gitlab Repository in den StudIP Ordner
„Hausarbeiten“ hochladen)
- 13/07/2021: Vorstellung der Lösungen der einzelnen Teams
- 14/07/2021: Vorstellung der Lösungen der einzelnen Teams<br>

Danach wird die Bewertung schnellstmöglich durchgeführt.

### Anmeldung und Gruppengröße
Die Aufgabe soll in 2er oder 3er Gruppen bearbeitet werden.
Sie können sich sowohl alleine als auch als Gruppe anmelden.
Sollte es Einzelanmeldungen geben,
bekommen diese Personen eine Gruppe zugewiesen. Dies kann auch bedeuten, dass aus
einer 2er Gruppe zu einer 3er Gruppe wird. Bei der Anmeldung wird auch geprüft,
ob die Voraussetzungen bezüglich der Übungsleistungen gegeben sind.

Bitte die Anmeldungen der Gruppen an philipp.wieder@gwdg.de.
Fragen gerne auch an alireza.zarei@gwdg.de und sven.bingert@gwdg.de, über StudIP oder
https://chat.gwdg.de/channel/epds-st-2021/.

### Teams 2021
- ARIIA
- AVA
- Deep Thought
- HAL
- Jarvis
- WOPR

Die jeweiligen Mitglieder der Teams werden per Mail benachrichtigt.

### Links zur REST-API
- http://sensordata.gwdg.de
- https://documenter.getpostman.com/view/9745663/SWLmWPKX?version=latest

### Hilfestellung
__Hinweis__: Bei der Verwendung der API ist P1 gleichbedeutend mit PM10 und P2 mit PM2.5.

In [1]:
# Rest Call to Luftdaten API
# https://documenter.getpostman.com/view/9745663/SWLmWPKX?version=latest#db5fdd76-e1c5-4ae1- 85d6-148666c7867e
# The API currently has a time limit of max 24hours time range per request.

# Imports
import requests
from datetime import datetime, timedelta

# Basic parameters
base_url='http://sensordata.gwdg.de/api/' # Select Endpoint (P1 or P2)
endpoint_url='measurements/P1'

# Select geo-coordinates (values are just examples ..)
latrange=[51,52]
longrange=[9,10]

# Select time range (values are just examples ..)
start_date = datetime(2018, 12, 30)
end_date = (start_date + timedelta(hours=1))

# Build the query
mydata = '{"timeStart": "'+start_date.strftime("%Y-%m-%dT%H:%M:%SZ")+'",' + \
         '"timeEnd": "'+end_date.strftime("%Y-%m-%dT%H:%M:%SZ")+'", "area":  \
         {"coordinates":['+str(latrange)+','+str(longrange)+']}}'

# Run the query
print(mydata)
response = requests.post(base_url + endpoint_url,data=mydata)

# Print results
response.text

{"timeStart": "2018-12-30T00:00:00Z","timeEnd": "2018-12-30T01:00:00Z", "area":           {"coordinates":[[51, 52],[9, 10]]}}


'[["time","lat","lon","P1","sensor_id"],"sensor",[["2018-12-30T00:00:01Z",51.978,9.286,null,"2903"],["2018-12-30T00:00:01Z",51.54600000000001,9.935,null,"5701"],["2018-12-30T00:00:06Z",51.27,9.433,7.07,"16662"],["2018-12-30T00:00:06Z",51.45,9.253,null,"10905"],["2018-12-30T00:00:07Z",51.27,9.433,null,"16663"],["2018-12-30T00:00:08Z",51.27,9.433,null,"16664"],["2018-12-30T00:00:20Z",51.551,9.874,5.63,"13795"],["2018-12-30T00:00:21Z",51.551,9.874,null,"13796"],["2018-12-30T00:00:25Z",51.871,9.687000000000001,2.8,"4957"],["2018-12-30T00:00:28Z",51.476000000000006,9.621,6.58,"4412"],["2018-12-30T00:00:28Z",51.476000000000006,9.621,null,"4413"],["2018-12-30T00:00:31Z",51.273,9.543,2.9,"16352"],["2018-12-30T00:00:32Z",51.273,9.543,null,"16353"],["2018-12-30T00:00:36Z",51.29,9.641,null,"4974"],["2018-12-30T00:00:40Z",51.22,9.745,5.1,"16177"],["2018-12-30T00:00:40Z",51.22,9.745,null,"16178"],["2018-12-30T00:00:42Z",51.371,9.511000000000001,6.1,"1112"],["2018-12-30T00:00:43Z",51.593,9.929,0.8,"