# Sammeln von Luftqualitätsdaten mit Python

## Luftschadstoffe, die vom bayrischen Landesamt für Umwelt überwacht werden

### Primäre Luftschadstoffe

werden direkt von Erzeugern (z.B. Autos) ausgestoßen

**CO**: Benzin + O2 ->  CO + H2O (bei Unvollständiger Verbrennung von Treibstoffen) oder CO2 + H2O (bei vollständiger Verbrennung)
Katalysatoren wandeln CO zu CO2

**NO**: NO2 + O2 + Hitze -> 2NO

**SO2**: S + O2 -> SO2 (wird vor allem von Fabriken ausgestoßen, entsteht bei der Verbrennung von Öl oder Kohle)

### Sekundäre Luftschadstoffe

**Ozon**: hilfreich in der Stratosphäre (absorbiert UV Strahlung), aber ein Luftschadstoff in der Troposphere

NO2 + O2 + Hitze -> 2NO (im Motor)

2NO + O2 -> 2NO2 (sekundärer Luftschadstoff)

NO2 + Sonnenlicht -> NO + O (daher vor allem im Sommer (nachtmittags) ein Problem)

O + O2 -> O3

O3 + Kohlenwasserstoffe (CH4, unverbranntes Benzin, Lösungsmittel) -> SMOG

**NO2**: Reizgas mit stechend-stickigem Geruch

### Primär und Sekundär 

**Feinstaub**: (je nach Größe PM10 (< 10um), PM2.5 (< 2.5 um) oder UFP (< 1um)): in Städten hauptsächlich durch Straßenverkehr verursacht, wird direkt von Motoren ausgestoßen, entsteht aber auch durch Abrieb der Reifen beim Bremsen etc. und durch chemische Reaktionen von Vorläufergasen (NOx, SO2, NH3, VOCs). Um so kleiner die Partikel um so gefährlicher für die Gesundheit. 

## Bedenkliche Schadstoffkonzentrationen

Bewertung der Luftqualität:

http://www.lfu.bayern.de/luft/immissionsmessungen/messwerte/legende/index.htm

Gesetzliche Grenzwerte:

http://www.lfu.bayern.de/luft/immissionsmessungen/ueberschreitungen_pm10_so2_no2/index.htm

## Auswirkungen auf die Gesundheit 

* Atemwegsbeschwerden
* (chronischer) Husten
* Bronchitis
* Asthma
* erhöhte Empfindlichkeit gegenüber Atemwegsinfektionen
* Herz-Kreislauf-Probleme
* Beeinträchtigung der Lungenfunktion (vor allem bei Kindern)
* erhöhtes Lungenkrebsrisiko
* Verkürzung der Lebenserwartung
* Auswirkungen auf die Konzentration/ Lernen bei Kindern (Feinstaub)
* erhöht möglicherweise das Risiko verschiedener anderer chronischer Erkrankungen (Alzheimer, Diabetes) (Feinstaub)

## Automatisches Sammeln von Luftschadstoffinformationen von der Website des bayerischen Landesamts für Umwelt

Je nachdem welche Informationen man sucht, kann man diese direkt als Datei herunterladen oder muss sie von der Website scrapen.

### Herunterladen von Daten aus Dateien

Daten direkt aus veröffentlichter CSV-Datei holen und verarbeiten.

z.B. Feinstaub Stundenmittelwerte von hier: http://www.lfu.bayern.de/luft/immissionsmessungen/messwerte/index.htm

In [37]:
import urllib2
import csv
url = "http://www.lfu.bayern.de/luft/immissionsmessungen/data/csv/csv_1404_132G.csv"
response = urllib2.urlopen(url)
data = []
for row in csv.reader(response,delimiter = ";"):
    data.append(row)

Liste von Datenpunkten

In [38]:
data

[['14.01.2017', '01:00', '12'],
 ['14.01.2017', '02:00', '12'],
 ['14.01.2017', '03:00', '7'],
 ['14.01.2017', '04:00', '5'],
 ['14.01.2017', '05:00', '3'],
 ['14.01.2017', '06:00', '2'],
 ['14.01.2017', '07:00', '11'],
 ['14.01.2017', '08:00', '16'],
 ['14.01.2017', '09:00', '16'],
 ['14.01.2017', '10:00', '17'],
 ['14.01.2017', '11:00', '17'],
 ['14.01.2017', '12:00', '31'],
 ['14.01.2017', '13:00', '20'],
 ['14.01.2017', '14:00', '17'],
 ['14.01.2017', '15:00', '20'],
 ['14.01.2017', '16:00', '24'],
 ['14.01.2017', '17:00', '32'],
 ['14.01.2017', '18:00', '22'],
 ['14.01.2017', '19:00', '32'],
 ['14.01.2017', '20:00', '32'],
 ['14.01.2017', '21:00', '28'],
 ['14.01.2017', '22:00', '20'],
 ['14.01.2017', '23:00', '16'],
 ['15.01.2017', '00:00', '14'],
 ['15.01.2017', '01:00', '13'],
 ['15.01.2017', '02:00', '14'],
 ['15.01.2017', '03:00', '12'],
 ['15.01.2017', '04:00', '8'],
 ['15.01.2017', '05:00', '7'],
 ['15.01.2017', '06:00', '6'],
 ['15.01.2017', '07:00', '8'],
 ['15.01.2017', 

Letzter Messwert

In [7]:
data[-1]

['19.01.2017', '13:00', '53']

(Auf dieser Basis läuft das CfM Projekt "Feinstaubbot": https://github.com/codeformunich/feinstaubbot)

## *Scrapen* von Informationen, die nicht als Datei herunterladbar sind

Jetzt wollen wir Werte, die wir auf einer HTML Seite sehen, sammeln. Dazu gäbe es zwei Optionen:

* Die Seite rendern und dann den Text verarbeiten
* Die Struktur dahinter (HTML Quellcode) verwenden um die richtigen Informationen zu extrahieren

Für die zweite Option gibt es verschiedene Hilfsmittel. Hier verwenden wir Python mit dem lxml Package. Über dieses Package bekommen wir einen HTML *Parser*

In [39]:
from lxml import etree

In [40]:
parser = etree.HTMLParser(encoding='utf-8')
lueb_url = "http://inters.bayern.de/luebmw/html/aktmesswerte_lueb.php"
data = etree.parse(lueb_url, parser)

Jetzt steht uns der Inhalt der Seite zur Verfügung. Trotzdem brauchen wir eine Methode, die richtigen Teile auszuwählen. Hier hilft uns die XPath Query Sprache (http://archive.oreilly.com/pub/a/perl/excerpts/system-admin-with-perl/ten-minute-xpath-utorial.html). Mit XPath kann man auch in Chrome ein bisschen herumspielen - in der Console über die Funktion $x("...").

Hier erstmal ein einfaches Beispiel: Wir möchten den Text, der den Aktualisierungszeitpunkt dieser Webseite (http://inters.bayern.de/luebmw/html/aktmesswerte_lueb.php) angibt, auslesen.

In [41]:
print data.xpath('/html/body/span[3]/b/text()')[0]

Letzter Aktualisierungszeitpunkt: 19.01.2017  18:00 Uhr (MEZ)


(Auf Deutsch: nehm alles innerhalb des 'html' Elements, dann 'body' dann das dritte 'span' Element dann das 'b' Element, das da drinnen ist und dann davon den Text). Zum Schluss: XPath gibt immer Listen zurück, obwohl es aus HTML-Sicht nur einen Text geben kann. Also nehm das erste Listen-Element um den eigentlichen Inhalt zu bekommen.

Jetzt wollen wir die letzten zwei NO2 30-Minuten Werte an der Landshuter Allee extrahieren. Diese Informationen werden nur in einem Mouse-Over über dem Stundenmittelwert der Messwerttabelle dargestellt.

In [42]:
data.xpath('/html/body/table[1]/tr[12]/td[6]/a')[0]

<Element a at 0x103fe9440>

Daher müssen wir die Informationen aus dem Mouse-Over Attribut auslesen. So bekommt man erstmal ein Dictionary mit allen Attributes in einem Tag.

In [21]:
data.xpath('/html/body/table[1]/tr[12]/td[6]/a')[0].attrib

{'href': '/luebmw/html/html_1404_NO2.php', 'class': 'MWLev3', 'onmouseout': 'return nd();', 'onmouseover': u"return overlib('<SPAN CLASS=\\'popupt1\\'>Der Wert wurde aus zwei Halbstundenmittelwerten berechnet:<BR>12:00 - 12:30 = 53 \xb5g/m\xb3<BR><U>12:30 - 13:00 = 53 \xb5g/m\xb3</U><BR>12:00 - 13:00 = 53 \xb5g/m\xb3</SPAN>',WIDTH,160,TIMEOUT,10000,FGCOLOR,'#FFFFBB',BGCOLOR,'#A0A0A0');"}

So bekommen wir den Inhalt des Onmouseover Attributes:

In [43]:
mo_content = data.xpath('/html/body/table[1]/tr[12]/td[6]/a')[0].attrib["onmouseover"]
mo_content

u"return overlib('<SPAN CLASS=\\'popupt1\\'>Der Wert wurde aus zwei Halbstundenmittelwerten berechnet:<BR>17:00 - 17:30 = 97 \xb5g/m\xb3<BR><U>17:30 - 18:00 = 88 \xb5g/m\xb3</U><BR>17:00 - 18:00 = 93 \xb5g/m\xb3</SPAN>',WIDTH,160,TIMEOUT,10000,FGCOLOR,'#FFFFBB',BGCOLOR,'#A0A0A0');"

Jetzt müssen wir nur noch geeignete String-Funktionen anwenden, um die gewünschten Informationen (Datum und Messwert) zu extrahieren. Hier als Beispiel der letzte veröffentlichte 30-Minuten-Mittelwert:

In [44]:
timelist = mo_content.split("<BR>")[1:-1]
timelist

[u'17:00 - 17:30 = 97 \xb5g/m\xb3', u'<U>17:30 - 18:00 = 88 \xb5g/m\xb3</U>']

In [27]:
timelist[1].replace('<U>',"").split(" ")[2]

u'13:00'

In [29]:
int(timelist[1].split(" ")[4].replace("</U>", ""))

53

## Sylvester: Böller + Inversionswetterlage!

![title](sylvester.jpg)