## Open Government Data, provided by **Canton Zurich**
*Autogenerated Python starter code for data set with identifier* **1363@awel-kanton-zuerich**

## Dataset
# **Luftschadstoffemissionen im Kanton Zürich**

## Description

Emissionen der wichtigsten Luftschadstoffe (BC, CO, NH3, NMVOC, NOx, PM10, PM2.5, SO2) im Kanton Zürich. Die Emissionsbilanzierung liegt bis auf Stufe Gemeinde vor. Drei Zeitstände sind ausgewiesen. Hinweis: Die Städte Winterthur und Zürich verfügen über eigenen Bilanzierungen der Luftschadstoffe auf ihrem Gebiet. Detailliertere Angaben dazu sind unter 'weitere Informationen' verlinkt. Die Emissionsdaten der Stickoxide (NOx), Feinstaub (PM10 und PM2.5) sowie Russ (BC) wurden im Rahmen einer schweizweiten Aktualisierung der Karten für Luftschadstoffimmissionen Schweiz und Liechtenstein 2015, 2020, 2030 in Hektarrasterauflösung bilanziert. Die Datengrundlagen für die Emissionen bildet das Emissionsinformations-System Schweiz (EMIS) – die Datenbank des Bundesamts für Umwelt BAFU mit den nationalen Luftschadstoff- und Treibhausgasemissionen - zum Zeitpunkt Mitte 2019. In einer Ergänzungsstudie im Auftrag des BAFU wurden für dieselben Emittentengruppen anschliessend auch Emissionskataster in Hektarrasterauflösung für weitere Luftschadstoffe und Treibhausgase erstellt. Im Anschluss an die genannten Arbeiten hat die 'Luftqualitätsüberwachung der Ostschweizer Kantone und des Fürstentums Liechtenstein' (OSTLUFT) die Arbeitsgemeinschaft INFRAS/Meteotest damit beauftragt, die Emissionen aller genannten Substanzen auf Stufe Gemeinden des OSTLUFT-Gebiets zu aggregieren und die Daten in geeigneter Form aufzubereiten mit dem Ziel, für die OSTLUFT-Gemeinden eine mit dem schweizerischen Emissionskataster konsistente Datengrundlage zur Verfügung zu haben.

## Data set links

[Direct data shop link for dataset](https://www.zh.ch/de/politik-staat/opendata.zhweb-noredirect.zhweb-cache.html#/datasets/1363@awel-kanton-zuerich)

## Metadata
- **Issued** `2022-07-07T09:10:11`
- **Modified** `2022-08-18T13:26:35`
- **Startdate** `None`
- **Enddate** `None`
- **Theme** `['Gesundheit', 'Raum, Umwelt']`
- **Keyword** `['gemeinden', 'immissionen', 'kanton_zuerich', 'luft', 'luftschadstoffe', 'stickstoffdioxid', 'kohlenmonoxid', 'feinstaub', 'ammoniak', 'luftqualitaet', 'schadstoffbelastung', 'emissionen', 'russ', 'ogd']`
- **Publisher** `['Amt für Abfall, Wasser, Energie und Luft des Kantons Zürich']`
- **Landingpage** `https://www.zh.ch/de/umwelt-tiere/luft-strahlung/daten-karten.html`


## Imports and helper functions

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt
plt.style.use('ggplot')

params = {
    'text.color': (0.25, 0.25, 0.25),
    'figure.figsize': [18, 6],
   }

plt.rcParams.update(params)

import pandas as pd 

In [None]:
# helper function for reading datasets with proper separator
def get_dataset(url):
    if url[-3:] != "csv":
        print("The data set URL has no proper 'csv' extension. Reading the dataset might not have worked as expected.\nPlease check the dataset link and adjust pandas' read_csv() parameters accordingly.")
    data = pd.read_csv(url, sep=",", on_bad_lines='warn', encoding_errors='ignore', low_memory=False)
    # if dataframe only has one column or less the data is not comma separated, use ";" instead
    if data.shape[1] <= 1:
        data = pd.read_csv(url, sep=';', on_bad_lines='warn', encoding_errors='ignore', low_memory=False)
        if data.shape[1] <= 1:
            print("The data wasn't imported properly. Very likely the correct separator couldn't be found.\nPlease check the dataset manually and adjust the code.")
    return data

## Load data

- The dataset has **`1` distribution(s)** in CSV format.
- All available CSV distributions are listed below and can be read into a pandas dataframe.

In [None]:
# Distribution 0
# Ktzhdistid               : 2698
# Title                    : Luftschadstoffemissionen im Kanton Zürich 2015, 2020 und 2030
# Description              : Variabeln: 'jahr' = Die Emissionsdaten liegen für die drei Zeitstände 2015, 2020 (Covid-Effekt ist nicht berücksichtigt) und 2030 vor; 'substanz' = Bezeichnung des Luftschadstoffes; 'hauptgruppe' = Zusammenfassung der Hauptemittentengruppen; 'untergruppe' = detailliertere Quellenangabe (z.B. Landschaftspflege, Feuerungen Holz und Kohle, ...); 'gemeinde': Gemeindename; 'emission' = Emissionswert (in Tonnen pro Jahr); 'bfsnr' = BFS-Gemeindenummer gemäss amtlichem Gemeindeverzeichnis der Schweiz; 'kanton' = Kürzel des Kantons (Hinweis: Ein Teil der Emissionen (z.B. Schifffahrt, ...) sind dem Greifensee ('bfsnr': 9040) und dem Zürichsee ('bfsnr': 9051) zugewiesen, 'kanton': "ZH-See"); 'einheit' = Masseinheit der Emissionen, abgekürzt: 't/a'; 'einheit_lang' = Masseinheit der Emissionen, ausgeschrieben: 'Tonnen pro Jahr'.
# Issued                   : 2022-07-07T09:10:11
# Modified                 : 2022-07-07T09:10:11
# Rights                   : NonCommercialAllowed-CommercialAllowed-ReferenceNotRequired

df = get_dataset('https://www.web.statistik.zh.ch/awel/ostluft_emissionsbilanzen/emissionen_gemeinden_ostluft.csv')



## Analyze data

In [None]:
# drop columns that have no values
df.dropna(how='all', axis=1, inplace=True)

In [None]:
print(f'The dataset has {df.shape[0]:,.0f} rows (observations) and {df.shape[1]:,.0f} columns (variables).')
print(f'There seem to be {df.duplicated().sum()} exact duplicates in the data.')

In [None]:
df.info(memory_usage='deep', verbose=True)

In [None]:
df.head()

In [None]:
# display a small random sample transposed in order to see all variables
df.sample(3).T

In [None]:
# describe non-numerical features
try:
    with pd.option_context('display.float_format', '{:,.2f}'.format):
        display(df.describe(exclude='number'))
except:
    print("No categorical data in dataset.")

In [None]:
# describe numerical features
try:
    with pd.option_context('display.float_format', '{:,.2f}'.format):
        display(df.describe(include='number'))
except:
    print("No numercial data in dataset.")

In [None]:
# check missing values with missingno
# https://github.com/ResidentMario/missingno
import missingno as msno
msno.matrix(df, labels=True, sort='descending');

In [None]:
# plot a histogram for each numerical feature
try:
    df.hist(bins=25, rwidth=.9)
    plt.tight_layout()
    plt.show()
except:
    print("No numercial data to plot.") 

In [None]:
# continue your code here...

**Contact**: Amt für Abfall, Wasser, Energie und Luft des Kantons Zürich | Abteilung Luft, Klima und Strahlung | gian-marco.alt@bd.zh.ch