In [None]:
# -*- coding: utf-8 -*-
#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
#    http://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or
# implied.
# See the License for the specific language governing permissions and
# limitations under the License.
#

# Data integration

### References
- https://github.com/jorisvandenbossche/2015-PyDataParis
- https://github.com/FIIT-IAU/IAU-2019-2020

<!--
navody na pouzivanie pandas, matplotlib a numpy na spracovanie dat. Niesu to informacie o tom ako robit explorativnu analyzu, ale ako pouzivat kniznice

Z tohoto povyberam zaujimave casti, spojim ich s nejakou kapitolou v knihe o tom ako riesit spracovanie, cistanie dat a transformovanie dat
http://nbviewer.jupyter.org/github/ResearchComputing/Meetup-Fall-2013/blob/master/python/lecture_10_pandas_introduction.ipynb
http://nbviewer.jupyter.org/github/ResearchComputing/Meetup-Fall-2013/blob/master/python/lecture_11_pandas_adding_data.ipynb
http://nbviewer.jupyter.org/github/ResearchComputing/Meetup-Fall-2013/blob/master/python/lecture_12_pandas_groupby.ipynb
http://nbviewer.jupyter.org/github/ResearchComputing/Meetup-Fall-2013/blob/master/python/lecture_13_pandas_movies.ipynb 
http://nbviewer.jupyter.org/github/ResearchComputing/Meetup-Fall-2013/blob/master/python/lecture_14_pandas_reshape.ipynb
http://nbviewer.jupyter.org/github/ResearchComputing/Meetup-Fall-2013/blob/master/python/lecture_15_pandas_transforming.ipynb
http://nbviewer.jupyter.org/github/ResearchComputing/Meetup-Fall-2013/blob/master/python/lecture_21_pandas_processing.ipynb
http://nbviewer.jupyter.org/github/ResearchComputing/Meetup-Fall-2013/blob/master/python/lecture_22_pandas_cleaning.ipynb

http://nbviewer.jupyter.org/github/ResearchComputing/Meetup-Fall-2013/blob/master/python/lecture_23_titanic_example.ipynb
-->

### Working with a Pandas dataframe

<img src="https://github.com/FIIT-IAU/2015-PyDataParis/raw/b900fdb9f3c12e9206bb417022dd004abf023c0f/img/dataframe.png" width="50%" height="50%" />


# Case study: Air quality in Europe
**[European air quality information reported by EEA member countries](https://www.eea.europa.eu/data-and-maps/data/aqereporting-8#tab-european-data).**

AirBase (The European Air quality dataBase): hourly measurements of all air quality monitoring stations from Europe.

In [None]:
import matplotlib.pyplot as plt
import numpy as np
import os
import pandas as pd
import seaborn as sns

In [None]:
filename = "data/input/BETR8010000800100hour.1-1-1990.31-12-2012"
df = pd.read_csv(filename)
df.head()

Vidíme, že pri načítaní nastalo viacero problémov. Skúsme sa teda pozrieť na dáta v nejakom editore predtým, ako ich načítame:

In [None]:
%%bash
head data/input/BETR8010000800100hour.1-1-1990.31-12-2012

z tohoto zatiaľ vieme asi len to, že pôjde o **csv formát, separátor hodnôt je \t**, sú tam samé numerické dáta a nemáme pomenované atribúty.

In [None]:
%%bash
ls -lh data/input/BETR8010000800100hour.1-1-1990.31-12-2012

In [None]:
%%bash 
wc -l data/input/BETR8010000800100hour.1-1-1990.31-12-2012

Takže tých dat nie je zas tak veľa a nemusím sa báť to všetko načítať do pamäte

In [None]:
data = pd.read_csv(filename, 
                   sep='\t', 
                   header=None)
data.head()

Máme 49 stĺpcov. Dátum a 48 ďalších numerických atribútov. Každý druhý sa zdá byt binárny. Asi nejaký príznak.

Dáta sú tvorené meraniami nejakej veličiny asi v jednotlivých hodinách dňa. 

Čo deň, to riadok. Každá hodina má zvlášť stĺpec + je tu stĺpec pre nejaký príznak, ktorý nás teraz nezaujíma.

Sú tam nejaké divné hodnoty, ktoré by tam asi nemali byť: -999 a -9999.

Dátum bude asi index

In [None]:
data = pd.read_csv(filename, 
                   sep='\t', 
                   header=None,
                   na_values=[-999, -9999], 
                   index_col=0
                  )
data.head()

In [None]:
# skusime povyhadzovat tie flagy, ktore nas nezaujimaju. Zhodou okolnosti je to kazdy druhy stlpec
data.columns[1::2]

In [None]:
data = data.drop(data.columns[1::2], 
                 axis=1)
data.head()

In [None]:
# Skusme si nejak normalne pomenovat vzniknute stlpce
["{:02d}".format(i) for i in range(len(data.columns))]

In [None]:
# mam nejako rozsypane nazvy stlpcov
data.columns = ["{:02d}".format(i) for i in range(len(data.columns))]
data.head()

**Skúsme presunúť každé meranie na samostatný riadok**

In [None]:
data = data.stack()
data.head()

In [None]:
# vysledok preusporiadania je viacdimenzionalny Series objekt, a nie DataFrame.
type(data)  

In [None]:
# mohli by sme nejak normalne pomenovat stlpec, napr. nazvom meracej stanice, ktora je v nazve suboru
_, fname = os.path.split(filename)
station = fname[:7]
print(filename)
print(station)

In [None]:
#reset index mi z toho spravi data frame
data = data.reset_index(name=station) 
# data = data.reset_index() 

print(type(data))
data.head()

In [None]:
data = data.rename(columns = {0:'date', 'level_1':'hour'})
data.head()

In [None]:
# teraz tomu vyrobime novy index z datumu a hodiny
data.index = pd.to_datetime(data['date'] + ' ' + data['hour'])
data.head()

In [None]:
# zmazeme nepotrebne stlpce
data = data.drop(['date', 'hour'], axis=1)
data.head()

# Above-code for one station is inserted into the python file  `airbase.py`
**We are going to work with more stations.**

In [None]:
import airbase
no2 = airbase.load_data()

In [None]:
no2.head(3)

In [None]:
no2.tail()

In [None]:
no2.info()

In [None]:
no2.describe()

In [None]:
no2.plot(kind='box')

In [None]:
# boxplot vie ukazat aj outlierov
sns.boxplot(no2, sym='k.')

In [None]:
no2['BETN029'].plot(kind='hist', bins=50)

In [None]:
sns.violinplot(no2)

In [None]:
# first plotting
no2.plot(figsize=(12,6))

In [None]:
# mozem si povedat, ze chcem len nejaku mensiu cast
no2[-500:].plot(figsize=(12,6))

**Alebo použijem zaujímavejšie operácie s timeseries**

In [None]:
# kedze index su casy, tak viem robit s nimi zaujimave veci
no2.index 

In [None]:
# napriklad definovat rozsahy pomocou retazca s datumom
no2["2010-01-01 09:00": "2010-01-01 12:00"] 

In [None]:
# alebo takto vybrat vsetky data z jedneho konkretneho roku
no2['2012'] 
# no2['2012'].head()

# alebo len data z marca
# no2['2012/03'] 

In [None]:
# komponenty datumu su pristupne z indexu
# no2.index.hour
no2.index.year

In [None]:
# a co je zaujimavejsie, viem zmenit vzorkovaciu frekvenciu
no2.resample('D').mean().head()

In [None]:
# je tu asi nejaka sezonnost?
no2.resample('M').mean().plot()

In [None]:
# dlhodoby trend?
no2.resample('A').mean().plot()

In [None]:
# tyzdenna sezonnost?
no2['2012-3':'2012-4'].resample('D').mean().plot()

In [None]:
# mozem pouzit aj viacero agregacnych funkcii a porovnat si ich
no2.loc['2009':, 'FR04037'].resample('M').agg(['mean', 'median']).plot()
# no2.loc['2009':, 'FR04037'].resample('M').agg(['mean', 'std']).plot()

## Pozor resample != groupby

In [None]:
# Toto je časový priebeh s mesačnou granularitou. Spriemerované sú hodnoty v priebehu mesiaca
no2.resample('M').mean().plot()

In [None]:
# Toto sú spriemerované všetky hodnoty pre mesiac s daným číslom. Aj naprieč rokmi. 
# Získal som teda priemerný priebeh hodnoty počas roka s mesačnou granularitou.
no2.groupby(no2.index.month).mean().plot()

# Sumár, čo si zobrať z tejto EDA

* Uistite sa, že dáta sú kódované správne (najčastejšie sa treba pozrieť manuálne do dát)
* Uistite sa, že dáta spadajú do očakávaného rozsahu a všetky majú očakávaný tvar (napríklad formát času)
* Nikdy nemeňte dáta manuálne. Vždy používajte kód, ktorý si odložíte a použijete vždy, keď budete opakovať experiment. Chceme, aby bola analýza reprodukovateľná
* Spravte si grafy všetkého, čo sa len dá, aby ste si vizuálne potvrdili, že niečo je tak, ako by malo byt