<a href="https://colab.research.google.com/github/Matiak/TOI/blob/main/TOI2023.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [3]:
# Druhy TOI projekt
# Autor sablony: Jan Beran, 2023
# Jmeno resitele/resitelky: Martin Babača
# xlogin:   xbabac02


# Zde si pripadne pridejte vlastni importy 
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import scipy.stats as stats # možná se vám bude hodit pro statistické testy


In [4]:
t_avg = pd.read_csv("http://janberan.tech/wp-content/uploads/2023/02/T_avg.csv")
t_min = pd.read_csv("http://janberan.tech/wp-content/uploads/2023/02/T_min.csv")
t_max = pd.read_csv("http://janberan.tech/wp-content/uploads/2023/02/T_max.csv")
rain = pd.read_csv("http://janberan.tech/wp-content/uploads/2023/02/rain.csv")
wind = pd.read_csv("http://janberan.tech/wp-content/uploads/2023/02/wind.csv")
air = pd.read_csv("http://janberan.tech/wp-content/uploads/2023/02/Kvalita_ovzdusi___Air_quality.csv")

# Pokud by začaly odkazy výše vykazovat problémy s dostupností:
# 1) Stáhněte si zálohu dat z https://drive.google.com/drive/folders/12MjA3NTgHtssvzIPKFEEptwVTxOmhV1s?usp=sharing 
# 2) Nahrajte data do runtime
# 3) Změňte odkazy výše na lokální cesty
# 4) Opakujte pokaždé, když se resetuje runtime - otevření a zavření souboru atp.
# 5) Dejte mi vědět a já soubory nahraju někam jinam, abyste je nemuseli pokaždé ručně nahrávat do runtime

# Prostor pro váš kód

#Část 1: Deskriptivní analýza

Budete pracovat se soubory:
* **T_avg.csv**: průměrná teplota v ˚C
* **T_min.csv**: minimální teplota v ˚C
* **T_max.csv**: maximální teplota v ˚C
* **rain.csv**: úhrn srážek v mm
* **wind.csv**: rychlost větru v m/s
* **Kvalita_ovzduší___Air_quality.csv**: různá data, měřeno v µg/m³

  **no2_1h** : Hodnota NO2 - oxidu dusičitého, updatováno každou hodinu

  **pm10_1h**: Koncentrace polétavého prachu do 10um (pyl, standardní prach), updatováno jednou za hodinu
  
  **pm2_5_1h**: Koncentrace polétavého prachu do 2.5um (výfukové plyny, organické látky…) updatováno jednou za hodinu

Ve všech souborech kromě posledního je vždy jen jeden údaj. V posledním (soubor **Kvalita_ovzduší___Air_quality.csv**, data v proměnné **air**) je údajů opravdu velké množství, vy se ovšem zaměřte na měření označená jako no2_1h, pm10_1h a pm2_5_1h. Dávejte si přitom pozor, abyste vyfiltrovali opravdu jen relevantní data (tedy pro stanici Brno-Tuřany). V ostatních datasetech jsou data pouze z této stanice. Celkem tedy budete mít k dispozici 8 datasetů.

### Tabulka pro základní údaje o každém z osmi datasetů:
Ke každé tabulce navíc uveďte, jak budete daná data upravovat.

|Název charakteristiky | Hodnota
|----------------------|--------
|**Jméno datasetu**    |(např. "průměrná teplota" -- ta je uložena v souboru T_avg.csv)   
|**Rozsah a četnost** | od kdy do kdy a jak často probíhala měření
|**Maximum**           |
|**Minimum**           | 
|**Aritmetický průměr**|
|**Popis dat, co bude třeba upravit**         |Jsou data kompletní nebo některé hodnoty chybí? Jak bude třeba data upravit?

### Prostor pro vaše hypotézy:
Např: Domnívám se, že zde bude existovat vztah mezi datasety pm10_1h a pm2_5_1h, jelikož oba datasety určují množství polétavých částic. Pokud (např. v důsledku deště) poklesne hodnota jednoho údaje, měla by poklesnout i hodnota druhého údaje. 

In [37]:
print("t_avg")
print(t_avg[['rok','měsíc']].sort_values(['rok','měsíc'], ascending = [True,True]).head(1))
print(t_avg[['rok','měsíc']].sort_values(['rok','měsíc'], ascending = [False,False]).head(1))
t_avg_GF = pd.melt(t_avg,id_vars=['rok','měsíc'], var_name='deň',value_name='value').dropna()
t_avg_GF
t_avg_GF['deň'] = t_avg_GF['deň'].astype(int)
t_avg_GF = t_avg_GF.sort_values(['rok','měsíc','deň'])
print(t_avg_GF.describe())

t_avg
    rok  měsíc
0  1961      1
      rok  měsíc
743  2022     12
                rok         měsíc           deň         value
count  22639.000000  22639.000000  22639.000000  22639.000000
mean    1991.492248      6.523654     15.725960      9.402343
std       17.891011      3.448990      8.798828      8.506944
min     1961.000000      1.000000      1.000000    -19.900000
25%     1976.000000      4.000000      8.000000      2.500000
50%     1991.000000      7.000000     16.000000      9.800000
75%     2007.000000     10.000000     23.000000     16.300000
max     2022.000000     12.000000     31.000000     30.800000


# Část 2: Příprava dat

V této části realizujete úpravu dat, kterou jste si navrhli v předchozí části. Detailní zadání je k dispozici v souboru se zadáním. Pracujte efektivně, využívejte, co vám Python a  jeho knihovny nabízejí.

Nezapomeňte zodpovědět otázky ze zadání: Jak jste doplňovali chybějící data, jaký rozsah a četnost jste zvolili a jak jste data upravili. 

# Část 3: Analýza dat 

V této části budete anaylzovat své časové řady. Není zde připravena žádná šablona, jelikož každý můžete používat rozdílné struktury uložení dat - a různé postupy - které povedou ke sprévnému výsledku.

V souboru se zadáním je ovšem zmíněno několik funkcí, které vám mohou pomoci. 

Stručné zadání:
Pro dvojice dat, pro které jste zformulovali hypotézy v části 1, a pro 3 libovolně zvolené jiné dvojice časových řad (jiné než ty, pro které jste formulovali hypotézy a nikoli dvě sady teplotních údajů) zjistěte:
1) Kovarianci
2) Pearsonův korelační koeficient
3) Statistickou významnost koeficientu

## Část 4: Diskuze

Níže uveďte požadované údaje tak, jak jsou popsány v souboru se zadáním.

## (Část 5: Zpětná vazba)

Zde můžete uvést zpětnou vazbu k projektu, feedbacku a supportu ze strany učitelů, co byste zlepšili, co bylo naopak fajn. Nic, co zde bude napsáno, nebude mít vliv na hodnocení projektu; pozitivní feedback vám body nepřidá, negativní neubere. Jak pozitivní, tak i negativní feedback ovšem udělá radost opravujícímu. :)