# Agregace a spojování

Stáhneme si soubory, se kterými budeme pracovat.

Vytvoříme pandas DataFrame pro soubory s výsledky maturitní zkoušky.

In [2]:
import pandas

u202 = pandas.read_csv("u202.csv")
u203 = pandas.read_csv("u203.csv")
u302 = pandas.read_csv("u302.csv")

Podíváme se na data.

In [3]:
u202

Unnamed: 0,cisloStudenta,predmet,znamka,den
0,1,Chemie,,pá
1,2,Dějepis,3.0,pá
2,3,Matematika,2.0,út
3,2,Společenské vědy,2.0,pá
4,4,Biologie,1.0,pá
5,5,Dějepis,1.0,po
6,6,Fyzika,2.0,čt
7,7,Dějepis,4.0,po
8,8,Matematika,2.0,po
9,9,Dějepis,,pá


## Práce s chybějícími hodnotami
anglicky _missing values_


**Co je chybějící hodnota?**
- hodnota `NaN` (Not a Number)
    - _napr. prazdna bunka v csv --> rovnou nahrazena NaN_
- `None` = zabudovaná konstanta v Pythonu 
- `pd.NA` = zatím experiment hodnota, která by měla reprezentovat chybějící hodnoty všech typů

<br>
<br>

**Co není chybějící hodnota?**
- řetězec `''` nebo `'NaN'` and `'None'`
- `inf` / `-inf` = infinity je nedefinované číslo, kladné nebo záporné

<br>
<br>

**Jak s chybějící hodnotou zacházet?**
1. Nejlepší je vždy ověření, proč údaje chybí (např. u poskytovatele dat) a pokud je to možné, zajistit jejich doplnění.
2. Nahradit chybějící hodnoty jinými hodnotami.
3. Odstranit všechny řádky s chybějícími daty z datového setu.
4. Vyčlenit je do separátního datasetu a zpracovat je zvlášť.

_Důležité je mít na paměti, že vyřazením některých řádků může dojít ke zkreslení výsledků analýzy!_

## Jak chybějící hodnoty najít



**`isnull()`** 

**`notnull()`**

Obě metody vrací hodnoty `True` nebo `False`

Vyzkoušíme si `isnull()`.

In [None]:
u202['znamka'].isnull()

## Alternativa 
# u202['znamka'].isna() # isna() se NIJAK neliší od isnull() 

Vyzkoušíme si `notnull()`.

In [None]:
u202['znamka'].notnull()

## Alternativa
# u202['znamka'].notna()

Vybereme pomocí `isnull()` jen řádky, které mají chybějící hodnoty.

In [None]:
## Najedeme je ty, kde isnull() je True
jen_null_radky = u202[u202["znamka"].isnull()]
jen_null_radky

## Jak chybějící hodnoty odstranit nebo nahradit


**`dropna()`**
- vrátí datový set očištěn od chybějících dat
- `dropna(axis=0)` --> odstraní všechny řádky, které obsahují chybějící data
- `dropna(axis=1)` --> odstraní všechny sloupce, které obsahují chybějící data
- Dokumentace: https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.dropna.html
<br>
<br>


**`fillna(x)`**
- nahradí všechna chybějící data a hodnoty hodnotou x
- Dokumentace: https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.fillna.html


In [None]:
## Příklady těchto metod - pojďme si to vyzkoušet
testovaci_data = u202[u202['znamka'].isnull()]
testovaci_data

In [None]:
# Odstranění řádků s dropna()
testovaci_data.dropna()

## Alternativa
# testovaci_data.dropna(axis=0)

In [None]:
# Odstranění sloupců s dropna()
testovaci_data.dropna(axis=1)

In [None]:
# Nahrazení chybějících hodnot
testovaci_data.fillna('Hodnota chybí')

---

## Spojení dat

Pojďme spojit naše tři tabulky dohromady.


- Tabulky spojíme pod sebe. 
- Budeme stále mít tři sloupce.
- Počet řádků bude odpovídat počtu řádků všech tří tabulek dohromady.
- _V SQL tomu odpovídá operace `UNION`._

Použijeme naše DataFrames a očistíme je o řádky s chybějícími hodnotami

In [None]:
## Tak to pojďme vyčistit
u202 = pandas.read_csv('u202.csv').dropna()
u203 = pandas.read_csv('u203.csv').dropna()
u302 = pandas.read_csv('u302.csv').dropna()

**Funkce `concat`**


! Pozor: funkce rozbije index. 
<br>
<br>
Spojí totiž indexy tabulek za sebe např. 1 2 3 1 2 3 1 2 3. <br>
Pomůže nám parameter `ignore_index`

In [None]:
maturita = pandas.concat([u202, u203, u302])
maturita

In [None]:
maturita = pandas.concat([u202, u203, u302], ignore_index=True)
maturita

**Vytvoření nového sloupce**

Spojením tabulek jsme ztratili informace o čísle místnosti. 

Můžeme si ale číslo místnosti před spojením uložit do nového sloupečku.

In [None]:
u202['mistnost'] = 'u202'
u203['mistnost'] = 'u203'
u302['mistnost'] = 'u302'

maturita = pandas.concat([u202, u203, u302], ignore_index=True)

**Uložení tabulky do souboru**

In [None]:
# dataframe.to_csv('soubor.csv', index=False)

maturita.to_csv('maturita.csv', index=False)

Finální tabulku, kterou jsme právě vytvořili, si můžete pro kontrolu stáhnout zde: 

<https://kodim.cz/cms/assets/analyza-dat/python-data-1/python-pro-data-1/agregace-a-spojovani/pokrocile-upravy/maturita.csv>

---

## Propojení dat

- Tabulky můžeme spojit více způsoby. 
- _V SQL tomu odpovídá operace `JOIN`._
- Výsledná tabulka bude mít více sloupců.
- Počet řádků na typu propojení.


**Typy propojení**

![Druhy propojeni](assets/type_of_join_operations.png)

**Přidáme další tabulku**

Naše výsledky byly anonymní. Pokud bychom ale chtěli vytisknout maturitní vysvědčení, potřebujeme k číslům studenta zjistit jejich jména. 

Jména najdeme v samostatné tabulce `studenti.csv`. Načtěme si jej jako `DataFrame`.

In [None]:
studenti = pandas.read_csv('studenti.csv')

U operace `JOIN` jsou důležité dvě věci:

- Podle jakého sloupce (nebo jakých sloupců) dvě různé tabulky propojujeme.
- Co udělat v případě, že pro nějaké řádky nemám ve druhé tabulce odpovídající hodnotu.

**Funkce `merge`**

Dokumentace: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.merge.html

In [None]:
propojeny_df = pandas.merge(u202, studenti)

Ve výchozím nastavení funkce merge() ponechá pouze řádky, které mají záznamy v obou tabulkách. 

V SQL bychom tuto operaci označili jako INNER JOIN.

In [None]:
"""
Pokud by například nějaký student nebyl uvedený v tabulce se studenty, jeho maturitní výsledek by zmizel. 
U nového DataFrame bychom tedy měli zkontrolovat, zda má propojeny_df stejný počet řádků jako u202.
"""

print(u202.shape)

print(propojeny_df.shape)

**Tabulka s předsedy maturitních komisí**

In [None]:
preds = pandas.read_csv('predsedajici.csv')

In [None]:
novy_propojeny_df = pandas.merge(propojeny_df, preds)
novy_propojeny_df.head()

Tentokrát jsme příliš neuspěli, výsledný DataFrame je prázdný. 

Protože v obou DataFrame máme sloupec **jmeno**, v jednom případě však jde o jméno studenta a ve druhém o jméno předsedy komise. 

Musíme říct, že chceme data spojit pouze podle sloupce den.

In [None]:
novy_propojeny_df = pandas.merge(propojeny_df, preds, on=['den'])
novy_propojeny_df

**Zmizely nám řádky!**

To znamená, že funkce `merge()` **nenašla pro všechna zkoušení odpovídajícího předsedu**. 

<br>

Zkusme nyní říct funkci `merge()`, aby nám zachovala v prvním DataFrame ty řádky, pro které nenajde odpovídající záznam. 

Této operaci se v jazyce SQL říká **LEFT OUTER JOIN**. 

My ho provede tak, že funkci `merge()` jako parametr `how` zadáme hodnotu `left`.

In [None]:
novy_propojeny_df = pandas.merge(propojeny_df, preds, on=['den'], how="left") # how = "outer"
novy_propojeny_df

Zkusme si zobrazit ty řádky, které se nepodařilo propojit. 

Poznáme je tak, že mají prázdný sloupec datum.

Z nějakého důvodu nám nefunguje propojení v případě, že ve sloupci den je hodnota po. 

In [None]:
novy_propojeny_df[novy_propojeny_df["datum"].isnull()]

**funkce `strip()`**

z řetězce odstraní mezery (a další bílé znaky) na začátku a na konci

In [None]:
preds["den"] = preds["den"].str.strip()

In [None]:
novy_propojeny_df = pandas.merge(propojeny_df, preds, on=['den'], how="left")
novy_propojeny_df

**Přejmenování sloupců**

In [None]:
novy_propojeny_df = novy_propojeny_df.rename(columns={'jmeno_x': 'jmeno', 'jmeno_y': 'predseda'})

## Agregace

**metoda `groupby()`**

Pomocí metody groupby vyrobíme z `DataFrame` speciální objekt `DataFrameGroupBy`. 

`maturita.groupby('mistnost')`

**Agregační funkce**

In [None]:
maturita.groupby('mistnost').count()

Další užitečné agregační funkce jsou například:

* `sum` - součet hodnot,
* `max` - maximální hodnota,
* `min` - minimální hodnota,
* `first` - první hodnota,
* `last` - poslední hodnota,
* `mean` - průměr z hodnot,
* `median` - medián z hodnot.

![Princip agragace](assets/groupby.png)

**Agregace vybraných sloupců**

In [None]:
maturita.groupby('predmet')['znamka'].mean()

In [None]:
## Nebo více sloupců
maturita.groupby('predmet')[['znamka', 'cisloStudenta']].mean()

**ČTENÍ NA DOMA**

**Funkce `.agg()`**

Dokumentace: https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.agg.html


In [None]:
maturita.groupby("cisloStudenta").agg({"znamka": ["max", "mean"]})

## Řazení

**Metoda `sort_values`**

Metoda `sort_values` standardně řadí vzestupně. 

Chceme-li řadit sestupně, zadáme jí parametr `ascending` a nastavíme ho na `False`.

In [None]:
## Řazení hodnot v Series
## https://pandas.pydata.org/docs/reference/api/pandas.Series.sort_values.html

vysledky_predmetu = maturita.groupby('predmet')['znamka'].max() 
vysledky_predmetu.sort_values(ascending=False)

In [None]:
## Řazení hodnot v DataFramu
## https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sort_values.html

maturita.sort_values(by="znamka")

In [None]:
## Řazení hodnot v DataFramu s Multiindexem

vysledky_studenty = maturita.groupby("cisloStudenta").agg({"znamka": ["mean"]})
vysledky_studenty.sort_values([("znamka", "mean")])