# Agregace

Pracujeme s datasetem o výsledcích u maturity. Máme k dispozici výsledky ze 3 učeben uložené v souborech `u202.csv`, `u203.csv` a `u302.csv`.

In [1]:
import pandas

In [2]:
!cat u202.csv

jméno,předmět,známka,den
Jana Zbořilová,Chemie,,pá
Lukáš Jurčík,Dějepis,3,pá
Pavel Horák,Matematika,2,út
Lukáš Jurčík,Společenské vědy,2,pá
Pavel Kysilka,Biologie,1,pá
Kateřina Novotná,Dějepis,1,po
Marie Krejcárková,Fyzika,2,čt
Vasil Lácha,Dějepis,4,po
Alexey Opatrný,Matematika,2,po
Petr Valenta,Dějepis,,pá
Miroslav Bednář,Chemie,2,st
Pavel Horák,Chemie,5,út
Ivana Dvořáková,Matematika,1,st
Lenka Jarošová,Biologie,4,st
Miroslav Bednář,Dějepis,5,st

In [3]:
u202 = pandas.read_csv("u202.csv", encoding="utf-8")
u203 = pandas.read_csv("u203.csv", encoding="utf-8")
u302 = pandas.read_csv("u302.csv", encoding="utf-8")

## 1. Práce s chybějícími hodnotami

In [4]:
u202

Unnamed: 0,jméno,předmět,známka,den
0,Jana Zbořilová,Chemie,,pá
1,Lukáš Jurčík,Dějepis,3.0,pá
2,Pavel Horák,Matematika,2.0,út
3,Lukáš Jurčík,Společenské vědy,2.0,pá
4,Pavel Kysilka,Biologie,1.0,pá
5,Kateřina Novotná,Dějepis,1.0,po
6,Marie Krejcárková,Fyzika,2.0,čt
7,Vasil Lácha,Dějepis,4.0,po
8,Alexey Opatrný,Matematika,2.0,po
9,Petr Valenta,Dějepis,,pá


Na řádcích 0 a 9 je ve sloupci `známka` hodnota `NaN`. Tím se v Pandas značí chybějící hodnota, podobně jako `NULL` v SQL. V samotném CSV souboru údaj chybí úplně, mezi sousedními čárkami nic není.

Všimněte si, že ačkoli je známka celé číslo, sloupec `známka` je uložen jako desetinná čísla. Je to proto, že hodnotu `NaN` není možné reprezentovat v celých číslech. V desetinných (`float`) je pro to naopak vyhrazená hodnota. Podobná situace nastane v případě chybějících pravdivostních hodnot.

Chybějící hodnoty mohou vzniknout různými způsoby, např.
* Porucha měřícího přístroje;
* Chyba při načítání souboru;
* Hodnota v daném kontextu nedává smysl;
* Nenastane událost, na kterou čekáme;
* ...

Často taky nemáme tušení a můžeme jen hádat.

V různých situacích dává smysl vypořádat se s chybějícími hodnotami různými způsoby.

### Jak zjistit které hodnoty chybí?

In [5]:
u202["známka"].isnull()

0      True
1     False
2     False
3     False
4     False
5     False
6     False
7     False
8     False
9      True
10    False
11    False
12    False
13    False
14    False
Name: známka, dtype: bool

In [6]:
u202.loc[u202["známka"].isnull()]

Unnamed: 0,jméno,předmět,známka,den
0,Jana Zbořilová,Chemie,,pá
9,Petr Valenta,Dějepis,,pá


### Počet, procento chybějících hodnot

In [7]:
False + False, False + True, True + True

(0, 1, 2)

In [8]:
u202["známka"].isnull().sum()

2

In [9]:
u202.shape

(15, 4)

In [10]:
pocet_radku = u202.shape[0]
relativni_cetnost = u202["známka"].isnull().sum() / pocet_radku
print(f"Chybí {relativni_cetnost * 100} % hodnot.")

Chybí 13.333333333333334 % hodnot.


In [11]:
relativni_cetnost

0.13333333333333333

In [12]:
u202["známka"].isnull().mean()

0.13333333333333333

### Jak zahodit řádky s chybějícími hodnotami?

In [13]:
u202

Unnamed: 0,jméno,předmět,známka,den
0,Jana Zbořilová,Chemie,,pá
1,Lukáš Jurčík,Dějepis,3.0,pá
2,Pavel Horák,Matematika,2.0,út
3,Lukáš Jurčík,Společenské vědy,2.0,pá
4,Pavel Kysilka,Biologie,1.0,pá
5,Kateřina Novotná,Dějepis,1.0,po
6,Marie Krejcárková,Fyzika,2.0,čt
7,Vasil Lácha,Dějepis,4.0,po
8,Alexey Opatrný,Matematika,2.0,po
9,Petr Valenta,Dějepis,,pá


In [14]:
u202.dropna()

Unnamed: 0,jméno,předmět,známka,den
1,Lukáš Jurčík,Dějepis,3.0,pá
2,Pavel Horák,Matematika,2.0,út
3,Lukáš Jurčík,Společenské vědy,2.0,pá
4,Pavel Kysilka,Biologie,1.0,pá
5,Kateřina Novotná,Dějepis,1.0,po
6,Marie Krejcárková,Fyzika,2.0,čt
7,Vasil Lácha,Dějepis,4.0,po
8,Alexey Opatrný,Matematika,2.0,po
10,Miroslav Bednář,Chemie,2.0,st
11,Pavel Horák,Chemie,5.0,út


Lze přizpůsobit dalšími argumenty - minimální počet chybějících hodnot, uvažovat jen vybrané sloupce, ...

### Jak zahodit sloupce s chybějícícmi hodnotami?

In [15]:
u202

Unnamed: 0,jméno,předmět,známka,den
0,Jana Zbořilová,Chemie,,pá
1,Lukáš Jurčík,Dějepis,3.0,pá
2,Pavel Horák,Matematika,2.0,út
3,Lukáš Jurčík,Společenské vědy,2.0,pá
4,Pavel Kysilka,Biologie,1.0,pá
5,Kateřina Novotná,Dějepis,1.0,po
6,Marie Krejcárková,Fyzika,2.0,čt
7,Vasil Lácha,Dějepis,4.0,po
8,Alexey Opatrný,Matematika,2.0,po
9,Petr Valenta,Dějepis,,pá


In [16]:
u202.dropna(axis="columns")

Unnamed: 0,jméno,předmět,den
0,Jana Zbořilová,Chemie,pá
1,Lukáš Jurčík,Dějepis,pá
2,Pavel Horák,Matematika,út
3,Lukáš Jurčík,Společenské vědy,pá
4,Pavel Kysilka,Biologie,pá
5,Kateřina Novotná,Dějepis,po
6,Marie Krejcárková,Fyzika,čt
7,Vasil Lácha,Dějepis,po
8,Alexey Opatrný,Matematika,po
9,Petr Valenta,Dějepis,pá


### Jak nahradit chybějící hodnoty něčím jiným?

In [17]:
u202

Unnamed: 0,jméno,předmět,známka,den
0,Jana Zbořilová,Chemie,,pá
1,Lukáš Jurčík,Dějepis,3.0,pá
2,Pavel Horák,Matematika,2.0,út
3,Lukáš Jurčík,Společenské vědy,2.0,pá
4,Pavel Kysilka,Biologie,1.0,pá
5,Kateřina Novotná,Dějepis,1.0,po
6,Marie Krejcárková,Fyzika,2.0,čt
7,Vasil Lácha,Dějepis,4.0,po
8,Alexey Opatrný,Matematika,2.0,po
9,Petr Valenta,Dějepis,,pá


In [18]:
doplneno = u202.fillna(5)
doplneno

Unnamed: 0,jméno,předmět,známka,den
0,Jana Zbořilová,Chemie,5.0,pá
1,Lukáš Jurčík,Dějepis,3.0,pá
2,Pavel Horák,Matematika,2.0,út
3,Lukáš Jurčík,Společenské vědy,2.0,pá
4,Pavel Kysilka,Biologie,1.0,pá
5,Kateřina Novotná,Dějepis,1.0,po
6,Marie Krejcárková,Fyzika,2.0,čt
7,Vasil Lácha,Dějepis,4.0,po
8,Alexey Opatrný,Matematika,2.0,po
9,Petr Valenta,Dějepis,5.0,pá


In [19]:
doplneno["známka"] = doplneno["známka"].astype(int)
doplneno

Unnamed: 0,jméno,předmět,známka,den
0,Jana Zbořilová,Chemie,5,pá
1,Lukáš Jurčík,Dějepis,3,pá
2,Pavel Horák,Matematika,2,út
3,Lukáš Jurčík,Společenské vědy,2,pá
4,Pavel Kysilka,Biologie,1,pá
5,Kateřina Novotná,Dějepis,1,po
6,Marie Krejcárková,Fyzika,2,čt
7,Vasil Lácha,Dějepis,4,po
8,Alexey Opatrný,Matematika,2,po
9,Petr Valenta,Dějepis,5,pá


### Někdy to ani není třeba

* Může se stát, že se sloupci, ve kterých chybí hodnoty, ani nepotřebujeme pracovat. Bylo by pak zbytečné zahazovat nějaké řádky, protože bychom tím přišli o data.
* Pandas funkce umí s chybějícími hodnotami pracovat.

In [20]:
u202["známka"]

0     NaN
1     3.0
2     2.0
3     2.0
4     1.0
5     1.0
6     2.0
7     4.0
8     2.0
9     NaN
10    2.0
11    5.0
12    1.0
13    4.0
14    5.0
Name: známka, dtype: float64

In [21]:
u202["známka"].mean()

2.6153846153846154

## 2. Spojení dat

Máme k dispozici údaje o maturitách ve všech 3 místnostech, chtěli bychom je spojit dohromady do jednoho dataframe.

Nejprve zahodíme studenty, kteří nedorazili ke zkoušce.

In [22]:
u202.dropna(inplace=True)
u203.dropna(inplace=True)
u302.dropna(inplace=True)

In [23]:
maturita = pandas.concat([u202, u203, u302])
maturita.head(16)

Unnamed: 0,jméno,předmět,známka,den
1,Lukáš Jurčík,Dějepis,3.0,pá
2,Pavel Horák,Matematika,2.0,út
3,Lukáš Jurčík,Společenské vědy,2.0,pá
4,Pavel Kysilka,Biologie,1.0,pá
5,Kateřina Novotná,Dějepis,1.0,po
6,Marie Krejcárková,Fyzika,2.0,čt
7,Vasil Lácha,Dějepis,4.0,po
8,Alexey Opatrný,Matematika,2.0,po
10,Miroslav Bednář,Chemie,2.0,st
11,Pavel Horák,Chemie,5.0,út


Pandas napojilo indexy jednotlivých dataframes dohromady, takže jsou tam duplicity.

In [24]:
maturita = pandas.concat([u202, u203, u302], ignore_index=True)
maturita.head(16)

Unnamed: 0,jméno,předmět,známka,den
0,Lukáš Jurčík,Dějepis,3.0,pá
1,Pavel Horák,Matematika,2.0,út
2,Lukáš Jurčík,Společenské vědy,2.0,pá
3,Pavel Kysilka,Biologie,1.0,pá
4,Kateřina Novotná,Dějepis,1.0,po
5,Marie Krejcárková,Fyzika,2.0,čt
6,Vasil Lácha,Dějepis,4.0,po
7,Alexey Opatrný,Matematika,2.0,po
8,Miroslav Bednář,Chemie,2.0,st
9,Pavel Horák,Chemie,5.0,út


Ještě budeme chtít uchovat informaci o místnostech, ve kterých zkoušky probíhaly.

In [25]:
u202["místnost"] = "u202"
u203["místnost"] = "u203"
u302["místnost"] = "u302"

In [26]:
maturita = pandas.concat([u202, u203, u302], ignore_index=True)
maturita.head(16)

Unnamed: 0,jméno,předmět,známka,den,místnost
0,Lukáš Jurčík,Dějepis,3.0,pá,u202
1,Pavel Horák,Matematika,2.0,út,u202
2,Lukáš Jurčík,Společenské vědy,2.0,pá,u202
3,Pavel Kysilka,Biologie,1.0,pá,u202
4,Kateřina Novotná,Dějepis,1.0,po,u202
5,Marie Krejcárková,Fyzika,2.0,čt,u202
6,Vasil Lácha,Dějepis,4.0,po,u202
7,Alexey Opatrný,Matematika,2.0,po,u202
8,Miroslav Bednář,Chemie,2.0,st,u202
9,Pavel Horák,Chemie,5.0,út,u202


Výsledný dataframe uložíme do CSV souboru.

In [27]:
maturita.to_csv("maturita.csv", index=False)

In [28]:
!cat maturita.csv

jméno,předmět,známka,den,místnost
Lukáš Jurčík,Dějepis,3.0,pá,u202
Pavel Horák,Matematika,2.0,út,u202
Lukáš Jurčík,Společenské vědy,2.0,pá,u202
Pavel Kysilka,Biologie,1.0,pá,u202
Kateřina Novotná,Dějepis,1.0,po,u202
Marie Krejcárková,Fyzika,2.0,čt,u202
Vasil Lácha,Dějepis,4.0,po,u202
Alexey Opatrný,Matematika,2.0,po,u202
Miroslav Bednář,Chemie,2.0,st,u202
Pavel Horák,Chemie,5.0,út,u202
Ivana Dvořáková,Matematika,1.0,st,u202
Lenka Jarošová,Biologie,4.0,st,u202
Miroslav Bednář,Dějepis,5.0,st,u202
Kateřina Novotná,Společenské vědy,3.0,po,u203
Arnošt Sas,Matematika,5.0,po,u203
Vasil Lácha,Informatika,3.0,po,u203
Lenka Jarošová,Fyzika,3.0,st,u203
Marie Kortusová,Fyzika,3.0,st,u203
Monika Dudysová,Chemie,3.0,pá,u203
Josef Vodseďálek,Informatika,2.0,út,u203
Alexey Opatrný,Zeměpis,1.0,po,u203
Antonín Hlídek,Fyzika,4.0,po,u203
Monika Dudysová,Společenské vědy,3.0,pá,u203
Filip Lacina,Fyzika,2.0,čt,u203
Marta Kinclová,Biologie,4.0,st,u203
Martina Korbářová,Zeměpis,3.0,ú

## 3. Joinování dat

Obdobou SQL příkazu `JOIN` je v Pandas funkce `merge`. K datasetu výsledků u maturitních zkoušek budeme joinovat data o předsedajících maturitních komisí v jednotlivých dnech.

In [29]:
!cat predsedajici.csv

den,datum,jméno
po,20.5.2019,Marie Zuzaňáková
út,21.5.2019,Marie Zuzaňáková
st,22.5.2019,Petr Ortinský
čt,23.5.2019,Petr Ortinský
pá,24.5.2019,Alena Pniáčková

In [30]:
preds = pandas.read_csv("predsedajici.csv", encoding="utf-8")
preds

Unnamed: 0,den,datum,jméno
0,po,20.5.2019,Marie Zuzaňáková
1,út,21.5.2019,Marie Zuzaňáková
2,st,22.5.2019,Petr Ortinský
3,čt,23.5.2019,Petr Ortinský
4,pá,24.5.2019,Alena Pniáčková


Vyzkoušíme merge, zatím jen na místnosti u202.

In [31]:
u202

Unnamed: 0,jméno,předmět,známka,den,místnost
1,Lukáš Jurčík,Dějepis,3.0,pá,u202
2,Pavel Horák,Matematika,2.0,út,u202
3,Lukáš Jurčík,Společenské vědy,2.0,pá,u202
4,Pavel Kysilka,Biologie,1.0,pá,u202
5,Kateřina Novotná,Dějepis,1.0,po,u202
6,Marie Krejcárková,Fyzika,2.0,čt,u202
7,Vasil Lácha,Dějepis,4.0,po,u202
8,Alexey Opatrný,Matematika,2.0,po,u202
10,Miroslav Bednář,Chemie,2.0,st,u202
11,Pavel Horák,Chemie,5.0,út,u202


In [32]:
test = pandas.merge(u202, preds)
test

Unnamed: 0,jméno,předmět,známka,den,místnost,datum


Dostali jsme prázdný dataframe. To je proto, že defaultně `merge` dělá `INNER JOIN` přes všechny sloupce se stejnými jmény, zde `jméno` a `den`. Protože jedno `jméno` odpovídá studentovi a druhé předsedovi, nemáme žádný průnik.

Nabízel by se `OUTER JOIN`, ale ten nepomůže.

In [33]:
test = pandas.merge(u202, preds, how="outer")
test

Unnamed: 0,jméno,předmět,známka,den,místnost,datum
0,Lukáš Jurčík,Dějepis,3.0,pá,u202,
1,Lukáš Jurčík,Společenské vědy,2.0,pá,u202,
2,Pavel Horák,Matematika,2.0,út,u202,
3,Pavel Horák,Chemie,5.0,út,u202,
4,Pavel Kysilka,Biologie,1.0,pá,u202,
5,Kateřina Novotná,Dějepis,1.0,po,u202,
6,Marie Krejcárková,Fyzika,2.0,čt,u202,
7,Vasil Lácha,Dějepis,4.0,po,u202,
8,Alexey Opatrný,Matematika,2.0,po,u202,
9,Miroslav Bednář,Chemie,2.0,st,u202,


Tím se nám akorát promíchala jména studentů a předsedajících, navíc vznikla spousta nedefinovaných hodnot.

Ve skutečnosti potřebujeme provést `JOIN` jen podle sloupce `den` -- ke každému dnu známe předsedu komise a všechny studenty, kteří měli ten den zkoušku.

In [34]:
test = pandas.merge(u202, preds, on="den")
test

Unnamed: 0,jméno_x,předmět,známka,den,místnost,datum,jméno_y
0,Lukáš Jurčík,Dějepis,3.0,pá,u202,24.5.2019,Alena Pniáčková
1,Lukáš Jurčík,Společenské vědy,2.0,pá,u202,24.5.2019,Alena Pniáčková
2,Pavel Kysilka,Biologie,1.0,pá,u202,24.5.2019,Alena Pniáčková
3,Pavel Horák,Matematika,2.0,út,u202,21.5.2019,Marie Zuzaňáková
4,Pavel Horák,Chemie,5.0,út,u202,21.5.2019,Marie Zuzaňáková
5,Kateřina Novotná,Dějepis,1.0,po,u202,20.5.2019,Marie Zuzaňáková
6,Vasil Lácha,Dějepis,4.0,po,u202,20.5.2019,Marie Zuzaňáková
7,Alexey Opatrný,Matematika,2.0,po,u202,20.5.2019,Marie Zuzaňáková
8,Marie Krejcárková,Fyzika,2.0,čt,u202,23.5.2019,Petr Ortinský
9,Miroslav Bednář,Chemie,2.0,st,u202,22.5.2019,Petr Ortinský


Skoro dobré, jen potřebujeme rozumně přejmenovat sloupce se jmény na jméno studenta a jméno předsedy.

In [35]:
test = test.rename(columns={"jméno_x": "jméno_student", "jméno_y": "jméno_předseda"})
test

Unnamed: 0,jméno_student,předmět,známka,den,místnost,datum,jméno_předseda
0,Lukáš Jurčík,Dějepis,3.0,pá,u202,24.5.2019,Alena Pniáčková
1,Lukáš Jurčík,Společenské vědy,2.0,pá,u202,24.5.2019,Alena Pniáčková
2,Pavel Kysilka,Biologie,1.0,pá,u202,24.5.2019,Alena Pniáčková
3,Pavel Horák,Matematika,2.0,út,u202,21.5.2019,Marie Zuzaňáková
4,Pavel Horák,Chemie,5.0,út,u202,21.5.2019,Marie Zuzaňáková
5,Kateřina Novotná,Dějepis,1.0,po,u202,20.5.2019,Marie Zuzaňáková
6,Vasil Lácha,Dějepis,4.0,po,u202,20.5.2019,Marie Zuzaňáková
7,Alexey Opatrný,Matematika,2.0,po,u202,20.5.2019,Marie Zuzaňáková
8,Marie Krejcárková,Fyzika,2.0,čt,u202,23.5.2019,Petr Ortinský
9,Miroslav Bednář,Chemie,2.0,st,u202,22.5.2019,Petr Ortinský


To už vypadá dobře, provedeme tedy `JOIN` pro celý dataset a výsledek opět uložíme do CSV.

In [36]:
maturita2 = pandas.merge(maturita, preds, on="den")
maturita2 = maturita2.rename(columns={"jméno_x": "jméno_student", "jméno_y": "jméno_předseda"})
maturita2.head()

Unnamed: 0,jméno_student,předmět,známka,den,místnost,datum,jméno_předseda
0,Lukáš Jurčík,Dějepis,3.0,pá,u202,24.5.2019,Alena Pniáčková
1,Lukáš Jurčík,Společenské vědy,2.0,pá,u202,24.5.2019,Alena Pniáčková
2,Pavel Kysilka,Biologie,1.0,pá,u202,24.5.2019,Alena Pniáčková
3,Monika Dudysová,Chemie,3.0,pá,u203,24.5.2019,Alena Pniáčková
4,Monika Dudysová,Společenské vědy,3.0,pá,u203,24.5.2019,Alena Pniáčková


In [37]:
maturita2.to_csv("maturita2.csv", index=False)

## 4. Grupování