# `pandas`: Propojení dat
Odkaz na lekci: https://kodim.cz/kurzy/python-data-1/python-pro-data-1/agregace-a-spojovani/propojeni-dat

In [2]:
import pandas

### Načtení dat

Data, se kterými budeme pracovat, si můžeš stáhnout zde:
* [studenti.csv](https://kodim.cz/cms/assets/kurzy/python-data-1/python-pro-data-1/agregace-a-spojovani/studenti.csv)
* [predsedajici.csv](https://kodim.cz/cms/assets/kurzy/python-data-1/python-pro-data-1/agregace-a-spojovani/predsedajici.csv)

In [3]:
studenti = pandas.read_csv("../data/studenti.csv")
studenti.head()
# studenti.info()

Unnamed: 0,cisloStudenta,jmeno
0,1,Jana Zbořilová
1,2,Lukáš Jurčík
2,3,Pavel Horák
3,4,Pavel Kysilka
4,5,Kateřina Novotná


In [4]:
predsedajici = pandas.read_csv("../data/predsedajici.csv")
predsedajici.head()
# predsedajici.info()

Unnamed: 0,datum,jmeno,den
0,20.5.2019,Marie Zuzaňáková,po
1,21.5.2019,Marie Zuzaňáková,út
2,22.5.2019,Petr Ortinský,st
3,23.5.2019,Petr Ortinský,čt
4,24.5.2019,Alena Pniáčková,pá


Také budeme potřebovat tabulku `maturita.csv`, kterou jsme si vytvořili minulou lekci. Pokud jí nemáš po ruce, stáhni si jí zde: [maturita.csv](https://raw.githubusercontent.com/lutydlitatova/python-jaro-2023/main/notebook/maturita.csv)

In [5]:
maturita = pandas.read_csv("../data/maturita.csv")
maturita.head()
# maturita.info()

Unnamed: 0,cisloStudenta,predmet,znamka,den,mistnost
0,2,Dějepis,3.0,pá,u202
1,3,Matematika,2.0,út,u202
2,2,Společenské vědy,2.0,pá,u202
3,4,Biologie,1.0,pá,u202
4,5,Dějepis,1.0,po,u202


### Propojení dat pomocí `merge`
Jak `pandas` pozná, podle kterých sloupců data propojit? Jak můžeme sloupce, podle kterých chceme data propojit, specifikovat?

In [6]:
maturita_se_studenty = pandas.merge(maturita, studenti)
maturita_se_studenty

Unnamed: 0,cisloStudenta,predmet,znamka,den,mistnost,jmeno
0,2,Dějepis,3.0,pá,u202,Lukáš Jurčík
1,2,Společenské vědy,2.0,pá,u202,Lukáš Jurčík
2,3,Matematika,2.0,út,u202,Pavel Horák
3,3,Chemie,5.0,út,u202,Pavel Horák
4,4,Biologie,1.0,pá,u202,Pavel Kysilka
5,4,Informatika,1.0,pá,u302,Pavel Kysilka
6,5,Dějepis,1.0,po,u202,Kateřina Novotná
7,5,Společenské vědy,3.0,po,u203,Kateřina Novotná
8,6,Fyzika,2.0,čt,u202,Marie Krejcárková
9,6,Matematika,5.0,čt,u302,Marie Krejcárková


Propojení dat o maturitě s daty o předsedajících se nepovede. Proč? Na základě kterého sloupce nebo kterých sloupců chceme data propojit? Budeme také muset vyřešit záhadu poztrácených dat.

In [7]:
maturita_s_predsedajicimi = pandas.merge(maturita_se_studenty, predsedajici, on=['den'])
maturita_s_predsedajicimi

Unnamed: 0,cisloStudenta,predmet,znamka,den,mistnost,jmeno_x,datum,jmeno_y
0,2,Dějepis,3.0,pá,u202,Lukáš Jurčík,24.5.2019,Alena Pniáčková
1,2,Společenské vědy,2.0,pá,u202,Lukáš Jurčík,24.5.2019,Alena Pniáčková
2,4,Biologie,1.0,pá,u202,Pavel Kysilka,24.5.2019,Alena Pniáčková
3,4,Informatika,1.0,pá,u302,Pavel Kysilka,24.5.2019,Alena Pniáčková
4,15,Chemie,3.0,pá,u203,Monika Dudysová,24.5.2019,Alena Pniáčková
5,15,Společenské vědy,3.0,pá,u203,Monika Dudysová,24.5.2019,Alena Pniáčková
6,3,Matematika,2.0,út,u202,Pavel Horák,21.5.2019,Marie Zuzaňáková
7,3,Chemie,5.0,út,u202,Pavel Horák,21.5.2019,Marie Zuzaňáková
8,16,Informatika,2.0,út,u203,Josef Vodseďálek,21.5.2019,Marie Zuzaňáková
9,16,Biologie,2.0,út,u302,Josef Vodseďálek,21.5.2019,Marie Zuzaňáková


# `pandas`: Agregace dat
Odkaz na lekci: https://kodim.cz/kurzy/python-data-1/python-pro-data-1/agregace-a-spojovani/agregace

In [8]:
maturita_s_predsedajicimi.groupby("predmet")

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7fb3a9452700>

In [9]:
maturita_s_predsedajicimi.groupby("predmet")["znamka"]

<pandas.core.groupby.generic.SeriesGroupBy object at 0x7fb3a9452520>

In [10]:
maturita_s_predsedajicimi.groupby("predmet")["znamka"].mean()

predmet
Biologie            2.750000
Chemie              3.750000
Dějepis             3.666667
Fyzika              2.500000
Informatika         2.500000
Matematika          2.250000
Společenské vědy    2.500000
Zeměpis             3.000000
Name: znamka, dtype: float64

In [11]:
maturita_s_predsedajicimi.groupby("predmet")["znamka"].max()

predmet
Biologie            4.0
Chemie              5.0
Dějepis             5.0
Fyzika              3.0
Informatika         4.0
Matematika          5.0
Společenské vědy    3.0
Zeměpis             3.0
Name: znamka, dtype: float64

`size` vs `count`
* https://pandas.pydata.org/docs/reference/api/pandas.core.groupby.GroupBy.size.html
* https://pandas.pydata.org/docs/reference/api/pandas.core.groupby.GroupBy.count.html

In [12]:
maturita_s_predsedajicimi.groupby("predmet").count()

Unnamed: 0_level_0,cisloStudenta,znamka,den,mistnost,jmeno_x,datum,jmeno_y
predmet,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Biologie,4,4,4,4,4,4,4
Chemie,4,4,4,4,4,4,4
Dějepis,3,3,3,3,3,3,3
Fyzika,4,4,4,4,4,4,4
Informatika,4,4,4,4,4,4,4
Matematika,4,4,4,4,4,4,4
Společenské vědy,2,2,2,2,2,2,2
Zeměpis,1,1,1,1,1,1,1


In [13]:
maturita_s_predsedajicimi.groupby("predmet").size()

predmet
Biologie            4
Chemie              4
Dějepis             3
Fyzika              4
Informatika         4
Matematika          4
Společenské vědy    2
Zeměpis             1
dtype: int64