# `pandas`: Propojení dat
Odkaz na lekci: https://kodim.cz/kurzy/python-data-1/python-pro-data-1/agregace-a-spojovani/propojeni-dat

In [2]:
import pandas

### Načtení dat

Data, se kterými budeme pracovat, si můžeš stáhnout zde:
* [studenti.csv](https://kodim.cz/cms/assets/kurzy/python-data-1/python-pro-data-1/agregace-a-spojovani/studenti.csv)
* [predsedajici.csv](https://kodim.cz/cms/assets/kurzy/python-data-1/python-pro-data-1/agregace-a-spojovani/predsedajici.csv)

In [3]:
studenti = pandas.read_csv("studenti.csv")
studenti.head()
# studenti.info()

Unnamed: 0,cisloStudenta,jmeno
0,1,Jana Zbořilová
1,2,Lukáš Jurčík
2,3,Pavel Horák
3,4,Pavel Kysilka
4,5,Kateřina Novotná


In [4]:
predsedajici = pandas.read_csv("predsedajici.csv")
predsedajici.head()
# predsedajici.info()

Unnamed: 0,datum,jmeno,den
0,20.5.2019,Marie Zuzaňáková,po
1,21.5.2019,Marie Zuzaňáková,út
2,22.5.2019,Petr Ortinský,st
3,23.5.2019,Petr Ortinský,čt
4,24.5.2019,Alena Pniáčková,pá


Také budeme potřebovat tabulku `maturita.csv`, kterou jsme si vytvořili minulou lekci. Pokud jí nemáš po ruce, stáhni si jí zde: [maturita.csv](https://raw.githubusercontent.com/lutydlitatova/python-jaro-2023/main/notebook/maturita.csv)

In [6]:
maturita = pandas.read_csv("maturita.csv")
maturita.head()
# maturita.info()

Unnamed: 0,cisloStudenta,predmet,znamka,den,mistnost
0,1,Chemie,,pá,u202
1,2,Dějepis,3.0,pá,u202
2,3,Matematika,2.0,út,u202
3,2,Společenské vědy,2.0,pá,u202
4,4,Biologie,1.0,pá,u202


### Propojení dat pomocí `merge`
Jak `pandas` pozná, podle kterých sloupců data propojit? Jak můžeme sloupce, podle kterých chceme data propojit, specifikovat?

In [7]:
maturita_se_studenty = pandas.merge(maturita, studenti)
maturita_se_studenty

Unnamed: 0,cisloStudenta,predmet,znamka,den,mistnost,jmeno
0,1,Chemie,,pá,u202,Jana Zbořilová
1,1,Zeměpis,,pá,u302,Jana Zbořilová
2,2,Dějepis,3.0,pá,u202,Lukáš Jurčík
3,2,Společenské vědy,2.0,pá,u202,Lukáš Jurčík
4,3,Matematika,2.0,út,u202,Pavel Horák
5,3,Chemie,5.0,út,u202,Pavel Horák
6,4,Biologie,1.0,pá,u202,Pavel Kysilka
7,4,Informatika,1.0,pá,u302,Pavel Kysilka
8,5,Dějepis,1.0,po,u202,Kateřina Novotná
9,5,Společenské vědy,3.0,po,u203,Kateřina Novotná


Propojení dat o maturitě s daty o předsedajících se nepovede. Proč? Na základě kterého sloupce nebo kterých sloupců chceme data propojit? Budeme také muset vyřešit záhadu poztrácených dat.

In [10]:
maturita_s_predsedajicimi = pandas.merge(maturita_se_studenty, predsedajici, on=['den'])
maturita_s_predsedajicimi
#maturita_s_predsedajicimi = pandas.merge(maturita_se_studenty, predsedajici, on=['den'], how="left")
#maturita_s_predsedajicimi #overeni, zda se nam neztratily radky

Unnamed: 0,cisloStudenta,predmet,znamka,den,mistnost,jmeno_x,datum,jmeno_y
0,1,Chemie,,pá,u202,Jana Zbořilová,24.5.2019,Alena Pniáčková
1,1,Zeměpis,,pá,u302,Jana Zbořilová,24.5.2019,Alena Pniáčková
2,2,Dějepis,3.0,pá,u202,Lukáš Jurčík,24.5.2019,Alena Pniáčková
3,2,Společenské vědy,2.0,pá,u202,Lukáš Jurčík,24.5.2019,Alena Pniáčková
4,4,Biologie,1.0,pá,u202,Pavel Kysilka,24.5.2019,Alena Pniáčková
5,4,Informatika,1.0,pá,u302,Pavel Kysilka,24.5.2019,Alena Pniáčková
6,9,Dějepis,,pá,u202,Petr Valenta,24.5.2019,Alena Pniáčková
7,9,Společenské vědy,,pá,u203,Petr Valenta,24.5.2019,Alena Pniáčková
8,15,Chemie,3.0,pá,u203,Monika Dudysová,24.5.2019,Alena Pniáčková
9,15,Společenské vědy,3.0,pá,u203,Monika Dudysová,24.5.2019,Alena Pniáčková


In [11]:
predsedajici.head()
predsedajici["den"] = predsedajici["den"].str.strip() #odstraneni nadbytecnych mezer

# `pandas`: Agregace dat
Odkaz na lekci: https://kodim.cz/kurzy/python-data-1/python-pro-data-1/agregace-a-spojovani/agregace

In [12]:
maturita_s_predsedajicimi.groupby("predmet")

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000022E47131CA0>

In [13]:
maturita_s_predsedajicimi.groupby("predmet")["znamka"]

<pandas.core.groupby.generic.SeriesGroupBy object at 0x0000022E471BA2E0>

In [14]:
maturita_s_predsedajicimi.groupby("predmet")["znamka"].mean()

predmet
Biologie            2.750000
Chemie              3.800000
Dějepis             3.200000
Fyzika              2.800000
Informatika         2.600000
Matematika          2.714286
Společenské vědy    2.666667
Zeměpis             2.000000
Name: znamka, dtype: float64

##### dalsi budou sum, max, min, first, last, mean, median, var, std, 

In [15]:
maturita_s_predsedajicimi.groupby("predmet")["znamka"].max()

predmet
Biologie            4.0
Chemie              5.0
Dějepis             5.0
Fyzika              4.0
Informatika         4.0
Matematika          5.0
Společenské vědy    3.0
Zeměpis             3.0
Name: znamka, dtype: float64

In [24]:
staty = pandas.read_json("staty.json")
staty["population_density"] = staty["population"] / staty["area"]
staty = staty.sort_values("population_density", ascending=False)
#staty = staty.set_index("name")
#print(staty.loc["Macao"]) # zjednodusi vypis hodnot toho statu
staty


Unnamed: 0,name,alpha2Code,alpha3Code,capital,region,subregion,population,area,gini,population_density
131,Macao,MO,MAC,,Asia,Eastern Asia,649100,30.00,,21636.666667
147,Monaco,MC,MCO,Monaco,Europe,Western Europe,38400,2.02,,19009.900990
202,Singapore,SG,SGP,Singapore,Asia,South-Eastern Asia,5535000,710.00,48.1,7795.774648
101,Hong Kong,HK,HKG,City of Victoria,Asia,Eastern Asia,7324300,1104.00,53.3,6634.329710
86,Gibraltar,GI,GIB,Gibraltar,Europe,Southern Europe,33140,6.00,,5523.333333
...,...,...,...,...,...,...,...,...,...,...
171,"Palestine, State of",PS,PSE,Ramallah,Asia,Western Asia,4682467,,35.5,
183,Réunion,RE,REU,Saint-Denis,Africa,Eastern Africa,840974,,,
188,"Saint Helena, Ascension and Tristan da Cunha",SH,SHN,Jamestown,Africa,Western Africa,4255,,,
209,South Georgia and the South Sandwich Islands,GS,SGS,King Edward Point,Americas,South America,30,,,


`size` vs `count`
* https://pandas.pydata.org/docs/reference/api/pandas.core.groupby.GroupBy.size.html
* https://pandas.pydata.org/docs/reference/api/pandas.core.groupby.GroupBy.count.html

In [16]:
maturita_s_predsedajicimi.groupby("predmet").count()

Unnamed: 0_level_0,cisloStudenta,znamka,den,mistnost,jmeno_x,datum,jmeno_y
predmet,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Biologie,4,4,4,4,4,4,4
Chemie,6,5,6,6,6,6,6
Dějepis,6,5,6,6,6,6,6
Fyzika,5,5,5,5,5,5,5
Informatika,6,5,6,6,6,6,6
Matematika,7,7,7,7,7,7,7
Společenské vědy,5,3,5,5,5,5,5
Zeměpis,3,2,3,3,3,3,3


In [17]:
maturita_s_predsedajicimi.groupby("predmet").size()

predmet
Biologie            4
Chemie              6
Dějepis             6
Fyzika              5
Informatika         6
Matematika          7
Společenské vědy    5
Zeměpis             3
dtype: int64