 # `pandas`: Základní dotazy
Odkaz na lekci: https://kodim.cz/kurzy/python-data-1/python-pro-data-1/podmineny-vyber/podmineny-vyber

In [None]:
import pandas

Data si stáhni [zde](https://kodim.cz/cms/assets/kurzy/python-data-1/python-pro-data-1/nacteni-dat/staty.json). Jsou ve formátu JSON, proto použijeme vhodnou metodu `read_json`:

In [None]:
staty = pandas.read_json('../data/staty.json')
staty

Ukážeme si, jak filtrovat řádky v tabulce na základě hodnot ve sloupcích. Například, které státy mají počet obyvatel menší než 1000?

In [None]:
print(staty["population"] < 10_000)

In [None]:
staty[staty["population"] < 10_000]

Které státy leží v subregionu `"South America"`?

In [None]:
staty[staty["subregion"] == "South America"]

Které státy mají nízký index ekonomické nerovnosti, např. menší než 30?

In [None]:
staty[staty["gini"] < 30]

## Kombinace podmínek
Které státy jsou velké rozlohou (např. víc než 100 000), a mají zároveň malý počet obyvatel (méně než 1 milion)?

In [None]:
bool_index = (staty["population"] > 100_000) & (staty["population"] < 1_000_000)
staty[bool_index]

Které státy leží v Evropě nebo v Africe?

## Metoda `isin`
Které státy leží v Evropě nebo v Africe?

In [None]:
# https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.isin.html

staty[staty["region"].isin(["Europe", "Africa"])]

## Metoda `between`
Které státy mají počet obyvatel mezi jedním a pěti miliony?

In [None]:
# https://pandas.pydata.org/docs/reference/api/pandas.Series.between.html

staty[staty["population"].between(1_000_000, 5_000_000)]

## Cvičení
Odkaz na cvičení: https://kodim.cz/kurzy/python-data-1/python-pro-data-1/podmineny-vyber/podmineny-vyber#excs%3Eceska-jmena-2

In [64]:
jmena = pandas.read_csv("../data/jmena.csv", index_col=None)
jmena

Unnamed: 0,jméno,četnost,věk,pohlaví,svátek,původ
0,Jiří,296090,49,m,24.4,řecký
1,Jan,293938,40,m,24.6. a 6.7,hebrejský
2,Petr,272135,42,m,22.2. a 29.6,řecký
3,Jana,264944,50,ž,24.5,hebrejský
4,Marie,260526,65,ž,12.9,hebrejský
...,...,...,...,...,...,...
95,Jindřich,26230,51,m,15.7,německý
96,Vlastimil,26014,54,m,17.3,slovanský
97,Iva,26003,46,ž,1.12,slovanský
98,Miloš,25509,53,m,25.1,slovanský


In [66]:
# Vypiš všechny řádky se jmény, jejichž nositelé mají průměrný věk vyšší než 60.

jmena[jmena["věk"] > 60]

# jmena.query("věk > 60")


Unnamed: 0,jméno,četnost,věk,pohlaví,svátek,původ
4,Marie,260526,65,ž,12.9,hebrejský
23,Věra,107388,63,ž,8.1,slovanský
30,Jaroslava,84556,63,ž,1.7,slovanský
38,Ludmila,72750,65,ž,16.9,slovanský
40,Zdeňka,69060,61,ž,23.6,slovanský
50,Jarmila,59666,65,ž,4.2,slovanský
53,Jiřina,55366,64,ž,15.2,řecký
64,Vlasta,41736,68,ž,23.12,slovanský
68,Božena,39851,72,ž,11.2,slovanský
70,Libuše,39269,66,ž,10.7,slovanský


In [67]:
# Vypiš pouze jména z těch řádků, kde četnost je mezi 80 000 a 100 000.

cetny = jmena[jmena["četnost"].between(80000,100000, inclusive='neither')]
cetny["jméno"]

29     Veronika
30    Jaroslava
31     Vladimír
32       Tereza
33      Martina
Name: jméno, dtype: object

In [72]:
# Vypiš jména a četnost pro jména se slovanským nebo hebrejským původem. Kolik takových jmen je?
condition = (jmena["původ"] == "hebrejský") | (jmena["původ"] == "řecký")

filtered_data = jmena[condition]
filtered_data[["jméno", "četnost"]].info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 43 entries, 0 to 94
Data columns (total 2 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   jméno    43 non-null     object
 1   četnost  43 non-null     int64 
dtypes: int64(1), object(1)
memory usage: 1.0+ KB


In [75]:
# Vypiš všechna jména, která mají svátek první 3 dny v prosinci.

svatky = jmena[(jmena["svátek"] == "1.12") | (jmena["svátek"] == "2.12") | (jmena["svátek"] == "3.12")]

svatky2 = jmena[jmena["svátek"].isin(["1.12", "2.12", "3.12"])]
svatky

Unnamed: 0,jméno,četnost,věk,pohlaví,svátek,původ
83,Blanka,31516,54,ž,2.12,latinský
97,Iva,26003,46,ž,1.12,slovanský


In [79]:
# Bonus 1: Zisti kolko muzskych a kolko zenskych mien latinskeho povodu sa nachadza v datach

muzi = jmena.query("pohlaví == 'm' & původ == 'latinský'")
muzi_pocet = len(muzi)

zeny = jmena.query("pohlaví == 'ž' & původ == 'latinský'")
zeny_pocet = len(zeny)

print(f"Pocet muzov: {muzi_pocet}")
print(f"Pocet zien: {zeny_pocet}")

Pocet muzov: 9
Pocet zien: 8


In [81]:
# Bonus 2: Vypis vsetky mena slovanskeho povodu, ktore su kratsie ako 5 znakov
# napoveda: https://pandas.pydata.org/docs/reference/api/pandas.Series.str.len.html

jmena[(jmena["jméno"].str.len() < 5) & (jmena["původ"] == "slovanský")]


Unnamed: 0,jméno,četnost,věk,pohlaví,svátek,původ
23,Věra,107388,63,ž,8.1,slovanský
97,Iva,26003,46,ž,1.12,slovanský
