# Úvod do Pandas

Potřeba nainstalovat jako modul do Pythonu. Pokud ještě nemáte, do terminálu (ne do Pythonovské konzole) napište:
* na Windows `pip install pandas`,
* na Linuxu nebo Macu `pip3 install pandas`.

Pandas:
* Je základní knihovna pro práci s daty v Pythonu.
* Velká část datové analýzy obnáší právě práci s Pandas.
* Datový soubor reprezentuje podobně jako tabulka v databázích nebo v Excelu, "DataFrame".
    * Stejně jako jsme se učili seznamy a slovníky, DataFrame je další datový typ pro ukládání dat.

## 1. Základní práce s DataFrame

### Načítání dat

* Pandas umí načítat všechny možné formáty -- CSV, JSON, Excel, HTML, SQL databáze, a spoustu dalších, stejně tak je možné do nich ukládat.
    * Toho lze využít např. pro převod dat z Excelu do CSV.
* Rovněž umožňují stáhnout data z internetu -- místo cesty k souboru na disku dáme URL adresu.
* Podporují kompresi -- ZIP archivy a podobně.

In [3]:
import pandas

Příklad: tabulka měst provozujících tramvajovou dopravu.

##### Níže využívám funkci OS. Nechám si vypsat soubor MESTA.csv V Jupyteru mohu krome kódu PYTHONu využívat i OS (zároveň)!

In [5]:
!type mesta.csv

mesto,kraj,obyvatel,linky,vymera
brno,JHM,379 527,22,230.22
liberec,LBK,103 979,6,106.09
litvinov,ULK,24 143,5,40.70
most,ULK,66 644,5,86.94
olomouc,OLK,100 494,7,103.36
ostrava,MSK,290 450,15,214.23
plzen,PLK,170 936,3,137.65
praha,PHA,1 294 513,24,496.00


***index_col="mesto"*** *něco jako "Primární klíč databází", reprezentant každého řádku*

In [22]:
mesta = pandas.read_csv("mesta.csv", index_col="mesto", encoding="utf-8")
mesta

Unnamed: 0_level_0,kraj,obyvatel,linky,vymera
mesto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
brno,JHM,379 527,22,230.22
liberec,LBK,103 979,6,106.09
litvinov,ULK,24 143,5,40.7
most,ULK,66 644,5,86.94
olomouc,OLK,100 494,7,103.36
ostrava,MSK,290 450,15,214.23
plzen,PLK,170 936,3,137.65
praha,PHA,1 294 513,24,496.0


In [5]:
df = pandas.read_csv("mesta.csv", index_col="mesto", encoding="utf-8")
print(df)

         kraj   obyvatel  linky  vymera
mesto                                  
brno      JHM    379 527     22  230.22
liberec   LBK    103 979      6  106.09
litvinov  ULK     24 143      5   40.70
most      ULK     66 644      5   86.94
olomouc   OLK    100 494      7  103.36
ostrava   MSK    290 450     15  214.23
plzen     PLK    170 936      3  137.65
praha     PHA  1 294 513     24  496.00


*Zde vynechám index, pandas si ho tam sám ve formě čísla doloží.*

In [4]:
pandas.read_csv("mesta.csv", encoding="utf-8")

Unnamed: 0,mesto,kraj,obyvatel,linky,vymera
0,brno,JHM,379 527,22,230.22
1,liberec,LBK,103 979,6,106.09
2,litvinov,ULK,24 143,5,40.7
3,most,ULK,66 644,5,86.94
4,olomouc,OLK,100 494,7,103.36
5,ostrava,MSK,290 450,15,214.23
6,plzen,PLK,170 936,3,137.65
7,praha,PHA,1 294 513,24,496.0


### Základní informace o tabulce

Datové typy, názvy sloupců, počet neprázdných hodnot.
- index se jako sloupec nepocita

In [9]:
mesta.info()

<class 'pandas.core.frame.DataFrame'>
Index: 8 entries, brno to praha
Data columns (total 4 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   kraj      8 non-null      object 
 1   obyvatel  8 non-null      object 
 2   linky     8 non-null      int64  
 3   vymera    8 non-null      float64
dtypes: float64(1), int64(1), object(2)
memory usage: 320.0+ bytes


Velikost.
- shape neni fce, ale jen vlasntost

In [10]:
mesta.shape

(8, 4)

Názvy sloupců.

In [11]:
mesta.columns

Index(['kraj', 'obyvatel', 'linky', 'vymera'], dtype='object')

Preveli jsme si to do seznamu.

In [12]:
list(mesta)

['kraj', 'obyvatel', 'linky', 'vymera']

Základní statistické údaje -- jen na číselných sloupcích.
- describe je fce, proto tam musí mít ()
- padnas musí mít dole všeude stejný datatype, proto si to vše převedlo na FLOATy

In [13]:
mesta.describe()

Unnamed: 0,linky,vymera
count,8.0,8.0
mean,10.875,176.89875
std,8.305549,143.759399
min,3.0,40.7
25%,5.0,99.255
50%,6.5,121.87
75%,16.75,218.2275
max,24.0,496.0


Prvních pár řádků tabulky.

Do závorky mohu dát číslo a tolik hodnot mi vypíše.

In [14]:
mesta.head()

Unnamed: 0_level_0,kraj,obyvatel,linky,vymera
mesto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
brno,JHM,379 527,22,230.22
liberec,LBK,103 979,6,106.09
litvinov,ULK,24 143,5,40.7
most,ULK,66 644,5,86.94
olomouc,OLK,100 494,7,103.36


In [16]:
mesta.tail(2)

Unnamed: 0_level_0,kraj,obyvatel,linky,vymera
mesto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
plzen,PLK,170 936,3,137.65
praha,PHA,1 294 513,24,496.0


## 2. Základní selekce

![DataFrame](dataframe.svg)

Výběr hodnot v tabulce probíhá převážně pomocí "metody" `loc` = location/něco jako slovník.

### Výběr podle jmen řádků a sloupců

#### 1. Pouze řádky

In [17]:
mesta.loc["brno"]

kraj            JHM
obyvatel    379 527
linky            22
vymera       230.22
Name: brno, dtype: object

In [18]:
mesta.loc[["brno"]]

Unnamed: 0_level_0,kraj,obyvatel,linky,vymera
mesto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
brno,JHM,379 527,22,230.22


In [19]:
mesta.loc[["brno", "praha", "ostrava"]]

Unnamed: 0_level_0,kraj,obyvatel,linky,vymera
mesto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
brno,JHM,379 527,22,230.22
praha,PHA,1 294 513,24,496.0
ostrava,MSK,290 450,15,214.23


V prvním případě jsme dostali výsledek orientovaný na výšku, ve druhém na šířku. Poprvé jsme chtěli údaj o 1 městu a dostali tzv. `Series`, podruhé jsme chtěli údaj o více městech a dostali `DataFrame` (podmnožinu toho původního DataFrame `mesta`).

Mohli bychom si taky explicitně říct o výsledek pro 1 město v podobě DataFrame.

In [12]:
mesta.loc[["brno"]]

Unnamed: 0_level_0,kraj,obyvatel,linky,vymera
mesto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
brno,JHM,379 527,22,230.22


Lze použít také rozsah (záleží samozřejmě na pořadí, v jakém máme data uložena).

In [20]:
mesta

Unnamed: 0_level_0,kraj,obyvatel,linky,vymera
mesto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
brno,JHM,379 527,22,230.22
liberec,LBK,103 979,6,106.09
litvinov,ULK,24 143,5,40.7
most,ULK,66 644,5,86.94
olomouc,OLK,100 494,7,103.36
ostrava,MSK,290 450,15,214.23
plzen,PLK,170 936,3,137.65
praha,PHA,1 294 513,24,496.0


- Zde to nedodržuje Pythonovou konvenci, bere vše - horní i dolní mez.

In [21]:
mesta.loc["most":"praha"]

Unnamed: 0_level_0,kraj,obyvatel,linky,vymera
mesto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
most,ULK,66 644,5,86.94
olomouc,OLK,100 494,7,103.36
ostrava,MSK,290 450,15,214.23
plzen,PLK,170 936,3,137.65
praha,PHA,1 294 513,24,496.0


**Pozor na pořadí!**

In [22]:
mesta.loc["praha":"most"]

Unnamed: 0_level_0,kraj,obyvatel,linky,vymera
mesto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1


Vypisuji každé 2.město v daném výběru.

In [23]:
mesta.loc["most":"praha":2]

Unnamed: 0_level_0,kraj,obyvatel,linky,vymera
mesto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
most,ULK,66 644,5,86.94
ostrava,MSK,290 450,15,214.23
praha,PHA,1 294 513,24,496.0


In [24]:
mesta.loc[:"most"]

Unnamed: 0_level_0,kraj,obyvatel,linky,vymera
mesto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
brno,JHM,379 527,22,230.22
liberec,LBK,103 979,6,106.09
litvinov,ULK,24 143,5,40.7
most,ULK,66 644,5,86.94


In [25]:
mesta.loc["most":]

Unnamed: 0_level_0,kraj,obyvatel,linky,vymera
mesto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
most,ULK,66 644,5,86.94
olomouc,OLK,100 494,7,103.36
ostrava,MSK,290 450,15,214.23
plzen,PLK,170 936,3,137.65
praha,PHA,1 294 513,24,496.0


Kdy to dává a kdy naopak nedává smysl?
- Pořadí dat by mělo něco znamenat, mělo by to mít strukturu.

#### 2. Pouze sloupce

Kdybych napsala bez **:,**, tak mi vyhodí ERROR, protože bude heldat řádek "kraj".

In [27]:
mesta.loc[:, "kraj"]

mesto
brno        JHM
liberec     LBK
litvinov    ULK
most        ULK
olomouc     OLK
ostrava     MSK
plzen       PLK
praha       PHA
Name: kraj, dtype: object

In [29]:
mesta.loc[:, ["kraj"]]

Unnamed: 0_level_0,kraj
mesto,Unnamed: 1_level_1
brno,JHM
liberec,LBK
litvinov,ULK
most,ULK
olomouc,OLK
ostrava,MSK
plzen,PLK
praha,PHA


In [28]:
mesta.loc[:, ["kraj", "linky"]]

Unnamed: 0_level_0,kraj,linky
mesto,Unnamed: 1_level_1,Unnamed: 2_level_1
brno,JHM,22
liberec,LBK,6
litvinov,ULK,5
most,ULK,5
olomouc,OLK,7
ostrava,MSK,15
plzen,PLK,3
praha,PHA,24


Zkrácený zápis.

U řádku musí být **loc**

In [1]:
mesta["brno"]

NameError: name 'mesta' is not defined

In [30]:
mesta["kraj"]

mesto
brno        JHM
liberec     LBK
litvinov    ULK
most        ULK
olomouc     OLK
ostrava     MSK
plzen       PLK
praha       PHA
Name: kraj, dtype: object

In [31]:
mesta[["kraj"]]

Unnamed: 0_level_0,kraj
mesto,Unnamed: 1_level_1
brno,JHM
liberec,LBK
litvinov,ULK
most,ULK
olomouc,OLK
ostrava,MSK
plzen,PLK
praha,PHA


In [21]:
mesta[["kraj", "linky"]]

Unnamed: 0_level_0,kraj,linky
mesto,Unnamed: 1_level_1,Unnamed: 2_level_1
brno,JHM,22
liberec,LBK,6
litvinov,ULK,5
most,ULK,5
olomouc,OLK,7
ostrava,MSK,15
plzen,PLK,3
praha,PHA,24


#### 3. Řádky a sloupce

In [32]:
mesta.loc["plzen", "linky"]

3

In [33]:
mesta.loc["most":"plzen", "obyvatel"]

mesto
most        66 644
olomouc    100 494
ostrava    290 450
plzen      170 936
Name: obyvatel, dtype: object

In [39]:
mesta.loc["most":"plzen", ["obyvatel"]]

Unnamed: 0_level_0,obyvatel
mesto,Unnamed: 1_level_1
most,66 644
olomouc,100 494
ostrava,290 450
plzen,170 936


In [36]:
mesta.loc["most":"plzen", "kraj":"linky"]

Unnamed: 0_level_0,kraj,obyvatel,linky
mesto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
most,ULK,66 644,5
olomouc,OLK,100 494,7
ostrava,MSK,290 450,15
plzen,PLK,170 936,3


In [37]:
mesta.loc["most":"plzen", "kraj":"linky":2]

Unnamed: 0_level_0,kraj,linky
mesto,Unnamed: 1_level_1,Unnamed: 2_level_1
most,ULK,5
olomouc,OLK,7
ostrava,MSK,15
plzen,PLK,3


In [34]:
mesta.loc[["most", "brno", "praha"], ["obyvatel", "vymera"]]

Unnamed: 0_level_0,obyvatel,vymera
mesto,Unnamed: 1_level_1,Unnamed: 2_level_1
most,66 644,86.94
brno,379 527,230.22
praha,1 294 513,496.0


### Výběr podle pozic řádků a sloupců

Pro připomenutí.

In [25]:
mesta

Unnamed: 0_level_0,kraj,obyvatel,linky,vymera
mesto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
brno,JHM,379 527,22,230.22
liberec,LBK,103 979,6,106.09
litvinov,ULK,24 143,5,40.7
most,ULK,66 644,5,86.94
olomouc,OLK,100 494,7,103.36
ostrava,MSK,290 450,15,214.23
plzen,PLK,170 936,3,137.65
praha,PHA,1 294 513,24,496.0


Teď si budu vybírat dle číselné pozice.  Použiju k tomu "metodu" `iloc` = integer location, která mi vrátí celošíselnou pozici dané položky.

In [26]:
mesta.iloc[2]

kraj           ULK
obyvatel    24 143
linky            5
vymera        40.7
Name: litvinov, dtype: object

In [40]:
mesta.iloc[2, :]

kraj           ULK
obyvatel    24 143
linky            5
vymera        40.7
Name: litvinov, dtype: object

In [27]:
mesta.iloc[[2]]

Unnamed: 0_level_0,kraj,obyvatel,linky,vymera
mesto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
litvinov,ULK,24 143,5,40.7


In [28]:
mesta.iloc[2, 1:]

obyvatel    24 143
linky            5
vymera        40.7
Name: litvinov, dtype: object

In [29]:
mesta.iloc[[2, 3, 5], [0, 1]]

Unnamed: 0_level_0,kraj,obyvatel
mesto,Unnamed: 1_level_1,Unnamed: 2_level_1
litvinov,ULK,24 143
most,ULK,66 644
ostrava,MSK,290 450


In [41]:
mesta.iloc[[1,6,3]]

Unnamed: 0_level_0,kraj,obyvatel,linky,vymera
mesto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
liberec,LBK,103 979,6,106.09
plzen,PLK,170 936,3,137.65
most,ULK,66 644,5,86.94


In [42]:
mesta.iloc[:, 1:]

Unnamed: 0_level_0,obyvatel,linky,vymera
mesto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
brno,379 527,22,230.22
liberec,103 979,6,106.09
litvinov,24 143,5,40.7
most,66 644,5,86.94
olomouc,100 494,7,103.36
ostrava,290 450,15,214.23
plzen,170 936,3,137.65
praha,1 294 513,24,496.0


In [10]:
mesta2 = pandas.read_csv("mesta.csv", encoding="utf-8")
mesta2

Unnamed: 0,mesto,kraj,obyvatel,linky,vymera
0,brno,JHM,379 527,22,230.22
1,liberec,LBK,103 979,6,106.09
2,litvinov,ULK,24 143,5,40.7
3,most,ULK,66 644,5,86.94
4,olomouc,OLK,100 494,7,103.36
5,ostrava,MSK,290 450,15,214.23
6,plzen,PLK,170 936,3,137.65
7,praha,PHA,1 294 513,24,496.0


In [46]:
mesta2.loc[0]

mesto          brno
kraj            JHM
obyvatel    379 527
linky            22
vymera       230.22
Name: 0, dtype: object

In [47]:
mesta2.iloc[0]

mesto          brno
kraj            JHM
obyvatel    379 527
linky            22
vymera       230.22
Name: 0, dtype: object

In [48]:
mesta2.loc[3:6]

Unnamed: 0,mesto,kraj,obyvatel,linky,vymera
3,most,ULK,66 644,5,86.94
4,olomouc,OLK,100 494,7,103.36
5,ostrava,MSK,290 450,15,214.23
6,plzen,PLK,170 936,3,137.65


In [49]:
mesta2.iloc[3:6]

Unnamed: 0,mesto,kraj,obyvatel,linky,vymera
3,most,ULK,66 644,5,86.94
4,olomouc,OLK,100 494,7,103.36
5,ostrava,MSK,290 450,15,214.23


## 3. Ukládání dat

In [11]:
mesta2.to_csv("data2.csv", index=False)

In [9]:
mesta.to_csv("data.csv")

In [31]:
mesta.to_html("data.html")

In [13]:
mesta.to_excel("data.xlsx")

In [33]:
mesta.to_json("data.json", indent=4)

## A Cvičení

In [5]:
jmena = pandas.read_csv("jmena100.csv", index_col="jméno", encoding="utf-8")
jmena

Unnamed: 0_level_0,četnost,věk,pohlaví,svátek,původ
jméno,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Jiří,296090,49,m,24.4,řecký
Jan,293938,40,m,24.6. a 6.7,hebrejský
Petr,272135,42,m,22.2. a 29.6,řecký
Jana,264944,50,ž,24.5,hebrejský
Marie,260526,65,ž,12.9,hebrejský
...,...,...,...,...,...
Jindřich,26230,51,m,15.7,německý
Vlastimil,26014,54,m,17.3,slovanský
Iva,26003,46,ž,1.12,slovanský
Miloš,25509,53,m,25.1,slovanský


1.Vypište na konzoli informace o jménu Martin.

In [11]:
jmena.loc[["Martin"]]

Unnamed: 0_level_0,četnost,věk,pohlaví,svátek,původ
jméno,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Martin,188380,33,m,11.11,latinský


2. Vypište na konzoli informace pro jména Martin, Zuzana a Josef.

In [13]:
jmena.loc[["Martin","Zuzana","Josef"]]

Unnamed: 0_level_0,četnost,věk,pohlaví,svátek,původ
jméno,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Martin,188380,33,m,11.11,latinský
Zuzana,61382,34,ž,11.8,hebrejský
Josef,211317,57,m,19.3,hebrejský


3. Vypište na konzoli informace o všech nejčastějších jménech až po Martina.

In [14]:
jmena.loc[:"Martin"]

Unnamed: 0_level_0,četnost,věk,pohlaví,svátek,původ
jméno,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Jiří,296090,49,m,24.4,řecký
Jan,293938,40,m,24.6. a 6.7,hebrejský
Petr,272135,42,m,22.2. a 29.6,řecký
Jana,264944,50,ž,24.5,hebrejský
Marie,260526,65,ž,12.9,hebrejský
Josef,211317,57,m,19.3,hebrejský
Pavel,200997,46,m,29.6,latinský
Martin,188380,33,m,11.11,latinský


4. Vypište pouze průměrné věky osob mající jména mezi Martinem a Terezou.

In [18]:
jmena.loc["Martin":"Tereza", ["věk"]]

Unnamed: 0_level_0,věk
jméno,Unnamed: 1_level_1
Martin,33
Tomáš,30
Jaroslav,55
Eva,53
Miroslav,52
Hana,51
Anna,51
Zdeněk,54
Václav,51
Michal,32


5. Vypište průměrný věk a původ pro všechna jména od Libora dolů.

In [19]:
jmena.loc["Libor":, ["věk", "původ"]]

Unnamed: 0_level_0,věk,původ
jméno,Unnamed: 1_level_1,Unnamed: 2_level_1
Libor,44,latinský
Aneta,17,hebrejský
Simona,30,hebrejský
Růžena,69,slovanský
Radka,38,slovanský
Daniela,38,hebrejský
Denisa,23,řecký
Jindřich,51,německý
Vlastimil,54,slovanský
Iva,46,slovanský


6. Vypište sloupečky mezi věkem a původem pro všechna jména v tabulce.

In [21]:
jmena.loc[:,"věk":"původ"]

Unnamed: 0_level_0,věk,pohlaví,svátek,původ
jméno,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Jiří,49,m,24.4,řecký
Jan,40,m,24.6. a 6.7,hebrejský
Petr,42,m,22.2. a 29.6,řecký
Jana,50,ž,24.5,hebrejský
Marie,65,ž,12.9,hebrejský
...,...,...,...,...
Jindřich,51,m,15.7,německý
Vlastimil,54,m,17.3,slovanský
Iva,46,ž,1.12,slovanský
Miloš,53,m,25.1,slovanský


## 4. Index

Pokud index explicitně nevytvoříme jako v příkladu předtím, Pandas ho vytvoří automaticky číselný. Je to podobné jako číslování řádků v Excelu, každá tabulka má index. Jde jen o to, že si ho můžeme pojmenovat sami, máme-li k tomu rozumný důvod.

Připomenutí: takhle vypadal náš DataFrame doteď.

In [23]:
mesta

Unnamed: 0_level_0,kraj,obyvatel,linky,vymera
mesto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
brno,JHM,379 527,22,230.22
liberec,LBK,103 979,6,106.09
litvinov,ULK,24 143,5,40.7
most,ULK,66 644,5,86.94
olomouc,OLK,100 494,7,103.36
ostrava,MSK,290 450,15,214.23
plzen,PLK,170 936,3,137.65
praha,PHA,1 294 513,24,496.0


Nespecifikujeme explicitní index.

In [59]:
mesta = pandas.read_csv("mesta.csv", encoding="utf-8")
mesta

Unnamed: 0,mesto,kraj,obyvatel,linky,vymera
0,brno,JHM,379 527,22,230.22
1,liberec,LBK,103 979,6,106.09
2,litvinov,ULK,24 143,5,40.7
3,most,ULK,66 644,5,86.94
4,olomouc,OLK,100 494,7,103.36
5,ostrava,MSK,290 450,15,214.23
6,plzen,PLK,170 936,3,137.65
7,praha,PHA,1 294 513,24,496.0


Index je teď číselný. Přístup pomocí názvu řádků (`loc`) nebo pomocí jejich čísel (`iloc`) je teď velmi podobný. Jediný rozdíl je v indexování rozsahem.

In [25]:
mesta.index

RangeIndex(start=0, stop=8, step=1)

**LOC** vybírá dle indexu, který je zde číselný.

In [36]:
mesta.loc[:4]

Unnamed: 0,mesto,kraj,obyvatel,linky,vymera
0,brno,JHM,379 527,22,230.22
1,liberec,LBK,103 979,6,106.09
2,litvinov,ULK,24 143,5,40.7
3,most,ULK,66 644,5,86.94
4,olomouc,OLK,100 494,7,103.36


**ILOC** vybírá VŽDY dle čísla řádku.

In [37]:
mesta.iloc[:4]

Unnamed: 0,mesto,kraj,obyvatel,linky,vymera
0,brno,JHM,379 527,22,230.22
1,liberec,LBK,103 979,6,106.09
2,litvinov,ULK,24 143,5,40.7
3,most,ULK,66 644,5,86.94


Index můžeme manuálně nastavit na jeden ze sloupců. Ten potom zmizí z datové části, a přesune se do pozice indexu.

In [26]:
mesta.loc[2:4]

Unnamed: 0,mesto,kraj,obyvatel,linky,vymera
2,litvinov,ULK,24 143,5,40.7
3,most,ULK,66 644,5,86.94
4,olomouc,OLK,100 494,7,103.36


In [27]:
mesta.iloc[2:4]

Unnamed: 0,mesto,kraj,obyvatel,linky,vymera
2,litvinov,ULK,24 143,5,40.7
3,most,ULK,66 644,5,86.94


Nastavím si nový index, místo čísel chci opět index číselný. ALE NEOVLIIVŇUJE PŮVODNÍ DATAFRAME. Vrací mi KOPII.

In [60]:
mesta = mesta.set_index("mesto")
mesta

Unnamed: 0_level_0,kraj,obyvatel,linky,vymera
mesto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
brno,JHM,379 527,22,230.22
liberec,LBK,103 979,6,106.09
litvinov,ULK,24 143,5,40.7
most,ULK,66 644,5,86.94
olomouc,OLK,100 494,7,103.36
ostrava,MSK,290 450,15,214.23
plzen,PLK,170 936,3,137.65
praha,PHA,1 294 513,24,496.0


In [61]:
mesta = mesta.reset_index()
mesta

Unnamed: 0,mesto,kraj,obyvatel,linky,vymera
0,brno,JHM,379 527,22,230.22
1,liberec,LBK,103 979,6,106.09
2,litvinov,ULK,24 143,5,40.7
3,most,ULK,66 644,5,86.94
4,olomouc,OLK,100 494,7,103.36
5,ostrava,MSK,290 450,15,214.23
6,plzen,PLK,170 936,3,137.65
7,praha,PHA,1 294 513,24,496.0


In [62]:
mesta.reset_index(drop=True)
mesta

Unnamed: 0,mesto,kraj,obyvatel,linky,vymera
0,brno,JHM,379 527,22,230.22
1,liberec,LBK,103 979,6,106.09
2,litvinov,ULK,24 143,5,40.7
3,most,ULK,66 644,5,86.94
4,olomouc,OLK,100 494,7,103.36
5,ostrava,MSK,290 450,15,214.23
6,plzen,PLK,170 936,3,137.65
7,praha,PHA,1 294 513,24,496.0


In [63]:
mesta.index += 1
mesta

Unnamed: 0,mesto,kraj,obyvatel,linky,vymera
1,brno,JHM,379 527,22,230.22
2,liberec,LBK,103 979,6,106.09
3,litvinov,ULK,24 143,5,40.7
4,most,ULK,66 644,5,86.94
5,olomouc,OLK,100 494,7,103.36
6,ostrava,MSK,290 450,15,214.23
7,plzen,PLK,170 936,3,137.65
8,praha,PHA,1 294 513,24,496.0


## 5. Dotazy jako v SQL

Srovnáním DataFrame s tabulkou podobnost s databázemi nekončí. Pandas umožňují dotazovat se nad daty podobným způsobem jako SQL.

Vrátíme názvy měst jako index pro lepší srozumitelnost.

In [64]:
mesta = pandas.read_csv("mesta.csv", index_col="mesto", encoding="utf-8")
mesta

Unnamed: 0_level_0,kraj,obyvatel,linky,vymera
mesto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
brno,JHM,379 527,22,230.22
liberec,LBK,103 979,6,106.09
litvinov,ULK,24 143,5,40.7
most,ULK,66 644,5,86.94
olomouc,OLK,100 494,7,103.36
ostrava,MSK,290 450,15,214.23
plzen,PLK,170 936,3,137.65
praha,PHA,1 294 513,24,496.0


### Výběr sloupečků

**SQL:** `SELECT linky, obyvatel FROM mesta;`

In [40]:
mesta[["linky", "obyvatel"]]

Unnamed: 0_level_0,linky,obyvatel
mesto,Unnamed: 1_level_1,Unnamed: 2_level_1
brno,22,379 527
liberec,6,103 979
litvinov,5,24 143
most,5,66 644
olomouc,7,100 494
ostrava,15,290 450
plzen,3,170 936
praha,24,1 294 513


### Podmínky

**SQL:** `SELECT * FROM mesta WHERE linky > 10;`

In [41]:
mesta[mesta["linky"] > 10]

Unnamed: 0_level_0,kraj,obyvatel,linky,vymera
mesto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
brno,JHM,379 527,22,230.22
ostrava,MSK,290 450,15,214.23
praha,PHA,1 294 513,24,496.0


In [65]:
mesta["linky"]

mesto
brno        22
liberec      6
litvinov     5
most         5
olomouc      7
ostrava     15
plzen        3
praha       24
Name: linky, dtype: int64

In [66]:
mesta["linky"] > 10

mesto
brno         True
liberec     False
litvinov    False
most        False
olomouc     False
ostrava      True
plzen       False
praha        True
Name: linky, dtype: bool

In [71]:
#                 radky             sloupce
mesta.loc[mesta["linky"] > 10, ["kraj", "obyvatel"]]

Unnamed: 0_level_0,kraj,obyvatel
mesto,Unnamed: 1_level_1,Unnamed: 2_level_1
brno,JHM,379 527
ostrava,MSK,290 450
praha,PHA,1 294 513


**SQL:** `SELECT kraj, vymera FROM mesta WHERE vymera >= 100 AND vymera <= 200;`

In [42]:
mesta[(mesta["vymera"] >= 100) & (mesta["vymera"] <= 200)][["kraj", "vymera"]]

Unnamed: 0_level_0,kraj,vymera
mesto,Unnamed: 1_level_1,Unnamed: 2_level_1
liberec,LBK,106.09
olomouc,OLK,103.36
plzen,PLK,137.65


In [43]:
mesta.loc[(mesta['vymera'] >= 100) & (mesta['vymera'] <= 200), ["kraj", "vymera"]]

Unnamed: 0_level_0,kraj,vymera
mesto,Unnamed: 1_level_1,Unnamed: 2_level_1
liberec,LBK,106.09
olomouc,OLK,103.36
plzen,PLK,137.65


### Logické operátory v podmínkách

**SQL:** `SELECT linky FROM mesta WHERE kraj = 'JHM' OR kraj = 'OLK';`

In [44]:
mesta[(mesta['kraj'] == 'JHM') | (mesta['kraj'] == 'OLK')][['linky']]

Unnamed: 0_level_0,linky
mesto,Unnamed: 1_level_1
brno,22
olomouc,7


In [72]:
(mesta['kraj'] == 'JHM') | (mesta['kraj'] == 'OLK')

mesto
brno         True
liberec     False
litvinov    False
most        False
olomouc      True
ostrava     False
plzen       False
praha       False
Name: kraj, dtype: bool

**SQL:** `SELECT linky FROM mesta WHERE kraj IN ('JHM', 'ULK', 'OLK');`

In [74]:
mesta.loc[mesta['kraj'].isin(['JHM', 'ULK', 'OLK'])]['linky']

mesto
brno        22
litvinov     5
most         5
olomouc      7
Name: linky, dtype: int64

In [73]:
mesta.loc[mesta['kraj'].isin(['JHM', 'ULK', 'OLK'])][['linky']]

Unnamed: 0_level_0,linky
mesto,Unnamed: 1_level_1
brno,22
litvinov,5
most,5
olomouc,7


In [45]:
mesta[mesta['kraj'].isin(['JHM', 'ULK', 'OLK'])][['linky']]

Unnamed: 0_level_0,linky
mesto,Unnamed: 1_level_1
brno,22
litvinov,5
most,5
olomouc,7


**SQL:** `SELECT linky FROM mesta WHERE kraj NOT IN ('JHM', 'ULK', 'OLK');`

In [46]:
mesta[~mesta['kraj'].isin(['JHM', 'ULK', 'OLK'])][['linky']]

Unnamed: 0_level_0,linky
mesto,Unnamed: 1_level_1
liberec,6
ostrava,15
plzen,3
praha,24


## 6. Převod mezi DataFrame a seznamy

### DataFrame -> seznam

In [75]:
mesta.values.tolist()

[['JHM', '379 527', 22, 230.22],
 ['LBK', '103 979', 6, 106.09],
 ['ULK', '24 143', 5, 40.7],
 ['ULK', '66 644', 5, 86.94],
 ['OLK', '100 494', 7, 103.36],
 ['MSK', '290 450', 15, 214.23],
 ['PLK', '170 936', 3, 137.65],
 ['PHA', '1 294 513', 24, 496.0]]

V datech chybí názvy měst. Pandas totiž nebere index jako součást dat, ale jen jako popis tabulky. Je tedy potřeba ho do tabulky nejdřív dostat.

In [77]:
mesta.values

array([['JHM', '379 527', 22, 230.22],
       ['LBK', '103 979', 6, 106.09],
       ['ULK', '24 143', 5, 40.7],
       ['ULK', '66 644', 5, 86.94],
       ['OLK', '100 494', 7, 103.36],
       ['MSK', '290 450', 15, 214.23],
       ['PLK', '170 936', 3, 137.65],
       ['PHA', '1 294 513', 24, 496.0]], dtype=object)

In [78]:
mesta.reset_index()

Unnamed: 0,mesto,kraj,obyvatel,linky,vymera
0,brno,JHM,379 527,22,230.22
1,liberec,LBK,103 979,6,106.09
2,litvinov,ULK,24 143,5,40.7
3,most,ULK,66 644,5,86.94
4,olomouc,OLK,100 494,7,103.36
5,ostrava,MSK,290 450,15,214.23
6,plzen,PLK,170 936,3,137.65
7,praha,PHA,1 294 513,24,496.0


In [79]:
mesta_seznam = mesta.reset_index().values.tolist()
mesta_seznam

[['brno', 'JHM', '379 527', 22, 230.22],
 ['liberec', 'LBK', '103 979', 6, 106.09],
 ['litvinov', 'ULK', '24 143', 5, 40.7],
 ['most', 'ULK', '66 644', 5, 86.94],
 ['olomouc', 'OLK', '100 494', 7, 103.36],
 ['ostrava', 'MSK', '290 450', 15, 214.23],
 ['plzen', 'PLK', '170 936', 3, 137.65],
 ['praha', 'PHA', '1 294 513', 24, 496.0]]

Pozor, `list(mesta)` nedělá to co bychom čekali.

In [50]:
list(mesta)

['kraj', 'obyvatel', 'linky', 'vymera']

### Seznam -> DataFrame

In [51]:
pandas.DataFrame(mesta_seznam)

Unnamed: 0,0,1,2,3,4
0,brno,JHM,379 527,22,230.22
1,liberec,LBK,103 979,6,106.09
2,litvinov,ULK,24 143,5,40.7
3,most,ULK,66 644,5,86.94
4,olomouc,OLK,100 494,7,103.36
5,ostrava,MSK,290 450,15,214.23
6,plzen,PLK,170 936,3,137.65
7,praha,PHA,1 294 513,24,496.0


To funguje, akorát Pandas neví jak pojmenovat sloupce -- v seznamu žádná taková informace není. Pokud se nám nelíbí čísla která automatický dosadí, dodáme názvy sloupců sami.

In [52]:
pandas.DataFrame(mesta_seznam, columns=["mesto", "kraj", "obyvatel", "linky", "vymera"])

Unnamed: 0,mesto,kraj,obyvatel,linky,vymera
0,brno,JHM,379 527,22,230.22
1,liberec,LBK,103 979,6,106.09
2,litvinov,ULK,24 143,5,40.7
3,most,ULK,66 644,5,86.94
4,olomouc,OLK,100 494,7,103.36
5,ostrava,MSK,290 450,15,214.23
6,plzen,PLK,170 936,3,137.65
7,praha,PHA,1 294 513,24,496.0


## B Cvičení

### 2. Česká jména podruhé
Budeme pokračovat s daty o českých jménech z předchozího cvičení. Minule jsme používali sloupeček se jmény jako index. Tentokrát načtěte soubor se jmény tak, aby Pandas vyrobil index číselný. Proveďte následující dotazy

1. Vypište všechny řádky se jmény, jejichž nositelé mají průměrný věk vyšší než 60.
2. Vypište pouze jména z těch řádků, kde četnost je mezi 80 000 a 100 000.
3. Vypište jména a četnost pro jména se slovanským nebo hebrejským původem. Kolik takových jmen je?
4. Vypište všechna jména, která mají svátek prvních 7 dní v únoru.


In [81]:
jmena = pandas.read_csv("jmena100.csv", encoding="utf-8")
jmena

Unnamed: 0,jméno,četnost,věk,pohlaví,svátek,původ
0,Jiří,296090,49,m,24.4,řecký
1,Jan,293938,40,m,24.6. a 6.7,hebrejský
2,Petr,272135,42,m,22.2. a 29.6,řecký
3,Jana,264944,50,ž,24.5,hebrejský
4,Marie,260526,65,ž,12.9,hebrejský
...,...,...,...,...,...,...
95,Jindřich,26230,51,m,15.7,německý
96,Vlastimil,26014,54,m,17.3,slovanský
97,Iva,26003,46,ž,1.12,slovanský
98,Miloš,25509,53,m,25.1,slovanský


In [83]:
jmena[jmena["věk"]>60] #1.

Unnamed: 0,jméno,četnost,věk,pohlaví,svátek,původ
4,Marie,260526,65,ž,12.9,hebrejský
23,Věra,107388,63,ž,8.1,slovanský
30,Jaroslava,84556,63,ž,1.7,slovanský
38,Ludmila,72750,65,ž,16.9,slovanský
40,Zdeňka,69060,61,ž,23.6,slovanský
50,Jarmila,59666,65,ž,4.2,slovanský
53,Jiřina,55366,64,ž,15.2,řecký
64,Vlasta,41736,68,ž,23.12,slovanský
68,Božena,39851,72,ž,11.2,slovanský
70,Libuše,39269,66,ž,10.7,slovanský


In [87]:
jmena.loc[(jmena["četnost"]>=80000) & (jmena["četnost"]<=100000), ["jméno"]] #2.

Unnamed: 0,jméno
29,Veronika
30,Jaroslava
31,Vladimír
32,Tereza
33,Martina


In [92]:
jmena.loc[jmena["původ"].isin(['slovanský', 'hebrejský']), ["jméno","četnost"]] #3.

Unnamed: 0,jméno,četnost
1,Jan,293938
3,Jana,264944
4,Marie,260526
5,Josef,211317
9,Jaroslav,172785
10,Eva,152463
11,Miroslav,147753
12,Hana,145901
13,Anna,134819
14,Zdeněk,126094


In [90]:
jmena.loc[(jmena["původ"] == 'slovanský') | (jmena["původ"] == 'hebrejský'), ["jméno","četnost"]] #3.

Unnamed: 0,jméno,četnost
1,Jan,293938
3,Jana,264944
4,Marie,260526
5,Josef,211317
9,Jaroslav,172785
10,Eva,152463
11,Miroslav,147753
12,Hana,145901
13,Anna,134819
14,Zdeněk,126094


In [95]:
delka = len(jmena.loc[~jmena["původ"].isin(['slovanský', 'hebrejský']), ["jméno","četnost"]])
delka #3.

52

In [102]:
jmena.loc[jmena["svátek"].isin(["1.2", "2.2", "3.2", "4.2", "5.2", "6.2", "7.2"])] #4.

Unnamed: 0,jméno,četnost,věk,pohlaví,svátek,původ
29,Veronika,88854,25,ž,7.2,řecký
50,Jarmila,59666,65,ž,4.2,slovanský


### 3. Původ jmen
Napište program, který

1. Načte naše data o českých jménech.
2. Vytvoří z něj DataFrame, který obsahuje jména a četnosti jmen, která nejsou ani hebrejského, ani aramejského ani slovanského původu.
3. Převede tento DataFrame na obyčejné Python seznamy. Pomocí chroustání seznamů spočítá součet všech četností těchto jmen.
4. Na výstup vypíše, jaké procentuální zastoupení mají tato jména v celé ČR. Podle odhadů OSN má k osmému květnu 2019 Česká Republika 10 629 798 obyvatel.


In [106]:
jmena_1 = pandas.read_csv("jmena100.csv", encoding="utf-8")
jmena_1

Unnamed: 0,jméno,četnost,věk,pohlaví,svátek,původ
0,Jiří,296090,49,m,24.4,řecký
1,Jan,293938,40,m,24.6. a 6.7,hebrejský
2,Petr,272135,42,m,22.2. a 29.6,řecký
3,Jana,264944,50,ž,24.5,hebrejský
4,Marie,260526,65,ž,12.9,hebrejský
...,...,...,...,...,...,...
95,Jindřich,26230,51,m,15.7,německý
96,Vlastimil,26014,54,m,17.3,slovanský
97,Iva,26003,46,ž,1.12,slovanský
98,Miloš,25509,53,m,25.1,slovanský


In [109]:
jmena_2 = jmena.loc[~jmena["původ"].isin(['slovanský', 'aramejský', 'hebrejský']), ["jméno","četnost"]]
jmena_2

Unnamed: 0,jméno,četnost
0,Jiří,296090
2,Petr,272135
6,Pavel,200997
7,Martin,188380
17,František,122910
18,Lenka,118763
19,Kateřina,118127
20,Lucie,111937
25,Karel,104072
26,Lukáš,102982


In [118]:
jmena_seznam = jmena_2.values.tolist()
jmena_seznam
#pandas.DataFrame(mjmena_seznam, columns=["mesto", "kraj", "obyvatel", "linky", "vymera"])

[['Jiří', 296090],
 ['Petr', 272135],
 ['Pavel', 200997],
 ['Martin', 188380],
 ['František', 122910],
 ['Lenka', 118763],
 ['Kateřina', 118127],
 ['Lucie', 111937],
 ['Karel', 104072],
 ['Lukáš', 102982],
 ['Petra', 102693],
 ['Veronika', 88854],
 ['Tereza', 83692],
 ['Martina', 81312],
 ['Ondřej', 76225],
 ['Helena', 74391],
 ['Roman', 67754],
 ['Monika', 63857],
 ['Marek', 63088],
 ['Markéta', 59734],
 ['Barbora', 57201],
 ['Jiřina', 55366],
 ['Antonín', 53794],
 ['Marcela', 53654],
 ['Kristýna', 51422],
 ['Dagmar', 50646],
 ['Filip', 50464],
 ['Adéla', 45156],
 ['Pavla', 41774],
 ['Andrea', 41151],
 ['Irena', 41054],
 ['Klára', 39600],
 ['Nikola', 37996],
 ['Karolína', 36997],
 ['Iveta', 36461],
 ['Pavlína', 35863],
 ['Natálie', 33761],
 ['Olga', 33669],
 ['Dominik', 33322],
 ['Aleš', 33074],
 ['Blanka', 31516],
 ['Patrik', 30682],
 ['Renata', 30617],
 ['Libor', 30464],
 ['Denisa', 26299],
 ['Jindřich', 26230]]

In [121]:
cetnosti_jmen = sum([cj[1] for cj in jmena_seznam])
print(f"Četnost těchto jmen je: {cetnosti_jmen}.")

Četnost těchto jmen je: 3436226.


In [124]:
pocet_obyvatel = 10629798
zastoupeni = round((cetnosti_jmen / pocet_obyvatel)*100,2)
print(f"Procentuální zastoupení těchto jmen v celé ČR je {zastoupeni}%.")
print(f"Procentuální zastoupení těchto jmen v celé ČR je {zastoupeni:.02f}%.")

Procentuální zastoupení těchto jmen v celé ČR je 32.33%.
Procentuální zastoupení těchto jmen v celé ČR je 32.33%.


In [125]:
for jmeno_cetnost in jmena_seznam:
    jmeno = jmeno_cetnost[0]
    cetnost = jmeno_cetnost[1]
    relativni_cetnost = cetnost / pocet_obyvatel * 100.0
    print(f"Relativni cetnost jmena {jmeno} je {relativni_cetnost} %.")

Relativni cetnost jmena Jiří je 2.7854715583494625 %.
Relativni cetnost jmena Petr je 2.5601145007647372 %.
Relativni cetnost jmena Pavel je 1.8908825925008172 %.
Relativni cetnost jmena Martin je 1.7721879569113166 %.
Relativni cetnost jmena František je 1.1562778521285166 %.
Relativni cetnost jmena Lenka je 1.1172648812329264 %.
Relativni cetnost jmena Kateřina je 1.1112817007435136 %.
Relativni cetnost jmena Lucie je 1.0530491736531589 %.
Relativni cetnost jmena Karel je 0.9790590564373848 %.
Relativni cetnost jmena Lukáš je 0.9688048634602464 %.
Relativni cetnost jmena Petra je 0.9660860911938308 %.
Relativni cetnost jmena Veronika je 0.835895470450144 %.
Relativni cetnost jmena Tereza je 0.7873338703143747 %.
Relativni cetnost jmena Martina je 0.7649439810615404 %.
Relativni cetnost jmena Ondřej je 0.7170879446627302 %.
Relativni cetnost jmena Helena je 0.6998345594149578 %.
Relativni cetnost jmena Roman je 0.6373968724523269 %.
Relativni cetnost jmena Monika je 0.6007357806799338

# Čtení na doma

In [127]:
brands = ['subaru', 'toyota', 'honda', 'ford', 'mazda', 'tesla']
sbrands = pandas.Series(brands)
sbrands

0    subaru
1    toyota
2     honda
3      ford
4     mazda
5     tesla
dtype: object

**Series**

In [128]:
sbrands = pandas.Series(brands, [1, 2, 3, 4, 5, 6])
sbrands

1    subaru
2    toyota
3     honda
4      ford
5     mazda
6     tesla
dtype: object

**Series** s valstním INDEXem

In [129]:
sbrands = pandas.Series(brands, ['a', 'b', 'c', 'd', 'e', 'f'])
sbrands

a    subaru
b    toyota
c     honda
d      ford
e     mazda
f     tesla
dtype: object

In [131]:
sbrands = pandas.Series({
...   'a': 'subaru',
...   'b': 'toyota',
...   'c': 'honda',
...   'd': 'ford',
...   'e': 'mazda',
...   'f': 'tesla'
... })
sbrands

a    subaru
b    toyota
c     honda
d      ford
e     mazda
f     tesla
dtype: object

Série přímo ze slovníku.

In [133]:
sbrands[1]

'toyota'

In [134]:
sbrands['b']

'toyota'

In [136]:
mesta = pandas.read_csv('mesta.csv', index_col='mesto')
mesta

Unnamed: 0_level_0,kraj,obyvatel,linky,vymera
mesto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
brno,JHM,379 527,22,230.22
liberec,LBK,103 979,6,106.09
litvinov,ULK,24 143,5,40.7
most,ULK,66 644,5,86.94
olomouc,OLK,100 494,7,103.36
ostrava,MSK,290 450,15,214.23
plzen,PLK,170 936,3,137.65
praha,PHA,1 294 513,24,496.0


In [137]:
mesta['linky']

mesto
brno        22
liberec      6
litvinov     5
most         5
olomouc      7
ostrava     15
plzen        3
praha       24
Name: linky, dtype: int64

In [138]:
mesta['linky'] + mesta['linky']

mesto
brno        44
liberec     12
litvinov    10
most        10
olomouc     14
ostrava     30
plzen        6
praha       48
Name: linky, dtype: int64

In [139]:
mesta['linky'] * 3

mesto
brno        66
liberec     18
litvinov    15
most        15
olomouc     21
ostrava     45
plzen        9
praha       72
Name: linky, dtype: int64

In [140]:
mesta['linky'] > 10

mesto
brno         True
liberec     False
litvinov    False
most        False
olomouc     False
ostrava      True
plzen       False
praha        True
Name: linky, dtype: bool

In [143]:
query = (mesta['linky'] > 10) & (mesta['linky'] < 20)
query

mesto
brno        False
liberec     False
litvinov    False
most        False
olomouc     False
ostrava      True
plzen       False
praha       False
Name: linky, dtype: bool

In [144]:
mesta[query]

Unnamed: 0_level_0,kraj,obyvatel,linky,vymera
mesto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
ostrava,MSK,290 450,15,214.23


In [145]:
mesta[(mesta['linky'] > 10) & (mesta['linky'] < 20)]

Unnamed: 0_level_0,kraj,obyvatel,linky,vymera
mesto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
ostrava,MSK,290 450,15,214.23


In [146]:
mesta['linky'].mean()

10.875

In [147]:
mesta[mesta['linky'] == mesta['linky'].max()]

Unnamed: 0_level_0,kraj,obyvatel,linky,vymera
mesto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
praha,PHA,1 294 513,24,496.0


In [148]:
mesta['linky'].max()

24

### https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html
-  jaké všechny metody lze na sériích použít