# Úvod do Pandas

Potřeba nainstalovat jako modul do Pythonu. Pokud ještě nemáte, do terminálu (ne do Pythonovské konzole) napište:
* na Windows `pip install pandas`,
* na Linuxu nebo Macu `pip3 install pandas`.

Pandas:
* Je základní knihovna pro práci s daty v Pythonu.
* Velká část datové analýzy obnáší právě práci s Pandas.
* Datový soubor reprezentuje podobně jako tabulka v databázích, "DataFrame".

## 1. Základní práce s DataFrame

### Načítání dat

* Pandas umí načítat všechny možné formáty -- CSV, JSON, Excel, HTML, SQL databáze, a spoustu dalších, stejně tak je možné do nich ukládat.
    * Toho lze využít např. pro převod dat z Excelu do CSV.
* Rovněž umožňují stáhnout data z internetu -- místo cesty k souboru na disku dáme URL adresu.
* Podporují kompresi -- ZIP archivy a podobně.

In [1]:
import pandas

Příklad: tabulka měst provozujících tramvajovou dopravu.

In [2]:
mesta = pandas.read_csv("mesta.csv", index_col="mesto", encoding="utf-8")
mesta

Unnamed: 0_level_0,kraj,obyvatel,linky,vymera
mesto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
brno,JHM,379 527,22,230.22
liberec,LBK,103 979,6,106.09
litvinov,ULK,24 143,5,40.7
most,ULK,66 644,5,86.94
olomouc,OLK,100 494,7,103.36
ostrava,MSK,290 450,15,214.23
plzen,PLK,170 936,3,137.65
praha,PHA,1 294 513,24,496.0


### Základní informace o tabulce

Datové typy, názvy sloupců, počet neprázdných hodnot.

In [3]:
mesta.info()

<class 'pandas.core.frame.DataFrame'>
Index: 8 entries, brno to praha
Data columns (total 4 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   kraj      8 non-null      object 
 1   obyvatel  8 non-null      object 
 2   linky     8 non-null      int64  
 3   vymera    8 non-null      float64
dtypes: float64(1), int64(1), object(2)
memory usage: 320.0+ bytes


Velikost.

In [4]:
mesta.shape

(8, 4)

Názvy sloupců.

In [5]:
mesta.columns

Index(['kraj', 'obyvatel', 'linky', 'vymera'], dtype='object')

In [6]:
list(mesta)

['kraj', 'obyvatel', 'linky', 'vymera']

Základní statistické údaje -- jen na číselných sloupcích.

In [7]:
mesta.describe()

Unnamed: 0,linky,vymera
count,8.0,8.0
mean,10.875,176.89875
std,8.305549,143.759399
min,3.0,40.7
25%,5.0,99.255
50%,6.5,121.87
75%,16.75,218.2275
max,24.0,496.0


Prvních pár řádků tabulky.

In [8]:
mesta.head()

Unnamed: 0_level_0,kraj,obyvatel,linky,vymera
mesto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
brno,JHM,379 527,22,230.22
liberec,LBK,103 979,6,106.09
litvinov,ULK,24 143,5,40.7
most,ULK,66 644,5,86.94
olomouc,OLK,100 494,7,103.36


## 2. Základní selekce

![DataFrame](dataframe.svg)

### Výběr podle jmen řádků a sloupců

#### 1. Pouze řádky

In [9]:
mesta.loc["brno"]

kraj            JHM
obyvatel    379 527
linky            22
vymera       230.22
Name: brno, dtype: object

In [10]:
mesta.loc[["brno", "praha", "ostrava"]]

Unnamed: 0_level_0,kraj,obyvatel,linky,vymera
mesto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
brno,JHM,379 527,22,230.22
praha,PHA,1 294 513,24,496.0
ostrava,MSK,290 450,15,214.23


V prvním případě jsme dostali výsledek orientovaný na výšku, ve druhém na šířku. Poprvé jsme chtěli údaj o 1 městu a dostali tzv. `Series`, podruhé jsme chtěli údaj o více městech a dostali `DataFrame` (podmnožinu toho původního DataFrame `mesta`).

Mohli bychom si taky explicitně říct o výsledek pro 1 město v podobě DataFrame.

In [11]:
mesta.loc[["brno"]]

Unnamed: 0_level_0,kraj,obyvatel,linky,vymera
mesto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
brno,JHM,379 527,22,230.22


Lze použít také rozsah (záleží samozřejmě na pořadí, v jakém máme data uložena).

In [12]:
mesta.loc["most":"praha"]

Unnamed: 0_level_0,kraj,obyvatel,linky,vymera
mesto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
most,ULK,66 644,5,86.94
olomouc,OLK,100 494,7,103.36
ostrava,MSK,290 450,15,214.23
plzen,PLK,170 936,3,137.65
praha,PHA,1 294 513,24,496.0


Pozor na pořadí.

In [13]:
mesta.loc["praha":"most"]

Unnamed: 0_level_0,kraj,obyvatel,linky,vymera
mesto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1


In [14]:
mesta.loc["most":"praha":2]

Unnamed: 0_level_0,kraj,obyvatel,linky,vymera
mesto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
most,ULK,66 644,5,86.94
ostrava,MSK,290 450,15,214.23
praha,PHA,1 294 513,24,496.0


In [15]:
mesta.loc[:"most"]

Unnamed: 0_level_0,kraj,obyvatel,linky,vymera
mesto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
brno,JHM,379 527,22,230.22
liberec,LBK,103 979,6,106.09
litvinov,ULK,24 143,5,40.7
most,ULK,66 644,5,86.94


In [16]:
mesta.loc["most":]

Unnamed: 0_level_0,kraj,obyvatel,linky,vymera
mesto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
most,ULK,66 644,5,86.94
olomouc,OLK,100 494,7,103.36
ostrava,MSK,290 450,15,214.23
plzen,PLK,170 936,3,137.65
praha,PHA,1 294 513,24,496.0


Kdy to dává a kdy naopak nedává smysl?

#### 2. Pouze sloupce

In [17]:
mesta.loc[:, "kraj"]

mesto
brno        JHM
liberec     LBK
litvinov    ULK
most        ULK
olomouc     OLK
ostrava     MSK
plzen       PLK
praha       PHA
Name: kraj, dtype: object

In [18]:
mesta.loc[:, ["kraj", "linky"]]

Unnamed: 0_level_0,kraj,linky
mesto,Unnamed: 1_level_1,Unnamed: 2_level_1
brno,JHM,22
liberec,LBK,6
litvinov,ULK,5
most,ULK,5
olomouc,OLK,7
ostrava,MSK,15
plzen,PLK,3
praha,PHA,24


Zkrácený zápis.

In [19]:
mesta["kraj"]

mesto
brno        JHM
liberec     LBK
litvinov    ULK
most        ULK
olomouc     OLK
ostrava     MSK
plzen       PLK
praha       PHA
Name: kraj, dtype: object

In [20]:
mesta[["kraj", "linky"]]

Unnamed: 0_level_0,kraj,linky
mesto,Unnamed: 1_level_1,Unnamed: 2_level_1
brno,JHM,22
liberec,LBK,6
litvinov,ULK,5
most,ULK,5
olomouc,OLK,7
ostrava,MSK,15
plzen,PLK,3
praha,PHA,24


#### 3. Řádky a sloupce

In [21]:
mesta.loc["plzen", "linky"]

3

In [22]:
mesta.loc["most":"plzen", "obyvatel"]

mesto
most        66 644
olomouc    100 494
ostrava    290 450
plzen      170 936
Name: obyvatel, dtype: object

In [23]:
mesta.loc[["most", "brno", "praha"], ["obyvatel", "vymera"]]

Unnamed: 0_level_0,obyvatel,vymera
mesto,Unnamed: 1_level_1,Unnamed: 2_level_1
most,66 644,86.94
brno,379 527,230.22
praha,1 294 513,496.0


### Výběr podle pozic řádků a sloupců

Pro připomenutí.

In [24]:
mesta

Unnamed: 0_level_0,kraj,obyvatel,linky,vymera
mesto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
brno,JHM,379 527,22,230.22
liberec,LBK,103 979,6,106.09
litvinov,ULK,24 143,5,40.7
most,ULK,66 644,5,86.94
olomouc,OLK,100 494,7,103.36
ostrava,MSK,290 450,15,214.23
plzen,PLK,170 936,3,137.65
praha,PHA,1 294 513,24,496.0


In [25]:
mesta.iloc[2]

kraj           ULK
obyvatel    24 143
linky            5
vymera        40.7
Name: litvinov, dtype: object

In [26]:
mesta.iloc[[2]]

Unnamed: 0_level_0,kraj,obyvatel,linky,vymera
mesto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
litvinov,ULK,24 143,5,40.7


In [27]:
mesta.iloc[2, 1:]

obyvatel    24 143
linky            5
vymera        40.7
Name: litvinov, dtype: object

In [28]:
mesta.iloc[[2, 3, 5], [0, 1]]

Unnamed: 0_level_0,kraj,obyvatel
mesto,Unnamed: 1_level_1,Unnamed: 2_level_1
litvinov,ULK,24 143
most,ULK,66 644
ostrava,MSK,290 450


## 3. Ukládání dat

In [29]:
mesta.to_csv("data.csv")

In [30]:
mesta.to_html("data.html")

In [31]:
mesta.to_excel("data.xls")

In [32]:
mesta.to_json("data.json", indent=4)

## A Cvičení

## 4. Index

![DataFrame](dataframe.svg)

In [33]:
mesta = pandas.read_csv('mesta.csv', encoding='utf-8')
mesta

Unnamed: 0,mesto,kraj,obyvatel,linky,vymera
0,brno,JHM,379 527,22,230.22
1,liberec,LBK,103 979,6,106.09
2,litvinov,ULK,24 143,5,40.7
3,most,ULK,66 644,5,86.94
4,olomouc,OLK,100 494,7,103.36
5,ostrava,MSK,290 450,15,214.23
6,plzen,PLK,170 936,3,137.65
7,praha,PHA,1 294 513,24,496.0


Index je teď číselný. Přístup pomocí názvu řádků (`loc`) nebo pomocí jejich čísel (`iloc`) je teď velmi podobný. Jediný rozdíl je v indexování rozsahem.

In [34]:
mesta.loc[:4]

Unnamed: 0,mesto,kraj,obyvatel,linky,vymera
0,brno,JHM,379 527,22,230.22
1,liberec,LBK,103 979,6,106.09
2,litvinov,ULK,24 143,5,40.7
3,most,ULK,66 644,5,86.94
4,olomouc,OLK,100 494,7,103.36


In [35]:
mesta.iloc[:4]

Unnamed: 0,mesto,kraj,obyvatel,linky,vymera
0,brno,JHM,379 527,22,230.22
1,liberec,LBK,103 979,6,106.09
2,litvinov,ULK,24 143,5,40.7
3,most,ULK,66 644,5,86.94


Index můžeme manuálně nastavit na jeden ze sloupců. Ten potom zmizí z datové části, a přesune se do pozice indexu.

In [36]:
mesta.set_index("mesto")

Unnamed: 0_level_0,kraj,obyvatel,linky,vymera
mesto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
brno,JHM,379 527,22,230.22
liberec,LBK,103 979,6,106.09
litvinov,ULK,24 143,5,40.7
most,ULK,66 644,5,86.94
olomouc,OLK,100 494,7,103.36
ostrava,MSK,290 450,15,214.23
plzen,PLK,170 936,3,137.65
praha,PHA,1 294 513,24,496.0


## 5. Dotazy jako v SQL

Srovnáním DataFrame s tabulkou podobnost s databázemi nekončí. Pandas umožňují dotazovat se nad daty podobným způsobem jako SQL.

In [37]:
mesta = pandas.read_csv("mesta.csv", index_col="mesto", encoding="utf-8")
mesta

Unnamed: 0_level_0,kraj,obyvatel,linky,vymera
mesto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
brno,JHM,379 527,22,230.22
liberec,LBK,103 979,6,106.09
litvinov,ULK,24 143,5,40.7
most,ULK,66 644,5,86.94
olomouc,OLK,100 494,7,103.36
ostrava,MSK,290 450,15,214.23
plzen,PLK,170 936,3,137.65
praha,PHA,1 294 513,24,496.0


### Výběr sloupečků

**SQL:** `SELECT linky, obyvatel FROM mesta;`

In [38]:
mesta[["linky", "obyvatel"]]

Unnamed: 0_level_0,linky,obyvatel
mesto,Unnamed: 1_level_1,Unnamed: 2_level_1
brno,22,379 527
liberec,6,103 979
litvinov,5,24 143
most,5,66 644
olomouc,7,100 494
ostrava,15,290 450
plzen,3,170 936
praha,24,1 294 513


### Podmínky

**SQL:** `SELECT * FROM mesta WHERE linky > 10;`

In [39]:
mesta[mesta["linky"] > 10]

Unnamed: 0_level_0,kraj,obyvatel,linky,vymera
mesto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
brno,JHM,379 527,22,230.22
ostrava,MSK,290 450,15,214.23
praha,PHA,1 294 513,24,496.0


**SQL:** `SELECT kraj, vymera FROM mesta WHERE vymera >= 100 AND vymera <= 200;`

In [40]:
mesta[(mesta["vymera"] >= 100) & (mesta["vymera"] <= 200)][["kraj", "vymera"]]

Unnamed: 0_level_0,kraj,vymera
mesto,Unnamed: 1_level_1,Unnamed: 2_level_1
liberec,LBK,106.09
olomouc,OLK,103.36
plzen,PLK,137.65


In [41]:
mesta.loc[(mesta['vymera'] >= 100) & (mesta['vymera'] <= 200), ["kraj", "vymera"]]

Unnamed: 0_level_0,kraj,vymera
mesto,Unnamed: 1_level_1,Unnamed: 2_level_1
liberec,LBK,106.09
olomouc,OLK,103.36
plzen,PLK,137.65


### Logické operátory v podmínkách

**SQL:** `SELECT linky FROM mesta WHERE kraj = 'JHM' OR kraj = 'OLK';`

In [42]:
mesta[(mesta['kraj'] == 'JHM') | (mesta['kraj'] == 'OLK')][['linky']]

Unnamed: 0_level_0,linky
mesto,Unnamed: 1_level_1
brno,22
olomouc,7


**SQL:** `SELECT linky FROM mesta WHERE kraj IN ('JHM', 'ULK', 'OLK');`

In [43]:
mesta[mesta['kraj'].isin(['JHM', 'ULK', 'OLK'])][['linky']]

Unnamed: 0_level_0,linky
mesto,Unnamed: 1_level_1
brno,22
litvinov,5
most,5
olomouc,7


**SQL:** `SELECT linky FROM mesta WHERE kraj NOT IN ('JHM', 'ULK', 'OLK');`

In [44]:
mesta[~mesta['kraj'].isin(['JHM', 'ULK', 'OLK'])][['linky']]

Unnamed: 0_level_0,linky
mesto,Unnamed: 1_level_1
liberec,6
ostrava,15
plzen,3
praha,24


## 6. Převod mezi DataFrame a seznamy

### DataFrame -> seznam

In [45]:
mesta.values.tolist()

[['JHM', '379 527', 22, 230.22],
 ['LBK', '103 979', 6, 106.09],
 ['ULK', '24 143', 5, 40.7],
 ['ULK', '66 644', 5, 86.94],
 ['OLK', '100 494', 7, 103.36],
 ['MSK', '290 450', 15, 214.23],
 ['PLK', '170 936', 3, 137.65],
 ['PHA', '1 294 513', 24, 496.0]]

V datech chybí názvy měst. Pandas totiž nebere index jako součást dat, ale jen jako popis tabulky. Je tedy potřeba ho do tabulky nejdřív dostat.

In [46]:
mesta.reset_index()

Unnamed: 0,mesto,kraj,obyvatel,linky,vymera
0,brno,JHM,379 527,22,230.22
1,liberec,LBK,103 979,6,106.09
2,litvinov,ULK,24 143,5,40.7
3,most,ULK,66 644,5,86.94
4,olomouc,OLK,100 494,7,103.36
5,ostrava,MSK,290 450,15,214.23
6,plzen,PLK,170 936,3,137.65
7,praha,PHA,1 294 513,24,496.0


In [47]:
mesta_seznam = mesta.reset_index().values.tolist()
mesta_seznam

[['brno', 'JHM', '379 527', 22, 230.22],
 ['liberec', 'LBK', '103 979', 6, 106.09],
 ['litvinov', 'ULK', '24 143', 5, 40.7],
 ['most', 'ULK', '66 644', 5, 86.94],
 ['olomouc', 'OLK', '100 494', 7, 103.36],
 ['ostrava', 'MSK', '290 450', 15, 214.23],
 ['plzen', 'PLK', '170 936', 3, 137.65],
 ['praha', 'PHA', '1 294 513', 24, 496.0]]

Pozor, `list(mesta)` nedělá to co bychom čekali.

In [48]:
list(mesta)

['kraj', 'obyvatel', 'linky', 'vymera']

### Seznam -> DataFrame

In [49]:
pandas.DataFrame(mesta_seznam)

Unnamed: 0,0,1,2,3,4
0,brno,JHM,379 527,22,230.22
1,liberec,LBK,103 979,6,106.09
2,litvinov,ULK,24 143,5,40.7
3,most,ULK,66 644,5,86.94
4,olomouc,OLK,100 494,7,103.36
5,ostrava,MSK,290 450,15,214.23
6,plzen,PLK,170 936,3,137.65
7,praha,PHA,1 294 513,24,496.0


To funguje, akorát Pandas neví jak pojmenovat sloupce -- v seznamu žádná taková informace není. Pokud se nám nelíbí čísla která automatický dosadí, dodáme názvy sloupců sami.

In [50]:
pandas.DataFrame(mesta_seznam, columns=["mesto", "kraj", "obyvatel", "linky", "vymera"])

Unnamed: 0,mesto,kraj,obyvatel,linky,vymera
0,brno,JHM,379 527,22,230.22
1,liberec,LBK,103 979,6,106.09
2,litvinov,ULK,24 143,5,40.7
3,most,ULK,66 644,5,86.94
4,olomouc,OLK,100 494,7,103.36
5,ostrava,MSK,290 450,15,214.23
6,plzen,PLK,170 936,3,137.65
7,praha,PHA,1 294 513,24,496.0


## B Cvičení