# Knihovna pandas a základní manipulace s tabulkovými daty

Před jakoukoli složitější analýzou je třeba naučit se základy práce se zpracovávanými daty. Data můžou být různého charakteru - jednorozměrná, dvourozměrná, strukturovaná, nestrukturovaná, obrazová, zvuková... V lekcích expolarativní datové analýzy budeme pracovat s daty převážně **tabulkovými** - tedy takovými, které jistě znáš ze svého oblíbeného (nebo neoblíbeného) tabulkového procesoru (spreadsheetu). Obvykle každý **řádek** takové tabulky odpovídá nějaké věci, exempláři čehosi, případně nějakému pozorování. V jednotlivých **sloupcích** se pak nacházejí jednotlivé vlastnosti či měřené veličiny pro tyto věci charakteristické.

Ve světě Pythonu je pro zpracování tabulkových dat nejpoužívanější knihovnou **pandas**. Ta umožňuje načítat data z mnohých formátů (včetně sešitů XLS(x)), různě je upravovat, velice efektivně počítat se sloupci, přímo zkoumat některé statistické ukazatele a v neposlední řadě výsledky pěkně vizualizovat. Tato lekce tě seznámí se základními použitými koncepty a naučí tě přistupovat k jednotlivým sloupcům, řádkům a buňkám.

Více o knihovně pandas najdeš na jejích domovských stránkách: https://pandas.pydata.org/

## Import knihoven

In [1]:
import pandas as pd     # K pandas budeme přistupovat pomocí aliasu pd

Při běžném programování se snažíme vyhnout aliasům, protože znepřehledňují kód, ale ve světě datové analytiky se některé aliasy tak zažily, že je budeme používat i v tomto kurzu (další ještě přijdou).

## Načtení tabulky s daty

Skočíme do pandas rovnýma nohama a ukážeme si typický příklad dat, která s touto knihovnou budeme zpracovávat.

Pro čtení dat má Pandas celou řadu funkcí `read_*`, díky kterým si poradí s celou řadou různých formátů. Poměrně častým je formát CSV (comma-separated values - [wiki](https://cs.wikipedia.org/wiki/CSV)), ve kterém jsou jednotlivé hodnoty oddělené čárkami.

**TODO** <span style="background-color: yellow">Ověřit následující: mechanismus přístupu k datům</span>

Pokud budeš tímto notebookem experimentovat, stáhni si nejdříve soubor s daty z [tohoto odkazu](static/pokemon.csv). Data pro pokusy jsou vytvořena z [komplexního Pokedexu na Githubu](https://github.com/veekun/pokedex).

In [2]:
data = pd.read_csv("static/pokemon.csv")

Data (ať už to je cokoliv) jsou nyní načtená v paměti. Pojďme se podívat, co se v nich ukrývá.

In [3]:
data

Unnamed: 0,id,name,height,weight,color,shape,is baby,type 1,type 2,hp,attack,defense,speed
0,1,bulbasaur,0.7,6.9,green,quadruped,False,Grass,Poison,45,49,49,45
1,2,ivysaur,1.0,13.0,green,quadruped,False,Grass,Poison,60,62,63,60
2,3,venusaur,2.0,100.0,green,quadruped,False,Grass,Poison,80,82,83,80
3,4,charmander,0.6,8.5,red,upright,False,Fire,,39,52,43,65
4,5,charmeleon,1.1,19.0,red,upright,False,Fire,,58,64,58,80
...,...,...,...,...,...,...,...,...,...,...,...,...,...
802,803,poipole,0.6,1.8,purple,upright,False,Poison,,67,73,67,73
803,804,naganadel,3.6,150.0,purple,wings,False,Poison,Dragon,73,73,73,121
804,805,stakataka,5.5,820.0,gray,quadruped,False,Rock,Steel,61,131,211,13
805,806,blacephalon,1.8,13.0,white,humanoid,False,Fire,Ghost,53,127,53,107


Pokud vše zafungovalo, jak má, měl(a) bys před sebou mít relativně pěkně naformátovanou tabulku. Základní zobrazení v notebooku ti ukáže prvních pět a posledních pět řádků (kdo by riskoval, že mu tisíce řádků zahltí okno prohlížeče?) v tabulce společně s informací o celkovém počtu řádků a sloupců. V tomto případě tabulka obsahuje celkem 13 vlastností (pojmenovaných sloupců) 807 různých pokémonů (očíslovaných řádků).

⚠️ **Varování:** V tomto jednoduchém případě se tabulka načetla správně hned na první pokus, bez jakýchkoliv specifických parametrů, všechny sloupce se zdají obsahovat použitelné hodnoty. To je (zejména u formátu CSV) vlastně z pekla štěstí. Obvykle jsou se vstupními daty problémy - kupříkladu nemají popsané sloupce (případně je mají popsané podivně), používají zvláštní oddělovače záznamů nebo desetinné části čísel, mnohé řádky obsahují chybějící (nebo špatně opsané) hodnoty, ... **Čištění dat** se budeme věnovat někdy příště.

Co je ten objekt uložený v proměnné `data` vlastně zač? Jaké je třídy?

## Základní třídy v `pandas` - DataFrame, Series, Index

In [4]:
type(data)

pandas.core.frame.DataFrame

Odpověď zní `DataFrame`. Tento termín (používaný i v dalších oblíbených statistických jazycích, například "R") je nespíš bez českého ekvivalentu, a tak nadále budeme mluvit o tabulkách či o instancích třídy DataFrame. Pokusme se nyní náš první DataFrame rozpitvat.

⚠️ **Varování:** Jistě si brzy všimneš, že se `DataFrame` svými funkcemi hodně podobná sešitu v tabulkovém procesoru, ale je potřeba si uvědomit, kde tato paralela končí. Na rozdíl od sešitů v Excelu nebo LibreOffice Calcu DataFrame obsahuje "pouze" suchá data, neukládá žádné formátování a nenabízí žádný "editor". Pěkná vizuální reprezentace je jen otázkou souhry `pandas` s Jupyter notebookem, případně pro to můžeš napsat vlastní kód.

In [5]:
sloupec = data["name"]
sloupec

0        bulbasaur
1          ivysaur
2         venusaur
3       charmander
4       charmeleon
          ...     
802        poipole
803      naganadel
804      stakataka
805    blacephalon
806        zeraora
Name: name, Length: 807, dtype: object

💡 DataFrame se mimo jiné chová podobně jako slovník (`dict`) - když do hranatých závorek vložíš nějaký klíč, získáš takto pojmenovaný sloupec. Ve skutečnosti hranaté závorky ("square brackets") umožňují vybírat z tabulek na základě různých dalších kritérií, ale k tomu se ještě dostaneme.

Naše pitva pokračuje zjištěním, co je zač `sloupec`.

In [6]:
type(sloupec)

pandas.core.series.Series

### Series

Sloupce jsou typu `Series` (česky "řada", ale ani toto slovo nebudeme používat). Tento typ vypadá jako seznam (`list`). Ověříme si, jestli se tak i chová:

In [7]:
sloupec[0]     # První jméno? ✓

'bulbasaur'

In [8]:
sloupec[-5:]   # Posledních pět jmen? ✓

802        poipole
803      naganadel
804      stakataka
805    blacephalon
806        zeraora
Name: name, dtype: object

**Úkol**: Zkus ještě nějaké další operace se seznamy, které už umíš, aplikovat i na `sloupec`. Někdy to půjde, někdy ne.

Není také žádný problém mezi seznamy a `Series` převádět. Vůbec nejjednodušší způsob, jak můžeš vytvořit vlastní Series (pomni, že mimo kontext tabulky), je vytvořit instanci této třídy s nějakým seznamem jako argumentem:

In [9]:
series = pd.Series([1, 2, 3])
series

0    1
1    2
2    3
dtype: int64

A jde to i naopak:

In [10]:
series.tolist()     # Varianta 1 (preferovaná, rychlejší)
list(series)        # Varianta 2

[1, 2, 3]

Čím se tedy `Series` od seznamu liší a v čem spočívá jeho výhoda?

Každý sloupec má především následujících pět základních vlastností:

<img src="static/series.svg" style="max-height: 20em;">

#### 1) hodnoty - `.values`

In [11]:
sloupec[:100].values    # Z estetických důvodů si sloupec trochu zkrátíme

array(['bulbasaur', 'ivysaur', 'venusaur', 'charmander', 'charmeleon',
       'charizard', 'squirtle', 'wartortle', 'blastoise', 'caterpie',
       'metapod', 'butterfree', 'weedle', 'kakuna', 'beedrill', 'pidgey',
       'pidgeotto', 'pidgeot', 'rattata', 'raticate', 'spearow', 'fearow',
       'ekans', 'arbok', 'pikachu', 'raichu', 'sandshrew', 'sandslash',
       'nidoran-f', 'nidorina', 'nidoqueen', 'nidoran-m', 'nidorino',
       'nidoking', 'clefairy', 'clefable', 'vulpix', 'ninetales',
       'jigglypuff', 'wigglytuff', 'zubat', 'golbat', 'oddish', 'gloom',
       'vileplume', 'paras', 'parasect', 'venonat', 'venomoth', 'diglett',
       'dugtrio', 'meowth', 'persian', 'psyduck', 'golduck', 'mankey',
       'primeape', 'growlithe', 'arcanine', 'poliwag', 'poliwhirl',
       'poliwrath', 'abra', 'kadabra', 'alakazam', 'machop', 'machoke',
       'machamp', 'bellsprout', 'weepinbell', 'victreebel', 'tentacool',
       'tentacruel', 'geodude', 'graveler', 'golem', 'ponyta', 'rapida

In [12]:
type(sloupec.values)

numpy.ndarray

💡 Hodnoty jsou v Series uloženy ve speciálním formátu postaveném na typu `ndarray` z knihovny `numpy`. Té se věnovat nebudeme, ale zejména v případě numerických hodnot ušetří místo v paměti a zrychlí matematické operace (například sečíst všechny hodnoty v Series je výrazně rychlejší než v seznamu).

#### 2) typ hodnot - `.dtype`

In [13]:
sloupec.dtype

dtype('O')

💡 Na rozdíl od seznamů by všechny prvky `Series` měly být stejného typu (pokud nejsou, zvolí se nejbližší společný nadtyp). `pandas` má vlastní sadu typů, tzv. **dtypes**, která částečně kopíruje výchozí datové typy v Pythonu, ale (zejména u numerických typů) se blíží více k tomu, jak s nimi pracuje procesor. A nehledejte u nich dědičnost (dobrá zpráva?). Nejběžnější typy si představíme u příležitosti operací, které se sloupci dají dělat.

#### 3) index - `.index`

In [14]:
sloupec.index

RangeIndex(start=0, stop=807, step=1)

💡 K prvkům seznamu přistupuješ pomocí číselného pořadí (0 - první prvek, 1 - druhý, ...), ze slovníku vybíráš podle klíče, pandas zavádí zobecněný **index**, který může být číselný, řetězcový, ale třeba i postavený na datu/času. O různých indexech viz níže.

#### 4) jméno - `.name`

In [15]:
sloupec.name

'name'

💡 `Series` může, ale nemusí mít jméno. Pozor, je to hodnota uložená uvnitř samotného objektu, nijak nesouvisí se jménem proměnné, do které ho uložíš (ale u sloupce v tabulce se použije pro přístup k němu).

#### 5) velikost - `.size`

In [16]:
sloupec.size

807

💡 Tato vlastnost říká, kolik je v `Series` prvků. Není nijak magická, chová se jako `len` u seznamu (a ostatně `len` lze použít i na `Series`). Pro úplnost uvádíme, že na rozdíl od ostatních vlastností je tato jen pro čtení.

**Úkol:** Zjisti hodnoty atributů `.name`, `.index`, `.dtype` a `.values` u objektu `series`. Všimneš si něčeho zajímavého?

Při vytváření objektů `Series` lze tyto atributy (až na `size` a v omezené míře `dtype`) explicitně uvést:

In [17]:
vek = pd.Series(
    [27, 65, 14],
    name="Věk",
    index=["Karla", "Martina", "Žofie"],
    dtype=float,
)
vek

Karla      27.0
Martina    65.0
Žofie      14.0
Name: Věk, dtype: float64

## Index

Ve výchozím stavu je u sloupců i tabulek použit bezejmenný číselný index, který řadí prvky po sobě od nuly výše:

In [18]:
sloupec.index

RangeIndex(start=0, stop=807, step=1)

Nicméně existují i typy indexů:

In [19]:
vek.index

Index(['Karla', 'Martina', 'Žofie'], dtype='object')

In [38]:
udalosti = pd.Series(
    ["Nezávislost Československa", "Konec druhé světové války", "Sametová revoluce"],
    index = [1918, 1945, 1989]
)
udalosti

1918    Nezávislost Československa
1945     Konec druhé světové války
1989             Sametová revoluce
dtype: object

In [39]:
udalosti.index

Int64Index([1918, 1945, 1989], dtype='int64')

Tento index je číselný, ale hodnoty nejsou (resp. jsou, ale nemusely by být) srovnané a jsou "děravé".

In [35]:
udalosti_presne = pd.Series(
    ["Nezávislost Československa", "Konec druhé světové války", "Sametová revoluce"],
    index = pd.DatetimeIndex(['1918-10-28', '1945-05-08', '1989-11-17'])
)
udalosti_presne.index

DatetimeIndex(['1918-10-28', '1945-05-08', '1989-11-17'], dtype='datetime64[ns]', freq=None)

Hodnoty indexu potom lze použít v přístupu k prvkům `Series`, podobně jako u slovníku. Možnosti jsou ale mnohem širší, ukážeme si je za chvíli v kontextu DataFrame.

In [36]:
vek["Martina"]

65.0

## DataFrame

Když už jsme se seznámili se sloupci a indexy, můžeme se vrátit k tabulce, resp. `DataFrame`.

<img src="static/df.svg" style="max-height: 25em;"/>

### Indexování

Využijeme toho, 

TODO: Vysvětli set_index

TODO: Vysvětli sort_index

In [22]:
pokemoni = data.set_index("name").sort_index()
pokemoni

Unnamed: 0_level_0,id,height,weight,color,shape,is baby,type 1,type 2,hp,attack,defense,speed
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
abomasnow,460,2.2,135.5,white,upright,False,Grass,Ice,90,92,75,60
abra,63,0.9,19.5,brown,upright,False,Psychic,,25,20,15,90
absol,359,1.2,47.0,white,quadruped,False,Dark,,65,130,60,75
accelgor,617,0.8,25.3,red,arms,False,Bug,,80,70,40,145
aegislash,681,1.7,53.0,brown,blob,False,Steel,Ghost,60,50,150,60
...,...,...,...,...,...,...,...,...,...,...,...,...
zoroark,571,1.6,81.1,gray,upright,False,Dark,,60,105,60,105
zorua,570,0.7,12.5,gray,quadruped,False,Dark,,40,65,40,65
zubat,41,0.8,7.5,purple,wings,False,Poison,Flying,40,45,35,55
zweilous,634,1.4,50.0,blue,quadruped,False,Dark,Dragon,72,85,70,58


In [23]:
pokemoni.index

Index(['abomasnow', 'abra', 'absol', 'accelgor', 'aegislash', 'aerodactyl',
       'aggron', 'aipom', 'alakazam', 'alomomola',
       ...
       'zapdos', 'zebstrika', 'zekrom', 'zeraora', 'zigzagoon', 'zoroark',
       'zorua', 'zubat', 'zweilous', 'zygarde'],
      dtype='object', name='name', length=807)

In [24]:
pokemoni.columns

Index(['id', 'height', 'weight', 'color', 'shape', 'is baby', 'type 1',
       'type 2', 'hp', 'attack', 'defense', 'speed'],
      dtype='object')

In [25]:
pokemoni["height"]

name
abomasnow    2.2
abra         0.9
absol        1.2
accelgor     0.8
aegislash    1.7
            ... 
zoroark      1.6
zorua        0.7
zubat        0.8
zweilous     1.4
zygarde      5.0
Name: height, Length: 807, dtype: float64

In [26]:
pokemoni[["height", "weight"]]

Unnamed: 0_level_0,height,weight
name,Unnamed: 1_level_1,Unnamed: 2_level_1
abomasnow,2.2,135.5
abra,0.9,19.5
absol,1.2,47.0
accelgor,0.8,25.3
aegislash,1.7,53.0
...,...,...
zoroark,1.6,81.1
zorua,0.7,12.5
zubat,0.8,7.5
zweilous,1.4,50.0


In [27]:
pokemoni.loc["abra"]

id              63
height         0.9
weight        19.5
color        brown
shape      upright
is baby      False
type 1     Psychic
type 2         NaN
hp              25
attack          20
defense         15
speed           90
Name: abra, dtype: object

In [28]:
pokemoni.loc["z":]

Unnamed: 0_level_0,id,height,weight,color,shape,is baby,type 1,type 2,hp,attack,defense,speed
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
zangoose,335,1.3,40.3,white,upright,False,Normal,,73,115,60,90
zapdos,145,1.6,52.6,yellow,wings,False,Electric,Flying,90,90,85,100
zebstrika,523,1.6,79.5,black,quadruped,False,Electric,,75,100,63,116
zekrom,644,2.9,345.0,black,upright,False,Dragon,Electric,100,150,120,90
zeraora,807,1.5,44.5,yellow,humanoid,False,Electric,,88,112,75,143
zigzagoon,263,0.4,17.5,brown,quadruped,False,Normal,,38,30,41,60
zoroark,571,1.6,81.1,gray,upright,False,Dark,,60,105,60,105
zorua,570,0.7,12.5,gray,quadruped,False,Dark,,40,65,40,65
zubat,41,0.8,7.5,purple,wings,False,Poison,Flying,40,45,35,55
zweilous,634,1.4,50.0,blue,quadruped,False,Dark,Dragon,72,85,70,58


In [29]:
pokemoni.iloc[44]

id                15
height             1
weight          29.5
color         yellow
shape      bug-wings
is baby        False
type 1           Bug
type 2        Poison
hp                65
attack            90
defense           40
speed             75
Name: beedrill, dtype: object

In [30]:
pokemoni.iloc[-10:]

Unnamed: 0_level_0,id,height,weight,color,shape,is baby,type 1,type 2,hp,attack,defense,speed
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
zapdos,145,1.6,52.6,yellow,wings,False,Electric,Flying,90,90,85,100
zebstrika,523,1.6,79.5,black,quadruped,False,Electric,,75,100,63,116
zekrom,644,2.9,345.0,black,upright,False,Dragon,Electric,100,150,120,90
zeraora,807,1.5,44.5,yellow,humanoid,False,Electric,,88,112,75,143
zigzagoon,263,0.4,17.5,brown,quadruped,False,Normal,,38,30,41,60
zoroark,571,1.6,81.1,gray,upright,False,Dark,,60,105,60,105
zorua,570,0.7,12.5,gray,quadruped,False,Dark,,40,65,40,65
zubat,41,0.8,7.5,purple,wings,False,Poison,Flying,40,45,35,55
zweilous,634,1.4,50.0,blue,quadruped,False,Dark,Dragon,72,85,70,58
zygarde,718,5.0,305.0,green,squiggle,False,Dragon,Ground,108,100,121,95


In [31]:
pokemoni.loc["zorua", "color"]

'gray'

In [32]:
pokemoni.loc["j":"k", ["color", "attack"]]

Unnamed: 0_level_0,color,attack
name,Unnamed: 1_level_1,Unnamed: 2_level_1
jangmo-o,gray,55
jellicent,white,60
jigglypuff,pink,45
jirachi,yellow,100
jolteon,yellow,65
joltik,yellow,47
jumpluff,blue,55
jynx,red,50


In [33]:
pokemoni.head()

Unnamed: 0_level_0,id,height,weight,color,shape,is baby,type 1,type 2,hp,attack,defense,speed
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
abomasnow,460,2.2,135.5,white,upright,False,Grass,Ice,90,92,75,60
abra,63,0.9,19.5,brown,upright,False,Psychic,,25,20,15,90
absol,359,1.2,47.0,white,quadruped,False,Dark,,65,130,60,75
accelgor,617,0.8,25.3,red,arms,False,Bug,,80,70,40,145
aegislash,681,1.7,53.0,brown,blob,False,Steel,Ghost,60,50,150,60


In [34]:
pokemoni.tail()

Unnamed: 0_level_0,id,height,weight,color,shape,is baby,type 1,type 2,hp,attack,defense,speed
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
zoroark,571,1.6,81.1,gray,upright,False,Dark,,60,105,60,105
zorua,570,0.7,12.5,gray,quadruped,False,Dark,,40,65,40,65
zubat,41,0.8,7.5,purple,wings,False,Poison,Flying,40,45,35,55
zweilous,634,1.4,50.0,blue,quadruped,False,Dark,Dragon,72,85,70,58
zygarde,718,5.0,305.0,green,squiggle,False,Dragon,Ground,108,100,121,95


## Shrnutí

V této lekci jsme si ukázali tři základní typy knihovny `pandas`:
    
* `Series` coby jednorozměrný objekt obsahující hodnoty stejného typu
* `DataFrame` coby dvojrozměrná tabulka složená z více `Series`
* `Index` coby zobecněný popis, jak přistupovat k prvkům `Series` nebo `DataFrame`

V další lekci si ukážeme, jaké typy (přesněji "dtypes") lze v pandas použít, začneme počítat a vůbec napodobovat funkce tabulkových procesorů.