# Pandas

Knihovna Pandas umožňuje zpracováva tabulková data. Kdo zná SQL databáze, ten se tu bude cítit jako doma – s podobným formátem dat pracuje i Pandas, i když je zde několik rozdílů.

Než nainstalujeme Pandas, doporučuji aktualizovat `pip`. Virtuální prostředí bývají občas vytvářeny s verzí, která neumí pracovat s *wheels* – binárním formátem, ze kterého se instaluje mnohem rychleji než ze zdrojového kódu.

Pandas se instalují jako ostatní knihovny: `python -m pip install pandas`.


Pro případ, že by tvůj `pip` neuměl *wheels*, nebo na PyPI nebyly příslušné *wheel* balíčky, je dobré mít na systému nainstalovaný překladač C a Fortranu (např. `gcc`, `gcc-gfortran`), a hlavičkyové soubory Pythonu (např. `python3-devel`). Jestli je ale nemáš, zkus instalaci přímo – *wheels* pro většinu operačních systémů existují – a až kdyby to nefungovalo, instaluj překladače a hlavičky.

In [3]:
# Vykřičníky na začátku těchto řádků značí, že příkazy zadávám do
# systémové příkazové řádky – ne do Pythonu:

! python -m pip install --upgrade pip
! python -m pip install pandas

Requirement already up-to-date: pip in ./__venv__/lib/python3.5/site-packages


Nainstalováno? Můžeme pandas naimportovat.

Tuhle knihovnu rádi používají vědci, a ti mají rádi zkratky. Ve spoustě tutoriálů na Webu proto najdeš `import pandas as pd`, případně rovnou použité `pd` jako zkratku pro `pandas`. Tento návod ale používá plné jméno.

In [4]:
import pandas

Základní datový typ, který Pandas nabízí, je `DataFrame`, neboli lidově „tabulka”. Jednotlivé záznamy jsou v ní uvedeny jako řádky, a informace o těchto údajích jsou úhledně srovnány ve sloupcích.
Tabulka se dá vytvořit ze seznamu řádků – taky seznamů. Udělejme si třeba tabulku britských herců:

In [32]:
actors = pandas.DataFrame([
    ["Terry", 1942, True],
    ["Michael", 1965, True],
    ["Eric", 1967, True],
    ["Graham", 1941, False],
    ["Terry", 1940, True],
    ["John", 1939, True],
])
actors

Unnamed: 0,0,1,2
0,Terry,1942,True
1,Michael,1965,True
2,Eric,1967,True
3,Graham,1941,False
4,Terry,1940,True
5,John,1939,True


V konzoli se tabulka vypíše textově, ale data v ní jsou stejná:

In [33]:
print(actors)

         0     1      2
0    Terry  1942   True
1  Michael  1965   True
2     Eric  1967   True
3   Graham  1941  False
4    Terry  1940   True
5     John  1939   True


Jiný způsob, jak vytvořit tabulku, je pomocí seznamu *slovníků*. Takhle se dají pojmenovat jednotlivé sloupce:

In [68]:
actors = pandas.DataFrame([
    {'name': "Terry", 'birth': 1942, 'alive': True},
    {'name': "Michael", 'birth': 1965, 'alive': True},
    {'name': "Eric", 'birth': 1967, 'alive': True},
    {'name': "Graham", 'birth': 1941, 'alive': False},
    {'name': "Terry", 'birth': 1940, 'alive': True},
    {'name': "John", 'birth': 1939, 'alive': True},
])
actors

Unnamed: 0,alive,birth,name
0,True,1942,Terry
1,True,1965,Michael
2,True,1967,Eric
3,False,1941,Graham
4,True,1940,Terry
5,True,1939,John


Základní informace o tabulce se dají získat metodou `info`:

In [69]:
actors.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 3 columns):
alive    6 non-null bool
birth    6 non-null int64
name     6 non-null object
dtypes: bool(1), int64(1), object(1)
memory usage: 182.0+ bytes


Vidíme, že je to tabulka (`DataFrame`), má 6 řádků indexovaných
(pomocí automaticky vygenerovaného klíče) od 0 to 5,
a 3 sloupce: jeden s objekty, jeden s `int64`, a jeden s `bool`.

Tyto datové typy (`dtypes`) se doplnily automaticky podle zadaných
hodnot. Pandas je používá hlavně pro šetření pamětí: Pythoní objekt
typu `bool` zabírá v paměti desítky bytů, ale v `bool` sloupci
si každá hodnota vystačí s jedním bytem.
(Typy jsou dynamické: když do sloupce zapíšeme „nekompatibilní”
hodnotu, kterou Pandas neumí převést na daný typ, typ sloupce
se automaticky zobecní.)

## Sloupce

Sloupec, neboli `Series`, je druhý základní datový typ v Pandas. Obsahuje sérii hodnot, jako seznam, ale navíc má jméno, datový typ, a *index* neboli klíč. Sloupce se dají získat indexováním tabulky:

In [71]:
years = actors['birth']
years

0    1942
1    1965
2    1967
3    1941
4    1940
5    1939
Name: birth, dtype: int64

In [72]:
type(years)

pandas.core.series.Series

In [73]:
years.name

'birth'

In [74]:
years.index

RangeIndex(start=0, stop=6, step=1)

In [75]:
years.dtype

dtype('int64')

S informacemi ve sloupcích se dá počítat.
Základní aritmetické operace (jako sčítání či dělení) se sloupcem a číslem provedou danou operaci nad každou hodnotou ve sloupci. Výsledek je nový sloupec:

In [76]:
two_digit = years - 1900
two_digit

0    42
1    65
2    67
3    41
4    40
5    39
Name: birth, dtype: int64

In [77]:
century = column // 100
century

0    19
1    19
2    19
3    19
4    19
5    19
Name: 1, dtype: int64