# Pandas

Knihovna Pandas umožňuje zpracováva tabulková data. Kdo zná SQL databáze, ten se tu bude cítit jako doma – s podobným formátem dat pracuje i Pandas, i když je zde několik rozdílů.

Než nainstalujeme Pandas, doporučuji aktualizovat `pip`. Virtuální prostředí bývají občas vytvářeny s verzí, která neumí pracovat s *wheels* – binárním formátem, ze kterého se instaluje mnohem rychleji než ze zdrojového kódu.

Pandas se instalují jako ostatní knihovny: `python -m pip install pandas`.


Pro případ, že by tvůj `pip` neuměl *wheels*, nebo na PyPI nebyly příslušné *wheel* balíčky, je dobré mít na systému nainstalovaný překladač C a Fortranu (např. `gcc`, `gcc-gfortran`), a hlavičkyové soubory Pythonu (např. `python3-devel`). Jestli je ale nemáš, zkus instalaci přímo – *wheels* pro většinu operačních systémů existují – a až kdyby to nefungovalo, instaluj překladače a hlavičky.

In [1]:
# Vykřičníky na začátku těchto řádků značí, že příkazy zadávám do
# systémové příkazové řádky – ne do Pythonu:

! python -m pip install --upgrade pip
! python -m pip install pandas

Requirement already up-to-date: pip in ./__venv__/lib/python3.5/site-packages


Nainstalováno? Můžeme pandas naimportovat.

Tuhle knihovnu rádi používají vědci, a ti mají rádi zkratky. Ve spoustě tutoriálů na Webu proto najdeš `import pandas as pd`, případně rovnou použité `pd` jako zkratku pro `pandas`. Tento návod ale používá plné jméno.

In [2]:
import pandas

Základní datový typ, který Pandas nabízí, je `DataFrame`, neboli lidově „tabulka”. Jednotlivé záznamy jsou v ní uvedeny jako řádky, a informace o těchto údajích jsou úhledně srovnány ve sloupcích.
Tabulka se dá vytvořit ze seznamu řádků – taky seznamů. Udělejme si třeba tabulku britských herců:

In [3]:
actors = pandas.DataFrame([
    ["Terry", 1942, True],
    ["Michael", 1965, True],
    ["Eric", 1967, True],
    ["Graham", 1941, False],
    ["Terry", 1940, True],
    ["John", 1939, True],
])
actors

Unnamed: 0,0,1,2
0,Terry,1942,True
1,Michael,1965,True
2,Eric,1967,True
3,Graham,1941,False
4,Terry,1940,True
5,John,1939,True


V konzoli se tabulka vypíše textově, ale data v ní jsou stejná:

In [4]:
print(actors)

         0     1      2
0    Terry  1942   True
1  Michael  1965   True
2     Eric  1967   True
3   Graham  1941  False
4    Terry  1940   True
5     John  1939   True


Jiný způsob, jak vytvořit tabulku, je pomocí seznamu *slovníků*. Takhle se dají pojmenovat jednotlivé sloupce:

In [5]:
actors = pandas.DataFrame([
    {'name': "Terry", 'birth': 1942, 'alive': True},
    {'name': "Michael", 'birth': 1965, 'alive': True},
    {'name': "Eric", 'birth': 1967, 'alive': True},
    {'name': "Graham", 'birth': 1941, 'alive': False},
    {'name': "Terry", 'birth': 1940, 'alive': True},
    {'name': "John", 'birth': 1939, 'alive': True},
])
actors

Unnamed: 0,alive,birth,name
0,True,1942,Terry
1,True,1965,Michael
2,True,1967,Eric
3,False,1941,Graham
4,True,1940,Terry
5,True,1939,John


Základní informace o tabulce se dají získat metodou `info`:

In [6]:
actors.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 3 columns):
alive    6 non-null bool
birth    6 non-null int64
name     6 non-null object
dtypes: bool(1), int64(1), object(1)
memory usage: 182.0+ bytes


Vidíme, že je to tabulka (`DataFrame`), má 6 řádků indexovaných
(pomocí automaticky vygenerovaného klíče) od 0 to 5,
a 3 sloupce: jeden s objekty, jeden s `int64`, a jeden s `bool`.

Tyto datové typy (`dtypes`) se doplnily automaticky podle zadaných
hodnot. Pandas je používá hlavně pro šetření pamětí: Pythoní objekt
typu `bool` zabírá v paměti desítky bytů, ale v `bool` sloupci
si každá hodnota vystačí s jedním bytem.
(Typy jsou dynamické: když do sloupce zapíšeme „nekompatibilní”
hodnotu, kterou Pandas neumí převést na daný typ, typ sloupce
se automaticky zobecní.)

## Sloupce

Sloupec, neboli `Series`, je druhý základní datový typ v Pandas. Obsahuje sérii hodnot, jako seznam, ale navíc má jméno, datový typ, a *index* neboli klíč. Sloupce se dají získat indexováním tabulky:

In [7]:
birth_years = actors['birth']
birth_years

0    1942
1    1965
2    1967
3    1941
4    1940
5    1939
Name: birth, dtype: int64

In [8]:
type(birth_years)

pandas.core.series.Series

In [9]:
birth_years.name

'birth'

In [10]:
birth_years.index

RangeIndex(start=0, stop=6, step=1)

In [11]:
birth_years.dtype

dtype('int64')

S informacemi ve sloupcích se dá počítat.
Základní aritmetické operace (jako sčítání či dělení) se sloupcem a číslem provedou danou operaci nad každou hodnotou ve sloupci. Výsledek je nový sloupec:

In [12]:
ages = 2016 - birth_years
ages

0    74
1    51
2    49
3    75
4    76
5    77
Name: birth, dtype: int64

In [13]:
century = birth_years // 100
century

0    19
1    19
2    19
3    19
4    19
5    19
Name: birth, dtype: int64

To platí jako pro (`+`, `-`, `*`, `/`, `//`, `%`, `**`), tak pro porovnávání:

In [14]:
birth_years > 1950

0    False
1     True
2     True
3    False
4    False
5    False
Name: birth, dtype: bool

In [15]:
birth_years == 1940

0    False
1    False
2    False
3    False
4     True
5    False
Name: birth, dtype: bool

Když sloupec nesečteme se skalární hodnotou (číslem) ale sekvencí, např. seznamem nebo dalším sloupcem, operace se provede na odpovídajících prvcích. Sloupec a druhá sekvence musí mít stejnou délku.

In [16]:
actors['name'] + [' (1)', ' (2)', ' (3)', ' (4)', ' (5)', ' (6)']

0      Terry (1)
1    Michael (2)
2       Eric (3)
3     Graham (4)
4      Terry (5)
5       John (6)
Name: name, dtype: object

Sloupce lze indexovat podobně jako třeba seznamy:

In [17]:
birth_years[2]

1967

In [18]:
birth_years[2:-2]

2    1967
3    1941
Name: birth, dtype: int64

A navíc je lze indexovat pomocí sloupce typu `bool`. Tahle operace vybere ty hodnoty, které odpovídají podmínce.

In [19]:
birth_years[birth_years > 1950]

1    1965
2    1967
Name: birth, dtype: int64

Sloupce mají zabudovanou celou řadu operací, od základních (např. `column.sum()`, která bývá rychlejší než vestavěná funkce `sum()`) po roztodivné statistické specialitky. Kompletní seznam hledej v [dokumentaci](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.html).

In [20]:
print('Součet: ', birth_years.sum())
print('Průměr: ', birth_years.mean())
print('Medián: ', birth_years.median())
print('Počet unikátních hodnot: ', birth_years.nunique())
print('Koeficient špičatosti: ', birth_years.kurtosis())


Součet:  11694
Průměr:  1949.0
Medián:  1941.5
Počet unikátních hodnot:  6
Koeficient špičatosti:  -1.81541244914


## Tabulky a indexování

Tabulky jdou v Pandas indexovat spoustou způsobů. Tradiční hranaté závorky plní několik funkcí najednou, takže někdy není na první pohled jasné, co jaké indexování znamená:

In [21]:
actors['name']  # Jméno sloupce

0      Terry
1    Michael
2       Eric
3     Graham
4      Terry
5       John
Name: name, dtype: object

In [22]:
actors[1:-1]  # Interval řádků

Unnamed: 0,alive,birth,name
1,True,1965,Michael
2,True,1967,Eric
3,False,1941,Graham
4,True,1940,Terry


In [23]:
actors[['name', 'alive']]  # Seznam sloupců

Unnamed: 0,name,alive
0,Terry,True
1,Michael,True
2,Eric,True
3,Graham,False
4,Terry,True
5,John,True


Toto API zjednodušuje život datovým analytikům, kro které je knihovna Pandas primárně určena.

### `loc`

My programátoři, budeme radši používat *indexery*, které zprostředkovávají jeden konkrétní druh přístupu. První z nich je `loc`, který zprostředkovává primárně *řádky*, a to podle tzv. *indexu*. (V našem příkladu jsou řádky očíslované a sloupce pojmenované, ale dále uvidíme, že v těchto indexech můžou být jakékoli hodnoty).

In [24]:
actors.loc[2]

alive    True
birth    1967
name     Eric
Name: 2, dtype: object

Všiměte si, že `loc` není metoda: použiají se s ním hranaté závorky.


Použijeme-li k indexování *n*-tici, prvním prvkem se indexují řádky, a druhým sloupce:

In [25]:
actors.loc[2, 'birth']

1967

Na obou pozicích může být „interval”, ale na rozdíl od klasického Pythonu jsou ve výsledku obsaženy *obě koncové hodnoty*. (S indexem, který nemusí být vždy číselný, to dává smysl.)

In [26]:
actors.loc[2:4, 'alive':'birth']

Unnamed: 0,alive,birth
2,True,1967
3,False,1941
4,True,1940


Když uvedeme jen jednu hodnotu, sníží se dimenzionalita – z tabulky na sloupec (případně řádek – taky Series), ze sloupce na skalární hodnotu. Porovnej:

In [27]:
actors.loc[2:4, 'name']

2      Eric
3    Graham
4     Terry
Name: name, dtype: object

In [28]:
actors.loc[2:4, 'name':'name']

Unnamed: 0,name
2,Eric
3,Graham
4,Terry


Chceš-li vybrat sloupec, na místě řádků uveď `:` – „všechno”.

In [29]:
actors.loc[:, 'alive']

0     True
1     True
2     True
3    False
4     True
5     True
Name: alive, dtype: bool

Další možnost indexování je seznamem hodnot. Tím se dají řádky či sloupce vybírat, přeskupovat, nebo i duplikovat:

In [30]:
actors.loc[:, ['name', 'alive']]

Unnamed: 0,name,alive
0,Terry,True
1,Michael,True
2,Eric,True
3,Graham,False
4,Terry,True
5,John,True


In [31]:
actors.loc[[3, 2, 4, 4], :]

Unnamed: 0,alive,birth,name
3,False,1941,Graham
2,True,1967,Eric
4,True,1940,Terry
4,True,1940,Terry


### `iloc`

Druhý indexer, který si v krátkosti ukážeme, je `iloc`. Umí to samé co `loc`, jen nepracuje s indexy, ale s čísly řádků či sloupců.

In [32]:
actors.iloc[0, 0]

True

Protože `iloc` pracuje s čísly, záporné indexy a intervaly fungují jako ve standardním Pythonu:

In [33]:
actors.iloc[-1, 1]

1939

In [34]:
actors.iloc[:, 0:1]

Unnamed: 0,alive
0,True
1,True
2,True
3,False
4,True
5,True


Indexování seznamem ale funguje jako u `loc`:

In [35]:
actors.iloc[[0, -1, 3], [-1, 1, 0]]

Unnamed: 0,name,birth,alive
0,Terry,1942,True
5,John,1939,True
3,Graham,1941,False


Jak `loc` tak `iloc` fungují i na sloupcích, takže se dají kombinovat:

In [36]:
actors.iloc[-1].loc['name']

'John'