In [None]:
import pandas

## Jak vytvořím tabulku pro Pandas

Tabulku pro Pandas lze načíst jednoduše ze souboru (ideálně csv)

In [None]:
actors = pandas.read_csv('Adds/actors.csv', index_col=None)
actors

Případně lze tabulku vytvořit ze seznamu seznamů

In [None]:
items = pandas.DataFrame([
    ["Book", 123],
    ["Computer", 2185],
])
items

nebo seznamu slovníků:

In [None]:
items = pandas.DataFrame([
    {"name": "Book", "price": 123},
    {"name": "Computer", "price": 2185},
])
items

V Jupyter Notebooku se tabulka vykreslí „graficky”. V konzoli se vypíše textově, ale data v ní jsou stejná:

In [None]:
print(actors)

Základní informace o tabulce se dají získat metodou info:

In [None]:
actors.info()

## Sloupce

Sloupec, neboli Series, je druhý základní datový typ v Pandas. Obsahuje sérii hodnot, jako seznam, ale navíc má jméno, datový typ a „index”, který jednotlivé hodnoty pojmenovává. Sloupce se dají získat vybráním z tabulky:

In [None]:
birth_years = actors['birth']
birth_years

In [None]:
type(birth_years)

In [None]:
birth_years.name

In [None]:
birth_years.index

In [None]:
birth_years.dtype

Můžu také chytře zkoumat data

In [None]:
actors['name'].unique() #actors.name.unique() - to samé, jen si musíme dát pozor, kdybychom používali názvy sloupců s diakritikou

In [None]:
actors['birth'].max()

S informacemi ve sloupcích se dá počítat. Základní aritmetické operace (jako sčítání či dělení) se sloupcem a skalární hodnotou (číslem, řetězcem, ...) provedou danou operaci nad každou hodnotou ve sloupci. Výsledek je nový sloupec:

In [None]:
ages = 2016 - birth_years
ages

Platí jak pro aritmetické operace (+, -, *, /, %) tak porovnávání

In [None]:
birth_years > 1940

Ze sloupců jdou vybírat prvky či podsekvence podobně jako třeba ze seznamů:

In [None]:
birth_years[2:-2]

A navíc je lze vybírat pomocí sloupce typu bool, což vybere ty záznamy, u kterých je odpovídající hodnota true. Tak lze rychle vybrat hodnoty, které odpovídají nějaké podmínce:

In [None]:
birth_years[birth_years > 1940]

Protože Python neumožňuje předefinovat chování operátorů and a or, logické spojení operací se tradičně dělá přes bitové operátory & (a) a | (nebo). Ty mají ale neintuitivní prioritu, proto se jednotlivé výrazy hodí uzavřít do závorek:

In [None]:
birth_years[(birth_years > 1940) & (birth_years < 1943)]

Sloupce mají zabudovanou celou řadu operací, od základních (např. column.sum(), která bývá rychlejší než vestavěná funkce sum()) po roztodivné statistické specialitky. Kompletní seznam hledejte v dokumentaci.

In [None]:
print('Soucet: ', birth_years.sum())
print('Prumer: ', birth_years.mean())
print('Median: ', birth_years.median())
print('Pocet unikatnich hodnot: ', birth_years.nunique())
print('Koeficient spicatosti: ', birth_years.kurtosis())

Zvláště mocná je metoda apply, která nám dovoluje aplikovat jakoukoli funkci na všechny hodnoty sloupce:

In [None]:
actors['name'].apply(lambda x: ''.join(reversed(x)))

Klíčové slovo __lambda__ se používá pro vytvoření nepojmenovaných funkcí. Hodí se v případech, kde chcete vytvořit funkci „na jedno použití“. Tedy tam, kde by jste normálně definovali funkci (pomocí def), pak ji jednou použili a zase smazali.

Tělo lambda funkce je omezené na jeden výraz. Takže jako lambda funkce není možné psát nic extra složitého.

Za klíčové slovo lambda se píší jména argumentů (nejsou v závorce), pak dvojtečka a pak výraz, který je zároveň tělem i návratovou hodnotou lambda funkce.

## pandas tabulky a vybírání prvků

Prvky ze sloupců jdou vybírat jako u seznamů. Ale z tabulek v Pandas jde vybírat spoustou různých způsobů. Tradiční hranaté závorky plní několik funkcí najednou, takže někdy není na první pohled jasné, co jaké indexování znamená:


In [None]:
actors['name']  # Jméno sloupce

In [None]:
actors[1:-1]  # Interval řádků

In [None]:
actors[['name', 'alive']]  # Seznam sloupců

My, coby programátoři píšící robustní kód, budeme čisté indexování ([]) používat jen pro výběr sloupců podle jména. Pro ostatní přístup použijeme tzv. indexery, jako __loc__ a __iloc__.

## Indexer loc

Indexer loc zprostředkovává primárně řádky, a to podle indexu, tedy hlaviček tabulky. V našem příkladu jsou řádky očíslované a sloupce pojmenované, ale dále uvidíme, že v obou indexech můžou být jakékoli hodnoty.

In [None]:

actors

In [None]:
actors.loc[2]

Použijeme-li k indexování n-tici, prvním prvkem se indexují řádky a druhým sloupce – podobně jako u NumPy:

In [None]:
actors.loc[2, 'birth']

Chcete-li vybrat sloupec, na místě řádků uveďte dvojtečku – t.j. kompletní interval.

In [None]:
actors.loc[:, 'alive']

Další možnost indexování je seznamem hodnot. Tím se dají řádky či sloupce vybírat, přeskupovat, nebo i duplikovat:

In [None]:
actors.loc[:, ['name', 'alive']]

In [None]:
actors.loc[[3, 2, 4, 4], :]

Výběr konkrétních hodnot

In [None]:
actors.loc[actors['name'] == 'Terry']

In [None]:
actors.loc[actors['name'].isin(['Terry', 'Eric'])]

## Indexer iloc

Druhý indexer, který si v krátkosti ukážeme, je iloc. Umí to samé co loc, jen nepracuje s klíčem, ale s pozicemi řádků či sloupců. Funguje tedy jako indexování v NumPy.

In [None]:
actors

In [None]:
actors.iloc[0, 0]

Protože iloc pracuje s čísly, záporná čísla a intervaly fungují jako ve standardním Pythonu:

In [None]:
actors.iloc[-1, 1]

## Indexy

Tato tabulka má dva klíče: jeden pro řádky, __index__, a druhý pro sloupce, který se jmenuje __columns__.

In [None]:
actors.index

In [None]:
actors.columns

Klíč se dá změnit tím, že do něj přiřadíme sloupec (nebo jinou sekvenci):

In [None]:
actors.index = actors['name']
actors

In [None]:
actors.index

Potom jde pomocí tohoto klíče vyhledávat. Chceme-li vyhledávat efektivně (což dává smysl, pokud by řádků byly miliony), je dobré nejdřív tabulku __podle indexu seřadit__:

In [None]:
actors = actors.sort_index()
actors

Do klíče můžete přiřadit i více hodnot

In [None]:
indexed_actors = actors.set_index(['name', 'birth'])
indexed_actors

## NaN neboli NULL či N/A

In [None]:
actors['last_name'].isnull()

V posledním příkladu vidíme, že Pandas doplňuje za neznámé hodnoty NaN, tedy "Not a Number" – hodnotu, která plní podobnou funkci jako NULL v SQL nebo None v Pythonu. Znamená, že daná informace chybí, není k dispozici nebo ani nedává smysl ji mít.

Abychom se NaN zbavili, máme dvě možnosti. Buď je zaplníme pomocí metody fillna hodnotou jako 0, False nebo, pro přehlednější výpis, prázdným řetězcem:

In [None]:
indexed_actors.fillna('')

## Grafy

Je-li nainstalována knihovna matplotlib, Pandas ji umí využít k tomu, aby kreslil grafy. Nastavení je trochu jiné pro Jupyter Notebook a pro příkazovou řádku.

Používáte-li Jupyter Notebook, zapněte integraci pro kreslení grafů pomocí:

In [None]:
import matplotlib

# Zapnout zobrazování grafů (procento uvozuje „magickou” zkratku IPythonu):
%matplotlib inline

In [None]:
actors['birth'].dropna().plot()

## Groupby

Často používaná operace pro zjednodušení tabulky je groupby, která sloučí dohromady řádky se stejnou hodnotou v některém sloupci a sloučená data nějak agreguje.

In [None]:
actors.groupby('birth')

In [None]:
actors.groupby('birth').count()

## Export tabulky do souboru

In [None]:
actors.to_csv('Adds/actors_export.csv')