# Tipy a triky pro pandas

## Cíle - co se naučíme
* Číst data z 'nehezkého' Excelu
* Indexaci pomocí `loc` a `iloc`
* Odvozovat další sloupce pomocí řádkových funkcí
* Indexaci boolovskými hodnotami
* Vytvářet proměnné z textových proměnných
* Parsovat český formát data `01.12.2020`
* Vytvářet proměnné z datumu a času
* Vytvářet kontingenční tabulky a jiné agegace (včetně nových proměnných)

Nakonec budeme pracovat s reálnými daty z oblasti duplicitních skenů.

Začněme importem knihovny pandas. Vždy takto, je to idiom.

In [1]:
import pandas as pd

## Čtení dat z "nehezkého" Excelu

Soubor máme v této cestě:

In [None]:
file_path = "/data/duplicity/Duplicity_MobSken-2021_03-05.xlsx"

Načteme nový DataFrame pomocí funkce `pd.read_excel`. Nápověda: použijeme cestu k souboru `file_path`. Nahraďte `...` svým kódem.

In [2]:
df = ...

Podívejme se na prvních pár záznamů pomocí metody `head()`.

In [3]:
... 

Ellipsis

Někdy je sloupců opravdu hodně a nechceme šoupat zleva doprava. Proto je můžeme otočit metodou `transpose`, kterou můžeme dát za metodu `head`.

In [4]:
...

Ellipsis

## Ze dvou sloupců uděláme jiné dva

Pozorování: buď je vyplněn pracovník nebo pobočka. 

Co chceme:
* mít jeden identifikátor zdroje dokumentu
* vědět, jaký typ to byl (jestli pracovník nebo pobočka)

A to ve všech řádcích. Udělejme to nejprve pro první řádek, pak to nějak zobeníme. Bude se nám hodit metoda `iloc[]` a pamatujme, že v Pythonu se počítá od nuly.

In [5]:
row = ...
row

Ellipsis

Budeme pro tento řádek chtít identifikátor zroje a zdroj. Oceníme funkci `pd.insa`, tak zjistíme, jestli to bylo vyplněno. Pochopitelně můžeme použít příkaz `if`.

In [6]:
origin = ...
origin_type = ...

Teď z toho udělejme funkci a zkusme, zda funguje.

In [None]:
def get_origin_and_origin_type(row):
    return ...



Nyní můžeme tuto funkci aplikovat na včechny řádky `df` pomocí metody `apply`.

In [6]:
df_origin = ...


Nyní spojme novou a starou tabulku pomocí `pd.concat` tato funkce předpokládá na vstupu seznam spojovaných data framů.

In [7]:
df = ...

In [8]:
df.head().transpose()

AttributeError: 'ellipsis' object has no attribute 'head'

Tak se nám podařilo transformovat dva sloupce na jiné, smysluplnější sloupce. Máme tu ještě nějaké další kandidáty?

In [1]:
df.columns

NameError: name 'df' is not defined

Nyní ověřme, že čtyři potenciálně zajímavé sloupce jsou vždy unikátní. Hodit se k tomu bude:
* indexace vybraných sloupců pomocí `loc`
* oveření, že je hodnota vyplněná pomocí `notna`
* součet v řádku pomocí `sum`
* maximum ze součtů pomocí `max`

In [9]:
...

Ellipsis

Jaký je závěr? Má smysl tyto tři kombinovat podobně jako pobočku a pracovníka?

## Proměnné z textových sloupců
Jaké máme druhy faktur?

Je zajímavé vidět, že máme typ dokumentu "Faktura za lékařský honorář". Jaké máme další faktury.

Zajímat nás budou řádky, kde *Typ dokumentu* obsahuje `'aktur'` jako pod řetězec.

In [10]:
je_faktura = ...


Nyní vyberme pouze takové řádky, které jsou fakturou. Nápověda: pomůže nám pouze indexace `df[...]`

In [11]:
df_faktury = ...

Podívejme se kolik unikátních typů faktur máme. Nápověda: metoda `unique` aplikovaná na sloupec.

In [12]:
...

Ellipsis

A kolik faktur daného typu tedy máme? Nápověda:
* metoda `groupby` kombinovaná s metodou `count`
* každý řádek má unikátní hodnotu pro `'ID dokumentu'`

In [13]:
...

Ellipsis

## Práce s datumem a časem

Naše tabulka má sloupec `'Datum skenování'`. Budeme z něj chtít pro přehledy dostat **číslo týdne**. Hodit se bude funce `pd.datetime` na převedení data, následně metoda `isocalendar` pro potřebnou reprezentaci a konečně také atribut `week`.

In [14]:
...

Ellipsis

In [15]:
...

Ellipsis

In [16]:
...

Ellipsis

In [17]:
...

Ellipsis

In [18]:
...

Ellipsis

Ještě provedem kontrolu, jaké jsou unikátní týdny.

In [19]:
...

Ellipsis

## Kontingenční tabulky (a grafy)

Kontingenční tabulka nám může ukázat, jak se nějaké hodnoty mění v závislosti na jiných. Nás bude hodně zajímat sloupec `'Barva'`, protože ta vyjadřuje, zda byl dokument v pořádku. Budeme chtít vidět, jak se `'Barva'` mění v čase, tedy proti sloupci `'Týden'` a pak i proti sloupci `'Typ zdroje'`.

Protože nám to pandas umožní i vizualizovat, udělejme k tomu i importy.

In [20]:
%matplotlib inline
import matplotlib.pyplot as plt
plt.rcParams['axes.facecolor'] = 'gray'
plt.rcParams['figure.figsize'] = (20,5)

Kontingenční tabulku vytvoříme pomocí těchto kroků:
* medota `groupby` na seznam sloupců, které nás zajímají
* agregační metoda, v našem případě to bude metoda `count`
* výběr sloupce, podle kterého chceme agregovat, v našem případě to je počet unikátních `'ID dokumentu'`
* nejdůležitější trik je ale metoda `unstack`, která z hierarchického indexu udělá sloupce
* nakonec ještě nahradíme NaN hodnoty nulou

In [20]:
def pivot_table(df, columns):
    ...

pivot_week = pivot_table(df, ['Týden', 'Barva'])



Nyní si můžeme kontingenční tabulku efektivně zobrazit. Pandas DataFrame má metodu `plot.bar`.

In [21]:
...

Ellipsis

Může nás také zajímat poměr modrého a zeleného sloupce kontingenční tabulky. Ideálně zase jako graf.


In [22]:
...

Ellipsis

Nyní udělejte kontingenční tabulku pro `'Typ zdroje'`.

In [24]:
pivot_typ_zdroje = ...
pivot_typ_zdroje

Ellipsis

A také graf.

In [26]:
...

Ellipsis

A poměr modrého a zeleného.

# #############