# Tabulky

S tabulkami se pracuje pomocí knihovny Pandas. Narozdíl od Excelu při práci data v tabulce nevidíme, dokud si je nenecháme vypsat. To ale nevadí. A při rozsáhlých tabulkách to je stejně jedno.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

## Tabulky z externího souboru

Častým zdrojem dat je externí soubor. Je možné importovat sešity Excelu, ale nejrychlejší a nejphodlnější je pracovat s csv soubory, což jsou textové soubory s daty oddělenými čárkami. Mohou být na lokálním disku nebo je možné je stáhnout z URL. Po stažení je vhodné si prohlédnout, co máme za data. 

In [None]:
zdroj = "https://raw.githubusercontent.com/robert-marik/dmp/main/data/hudson_bay_lynx_hare.csv"
df = pd.read_csv(
    zdroj,
    skiprows = 2
)
df

Používáme náhled na začátek souboru, konec souboru, nebo náhodný vzorek. Málokdy nás zajímá celá tabulka, protože může mít tisíce řádků.

In [None]:
df.head() # podobne tail a sample pro konec a nahodny vyber

Často nás zajímají základní statistiky pro sloupce tabulky, rozměry tabulky a zda tabulka obdahuje nedefinované hodnoty.

In [None]:
df.describe()

In [None]:
# počet řádků a sloupců
df.shape

In [None]:
# True, pokud nějaká hodnota v tabulce chybí
df.isnull().values.any()

## Grafy

Dobrý přehled o datech v tabulce dávají grafy. Zpravidla jeden sloupec tabulky obsahuje data pro vodorovnou osu a další sloupce pro svislou osu.

In [None]:
df.plot(x="Year")

Někdy je vhodné ručně nastavit typ dat ve sloupcích. Například roky neni vhodné brát jako čísla, ale jako časový údaj. Popisky os jsou potom rozumnější.

In [None]:
df.dtypes

In [None]:
# Převod čísel pro letopočty na datový typ datetime.
df.Year = pd.to_datetime(df.Year, format='%Y')
df.dtypes

In [None]:
df.plot(x="Year")

In [None]:
from matplotlib.ticker import MultipleLocator

ax = df.plot(x="Year", subplots = True)
for a in ax:
    a.set(ylim=(0,None))
    a.grid(which='both')
    a.yaxis.set_minor_locator(MultipleLocator(5))

## Tvorba tabulek

Možností jak vytvořit tabulku je celá řada. Taždá možnost se hodí v jiné situaci. V zásadě můžeme buď přidávat sloupec po sloupci, nebo sestavit nějakou strukturu obsahující všechna data a z nich poté sestavit tabulku. Pokud uvedená struktura neumí pracovat se jmény sloupců. je nutné jména sloupců nastavit po vytvoření tabulky.

#### Možnost 1

Je možné nejprve vytvořit prázdnou tabulku a po sloupcích připojovat data. Sloupce musí být stejně dlouhé. Jméno sloupce definujeme při jeho vzniku.

In [None]:
x = np.linspace(0,2*np.pi,100)
df = pd.DataFrame()
df["x"] = x
df["sin"] = np.sin(x)
df["cos"] = np.cos(x)
df["soucet mocnin"] = ( df["sin"] )**2 + ( df["cos"] )**2
df.plot(x="x", grid=True)
df.sample(5)

#### Možnost 2

Další možnost je načíst data ze seznamu. Pokud jsou v seznamu data po řádcích, je nutné je převést do sloupců transponováním. Poté nastavíme jména sloupců.

In [None]:
x = np.linspace(0,2*np.pi,100)
data = [
    x,
    np.sin(x),
    np.cos(x),
    np.sin(x)**2+np.cos(x)**2
    ]
df = pd.DataFrame(data).T
df.columns = ["x","sin","cos","soucet mocnin"]
df.plot(x="x", grid=True)
df.sample(5)

#### Možnost 3

Jiná možnost je použitím datového typu dictionary. Jména sloupců nastavujeme při tvorbě dictionary. Data do dictionary je možné nastavit najednou, nebo položku po položce.

In [None]:
x = np.linspace(0,2*np.pi,100)
data = {    
    "x":x,
    "sin":np.sin(x),
    "cos":np.cos(x),
    "soucet mocnin":np.sin(x)**2+np.cos(x)**2
}
df = pd.DataFrame(data)
df.plot(x="x", grid=True)
df.sample(5)

In [None]:
x = np.linspace(0,2*np.pi,100)
data = {}
data["x"] = x
data["sin"] = np.sin(x)
data["cos"] = np.cos(x)
data["soucet mocnin"]=np.sin(x)**2+np.cos(x)**2
df = pd.DataFrame(data)
df.plot(x="x", grid=True)

df.sample(5)