# Pandas

Pandas je výkonná a všestranná knihovna pro jazyk Python, která se specializuje na zpracování a analýzu dat. Je široce používaná v oblasti datové vědy, strojového učení a statistiky kvůli své schopnosti efektivně pracovat s daty ve formě tabulek.

Název pochází z termínu "Panel Data", což je ekonomický termín pro multidimenzionální struktury dat.

## Stručná úvodní ukázka

In [None]:
# import knihovny pandas a nastavení běžně používaného aliasu
import pandas as pd

In [None]:
# vytvoření jednoduchého ukázkového datasetu
# praktická pozn.: dataset se takto v praxi většinou nevytváří, k tomu slouží zdroje z csv a jiných souborů, zdroje dat z SQL, API apod.
data_ukazka = {
    'Jméno': ['Anna', 'Petr', 'Eva', 'Tomáš', 'Jiří', 'Karel', 'Ivan', 'Květa'],
    'Věk': [28, 35, 22, 30, 23, 45, 31, 43],
    'Plat': [50000, 52000, 48000, 51000, 38500, 23000, 53500, 59000]
}

In [None]:
# vytvoření DataFrame z ukázkového datasetu a uložení do proměnné
df_ukazka = pd.DataFrame(data_ukazka)

In [None]:
# zobrazení prvních záznamů z dataframu (pokud nezadáme číslo jako parametr, zobrazí se 5 prvních záznamů)
df_ukazka.head()

In [None]:
# získání informací o dataframu a jeho sloupcích
df_ukazka.info()

In [None]:
# filtrování zaměstnanců podle věku
df_ukazka[df_ukazka['Věk'] > 33]

## Objekty a datové typy

### Objekty

- **Series**: Jednorozměrné pole podobné seznamu.
- **DataFrame**: Dvourozměrná tabulka (podobná Excelu) s řádky a sloupci.

### Datové typy

Pandas používá datové typy na základě knihovny NumPy, které rozšiřuje o některé specifické datové typy:

| Datový typ       | Popis                                                   |
|------------------|---------------------------------------------------------|
| `int64`          | celočíselné hodnoty (např. 1, 100, -5).                 |
| `float64`        | Desetinná čísla (např. 3.14, -0.01).                    |
| `bool`           | Logické hodnoty (True / False).                         |
| `object`         |  Obecný typ (obvykle pro řetězce nebo smíšená data).    |
| `string`         | Specifický typ pro textová data (od pandas 1.0).        |
| `datetime64[ns]` | Datum a čas (např. '2023-11-20 12:00:00').              |
| `timedelta[ns]`  | Rozdíl mezi dvěma datovými body (časový rozdíl).        |
| `category`       | Optimalizovaný typ pro opakující se kategorie.          |


## Načítání a ukládání dat

- Podpora formátů: CSV, Excel, SQL, JSON, HTML, HDF5, atd.
- Funkce:
 - pd.read_csv(), pd.to_csv()
 - pd.read_excel(), pd.to_excel()

In [None]:
import pandas as pd

df_people = pd.read_csv('zamestnanci.csv', sep=';')


 ## Prohlízení dat a informací

### Samotná data

 -  celé řádky dataframu od začátku

In [None]:
df_people.head() # Defaultně zobrazí prvních 5 řádků

In [None]:
df_people.head(10)  # Zobrazí prvních 10 řádků

- celé řádky dataframu od konce

In [None]:
df_people.tail()  # Defaultně zobrazí posledních 5 řádků

In [None]:
df_people.tail(8)  # Zobrazí posledních 8 řádků

 - náhodné řádky z tabulky

In [None]:
df_people.sample() # Defaultně zobrazí 5 náhodných řádků

In [None]:
df_people.sample(10) # Zobrazí 10 náhodných řádků

 - výběr konkrétního sloupce

In [None]:
df_people['Name']

 - výběr více sloupců

In [None]:
df_people[['Name', 'Age']]

 - výběr prvních nebo posledních několika řádků konkrétního sloupce

In [None]:
df_people['Salary'].head()  # Zobrazí mzdy prvních 5 řádků

In [None]:
df_people['Salary'].tail()  # Zobrazí mzdy posledních 5 řádků

 - Výběr konkrétní buňky (hodnoty)

In [None]:
df_people.iloc[0, 2]  # Hodnota 1. řádku a 3. sloupce

In [None]:
df_people.loc[0, 'City']  # Hodnota 1. řádku ve sloupci "City"

- jedinečné hodnoty

In [None]:
df_people['City'].unique()

 - rychlý pohled na strukturu a velikost dat

In [None]:
df_people.info()

 - počet řádků a sloupců

In [None]:
df_people.shape

 - názvy sloupců

In [None]:
df_people.columns

 - základní statistika

In [None]:
df_people.describe() # Poskytne základní statistiky pro číselné sloupce

In [None]:
df_people.describe(include='all') # Poskytne základní statistiky pro všechny sloupce

 - počet jedinečných hodnot v každém sloupci

In [None]:
df_people.nunique()

 - četnost (počet výskytů) jedinečných hodnot

In [None]:
df_people['City'].value_counts()

## Manipulace dat

### Úprava datových typů

 - v přechozí části jsme se dozvěděli, jaké datové typy Pandas používá
 - protože se může stát, že Pandas datový typ nerozpozná, případně jej chceme sami změnit, je to možné udělat následujícím způsobem:

In [None]:
df_people.info()

In [None]:
df_people['City'] = df_people['City'].astype('category')

In [None]:
df_people['Salary'] = df_people['Salary'].astype('float')

In [None]:
df_people.info()

### Filtrování a podmíněné výběry dat

#### Typy podmínek

| Operátor | Význam                          | Příklad použití                        |
|----------|----------------------------------|----------------------------------------|
| `==`     | Rovnost                         | df[df["Věk"] == 30]                   |
| `!=`     | Nerovnost                       | df[df["Město"] != "Praha"]            |
| `>`      | Větší než                       | df[df["Plat"] > 50000]                |
| `<`      | Menší než                       | df[df["Věk"] < 40]                    |
| `>=`     | Větší nebo rovno                | df[df["Věk"] >= 25]                   |
| `<=`     | Menší nebo rovno                | df[df["Plat"] <= 60000]               |
| `&`      | Logické A (AND)                 | df[(df["Věk"] > 25) & (df["Plat"] > 50000)] |
| `\|`      | Logické NEBO (OR)               | df[(df["Město"] == "Praha") \| (df["Město"] == "Brno")] |
| `~`      | Logická negace (NOT)            | df[~(df["Město"] == "Brno")]          |
| `.isin()`| Hodnota obsahuje v seznamu      | df[df["Město"].isin(["Praha", "Brno"])]|
| `.str.contains()` | Obsahuje podřetězec     | df[df["Jméno"].str.contains("ov")]    |

#### Ukázky

 - pro potřeby filtrování využijeme v Pandas podmínku

In [None]:
df_people[df_people["Salary"] > 50000]

 - podmínek může být víc a můžeme je sdružovat podobně jako v Pythonu
 - jen musíme využít `&` pro logické A, `|` pro logické NEBO, `~` pro logické NEGACE.

In [None]:
df_people[(df_people["Salary"] > 60000) & (df_people["City"] == "Prague")]

In [None]:
df_people[(df_people["Name"] == 'Hana') | (df_people["Age"] == 33)]

In [None]:
df_people[~(df_people["Name"] == 'Hana')]

 - lze také filtrovat na základě zjištění, zda je hodnota obsažena ve výčtu jiných hodnot

In [None]:
vip_jmena = ['Jiří', 'Lenka', 'Martin']
df_people[df_people['Name'].isin(vip_jmena)]

 - jako poslední si ukážeme způsob, jak zjistit, zda text obsahuje uvedenou část

In [None]:
df_people[df_people['Name'].str.contains('iř')]

- Výběr řádků a sloupců (pomocí loc, iloc).
- Filtrování a podmíněné výběry.
- Přidávání, úprava a mazání sloupců.

### Práce s chybějícími hodnotami

| Operace                        | Příkaz                                                                |
|--------------------------------|-----------------------------------------------------------------------|
| Kontrola NaN                   | `df.isna()`                                                          |
| Počet NaN                      | `df.isna().sum()`                                                    |
| Odstranění řádků s NaN         | `df.dropna()`                                                        |
| Odstranění sloupců s NaN       | `df.dropna(axis=1)`                                                  |
| Nahrazení konkrétní hodnotou   | `df.fillna(hodnota)`                                                 |
| Nahrazení průměrnou hodnotou   | `df.fillna(df["sloupec"].mean())`                                    |
| Forward fill (nahradit dopředu)| `df.fillna(method="ffill")`                                          |
| Filtrování řádků s NaN         | `df[df.isna().any(axis=1)]`                                          |
| Filtrování řádků bez NaN       | `df[df.notna().all(axis=1)]`                                         |

 - chybějící hodnoty

In [None]:
df_people.sample(5).isna()

 - počet chybějících hodnot po sloupcích

In [None]:
df_people.isna().sum()

 - odstranění všech řádků s alespoň jednou chybějící hodnotou

In [None]:
df_people.dropna()

 - odstranění sloupců s alespoň jednou chybějící hodnotou

In [None]:
df_people.dropna(axis=1)

 - nahrazení konkrétní hodnotou

In [None]:
mean_salary = df_people["Salary"].fillna(0)
df_people["Salary"].fillna(mean_salary)

 - nahrazení vypočtenou hodnotou

In [None]:
df_people["Salary"].mean()

## Agregace a transformace dat

### Agregační funkce

| Funkce            | Popis                                  | Příklad použití                         |
|--------------------|----------------------------------------|-----------------------------------------|
| `.sum()`          | Součet hodnot                         | df["Plat"].sum()                       |
| `.mean()`         | Průměrná hodnota                      | df["Plat"].mean()                      |
| `.median()`       | Mediánová hodnota                     | df["Plat"].median()                    |
| `.min()`          | Nejmenší hodnota                      | df["Věk"].min()                        |
| `.max()`          | Největší hodnota                      | df["Věk"].max()                        |
| `.count()`        | Počet hodnot                          | df["Město"].count()                    |
| `.std()`          | Směrodatná odchylka                   | df["Plat"].std()                       |
| `.var()`          | Variance                              | df["Plat"].var()                       |
| `.prod()`         | Součin všech hodnot                   | df["Plat"].prod()                      |
| `.agg()`          | Aplikace více agregací najednou       | df["Plat"].agg(['sum', 'mean'])        |
| `.quantile()`     | Hodnota kvantilu                      | df["Plat"].quantile(0.75)              |

In [None]:
df_people["Salary"].mean()

In [None]:
df_people["Salary"].median()

In [None]:
df_people["Age"].min()

In [None]:
df_people["Age"].max()

In [None]:
df_people['Active'].count()

- Funkce jako groupby(), pivot_table(), merge(), join().
- Převod a manipulace číselných, textových nebo časových dat.

### Seskupení dat

 - pomocí groupby můžeme data seskupit a využít agregační funkce

In [None]:
df_people.groupby("City", observed=True)["Salary"].mean() # Jednoduchá agregace

In [None]:
df_people.groupby(["City", "Age"], observed=True)["Salary"].sum() # Víceklíčová agregace

In [None]:
df_people.groupby("City", observed=True).agg({"Age": "mean", "Salary": "sum"}) # Použití více agregací

In [None]:
df_people.groupby("City", observed=True).filter(lambda x: x["Age"].mean() > 32) # Filtrování skupin

In [None]:
df_people.groupby(["Age"]).size() # Počet záznamů ve skupinách

- Statistika: mean(), median(), sum(), count().
- Práce s chybějícími hodnotami: isnull(), fillna(), dropna().