# Pandas - filtrování dat

Filtrování dat je jedním ze základních každodenních úkolů datového analytika. Může mít různé kontexty: od jednoduchého procházení dat až po rozdělení výstupního datasetu na specifické podmnožiny, které je třeba analyzovat samostatně.

V Pandas máme dvě hlavní metody pro filtrování dat z `DataFrame`:

- **`query`** - obdoba dotazů známých z SQL
- **`loc`** - atribut pro přístup ke skupinám řádků nebo sloupců

## Načtení dat do DataFrame

Nejprve si připravíme data pro práci:

In [None]:
import pandas as pd

In [None]:
# Načtení CSV souboru
df = pd.read_csv(
    r'..\data\product_prices_renamed.csv',
    sep=';',                    # oddělovač sloupců
    encoding='UTF-8',           # kódování souboru
    decimal='.'                 # znak pro desetinnou čárku
)

In [None]:
# Zobrazení prvních řádků
df.head()

In [None]:
# Zobrazení informací o DataFrame
df.info()

---
## Metoda `query(expr)`

Metoda pro filtrování dat z DataFrame (obdoba operace `WHERE` v SQL).

Parametr `expr` je text dotazu (string).

### Příklad: Najdi řádky, kde `province == 'POLAND'`

In [None]:
df_poland = df.query("province == 'POLAND'")

In [None]:
df_poland.head()

### Operátory v metodě query

Metoda `query` podporuje všechny základní logické operátory: `==`, `!=`, `>`, `>=`, `<`, `<=`

### Příklad: Najdi řádky, kde hodnota je menší než 10

In [None]:
df.query("value < 10")

---
## Atribut `loc[]`

Atribut `loc` slouží k přístupu ke skupině řádků nebo sloupců pomocí indexů, popisků nebo polí true/false.

Stejně jako `query` podporuje všechny logické operátory: `==`, `!=`, `>`, `>=`, `<`, `<=`

### Příklad: Pomocí `loc` najdi řádky, kde `province == 'POLAND'`

In [None]:
df_poland = df.loc[df['province'] == 'POLAND']

In [None]:
df_poland.head()

---
## Filtrování podle více sloupců

### Metoda query - logické operátory

V metodě `query` můžeme použít operátory `and`, `or` a `not` (stejně jako v Pythonu).

### Příklad: Najdi data z Polska z ledna 2019 (2019-1)

In [None]:
df.query("province == 'POLAND' and date == '2019-1'")

### Příklad: Najdi data ze všech krajů (kromě celostátních) s cenou menší nebo rovnou 10

In [None]:
# Operátor 'not' neguje první podmínku
df.query("not province == 'POLAND' and value <= 10")

**Poznámka:** Pokud nezadáme závorky, operátor `not` se váže pouze na první logickou operaci (zde funguje jako `province != 'POLAND'`).

---
### Metoda loc - bitové operátory

Protože `loc` může být použit nejen pro filtrování dat, syntaxe je odlišná od `query`.

Operátory `and`, `or` a `not` nejsou dostupné. Jejich ekvivalenty jsou:

| Logický operátor | Bitový operátor |
|------------------|------------------|
| and              | &                |
| or               | \|               |
| not              | ~                |

### Příklad: Pomocí `loc` najdi data z Polska z ledna 2019 (2019-1)

In [None]:
# Každá podmínka musí být v závorkách!
df.loc[
    (df['province'] == 'POLAND') &
    (df['date'] == '2019-1')
]

### Příklad: Pomocí `loc` najdi data mimo celostátní úroveň s cenou menší nebo rovnou 10

In [None]:
df.loc[
    ~(df['province'] == 'POLAND') &
    (df['value'] <= 10)
]

---
## `loc` nebo `query`?

Z pohledu výsledku jsou tyto metody ekvivalentní.

Ale `loc` snadno umožňuje kombinaci nejen logických operátorů, ale i dalších funkcí, jako je:

**`isin(values)`** - kontroluje, zda je daný prvek v množině. Funkce vrací Series s hodnotami `True/False`.

### Příklad: Najdi řádky patřící do kraje Lower Silesia nebo West Pomerania

In [None]:
# Vytvoření masky True/False
df['province'].isin(['LOWER SILESIA', 'WEST POMERANIA'])

In [None]:
# Použití masky pro filtrování
df.loc[df['province'].isin(['LOWER SILESIA', 'WEST POMERANIA'])]

---
## Otázky k zamyšlení

### Otázka 1: Jaký je rozdíl mezi `query` a `loc`?

*Odpověz vlastními slovy:*

### Otázka 2: Proč v `loc` musíme používat závorky kolem každé podmínky?

*Odpověz vlastními slovy:*

---
## Úlohy na opravu chyb

V následujících buňkách jsou chyby. Oprav je.

### Úloha 1: Oprav syntaxi v query

In [None]:
# CHYBA: Oprav tento kód
df.query(province == 'POLAND')

### Úloha 2: Oprav syntaxi v loc

In [None]:
# CHYBA: Oprav tento kód - chybí závorky
df.loc[
    df['province'] == 'POLAND' &
    df['value'] > 5
]

### Úloha 3: Oprav operátor

In [None]:
# CHYBA: Oprav tento kód - špatný operátor pro loc
df.loc[
    (df['province'] == 'POLAND') and
    (df['value'] > 5)
]

---
## Praktické úlohy

### Úloha 1: Filtrování dat

Při generování souboru `product_prices_renamed.csv` došlo k následujícím chybám zpracování, které je třeba najít:

1. Ve sloupci **date** se objevila data z roku 1888 - '1888-0'
2. Zkontroluj sloupec **date** na podobné chyby, ale s budoucími hodnotami
3. Ve sloupci **value** byla zavedena příliš vysoká hodnota - najdi ji a lokalizuj řádek (použij `query`)
4. Ve sloupci **product_types** došlo k překlepu u jednoho z produktů. Najdi ho a odpovídající řádky. Kolik takových řádků je?

Nemusíš přiřazovat výsledky do proměnné: stačí je zobrazit.

> Na základě řešení této úlohy později opravíme všechny chyby v datech.

**Nápověda pro bod 2:**
- Existuje pouze jedna taková hodnota
- Použij `loc` nebo `query` s podmínkou `date > '2020-1'`

In [None]:
# Bod 1: Najdi data z roku 1888


In [None]:
# Bod 2: Najdi budoucí data


**Nápověda pro bod 3:**
- Existuje pouze jedna taková hodnota
- a) použij `describe()` pro zobrazení percentilů
- b) použij `loc` nebo `query` pro nalezení chybných záznamů

In [None]:
# Bod 3a: Zobraz statistiky sloupce value


In [None]:
# Bod 3b: Najdi chybnou hodnotu


**Nápověda pro bod 4:**
- a) použij metodu `unique()` pro nalezení všech dostupných hodnot
- b) použij `loc` nebo `query` pro nalezení chybných záznamů
- c) počet řádků lze zkontrolovat metodou `shape`

In [None]:
# Bod 4a: Zobraz unikátní hodnoty ve sloupci product_types


In [None]:
# Bod 4b: Najdi řádky s překlepem


In [None]:
# Bod 4c: Zjisti počet řádků


---
### Úloha 2: Výběr dat pro analýzu

Odpověz na následující otázky:

1. Jaká byla průměrná cena směsi mrkve a hrášku (carrot and pea mix) za 1 kg v Polsku v roce 2015?
2. Jaká byla průměrná cena jablečného džusu (apple juice) v letech 2016-2018 v kraji Masovia?
3. Jaká byla průměrná cena rajčatové pasty (tomato paste) v kraji Lower Silesia v letech 2003-2015? Ve srovnání s ostatními produkty ti připadá rozumná?

Navrhni, co lze udělat s hodnotami rovnými 0. Jak to ovlivní výsledky bodu 3?

> Všechny skupiny produktů potřebné pro tuto úlohu jsou ve sloupci **product_types**.

In [None]:
# Otázka 1: Průměrná cena směsi mrkve a hrášku v Polsku 2015


In [None]:
# Otázka 2: Průměrná cena jablečného džusu v Masovii 2016-2018


In [None]:
# Otázka 3: Průměrná cena rajčatové pasty v Lower Silesia 2003-2015


---
## Přehled použitých metod a funkcí

| Metoda/Funkce | Popis |
|---------------|-------|
| `pd.read_csv()` | Načtení CSV souboru do DataFrame |
| `df.head()` | Zobrazení prvních n řádků (výchozí 5) |
| `df.info()` | Zobrazení informací o DataFrame (typy, počet hodnot) |
| `df.query(expr)` | Filtrování dat pomocí textového dotazu (podobně jako SQL WHERE) |
| `df.loc[podmínka]` | Filtrování dat pomocí boolean masky |
| `df['sloupec'].isin(seznam)` | Kontrola, zda hodnoty jsou v daném seznamu |
| `df.describe()` | Statistický popis numerických sloupců |
| `df['sloupec'].unique()` | Vrátí unikátní hodnoty ve sloupci |
| `df.shape` | Vrátí rozměry DataFrame (řádky, sloupce) |
| `df['sloupec'].mean()` | Výpočet průměru |