# Day_5_01_Filtering

| Metoda/Funkce | Popis |
|---------------|-------|
| `pd.read_csv()` | Načtení CSV souboru do DataFrame |
| `df.head()` | Zobrazení prvních n řádků (výchozí 5) |
| `df.info()` | Zobrazení informací o DataFrame (typy, počet hodnot) |
| `df.query(expr)` | Filtrování dat pomocí textového dotazu (podobně jako SQL WHERE) |
| `df.loc[podmínka]` | Filtrování dat pomocí boolean masky |
| `df['sloupec'].isin(seznam)` | Kontrola, zda hodnoty jsou v daném seznamu |
| `df.describe()` | Statistický popis numerických sloupců |
| `df['sloupec'].unique()` | Vrátí unikátní hodnoty ve sloupci |
| `df.shape` | Vrátí rozměry DataFrame (řádky, sloupce) |
| `df['sloupec'].mean()` | Výpočet průměru |

# Day_5_02 Data processing

| Metoda/Funkce | Použití |
|---------------|--------|
| `df.rename(columns={...})` | Přejmenování vybraných sloupců pomocí slovníku |
| `df.rename(columns=funkce)` | Přejmenování všech sloupců pomocí funkce (např. str.upper) |
| `df.columns` | Přístup k názvům sloupců / přímé přepsání všech názvů |
| `df[[sloupce]]` | Výběr a změna pořadí sloupců |
| `df.drop_duplicates()` | Odstranění duplicitních řádků |
| `df.drop_duplicates(subset=[...])` | Odstranění duplicit podle vybraných sloupců |
| `df.drop_duplicates(keep='first'/'last'/False)` | Kontrola, které duplicity ponechat |
| `df.duplicated()` | Vrátí Series True/False - označení duplicitních řádků |
| `df.loc[podmínka]` | Filtrování řádků podle podmínky |
| `df.sort_values(by=...)` | Řazení dat podle sloupce/sloupců |
| `df.sort_values(ascending=True/False)` | Směr řazení (vzestupně/sestupně) |
| `df.sort_values(na_position='first'/'last')` | Pozice prázdných hodnot při řazení |
| `df.shape` | Rozměry DataFrame (řádky, sloupce) |
| `~` | Logická negace (obrácení True/False) |

# Day_5_03 Data processing 2

---
## Přehled použitých metod a funkcí

| Metoda/Funkce | Popis |
|--------------|-------|
| `df.loc[podminka, sloupec]` | Výběr/úprava dat podle podmínky a sloupce |
| `df.copy()` | Vytvoření kopie DataFrame |
| `df.isnull()` / `df.isna()` | Kontrola, zda jsou hodnoty prázdné (vrací True/False) |
| `df.notnull()` / `df.notna()` | Kontrola, zda hodnoty nejsou prázdné |
| `df.dropna(subset=[...])` | Odstranění řádků s prázdnými hodnotami |
| `df.shape` | Vrací rozměry DataFrame (řádky, sloupce) |
| `lambda x: výraz` | Anonymní funkce pro jednoduché transformace |
| `df.apply(func)` | Aplikace funkce na sloupce nebo řádky |
| `df.drop_duplicates()` | Odstranění duplicitních řádků |
| `df.to_csv(path, sep, index)` | Uložení DataFrame do CSV souboru |

---
## Důležité: Jak metódy mění DataFrame?

### 1. Metody s parametrem `inplace`

Mnoho metod má parametr `inplace`, který určuje, zda se změní původní DataFrame:

**Bez `inplace` (výchozí `inplace=False`):**
- Vrací **nový DataFrame**
- Původní DataFrame zůstává **beze změny**
- Výsledek je třeba uložit do proměnné

```python
df_novy = df.dropna()  # df zůstává nezměněn
df_novy = df.drop_duplicates()  # df zůstává nezměněn
```

**S `inplace=True`:**
- Mění **přímo původní DataFrame**
- Vrací `None` (ne nový DataFrame!)
- Změna je nevratná

```python
df.dropna(inplace=True)  # df se změní přímo
df.drop_duplicates(inplace=True)  # df se změní přímo
```

**Metody s parametrem `inplace`:**
- `dropna()`
- `drop_duplicates()`
- `reset_index()`
- `sort_values()`
- `rename()`
- `fillna()`
- `replace()`

### 2. Metody BEZ parametru `inplace`

**`loc` - vždy mění přímo:**
```python
df.loc[podminka, 'sloupec'] = hodnota  # MĚNÍ PŮVODNÍ df!
```
- Nemá parametr `inplace`
- Vždy mění původní DataFrame nevratně
- Proto je dobré před použitím vytvořit kopii: `df = df.copy()`

**`apply()` - vždy vrací nový objekt:**
```python
vysledek = df.apply(funkce)  # VRACÍ nový DataFrame/Series
```
- Nemá parametr `inplace`
- Vždy vrací nový DataFrame nebo Series
- Původní DataFrame zůstává nezměněn

**Filtrování - vrací nový DataFrame:**
```python
df_filtrovany = df[df['A'] > 5]  # VRACÍ nový DataFrame
```

### 3. Doporučení pro začátečníky

**Bezpečný přístup - explicitní přiřazení:**
```python
df = df.dropna()  # Jasné: pracuješ s novým DataFrame
df = df.drop_duplicates()  # Jasné: vytváříš nový DataFrame
```

**Nebo explicitní `inplace`:**
```python
df.dropna(inplace=True)  # Jasné: měníš původní DataFrame
df.drop_duplicates(inplace=True)  # Jasné: měníš původní DataFrame
```

**Pozor na `loc` - vždy vytvoř kopii před úpravami:**
```python
df_backup = df.copy()  # Záloha před změnami
df.loc[podminka, 'sloupec'] = nova_hodnota  # Mění df!
```

# Day 5 04 GroupBy

| Metoda/Funkce | Použití |
|---------------|--------|
| `df.groupby(sloupec)` | Seskupí DataFrame podle zadaného sloupce/sloupců |
| `df.groupby([sloupec1, sloupec2])` | Seskupení podle více sloupců |
| `grouped.groups.keys()` | Zobrazí všechny klíče (unikátní hodnoty) skupin |
| `grouped.get_group(hodnota)` | Vrátí DataFrame pro konkrétní skupinu |
| `df['sloupec'].mean()` | Spočítá průměr hodnot ve sloupci |
| `df['sloupec'].median()` | Spočítá medián hodnot ve sloupci |
| `df['sloupec'].min()` | Vrátí minimální hodnotu ve sloupci |
| `df['sloupec'].max()` | Vrátí maximální hodnotu ve sloupci |
| `df['sloupec'].count()` | Spočítá počet neprázdných hodnot |
| `df['sloupec'].std()` | Spočítá směrodatnou odchylku |
| `df.agg([funkce1, funkce2])` | Aplikuje více agregačních funkcí najednou |
| `grouped['sloupec'].agg([...])` | Agregace na seskupených datech |

# Day 6 01 Merge

| Funkce/Metoda | Popis |
|---------------|-------|
| `pd.merge()` | Spojení dvou DataFrame na základě společných sloupců |
| `how='left'` | Left join - všechny řádky z levé tabulky |
| `how='right'` | Right join - všechny řádky z pravé tabulky |
| `how='inner'` | Inner join - pouze společné řádky (výchozí) |
| `how='outer'` | Outer join - všechny řádky z obou tabulek |
| `how='cross'` | Cross join - kartézský součin (každý s každým) |
| `on` | Sloupec pro spojení (stejný název v obou tabulkách) |
| `left_on` | Sloupec z levé tabulky pro spojení |
| `right_on` | Sloupec z pravé tabulky pro spojení |
| `df.loc[]` | Filtrování DataFrame pomocí logické podmínky |
| `df.sort_values()` | Seřazení DataFrame podle sloupce |