# Pandas: Zpracování dat (část 1)

V tomto notebooku se naučíte:
- Přejmenovávat sloupce pomocí `rename` a `columns`
- Měnit pořadí sloupců
- Pracovat s duplicitami (`duplicated`, `drop_duplicates`)
- Řadit data pomocí `sort_values`

In [None]:
import pandas as pd

## Příprava ukázkových dat

Pro demonstraci vytvoříme jednoduchý DataFrame:

In [None]:
# Vytvoření ukázkového DataFrame
df = pd.DataFrame({
    'province': ['Praha', 'Brno', 'Ostrava', 'Praha', 'Brno'],
    'product_types': ['Potraviny', 'Elektronika', 'Potraviny', 'Potraviny', 'Oblečení'],
    'product_line': ['Mléko', 'Telefon', 'Chléb', 'Mléko', 'Tričko'],
    'currency': ['CZK', 'CZK', 'CZK', 'CZK', 'CZK'],
    'value': [25.0, 15000.0, 35.0, 25.0, 299.0],
    'id': [1, 2, 3, 1, 4],
    'date': ['2024-01-01', '2024-01-02', '2024-01-03', '2024-01-01', '2024-01-04']
})

In [None]:
df

---
## 1. Přejmenování sloupců - `rename`

Metoda `rename` umožňuje přejmenovat vybrané sloupce pomocí slovníku. Je to bezpečnější než přepisovat všechny názvy najednou.

### Přejmenování vybraných sloupců pomocí slovníku

In [None]:
# Přejmenování vybraných sloupců pomocí slovníku
df_renamed = df.rename(columns={
    'province': 'district',
    'currency': 'money_unit'
})

In [None]:
df_upper.columns

In [None]:
df_upper.columns.tolist()

### Přejmenování všech sloupců pomocí funkce

In [None]:
# Převod všech názvů sloupců na velká písmena
df_upper = df.rename(columns=str.upper)

### Otázka k zamyšlení

Proč je metoda `rename` bezpečnější než přímé přepsání atributu `columns`, když pracujeme s DataFramem, který má desítky sloupců?

---
## 2. Změna pořadí sloupců

Pořadí sloupců změníme jednoduše tak, že je vybereme v požadovaném pořadí.

In [None]:
# Změna pořadí sloupců
df_reordered = df[['date', 'value', 'product_line', 'id', 'currency', 'product_types', 'province']]

In [None]:
df_reordered.head()

### Úloha: Opravte chybu

Následující kód obsahuje chybu. Najděte ji a opravte:

In [None]:
# Opravte tento kód - chceme sloupce v pořadí: id, product_line, value
df_selected = df['id', 'product_line', 'value']

---
## 3. Práce s duplicitami

Duplicity v datech mohou vést k chybným výpočtům. Pandas nabízí dva hlavní nástroje:
- `drop_duplicates` - odstraní duplicitní řádky
- `duplicated` - vrátí Series s hodnotami True/False

### Metoda `drop_duplicates`

Parametry:
- `subset` - sloupce, podle kterých se duplicity hledají
- `keep` - které duplicity ponechat ('first', 'last', False)

In [None]:
print("Původní počet řádků:")

In [None]:
df.shape[0]

In [None]:
# Kontrola, zda jsou v datech duplicity
raw_rows = df.shape[0]  # počet řádků na vstupu

# Odstranění duplicit - ponecháme první výskyt
df_wo_duplicates = df.drop_duplicates()

rows = df_wo_duplicates.shape[0]
has_duplicates = raw_rows != rows  # True pokud byly duplicity

In [None]:
print(f"Počet řádků po odstranění duplicit: {rows}")

In [None]:
print(f"Byly nalezeny duplicity: {has_duplicates}")

### Metoda `duplicated`

Vrací Series s hodnotami True/False. True znamená, že řádek je duplicitní.

In [None]:
# Označení duplicitních řádků
is_duplicated = df.duplicated()

In [None]:
print("Označení duplicitních řádků:")

In [None]:
is_duplicated

In [None]:
# Odstranění duplicit pomocí loc a negace (~)
df_clean = df.loc[~is_duplicated]

In [None]:
print("Data bez duplicit:")

In [None]:
df_clean

### Otázka k zamyšlení

Co znamená symbol `~` před proměnnou `is_duplicated` v příkazu `df.loc[~is_duplicated]`?

---
## 4. Řazení dat - `sort_values`

Parametry:
- `by` - sloupec(e) pro řazení
- `ascending` - True = vzestupně (výchozí), False = sestupně
- `na_position` - pozice prázdných hodnot ('first' nebo 'last')

### Řazení podle jednoho sloupce
Data seřazená podle hodnoty (sestupně)

In [None]:
# Řazení podle sloupce value sestupně
df_sorted = df.sort_values(by='value', ascending=False)

In [None]:
df_sorted

Poznámka: pokud chceme seřadit puvodní dataframe, pouzijeme parametr `inplace`

### Řazení podle více sloupců
Data seřazená podle product_line (sestupně) a value (vzestupně)

In [None]:
# Řazení podle více sloupců s různým směrem
df_multi_sorted = df.sort_values(
    by=['product_line', 'value'],
    ascending=[False, True],  # product_line sestupně, value vzestupně
    na_position='last' # NaN hodnoty na konec, 'first' by znamenalo na znamenalo na začátek
)

In [None]:
df_multi_sorted

### Úloha: Opravte chybu

Následující kód má seřadit data podle sloupce `province` vzestupně, ale obsahuje chybu:

In [None]:
# Opravte tento kód
# df_sorted_province = df.sort_values(by='province', ascending='True')

---
## Cvičení

### Cvičení 1: Úprava názvů sloupců

Načtěte soubor **product_prices.csv** do DataFrame. Upravte názvy sloupců tak, aby odpovídaly souboru **product_prices_renamed.csv**.

Proveďte dvě varianty:
1. Pomocí metody `rename`
2. Přepsáním všech názvů pomocí `columns`

Pro sjednocení názvů můžete použít tento slovník:
```python
{'Name': 'province',
 'Types of goods': 'product_types',
 'Measurement unit': 'currency',
 'id': 'id',
 'Types of products': 'product_line',
 'Value': 'value',
 'Date': 'date'}
```

> Pozor: Metoda `columns` přepisuje sloupce přímo na objektu (nevrací nový DataFrame). Pokud provedete nejdřív krok 2, nápověda bude nepoužitelná.

In [None]:
# Varianta 1: Pomocí rename


In [None]:
# Varianta 2: Pomocí columns


### Cvičení 2: Nejvyšší a nejnižší cena

Pomocí `sort_values` a dat ze souboru **product_prices_renamed.csv** odpovězte na následující otázky (použijte data agregovaná pro celé Polsko - `province=='POLAND'`):

1. Který produkt měl historicky nejvyšší cenu v PLN? (nezapomeňte odstranit hodnotu = 3000)
2. Který produkt dosáhl historicky nejnižší ceny v PLN? (nezapomeňte odfiltrovat hodnoty = 0)

Seřaďte data podle klíče:
1. podle sloupce **product_types** - sestupně
2. podle sloupce **value** - vzestupně

In [None]:
# Váš kód zde


**Poznámka: Triedenie vs filtrovanie**
Časová zložitosť:

- sort_values() je O(n log n)
- max() / min() s maskou je O(n)

_Pomalšie - triedenie O(n log n)_

df_highest = df.sort_values(by='value', ascending=False).head(1)

_Rýchlejšie - maska O(n)_

df_highest = df[df['value'] == df['value'].max()]

### Cvičení 3: Duplicity

Pomocí souboru **product_prices_renamed.csv**:

1. Zjistěte, kolik řádků je duplicitních
2. Pomocí `duplicated` zjistěte, které řádky jsou zdvojené
3. Pomocí `drop_duplicates` odstraňte všechny duplicity z výstupního datasetu (předpokládáme, že duplicitní řádek je chyba a je třeba ho odstranit) - výsledek zapište do nového DataFrame

**Nápovědy:**

Pro bod 2: Pro určení počtu duplicitních řádků použijte zdrojová data a výsledky z bodu 1.

Pro bod 3:
1. Nejdříve použijte `duplicated` pro nalezení duplicitních řádků
2. Použijte `loc` pro jejich oddělení z výstupní množiny
3. Použijte `drop_duplicates` pro získání pouze těch řádků, které jsou duplicitní

In [None]:
# 1. Počet duplicitních řádků


In [None]:
# 2. Které řádky jsou zdvojené


In [None]:
# 3. Odstranění všech duplicit


---
## Přehled použitých metod a funkcí

| Metoda/Funkce | Použití |
|---------------|--------|
| `df.rename(columns={...})` | Přejmenování vybraných sloupců pomocí slovníku |
| `df.rename(columns=funkce)` | Přejmenování všech sloupců pomocí funkce (např. str.upper) |
| `df.columns` | Přístup k názvům sloupců / přímé přepsání všech názvů |
| `df[[sloupce]]` | Výběr a změna pořadí sloupců |
| `df.drop_duplicates()` | Odstranění duplicitních řádků |
| `df.drop_duplicates(subset=[...])` | Odstranění duplicit podle vybraných sloupců |
| `df.drop_duplicates(keep='first'/'last'/False)` | Kontrola, které duplicity ponechat |
| `df.duplicated()` | Vrátí Series True/False - označení duplicitních řádků |
| `df.loc[podmínka]` | Filtrování řádků podle podmínky |
| `df.sort_values(by=...)` | Řazení dat podle sloupce/sloupců |
| `df.sort_values(ascending=True/False)` | Směr řazení (vzestupně/sestupně) |
| `df.sort_values(na_position='first'/'last')` | Pozice prázdných hodnot při řazení |
| `df.shape` | Rozměry DataFrame (řádky, sloupce) |
| `~` | Logická negace (obrácení True/False) |