# Datetime v Pandas

Formát času a data se v datech objevuje velmi často. Může jít o sloupce jako:
- datum pozorování jevu,
- datum poslední úpravy záznamu,
- datum vytvoření záznamu.

Pandas nabízí plnou podporu pro práci s časovými daty.

V Pandas existují dva podporované datové typy pro data:
- `datetime64` - pro data včetně času,
- `timedelta64` - pro rozdíly mezi daty.

In [None]:
import pandas as pd

---
## Nejčastější formáty data

Existuje mnoho konvencí pro zápis dat, například:
- **dd/mm/yyyy** - den/měsíc/rok, např. 21/02/2021
- **mm/dd/yyyy** - měsíc/den/rok, např. 02/21/2021
- **d-m-yyyy** - bez úvodních nul, např. 21/2/2021
- **d-m-yy** - jen rok bez století, např. 21/2/21

---
## Formátovací kódy v Pythonu

Python používá speciální kódy pro formátování dat:

| Kód | Význam | Příklad |
|-----|--------|--------|
| `%Y` | rok včetně století | 2021, 2020 |
| `%y` | rok bez století (s úvodní nulou) | 01, 02, 21, 99 |
| `%d` | den v měsíci (s úvodní nulou) | 01, 02, 31 |
| `%m` | číslo měsíce (s úvodní nulou) | 01, 02, 12 |

---
## Převod na datetime v Pandas

Metoda `pd.to_datetime()` převádí data na typ `datetime64`.

**Parametry:**
- `errors` - co dělat při chybě:
  - `'ignore'` - hodnota zůstane nezměněna
  - `'coerce'` - nepřevedené hodnoty dostanou NaT (Not a Time)
  - `'raise'` - vyhodí chybu (výchozí chování)
- `format` - očekávaný formát dat ve sloupci

### Příklad 1: Převod seznamu ve formátu yyyy-mm-dd

In [None]:
# Data s úvodními nulami
example_1 = ['2020-02-12', '2021-11-13', '1999-01-31']

In [None]:
pd.to_datetime(example_1, format='%Y-%m-%d')

### Příklad 2: Data bez úvodních nul

In [None]:
# Data bez úvodních nul - Pandas si s tím poradí
example_2 = ['2020-2-12', '2013-12-1', '2029-2-2']

In [None]:
pd.to_datetime(example_2, format='%Y-%m-%d')

### Příklad 3: Data pouze s rokem a měsícem

In [None]:
# Pozor: '2029-13' obsahuje chybu (měsíc 13 neexistuje)
example_3 = ['2020-02', '2013-11', '2029-13']

In [None]:
# Tento kód vyhodí chybu kvůli neplatnému měsíci
pd.to_datetime(example_3, format='%Y-%m') # použi coerce

In [None]:
# Opravená verze bez chyby
example_3_fixed = ['2020-02', '2013-11', '2029-06']

In [None]:
pd.to_datetime(example_3_fixed, format='%Y-%m')

---
## Oprav chybu

V následujícím kódu je chyba. Najdi ji a oprav.

In [None]:
# Oprav chybu ve formátovacím řetězci
datumy = ['15/03/2023', '22/07/2024', '01/12/2025']
pd.to_datetime(datumy, format='%Y-%m-%d')  # Tento formát neodpovídá datům

---
## Extrakce částí z data

Při práci s daty je často potřeba agregovat data na vyšší úroveň (např. hodinová data na denní, denní na měsíční).

Pro Series převedený na `datetime64` můžeme extrahovat části pomocí `dt.fragment`:
- `dt.year` - rok
- `dt.month` - měsíc
- `dt.day` - den
- `dt.hour` - hodina
- `dt.quarter` - kvartál

### Příklad: Extrakce měsíce a roku

In [None]:
dates = ['2020-02', '2013-11', '2029-06']
extraction_example = pd.Series(pd.to_datetime(dates, format='%Y-%m'))

In [None]:
extraction_example

In [None]:
# Extrakce měsíců
extraction_example.dt.month

In [None]:
# Extrakce roků
extraction_example.dt.year

---
## Otázky k zamyšlení

1. Jaký je rozdíl mezi `%Y` a `%y`?
2. Co znamená hodnota `NaT`?
3. Jaký parametr použijeme, když chceme, aby nepřevedená data dostala hodnotu NaT místo vyvolání chyby?

---
## Doplň kód

Doplň chybějící části kódu.

In [None]:
# Doplň formát pro data ve tvaru '25.12.2023'
vanocni_datumy = ['24.12.2023', '25.12.2024', '26.12.2025']
pd.to_datetime(vanocni_datumy, format='___')  # Doplň formát

In [None]:
# Doplň kód pro extrakci dne z data
data = pd.Series(pd.to_datetime(['2023-05-15', '2024-08-22']))
data.___  # Doplň pro extrakci dne

---
## Formátování pomocí strftime

Metoda `dt.strftime()` umožňuje převést datetime na řetězec v libovolném formátu.

```python
Series_datetime.dt.strftime('%Y-%m-%d')
```

In [None]:
# Příklad použití strftime
datumy = pd.Series(pd.to_datetime(['2023-05-15', '2024-08-22', '2025-01-01']))

In [None]:
# Převod na formát 'YYYY-MM-01' (první den měsíce)
datumy.dt.strftime('%Y-%m-01')

---
---
# Úlohy

## Úloha 1: Formátování dat

Načti soubor _product_prices_cleaned.csv_, sloupec _date_ obsahuje informace o měsících hlášení hodnot.

1. Jaký formát data obsahuje?
2. Převeď sloupec na typ `datetime64`.
3. Přidej nový sloupec _month_ s číslem měsíce.
4. Přidej nový sloupec _quarter_ s číslem kvartálu.
5. Přidej nový sloupec _year_ s rokem.
6. Pomocí metody `dt.strftime` převeď sloupec _date_ na formát _YYYY-MM-01_.
7. Ulož změněný DataFrame do souboru.

In [None]:
# Tvůj kód zde


## Úloha 2: Vytvoř kód

Máš následující seznam dat v různých formátech. Převeď je všechny na datetime.

```python
data_eu = ['15/03/2023', '22/07/2024', '01/12/2025']  # formát dd/mm/yyyy
data_us = ['03/15/2023', '07/22/2024', '12/01/2025']  # formát mm/dd/yyyy
data_iso = ['2023-03-15', '2024-07-22', '2025-12-01']  # formát yyyy-mm-dd
```

In [None]:
# Tvůj kód zde


## Úloha 3: Analýza dat

Vytvoř DataFrame s následujícími daty o objednávkách:

```python
objednavky = {
    'id': [1, 2, 3, 4, 5],
    'datum': ['2024-01-15', '2024-03-22', '2024-06-10', '2024-09-05', '2024-12-20'],
    'castka': [1500, 2300, 890, 4500, 1200]
}
```

1. Převeď sloupec 'datum' na datetime.
2. Přidej sloupce 'mesic' a 'kvartal'.
3. Vypočítej celkovou částku za každý kvartál.

In [None]:
# Tvůj kód zde


---
---
## Přehled použitých metod a funkcí

| Metoda/Funkce | Popis |
|---------------|-------|
| `pd.to_datetime()` | Převod na typ datetime64 |
| `dt.year` | Extrakce roku z datetime |
| `dt.month` | Extrakce měsíce z datetime |
| `dt.day` | Extrakce dne z datetime |
| `dt.hour` | Extrakce hodiny z datetime |
| `dt.quarter` | Extrakce kvartálu z datetime |
| `dt.strftime()` | Formátování datetime na řetězec |