# Datetime v Pandas

Formát času a data se v datech objevuje velmi často. Může jít o sloupce jako:
- datum pozorování jevu,
- datum poslední úpravy záznamu,
- datum vytvoření záznamu.

Pandas nabízí plnou podporu pro práci s časovými daty.

V Pandas existují dva podporované datové typy pro data:
- `datetime64` - pro data včetně času,
- `timedelta64` - pro rozdíly mezi daty.

In [1]:
import pandas as pd

---
## Nejčastější formáty data

Existuje mnoho konvencí pro zápis dat, například:
- **dd/mm/yyyy** - den/měsíc/rok, např. 05/02/2021
- **mm/dd/yyyy** - měsíc/den/rok, např. 02/21/2021
- **d-m-yyyy** - bez úvodních nul, např. 5-2-2021, 15-12-2021
- **d-m-yy** - jen rok bez století, např. 5-2-21

---
## Formátovací kódy v Pythonu

Python používá speciální kódy pro formátování dat:

| Kód | Význam | Příklad |
|-----|--------|--------|
| `%Y` | rok včetně století | 2021, 2020 |
| `%y` | rok bez století (s úvodní nulou) | 01, 02, 21, 99 |
| `%d` | den v měsíci (s úvodní nulou) | 01, 02, 31 |
| `%m` | číslo měsíce (s úvodní nulou) | 01, 02, 12 |

---
## Převod na datetime v Pandas

Metoda `pd.to_datetime()` převádí data na typ `datetime64`.

**Parametry:**
- `errors` - co dělat při chybě:
  - `'ignore'` - hodnota zůstane nezměněna
  - `'coerce'` - nepřevedené hodnoty dostanou NaT (Not a Time)
  - `'raise'` - vyhodí chybu (výchozí chování)
- `format` - očekávaný formát dat ve sloupci

### Příklad 1: Převod seznamu ve formátu yyyy-mm-dd

In [2]:
# Data s úvodními nulami
example_1 = ['2020-02-12', '2021-11-13', '1999-01-31']

In [3]:
type(example_1)

list

In [5]:
pd.to_datetime(example_1, format='%Y-%m-%d')

DatetimeIndex(['2020-02-12', '2021-11-13', '1999-01-31'], dtype='datetime64[ns]', freq=None)

### Příklad 2: Data bez úvodních nul

In [6]:
# Data bez úvodních nul - Pandas si s tím poradí
example_2 = ['2020-2-12', '2013-12-1', '2029-2-2']

In [8]:
pd.to_datetime(example_2)

DatetimeIndex(['2020-02-12', '2013-12-01', '2029-02-02'], dtype='datetime64[ns]', freq=None)

In [9]:
pd.to_datetime(example_2, format='%Y-%m-%d')

DatetimeIndex(['2020-02-12', '2013-12-01', '2029-02-02'], dtype='datetime64[ns]', freq=None)

### Příklad 3: Data pouze s rokem a měsícem

In [16]:
# Pozor: '2029-13' obsahuje chybu (měsíc 13 neexistuje)
example_3 = ['2020-02', '2013-11', '2029-13']

In [None]:
# Tento kód vyhodí chybu kvůli neplatnému měsíci
pd.to_datetime(example_3, format='%Y-%m') # použi coerce

In [18]:
# oprava
pd.to_datetime(example_3, format='%Y-%m', errors = 'coerce') # použi coerce

DatetimeIndex(['2020-02-01', '2013-11-01', 'NaT'], dtype='datetime64[ns]', freq=None)

In [19]:
# Opravená verze bez chyby
example_3_fixed = ['2020-02', '2013-11', '2029-06']

In [20]:
pd.to_datetime(example_3_fixed, format='%Y-%m')

DatetimeIndex(['2020-02-01', '2013-11-01', '2029-06-01'], dtype='datetime64[ns]', freq=None)

---
## Oprav chybu

V následujícím kódu je chyba. Najdi ji a oprav.

In [23]:
# Oprav chybu ve formátovacím řetězci
datumy = ['15/03/2023', '22/07/2024', '01/12/2025']
# pd.to_datetime(datumy, format='%Y-%m-%d')  # Tento formát neodpovídá datům
# oprava
pd.to_datetime(datumy, format='%d/%m/%Y')

DatetimeIndex(['2023-03-15', '2024-07-22', '2025-12-01'], dtype='datetime64[ns]', freq=None)

---
## Extrakce částí z data

Při práci s daty je často potřeba agregovat data na vyšší úroveň (např. hodinová data na denní, denní na měsíční).

Pro Series převedený na `datetime64` můžeme extrahovat části pomocí `dt.fragment`:
- `dt.year` - rok
- `dt.month` - měsíc
- `dt.day` - den
- `dt.hour` - hodina
- `dt.quarter` - kvartál

### Příklad: Extrakce měsíce a roku

In [24]:
dates = ['2020-02', '2013-11', '2029-06']

In [26]:
pd.to_datetime(dates, format = '%Y-%m')

DatetimeIndex(['2020-02-01', '2013-11-01', '2029-06-01'], dtype='datetime64[ns]', freq=None)

In [27]:
pd.Series(pd.to_datetime(dates, format = '%Y-%m'))

0   2020-02-01
1   2013-11-01
2   2029-06-01
dtype: datetime64[ns]

In [28]:
extraction_example = pd.Series(pd.to_datetime(dates, format='%Y-%m'))

In [29]:
extraction_example

0   2020-02-01
1   2013-11-01
2   2029-06-01
dtype: datetime64[ns]

In [30]:
type(extraction_example)

pandas.core.series.Series

In [31]:
# Extrakce měsíců
extraction_example.dt.month

0     2
1    11
2     6
dtype: int32

In [32]:
# Extrakce roků
extraction_example.dt.year

0    2020
1    2013
2    2029
dtype: int32

---
## Otázky k zamyšlení

1. Jaký je rozdíl mezi `%Y` a `%y`?
2. Co znamená hodnota `NaT`?
3. Jaký parametr použijeme, když chceme, aby nepřevedená data dostala hodnotu NaT místo vyvolání chyby?

---
## Doplň kód

Doplň chybějící části kódu.

In [None]:
# Doplň formát pro data ve tvaru '25.12.2023'
vanocni_datumy = ['24.12.2023', '25.12.2024', '26.12.2025']
pd.to_datetime(vanocni_datumy, format='___')  # Doplň formát

In [33]:
# Doplneni
vanocni_datumy = ['24.12.2023', '25.12.2024', '26.12.2025']
pd.to_datetime(vanocni_datumy, format='%d.%m.%Y')  # Doplň formát

DatetimeIndex(['2023-12-24', '2024-12-25', '2025-12-26'], dtype='datetime64[ns]', freq=None)

In [None]:
# Doplň kód pro extrakci dne z data
data = pd.Series(pd.to_datetime(['2023-05-15', '2024-08-22']))
data.___  # Doplň pro extrakci dne

In [35]:
# Doplneni
data = pd.Series(pd.to_datetime(['2023-05-15', '2024-08-22']))
data.dt.day

0    15
1    22
dtype: int32

---
## Formátování pomocí strftime

Metoda `dt.strftime()` umožňuje převést datetime na řetězec v libovolném formátu.

```python
Series_datetime.dt.strftime('%Y-%m-%d')
```

In [36]:
# Příklad použití strftime
datumy = pd.Series(pd.to_datetime(['2023-05-15', '2024-08-22', '2025-01-01']))

In [37]:
datumy

0   2023-05-15
1   2024-08-22
2   2025-01-01
dtype: datetime64[ns]

In [38]:
type(datumy)

pandas.core.series.Series

In [39]:
# Převod na formát 'YYYY-MM-01' (první den měsíce)
datumy.dt.strftime('%Y-%m-01')

0    2023-05-01
1    2024-08-01
2    2025-01-01
dtype: object

In [41]:
dd = datumy.dt.strftime('%d.%m.%Y')
dd

0    15.05.2023
1    22.08.2024
2    01.01.2025
dtype: object

In [42]:
type(dd)

pandas.core.series.Series

---
---
# Úlohy

## Úloha 1: Formátování dat

Načti soubor _product_prices_cleaned.csv_, sloupec _date_ obsahuje informace o měsících hlášení hodnot.

1. Jaký formát data obsahuje?
2. Převeď sloupec na typ `datetime64`.
3. Přidej nový sloupec _month_ s číslem měsíce.
4. Přidej nový sloupec _quarter_ s číslem kvartálu.
5. Přidej nový sloupec _year_ s rokem.
6. Pomocí metody `dt.strftime` převeď sloupec _date_ na formát _YYYY-MM-01_.
7. Ulož změněný DataFrame do souboru.

In [44]:
# Tvůj kód zde
df = pd.read_csv('../Data/product_prices_cleaned.csv', sep = ';')

In [45]:
df.shape

(128503, 8)

In [46]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 128503 entries, 0 to 128502
Data columns (total 8 columns):
 #   Column            Non-Null Count   Dtype  
---  ------            --------------   -----  
 0   province          128503 non-null  object 
 1   product_types     34255 non-null   object 
 2   currency          128503 non-null  object 
 3   product_group_id  128503 non-null  int64  
 4   product_line      94248 non-null   object 
 5   value             119935 non-null  float64
 6   date              128503 non-null  object 
 7   product           128503 non-null  object 
dtypes: float64(1), int64(1), object(6)
memory usage: 7.8+ MB


In [47]:
df['date'].head(3)

0     2013-3
1     2018-2
2    2019-12
Name: date, dtype: object

In [48]:
# 2. prekonvertovat na datum
df['date'] = pd.to_datetime(df['date'], format = '%Y-%m')

In [49]:
df.head(2)

Unnamed: 0,province,product_types,currency,product_group_id,product_line,value,date,product
0,SUBCARPATHIA,,PLN,2,pork ham cooked - per 1kg,21.37,2013-03-01,pork ham cooked - per 1kg
1,ŁÓDŹ,,PLN,4,bread - per 1kg,,2018-02-01,bread - per 1kg


In [50]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 128503 entries, 0 to 128502
Data columns (total 8 columns):
 #   Column            Non-Null Count   Dtype         
---  ------            --------------   -----         
 0   province          128503 non-null  object        
 1   product_types     34255 non-null   object        
 2   currency          128503 non-null  object        
 3   product_group_id  128503 non-null  int64         
 4   product_line      94248 non-null   object        
 5   value             119935 non-null  float64       
 6   date              128503 non-null  datetime64[ns]
 7   product           128503 non-null  object        
dtypes: datetime64[ns](1), float64(1), int64(1), object(5)
memory usage: 7.8+ MB


In [52]:
df['month'] = df['date'].dt.month

In [53]:
df.head(2)

Unnamed: 0,province,product_types,currency,product_group_id,product_line,value,date,product,month
0,SUBCARPATHIA,,PLN,2,pork ham cooked - per 1kg,21.37,2013-03-01,pork ham cooked - per 1kg,3
1,ŁÓDŹ,,PLN,4,bread - per 1kg,,2018-02-01,bread - per 1kg,2


In [56]:
df['quarter'] = df['date'].dt.quarter
df['year'] = df['date'].dt.year

In [57]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 128503 entries, 0 to 128502
Data columns (total 11 columns):
 #   Column            Non-Null Count   Dtype         
---  ------            --------------   -----         
 0   province          128503 non-null  object        
 1   product_types     34255 non-null   object        
 2   currency          128503 non-null  object        
 3   product_group_id  128503 non-null  int64         
 4   product_line      94248 non-null   object        
 5   value             119935 non-null  float64       
 6   date              128503 non-null  datetime64[ns]
 7   product           128503 non-null  object        
 8   month             128503 non-null  int32         
 9   quarter           128503 non-null  int32         
 10  year              128503 non-null  int32         
dtypes: datetime64[ns](1), float64(1), int32(3), int64(1), object(5)
memory usage: 9.3+ MB


In [60]:
df['date'] = df['date'].dt.strftime('%Y-%m-01')

In [61]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 128503 entries, 0 to 128502
Data columns (total 11 columns):
 #   Column            Non-Null Count   Dtype  
---  ------            --------------   -----  
 0   province          128503 non-null  object 
 1   product_types     34255 non-null   object 
 2   currency          128503 non-null  object 
 3   product_group_id  128503 non-null  int64  
 4   product_line      94248 non-null   object 
 5   value             119935 non-null  float64
 6   date              128503 non-null  object 
 7   product           128503 non-null  object 
 8   month             128503 non-null  int32  
 9   quarter           128503 non-null  int32  
 10  year              128503 non-null  int32  
dtypes: float64(1), int32(3), int64(1), object(6)
memory usage: 9.3+ MB


In [63]:
df.head(3)

Unnamed: 0,province,product_types,currency,product_group_id,product_line,value,date,product,month,quarter,year
0,SUBCARPATHIA,,PLN,2,pork ham cooked - per 1kg,21.37,2013-03-01,pork ham cooked - per 1kg,3,1,2013
1,ŁÓDŹ,,PLN,4,bread - per 1kg,,2018-02-01,bread - per 1kg,2,1,2018
2,KUYAVIA-POMERANIA,,PLN,2,barley groats sausage - per 1kg,3.55,2019-12-01,barley groats sausage - per 1kg,12,4,2019


## Úloha 2: Vytvoř kód

Máš následující seznam dat v různých formátech. Převeď je všechny na datetime.

```python
data_eu = ['15/03/2023', '22/07/2024', '01/12/2025']  # formát dd/mm/yyyy
data_us = ['03/15/2023', '07/22/2024', '12/01/2025']  # formát mm/dd/yyyy
data_iso = ['2023-03-15', '2024-07-22', '2025-12-01']  # formát yyyy-mm-dd
```

In [64]:
# Tvůj kód zde
data_eu = ['15/03/2023', '22/07/2024', '01/12/2025']  # formát dd/mm/yyyy

In [68]:
dtindex = pd.to_datetime(data_eu, format = '%d/%m/%Y')
dtindex

DatetimeIndex(['2023-03-15', '2024-07-22', '2025-12-01'], dtype='datetime64[ns]', freq=None)

In [69]:
int('5')

5

In [70]:
pd.Series(dtindex)

0   2023-03-15
1   2024-07-22
2   2025-12-01
dtype: datetime64[ns]

In [71]:
pd.Series(data_eu)

0    15/03/2023
1    22/07/2024
2    01/12/2025
dtype: object

In [76]:
# ['15/03/2023', '22/07/2024', '01/12/2025']
eu = pd.Series(pd.to_datetime(['15/03/2023', '22/07/2024', '01/12/2025'], format = '%d/%m/%Y'))
us = pd.Series(pd.to_datetime(['03/15/2023', '07/22/2024', '12/01/2025'], format = '%m/%d/%Y'))


In [77]:
eu

0   2023-03-15
1   2024-07-22
2   2025-12-01
dtype: datetime64[ns]

In [78]:
us

0   2023-03-15
1   2024-07-22
2   2025-12-01
dtype: datetime64[ns]

## Úloha 3: Analýza dat

Vytvoř DataFrame s následujícími daty o objednávkách:

```python
objednavky = {
    'id': [1, 2, 3, 4, 5],
    'datum': ['2024-01-15', '2024-03-22', '2024-06-10', '2024-09-05', '2024-12-20'],
    'castka': [1500, 2300, 890, 4500, 1200]
}
```

1. Převeď sloupec 'datum' na datetime.
2. Přidej sloupce 'mesic' a 'kvartal'.
3. Vypočítej celkovou částku za každý kvartál.

In [81]:
# Tvůj kód zde
df = pd.DataFrame({
    'id': [1, 2, 3, 4, 5],
    'datum': ['2024-01-15', '2024-03-22', '2024-06-10', '2024-09-05', '2024-12-20'],
    'castka': [1500, 2300, 890, 4500, 1200]
})

In [82]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   id      5 non-null      int64 
 1   datum   5 non-null      object
 2   castka  5 non-null      int64 
dtypes: int64(2), object(1)
memory usage: 252.0+ bytes


In [83]:
df.head(2)

Unnamed: 0,id,datum,castka
0,1,2024-01-15,1500
1,2,2024-03-22,2300


In [84]:
pd.to_datetime(df['datum'])

0   2024-01-15
1   2024-03-22
2   2024-06-10
3   2024-09-05
4   2024-12-20
Name: datum, dtype: datetime64[ns]

In [85]:
df['datum'] = pd.to_datetime(df['datum'])

In [86]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   id      5 non-null      int64         
 1   datum   5 non-null      datetime64[ns]
 2   castka  5 non-null      int64         
dtypes: datetime64[ns](1), int64(2)
memory usage: 252.0 bytes


In [92]:
df['mesic'] = df['datum'].dt.month
df['kvartal'] = df['datum'].dt.quarter

In [93]:
df.head(2)

Unnamed: 0,id,datum,castka,mesic,kvartal
0,1,2024-01-15,1500,1,1
1,2,2024-03-22,2300,3,1


In [89]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   id      5 non-null      int64         
 1   datum   5 non-null      datetime64[ns]
 2   castka  5 non-null      int64         
 3   mesic   5 non-null      int32         
dtypes: datetime64[ns](1), int32(1), int64(2)
memory usage: 272.0 bytes


In [94]:
df

Unnamed: 0,id,datum,castka,mesic,kvartal
0,1,2024-01-15,1500,1,1
1,2,2024-03-22,2300,3,1
2,3,2024-06-10,890,6,2
3,4,2024-09-05,4500,9,3
4,5,2024-12-20,1200,12,4


In [95]:
df.groupby(by = 'kvartal')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000028CDDF62180>

In [98]:
df.groupby(by = 'kvartal')['castka'].sum()

kvartal
1    3800
2     890
3    4500
4    1200
Name: castka, dtype: int64

In [99]:
df.groupby(by = 'kvartal')['castka'].agg(['count', 'sum'])

Unnamed: 0_level_0,count,sum
kvartal,Unnamed: 1_level_1,Unnamed: 2_level_1
1,2,3800
2,1,890
3,1,4500
4,1,1200


---
---
## Přehled použitých metod a funkcí

| Metoda/Funkce | Popis |
|---------------|-------|
| `pd.to_datetime()` | Převod na typ datetime64 |
| `dt.year` | Extrakce roku z datetime |
| `dt.month` | Extrakce měsíce z datetime |
| `dt.day` | Extrakce dne z datetime |
| `dt.hour` | Extrakce hodiny z datetime |
| `dt.quarter` | Extrakce kvartálu z datetime |
| `dt.strftime()` | Formátování datetime na řetězec |