# Python Data, 2024

---

* [Spojování dat](#Spojování-dat),
    - [spojování s concat](#Spojování-s-concat),
    - [spojování s concat a arg. join](#concat-a-volitelný-argument-join),
    - [spojování s metodou append](#Spojování-pomocí-metody-APPEND),
    - [spojování s merge](#Spojování-pomocí-merge),
    - [spojování s metodou join](#Spojení-pomocí-indexů,-join),
    - [cvičení 1]().
* [Agregace](#Agregace),
    - [jednoduchá agregace](#Jednoduchá-agregace),
    - [seskupování groupby](#Seskupování-groupby),
    - [agregace](#Agregace-s-metodami),
    - [filtrování](#Filtrování),
    - [transformace](#Transformace),
    - [apply](#Metoda-apply),
    - [cvičení 2]().
* [Pivot tabulka](#Pivot-tabulky),
    - [úvodní motivace](),
    - [syntaxe tabulky](),
    - [doplňující možnosti](),
    - [cvičení 3]().



<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse1.mm.bing.net%2Fth%3Fid%3DOIP.APOjuHGvkM0wQaUx9ELKAgHaHa%26pid%3DApi&f=1&ipt=a8b2b692c40e190d4b28c164bf13e6c944702a69944035a4ef9053aa6ea1b190&ipo=images" width="160" style="margin-left:auto; margin-right:auto"/>

<br>

## Spojování dat

---

Takovými operacemi si můžeš představit jednoduché operace jako **spojování** (*konkatenace*) **dvou a více datasetů** až po složitější *JOINY* podobně jako u databází.

`pandas` obsahuje různé *funkce* a *metody*, které umožňují tento způsob práce.

* funkce `concat`,
* funkce `merge`,
* metoda `append` (outdated),
* metoda `join`.

### Spojování s CONCAT

---

Funkce `concat()` v `pandas` umožňuje spojit **dva nebo více**:
1. **sloupečků** tabulky,
    - *horizontálně*, po sloupcích,
    - *vertikálně*, po Indexech,
3. **tabulek** samotných,
    - *horizontálně*, po sloupcích,
    - *vertikálně*, po Indexech,

Použití funkce `concat()` spočívá **v předání seznamu objektů**, které chceš spojit, a parametru `axis`, který určuje osu, podle které se májí objekty spojit:

#### Spojení sloupečků, CONCAT

---

In [1]:
from pandas import concat, Series, DataFrame

In [2]:
sloupec_1 = Series(['A', 'B', 'C'], index=[1, 2, 3])
sloupec_2 = Series(['D', 'E', 'F'], index=[4, 5, 6])

In [3]:
sloupec_1

1    A
2    B
3    C
dtype: object

In [4]:
sloupec_2

4    D
5    E
6    F
dtype: object

In [5]:
spojene_sloupce = concat([sloupec_1, sloupec_2])

<br>

Spojení **horizontální** (pod sebou):

In [6]:
horizontalni_spoj = concat([sloupec_1, sloupec_2], axis=1)

In [7]:
horizontalni_spoj

Unnamed: 0,0,1
1,A,
2,B,
3,C,
4,,D
5,,E
6,,F


<br>

Spojení **vertikální** (vedle sebe):

In [8]:
vertikalni_spoj = concat([sloupec_1, sloupec_2], axis=0)

In [9]:
vertikalni_spoj

1    A
2    B
3    C
4    D
5    E
6    F
dtype: object

<br>

#### Spojení tabulek, CONCAT

---

In [12]:
uzivatele_tab_1 = {'jmeno': ['Matouš', 'Marek', 'Lukáš'],
               'vek': [25, 30, 35]}

In [13]:
uzivatele_tab_2 = {'jmeno': ['Petr', 'Jan', 'Michal'],
                   'vek': [40, 45, 50]}

In [14]:
uzivatele_tab_1_df = DataFrame(uzivatele_tab_1)
uzivatele_tab_2_df = DataFrame(uzivatele_tab_2)

In [15]:
uzivatele_tab_1_df

Unnamed: 0,jmeno,vek
0,Matouš,25
1,Marek,30
2,Lukáš,35


In [16]:
uzivatele_tab_2_df

Unnamed: 0,jmeno,vek
0,Petr,40
1,Jan,45
2,Michal,50



#### Samotné spojení dvou tabulek

---

In [17]:
df_spojene_tab = concat([uzivatele_tab_1_df, uzivatele_tab_2_df], axis=0)

In [18]:
df_spojene_tab

Unnamed: 0,jmeno,vek
0,Matouš,25
1,Marek,30
2,Lukáš,35
0,Petr,40
1,Jan,45
2,Michal,50


#### Co s duplicitními Indexy?

---

Tady se ovšem **zduplikovali hodnoty** některých indexů.

Ty je potřeba opravit tímto postupem:
1. **Vytvořím nový sloupeček** pro indexy,
2. **odstraním starý sloupeček** s duplicitami.

In [19]:
df_spojene_tab = df_spojene_tab.reset_index()  # Přidá nový Index

In [20]:
df_spojene_tab

Unnamed: 0,index,jmeno,vek
0,0,Matouš,25
1,1,Marek,30
2,2,Lukáš,35
3,0,Petr,40
4,1,Jan,45
5,2,Michal,50


In [22]:
df_spojene_tab = df_spojene_tab.drop("index", axis=1)

<br>

Kontrola nového rozsahu **pro Index**:

In [24]:
df_spojene_tab.index

RangeIndex(start=0, stop=6, step=1)

<br>

Pozůstatky sloupečků:

In [25]:
df_spojene_tab.columns

Index(['jmeno', 'vek'], dtype='object')

In [26]:
df_spojene_tab

Unnamed: 0,jmeno,vek
0,Matouš,25
1,Marek,30
2,Lukáš,35
3,Petr,40
4,Jan,45
5,Michal,50


<br>

Nastavení nových Indexů **podle jmen**:

In [31]:
df_spojene_tab.index.names?

[0;31mType:[0m        property
[0;31mString form:[0m <property object at 0x7f0eb75c7c70>
[0;31mDocstring:[0m   <no docstring>

<br>

Doplníš jméno **pro Index**:

In [33]:
df_spojene_tab.index.names = ["Index ze jmén"]

In [34]:
df_spojene_tab.index.names

FrozenList(['Index ze jmén'])

In [35]:
df_spojene_tab

Unnamed: 0_level_0,jmeno,vek
Index ze jmén,Unnamed: 1_level_1,Unnamed: 2_level_1
0,Matouš,25
1,Marek,30
2,Lukáš,35
3,Petr,40
4,Jan,45
5,Michal,50


Pro odchytávání **duplicitních indexů** můžeš doplnit parametr `verify_integrity=True`, případně pokud je irelevantní, ignorovat jej úplně `ignore_index=True`.

<br>

**🧠 CVIČENÍ 🧠, procvič si funkcí CONCAT**

In [84]:
data_populace = {
    "City": ["New York", "London", "Tokyo"],
    "Population": [8.4, 9.0, 13.9],
}

data_plocha = {
    "City": ["New York", "London", "Tokyo"],
    "Area": [783, 1572, 2194],
}

data_kontinent = {
    "City": ["New York", "London", "Tokyo"],
    "Continent": ["North America", "Europe", "Asia"],
}

<details>
    <summary>▶️ Řešení</summary>
    
```python
from pandas import DataFrame, concat

data_populace = {
    "City": ["New York", "London", "Tokyo"],
    "Population": [8.4, 9.0, 13.9],
}

data_plocha = {
    "City": ["New York", "London", "Tokyo"],
    "Area": [783, 1572, 2194],
}

data_kontinent = {
    "City": ["New York", "London", "Tokyo"],
    "Continent": ["North America", "Europe", "Asia"],
}

populace_df = DataFrame(data_populace)
plocha_df = DataFrame(data_plocha)
kontinent_df = DataFrame(data_kontinent)


def spoj_data_mest(populace, plocha, kontinent):
    """
    Spojí tři tabulky horizontálně podle sloupce City.
    """
    return concat([populace.set_index("City"),
                      plocha.set_index("City"),
                      kontinent.set_index("City")], axis=1).reset_index()


result = spoj_data_mest(populace_df, plocha_df, kontinent_df)
print(result)
```
</details>

<img src="https://imgs.search.brave.com/wR9sz6BPwR_LCDm6Esd_B9VgUBSbW4wbTPi2T9DrdBc/rs:fit:500:0:0:0/g:ce/aHR0cHM6Ly90NC5m/dGNkbi5uZXQvanBn/LzA4LzQwLzM1LzIx/LzM2MF9GXzg0MDM1/MjE1Ml84N1N2T0kx/REM2RElCaHkxc0xz/VnpnYmNIUk1UZno0/cC5qcGc" width="230" style="margin-left:auto; margin-right:auto"/>

### CONCAT a volitelný argument JOIN

---

V jednoduchých ukázkách, jako jsou ty výše, stačilo **tabulky a sloupečky spojit**.

To prakticky není vždy ideální řešení, protože některé sloupečky můžou, **ale nemusí být shodné**.

In [36]:
from pandas import DataFrame, concat

In [37]:
data_tab_1_df = DataFrame(
    {"A": ["A1", "A2"], "B": ["B1", "B2"], "C": ["C1", "C2"]},
    index=[1, 2]
)

In [38]:
data_tab_2_df = DataFrame(
    {"B": ["B3", "B4"], "C": ["C3", "C4"], "D": ["D3", "D4"]},
    index=[3, 4]
)

In [39]:
data_tab_1_df

Unnamed: 0,A,B,C
1,A1,B1,C1
2,A2,B2,C2


In [40]:
data_tab_2_df

Unnamed: 0,B,C,D
3,B3,C3,D3
4,B4,C4,D4



#### Horizontální spojení dvou tabulek

---

In [41]:
vystup_tab_df = concat([data_tab_1_df, data_tab_2_df])  # axis=0

In [43]:
vystup_tab_df

Unnamed: 0,A,B,C,D
1,A1,B1,C1,
2,A2,B2,C2,
3,,B3,C3,D3
4,,B4,C4,D4


Pokud některá data chybějí, jsou automaticky vyplněná **neznámými hodnotami**.

Řešením takové situace můžeš být zavedení jiného **způsobu spojování**.

Tedy nepoužívat defaultní argument `join='outer'`, ale `join='inner'`:

In [51]:
vystup_bez_nan_df = concat([data_tab_1_df, data_tab_2_df],
                           join='inner',
                           axis=0)

In [52]:
vystup_bez_nan_df

Unnamed: 0,B,C
1,B1,C1
2,B2,C2
3,B3,C3
4,B4,C4


<img src="https://imgs.search.brave.com/IZ8jkD1GaDV2tXwgwzM1Xawk-jBMejygby1KcermQp8/rs:fit:500:0:0:0/g:ce/aHR0cHM6Ly90NC5m/dGNkbi5uZXQvanBn/LzA4LzQ2LzQ3LzE1/LzM2MF9GXzg0NjQ3/MTU2MF95Y281RnhM/UG5RR1c4NW1OWHBD/UmcxUWptSzRiMnp3/eS5qcGc" width="200" style="margin-left:auto; margin-right:auto"/>



### Spojování pomocí `MERGE`

---

Další funkcí pro spojování `DataFrame` objektů je `merge`.

Tato funkce je vhodná pro spojování DataFrame objektů, které **mají společné sloupce**.

Můžeš lépe zadávat typ spojení (parametr `how='inner' | 'outer' | 'left' | 'join'`).

Dále ti umožní **definovat sloupec, nebo sloupce**, na kterých chceš spojení provést (parametr `on`).

In [53]:
from pandas import merge

In [55]:
uzivatele_tab_1 = {
    'jmeno': ['Alice', 'Bob', 'Charlie', 'David'],
    'vek': [25, 30, 35, 40],
    'mesto': ['Brno', 'Praha', 'Plzen', 'Ostrava']
}

In [56]:
uzivatele_tab_2 = {
    'jmeno': ['Alice', 'David', 'Emma', 'Frank'],
    'pocet_prijemcu': [100, 200, 150, 250]
}

In [57]:
uzivatele_tab_1_df = DataFrame(uzivatele_tab_1)
uzivatele_tab_2_df = DataFrame(uzivatele_tab_2)

In [58]:
uzivatele_tab_1_df

Unnamed: 0,jmeno,vek,mesto
0,Alice,25,Brno
1,Bob,30,Praha
2,Charlie,35,Plzen
3,David,40,Ostrava


In [59]:
uzivatele_tab_2_df

Unnamed: 0,jmeno,pocet_prijemcu
0,Alice,100
1,David,200
2,Emma,150
3,Frank,250


#### Spojení FULL JOIN

---

In [60]:
mergnute_df = merge(uzivatele_tab_1_df, uzivatele_tab_2_df,
                    on='jmeno',
                    how='outer')

In [61]:
mergnute_df

Unnamed: 0,jmeno,vek,mesto,pocet_prijemcu
0,Alice,25.0,Brno,100.0
1,Bob,30.0,Praha,
2,Charlie,35.0,Plzen,
3,David,40.0,Ostrava,200.0
4,Emma,,,150.0
5,Frank,,,250.0


#### Spojené INNER MERGE

---

In [62]:
mergnute_inner_df = merge(uzivatele_tab_1_df,
                          uzivatele_tab_1_df,
                          on='jmeno',
                          how='inner')

In [63]:
mergnute_inner_df

Unnamed: 0,jmeno,vek_x,mesto_x,vek_y,mesto_y
0,Alice,25,Brno,25,Brno
1,Bob,30,Praha,30,Praha
2,Charlie,35,Plzen,35,Plzen
3,David,40,Ostrava,40,Ostrava


Funkce sama **doplní přípony**, aby rozlišila **mezi oběma původními sloupci**.

**Pokud potřebuješ vlastní přípony**, můžeš vyzkoušet volitelný argument pro `suffixes`:

In [73]:
df8 = DataFrame({
    'jmeno': ['Bob', 'Jake', 'Lisa', 'Sue'],
    'poradi': [1, 2, 3, 4]
})

In [74]:
df9 = DataFrame({
    'jmeno': ['Bob', 'Jake', 'Lisa', 'Sue'],
    'poradi': [3, 1, 4, 2]
})

In [75]:
df8

Unnamed: 0,jmeno,poradi
0,Bob,1
1,Jake,2
2,Lisa,3
3,Sue,4


In [76]:
df9

Unnamed: 0,jmeno,poradi
0,Bob,3
1,Jake,1
2,Lisa,4
3,Sue,2


In [77]:
vystup_konflikt = merge(df8, df9, on="jmeno")

In [78]:
vystup_konflikt

Unnamed: 0,jmeno,poradi_x,poradi_y
0,Bob,1,3
1,Jake,2,1
2,Lisa,3,4
3,Sue,4,2


In [79]:
vystup_vlastni_pripony = merge(df8, df9, on='jmeno', suffixes=('_DF8', '_DF9'))

In [80]:
vystup_vlastni_pripony

Unnamed: 0,jmeno,poradi_DF8,poradi_DF9
0,Bob,1,3
1,Jake,2,1
2,Lisa,3,4
3,Sue,4,2


Obecně platí, že pokud potřebuješ *spojit* dva nebo více `DataFrame` objektů podle **společného sloupce nebo sloupců**, použij funkci `merge()`.

Pokud chceš jenom **přidat další řádky nebo sloupce** do existujícího `DataFrame` objektu, použij funkci `concat`.

In [64]:
uzivatele_tab_1_df

Unnamed: 0,jmeno,vek,mesto
0,Alice,25,Brno
1,Bob,30,Praha
2,Charlie,35,Plzen
3,David,40,Ostrava


In [65]:
uzivatele_tab_2_df

Unnamed: 0,jmeno,pocet_prijemcu
0,Alice,100
1,David,200
2,Emma,150
3,Frank,250


In [67]:
vystup_left_join_df = merge(uzivatele_tab_1_df,
                         uzivatele_tab_2_df,
                         on='jmeno',
                         how='left')

In [68]:
vystup_left_join_df

Unnamed: 0,jmeno,vek,mesto,pocet_prijemcu
0,Alice,25,Brno,100.0
1,Bob,30,Praha,
2,Charlie,35,Plzen,
3,David,40,Ostrava,200.0


V ukázce výš je použitý *left join*.

Tedy ve výsledku uvidíš **celou první** (levou tabulku) a z druhé pouze ty záznamy, které mají ve spojovacím sloupci `jmeno` společnou hodnotu.

### Spojení pomocí indexů, `join`

---

Tato metoda slouží k propojení dvou DataFrame objektů na základě **jejich indexů nebo hodnot**.

Je velice podobná funkci `merge` ale je přímo součástí `DataFrame` objektu a je snazší ji aplikovat:

In [None]:
uzivatele_1 = {
    'jmeno': ['Alice', 'Bob', 'Petr'],
     'vek': [25, 30, 35]
}

In [None]:
uzivatele_2 = {
    'jmeno': ['Alice', 'Bob', 'Petr'],
    'pocet_prijemcu': [100, 150, 200]
}

In [None]:
df_uzivatele_1 = DataFrame(uzivatele_1)
df_uzivatele_2 = DataFrame(uzivatele_2)

In [None]:
df_uzivatele_1

In [None]:
df_uzivatele_2

In [None]:
df_uzivatele_2.index.names

In [None]:
df_uzivatele_1 = df_uzivatele_1.set_index('jmeno')

In [None]:
df_uzivatele_2 = df_uzivatele_2.set_index('jmeno')

In [None]:
df_uzivatele_1

In [None]:
df_uzivatele_2

In [None]:
vysledek_join_metody = df_uzivatele_1.join(df_uzivatele_2)

In [None]:
vysledek_join_metody

Hlavní rozdíl mezi těmito funkcemi je způsob určení **sloupce nebo sloupců**, podle kterých se má propojení provést.

1. Metoda `join()` propojuje DataFrame objekty **na základě jejich indexů**.
2. Funkce `merge()` umožňuje propojit `DataFrame` objekty **na základě hodnoty v jednom nebo více sloupcích**.

### Souhrn ke spojování

---

| Objekt | Kdy jej použít? | Směr spojení |
| :- | :- | :- |
| `concat` | Když chceš poskládat tabulky na sebe (řádky) nebo vedle sebe (sloupce). | Vertikálně / Horizontálně | 
| `merge` |	Když chcete spojit tabulky podle společného klíče/sloupce, podobně jako SQL JOIN. | Horizontálně |
| `join` | Když chcete spojit tabulky podle společného indexu (ne klíče/sloupce). | Horizontálně |
| `append` | (Zastaralé) Používalo se k přidání řádků, nyní používejte concat. | Vertikálně |

<br>

**🧠 CVIČENÍ 🧠, procvič si spojování**

Tvým úkolem je propojit tyto tabulky podle zadání:
1. Použij spojovací funkci pro spojení objektů typu `DataFrame` , které vytvoříš z proměnných `data_zamestnanci_1` a `data_zamestnanci_2`,
2. použij spojovací funkci, které zadáš vzniklý objekt typu `DataFrame`  z bodu 1. a druhý `DataFrame`, který vytvoříš z proměnné `data_oddeleni` (spoj přes sloupeček `"oddělení_id"`),
3. vytvoř výsledný objekt typu `DataFrame` , který obsahuje pouze zaměstnance z oddělení `IT`.

In [None]:
data_zamestnanci_1 = {
    'id': [1, 2, 3],
    'jméno': ['Jan', 'Marie', 'Petr'],
    'příjmení': ['Novák', 'Svobodová', 'Dvořák'],
    'oddělení_id': [100, 200, 100]
}

data_zamestnanci_2 = {
    'id': [4, 5],
    'jméno': ['Anna', 'Josef'],
    'příjmení': ['Kopecká', 'Vondráček'],
    'oddělení_id': [200, 100]
}

data_oddeleni = {
    'oddělení_id': [100, 200],
    'název_oddělení': ['IT', 'HR']
}

In [None]:
df1, df2 = ...

In [None]:
df_spojeni_zam = pd.concat([df1, df2], axis=0, ignore_index=True)

In [None]:
df1 = pd.concat(
    [pd.DataFrame(data) for data in [data_zamestnanci_1, data_zamestnanci_2]]
).reset_index(drop = True).set_index('id')

In [None]:
df_spojeni_odd = pd.merge(df_oddeleni, on='oddělení_id', how=)

In [None]:
df2 = df1.merge( pd.DataFrame( data_oddeleni ), on = 'oddělení_id', how = 'left' )

In [None]:
df3 = df2[df2['název_oddělení'] == 'IT']

In [None]:
display( df1, df2, df3 )

<details>
    <summary>▶️ Řešení</summary>
    
    ```python
    df_zamestnanci_1 = pd.DataFrame(data_zamestnanci_1)
    df_zamestnanci_2 = pd.DataFrame(data_zamestnanci_2)
    df_oddeleni = pd.DataFrame(data_oddeleni)

    df_vsichni_zamestnanci = pd.concat([df_zamestnanci_1, df_zamestnanci_2], ignore_index=True)

    df_vsechna_oddeleni = pd.merge(df_vsichni_zamestnanci, df_oddeleni, on="oddělení_id")

    df_jen_it = df_vsechna_oddeleni[df_vsechna_oddeleni["název_oddělení"] == "IT"]
    ```
</details>

## Agregace

---


<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse1.mm.bing.net%2Fth%3Fid%3DOIP.HtBtNx6dodlNptXV1QGHWQHaG0%26pid%3DApi&f=1&ipt=3a4d1dfa14a495127b4ece5cf689f00ed0c9e0836853358412e18161ae7c505f&ipo=images" width="160" style="margin-left:auto; margin-right:auto"/>


*Seskupování* neboli **agregace** jsou procesy, které patří k základní efektivní analýze dat.

### Jednoduchá agregace

---

Přesto, že veškeré základní **statistické údaje** prakticky nabízí metoda `describe()`, můžeš ocenit, když stejnou statistiku můžeš aplikovat **na tebou vybrané objekty**.

Mezi nejjednodušší postupy, jak data analyzovat patří metody jako:
* `sum()`,
* `mean()`,
* `median()`,
* `min()`,
* `max()`.

Všechny tyto metody umožní získat jedno samotné číslo, které ti umožní prohlédnout podstatu zadaného datasetu.

In [None]:
from pandas import read_csv

In [None]:
df_nemovitosti = read_csv("nemovitosti.csv")

In [None]:
df_nemovitosti.head()

<br>

#### Odstranit nepotřebný sloupeček

In [None]:
df_nemovitosti.columns

In [None]:
df_bez_bezejmen = df_nemovitosti.drop("Unnamed: 0", axis=1)

In [None]:
df_bez_bezejmen.head()

In [None]:
df_bez_bezejmen.loc[:, "price"].max()

In [None]:
df_bez_bezejmen.loc[:, "price"].min()

In [None]:
df_bez_bezejmen.loc[:, "area"].sum()

In [None]:
df_bez_bezejmen.loc[:, "price"].mean()

<br>

Často ale není dostačující, prozkoumat data pouze jednoduchých agregačních funkcí.

Další operace, které je potřeba pochopit jsou seskupování dat podle zadaných parametrů.

### Seskupování GROUPBY

---

Metoda `groupby`, původně operace z SQL jazyka, je v rámci knihovny `pandas` všestraný pomocník pro seskupování dat na základě různých kritérií.

In [None]:
from pandas import DataFrame

In [None]:
df_pokus_s_cisly = DataFrame(
    {
        'klíč': ['A', 'B', 'C', 'A', 'B', 'C'],
        'číselná hodnota': range(6)},
)

In [None]:
df_pokus_s_cisly

#### Klasické seskupení podle sloupečku

In [None]:
df_pokus_s_cisly.groupby("klíč")

In [None]:
type(df_pokus_s_cisly.groupby("klíč"))

Metoda standardně vrací `DataFrameGroupBy`.

Jde opět o tzv. *lazy evaluation* proces, samotný nic neprovede, pouze čeká na pokyn uživatele, který samotnou agregaci spustí.

In [None]:
df_pokus_s_cisly.groupby("klíč").sum()

Metoda `sum()` je pouze jednou z možností, se kterou můžeš pracovat.

<br>

#### Sloupečkové označování

Stejně jako `DataFrame` můžeš označovat také *GroupBy* objekty.

In [None]:
df_pokus_s_cisly

In [None]:
df_pokus_s_cisly.groupby("klíč")["číselná hodnota"]

In [None]:
df_pokus_s_cisly.groupby("klíč")["číselná hodnota"].median()

<br>

V uplynulé ukázce je zadaná seskupování podle sloupečku `klíč`.

Dále je vybraný pouze konkrétní sloupeček, na který chceš spustit metodu `median`.

<br>

Pokud potřebuješ nad vybraným objektem provádět některé procesy ručně, můžeš přes *GroupBy* objekt **iterovat**:

In [None]:
for (klic, hodnota) in df_pokus_s_cisly.groupby("klíč"):
    print(f"Klic: {klic}; Hodnota={hodnota.shape}")

<br>

### Agregace s metodami

---

Kromě jednoduchých agregací, nabízí *GroupBy* řadu další funkcionality.

Jde o metody:
* `aggregate`,
* `filter`,
* `transform`,
* `apply`.

#### Agregate

In [None]:
import numpy

In [None]:
rng = numpy.random.RandomState(0)

In [None]:
from pandas import DataFrame

In [None]:
df_pokus_s_cisly = DataFrame(
    {
        'klíč': ['A', 'B', 'C', 'A', 'B', 'C'],
        'data_1': range(6),
        'data_2': rng.randint(0, 10, 6)
    }
)

In [None]:
df_pokus_s_cisly

Statistické metody určitě nabízí spousty pomůcek.

Objekt typu *GroupBy* umí pracovat také s funkcemi, stringy a celými listy.

In [None]:
df_pokus_s_cisly.groupby("klíč").aggregate("sum")

In [None]:
df_pokus_s_cisly.groupby("klíč").aggregate(numpy.median)

In [None]:
df_pokus_s_cisly.groupby("klíč").aggregate(["min", numpy.median, max])

In [None]:
df_pokus_s_cisly

Můžeš říct, že metoda `aggregate` se používá k aplikaci **jedné nebo více agregačních funkcí na seskupená data**.

```
pobocka,ovoce,prodane_mnozstvi,cena
A,apple,10,20
A,banana,15,12
B,apple,8,22
B,banana,30,10
C,apple,20,18
C,banana,25,15
```

In [None]:
ovoce_data = {
    'pobocka': ['A', 'A', 'B', 'B', 'C', 'C'],
    'ovoce': ['jablko', 'banan', 'jablko', 'banan', 'jablko', 'banan'],
    'prodane_mnozstvi': [10, 15, 8, 30, 20, 25],
    'cena': [20, 12, 22, 10, 18, 15]
}

In [None]:
df_ovoce = DataFrame(ovoce_data)

In [None]:
df_ovoce.head(6)

In [None]:
vystup = df_ovoce.groupby('pobocka').aggregate({'prodane_mnozstvi': sum})

In [None]:
vystup = df_ovoce.groupby('pobocka').aggregate({'prodane_mnozstvi': 'sum', 'cena': 'mean'})

In [None]:
vystup

1. Nejprve jsou hodnoty seskupení podle sloupce `pobocka`,
2. poté specifikuješ pomocí `aggregate` funkce a sloupce,
3. .. tedy sumarizovat hodnoty v `prodane_mnozstvi` a získat průměr `cena` pro každou pobočku.

### Filtrování

---

Filtrování ti umožní zahodit takové údaje, které nesplňují zadanou podmínku.

Metoda `filter` se používá k vybrání **seskupených dat** podle splnění **určité podmínky**.

Představme si, že máme následující dataset s informacemi o prodeji ovoce v různých obchodech:

```
pobocka,ovoce,prodane_mnozstvi,cena
A,apple,10,20
A,banana,15,12
B,apple,8,22
B,banana,30,10
C,apple,20,18
C,banana,25,15
```

In [None]:
df_ovoce.head(6)

In [None]:
def vyber_pouze_pobocky_s_prodejem_nad_limit(data, limit: int = 24) -> bool:
    return data['prodane_mnozstvi'].sum() > limit

<br>

Funkce `vyber_pouze_pobocky_s_prodejem_nad_limit`, tedy **filtrovací funkce**, musí vracet **boolean** datový typ.

In [None]:
vysledek = df_ovoce.groupby('pobocka').filter(vyber_pouze_pobocky_s_prodejem_nad_limit)

In [None]:
vysledek

1. Nejprve seskupíš data podle sloupce `pobocka` pomocí `groupby`,
2. dále použiješ metodu `filter`, která umožňuje použít uživatelem definovanou funkci (`vyber_pouze_pobocky_s_prodejem_nad_limit`),
3. definuješ funkci, která vybere pouze pobočky s větším prodejem než je parametr `limit`,
4. metoda `filter` pak vybere pouze ty řádky, které splňují tuto podmínku.

### Transformace

---

Zatímco předchozí výsledky *agregace* pomocí `groupby` vraceli redukované množství dat.

Transformace obvykle vrací data o stejném rozsahu jako vstupní data. Jenom upravená.

Metoda `transform` se používá k aplikaci určité **transformační funkce** na každý prvek seskupených dat.

In [None]:
df_ovoce

In [None]:
def vrat_procenta_z_celkoveho_prodeje(udaj) -> float:
    return round(udaj / udaj.sum() * 100, 1)

<br>

Vytvoření nového sloupečku `procento_z_celkoveho_prodeje`:

In [None]:
df_ovoce['procento_z_celkoveho_prodeje'] = df_ovoce.groupby('pobocka')['prodane_mnozstvi'] \
    .transform(vrat_procenta_z_celkoveho_prodeje)

In [None]:
df_ovoce

1. Nejprve seskupíš data podle sloupce `pobocka` pomocí `groupby`,
2. dále použiješ metodu `transform`, která umožňuje použít uživatelem definovanou funkci,
3. definuješ funkci, která vybere vypočítá procentuální vyjádření prodaného zboží pro pobočku,
4. přidáš nový sloupeček `procento_z_celkoveho_prodeje`.

### Metoda `apply`

---

Metoda `apply` ti také dovolí, používat uživatelem definované funkce na seskupená data.

Následně vrací objekt knihovny `pandas` (buď `DataFrame`, nebo `Series`, a nebo skalární hodnota).

In [None]:
df_ovoce.head(6)

In [None]:
def vypocitej_vydelek_za_artikl(seskupene):
    seskupene['vydelek_pobocky'] = seskupene['prodane_mnozstvi'] * seskupene['cena']
    return seskupene

<br>

Metoda `apply` je **obecnější a flexibilnější** než `transform`.

`apply` umožňuje použít uživatelem definovanou funkci na každou skupinu po seskupení dat pomocí `groupby`.

Výsledek metody `apply` může mít jiný tvar než původní data.

In [None]:
vystup = df_ovoce.groupby('pobocka', group_keys=False).apply(vypocitej_vydelek_za_artikl)

In [None]:
vystup

In [None]:
df_ovoce.groupby?

Od posledních verzí frameworku (`1.5.0` a vyšší) platí, že pokud bude výsledkem `DataFrame` nebo `Series` musíš uvést argument pro `group_keys=True`).

In [None]:
vystup = df_ovoce.groupby('pobocka', group_keys=True).apply(vypocitej_vydelek_za_artikl)

In [None]:
vystup.head(6)

Na první pohled vypadají metody `apply` a `transform` docela podobně.

Metoda `transform` je trochu omezenější než `apply`.

Slouží k aplikaci uživatelem definované nebo vestavěné funkce **na každý prvek** skupiny po seskupení s `groupby`.

`transform` musí vracet hodnotu stejného tvaru jako vstupní data.

Výsledek metody `transform` **má stejný tvar jako původní data**.

#### Apply
* potřebuješ výsledek, který **má jiný tvar než původní data**,
* umí zpracovat **více sloupečků současně**.

#### Transform
* potřebuješ výsledek, který **má stejný tvar jako původní data**,
* umí zpracovat **pouze jeden sloupeček**.

In [None]:
df_rozdily = DataFrame({
    'KLIC': ['A','B','C'] * 3,
    'A': numpy.arange(9),
    'B': [1,2,3] * 3,
})

In [None]:
df_rozdily

#### `transform` vrací výsledky ve stejném tvaru

In [None]:
def vypocitej_sumu(data):
    return data.sum()

In [None]:
seskup_df_rozdily_apply = df_rozdily.groupby('KLIC')['A'].apply(vypocitej_sumu)

In [None]:
seskup_df_rozdily_apply

In [None]:
seskup_df_rozdily_trans = df_rozdily.groupby('KLIC')['A'].transform(vypocitej_sumu)

In [None]:
seskup_df_rozdily_trans

#### `apply` umí pracovat s více sloupečky, `transform` jen s jedním

In [None]:
df_rozdily

In [None]:
def vypocitej_rozdil(data):
    return data['B'] - data['A']

In [None]:
df_rozdily.groupby('KLIC').apply(vypocitej_rozdil)

In [None]:
df_rozdily.groupby('KLIC').transform(vypocitej_rozdil)

<br>

**🧠 CVIČENÍ 🧠, procvič si funkcí GroupBy a agregační funkce**

Máš zadaný takový datový set.

Následně:
1. Pomocí metody `filter` vyber prodejny, které prodaly **alespoň 30 produktů**,
2. na filtrovaném datasetu použijte metodu `apply` pro výpočet **celkového příjmu z prodeje pro každý obchod**.

In [None]:
from pandas import DataFrame

df_prodej_hardware = DataFrame({
    'prodejna_id': (5, 4, 1, 5, 5, 1, 4, 2, 5, 1, 3, 1, 3, 4, 2, 1, 5, 4, 1, 5),
    'transakce_id': (1278, 1216, 1866, 1872, 1797, 1272, 1880, 1061, 1595, 1879, 1728,
       1341, 1396, 1698, 1018, 1176, 1611, 1395, 1444, 1232),
    'predmet_prodeje': ('grafická_karta', 'SSD', 'RAM', 'procesor', 'grafická_karta',
       'základní_deska', 'SSD', 'SSD', 'grafická_karta', 'RAM',
       'grafická_karta', 'procesor', 'grafická_karta', 'SSD',
       'grafická_karta', 'RAM', 'základní_deska', 'HDD', 'grafická_karta',
       'RAM'),
    'pocet_prodanych_ks': (1,  5,  6,  6,  3,  7,  9, 10,  8,  6,  8,  5,  8, 10,  4, 10,  8,
       10,  2,  5),
    'cena_predmetu': (19500.69874949, 19731.10951735, 14114.15342339, 10953.87914371,
        6535.78851758, 16369.00288429, 13852.2578648 ,  3671.03031723,
       18263.08009763, 16539.476237  , 19021.09830919, 14651.53041357,
       12461.59632075,  8655.73920767, 18688.2054254 , 17388.24584526,
        1381.76406707,  1014.1560027 ,  7841.03565412, 16305.78995025)
})

In [None]:
df_prodej_hardware.head()

In [None]:
#Úloha 1
cilove_prodejny = df_prodej_hardware.groupby('prodejna_id') \
                .filter(lambda prodejna: prodejna.pocet_prodanych_ks.sum() >= 30)

In [None]:
def func_1(seskupene_data, limit: int = 30) -> bool:
    return seskupene_data["pocet_prodanych_ks"] >= limit

In [None]:
prodeje_prodejen = cilove_prodejny.groupby('prodejna_id') \
                .aggregate({'pocet_prodanych_ks': sum})

In [None]:
df_prodej_hardware["prodejna_id"].unique()

In [None]:
#Úloha 2
prijmy_prodejen = pd.DataFrame(df_prodej_hardware.groupby('prodejna_id')['cena_predmetu'] \
                .apply(lambda prodejna: prodejna.sum())) \
                .rename(columns = { 'cena_predmetu': 'prijem_z_prodeje' } ) \
                .round( 2 )

<details>
    <summary>▶️ Řešení</summary>
    
    ```python
    def vyber_prodej_vetsi_nez_limit(data, limit: int = 30):
        return data['pocet_prodanych_ks'].sum() > limit
        
    def vypocitej_celkovy_vydelek_prodejny(skupina):
        return (skupina['pocet_prodanych_ks'] * skupina['cena_predmetu']).sum()
    
    df_filtr_hardware = df_prodej_hardware.groupby('prodejna_id') \
                            .filter(vyber_prodej_vetsi_nez_limit)
    
    
    celkovy_vydelek = df_filtr_hardware.groupby('prodejna_id') \
                            .apply(vypocitej_celkovy_vydelek_prodejny)
    ```
</details>

## Pivot tabulky

---

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse2.mm.bing.net%2Fth%3Fid%3DOIP.P16hnt14CM-mJ5eAKykxLAHaHa%26pid%3DApi&f=1&ipt=27e3f5b23fe44567ad0730192d5dcb13c7c23aa6e87579d16df05e27461dc12c&ipo=images" width="160" style="margin-left:auto; margin-right:auto"/>

*Pivot tabulky* (*kontingenční tabulky*) jsou užitečné pro přehledné zobrazení a analýzu dat z tabulkových zdrojů.

Pomocí pivot tabulek můžeš **seskupit data podle určitých kategorií** a provést agregaci hodnot.

Nejprve si představ situaci bez pivot tabulek, pomocí ukázky níže:

In [None]:
!pip install seaborn

In [None]:
import seaborn

<br>

V této ukazce použiješ vzorová data týkající se [nehody lodi Titanic](https://en.wikipedia.org/wiki/Sinking_of_the_Titanic):

In [None]:
df_titanic = seaborn.load_dataset('titanic')

In [None]:
df_titanic.head()

<br>

Pro jakoukoliv pokročilou analýzu dat, potřebuješ údaj seskupit.

Tak jak jsi do prováděl doposud, pomocí `groupby`:

In [None]:
df_titanic["sex"].unique()

In [None]:
df_titanic.groupby('sex')

<br>

Potřebuješ průměrnou hodnotu, ať je na sloupečku `survived` vidět poměr přeživších:

In [None]:
df_titanic.groupby('sex')['survived'].mean()

<br>

Pro lepší čitelnost **zaokrouhlím výsledek na dvě desetinné čísla**:

In [None]:
df_titanic.groupby('sex')['survived'].mean().round(2)

Takový průzkum z této studie ti dá jasný pohled na věc:
* 3 ze 4 žen přežily,
* 1 z 5 mužů přežil.

Pokud budeš potřebovat detailnější analýzy, budeš potřebovat více dat.

Třeba situaci, kde kromě pohlaví, bereš v potaz **třídu cestujících** `class`:

In [None]:
df_titanic["class"].unique()

In [None]:
df_titanic.groupby(['sex', 'class'])[['survived']].mean()

In [None]:
type(df_titanic.groupby(['sex', 'class'])[['survived']])

In [None]:
type(df_titanic.groupby(['sex', 'class'])['survived'].mean())

In [None]:
df_titanic.groupby(['sex', 'class'])[['survived']].mean().round(2)

<br>

Metodou `unstack` si můžeš vytvořit nové sloupečky, které jsou postavené na novém Indexu, nebo Indexech (*Multiindex*):

In [None]:
df_titanic.groupby(['sex', 'class'])['survived'].mean().round(2).unstack()

Takový průzkum ti dá skutečně lepší pohled na věc.

Současně ale roste **náročnost ohlášení**.

Zápis "bobtná" a **stává se náročnějším na přečtení a pochopení**.

<br>

### Pivot tabulka

---

Podobné řešení ti nabízí funkce `pivot_table`:

In [None]:
df_titanic.groupby(['sex', 'class'])['survived'].mean().round(2).unstack()

In [None]:
df_titanic.pivot_table('survived', index='sex', columns='class').round(2)

Zásádním rozdílem je ovšem **čitelnost**, kterou máš pro tuto variantu zápisu.

```
Clarity beats purity
```

Pomocí vhodných argumentů, můžeš doplnit vysvětlivky tam, kde funkce `groupby` nemohla.

Stejně platí, že pokud budeš potřebovat **další Index**, můžeš si pomoci funkcí `cut`:

In [None]:
df_titanic.head()

In [None]:
df_titanic['age'].describe()

In [None]:
from pandas import cut

In [None]:
age = cut(df_titanic['age'], [1, 25, 80])

In [None]:
age  # < xxx , xxx )

In [None]:
df_titanic.pivot_table('survived', index=['sex', age], columns='class').round(2)

Pomocí funkce `cut` doplníš tabulku na **Multiindex**.

Ten nyní vytvoří i rozsah pro věkovou kategorii.

<br>

**🧠 CVIČENÍ 🧠, procvič si pivot tabulky**

Ze zadaného datasetu vytvoř **pivot tabulku**, která zobrazí **počet prodaných kusů ovoce** pro **každý obchod** a **druh ovoce**.

In [None]:
ovoce_data = {
    'pobocka': ['A', 'A', 'B', 'B', 'C', 'C'],
    'ovoce': ['jablko', 'banan', 'jablko', 'banan', 'jablko', 'banan'],
    'prodane_mnozstvi': [10, 15, 8, 30, 20, 25],
    'cena': [20, 12, 22, 10, 18, 15]
}

In [None]:
# pivot_table()

In [None]:
prodane_kusy = DataFrame(ovoce_data) \
            .pivot_table(
                index='pobocka',
                columns ='ovoce',
                values='prodane_mnozstvi'
)

In [None]:
prodane_kusy

<details>
    <summary>▶️ Řešení</summary>
    
    ```python
    pivot_tabulka = df_ovoce.pivot_table(values="prodane_mnozstvi", index="pobocka", columns="ovoce")
    ```
</details>

<br>

## Časové řady

---

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse1.mm.bing.net%2Fth%3Fid%3DOIP.odqbr-09dxxBQjF7x7NyBAHaII%26pid%3DApi&f=1&ipt=5b4a03c1dd38b52108237102ebb350595a5d6ea6a50572f5897ca89fbf5b5445&ipo=images" width="160" style="margin-left:auto; margin-right:auto"/>

Část *frameworku* byla vyvinuta za účelem **finančního modelování**.

Proto je více než dobře vybavena sadou nástrojů, které umí pracovat **s daty, časem a časovými objekty**.

<br>

Uplatnění:
* **Analýza a predikce**: Časové řady umožňují analyzovat vývoj hodnot v čase a předpovídat budoucí trendy nebo sezónní změny. To je klíčové v oblastech jako finance, ekonomika, prodej, počasí a mnoho dalších.

* **Efektivní manipulace s časem**: Pandas poskytuje nástroje pro efektivní práci s časovými řadami, což zjednodušuje úkoly, jako je agregace, interpolace nebo časové posuny. Díky integrovaným funkcím můžete snadno pracovat s daty různých časových frekvencí a konvertovat mezi nimi.

* **Časově závislé analýzy**: Časové řady umožňují provádět časově závislé analýzy, jako je detekce změn v trendech, identifikace sezónních vlivů nebo identifikace časových závislostí mezi proměnnými.

* **Flexibilní indexace**: Pandas podporuje flexibilní indexaci časových řad, což usnadňuje filtrování, řazení a výběr dat na základě časových značek nebo rozsahů.

* **Kompatibilita s dalšími knihovnami**: Pandas je kompatibilní s mnoha dalšími knihovnami pro analýzu časových řad, jako je statsmodels nebo scikit-learn. To usnadňuje integraci a rozšíření vašich analýz s pokročilejšími metodami a algoritmy.
    
<br>

Jde například o údaje typu:
* *timestampy*, údaj odkazující na konkrétní časový okamžik (např. `4. července 2015 v 7:00 hod.`),
* *časové intervaly*, tedy období odkazují na délku času mezi konkrétním začátkem a koncem (např. intervaly ze dne na den),
* *time delta* objekty, tedy přesné délky času (např. 22,22 sekundy).

#### Data a čas v Pythonu

---

Standardní výbavou Pythonu jsou knihovny `datetime`:

In [None]:
from datetime import datetime

In [None]:
datetime(year=2023, month=4, day=5)

<br>

Nebo knihovna `dateutil` pro parsování datových typů z různých stringových zadání:

In [None]:
from dateutil import parser

In [None]:
date = parser.parse("5th of april, 2023")

In [None]:
date

Kde pomocí metody `strftime` můžeš vypsat den:

In [None]:
date.strftime("%A")

#### Data a čas v numpy

---

Některé nedostatky uvnitř knihoven `datetime` a `dateutil` vedli ke vzniku sady nástrojů.

Tyto doplňky vznikly pod hlavičkou knihovny `numpy`.

In [None]:
from numpy import array, arange

In [None]:
date = array('2023-04-05', dtype=np.datetime64)

In [None]:
date

<br>

Pokud potřebuješ pole následujících 7 dní:

In [None]:
date + arange(7)

<br>

Vzhledem k jednotnému datovu typu v poli pro **numpy** `datetime64` může tento typ operace
provádět mnohem rychleji, než přímo v Pythonu `datetime` objekty, zejména když objekty nabývají na velikosti.

#### Data a čas v pandách

---

Jde o kombinace objektů z obou předchozích podkapitol.

Ty dávají dohromady to nejlepší prostředky pro zacházení s časem.

In [None]:
from pandas import to_datetime

In [None]:
date = to_datetime("5th of April, 2023")

In [None]:
date

In [None]:
date.strftime("%A")

<br>

### Časové řady

---

V podstatě jde o hlavní nástroj, který tato knihovna dovede nabídnout.

#### Indexovní časem
`DatetimeIndex` obsahuje časové značky (*timestamp*), které jsou uloženy ve formátu `datetime64` s nanosekundovou přesností.

Tento objekt umožňuje efektivní práci s časovými řadami a poskytuje mnoho funkcí pro manipulaci s daty a časy.

Výhody práce s `DatetimeIndex` objektem:
* Časové zóny,
* frekvence,
* časově závislé selekce,
* atributy časových značek,
* operace s časem.

In [None]:
from pandas import DatetimeIndex, Series

In [None]:
datumy = ["2023-04-05", "2022-04-05", "2021-04-05", "2020-04-05"]

In [None]:
indexy = DatetimeIndex(datumy)

In [None]:
hodnoty = [to_datetime(den).strftime("%A") for den in datumy]

In [None]:
df_hodnoty = Series(hodnoty, index=indexy)

In [None]:
df_hodnoty

In [None]:
type(indexy)

In [None]:
df_hodnoty["2020": "2022"]

<br>

### Základní objekty

---

Mezi základní objekty pro práci s časem patří:
* `Timestamp` typ (související struktura Indexu `DatetimeIndex`,
* `Period` typ (.. `PeriodIndex`),
* `Timedelta` typ (.. `TimedeltaIndex`).

#### Timestamp & DatetimeIndex

Nejčastější datové typy, které lze vyvolat přímo, ovšem běžnější je pracovat s funkcí `to_datetime`.

Funkce `to_datetime` umí parsovat různé stringové formáty.

In [None]:
from pandas import to_datetime

#### Práce s jedním datumem

In [None]:
datum = to_datetime("05/04/2023")

In [None]:
datum

In [None]:
type(datum)

Pokud do funkce `to_datetime` vložíš jedinou hodnotu, vrací objekty typu `Timestamp`.

<br>

#### Specifický formát

Pokud se parser ztratí nebo tvoje zadání neodpovídá jeho vyhotovení:

In [None]:
pd.to_datetime("12-11-2010 00:00", format="%d-%m-%Y %H:%M")

<br>

#### Práce s několika datumy

In [None]:
datumy = to_datetime([
    datetime(2023, 4, 5), "5th of April 2023", "2023-Apr-5", "05-04-2023", "20230405"]
)

In [None]:
datumy

In [None]:
type(datumy)

Zatímco pole hodnot s datumy, které funkce `to_datetime` zpracuje vrací objekt typu `DatetimeIndex`.

<br>

Objekt `DatetimeIndex` potom můžeš konvertovat na `PeriodIndex` pomocí *metody* `to_period`:

In [None]:
datumy.to_period?

<br>

Tato metoda je užitečná, pokud chcete převést časové řady **na určité časové období**.

Když budeš třeba potřebovat převést hodnoty **z denních dat na měsíční data**.

#### Denní data

In [None]:
datumy.to_period("D")

#### Měsíční data

In [None]:
datumy.to_period("M")

In [None]:
data = {
    'date': pd.date_range(start='2022-01-01', periods=10, freq='D'),
    'sales': [100, 102, 105, 107, 110, 112, 115, 117, 120, 122]
}

In [None]:
df = pd.DataFrame(data)

In [None]:
df.set_index('date', inplace=True)

In [None]:
df_period = df.to_period(freq='Y')

<br>

### TimedeltaIndex

---

Jde o rozdíl v jednotkách času.

Nejčastěji se s tímto objektem setkáš, pokud potřebuješ získat **rozdíl mezi dvěma datumy**.

In [None]:
specialni_datumy = to_datetime([
    datetime(2022, 4, 5), "5th of April 2021", "2020-Apr-5", "05-04-2019", "20180405"]
)

In [None]:
datumy - specialni_datumy

<br>

### Funkce `date_range`

---

Aby bylo zadání řady (sekvence) dat pohodlnější, vyzkoušej funkci `date_range`.

Obdobně potom pracují související funkce:
* `date_range`, timestampy,
* `period_range`, periody,
* `timedelta_range`, pro delty.

In [None]:
from pandas import date_range

<br>

#### Počet period

In [None]:
datumy_ind = date_range("01-01-1992", periods=8)

In [None]:
datumy_ind

<br>

#### Frekvence

In [None]:
datumy_mesicne_ind = date_range("01-01-1992", periods=8, freq="M")

In [None]:
datumy_mesicne_ind

<br>

#### Hodinové periody

In [None]:
from pandas import timedelta_range

In [None]:
hodinove_ind = timedelta_range(0, periods=12, freq="H")

In [None]:
hodinove_ind

<br>

### Frekvence

Časovou paletou frekvencí, kterou framework `pandas` nabízí je tato tabulka:

| String | Popisek |
| :-: | :- |
| `D` | kalendářní den |
| `W` | týden |
| `M` | konec měsíce |
| `Q` | konec čtvrtletí |
| `A` | konec roku |
| `H` | hodiny |
| `T` | minuty |
| `S` | vteřiny |
| `B` | pracovní den |
| `BM` | konec pracovníḧo měsíce |
| `BQ` | konec pracovního čtvrtletí |

#### Netradiční frekvence

In [None]:
timedelta_range(0, periods=5, freq="1H15T")

### Resampling

---

*Resampling* nebo také *převzorkování* je proces, který upravuje frekvenci časové řady.

*Resampling* se obvykle používá **pro snížení frekvence** (z hodinových dat na denní data).

*Resampling* zahrnuje *agregaci* dat.

V `pandas` se k tomu používá metoda `resample`, která má jako parametr novou frekvenci, na kterou chcete data převést:

In [None]:
import pandas as pd

In [None]:
data = {
    'date': pd.date_range(start='2022-01-01', periods=60, freq='D'),
    'sales': range(60)
}

In [None]:
df = pd.DataFrame(data)

In [None]:
df.set_index('date', inplace=True)

In [None]:
monthly_data = df.resample('M').sum()

In [None]:
print(monthly_data)

<br>

### Zpřesňování

---

Zahrnuje **zvýšení frekvence časových řad**.

Přičemž se nově vytvořené hodnoty obvykle interpolují nebo doplňují nějakou konstantou.

V pandas se k zpřesňování používá metoda `asfreq`, která má jako parametr novou frekvenci, na kterou chcete data převést.

In [None]:
data = {
    'date': pd.date_range(start='2022-01-01', end='2022-03-01', freq='MS'),
    'sales': [100, 120, 150]
}

In [None]:
df = pd.DataFrame(data)

In [None]:
df.head()

In [None]:
df.set_index('date', inplace=True)

In [None]:
daily_data = df.asfreq('D', method='ffill')

In [None]:
daily_data.head(20)

Metoda `asfreq` bere jako parametr novou frekvenci, na kterou chceme data převést.

V případě výše jde o frekvenci `D`, což znamená **denní data**.

Protože při zpřesňování se **vytvoří chybějící hodnoty** (v důsledku zvýšení frekvence), je potřeba zvolit metodu pro jejich doplnění.

Výš jde o metodu `forward fill` (parametr `method='ffill'`), která kopíruje předchozí hodnotu pro výplň chybějících hodnot.

Další možností je použít metodu `'back fill'` (parametr `method='bfill'`), která kopíruje následující hodnotu pro výplň chybějících hodnot.

<br>

**🧠 CVIČENÍ 🧠, procvič si časové řady**

Analyzuj prodeje produktu ve fiktivní společnosti během jednoho roku a zjisti následující:
1. Celkový prodej za každý měsíc.
2. Průměrný prodej za každý den v týdnu.
3. Denní prodej za poslední týden.

In [None]:
import pandas as pd
import numpy as np

denni_datumy = pd.date_range(start='2022-01-01', end='2022-12-31', freq='D')
prodeje = np.random.randint(10, 100, size=(len(date_rng),))

data = {
    'datumy': denni_datumy,
    'prodeje': prodeje
}

df_prodeje = pd.DataFrame(data)
df_prodeje.set_index('datumy', inplace=True)

In [None]:
df_prodeje

<details>
    <summary>▶️ Řešení</summary>
    
    ```python
    monthly_sales = df.resample('M').sum()
    print("Celkový prodej za každý měsíc:")
    print(monthly_sales)

    df_prodeje['weekday'] = df_prodeje.index.weekday
    average_weekday_sales = df_prodeje.groupby('weekday')['prodeje'].mean()
    print("\nPrůměrný prodej za každý den v týdnu:")
    print(average_weekday_sales)

    last_week_sales = df.loc['2022-12-25':, 'sales']
    print("\nDenní prodej za poslední týden:")
    print(last_week_sales)
    ```
</details>

---