# Python Data, 2024

---

* [Spojování dat](#Spojov%C3%A1n%C3%AD-dat),
    - [spojování s CONCAT](#Spojování-s-CONCAT),
    - [spojování s CONCAT a JOIN](#concat-a-volitelný-argument-join),
    - [spojování s metodou APPEND](#Spojování-pomocí-metody-APPEND),
    - [spojování s MERGE](#Spojování-pomocí-merge),
    - [spojování s metodou JOIN](#Spojení-pomocí-indexů,-join),
* [Agregace](#Agregace),
    - [jednoduchá agregace](#Jednoduchá-agregace),
    - [seskupování GROUPBY](#Seskupování-groupby),
    - [agregace](#Agregace-s-metodami),
    - [filtrování](#Filtrování),
    - [transformace](#Transformace),
    - [apply](#Metoda-apply),
* [Pivot tabulka](#Pivot-tabulky),
    - [úvodní motivace](),
    - [syntaxe tabulky](),
    - [doplňující možnosti]().
---



<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse1.mm.bing.net%2Fth%3Fid%3DOIP.APOjuHGvkM0wQaUx9ELKAgHaHa%26pid%3DApi&f=1&ipt=a8b2b692c40e190d4b28c164bf13e6c944702a69944035a4ef9053aa6ea1b190&ipo=images" width="160" style="margin-left:auto; margin-right:auto"/>

<br>

## Spojování dat

---

Takovými operacemi si můžeš představit jednoduché operace jako **spojování** (*konkatenace*) **dvou a více datasetů** až po složitější *JOINY* podobně jako u databází.

`pandas` obsahuje různé *funkce* a *metody*, které umožňují tento způsob práce.

* funkce `concat`,
* funkce `merge`,
* metoda `append` (*outdated*),
* metoda `join`.

### Spojování s CONCAT

---

Funkce `concat()` v `pandas` umožňuje spojit **dva nebo více**:
1. **sloupečků** tabulky,
    - *horizontálně*, po sloupcích,
    - *vertikálně*, po Indexech,
3. **tabulek** samotných,
    - *horizontálně*, po sloupcích,
    - *vertikálně*, po Indexech,

Použití funkce `concat()` spočívá **v předání seznamu objektů**, které chceš spojit, a parametru `axis`, který určuje osu, podle které se májí objekty spojit:

#### Spojení sloupečků, CONCAT

---

In [1]:
import pandas as pd 

In [2]:
sloupec_1 = pd.Series(['A', 'B', 'C'], index=[1, 2, 3])
sloupec_2 = pd.Series(['D', 'E', 'F'], index=[4, 5, 6])

In [3]:
sloupec_1

1    A
2    B
3    C
dtype: object

In [4]:
sloupec_2

4    D
5    E
6    F
dtype: object

In [11]:
spojene_sloupce = pd.concat(sloupec_1, sloupec_2, axis=0)  # --> "TypeError"

TypeError: concat() takes 1 positional argument but 2 positional arguments (and 1 keyword-only argument) were given

<br>

Spojení **vertikální** (pod sebou):

In [7]:
spojene_sloupce_vertikalne = pd.concat((sloupec_1, sloupec_2), axis=0)

In [8]:
pd.concat?

[31mSignature:[39m
pd.concat(
    objs: [33m'Iterable[Series | DataFrame] | Mapping[HashableT, Series | DataFrame]'[39m,
    *,
    axis: [33m'Axis'[39m = [32m0[39m,
    join: [33m'str'[39m = [33m'outer'[39m,
    ignore_index: [33m'bool'[39m = [38;5;28;01mFalse[39;00m,
    keys: [33m'Iterable[Hashable] | None'[39m = [38;5;28;01mNone[39;00m,
    levels=[38;5;28;01mNone[39;00m,
    names: [33m'list[HashableT] | None'[39m = [38;5;28;01mNone[39;00m,
    verify_integrity: [33m'bool'[39m = [38;5;28;01mFalse[39;00m,
    sort: [33m'bool'[39m = [38;5;28;01mFalse[39;00m,
    copy: [33m'bool | None'[39m = [38;5;28;01mNone[39;00m,
) -> [33m'DataFrame | Series'[39m
[31mDocstring:[39m
Concatenate pandas objects along a particular axis.

Allows optional set logic along the other axes.

Can also add a layer of hierarchical indexing on the concatenation axis,
which may be useful if the labels are the same (or overlapping) on
the passed axis number.

Parameters


In [12]:
spojene_sloupce_vertikalne

1    A
2    B
3    C
4    D
5    E
6    F
dtype: object

<br>

Spojení **horizontální** (vedle sebe):

In [13]:
horizontalni_spoj = pd.concat([sloupec_1, sloupec_2], axis=1)

In [14]:
horizontalni_spoj

Unnamed: 0,0,1
1,A,
2,B,
3,C,
4,,D
5,,E
6,,F


In [20]:
sloupec_1 = pd.Series(["Matouš", "Marek", "Lukáš", "Jan"], index=[0, 1, 2, 3])
sloupec_2 = pd.Series([23, 25, 27, 29], index=[0, 1, 2, 3])
horizontalni_spoj = pd.concat([sloupec_1, sloupec_2], axis=1)

In [21]:
horizontalni_spoj

Unnamed: 0,0,1
0,Matouš,23
1,Marek,25
2,Lukáš,27
3,Jan,29


<br>

#### Spojení tabulek, CONCAT

---

In [22]:
uzivatele_tab_1 = {'jmeno': ['Matouš', 'Marek', 'Lukáš'],
               'vek': [25, 30, 35]}

In [23]:
uzivatele_tab_2 = {'jmeno': ['Petr', 'Jan', 'Michal'],
                   'vek': [40, 45, 50]}

In [24]:
uzivatele_tab_1_df = pd.DataFrame(uzivatele_tab_1)
uzivatele_tab_2_df = pd.DataFrame(uzivatele_tab_2)

In [25]:
uzivatele_tab_1_df

Unnamed: 0,jmeno,vek
0,Matouš,25
1,Marek,30
2,Lukáš,35


In [26]:
uzivatele_tab_2_df

Unnamed: 0,jmeno,vek
0,Petr,40
1,Jan,45
2,Michal,50



#### Samotné spojení dvou tabulek

---

Stejně jako u sloupečků, nezapomínat na poziční argumenty (závorka).

Stejně tak, vybrat správnou osu.

In [27]:
spojene_tab_df = pd.concat([uzivatele_tab_1_df, uzivatele_tab_2_df], axis=0)

In [28]:
spojene_tab_df

Unnamed: 0,jmeno,vek
0,Matouš,25
1,Marek,30
2,Lukáš,35
0,Petr,40
1,Jan,45
2,Michal,50


#### Co s duplicitními Indexy?

---

Tady se ovšem **zduplikovali hodnoty** některých indexů.

Ty je potřeba opravit tímto postupem:
1. **Vytvořím nový sloupeček** pro Indexy,
2. **odstraním starý sloupeček** s duplicitami.

In [29]:
spojene_tab_df = spojene_tab_df.reset_index()  # Přidá nový Index

In [30]:
spojene_tab_df

Unnamed: 0,index,jmeno,vek
0,0,Matouš,25
1,1,Marek,30
2,2,Lukáš,35
3,0,Petr,40
4,1,Jan,45
5,2,Michal,50


In [31]:
spojene_tab_df = spojene_tab_df.drop("index", axis=1)

In [32]:
spojene_tab_df

Unnamed: 0,jmeno,vek
0,Matouš,25
1,Marek,30
2,Lukáš,35
3,Petr,40
4,Jan,45
5,Michal,50


<br>

Kontrola nového rozsahu **pro Index**:

In [33]:
spojene_tab_df.index

RangeIndex(start=0, stop=6, step=1)

<br>

Pozůstatky sloupečků:

In [34]:
spojene_tab_df.columns

Index(['jmeno', 'vek'], dtype='object')

<br>

Nastavení nových Indexů **podle jmen**:

In [29]:
# spojene_tab_df.index.names?

<br>

Doplníš jméno **pro Index**:

In [30]:
spojene_tab_df.index.names = ["Index ze jmén"]

In [31]:
spojene_tab_df.index.names

FrozenList(['Index ze jmén'])

In [32]:
spojene_tab_df.index

RangeIndex(start=0, stop=6, step=1, name='Index ze jmén')

In [33]:
spojene_tab_df

Unnamed: 0_level_0,jmeno,vek
Index ze jmén,Unnamed: 1_level_1,Unnamed: 2_level_1
0,Matouš,25
1,Marek,30
2,Lukáš,35
3,Petr,40
4,Jan,45
5,Michal,50


Pro odchytávání **duplicitních indexů** můžeš doplnit parametr `verify_integrity=True`, případně pokud je irelevantní, ignorovat jej úplně `ignore_index=True`.

<br>

**🧠 CVIČENÍ 🧠, procvič si funkcí CONCAT**

In [35]:
data_populace: dict[str, list] = {
    "City": ["New York", "London", "Tokyo"],
    "Population": [8.4, 9.0, 13.9],
}

data_plocha = {
    "City": ["New York", "London", "Tokyo"],
    "Area": [783, 1572, 2194],
}

data_kontinent = {
    "City": ["New York", "London", "Tokyo"],
    "Continent": ["North America", "Europe", "Asia"],
}

# Vytvoř funkci "spoj_data_mest", která spojí 3 předchozí DF

<details>
    <summary>▶️ Řešení</summary>
    
```python
from pandas import DataFrame, concat

data_populace = {
    "City": ["New York", "London", "Tokyo"],
    "Population": [8.4, 9.0, 13.9],
}

data_plocha = {
    "City": ["New York", "London", "Tokyo"],
    "Area": [783, 1572, 2194],
}

data_kontinent = {
    "City": ["New York", "London", "Tokyo"],
    "Continent": ["North America", "Europe", "Asia"],
}

populace_df = DataFrame(data_populace)
plocha_df = DataFrame(data_plocha)
kontinent_df = DataFrame(data_kontinent)


def spoj_data_mest(populace, plocha, kontinent):
    """
    Spojí tři tabulky horizontálně podle sloupce City.
    """
    return concat([populace.set_index("City"),
                      plocha.set_index("City"),
                      kontinent.set_index("City")], axis=1).reset_index()


result = spoj_data_mest(populace_df, plocha_df, kontinent_df)
print(result)
```
</details>

<img src="https://imgs.search.brave.com/wR9sz6BPwR_LCDm6Esd_B9VgUBSbW4wbTPi2T9DrdBc/rs:fit:500:0:0:0/g:ce/aHR0cHM6Ly90NC5m/dGNkbi5uZXQvanBn/LzA4LzQwLzM1LzIx/LzM2MF9GXzg0MDM1/MjE1Ml84N1N2T0kx/REM2RElCaHkxc0xz/VnpnYmNIUk1UZno0/cC5qcGc" width="230" style="margin-left:auto; margin-right:auto"/>

### CONCAT a volitelný argument JOIN

---

V jednoduchých ukázkách, jako jsou ty výše, stačilo **tabulky a sloupečky spojit**.

To prakticky není vždy ideální řešení, protože některé sloupečky můžou, **ale nemusí být shodné**.

In [36]:
data_tab_1_df = pd.DataFrame(
    {"A": ["A1", "A2"], "B": ["B1", "B2"], "C": ["C1", "C2"]},
    index=[1, 2]
)

In [37]:
data_tab_2_df = pd.DataFrame(
    {"B": ["B3", "B4"], "C": ["C3", "C4"], "D": ["D3", "D4"]},
    index=[3, 4]
)

In [38]:
data_tab_1_df

Unnamed: 0,A,B,C
1,A1,B1,C1
2,A2,B2,C2


In [39]:
data_tab_2_df

Unnamed: 0,B,C,D
3,B3,C3,D3
4,B4,C4,D4



#### Horizontální spojení dvou tabulek

---

In [40]:
vystup_tab_df = pd.concat([data_tab_1_df, data_tab_2_df])  # axis=0

In [41]:
vystup_tab_df

Unnamed: 0,A,B,C,D
1,A1,B1,C1,
2,A2,B2,C2,
3,,B3,C3,D3
4,,B4,C4,D4


Pokud některá data chybějí, jsou automaticky vyplněná **neznámými hodnotami**.

Řešením takové situace můžeš být zavedení jiného **způsobu spojování**.

Tedy nepoužívat defaultní argument `join='outer'`, ale `join='inner'`:

In [42]:
vystup_bez_nan_df = pd.concat([data_tab_1_df, data_tab_2_df],
                           join='inner',
                           axis=0)

In [43]:
vystup_bez_nan_df

Unnamed: 0,B,C
1,B1,C1
2,B2,C2
3,B3,C3
4,B4,C4


In [45]:
vystup_vc_nan_df = pd.concat([data_tab_1_df, data_tab_2_df],
                           join='outer',
                           axis=0)

In [46]:
vystup_vc_nan_df

Unnamed: 0,A,B,C,D
1,A1,B1,C1,
2,A2,B2,C2,
3,,B3,C3,D3
4,,B4,C4,D4


<img src="https://imgs.search.brave.com/IZ8jkD1GaDV2tXwgwzM1Xawk-jBMejygby1KcermQp8/rs:fit:500:0:0:0/g:ce/aHR0cHM6Ly90NC5m/dGNkbi5uZXQvanBn/LzA4LzQ2LzQ3LzE1/LzM2MF9GXzg0NjQ3/MTU2MF95Y281RnhM/UG5RR1c4NW1OWHBD/UmcxUWptSzRiMnp3/eS5qcGc" width="200" style="margin-left:auto; margin-right:auto"/>



### Spojování pomocí `MERGE`

---

Další funkcí pro spojování `DataFrame` objektů je `merge`.

Tato funkce je vhodná pro spojování DataFrame objektů, které **mají společné sloupce**.

Můžeš lépe zadávat typ spojení (parametr `how='inner' | 'outer' | 'left' | 'join'`).

Dále ti umožní **definovat sloupec, nebo sloupce**, na kterých chceš spojení provést (parametr `on`).

In [47]:
uzivatele_tab_1 = {
    'jmeno': ['Alice', 'Bob', 'Charlie', 'David'],
    'vek': [25, 30, 35, 40],
    'mesto': ['Brno', 'Praha', 'Plzen', 'Ostrava']
}

In [48]:
uzivatele_tab_2 = {
    'jmeno': ['Alice', 'David', 'Emma', 'Frank'],
    'pocet_prijemcu': [100, 200, 150, 250]
}

In [49]:
uzivatele_tab_1_df = pd.DataFrame(uzivatele_tab_1)
uzivatele_tab_2_df = pd.DataFrame(uzivatele_tab_2)

In [50]:
uzivatele_tab_1_df

Unnamed: 0,jmeno,vek,mesto
0,Alice,25,Brno
1,Bob,30,Praha
2,Charlie,35,Plzen
3,David,40,Ostrava


In [51]:
uzivatele_tab_2_df

Unnamed: 0,jmeno,pocet_prijemcu
0,Alice,100
1,David,200
2,Emma,150
3,Frank,250


#### Spojení FULL JOIN

---

In [52]:
mergnute_df = pd.merge(uzivatele_tab_1_df,
                       uzivatele_tab_2_df,
                       on='jmeno',
                       how='outer')

In [53]:
mergnute_df

Unnamed: 0,jmeno,vek,mesto,pocet_prijemcu
0,Alice,25.0,Brno,100.0
1,Bob,30.0,Praha,
2,Charlie,35.0,Plzen,
3,David,40.0,Ostrava,200.0
4,Emma,,,150.0
5,Frank,,,250.0


#### Spojené INNER MERGE

---

In [54]:
mergnute_inner_df = pd.merge(uzivatele_tab_1_df,
                             uzivatele_tab_2_df,
                             on='jmeno',
                             how='inner')

In [55]:
mergnute_inner_df

Unnamed: 0,jmeno,vek,mesto,pocet_prijemcu
0,Alice,25,Brno,100
1,David,40,Ostrava,200


Funkce sama **doplní přípony**, aby rozlišila **mezi oběma původními sloupci**.

**Pokud potřebuješ vlastní přípony**, můžeš vyzkoušet volitelný argument pro `suffixes`:

In [56]:
df8 = pd.DataFrame({
    'jmeno': ['Bob', 'Jake', 'Lisa', 'Sue'],
    'poradi': [1, 2, 3, 4]
})

In [57]:
df9 = pd.DataFrame({
    'jmeno': ['Bob', 'Jake', 'Lisa', 'Sue'],
    'poradi': [3, 1, 4, 2]
})

In [58]:
df8

Unnamed: 0,jmeno,poradi
0,Bob,1
1,Jake,2
2,Lisa,3
3,Sue,4


In [59]:
df9

Unnamed: 0,jmeno,poradi
0,Bob,3
1,Jake,1
2,Lisa,4
3,Sue,2


In [60]:
vystup_konflikt = pd.merge(df8, df9, on="jmeno")

In [61]:
vystup_konflikt

Unnamed: 0,jmeno,poradi_x,poradi_y
0,Bob,1,3
1,Jake,2,1
2,Lisa,3,4
3,Sue,4,2


In [68]:
vystup_vlastni_pripony = pd.merge(df8, df9, on='jmeno', suffixes=('_DF8', '_DF9'))

In [63]:
vystup_vlastni_pripony

Unnamed: 0,jmeno,poradi_DF8,poradi_DF9
0,Bob,1,3
1,Jake,2,1
2,Lisa,3,4
3,Sue,4,2


Obecně platí, že pokud potřebuješ *spojit* dva nebo více `DataFrame` objektů podle **společného sloupce nebo sloupců**, použij funkci `merge()`.

Pokud chceš jenom **přidat další řádky nebo sloupce** do existujícího `DataFrame` objektu, použij funkci `concat`.

#### Ukázka MERGE funkce s dopomocí `LEFT/RIGHT`

In [64]:
uzivatele_tab_1_df

Unnamed: 0,jmeno,vek,mesto
0,Alice,25,Brno
1,Bob,30,Praha
2,Charlie,35,Plzen
3,David,40,Ostrava


In [65]:
uzivatele_tab_2_df

Unnamed: 0,jmeno,pocet_prijemcu
0,Alice,100
1,David,200
2,Emma,150
3,Frank,250


In [70]:
vystup_left_join_df = pd.merge(uzivatele_tab_1_df,
                               uzivatele_tab_2_df,
                               on='jmeno',
                               how='left')

In [71]:
vystup_left_join_df

Unnamed: 0,jmeno,vek,mesto,pocet_prijemcu
0,Alice,25,Brno,100.0
1,Bob,30,Praha,
2,Charlie,35,Plzen,
3,David,40,Ostrava,200.0


V ukázce výš je použitý *left join*.

Tedy ve výsledku uvidíš **celou první** (levou tabulku) a z druhé pouze ty záznamy, které mají ve spojovacím sloupci `jmeno` společnou hodnotu.

Dá se napsát i *right join*.

In [74]:
vystup_right_join_obr_df = pd.merge(uzivatele_tab_2_df,
                                    uzivatele_tab_1_df,
                                    on='jmeno',
                                    how='right')

In [76]:
vystup_right_join_obr_df

Unnamed: 0,jmeno,pocet_prijemcu,vek,mesto
0,Alice,100.0,25,Brno
1,Bob,,30,Praha
2,Charlie,,35,Plzen
3,David,200.0,40,Ostrava


#### Ukázka MERGE funkce s dopomocí `CROSS`

In [77]:
jmena_df = pd.DataFrame({"jmeno": ["Matouš", "Marek", "Lukáš"]})
mesta_df = pd.DataFrame({"mesto": ["Praha", "Brno"]})

In [78]:
jmena_df

Unnamed: 0,jmeno
0,Matouš
1,Marek
2,Lukáš


In [79]:
mesta_df

Unnamed: 0,mesto
0,Praha
1,Brno


In [81]:
kombinace_df = jmena_df.merge(mesta_df, how="cross")
kombinace_df

Unnamed: 0,jmeno,mesto
0,Matouš,Praha
1,Matouš,Brno
2,Marek,Praha
3,Marek,Brno
4,Lukáš,Praha
5,Lukáš,Brno


In [82]:
jmena_df = pd.DataFrame({
    "jmeno": ["Matouš", "Marek", "Lukáš"],
    "vek": [23, 25, 27]
})

mesta_df = pd.DataFrame({
    "mesto": ["Praha", "Brno"],
    "zeme": ["Česko", "Česko"]
})

In [83]:
jmena_df

Unnamed: 0,jmeno,vek
0,Matouš,23
1,Marek,25
2,Lukáš,27


In [85]:
mesta_df

Unnamed: 0,mesto,zeme
0,Praha,Česko
1,Brno,Česko


In [86]:
kombinace_df = jmena_df.merge(mesta_df, how="cross")
kombinace_df

Unnamed: 0,jmeno,vek,mesto,zeme
0,Matouš,23,Praha,Česko
1,Matouš,23,Brno,Česko
2,Marek,25,Praha,Česko
3,Marek,25,Brno,Česko
4,Lukáš,27,Praha,Česko
5,Lukáš,27,Brno,Česko


### Spojení pomocí indexů, `JOIN`

---

Tato metoda slouží k propojení dvou DataFrame objektů na základě **jejich indexů nebo hodnot**.

Je velice podobná funkci `merge` ale je přímo součástí `DataFrame` objektu a je snazší ji aplikovat:

In [87]:
uzivatele_1 = {
    'jmeno': ['Alice', 'Bob', 'Petr'],
     'vek': [25, 30, 35]
}

In [88]:
uzivatele_2 = {
    'jmeno': ['Alice', 'Bob', 'Petr'],
    'pocet_prijemcu': [100, 150, 200]
}

In [89]:
df_uzivatele_1 = pd.DataFrame(uzivatele_1)
df_uzivatele_2 = pd.DataFrame(uzivatele_2)

In [90]:
df_uzivatele_1

Unnamed: 0,jmeno,vek
0,Alice,25
1,Bob,30
2,Petr,35


In [91]:
df_uzivatele_2

Unnamed: 0,jmeno,pocet_prijemcu
0,Alice,100
1,Bob,150
2,Petr,200


In [94]:
df_uzivatele_1.index

RangeIndex(start=0, stop=3, step=1)

In [95]:
df_uzivatele_2.index

RangeIndex(start=0, stop=3, step=1)

In [96]:
uzivatele_1_df = df_uzivatele_1.set_index('jmeno')

In [97]:
uzivatele_2_df = df_uzivatele_2.set_index('jmeno')

In [98]:
uzivatele_1_df

Unnamed: 0_level_0,vek
jmeno,Unnamed: 1_level_1
Alice,25
Bob,30
Petr,35


In [99]:
uzivatele_2_df

Unnamed: 0_level_0,pocet_prijemcu
jmeno,Unnamed: 1_level_1
Alice,100
Bob,150
Petr,200


In [100]:
uzivatele_1_df.index

Index(['Alice', 'Bob', 'Petr'], dtype='object', name='jmeno')

In [101]:
uzivatele_2_df.index

Index(['Alice', 'Bob', 'Petr'], dtype='object', name='jmeno')

In [102]:
vysledek_join_metody = uzivatele_1_df.join(uzivatele_2_df)

In [103]:
vysledek_join_metody

Unnamed: 0_level_0,vek,pocet_prijemcu
jmeno,Unnamed: 1_level_1,Unnamed: 2_level_1
Alice,25,100
Bob,30,150
Petr,35,200


Hlavní rozdíl mezi těmito funkcemi je způsob určení **sloupce nebo sloupců**, podle kterých se má propojení provést.

1. Metoda `join()` propojuje DataFrame objekty **na základě jejich Indexů**.
2. Funkce `merge()` umožňuje propojit `DataFrame` objekty **na základě hodnoty v jednom nebo více sloupcích**.

### Souhrn ke spojování

---

| Objekt | Kdy jej použít? | Směr spojení |
| :- | :- | :- |
| `concat` | Když chceš poskládat tabulky na sebe (řádky) nebo vedle sebe (sloupce). | Vertikálně / Horizontálně | 
| `merge` |	Když chcete spojit tabulky podle společného klíče/sloupce, podobně jako SQL JOIN. | Horizontálně |
| `join` | Když chcete spojit tabulky podle společného Indexu (ne klíče/sloupce). | Horizontálně |
| `append` | (Zastaralé) Používalo se k přidání řádků, nyní používejte concat. | Vertikálně |

<br>

**🧠 CVIČENÍ 🧠, procvič si spojování**

Tvým úkolem je propojit tyto tabulky podle zadání:
1. Použij spojovací funkci pro spojení objektů typu `DataFrame` , které vytvoříš z proměnných `data_zamestnanci_1` a `data_zamestnanci_2`,
2. použij spojovací funkci, které zadáš vzniklý objekt typu `DataFrame`  z bodu 1. a druhý `DataFrame`, který vytvoříš z proměnné `data_oddeleni` (spoj přes sloupeček `"oddělení_id"`),
3. vytvoř výsledný objekt typu `DataFrame` , který obsahuje pouze zaměstnance z oddělení `IT`.

In [118]:
data_zamestnanci_1 = {
    'id': [1, 2, 3],
    'jméno': ['Jan', 'Marie', 'Petr'],
    'příjmení': ['Novák', 'Svobodová', 'Dvořák'],
    'oddělení_id': [100, 200, 100]
}

data_zamestnanci_2 = {
    'id': [4, 5],
    'jméno': ['Anna', 'Josef'],
    'příjmení': ['Kopecká', 'Vondráček'],
    'oddělení_id': [200, 100]
}

data_oddeleni = {
    'oddělení_id': [100, 200],
    'název_oddělení': ['IT', 'HR']
}

<details>
    <summary>▶️ Řešení</summary>
    
```python
df_zamestnanci_1 = pd.DataFrame(data_zamestnanci_1)
df_zamestnanci_2 = pd.DataFrame(data_zamestnanci_2)
df_oddeleni = pd.DataFrame(data_oddeleni)

df_vsichni_zamestnanci = pd.concat([df_zamestnanci_1, df_zamestnanci_2], ignore_index=True)

# df1 = pd.concat(
#     [pd.DataFrame(data) for data in [data_zamestnanci_1, data_zamestnanci_2]]
# ).reset_index(drop = True).set_index('id')

df_vsechna_oddeleni = pd.merge(df_vsichni_zamestnanci, df_oddeleni, on="oddělení_id")

df_jen_it = df_vsechna_oddeleni[df_vsechna_oddeleni["název_oddělení"] == "IT"]
```
</details>

## Agregace

---


<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse1.mm.bing.net%2Fth%3Fid%3DOIP.HtBtNx6dodlNptXV1QGHWQHaG0%26pid%3DApi&f=1&ipt=3a4d1dfa14a495127b4ece5cf689f00ed0c9e0836853358412e18161ae7c505f&ipo=images" width="160" style="margin-left:auto; margin-right:auto"/>


*Seskupování* neboli **agregace** jsou procesy, které patří k základní efektivní analýze dat.

### Jednoduchá agregace

---

Přesto, že veškeré základní **statistické údaje** prakticky nabízí metoda `describe()`, můžeš ocenit, když stejnou statistiku můžeš aplikovat **na tebou vybrané objekty**.

Mezi nejjednodušší postupy, jak data analyzovat patří metody jako:
* `sum()`,
* `mean()`,
* `median()`,
* `min()`,
* `max()`.

Všechny tyto metody umožní získat jedno samotné číslo, které ti umožní prohlédnout podstatu zadaného datasetu.

In [104]:
nemovitosti_df = pd.read_csv("../onsite/housing.csv")

In [105]:
nemovitosti_df.head()

Unnamed: 0,id,price,bedrooms,bathrooms,sqft_living,sqft_lot,floors,condition,grade
0,1,221900.0,3,1.0,1180,5650,1,3,7
1,2,538000.0,3,2.25,2570,7242,2,3,7
2,3,180000.0,2,1.0,770,10000,1,3,6
3,4,604000.0,4,3.0,1960,5000,1,5,7
4,5,510000.0,3,2.0,1680,8080,1,3,8


In [106]:
nemovitosti_df.describe()

Unnamed: 0,id,price,bedrooms,bathrooms,sqft_living,sqft_lot,floors,condition,grade
count,10.0,10.0,10.0,10.0,10.0,10.0,10.0,10.0,10.0
mean,5.5,438075.0,3.1,2.1,2002.5,16846.2,1.3,3.2,7.4
std,3.02765,313760.3,0.567646,1.094177,1305.367658,29937.105556,0.483046,0.632456,1.349897
min,1.0,180000.0,2.0,1.0,770.0,5000.0,1.0,3.0,6.0
25%,3.25,236500.0,3.0,1.125,1305.0,6624.75,1.0,3.0,7.0
50%,5.5,307425.0,3.0,2.125,1747.5,7356.0,1.0,3.0,7.0
75%,7.75,531000.0,3.0,2.4375,1942.5,9303.25,1.75,3.0,7.0
max,10.0,1225000.0,4.0,4.5,5420.0,101930.0,2.0,5.0,11.0


In [107]:
nemovitosti_df.loc[:, "price"].max()

np.float64(1225000.0)

<br>

Často ale není dostačující, prozkoumat data pouze jednoduchých agregačních funkcí.

Další operace, které je potřeba pochopit jsou seskupování dat podle zadaných parametrů.

### Seskupování GROUPBY

---

Metoda `groupby`, původně operace z SQL jazyka, je v rámci knihovny `pandas` všestraný pomocník pro seskupování dat na základě různých kritérií.

In [119]:
pokus_s_cisly_df = pd.DataFrame(
    {'klíč': ['A', 'B', 'C', 'A', 'B', 'C'],
     'číselná hodnota': range(6)},
)

In [120]:
pokus_s_cisly_df

Unnamed: 0,klíč,číselná hodnota
0,A,0
1,B,1
2,C,2
3,A,3
4,B,4
5,C,5


#### Klasické seskupení podle sloupečku

---

In [121]:
pokus_s_cisly_df.groupby?

[31mSignature:[39m
pokus_s_cisly_df.groupby(
    by=[38;5;28;01mNone[39;00m,
    axis: [33m'Axis | lib.NoDefault'[39m = <no_default>,
    level: [33m'IndexLabel | None'[39m = [38;5;28;01mNone[39;00m,
    as_index: [33m'bool'[39m = [38;5;28;01mTrue[39;00m,
    sort: [33m'bool'[39m = [38;5;28;01mTrue[39;00m,
    group_keys: [33m'bool'[39m = [38;5;28;01mTrue[39;00m,
    observed: [33m'bool | lib.NoDefault'[39m = <no_default>,
    dropna: [33m'bool'[39m = [38;5;28;01mTrue[39;00m,
) -> [33m'DataFrameGroupBy'[39m
[31mDocstring:[39m
Group DataFrame using a mapper or by a Series of columns.

A groupby operation involves some combination of splitting the
object, applying a function, and combining the results. This can be
used to group large amounts of data and compute operations on these
groups.

Parameters
----------
by : mapping, function, label, pd.Grouper or list of such
    Used to determine the groups for the groupby.
    If ``by`` is a function, it's calle

In [122]:
pokus_s_cisly_df.groupby("klíč")

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7f2d27a83560>

Jde opět o tzv. *lazy evaluation* proces, samotný nic neprovede, pouze čeká na pokyn uživatele, který samotnou agregaci spustí.

In [123]:
type(pokus_s_cisly_df.groupby("klíč"))

pandas.core.groupby.generic.DataFrameGroupBy

Metoda standardně vrací `DataFrameGroupBy`.

<br>

In [124]:
pokus_s_cisly_df.groupby("klíč").sum()

Unnamed: 0_level_0,číselná hodnota
klíč,Unnamed: 1_level_1
A,3
B,5
C,7


Metoda `sum()` je pouze jednou z možností, se kterou můžeš pracovat.

<br>

#### Sloupečkové označování

---

Stejně jako `DataFrame` můžeš označovat také *GroupBy* objekty.

In [125]:
pokus_s_cisly_df

Unnamed: 0,klíč,číselná hodnota
0,A,0
1,B,1
2,C,2
3,A,3
4,B,4
5,C,5


In [126]:
pokus_s_cisly_df.groupby("klíč")

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7f2d27a829f0>

In [127]:
pokus_s_cisly_df.groupby("klíč")["číselná hodnota"]

<pandas.core.groupby.generic.SeriesGroupBy object at 0x7f2d27a393d0>

In [128]:
pokus_s_cisly_df.groupby("klíč")["číselná hodnota"].sum()

klíč
A    3
B    5
C    7
Name: číselná hodnota, dtype: int64

<br>

V uplynulé ukázce je zadaná seskupování podle sloupečku `klíč`.

Dále je vybraný pouze konkrétní sloupeček, na který chceš spustit metodu `sum`.

<br>

Pokud potřebuješ nad vybraným objektem provádět některé procesy ručně, můžeš přes *GroupBy* objekt **iterovat**:

In [129]:
for (klic, hodnota) in pokus_s_cisly_df.groupby("klíč"):
    print(f"Klic: {klic}; Hodnota={hodnota}")

Klic: A; Hodnota=  klíč  číselná hodnota
0    A                0
3    A                3
Klic: B; Hodnota=  klíč  číselná hodnota
1    B                1
4    B                4
Klic: C; Hodnota=  klíč  číselná hodnota
2    C                2
5    C                5


<br>

### Agregace s metodami

---

Kromě jednoduchých agregací, nabízí *GroupBy* řadu další funkcionality.

Jde o metody:
* `aggregate`,
* `filter`,
* `transform`,
* `apply`.

#### Metoda AGGREGATE

---

In [130]:
import numpy as np

In [131]:
pokus_s_cisly_df = pd.DataFrame(
    {'klíč': ['A', 'B', 'C', 'A', 'B', 'C', 'C'],
     'data_1': range(7),
     'data_2': np.random.randint(0, 10, 7)}
)

In [132]:
pokus_s_cisly_df

Unnamed: 0,klíč,data_1,data_2
0,A,0,1
1,B,1,4
2,C,2,0
3,A,3,3
4,B,4,4
5,C,5,9
6,C,6,2


Statistické metody určitě nabízí spousty pomůcek.

Objekt typu *GroupBy* umí pracovat také s funkcemi, stringy a celými listy.

In [133]:
pokus_s_cisly_df.groupby("klíč").aggregate("sum")

Unnamed: 0_level_0,data_1,data_2
klíč,Unnamed: 1_level_1,Unnamed: 2_level_1
A,3,4
B,5,8
C,13,11


In [137]:
pokus_s_cisly_df.groupby("klíč").aggregate("median")

Unnamed: 0_level_0,data_1,data_2
klíč,Unnamed: 1_level_1,Unnamed: 2_level_1
A,1.5,2.0
B,2.5,4.0
C,5.0,2.0


In [138]:
pokus_s_cisly_df.groupby("klíč").aggregate(["min", max])

  pokus_s_cisly_df.groupby("klíč").aggregate(["min", max])


Unnamed: 0_level_0,data_1,data_1,data_2,data_2
Unnamed: 0_level_1,min,max,min,max
klíč,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
A,0,3,1,3
B,1,4,4,4
C,2,6,0,9


In [139]:
pokus_s_cisly_df

Unnamed: 0,klíč,data_1,data_2
0,A,0,1
1,B,1,4
2,C,2,0
3,A,3,3
4,B,4,4
5,C,5,9
6,C,6,2


Můžeš říct, že metoda `aggregate` se používá k aplikaci **jedné nebo více agregačních funkcí na seskupená data**.

```
pobocka,ovoce,prodane_mnozstvi,cena
A,apple,10,20
A,banana,15,12
B,apple,8,22
B,banana,30,10
C,apple,20,18
C,banana,25,15
```

| pobocka | ovoce | prodane_mnozstvi | cena |
| :- | :- | :- | :- |
| A | apple | 10 | 20 |

In [140]:
ovoce_data = {
    'pobocka': ['A', 'A', 'B', 'B', 'C', 'C'],
    'ovoce': ['jablko', 'banan', 'jablko', 'banan', 'jablko', 'banan'],
    'prodane_mnozstvi': [10, 15, 8, 30, 20, 25],
    'cena': [20, 12, 22, 10, 18, 15]
}

In [141]:
ovoce_df = pd.DataFrame(ovoce_data)

In [142]:
ovoce_df

Unnamed: 0,pobocka,ovoce,prodane_mnozstvi,cena
0,A,jablko,10,20
1,A,banan,15,12
2,B,jablko,8,22
3,B,banan,30,10
4,C,jablko,20,18
5,C,banan,25,15


In [143]:
ovoce_df.groupby('pobocka').aggregate({'prodane_mnozstvi': "sum"})  # .sum()

Unnamed: 0_level_0,prodane_mnozstvi
pobocka,Unnamed: 1_level_1
A,25
B,38
C,45


In [144]:
ovoce_df.groupby('pobocka').aggregate({'prodane_mnozstvi': sum, 'cena': 'mean'})

  ovoce_df.groupby('pobocka').aggregate({'prodane_mnozstvi': sum, 'cena': 'mean'})


Unnamed: 0_level_0,prodane_mnozstvi,cena
pobocka,Unnamed: 1_level_1,Unnamed: 2_level_1
A,25,16.0
B,38,16.0
C,45,16.5


1. Nejprve jsou hodnoty seskupení podle sloupce `pobocka`,
2. poté specifikuješ pomocí `aggregate` funkce a sloupce,
3. .. tedy sumarizovat hodnoty v `prodane_mnozstvi` a získat průměr `cena` pro každou pobočku.

### Metoda FILTER

---

Filtrování ti umožní zahodit takové údaje, které nesplňují zadanou podmínku.

Metoda `filter` se používá k vybrání **seskupených dat** podle splnění **určité podmínky**.

Představme si, že máme následující dataset s informacemi o prodeji ovoce v různých obchodech:

```
pobocka,ovoce,prodane_mnozstvi,cena
A,apple,10,20
A,banana,15,12
B,apple,8,22
B,banana,30,10
C,apple,20,18
C,banana,25,15
```

In [145]:
ovoce_data = {
    'pobocka': ['A', 'A', 'B', 'B', 'C', 'C'],
    'ovoce': ['jablko', 'banan', 'jablko', 'banan', 'jablko', 'banan'],
    'prodane_mnozstvi': [10, 15, 8, 30, 20, 25],
    'cena': [20, 12, 22, 10, 18, 15]
}

In [146]:
ovoce_df = pd.DataFrame(ovoce_data)

In [147]:
ovoce_df

Unnamed: 0,pobocka,ovoce,prodane_mnozstvi,cena
0,A,jablko,10,20
1,A,banan,15,12
2,B,jablko,8,22
3,B,banan,30,10
4,C,jablko,20,18
5,C,banan,25,15


In [148]:
def vyber_s_prodejem_nad_limit(data: pd.DataFrame,
                               limit: int = 30) -> bool:
    return data['prodane_mnozstvi'].sum() > limit

<br>

Funkce `vyber_s_prodejem_nad_limit`, tedy **filtrovací funkce**, musí vracet **boolean** datový typ.

In [149]:
ovoce_df.groupby('pobocka').filter(vyber_s_prodejem_nad_limit)

Unnamed: 0,pobocka,ovoce,prodane_mnozstvi,cena
2,B,jablko,8,22
3,B,banan,30,10
4,C,jablko,20,18
5,C,banan,25,15


1. Nejprve seskupíš data podle sloupce `pobocka` pomocí `groupby`,
2. dále použiješ metodu `filter`, která umožňuje použít uživatelem definovanou funkci (`vyber_pouze_pobocky_s_prodejem_nad_limit`),
3. definuješ funkci, která vybere pouze pobočky s větším prodejem než je parametr `limit`,
4. metoda `filter` pak vybere pouze ty řádky, které splňují tuto podmínku.

### Metoda TRANSFORM

---

Zatímco předchozí výsledky *agregace* pomocí `groupby` vraceli redukované množství dat.

Transformace obvykle vrací data o stejném rozsahu jako vstupní data. Jenom upravená.

Metoda `transform` se používá k aplikaci určité **transformační funkce** na každý prvek seskupených dat.

In [150]:
ovoce_df

Unnamed: 0,pobocka,ovoce,prodane_mnozstvi,cena
0,A,jablko,10,20
1,A,banan,15,12
2,B,jablko,8,22
3,B,banan,30,10
4,C,jablko,20,18
5,C,banan,25,15


In [152]:
def vrat_procenta_z_celkoveho_prodeje(udaj: pd.Series) -> float:
    return round(udaj / udaj.sum() * 100, 1)

<br>

Vytvoření nového sloupečku `vrat_procenta_z_celkoveho_prodeje`:

In [153]:
ovoce_df['Procento z celkoveho prodeje'] = ovoce_df.groupby('pobocka')['prodane_mnozstvi'] \
    .transform(vrat_procenta_z_celkoveho_prodeje)

In [154]:
ovoce_df

Unnamed: 0,pobocka,ovoce,prodane_mnozstvi,cena,Procento z celkoveho prodeje
0,A,jablko,10,20,40.0
1,A,banan,15,12,60.0
2,B,jablko,8,22,21.1
3,B,banan,30,10,78.9
4,C,jablko,20,18,44.4
5,C,banan,25,15,55.6


1. Nejprve seskupíš data podle sloupce `pobocka` pomocí `groupby`,
2. dále použiješ metodu `transform`, která umožňuje použít uživatelem definovanou funkci,
3. definuješ funkci, která vybere vypočítá procentuální vyjádření prodaného zboží pro pobočku,
4. přidáš nový sloupeček `procento_z_celkoveho_prodeje`.

### Metoda `APPLY`

---

Metoda `apply` ti také dovolí, používat uživatelem definované funkce na seskupená data.

Následně vrací objekt knihovny `pandas` (buď `DataFrame`, nebo `Series`, a nebo skalární hodnota).

In [155]:
ovoce_df

Unnamed: 0,pobocka,ovoce,prodane_mnozstvi,cena,Procento z celkoveho prodeje
0,A,jablko,10,20,40.0
1,A,banan,15,12,60.0
2,B,jablko,8,22,21.1
3,B,banan,30,10,78.9
4,C,jablko,20,18,44.4
5,C,banan,25,15,55.6


In [156]:
def vypocitej_vydelek_za_artikl(seskupene: pd.DataFrame):
    seskupene['vydelek_za_artikl'] = seskupene['prodane_mnozstvi'] * seskupene['cena']
    return seskupene

<br>

Metoda `apply` je **obecnější a flexibilnější** než `transform`.

`apply` umožňuje použít uživatelem definovanou funkci na každou skupinu po seskupení dat pomocí `groupby`.

Výsledek metody `apply` může mít jiný tvar než původní data.

In [157]:
ovoce_df.groupby('pobocka', group_keys=False).apply(vypocitej_vydelek_za_artikl)

  ovoce_df.groupby('pobocka', group_keys=False).apply(vypocitej_vydelek_za_artikl)


Unnamed: 0,pobocka,ovoce,prodane_mnozstvi,cena,Procento z celkoveho prodeje,vydelek_za_artikl
0,A,jablko,10,20,40.0,200
1,A,banan,15,12,60.0,180
2,B,jablko,8,22,21.1,176
3,B,banan,30,10,78.9,300
4,C,jablko,20,18,44.4,360
5,C,banan,25,15,55.6,375


In [158]:
# ovoce_df.groupby?

In [219]:
vystup = ovoce_df.groupby('pobocka', group_keys=True).apply(vypocitej_vydelek_za_artikl)
vystup

  vystup = ovoce_df.groupby('pobocka', group_keys=True).apply(vypocitej_vydelek_za_artikl)


Unnamed: 0_level_0,Unnamed: 1_level_0,pobocka,ovoce,prodane_mnozstvi,cena,vydelek_za_artikl
pobocka,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
A,0,A,jablko,10,20,200
A,1,A,banan,15,12,180
B,2,B,jablko,8,22,176
B,3,B,banan,30,10,300
C,4,C,jablko,20,18,360
C,5,C,banan,25,15,375


Na první pohled vypadají metody `apply` a `transform` docela podobně.

Metoda `transform` je trochu omezenější než `apply`.

Slouží k aplikaci uživatelem definované nebo vestavěné funkce **na každý prvek** skupiny po seskupení s `groupby`.

`transform` musí vracet hodnotu stejného tvaru jako vstupní data.

Výsledek metody `transform` **má stejný tvar jako původní data**.

#### Apply
* potřebuješ výsledek, který **má jiný tvar než původní data**,
* umí zpracovat **více sloupečků současně**.

#### Transform
* potřebuješ výsledek, který **má stejný tvar jako původní data**,
* umí zpracovat **pouze jeden sloupeček**.

In [168]:
df_rozdily = pd.DataFrame({
    'KLIC': ['A','B','C'] * 3,
    'A': np.arange(9),
    'B': [1,2,3] * 3,
})

In [169]:
df_rozdily

Unnamed: 0,KLIC,A,B
0,A,0,1
1,B,1,2
2,C,2,3
3,A,3,1
4,B,4,2
5,C,5,3
6,A,6,1
7,B,7,2
8,C,8,3


#### `transform` vrací výsledky ve stejném tvaru

---

In [170]:
def vypocitej_sumu(data):
    return data.sum()

In [171]:
seskup_df_rozdily_apply = df_rozdily.groupby('KLIC')['A'].apply(vypocitej_sumu)

In [172]:
seskup_df_rozdily_apply

KLIC
A     9
B    12
C    15
Name: A, dtype: int64

In [173]:
seskup_df_rozdily_trans = df_rozdily.groupby('KLIC')['A'].transform(vypocitej_sumu)

In [174]:
seskup_df_rozdily_trans

0     9
1    12
2    15
3     9
4    12
5    15
6     9
7    12
8    15
Name: A, dtype: int64

#### `apply` umí pracovat s více sloupečky, `transform` jen s jedním

---

In [220]:
df_rozdily

Unnamed: 0,KLIC,A,B
0,A,0,1
1,B,1,2
2,C,2,3
3,A,3,1
4,B,4,2
5,C,5,3
6,A,6,1
7,B,7,2
8,C,8,3


In [221]:
def vypocitej_rozdil(data):
    return data['B'] - data['A']

In [222]:
df_rozdily.groupby('KLIC').apply(vypocitej_rozdil)

  df_rozdily.groupby('KLIC').apply(vypocitej_rozdil)


KLIC   
A     0    1
      3   -2
      6   -5
B     1    1
      4   -2
      7   -5
C     2    1
      5   -2
      8   -5
dtype: int64

In [223]:
df_rozdily.groupby('KLIC').transform(vypocitej_rozdil)

KeyError: 'B'

<br>

**🧠 CVIČENÍ 🧠, procvič si funkcí GroupBy a agregační funkce**

Máš zadaný takový datový set.

Následně:
1. Pomocí metody `filter` vyber prodejny, které prodaly **alespoň 30 produktů**,
2. na filtrovaném datasetu použijte metodu `apply` pro výpočet **celkového příjmu z prodeje pro každý obchod**.

In [179]:
df_prodej_hardware = pd.DataFrame({
    'prodejna_id': (5, 4, 1, 5, 5, 1, 4, 2, 5, 1, 3, 1, 3, 4, 2, 1, 5, 4, 1, 5),
    'transakce_id': (1278, 1216, 1866, 1872, 1797, 1272, 1880, 1061, 1595, 1879, 1728,
       1341, 1396, 1698, 1018, 1176, 1611, 1395, 1444, 1232),
    'predmet_prodeje': ('grafická_karta', 'SSD', 'RAM', 'procesor', 'grafická_karta',
       'základní_deska', 'SSD', 'SSD', 'grafická_karta', 'RAM',
       'grafická_karta', 'procesor', 'grafická_karta', 'SSD',
       'grafická_karta', 'RAM', 'základní_deska', 'HDD', 'grafická_karta',
       'RAM'),
    'pocet_prodanych_ks': (1,  5,  6,  6,  3,  7,  9, 10,  8,  6,  8,  5,  8, 10,  4, 10,  8,
       10,  2,  5),
    'cena_predmetu': (19500.69874949, 19731.10951735, 14114.15342339, 10953.87914371,
        6535.78851758, 16369.00288429, 13852.2578648 ,  3671.03031723,
       18263.08009763, 16539.476237  , 19021.09830919, 14651.53041357,
       12461.59632075,  8655.73920767, 18688.2054254 , 17388.24584526,
        1381.76406707,  1014.1560027 ,  7841.03565412, 16305.78995025)
})

<details>
    <summary>▶️ Řešení</summary>
    
```python
def vyber_prodej_vetsi_nez_limit(data, limit: int = 30):
    return data['pocet_prodanych_ks'].sum() > limit
    
def vypocitej_celkovy_vydelek_prodejny(skupina):
    return (skupina['pocet_prodanych_ks'] * skupina['cena_predmetu']).sum()

df_filtr_hardware = df_prodej_hardware.groupby('prodejna_id') \
                        .filter(vyber_prodej_vetsi_nez_limit)

#         cilove_prodejny = df_prodej_hardware.groupby('prodejna_id') \
# .filter(lambda prodejna: prodejna.pocet_prodanych_ks.sum() >= 30)


celkovy_vydelek = df_filtr_hardware.groupby('prodejna_id') \
                        .apply(vypocitej_celkovy_vydelek_prodejny)

# prodeje_prodejen = cilove_prodejny.groupby('prodejna_id') \
# .aggregate({'pocet_prodanych_ks': sum})

# df_prodej_hardware["prodejna_id"].unique()

# prijmy_prodejen = pd.DataFrame(df_prodej_hardware.groupby('prodejna_id')['cena_predmetu'] \
#                 .apply(lambda prodejna: prodejna.sum())) \
#                 .rename(columns = { 'cena_predmetu': 'prijem_z_prodeje' } ) \
#                 .round( 2 )
```
</details>


<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse2.mm.bing.net%2Fth%3Fid%3DOIP.P16hnt14CM-mJ5eAKykxLAHaHa%26pid%3DApi&f=1&ipt=27e3f5b23fe44567ad0730192d5dcb13c7c23aa6e87579d16df05e27461dc12c&ipo=images" width="160" style="margin-left:auto; margin-right:auto"/>

## Pivot tabulky

---


*Pivot tabulky* (*kontingenční tabulky*) jsou užitečné pro přehledné zobrazení a analýzu dat z tabulkových zdrojů.

Pomocí pivot tabulek můžeš **seskupit data podle určitých kategorií** a provést agregaci hodnot.

Nejprve si představ situaci bez pivot tabulek, pomocí ukázky níže:

In [183]:
!pip install seaborn

Successfully installed contourpy-1.3.1 cycler-0.12.1 fonttools-4.56.0 kiwisolver-1.4.8 matplotlib-3.10.1 pillow-11.1.0 pyparsing-3.2.1 seaborn-0.13.2

[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m24.2[0m[39;49m -> [0m[32;49m25.0.1[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m


In [184]:
import seaborn

<br>

V této ukazce použiješ vzorová data týkající se [nehody lodi Titanic](https://en.wikipedia.org/wiki/Sinking_of_the_Titanic):

In [185]:
df_titanic = seaborn.load_dataset('titanic')

In [186]:
df_titanic.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-null    int64   
 1   pclass       891 non-null    int64   
 2   sex          891 non-null    object  
 3   age          714 non-null    float64 
 4   sibsp        891 non-null    int64   
 5   parch        891 non-null    int64   
 6   fare         891 non-null    float64 
 7   embarked     889 non-null    object  
 8   class        891 non-null    category
 9   who          891 non-null    object  
 10  adult_male   891 non-null    bool    
 11  deck         203 non-null    category
 12  embark_town  889 non-null    object  
 13  alive        891 non-null    object  
 14  alone        891 non-null    bool    
dtypes: bool(2), category(2), float64(2), int64(4), object(5)
memory usage: 80.7+ KB


<br>

Pro jakoukoliv pokročilou analýzu dat, potřebuješ údaj seskupit.

Tak jak jsi do prováděl doposud, pomocí `groupby`:

In [187]:
df_titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [188]:
df_titanic["sex"].unique()

array(['male', 'female'], dtype=object)

In [189]:
df_titanic.groupby('sex')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7f2d27a8c830>

<br>

Potřebuješ průměrnou hodnotu, ať je na sloupečku `survived` vidět poměr přeživších:

In [190]:
df_titanic.groupby('sex')['survived'].mean()

sex
female    0.742038
male      0.188908
Name: survived, dtype: float64

<br>

Pro lepší čitelnost **zaokrouhlím výsledek na dvě desetinné čísla**:

In [191]:
df_titanic.groupby('sex')['survived'].mean().round(2)

sex
female    0.74
male      0.19
Name: survived, dtype: float64

Takový průzkum z této studie ti dá jasný pohled na věc:
* 3 ze 4 žen přežily,
* 1 z 5 mužů přežil.

<br>

Pokud budeš potřebovat detailnější analýzy, budeš potřebovat více dat.

Třeba situaci, kde kromě pohlaví, bereš v potaz **třídu cestujících** `class`:

In [192]:
df_titanic["class"].unique()

['Third', 'First', 'Second']
Categories (3, object): ['First', 'Second', 'Third']

In [193]:
df_titanic.groupby(['sex', 'class'])[['survived']].mean()

  df_titanic.groupby(['sex', 'class'])[['survived']].mean()


Unnamed: 0_level_0,Unnamed: 1_level_0,survived
sex,class,Unnamed: 2_level_1
female,First,0.968085
female,Second,0.921053
female,Third,0.5
male,First,0.368852
male,Second,0.157407
male,Third,0.135447


In [194]:
type(df_titanic.groupby(['sex', 'class'])[['survived']])

  type(df_titanic.groupby(['sex', 'class'])[['survived']])


pandas.core.groupby.generic.DataFrameGroupBy

In [195]:
type(df_titanic.groupby(['sex', 'class'])['survived'].mean())

  type(df_titanic.groupby(['sex', 'class'])['survived'].mean())


pandas.core.series.Series

In [196]:
df_titanic.groupby(['sex', 'class'])[['survived']].mean().round(2)

  df_titanic.groupby(['sex', 'class'])[['survived']].mean().round(2)


Unnamed: 0_level_0,Unnamed: 1_level_0,survived
sex,class,Unnamed: 2_level_1
female,First,0.97
female,Second,0.92
female,Third,0.5
male,First,0.37
male,Second,0.16
male,Third,0.14


<br>

Metodou `unstack` si můžeš vytvořit nové sloupečky, které jsou postavené na novém Indexu, nebo Indexech (*Multiindex*):

In [197]:
df_titanic.groupby(['sex', 'class'])['survived'].mean().round(2).unstack()

  df_titanic.groupby(['sex', 'class'])['survived'].mean().round(2).unstack()


class,First,Second,Third
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.97,0.92,0.5
male,0.37,0.16,0.14


Takový průzkum ti dá skutečně lepší pohled na věc.

Současně ale roste **náročnost ohlášení**.

Zápis "bobtná" a **stává se náročnějším na přečtení a pochopení**.

<br>

### Pivot tabulka

---

Podobné řešení ti nabízí funkce `pivot_table`:

In [198]:
df_titanic.groupby(['sex', 'class'])['survived'].mean().round(2).unstack()

  df_titanic.groupby(['sex', 'class'])['survived'].mean().round(2).unstack()


class,First,Second,Third
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.97,0.92,0.5
male,0.37,0.16,0.14


In [199]:
df_titanic.pivot_table('survived', index='sex', columns='class').round(2)

  df_titanic.pivot_table('survived', index='sex', columns='class').round(2)


class,First,Second,Third
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.97,0.92,0.5
male,0.37,0.16,0.14


In [200]:
df_titanic.index

RangeIndex(start=0, stop=891, step=1)

Zásádním rozdílem je ovšem **čitelnost**, kterou máš pro tuto variantu zápisu.

```
Clarity beats purity
```

Pomocí vhodných argumentů, můžeš doplnit vysvětlivky tam, kde funkce `groupby` nemohla.

Stejně platí, že pokud budeš potřebovat **další Index**, můžeš si pomoci funkcí `cut`:

In [201]:
df_titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [202]:
df_titanic['age'].describe()

count    714.000000
mean      29.699118
std       14.526497
min        0.420000
25%       20.125000
50%       28.000000
75%       38.000000
max       80.000000
Name: age, dtype: float64

In [224]:
age = pd.cut(df_titanic['age'], [1, 40, 80])

In [225]:
age  # < xxx , xxx )

0      (1.0, 40.0]
1      (1.0, 40.0]
2      (1.0, 40.0]
3      (1.0, 40.0]
4      (1.0, 40.0]
          ...     
886    (1.0, 40.0]
887    (1.0, 40.0]
888            NaN
889    (1.0, 40.0]
890    (1.0, 40.0]
Name: age, Length: 891, dtype: category
Categories (2, interval[int64, right]): [(1, 40] < (40, 80]]

In [207]:
vystup_df = df_titanic.pivot_table('survived', index=['sex', age], columns='class').round(2)

  vystup_df = df_titanic.pivot_table('survived', index=['sex', age], columns='class').round(2)


In [226]:
vystup_df

Unnamed: 0_level_0,class,First,Second,Third
sex,age,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
female,"(1, 40]",0.97,0.93,0.47
female,"(40, 80]",0.96,0.85,0.11
male,"(1, 40]",0.5,0.11,0.16
male,"(40, 80]",0.28,0.1,0.06


In [209]:
vystup_df.index

MultiIndex([('female',  (1, 40]),
            ('female', (40, 80]),
            (  'male',  (1, 40]),
            (  'male', (40, 80])],
           names=['sex', 'age'])

Pomocí funkce `cut` doplníš tabulku na **MultiIndex**.

Ten nyní vytvoří i rozsah pro věkovou kategorii.

In [229]:
data = {
    'Měsíc': ['Leden', 'Leden', 'Únor', 'Únor', 'Březen', 'Březen', 'Duben', 'Duben'],
    'Kategorie': ['Elektronika', 'Oblečení', 'Elektronika', 'Oblečení', 
                  'Elektronika', 'Oblečení', 'Elektronika', 'Oblečení'],
    'Tržby': [5000, 3000, 6000, 4000, 5500, 3500, 5800, 3800]
}
df = pd.DataFrame(data)
df

Unnamed: 0,Měsíc,Kategorie,Tržby
0,Leden,Elektronika,5000
1,Leden,Oblečení,3000
2,Únor,Elektronika,6000
3,Únor,Oblečení,4000
4,Březen,Elektronika,5500
5,Březen,Oblečení,3500
6,Duben,Elektronika,5800
7,Duben,Oblečení,3800


In [230]:
pivot_df = df.pivot_table(index='Měsíc', columns='Kategorie', values='Tržby', aggfunc='sum')
pivot_df

Kategorie,Elektronika,Oblečení
Měsíc,Unnamed: 1_level_1,Unnamed: 2_level_1
Březen,5500,3500
Duben,5800,3800
Leden,5000,3000
Únor,6000,4000


<br>

**🧠 CVIČENÍ 🧠, procvič si pivot tabulky**

Ze zadaného datasetu vytvoř **pivot tabulku**, která zobrazí **počet prodaných kusů ovoce** pro **každý obchod** a **druh ovoce**.

In [240]:
ovoce_data = {
    'pobocka': ['A', 'A', 'B', 'B', 'C', 'C'],
    'ovoce': ['jablko', 'banan', 'jablko', 'banan', 'jablko', 'banan'],
    'prodane_mnozstvi': [10, 15, 8, 30, 20, 25],
    'cena': [20, 12, 22, 10, 18, 15]
}

In [None]:
# pivot_table()
#              prodane_mnozstvi      jablko banan
# Pobocka
#    A 
#    B
#    C 

<details>
    <summary>▶️ Řešení</summary>
    
```python
pivot_tabulka = df_ovoce.pivot_table(values="prodane_mnozstvi", index="pobocka", columns="ovoce")
```
</details>

---