# Python Data, 2024

---

* [Úvod k pandám](#Úvod-k-pandám),
* [základní objekty](#Základní-datové-typy-frameworku),
    - [series](#Series),
    - [dataframe](#DataFrame),
    - [index](#Index).
* [tvoření objektů](#Tvorba-DataFrame),
    - [načti csv](#Načti-soubor-csv),
    - [načti html](#Načti-tabulku-html),
    - [načti data z SQL](#Načti-výstup-dotazu-do-tabulky).
* [prohlížení dat](#Prozkoumávání-dat),
    - [selekce u sloupečků](#Selekce-u-sloupečků),
    - [selekce u tabulek](#Selekce-u-tabulárních-hodnot),
    - [další metody prohlížení](#Metody-pro-nahlížení).
* [manipulace s daty](#Manipulace-se-sloupci),
    - [přejmenování sloupců](#Přejmenování-sloupců),
    - [přidávání sloupců](#Přidávání-sloupců-do-DataFrame),
    - [odstraňování sloupců]().

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse1.mm.bing.net%2Fth%3Fid%3DOIP.BaZU6gIdwRYQHu4rBBoO-gHaIX%26pid%3DApi&f=1&ipt=1013c975daabd695fcd4ebfc2c0e0b8ba4f10c37780419d8ff56538ec7a7f9ea&ipo=images" width="200" style="margin-left:auto; margin-right:auto"/>

## Úvod k pandám

---



Jde o knihovnu, která staví na jednoduchých, přesto výkonných a intuitivních nástrojích.

Tyto prostředky umožňují manipulaci, analýzu a vizualizaci strukturovaných dat s tabulkovými a časovými daty.

Vezme data z různých zdrojů, načte je, zpracuje a zapíše (pozn. **zdroj v C**).


<br>

### Kde pandy najdu a jak vypadají?

---

- Odkaz na **oficiální repozitář** [této knihovny](https://github.com/pandas-dev/pandas),
- pokud budeš potřebovat více podrobností, mrkni na [oficiální dokumentaci](https://pandas.pydata.org/pandas-docs/stable/index.html).

<br>

### Proč se ti bude hodit?

---

**Pandas** slouží pro analýzu dat.

Data jsou nejčastěji v SQL databázi, různých souborech, tabulkových procesech atd.

*Pandas* si představ jako Excel, ale s více funkcemi a hlavně možností automatizovat procesy.

<br>

### Jak nainstalovat knihovnu?

---

Instalace **poslední dostupné verze**:

In [None]:
!pip install pandas  # Možnost pracovat s jiným manažerem

<br>

Instalace **konkrétní vybrané verze**:

In [None]:
!pip install pandas==1.1.1

<br>

### Jak knihovnu spustit?

---

In [None]:
import pandas

In [None]:
pandas.__version__  # FutureWarning

<br>

Použití **aliasu**:

In [None]:
import pandas as pd

In [None]:
from pandas import DataFrame

<br>

### Souhrn kapitoly
---

- knihovna je tedy *švýcarský nožík* pro práci **s tabelárními daty** a **časovými řadami**,
- jde o větší balíček, třetích stran (potřeba stáhnout & instalovat).

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse1.mm.bing.net%2Fth%3Fid%3DOIP.b2NCTuZRiG8yrmTCF7MogAHaHa%26pid%3DApi&f=1&ipt=f9e6a3811b3a707743134cfb19b2ee4f9c44584f5ea328582b227f14b94fcb1f&ipo=images" width="200" style="margin-left:auto; margin-right:auto"/>

## Základní datové typy

---

Knihovna nabízí řadu užitečných nástrojů.

Jde o *metody* a *funkce* nad rámec základních (zabudovaných) **datových struktur**.

Hlavní **tři struktury**, na kterých knihovna stojí jsou:
* `Index`
* `series`,
* `dataFrames`.

<img src="https://i.imgur.com/NNRgONl.png" width="1200" style="margin-left:auto; margin-right:auto"/>

- **Indexes**, je označení (nebo **identifikátor**) jednotlivých řádků, které slouží k jejich jednoznačné identifikaci a usnadňuje přístup k datům,
- **series**, je *sloupec*, **pole** hodnot s indexem, tedy sloupeček tabulky nebo číslovaný seznam,
- **frames**, jde v podstatě o označení celé tabulky.

### Series

---

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse3.mm.bing.net%2Fth%3Fid%3DOIP.Yp6ZBv9C33_pDfZkJcKbJQHaHa%26pid%3DApi&f=1&ipt=546833b7ce370c5a62bea21079371efd1fa9547765d4eae8e6c9e41f6b25a3af&ipo=images" width="200" style="margin-left:auto; margin-right:auto"/>

Jde **o jednodimenzionální pole** (popř. sloupeček, řada).

Tento objekt má **indexované data** (jsi schopen data vybrat, uchopit).

Opět si jej můžeš představit jako sloupeček v obyčejných *Excelovských* tabulkách.

<br>

Na ukázku můžeš tyto sloupečky vytvořit třeba ze sekvencí:

In [2]:
from pandas import Series

In [3]:
mesta_sl = Series(["Praha", "Brno", "Ostrava", "Hradek Králové"])

In [4]:
type(mesta_sl)

pandas.core.series.Series

In [5]:
mesta_sl

0             Praha
1              Brno
2           Ostrava
3    Hradek Králové
dtype: object

<br>

Jak můžeš vidět v ukázce výše, *sloupec* `Series` obsahuje **jak pořadí, tak hodnoty**.

In [6]:
mesta_sl.index

RangeIndex(start=0, stop=4, step=1)

In [7]:
mesta_sl.values

array(['Praha', 'Brno', 'Ostrava', 'Hradek Králové'], dtype=object)

<br>

Obecně vypadá jako nějaké pole, který má svůj nativní datový typ `object`.

<br>

Ačkoliv je `pandas` knihovna Pythonu, datové typy nemusí vždy odpovídat základním **datovým typům Pythonu**:

| Typy `pandas`| typy `Python`| Použití |
| :-: | :-: | :- |
| `object` | `str` nebo směska| text nebo namíchané číselné a nečíselné hodnoty |
| `int64` | `int`| celá čísla |
| `float64` | `float` | desetinná čísla |
| `bool` | `bool` | True a False |
| `datetime64` | `-`| Hodnota data a času |
| `timedelta` | `-` | Časové rozdíly |

<br>

Stejně jako pole nebo sekvence můžeš indexovat a slicovat hodnoty typu `Series`.

In [None]:
mesta_sl

#### Indexování sloupečku

---

In [None]:
mesta_sl[1]

<br>

#### Slicing sloupečku

---

In [None]:
mesta_sl[0:3]

Na první pohled není tolik odlišný od datového typu `list` nebo `tuple` (případně pole v `numpy`).

Největší rozdíl spočítá právě v **indexu**.

Ať `list`, `tuple` nebo `numpy.array` implicitně pracují **s celočíselným indexem**.

<br>

Objekt `Series` na druhou stranu nabízí možnost, zadávat vlastní indexové hodnoty:

In [8]:
mesta_sl = Series(["Praha", "Brno", "Ostrava", "Hradek Králové"],
                  index=["1_mesto", "2_mesto", "3_mesto", "4_mesto"])  # Tvoje specifické indexy

In [9]:
mesta_sl.index

Index(['1_mesto', '2_mesto', '3_mesto', '4_mesto'], dtype='object')

In [10]:
mesta_sl

1_mesto             Praha
2_mesto              Brno
3_mesto           Ostrava
4_mesto    Hradek Králové
dtype: object

In [11]:
mesta_sl["2_mesto"]

'Brno'

Tímto způsobem si můžeš představit řadu, sloupec (`Series`) jako variantu datového typu `dict`, v Pythonu.

Víš, že ve slovníku Pythonu jsou hodnoty *mapované* na jednotlivé klíče.

<br>

#### Pokročilé, type-specific
---
V případě `Series` jde o mapování **typovaných hodnot** na **typované klíče**. Právě pojem **typovaný** (~*type-specific*) je zásadní.

Právě *typovaný* zkompilovaný kód od `Series` nabízí některé efektivnější metody a funkce, které obyč. `dict` v Pythonu ne.

In [12]:
populace_evropa = {
    'Dansko': 5_655_750,
    'Ceska_republika': 10_513_209,
    'Nemecko': 80_716_000,
    'Polsko': 38_483_957,
    'Slovensko': 5_415_949,
    'Rakousko': 8_932_664
}

In [13]:
populace_evropa_sl = Series(populace_evropa)

In [14]:
populace_evropa_sl

Dansko              5655750
Ceska_republika    10513209
Nemecko            80716000
Polsko             38483957
Slovensko           5415949
Rakousko            8932664
dtype: int64

<br>

Defaultně ti objekt `Series` nachystá index ze seřazených klíčů původního datového typu `dict`.

Můžeš provést klasické mapování hodnoty na jméno klíče:

In [15]:
populace_evropa_sl["Ceska_republika"]

10513209

K tomu, ale `Series` nabízí operace jako např. *slicing* pro pole:

In [16]:
populace_evropa_sl["Ceska_republika": "Polsko"]

Ceska_republika    10513209
Nemecko            80716000
Polsko             38483957
dtype: int64

<br>

**🧠 CVIČENÍ 🧠, přepočítej hodnoty ve sloupečku**

In [None]:
data = {              # Data v milionech, převeď na jednotky
    "New York": 8.4,  # 8400000
    "London": 9.0,
    "Tokyo": 13.9,
    "Sydney": 5.3,
}

In [39]:
# Zapiš řešení

<details>
    <summary>▶️ Řešení</summary>
    
```python
import pandas as pd

data = {
    "New York": 8.4,
    "London": 9.0,
    "Tokyo": 13.9,
    "Sydney": 5.3,
}


mesta_sl = pd.Series(data)


def preved_na_jednotky(series):
    return series * 1_000_000  # astype(int) -> celé číslo


prevedene = preved_na_jednotky(mesta_sl)
```
</details>

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse1.mm.bing.net%2Fth%3Fid%3DOIP._inpASbq98lGCmZFxPEq7wHaHa%26pid%3DApi&f=1&ipt=ecf1243da46e7ae6341330ae58bda2a6456c95f63a0cd79eda7d561cf3334a57&ipo=images" width="200" style="margin-left:auto; margin-right:auto"/>

<br>

### DataFrame

---


Dalším elementárním datovým typem této knihovny je `DataFrame`.

Analogicky si jej můžeš představit **jako tabulku** v Excelu.

Tedy objekt složený **z řádků** (indexů) a **sloupců** (`Series`).

In [18]:
populace_evropa = {
    'Dansko': 5_655_750,
    'Ceska_republika': 10_513_209,
    'Nemecko': 80_716_000,
    'Polsko': 38_483_957,
    'Slovensko': 5_415_949,
    'Rakousko': 8_932_664
}

In [19]:
rozloha_evropa = {
    'Dansko': 42_916,
    'Ceska_republika': 78_870,
    'Nemecko': 357_168,
    'Polsko': 312_679,
    'Slovensko': 49_035,
    'Rakousko': 83_878
}

<br>

Nezapomeň nahrát potřebný objekt:

In [20]:
from pandas import DataFrame

In [21]:
zeme_evropa_df = DataFrame(  # Zdůraznit "df"
    {
        "populace": populace_evropa,
        "rozloha": rozloha_evropa
    }
)

In [22]:
zeme_evropa_df

Unnamed: 0,populace,rozloha
Dansko,5655750,42916
Ceska_republika,10513209,78870
Nemecko,80716000,357168
Polsko,38483957,312679
Slovensko,5415949,49035
Rakousko,8932664,83878


In [23]:
type(zeme_evropa_df)

pandas.core.frame.DataFrame

<br>

Stejně jako u `Series` má i `DataFrame` svoje *indexy*:

In [24]:
zeme_evropa_df.index

Index(['Dansko', 'Ceska_republika', 'Nemecko', 'Polsko', 'Slovensko',
       'Rakousko'],
      dtype='object')

<br>

Navíc můžeš pracovat s atributem `columns`, který drží jména **jednotlivých sloupečků**:

In [25]:
zeme_evropa_df.columns

Index(['populace', 'rozloha'], dtype='object')

Proto si můžeš objekt `DataFrame` představit také jako Pythonovský `dict`.

<br>

Ovšem s tím rozdílem, že tentokrát mapuješ jméno sloupečku na `Series`:

In [26]:
zeme_evropa_df["populace"]

Dansko              5655750
Ceska_republika    10513209
Nemecko            80716000
Polsko             38483957
Slovensko           5415949
Rakousko            8932664
Name: populace, dtype: int64

In [27]:
populace_z_df = zeme_evropa_df["populace"]

In [28]:
type(populace_z_df)

pandas.core.series.Series

Opatrně při vytváření nového `DataFrame`, u chybějících klíčů implictině zapisuje `Nan` hodnotu (~*not a number*):

In [29]:
chybejici_hodnoty_df = DataFrame(
    [
        {"A": 1, "B": 4},
        {"C": 6, "B": 7}
    ]
)

In [30]:
chybejici_hodnoty_df

Unnamed: 0,A,B,C
0,1.0,4,
1,,7,6.0


Navíc si můžeš všimnout rozdílné definice **datového typu**:

In [31]:
chybejici_hodnoty_df.dtypes

A    float64
B      int64
C    float64
dtype: object

In [32]:
chybejici_hodnoty_df["A"]

0    1.0
1    NaN
Name: A, dtype: float64

In [33]:
konvertovany_sl_a = chybejici_hodnoty_df["A"].convert_dtypes()

In [34]:
konvertovany_sl_a

0       1
1    <NA>
Name: A, dtype: Int64

Více si o přetypování obecně a dozvíš později.

**🧠 CVIČENÍ 🧠, přidej nový sloupeček**

In [None]:
data = {
    "Město": ["New York", "London", "Tokyo", "Sydney"],
    "Populace (v mio)": [8.4, 9.0, 13.9, 5.3],
    "Plocha (km²)": [783, 1572, 2194, 1687],
}

In [54]:
# Zápis

<details>
    <summary>▶️ Řešení</summary>
    
```python
import pandas as pd

data = {
    "Město": ["New York", "London", "Tokyo", "Sydney"],
    "Populace (v mio)": [8.4, 9.0, 13.9, 5.3],
    "Plocha (km²)": [783, 1572, 2194, 1687],
}

mesta_df = pd.DataFrame(data)

def vypocitej_hustotu_zalidneni(df):
    """
    Přidejte nový sloupec 'Hustota zalidnění' (počet obyvatel na km²).
    """
    df["Hustota zalidnění (na km²)"] = (df["Populace (v mio)"] * 1_000_000 / df["Plocha (km²)"]).round().astype(int)
    return df

df = vypocitej_hustotu_zalidneni(mesta_df)
print(df)
```
</details>

<img src="https://imgs.search.brave.com/EQep67dP5UaJDlqkF2HvOQTESVA_LQSZx_SR7FE6JYM/rs:fit:500:0:0:0/g:ce/aHR0cHM6Ly9kMW5o/aW8wb3g3cGdiLmNs/b3VkZnJvbnQubmV0/L19pbWcvb19jb2xs/ZWN0aW9uX3BuZy9n/cmVlbl9kYXJrX2dy/ZXkvNTEyeDUxMi9w/bGFpbi90YWJsZV9z/ZWxlY3Rpb25fcm93/LnBuZw" width="200" style="margin-left:auto; margin-right:auto"/>

### Index

---


Posledním ze základních objektů frameworku `pandas` je tedy **Index** (velké "i").

Jak `Series`, tak `DataFrame` v sobě *Index* obsahují.

Pro jednoduchost, si jej můžeš představit jako označení jednotlivých řádků v tabulce.

In [40]:
from pandas import Index

In [41]:
indexy = Index([2, 3, 4, 5])

In [42]:
indexy

Index([2, 3, 4, 5], dtype='int64')

<br>

#### Indexování indexů

---

In [43]:
indexy[2]

4

<br>

#### Slicování indexů

---

In [44]:
indexy[:3]

Index([2, 3, 4], dtype='int64')

<br>

#### Nezměnitelný objekt

---

In [45]:
indexy[2] = 3

TypeError: Index does not support mutable operations

Tato nezměnitelnost slouží k větší bezpečnosti, protože jednotlivé indexy, může sdílet více `DataFrame`.

<br>

#### Index jako seřazený set

---

In [46]:
indexy_a = Index([1, 2, 3, 4])
indexy_b = Index([3, 4, 5, 6])

In [47]:
indexy_a.intersection(indexy_b)

Index([3, 4], dtype='int64')

In [48]:
indexy_a.union(indexy_b)

Index([1, 2, 3, 4, 5, 6], dtype='int64')

<br>

### Souhrn k základním typům

---

- **řádky**, jako pole, jednorozměrné, možnost selekce indexů i hodnot a jejich rozsahů,
- **indexy**, jako pole, nezměnitelné, možnost selekce jednoho řádků i rozsahu řádků,
- **tabulka**, vícerozměrné pole, výběr podle sloupců.


<img src="https://imgs.search.brave.com/CoDVQW6cpYcV0qJtUejA7WQat4mLN2AOxuK2hXwgGAo/rs:fit:500:0:0:0/g:ce/aHR0cHM6Ly9jZG4w/Lmljb25maW5kZXIu/Y29tL2RhdGEvaWNv/bnMvcm91bmQtdWkt/aWNvbnMvNTEyL2Fk/ZF9ibHVlLnBuZw" width="200" style="margin-left:auto; margin-right:auto"/>

<br>

## Tvorba DataFrame

---

Vytvořit nový `DataFrame` je záležitost několika málo argumentů.

Není ovšem velmi časté, chystat data *z ničeho*.

Většinou potřebuješ právě nahrát různé **existující externí soubory**, do `DataFrame` objektů.

* `read_csv`,
* `read_excel`,
* `read_json`,
* `read_html`,
* `read_sql`,
* `read_parquet`,
* `read_sas`.

###  Načti soubor `csv`

---

Knihovna nabízí přímo specializovanou funkci `read_csv`.

Ta dovede načíst obsah souboru do nového `DataFrame`.

Pro první použití, případně pozdější rozšíření je vhodné, prozkoumat dokumentaci:

In [None]:
import pathlib

In [None]:
from pandas import read_csv

In [None]:
read_csv?

Načteš jméno souboru se specifickou příponou `csv`:

In [None]:
zamestnanci_ = !ls ../onsite | grep ".csv"

In [None]:
zamestnanci_

In [None]:
zamestnanci_rel = pathlib.Path("../onsite").joinpath(zamestnanci_[0])

In [None]:
zamestnanci_rel

In [None]:
zamestnanci = read_csv(zamestnanci_rel)

Prozkoumej samotný soubor:

In [None]:
!cat ../onsite/customers_inp.csv

<br>

Nyní se podívej jak vypadá nově vytvořený `DataFrame`:

In [None]:
type(zamestnanci)

In [None]:
zamestnanci

Je potřeba pohlídat si (není řazené podle priorit):
* indexy,
* záhlaví,
* strukturu jednotlivých `Series`,
* datové typy.

Pokud nesedí **defaultní oddělovač** (*sep* nebo *delimiter*):

In [None]:
!sed -i s"/,/;/g" ../onsite/customers_inp.csv

In [None]:
!cat ../onsite/customers_inp.csv

In [None]:
zamestnanci_carka = read_csv(f"../onsite/{zamestnanci_[0]}")

In [None]:
zamestnanci_carka

Můžeš zadat jiný než *defaultní* oddělovač:

In [None]:
zamestnanci_strednik = read_csv(f"../onsite/{zamestnanci_[0]}", sep=";")

In [None]:
zamestnanci_strednik

**Nevhodné datové typy** je také možné řešit při nové inicializaci `DataFrame`:

In [None]:
zamestnanci_strednik.dtypes

Pokud potřebuješ *vynutit* konverzi datového typu:

In [None]:
zamestnanci_bez_cisel = read_csv(
    f"../onsite/{zamestnanci_[0]}",
    sep=";",
    dtype={
        "customer_id": str,
        "first_name": str,
        "last_name": str,
        "phone": str,
        "email": str
    }
)

In [None]:
zamestnanci_bez_cisel.dtypes

### Načti tabulku `html`

---

Funkce `read_html` často zastává některé kroky *web scrapování*.

Přesto je jejím učelem "pouze" extrahování dat v HTML `<table></table>` elementech.

Ukázka [zdroj](https://simple.wikipedia.org/wiki/List_of_U.S._states).

**Demo: Ukázka v příkazovém řádku**

In [None]:
!ls -l ../../shared/onsite/

In [None]:
%run ../../shared/onsite/demo_read_html.py

<br>

### Načti výstup dotazu do tabulky

---

Další možností, jak lépe pracovat s knihovnou `pandas`, je načítání z databáze.

Prakticky pošleš dotaz do databázového systému a on jej rozdělí na `DataFrame`:

In [None]:
import pyodbc
from pandas import read_sql

In [None]:
read_sql?

In [None]:
database_name = "company_test"

In [None]:
select_query = "SELECT * FROM employee_test"

In [None]:
connection_str = 'Driver={ODBC Driver 17 for SQL Server};' \
    'Server=localhost;uid=sa;pwd=csoB2023;' \
    f'port=1443;database={database_name};'

In [None]:
with pyodbc.connect(connection_str) as connection:
    select_query = read_sql(select_query, connection)

In [None]:
print(select_query)

Autoři knihovny většinou vyžadují chystání *connection* objektů pomocí **SQL Alchemy**.

V rámci ukázky je použitý dnes již netestováné `dbapi2` připojení.

In [None]:
!pip install ipython-sql

In [None]:
%load_ext sql

In [None]:
%sql mssql+pyodbc://sa:csoB2023@localhost:1433/company_test?driver=ODBC+Driver+17+for+SQL+Server

In [None]:
zamestnanci = %sql SELECT * FROM employee_test;

In [None]:
type(zamestnanci)

In [None]:
zamestnanci_df = DataFrame(zamestnanci)

In [None]:
zamestnanci_df

<br>

**🧠 CVIČENÍ 🧠, načti data z vlastní DB a nachystej nový DataFrame.**

<br>

## Prozkoumávání dat

---


<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse3.mm.bing.net%2Fth%3Fid%3DOIP.ACSOiM-U0Q1dA-4JLXwShAHaHx%26pid%3DApi&f=1&ipt=6d4afed7c3560452103fe53af2bd94638c28007aa3141700570a84c7fab7263a&ipo=images" width="200" style="margin-left:auto; margin-right:auto"/>




Jakmile máš data správně načtená a přetypovaná, můžeš s nimi začít pracovat.

Než se do toho vrhneš, není špatné, umět je prohlížet.

### Selekce u sloupečků

---

In [None]:
from pandas import Series

In [None]:
vek_sl = Series(
    [26, 36, 46, 56],
    index=['Petr', 'Pavel', 'Jiri', 'Tomas'] # ??? , 'Jarek', 'Tomas'; , 66, 76
)

<br>

Pro vytvořený sloupeček:

In [None]:
vek_sl

<br>

Pokud provádíš *slicing* pomocí *indexů*, implicitně **vynecháš konečný index**:

In [None]:
vek_sl[0:3]

<br>

Pokud ovšem zadáváš přímo hodnotu *Indexu*, potom vybíráš hodnoty **včetně konečného indexu**:

In [None]:
vek_sl["Petr": "Tomas"]

Tento jednoduchý přístup potom vede **k častým chybám a nepochopením**.

### Atributy `loc`, `iloc`

---

Právě protože je *indexování* a *slicing* v rámci `Series` matoucí, existují pomocné atributy.

#### loc

Právě tento atribut zaručí, že budeš vždy pracovat pomocí **explicitního zadání hodnoty Indexů**:

In [None]:
vek_sl

In [None]:
vek_sl.loc["Petr": "Tomas"]

Jde tedy o explicitní práci s Indexy knihovny `pandas`, ne indexy Pythonu:

In [None]:
jmena_sl = Series(
    ["Matous", "Marek", "Lukas", "Jan"],
    index=[1, 2, 3, 4]
)

In [None]:
jmena_sl

In [None]:
jmena_sl.loc[:3]

#### iloc

Naopak atribut `iloc` je proces, který funguje výlučně na **indexování v rámci Pythonu** (pořadí, začíná nulou):

In [None]:
jmena_sl

In [None]:
jmena_sl.iloc[1]

In [None]:
jmena_sl.iloc[:2]

Kvůli jasnosti a přehlednosti je obecně výhodnější a doporučováné, pracovat s atributy `loc` a `iloc`.

### Selekce u tabulárních hodnot

---

Jelikož je `DataFrame` složený ze sloupečků, můžeš aplikovat některé postupy z uplynulé teorie.

* **slovníkový klíč**,
* **atributový přístup**,
* **slovníkový náhled**,
* `loc`, `iloc`, `ix`, `T`.

In [None]:
from pandas import DataFrame

In [None]:
populace_evropa = {
    'Dansko': 5_655_750,
    'Ceska_republika': 10_513_209,
    'Nemecko': 80_716_000,
    'Polsko': 38_483_957,
    'Slovensko': 5_415_949,
    'Rakousko': 8_932_664
}

In [None]:
rozloha_evropa = {
    'Dansko': 42_916,
    'Ceska_republika': 78_870,
    'Nemecko': 357_168,
    'Polsko': 312_679,
    'Slovensko': 49_035,
    'Rakousko': 83_878
}

In [None]:
zeme_evropa_df = DataFrame({"populace": populace_evropa, "rozloha": rozloha_evropa})

In [None]:
zeme_evropa_df

#### Přístup pomocí klíčů

In [None]:
zeme_evropa_df["populace"]

In [None]:
zeme_evropa_df["rozloha"]

#### Přístup pomocí atributů

In [None]:
bool(zeme_evropa_df["rozloha"] is zeme_evropa_df.rozloha)

In [None]:
zeme_evropa_df.populace

In [None]:
zeme_evropa_df.rozloha

In [None]:
zeme_evropa_df[zeme_evropa_df.rozloha > 100_000]

In [None]:
zeme_evropa_df[zeme_evropa_df["rozloha"] > 100_000]

Opatrně, atributový přístup nelze aplikovat, pokud je jméno sloupečku shodné s některým **z rezerovaných výrazů**.

#### Slovníkový náhled

In [None]:
zeme_evropa_df.values

#### loc

Stejná pravidla jako pro `Series`, nicméne tentokrát můžeš vybírat buď jednotlivé Indexy, nebo pole Indexů:

In [None]:
zeme_evropa_df

In [None]:
zeme_evropa_df.loc["Nemecko"]

In [None]:
zeme_evropa_df.loc[:"Nemecko"]

Dále můžeš vybírat sloupce nebo rozsah sloupců:

In [None]:
zeme_evropa_df.loc["Nemecko", "populace"]

In [None]:
zeme_evropa_df.loc[:"Nemecko", "populace"]

In [None]:
zeme_evropa_df.loc[:"Nemecko", :"rozloha"]

#### iloc

In [None]:
zeme_evropa_df.iloc[:3, 1]

#### Transformace

In [None]:
zeme_evropa_df.T

#### ix

Jde o atribut-hybrid, který kombinuje mixování stylů z `loc` a `iloc`.

Tento *legacy atribut* se již oficiálně nedoporučuje.

In [None]:
zeme_evropa_df.ix[:"Nemecko", :2]  # iloc + loc

### Metody pro nahlížení

---

Následující metody ti ulehčí nahlížení a prozkoumávání dat.

Jsou to metody:
* `info()`,
* `describe()`,
* `head()`,
* `tail()`,

In [None]:
from pandas import DataFrame

In [None]:
populace_evropa = {
    'Dansko': 5_655_750,
    'Ceska_republika': 10_513_209,
    'Nemecko': 80_716_000,
    'Polsko': 38_483_957,
    'Slovensko': 5_415_949,
    'Rakousko': 8_932_664
}

In [None]:
rozloha_evropa = {
    'Dansko': 42_916,
    'Ceska_republika': 78_870,
    'Nemecko': 357_168,
    'Polsko': 312_679,
    'Slovensko': 49_035,
    'Rakousko': 83_878
}

In [None]:
zeme_evropa_df = DataFrame({"populace": populace_evropa, "rozloha": rozloha_evropa})

#### Metoda `info()`

Jde o obecnou informaci o DataFrame:

In [None]:
zeme_evropa_df.info()

Z výstupu potom přečteš:
* počet indexů,
* počet sloupců,
* počet neprázdných, nenulových hodnot,
* datové typy pro sloupce.

#### Metoda `describe()`

Tato metoda ti nepodává základní informaci o DataFrame, ale spíše **pracuje s číselnými sloupci**.


Poskytuje základní **statistické přehledy** jako:
* průměr,
* medián,
* minimální & maximální hodnota,
* rozptyl.

In [None]:
zeme_evropa_df.describe()

#### Metody `head()` a `tail()`

Obě metody pracují jako náhledové metody. K lepšímu pohledu na konkrétní řádky.

1. `head`, prozkoumá **prvních pět řádků** (defaultně),
2. `tail`, prozkoumá **posledních pět řádků** (defaultně),

In [None]:
zeme_evropa_df.head(3)  # truncate, 

In [None]:
zeme_evropa_df.tail(3)

<br>

**🧠 CVIČENÍ 🧠, diktát s pandama.**

In [None]:
!pwd

In [None]:
!head -1 ../onsite/lesson02/games.csv

**Nahraj zadaný soubor do proměnné `hry_df`**

In [None]:
hry_df = read_csv("../onsite/lesson02/games.csv")

In [None]:
hry_df.head(1)

<details>
    <summary>▶️ Řešení</summary>
    
    ```
    hry_df = read_csv("../onsite/lesson02/games.csv")
    ```
</details>

<br>

**Vytvoř proměnnou `jen_souhrn`, která obsahuje pouze sloupec `Summary`**

<details>
    <summary>▶️ Řešení</summary>
    
    ```
    souhrn = hry_df.Summary
    ```
</details>

<br>

**Vytvoř proměnnou `prvni_souhrn`, která obsahuje pouze první řádek ze sloupce `Summary`**

<details>
    <summary>▶️ Řešení</summary>
    
    ```
    prvni_radek = hry_df.Summary.iloc[0]
    ```
</details>

<br>

**Vytvoř proměnnou `prvni_radek_tab`, která obsahuje celý první záznam z tabulky, z `hry_df`**

<details>
    <summary>▶️ Řešení</summary>
    
    ```
    prvni_radek_tab = hry_df.iloc[0]
    ```
</details>

<br>

**Vytvoř proměnnou `prvnich_deset_souhrnu`, kam načti prvních deset řádků z vybraného sloupečku `Summary`**

<details>
    <summary>▶️ Řešení</summary>
    
    ```
    prvni_souhrny = hry_df.Summary.iloc[:10]
    ```
</details>

<br>

**Vytvoř proměnnou `vzorek_indexu`, kam načti záznamy z indexů **2, 4, 5, 6, 7** a **9** z celé tabulky**

<details>
    <summary>▶️ Řešení</summary>
    
    ```
    vzorek_indexu = hry_df.loc[[2, 4, 5, 6, 7, 9]]
    ```
</details>

<br>

**Vytvoř proměnnou `hodnoceni`, načti záznamy z indexů **1, 5, 10, 100, 1000** z celé tabulky a vyber pouze sloupečky `Title`, `Rating`, `Release Date`, `Number of Reviews`**

<details>
    <summary>▶️ Řešení</summary>
    
    ```
    hodnoceni = hry_df.loc[[1, 5, 10, 100, 1000], ["Title", "Rating", "Release Date", "Number of Reviews"]]
    ```
</details>

<br>

**Vytvoř proměnnou `prvnich_sto`, která obsahuje pouze sloupečky `Title`a `Rating`. Dále potřebuješ uložit pouze **prvních 100 indexů****

<details>
    <summary>▶️ Řešení</summary>
    
    ```
    prvnich_sto = hry_df.loc[:99, ["Title", "Rating"]]
    ```
</details>

<br>

**Vytvoř proměnnou `vyber`, která obsahuje dva sloupečky `Title` a `Rating`, kde ve sloupečku `rating` chceš získat pouze takové tituly, které mají hodnocení větší nebo rovnou `4.6`**

<details>
    <summary>▶️ Řešení</summary>
    
    ```
    vyber_her = hry_df[hry_df["Rating"] >= 4.6]
    ```

</details>

<br>

## Manipulace se sloupci

---


<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse4.mm.bing.net%2Fth%3Fid%3DOIP.tzaGc-M5pl0DP6pGu-H6WgHaHa%26pid%3DApi&f=1&ipt=39909793c49bf980b8dbceaabe312870e1446f58fba1e6b430630cfbddd2b9c4&ipo=images" width="200" style="margin-left:auto; margin-right:auto"/>



Jakmile se dovedeš zorientovat v datových strukturách knihovny `pandas`, můžeš začít upravovat jejich obsah:
1. **Přejmenovat** sloupce,
2. **vytvořit** nové sloupce,
3. **odstranit** existující sloupce.

### Přejmenování sloupců

Pokud budeš někdy zápasit se špatně pojmenovaným sloupcem nebo sloupci, přejmenuj je pomocí metody `rename`.

In [None]:
uzivatele = {
    'jmeno': ['Matouš', 'Marek', 'Lukáš', 'Jan'],
    'age': [23, 25, 27, 29],
    'vaha': [65, 70, 75, 80],
    'vyska': [160, 170, 180, 190]
}

In [None]:
df_uzivatele = DataFrame(uzivatele)

In [None]:
df_uzivatele.head()

V ukázce výš tě omezuje jazyková nakonzistence mezi sloupečky.

Pomocí metody `rename` a argumentu `columns`, můžeš pomocí `dict` anotace vybrat, co a čím přejmenovat:

In [None]:
df_uzivatele.rename(columns={"age": "vek"})

Při další kontrole zjistíš, že **nové jméno sloupečku zmizelo**:

In [None]:
df_uzivatele

<br>

Celou situaci můžeš řešit dvěma způsoby:
1. Volitelný argument `inplace`,
2. kopie původního `DataFrame` objektu.

In [None]:
prejmenovany_sloupec_df = df_uzivatele.rename(columns={"age": "vek"})

In [None]:
prejmenovany_sloupec_df.head()

In [None]:
df_uzivatele.rename(columns={"age": "vek"}, inplace=True)

In [None]:
df_uzivatele.head()

Opatrně na práci s argumentem `inplace`.

Jeho použití vždy důkladně zvaž, ať neztratíš zdrojová data.

<br>

Přejmenovat můžeš i více sloupců současně:

In [None]:
nova_jmena_sloupcu = {
    "jmeno": "first_name",
    "vek": "age",
    "vaha": "weight",
    "vyska": "height"
}

In [None]:
df_uzivatele.rename(columns=nova_jmena_sloupcu, inplace=True)

In [None]:
df_uzivatele.head()

### Přidávání sloupců do DataFrame

Potřebuješ doplnit další sloupec. Nebo upravit data v jednom sloupci a výsledek zapsat do dalšího.

Nejčastěji můžeš pracovat **na přidávání nových sloupců** těmito třemi způsoby:
1. Slovníková anotace pomocí klíče a hodnoty,
2. výsledek pomocí operace mezi dvěma sloupci,
3. pomocí metody `apply`.

#### Jako klíč a hodnota

Takový způsob použiješ, pokud máš nachystané hodnoty pro nový sloupec:

In [None]:
nova_jmena_sloupcu = {
    "first_name": "jmeno",
    "age": "vek",
    "weight": "vaha",
    "height": "vyska"
}

In [None]:
df_uzivatele.rename(columns=nova_jmena_sloupcu, inplace=True)

In [None]:
df_uzivatele.head()

In [None]:
df_uzivatele['prijmeni'] = ["Holinka", "Párek", "Holinka", "Novák"]

In [None]:
df_uzivatele.head()

In [None]:
df_uzivatele.iloc[1]

#### Kombinace existujících sloupců

Tento způsob lze použít, pokud chceš vytvořit nový sloupec pomocí operací mezi existujícími sloupci:

In [None]:
df_uzivatele.head()

In [None]:
df_uzivatele['BMI'] = round(df_uzivatele['vaha'] / ((df_uzivatele['vyska'] / 100) ** 2), 1)

In [None]:
df_uzivatele.head()

#### Metoda `apply`

Pokud potřebuješ aplikovat uživ. funkci **pro stávající sloupec**, využiješ metodu `apply`:

In [None]:
df_uzivatele.head()

In [None]:
def vytvor_email(prijmeni: str, domena: str = "gmail.com") -> str:
    """
    Vrať zformátovaný string, který tvoří emailovou adresu.
    """
    return f"{prijmeni.lower()}@{domena}"

In [None]:
df_uzivatele['email'] = df_uzivatele['prijmeni'].apply(vytvor_email)

In [None]:
df_uzivatele.head()

<br>

Pokud budeš potřebovat pracovat **s více sloupečky**:

In [None]:
def vytvor_email(radek: pandas.core.frame.Series, domena: str = "gmail.com") -> str:
    """
    Vrať zformátovaný string, který tvoří emailovou adresu.
    """
    return f"{radek.jmeno.lower()[0]}_{radek.prijmeni.lower()}@{domena}"

In [None]:
df_uzivatele['email_lepsi'] = df_uzivatele.apply(vytvor_email, axis=1)

In [None]:
df_uzivatele

<br>

Nepovinný argument `axis` v ohlášení říká, že chce aplikovat metodu **na řádkové hodnoty**.

In [None]:
df_uzivatele.apply?

In [None]:
df_uzivatele.head()

Tento způsob lze použít, pokud chceš vytvořit **nový sloupec** pomocí nějaké funkce na jednotlivé řádky nebo sloupce `DataFrame`.

### Odstraňování sloupečků

K odstranění sloupců z `DataFrame` objektu můžeš použít několik metod:
1. pythonovskou funkci `del`,
2. metodu `drop`,
3. metodu `pop`.

In [None]:
from pandas import DataFrame

In [None]:
df_uzivatele.head()

In [None]:
df_uzivatele.columns

In [None]:
df_uzivatele.index

In [None]:
df_uzivatele = df_uzivatele.drop('email', axis=1)

In [None]:
df_uzivatele.drop?

In [None]:
df_uzivatele.head()

<br>

**🧠 CVIČENÍ 🧠, zpracuj zadané body v úloze.**

Máš DataFrame `zamestnanci` s informacemi o zaměstnancích tvé firmy.

Potřebuješ následující:
1. **přidat sloupec** s názvem `plat_na_hodinu`, který bude vypočítán jako průměr platu zaměstnanců dělený počtem odpracovaných hodin.
2. Sloupec `plat_na_hodinu` zaokrouhli **na celé číslo**,
3. **přejmenuj sloupec** `jmeno` na `cele_jmeno`,
4. **vytvoř funkci** `preved_datum`, která změní formát data ve sloupci `datum_narozeni` z `YYYY-MM-DD` na `DD/MM/YYYY`,
5. **odstraň sloupec** `id`.

In [None]:
from datetime import datetime

In [None]:
import pandas as pd

In [None]:
zamestnanci = pd.DataFrame({'id': [1, 2, 3, 4],
                            'jmeno': ['Jan Novák', 'Petr Soukup', 'Marie Horáková', 'Jana Svobodová'],
                            'datum_narozeni': ['1990-05-15', '1985-12-10', '1992-07-25', '1988-03-20'],
                            'plat': [40_000, 45_000, 35_000, 50_000],
                            'odprac_hodiny': [160, 180, 150, 200]}
            )

<details>
    <summary>▶️ Řešení</summary>
    
    ```python
    zamestnanci['plat_na_hodinu'] = round(zamestnanci['plat'] / zamestnanci['odprac_hodiny'])

    zamestnanci = zamestnanci.rename(columns={'jmeno': 'cele_jmeno'})


    def preved_datum(datum_narozeni, vstupni_format='%Y-%m-%d', vystupni_format='%d/%m/%Y'):
        dt = datetime.strptime(datum_narozeni, vstupni_format)
        prevedene_datum = dt.strftime(vystupni_format)
        return prevedene_datum


    # zamestnanci['datum_narozeni'] = pd.to_datetime(zamestnanci['datum_narozeni']).dt.strftime('%d/%m/%Y')  #  I. řešení
    # zamestnanci['datum_narozeni'] = zamestnanci['datum_narozeni'].apply(preved_datum)                      # II. řešení

    zamestnanci = zamestnanci.drop(columns=['id'])
    ```
</details>

<br>

## Kombinace datových setů

---


<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse1.mm.bing.net%2Fth%3Fid%3DOIP.APOjuHGvkM0wQaUx9ELKAgHaHa%26pid%3DApi&f=1&ipt=a8b2b692c40e190d4b28c164bf13e6c944702a69944035a4ef9053aa6ea1b190&ipo=images" width="160" style="margin-left:auto; margin-right:auto"/>

Takovými operacemi si můžeš představit jednoduché operace jako **spojování** (*konkatenace*) **dvou a více datasetů** až po složitější joiny podobně jako u databází.

`pandas` obsahuje různé *funkce* a *metody*, které umožňují tento způsob práce.

### Spojování s `concat`

---

Funkce concat() v pandas umožňuje spojit dva nebo více:
1. sloupečků,
2. tabulek.

*Spojení* můžeš provést:
1. **horizontálně**, po sloupcích,
2. **vertikálně**, po řádcích.

Použití funkce `concat()` spočívá v předání seznamu objektů, které chceš spojit, a parametru `axis`, který určuje osu, podle které se májí objekty spojit:

#### Spojení sloupečků

In [None]:
from pandas import concat, Series, DataFrame

In [None]:
sloupec_1 = Series(['A', 'B', 'C'], index=[1, 2, 3])
sloupec_2 = Series(['D', 'E', 'F'], index=[4, 5, 6])

In [None]:
spojene_sloupce = concat([sloupec_1, sloupec_2])

In [None]:
spojene_sloupce

#### Spojení tabulek

In [None]:
uzivatele_1 = {
    'jmeno': ['Matouš', 'Marek', 'Lukáš'],
    'vek': [25, 30, 35]
}

In [None]:
uzivatele_2 = {
    'jmeno': ['Petr', 'Jan', 'Michal'],
    'vek': [40, 45, 50]
}

In [None]:
df_uzivatele_1 = DataFrame(uzivatele_1)
df_uzivatele_2 = DataFrame(uzivatele_2)

In [None]:
df_spojene = concat([df_uzivatele_1, df_uzivatele_2], axis=0)

In [None]:
df_spojene.head()

Tady se ovšem zduplikovali hodnoty některých indexů.

Ty je potřeba opravit tímto postupem:
1. **Vytvořím nový sloupeček** pro indexy,
2. **odstraním starý sloupeček** s duplicitami.

In [None]:
df_spojene = df_spojene.reset_index()

In [None]:
df_spojene.head()

In [None]:
df_spojene = df_spojene.drop("index", axis=1)

In [None]:
df_spojene

Pro odchytávání duplicitních indexů můžeš doplnit parametr `verify_integrity=True`, případně pokud je irelevantní, ignorovat jej úplně `ignore_index=True`.

### `concat` a volitelný argument `join`

---

V jednoduchých ukázkách, jako jsou ty výše, stačilo tabulky a sloupečky spojit.

To prakticky není vždy ideální řešení, protože některé sloupečky můžou, ale nemusí být shodné.

In [None]:
from pandas import DataFrame, concat

In [None]:
df_vzorek_1 = DataFrame({"A": ["A1", "A2"], "B": ["B1", "B2"], "C": ["C1", "C2"]}, index=[1, 2])

In [None]:
df_vzorek_2 = DataFrame({"B": ["B3", "B4"], "C": ["C3", "C4"], "D": ["D3", "D4"]}, index=[3, 4])

In [None]:
vystup = concat([df_vzorek_1, df_vzorek_2])

In [None]:
vystup

Pokud některá data chybějí, jsou automaticky vyplněná jako **neznámé hodnoty**.

Řešením takové situace můžeš být zavedení jiného způsobu spojování.

Tedy nepoužívat defaultní argument `join='outer'`, ale `join='inner'`:

In [None]:
vystup_bez_na = concat([df_vzorek_1, df_vzorek_2], join='inner')

In [None]:
vystup_bez_na

### Spojování pomocí metody `append`

---

Jde **o zastaralé řešení**, ale přesto se s ním můžeš setkat.

Jelikož je spojování natolik běžnou operací, vznikl ještě jeden způsob, který je dokonce stručnější jako `concat`.

Jde o metodu `append`:

In [None]:
df_vzorek_3 = DataFrame({"A": ["A1", "A2"], "B": ["B1", "B2"]}, index=[1, 2])

In [None]:
df_vzorek_4 = DataFrame({"A": ["A3", "A4"], "B": ["B3", "B4"]}, index=[3, 4])

In [None]:
df_vzorek_3.append(df_vzorek_4)

Tato metoda přitom neupravovala původní objekty (jako `append` a `extend` pro `list`), ale vytvořila nový objekt.

### Spojování pomocí `merge`

---

Další funkcí pro spojování `DataFrame` objektů je `merge`.

Tato funkce je vhodná pro spojování DataFrame objektů, které **mají společné sloupce**.

Můžeš lépe zadávat typ spojení (parametr `how='inner' | 'outer' | 'left' | 'join'`).

Dále ti umožní definovat sloupec, nebo sloupce, na kterých chceš spojení provést (parametr `on`).

In [None]:
from pandas import merge

In [None]:
uzivatele_1 = {
    'jmeno': ['Alice', 'Bob', 'Charlie', 'David'],
     'vek': [25, 30, 35, 40],
     'mesto': ['Brno', 'Praha', 'Plzen', 'Ostrava']
}

In [None]:
uzivatele_2 = {
    'jmeno': ['Alice', 'David', 'Emma', 'Frank'],
     'pocet_prijemcu': [100, 200, 150, 250]
}

In [None]:
df_uzivatele_1 = DataFrame(uzivatele_1)

In [None]:
df_uzivatele_2 = DataFrame(uzivatele_2)

In [None]:
vystup = merge(df_uzivatele_1, df_uzivatele_2, on='jmeno', how='outer')

In [None]:
vystup

Obecně platí, že pokud potřebuješ dva nebo více `DataFrame` objektů podle **společného sloupce nebo sloupců**, použij funkci `merge()`.

Pokud chceš jenom **přidat další řádky nebo sloupce** do existujícího `DataFrame` objektu, použij funkci `concat`.

In [None]:
df_uzivatele_1

In [None]:
df_uzivatele_2

In [None]:
vystup_left_join = merge(df_uzivatele_1, df_uzivatele_2, on='jmeno', how='left')

In [None]:
vystup_left_join

V ukázce výš je použitý *left join*.

Tedy ve výsledku uvidíš celou první (levou tabulku) a z druhé pouze ty záznamy, které mají ve spojovacím sloupci `jmeno` společnou hodnotu.

In [None]:
df8 = DataFrame({
    'jmeno': ['Bob', 'Jake', 'Lisa', 'Sue'],
    'poradi': [1, 2, 3, 4]
})

In [None]:
df9 = DataFrame({
    'jmeno': ['Bob', 'Jake', 'Lisa', 'Sue'],
    'poradi': [3, 1, 4, 2]
})

In [None]:
vystup_konflikt = merge(df8, df9, on="jmeno")

In [None]:
vystup_konflikt

Funkce sama doplní přípony, aby rozlišila mezi oběma původními sloupci.

Pokud potřebuješ vlastní přípony, můžeš vyzkoušet volitelný argument pro `suffixes`:

In [None]:
vystup_vlastni_pripony = merge(df8, df9, on='jmeno', suffixes=('_levy', '_pravy'))

In [None]:
vystup_vlastni_pripony

### Spojení pomocí indexů, `join`

---

Tato metoda slouží k propojení dvou DataFrame objektů na základě jejich indexů nebo hodnot.

Je velice podobná funkci `merge` ale je přímo součástí `DataFrame` objektu a je snazší ji aplikovat:

In [None]:
uzivatele_1 = {
    'jmeno': ['Alice', 'Bob', 'Petr'],
     'vek': [25, 30, 35]
}

In [None]:
uzivatele_2 = {
    'jmeno': ['Alice', 'Bob', 'Petr'],
    'pocet_prijemcu': [100, 150, 200]
}

In [None]:
df_uzivatele_1 = DataFrame(uzivatele_1)

In [None]:
df_uzivatele_2 = DataFrame(uzivatele_2)

In [None]:
df_uzivatele_1 = df_uzivatele_1.set_index('jmeno')
df_uzivatele_2 = df_uzivatele_2.set_index('jmeno')

In [None]:
vysledek_join_metody = df_uzivatele_1.join(df_uzivatele_2)

In [None]:
vysledek_join_metody

Hlavní rozdíl mezi těmito funkcemi je způsob určení sloupce nebo sloupců, podle kterých se má propojení provést.

Metoda `join()` propojuje DataFrame objekty **na základě jejich indexů**, zatímco funkce `merge()` umožňuje propojit `DataFrame` objekty **na základě hodnoty v jednom nebo více sloupcích**.

<br>

**🧠 CVIČENÍ 🧠, procvič si spojování**

Máš dvě tabulky s informacemi o zákaznících tvé firmy.

Tabulky `zakaznici_objednavky` a `zakaznici_info`.

Tvým úkolem je propojit tyto tabulky podle zadání:
1. Použij funkci `merge()` k propojení obou tabulek podle společného klíče, kterým je sloupec `id_zakaznika`,
2. Použij funkci `concat()` k přidání sloupce `celkova_cena_objednavky`, který bude vypočítán jako součet ceny všech objednávek daného zákazníka,
3. Vyfiltruj pouze informace o zákaznících ze státu `'USA'` a ulož výslednou tabulku.

In [None]:
import pandas as pd

In [None]:
df_zakaznici_info = pd.DataFrame({'id_zakaznika': [1, 2, 3, 4],
                               'jmeno': ['Jan Novák', 'Petr Soukup', 'Marie Horáková', 'Jana Svobodová'],
                               'adresa': ['Hlavní 15', 'Druhá 10', 'Třetí 25', 'Čtvrtá 20'],
                               'mesto': ['Praha', 'Brno', 'Ostrava', 'New York'],
                               'stat': ['CZ', 'CZ', 'CZ', 'USA']})

In [None]:
df_zakaznici_objednavky = pd.DataFrame({'id_zakaznika': [1, 2, 3, 4, 1, 2],
                                     'datum_objednavky': ['2022-01-01', '2022-02-01', '2022-03-01', '2022-04-01', '2022-05-01', '2022-06-01'],
                                     'nazev_produktu': ['PC', 'Notebook', 'Monitor', 'Tiskarna', 'Myš', 'Klávesnice'],
                                     'cena': [15000, 20000, 5000, 3000, 500, 800]})

<details>
    <summary>▶️ Řešení</summary>
    
    ```python
    spojene_tabulky = pd.merge(df_zakaznici_info, df_zakaznici_objednavky, on='id_zakaznika')

    celkova_cena_objednavek = spojene_tabulky.groupby('id_zakaznika')['cena'].sum().reset_index()
    celkova_cena_objednavek = celkova_cena_objednavek.rename(columns={'cena': 'celkova_cena_objednavky'})
    spojene_tabulky = pd.concat([spojene_tabulky, celkova_cena_objednavek['celkova_cena_objednavky']], axis=1)

    spojene_tabulky = spojene_tabulky[spojene_tabulky['stat'] == 'USA']
    ```
</details>

---