# Python Datová akademie

<br>

## Obsah lekce

---

* [Úvod k pandám](#Úvod-k-pandám),
* [základní objekty](#Základní-datové-typy-frameworku),
    - [series](#Series),
    - [dataframe](#DataFrame),
    - [index](#Index).
* [tvoření objektů](#Tvorba-DataFrame),
    - [načti csv](#Načti-soubor-csv),
    - [načti html](#Načti-tabulku-html),
    - [načti data z SQL](#Načti-výstup-dotazu-do-tabulky).
* [prohlížení dat](#Prozkoumávání-dat),
    - [selekce u sloupečků](#Selekce-u-sloupečků),
    - [selekce u tabulek](#Selekce-u-tabulárních-hodnot),
    - [další metody prohlížení](#Metody-pro-nahlížení).
* [manipulace s daty](#Manipulace-se-sloupci),
    - [přejmenování sloupců](#Přejmenování-sloupců),
    - [přidávání sloupců](#Přidávání-sloupců-do-DataFrame),
    - [odstraňování sloupců]().

---

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse1.mm.bing.net%2Fth%3Fid%3DOIP.BaZU6gIdwRYQHu4rBBoO-gHaIX%26pid%3DApi&f=1&ipt=1013c975daabd695fcd4ebfc2c0e0b8ba4f10c37780419d8ff56538ec7a7f9ea&ipo=images" width="300" style="margin-left:auto; margin-right:auto"/>

## Úvod k pandám

---

Jde o knihovnu, která staví na jednoduchých, přesto výkonných datových strukturách v Pythonu.

Vzít data z různých zdrojů, načíst je, zpracovat a zapsat.

<br>

### Jak pandas vypadá

---

Odkaz na oficiální repozitář [této knihovny](https://github.com/pandas-dev/pandas).

### Proč se ti bude hodit

---

**Pandas** slouží pro analýzu dat.

Data jsou nejčastěji v SQL databázi, různých souborech, tabulkových procesech atd.

*Pandas* si představ jako Excel, ale s více funkcemi a hlavně možností automatizovat procesy.

### Kde se dozvíš více

---

Pokud budeš potřebovat více podrobností, mrkni na [oficiální dokumentaci](https://pandas.pydata.org/pandas-docs/stable/index.html).

#### Instalace

In [None]:
!pip install pandas

In [None]:
!pip install pandas==1.1.1

#### Použití

In [1]:
import pandas

In [2]:
pandas.__version__  # FutureWarning

'2.0.3'

In [3]:
import pandas as pd

In [4]:
from pandas import DataFrame

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse1.mm.bing.net%2Fth%3Fid%3DOIP.b2NCTuZRiG8yrmTCF7MogAHaHa%26pid%3DApi&f=1&ipt=f9e6a3811b3a707743134cfb19b2ee4f9c44584f5ea328582b227f14b94fcb1f&ipo=images" width="200" style="margin-left:auto; margin-right:auto"/>

## Základní datové typy frameworku

---

Knihovna nabízí řadu užitečných nástrojů, *metod* a *funkcí* nad rámec základních (zabudovaných) **datových struktur**.

Hlavní **tři struktury**, na kterých stojí jsou:
* `Index`
* `series`,
* `dataFrames`.

<img src="https://i.imgur.com/NNRgONl.png" width="1200" style="margin-left:auto; margin-right:auto"/>

### Series

---

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse3.mm.bing.net%2Fth%3Fid%3DOIP.Yp6ZBv9C33_pDfZkJcKbJQHaHa%26pid%3DApi&f=1&ipt=546833b7ce370c5a62bea21079371efd1fa9547765d4eae8e6c9e41f6b25a3af&ipo=images" width="200" style="margin-left:auto; margin-right:auto"/>

Jde **o jednodimenzionální sloupeček** (popř. řadu), který má **indexované data**.

Opět si jej můžeš představit jako sloupeček v obyčejných *Excelovských* tabulkách.

Na ukázku můžeš tyto sloupečky vytvořit třeba ze sekvencí:

In [5]:
from pandas import Series

In [6]:
mesta_sl = Series(["Praha", "Brno", "Ostrava", "Hradek Králové"])

In [7]:
print(type(mesta_sl))

<class 'pandas.core.series.Series'>


In [8]:
mesta_sl

0             Praha
1              Brno
2           Ostrava
3    Hradek Králové
dtype: object

<br>

Jak můžeš vidět v ukázce výše, *sloupec* `Series` obsahuje **jak pořadí, tak hodnoty**.

In [9]:
mesta_sl.index

RangeIndex(start=0, stop=4, step=1)

In [10]:
mesta_sl.values

array(['Praha', 'Brno', 'Ostrava', 'Hradek Králové'], dtype=object)

Obecně vypadá jako nějaké pole, který má svůj nativní datový typ `object`.

Ačkoliv je `pandas` knihovna Pythonu, datové typy nemusí vždy odpovídat základním datovým typům Pythonu:

| Typy `pandas`| typy `Python`| Použití |
| :-: | :-: | :- |
| `object` | `str` nebo směska| text nebo namíchané číselné a nečíselné hodnoty |
| `int64` | `int`| celá čísla |
| `float64` | `float` | desetinná čísla |
| `bool` | `bool` | True a False |
| `datetime64` | `-`| Hodnota data a času |
| `timedelta` | `-` | Časové rozdíly |

Stejně jako pole nebo sekvence můžeš indexovat a slicovat hodnoty typu `Series`.

In [11]:
mesta_sl  # Series

0             Praha
1              Brno
2           Ostrava
3    Hradek Králové
dtype: object

#### Indexování

In [12]:
mesta_sl[1]

'Brno'

#### Slicing

In [13]:
mesta_sl[0:3]

0      Praha
1       Brno
2    Ostrava
dtype: object

Na první pohled není tolik odlišný od datového typu `list` nebo `tuple` (případně pole v `numpy`).

Největší rozdíl spočítá v tzv. **Indexu**.

Ať `list`, `tuple` nebo `numpy.array` implicitně pracují s celočíselným indexem.

Objekt `Series` na druhou stranu nabízí možnost, zadávat vlastní indexové hodnoty:

In [14]:
mesta_sl = Series(["Praha", "Brno", "Ostrava", "Hradek Králové"],
                  index=["1_mesto", "2_mesto", "3_mesto", "4_mesto"])

In [15]:
mesta_sl.index

Index(['1_mesto', '2_mesto', '3_mesto', '4_mesto'], dtype='object')

In [None]:
mesta_sl

In [16]:
mesta_sl["2_mesto"]

'Brno'

Tímto způsobem si můžeš představit řadu, sloupec (`Series`) jako variantu datového typu `dict`, v Pythonu.

Víš, že ve slovníku Pythonu jsou hodnoty *mapované* na jednotlivé klíče.

V případě `Series` jde o mapování **typovaných hodnot** na **typované klíče**. Právě pojem **typovaný** (~*type-specific*) je zásadní.

Právě *typovaný* zkompilovaný kód od `Series` nabízí některé efektivnější metody a funkce, které obyč. `dict` v Pythonu ne.

In [17]:
populace_evropa = {
    'Dansko': 5_655_750,
    'Ceska_republika': 10_513_209,
    'Nemecko': 80_716_000,
    'Polsko': 38_483_957,
    'Slovensko': 5_415_949,
    'Rakousko': 8_932_664
}

In [18]:
populace_evropa_sl = Series(populace_evropa)

In [19]:
populace_evropa_sl

Dansko              5655750
Ceska_republika    10513209
Nemecko            80716000
Polsko             38483957
Slovensko           5415949
Rakousko            8932664
dtype: int64

Defaultně ti objekt `Series` nachystá index ze seřazených klíčů původního datového typu `dict`.

Můžeš provést klasické mapování hodnoty na jméno klíče:

In [20]:
populace_evropa_sl["Ceska_republika"]

10513209

K tomu, ale `Series` nabízí operace jako např. *slicing* pro pole:

In [21]:
populace_evropa_sl["Ceska_republika": "Polsko"]

Ceska_republika    10513209
Nemecko            80716000
Polsko             38483957
dtype: int64

<br>

### DataFrame

---

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse1.mm.bing.net%2Fth%3Fid%3DOIP._inpASbq98lGCmZFxPEq7wHaHa%26pid%3DApi&f=1&ipt=ecf1243da46e7ae6341330ae58bda2a6456c95f63a0cd79eda7d561cf3334a57&ipo=images" width="200" style="margin-left:auto; margin-right:auto"/>


Dalším elementárním datovým typem této knihovny je `DataFrame`.

Analogicky si jej můžeš představit jako tabulky v Excelu.

Tedy objekt složený **z řádků** (i jejich indexů) a **sloupců** (`Series`).

In [22]:
populace_evropa = {
    'Dansko': 5_655_750,
    'Ceska_republika': 10_513_209,
    'Nemecko': 80_716_000,
    'Polsko': 38_483_957,
    'Slovensko': 5_415_949,
    'Rakousko': 8_932_664
}

In [23]:
rozloha_evropa = {
    'Dansko': 42_916,
    'Ceska_republika': 78_870,
    'Nemecko': 357_168,
    'Polsko': 312_679,
    'Slovensko': 49_035,
    'Rakousko': 83_878
}

In [24]:
from pandas import DataFrame

In [25]:
zeme_evropa_df = DataFrame(
    {
        "populace": populace_evropa,
        "rozloha": rozloha_evropa
    }
)

In [26]:
zeme_evropa_df

Unnamed: 0,populace,rozloha
Dansko,5655750,42916
Ceska_republika,10513209,78870
Nemecko,80716000,357168
Polsko,38483957,312679
Slovensko,5415949,49035
Rakousko,8932664,83878


In [27]:
type(zeme_evropa_df)

pandas.core.frame.DataFrame

Stejně jako u `Series` má i `DataFrame` svoje *indexy*:

In [28]:
zeme_evropa_df.index

Index(['Dansko', 'Ceska_republika', 'Nemecko', 'Polsko', 'Slovensko',
       'Rakousko'],
      dtype='object')

Navíc můžeš pracovat s atributem `columns`, který drží jména jednotlivých sloupečků:

In [29]:
zeme_evropa_df.columns

Index(['populace', 'rozloha'], dtype='object')

Proto si můžeš objekt `DataFrame` představit také jako Pythonovský `dict`.

Ovšem s tím rozdílem, že tentokrát mapuješ jméno sloupečku na `Series`:

In [30]:
zeme_evropa_df["populace"]

Dansko              5655750
Ceska_republika    10513209
Nemecko            80716000
Polsko             38483957
Slovensko           5415949
Rakousko            8932664
Name: populace, dtype: int64

In [31]:
populace_z_df = zeme_evropa_df["populace"]

In [32]:
type(populace_z_df)

pandas.core.series.Series

Opatrně při vytváření nového `DataFrame`, u chybějících klíčů implictině zapisuje `Nan` hodnotu (~*not a number*):

In [33]:
chybejici_hodnoty_df = DataFrame(
    [
        {"A": 1, "B": 4},
        {"C": 6, "B": 7}
    ]
)

In [34]:
chybejici_hodnoty_df

Unnamed: 0,A,B,C
0,1.0,4,
1,,7,6.0


Navíc si můžeš všimnout rozdílné definice **datového typu**:

In [35]:
chybejici_hodnoty_df.dtypes

A    float64
B      int64
C    float64
dtype: object

In [36]:
chybejici_hodnoty_df["A"]

0    1.0
1    NaN
Name: A, dtype: float64

In [37]:
konvertovany_sl_a = chybejici_hodnoty_df["A"].convert_dtypes()

In [40]:
# help(chybejici_hodnoty_df["A"].convert_dtypes())

In [38]:
konvertovany_sl_a

0       1
1    <NA>
Name: A, dtype: Int64

Více si o přetypování obecně a dozvíš později.

<br>

### Index

---


<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse2.mm.bing.net%2Fth%3Fid%3DOIP.seHFhDBVI43ubrhLPBeGEgHaIn%26pid%3DApi&f=1&ipt=794cf97f9f362ac74e0c1c20d393247951c7481b8a29801769b0786fb7d00d49&ipo=images" width="200" style="margin-left:auto; margin-right:auto"/>

Posledním ze základních objektů frameworku `pandas` je tedy **Index** (velké "i").

Jak `Series`, tak `DataFrame` v sobě *Index* obsahují.

Pro jednoduchost, si jej můžeš představit jako označení jednotlivých řádků v tabulce.

In [41]:
from pandas import Index

In [42]:
indexy = Index([2, 3, 4, 5])

In [43]:
indexy

Index([2, 3, 4, 5], dtype='int64')

<br>

#### Indexování indexů

---


In [44]:
indexy[2]

4

<br>

#### Slicování indexů

---

In [None]:
indexy[:3]

<br>

#### Nezměnitelný objekt

---

In [45]:
indexy[2] = 3

TypeError: Index does not support mutable operations

Tato nezměnitelnost slouží k větší bezpečnosti, protože jednotlivé indexy, může sdílet více `DataFrame`.

#### Index jako seřazený set

In [None]:
indexy_a = Index([1, 2, 3, 4])
indexy_b = Index([3, 4, 5, 6])

In [None]:
indexy_a.intersection(indexy_b)

In [None]:
indexy_a.union(indexy_b)

<br>

## Tvorba DataFrame

---

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse1.mm.bing.net%2Fth%3Fid%3DOIP.ovfAYtMk__SzkM-gAL5DAgHaGn%26pid%3DApi&f=1&ipt=94d2dc479d307a97eec106838a315c08e0e51b3af580ab03462842ff84f82046&ipo=images" width="200" style="margin-left:auto; margin-right:auto"/>

Vytvořit nový `DataFrame` je záležitost několika málo argumentů.

Není ovšem velmi časté, chystat data *z ničeho*.

Většinou potřebuješ právě nahrát různé **existující externí soubory**, do `DataFrame` objektů.

* `read_csv`,
* `read_excel`,
* `read_json`,
* `read_html`,
* `read_sql`,
* `read_parquet`,
* `read_sas`.

###  Načti soubor `csv`

---

Knihovna nabízí přímo specializovanou funkci `read_csv`.

Ta dovede načíst obsah souboru do nového `DataFrame`.

Pro první použití, případně pozdější rozšíření je vhodné, prozkoumat dokumentaci:

In [48]:
!ls -l ../exercises/

total 44
drwxrwxr-x 3 matous matous 4096 lis  9 09:14 bnp_project_1
-rw-rw-r-- 1 matous matous   67 lis  9 14:28 lide.csv
drwxrwxr-x 3 matous matous 4096 lis  8 16:09 my_package
drwxrwxr-x 2 matous matous 4096 lis  9 12:06 __pycache__
-rw-rw-r-- 1 matous matous  421 lis  8 11:34 task1.py
-rw-rw-r-- 1 matous matous   67 lis  8 13:35 task2.py
-rw-rw-r-- 1 matous matous  358 lis  8 14:31 task3.py
-rw-rw-r-- 1 matous matous  180 lis  8 16:00 task4.py
-rw-rw-r-- 1 matous matous  791 lis  8 14:58 task5.py
-rw-rw-r-- 1 matous matous  609 lis  9 14:00 task6.py
-rw-rw-r-- 1 matous matous  119 lis  8 16:11 vypocet.py


In [49]:
from pandas import read_csv

Načteš jméno souboru se specifickou příponou `csv`:

In [None]:
zamestnanci_ = !ls ../onsite | grep ".csv"

In [None]:
zamestnanci_

In [None]:
zamestnanci_rel = pathlib.Path("../onsite").joinpath(zamestnanci_[0])

In [None]:
zamestnanci_rel

In [None]:
zamestnanci = read_csv(zamestnanci_rel)

Prozkoumej samotný soubor:

In [None]:
!cat ../onsite/customers_inp.csv

<br>

Nyní se podívej jak vypadá nově vytvořený `DataFrame`:

In [None]:
type(zamestnanci)

In [None]:
zamestnanci

Je potřeba pohlídat si (není řazené podle priorit):
* indexy,
* záhlaví,
* strukturu jednotlivých `Series`,
* datové typy.

Pokud nesedí **defaultní oddělovač** (*sep* nebo *delimiter*):

In [None]:
!sed -i s"/,/;/g" ../onsite/customers_inp.csv

In [None]:
!cat ../onsite/customers_inp.csv

In [None]:
zamestnanci_carka = read_csv(f"../onsite/{zamestnanci_[0]}")

In [None]:
zamestnanci_carka

Můžeš zadat jiný než *defaultní* oddělovač:

In [52]:
lide_df = read_csv("../exercises/lide.csv", sep=';')

In [53]:
lide_df

Unnamed: 0,jmeno,prijmeni,vek
0,Matous,Holinka,110
1,Petr,Svetr,50
2,Lucie,Marna,40


**Nevhodné datové typy** je také možné řešit při nové inicializaci `DataFrame`:

In [55]:
lide_df.dtypes

jmeno       object
prijmeni    object
vek          int64
dtype: object

Pokud potřebuješ *vynutit* konverzi datového typu:

In [56]:
lide_df = read_csv(
    "../exercises/lide.csv",
    sep=";",
    dtype={
        "jmeno": str,
        "prijmeni": str,
        "vek": str
    }
)

In [58]:
lide_df.dtypes

jmeno       object
prijmeni    object
vek         object
dtype: object

### Načti tabulku `html`

---

Funkce `read_html` často zastává některé kroky *web scrapování*.

Přesto je jejím učelem "pouze" extrahování dat v HTML `<table></table>` elementech.

Ukázka [zdroj](https://simple.wikipedia.org/wiki/List_of_U.S._states).

**Demo: Ukázka v příkazovém řádku**

In [60]:
!ls -l ../exercises/

total 48
drwxrwxr-x 3 matous matous 4096 lis  9 09:14 bnp_project_1
-rw-rw-r-- 1 matous matous  247 lis  9 14:36 demo_read_html.py
-rw-rw-r-- 1 matous matous   67 lis  9 14:28 lide.csv
drwxrwxr-x 3 matous matous 4096 lis  8 16:09 my_package
drwxrwxr-x 2 matous matous 4096 lis  9 12:06 __pycache__
-rw-rw-r-- 1 matous matous  421 lis  8 11:34 task1.py
-rw-rw-r-- 1 matous matous   67 lis  8 13:35 task2.py
-rw-rw-r-- 1 matous matous  358 lis  8 14:31 task3.py
-rw-rw-r-- 1 matous matous  180 lis  8 16:00 task4.py
-rw-rw-r-- 1 matous matous  791 lis  8 14:58 task5.py
-rw-rw-r-- 1 matous matous  609 lis  9 14:00 task6.py
-rw-rw-r-- 1 matous matous  119 lis  8 16:11 vypocet.py


In [63]:
# %run ../exercises/demo_read_html.py

<br>

### Načti výstup dotazu do tabulky

---

Další možností, jak lépe pracovat s knihovnou `pandas`, je načítání z databáze.

Prakticky pošleš dotaz do databázového systému a on jej rozdělí na `DataFrame`:

In [None]:
import pyodbc
from pandas import read_sql

In [None]:
read_sql?

In [None]:
database_name = "company_test"

In [None]:
select_query = "SELECT * FROM employee_test"

In [None]:
connection_str = 'Driver={ODBC Driver 17 for SQL Server};' \
    'Server=localhost;uid=sa;pwd=csoB2023;' \
    f'port=1443;database={database_name};'

In [None]:
with pyodbc.connect(connection_str) as connection:
    select_query = read_sql(select_query, connection)

In [None]:
print(select_query)

Autoři knihovny většinou vyžadují chystání *connection* objektů pomocí **SQL Alchemy**.

V rámci ukázky je použitý dnes již netestováné `dbapi2` připojení.

In [None]:
!pip install ipython-sql

In [None]:
%load_ext sql

In [None]:
%sql mssql+pyodbc://sa:csoB2023@localhost:1433/company_test?driver=ODBC+Driver+17+for+SQL+Server

In [None]:
zamestnanci = %sql SELECT * FROM employee_test;

In [None]:
type(zamestnanci)

In [None]:
zamestnanci_df = DataFrame(zamestnanci)

In [None]:
zamestnanci_df

<br>

**🧠 CVIČENÍ 🧠, načti data z vlastní DB a nachystej nový DataFrame.**

<br>

## Prozkoumávání dat

---


<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse3.mm.bing.net%2Fth%3Fid%3DOIP.ACSOiM-U0Q1dA-4JLXwShAHaHx%26pid%3DApi&f=1&ipt=6d4afed7c3560452103fe53af2bd94638c28007aa3141700570a84c7fab7263a&ipo=images" width="200" style="margin-left:auto; margin-right:auto"/>




Jakmile máš data správně načtená a přetypovaná, můžeš s nimi začít pracovat.

Než se do toho vrhneš, není špatné, umět je prohlížet.

### Selekce u sloupečků

---

In [None]:
from pandas import Series

In [64]:
vek_sl = Series(
    [26, 36, 46, 56],
    index=['Petr', 'Pavel', 'Jiri', 'Tomas']
)

<br>

Pro vytvořený sloupeček:

In [65]:
vek_sl

Petr     26
Pavel    36
Jiri     46
Tomas    56
dtype: int64

<br>

Pokud provádíš *slicing* pomocí *indexů*, implicitně **vynecháš konečný index**:

In [66]:
vek_sl[0:3]

Petr     26
Pavel    36
Jiri     46
dtype: int64

<br>

Pokud ovšem zadáváš přímo hodnotu *Indexu*, potom vybíráš hodnoty **včetně konečného indexu**:

In [67]:
vek_sl["Petr": "Tomas"]

Petr     26
Pavel    36
Jiri     46
Tomas    56
dtype: int64

Tento jednoduchý přístup potom vede **k častým chybám a nepochopením**.

### Atributy `loc`, `iloc`

---

Právě protože je *indexování* a *slicing* v rámci `Series` matoucí, existují pomocné atributy.

#### loc

Právě tento atribut zaručí, že budeš vždy pracovat pomocí **explicitního zadání hodnoty Indexů**:

In [68]:
vek_sl

Petr     26
Pavel    36
Jiri     46
Tomas    56
dtype: int64

In [69]:
vek_sl.loc["Petr": "Tomas"]

Petr     26
Pavel    36
Jiri     46
Tomas    56
dtype: int64

Jde tedy o explicitní práci s Indexy knihovny `pandas`, ne indexy Pythonu:

In [71]:
jmena_sl = Series(
    ["Matous", "Marek", "Lukas", "Jan"],
    index=[1, 2, 3, 4]
)

In [72]:
jmena_sl

1    Matous
2     Marek
3     Lukas
4       Jan
dtype: object

In [None]:
jmena_sl.loc[:3]

#### iloc

Naopak atribut `iloc` je proces, který funguje výlučně na **indexování v rámci Pythonu** (pořadí, začíná nulou):

In [75]:
jmena_sl

1    Matous
2     Marek
3     Lukas
4       Jan
dtype: object

In [73]:
jmena_sl.iloc[1]

'Marek'

In [74]:
jmena_sl.iloc[:2]

1    Matous
2     Marek
dtype: object

Kvůli jasnosti a přehlednosti je obecně výhodnější a doporučováné, pracovat s atributy `loc` a `iloc`.

### Selekce u tabulárních hodnot

---

Jelikož je `DataFrame` složený ze sloupečků, můžeš aplikovat některé postupy z uplynulé teorie.

* **slovníkový klíč**,
* **atributový přístup**,
* **slovníkový náhled**,
* `loc`, `iloc`, `ix`, `T`.

In [76]:
from pandas import DataFrame

In [77]:
populace_evropa = {
    'Dansko': 5_655_750,
    'Ceska_republika': 10_513_209,
    'Nemecko': 80_716_000,
    'Polsko': 38_483_957,
    'Slovensko': 5_415_949,
    'Rakousko': 8_932_664
}

In [78]:
rozloha_evropa = {
    'Dansko': 42_916,
    'Ceska_republika': 78_870,
    'Nemecko': 357_168,
    'Polsko': 312_679,
    'Slovensko': 49_035,
    'Rakousko': 83_878
}

In [79]:
zeme_evropa_df = DataFrame({"populace": populace_evropa, "rozloha": rozloha_evropa})

In [80]:
zeme_evropa_df

Unnamed: 0,populace,rozloha
Dansko,5655750,42916
Ceska_republika,10513209,78870
Nemecko,80716000,357168
Polsko,38483957,312679
Slovensko,5415949,49035
Rakousko,8932664,83878


#### Přístup pomocí klíčů

In [81]:
zeme_evropa_df["populace"]

Dansko              5655750
Ceska_republika    10513209
Nemecko            80716000
Polsko             38483957
Slovensko           5415949
Rakousko            8932664
Name: populace, dtype: int64

In [82]:
zeme_evropa_df["rozloha"]

Dansko              42916
Ceska_republika     78870
Nemecko            357168
Polsko             312679
Slovensko           49035
Rakousko            83878
Name: rozloha, dtype: int64

#### Přístup pomocí atributů

In [None]:
bool(zeme_evropa_df["rozloha"] is zeme_evropa_df.rozloha)

In [83]:
zeme_evropa_df.populace

Dansko              5655750
Ceska_republika    10513209
Nemecko            80716000
Polsko             38483957
Slovensko           5415949
Rakousko            8932664
Name: populace, dtype: int64

In [None]:
zeme_evropa_df.rozloha

In [84]:
zeme_evropa_df[zeme_evropa_df.rozloha > 100_000]

Unnamed: 0,populace,rozloha
Nemecko,80716000,357168
Polsko,38483957,312679


In [85]:
zeme_evropa_df[zeme_evropa_df["rozloha"] > 100_000]

Unnamed: 0,populace,rozloha
Nemecko,80716000,357168
Polsko,38483957,312679


Opatrně, atributový přístup nelze aplikovat, pokud je jméno sloupečku shodné s některým **z rezerovaných výrazů**.

#### Slovníkový náhled

In [86]:
zeme_evropa_df.values

array([[ 5655750,    42916],
       [10513209,    78870],
       [80716000,   357168],
       [38483957,   312679],
       [ 5415949,    49035],
       [ 8932664,    83878]])

#### loc

Stejná pravidla jako pro `Series`, nicméne tentokrát můžeš vybírat buď jednotlivé Indexy, nebo pole Indexů:

In [87]:
zeme_evropa_df

Unnamed: 0,populace,rozloha
Dansko,5655750,42916
Ceska_republika,10513209,78870
Nemecko,80716000,357168
Polsko,38483957,312679
Slovensko,5415949,49035
Rakousko,8932664,83878


In [88]:
zeme_evropa_df.loc["Nemecko"]

populace    80716000
rozloha       357168
Name: Nemecko, dtype: int64

In [89]:
type(zeme_evropa_df.loc["Nemecko"])

pandas.core.series.Series

In [90]:
zeme_evropa_df.loc[:"Nemecko"]

Unnamed: 0,populace,rozloha
Dansko,5655750,42916
Ceska_republika,10513209,78870
Nemecko,80716000,357168


Dále můžeš vybírat sloupce nebo rozsah sloupců:

In [91]:
zeme_evropa_df.loc["Nemecko", "populace"]

80716000

In [92]:
zeme_evropa_df.loc[:"Nemecko", "populace"]

Dansko              5655750
Ceska_republika    10513209
Nemecko            80716000
Name: populace, dtype: int64

In [93]:
zeme_evropa_df.loc[:"Nemecko", :"rozloha"]

Unnamed: 0,populace,rozloha
Dansko,5655750,42916
Ceska_republika,10513209,78870
Nemecko,80716000,357168


#### iloc

In [95]:
zeme_evropa_df.iloc[:3, :2]

Unnamed: 0,populace,rozloha
Dansko,5655750,42916
Ceska_republika,10513209,78870
Nemecko,80716000,357168


#### Transformace

In [None]:
zeme_evropa_df.T

#### ix

Jde o atribut-hybrid, který kombinuje mixování stylů z `loc` a `iloc`.

Tento *legacy atribut* se již oficiálně nedoporučuje.

In [None]:
zeme_evropa_df.ix[:"Nemecko", :2]  # iloc + loc

### Metody pro nahlížení

---

Následující metody ti ulehčí nahlížení a prozkoumávání dat.

Jsou to metody:
* `info()`,
* `describe()`,
* `head()`,
* `tail()`,

In [96]:
from pandas import DataFrame

In [97]:
populace_evropa = {
    'Dansko': 5_655_750,
    'Ceska_republika': 10_513_209,
    'Nemecko': 80_716_000,
    'Polsko': 38_483_957,
    'Slovensko': 5_415_949,
    'Rakousko': 8_932_664
}

In [98]:
rozloha_evropa = {
    'Dansko': 42_916,
    'Ceska_republika': 78_870,
    'Nemecko': 357_168,
    'Polsko': 312_679,
    'Slovensko': 49_035,
    'Rakousko': 83_878
}

In [99]:
zeme_evropa_df = DataFrame({"populace": populace_evropa, "rozloha": rozloha_evropa})

#### Metoda `info()`

Jde o obecnou informaci o DataFrame:

In [100]:
zeme_evropa_df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 6 entries, Dansko to Rakousko
Data columns (total 2 columns):
 #   Column    Non-Null Count  Dtype
---  ------    --------------  -----
 0   populace  6 non-null      int64
 1   rozloha   6 non-null      int64
dtypes: int64(2)
memory usage: 144.0+ bytes


Z výstupu potom přečteš:
* počet indexů,
* počet sloupců,
* počet neprázdných, nenulových hodnot,
* datové typy pro sloupce.

#### Metoda `describe()`

Tato metoda ti nepodává základní informaci o DataFrame, ale spíše **pracuje s číselnými sloupci**.


Poskytuje základní **statistické přehledy** jako:
* průměr,
* medián,
* minimální & maximální hodnota,
* rozptyl.

In [101]:
zeme_evropa_df.describe()

Unnamed: 0,populace,rozloha
count,6.0,6.0
mean,24952920.0,154091.0
std,30039430.0,141686.364654
min,5415949.0,42916.0
25%,6474978.0,56493.75
50%,9722936.0,81374.0
75%,31491270.0,255478.75
max,80716000.0,357168.0


#### Metody `head()` a `tail()`

Obě metody pracují jako náhledové metody. K lepšímu pohledu na konkrétní řádky.

1. `head`, prozkoumá **prvních pět řádků** (defaultně),
2. `tail`, prozkoumá **posledních pět řádků** (defaultně),

In [102]:
zeme_evropa_df.head(3)  # truncate, 

Unnamed: 0,populace,rozloha
Dansko,5655750,42916
Ceska_republika,10513209,78870
Nemecko,80716000,357168


In [103]:
zeme_evropa_df.tail(3)

Unnamed: 0,populace,rozloha
Polsko,38483957,312679
Slovensko,5415949,49035
Rakousko,8932664,83878


<br>

**🧠 CVIČENÍ 🧠, diktát s pandama.**

In [None]:
!pwd

In [None]:
!head -1 ../onsite/lesson02/games.csv

**Nahraj zadaný soubor do proměnné `hry_df`**

In [None]:
"../onsite/lesson02/games.csv"

<details>
    <summary>▶️ Řešení</summary>
    
    ```
    hry_df = read_csv("../onsite/lesson02/games.csv")
    ```
</details>

<br>

**Vytvoř proměnnou `jen_souhrn`, která obsahuje pouze sloupec `Summary`**

In [105]:
zeme_evropa_df['populace']

Dansko              5655750
Ceska_republika    10513209
Nemecko            80716000
Polsko             38483957
Slovensko           5415949
Rakousko            8932664
Name: populace, dtype: int64

<details>
    <summary>▶️ Řešení</summary>
    
    ```
    souhrn = hry_df.Summary
    ```
</details>

<br>

**Vytvoř proměnnou `prvni_souhrn`, která obsahuje pouze první řádek ze sloupce `Summary`**

In [107]:
zeme_evropa_df.loc['Dansko']  # iloc[0]

populace    5655750
rozloha       42916
Name: Dansko, dtype: int64

<details>
    <summary>▶️ Řešení</summary>
    
    ```
    prvni_radek = hry_df.Summary.iloc[0]
    ```
</details>

<br>

**Vytvoř proměnnou `prvni_radek_tab`, která obsahuje celý první záznam z tabulky, z `hry_df`**

In [109]:
zeme_evropa_df.index

Index(['Dansko', 'Ceska_republika', 'Nemecko', 'Polsko', 'Slovensko',
       'Rakousko'],
      dtype='object')

<details>
    <summary>▶️ Řešení</summary>
    
    ```
    prvni_radek_tab = hry_df.iloc[0]
    ```
</details>

<br>

**Vytvoř proměnnou `prvnich_deset_souhrnu`, kam načti prvních deset řádků z vybraného sloupečku `Summary`**

In [123]:
zeme_evropa_df.iloc[:4, 1]  # loc

Dansko              42916
Ceska_republika     78870
Nemecko            357168
Polsko             312679
Name: rozloha, dtype: int64

<details>
    <summary>▶️ Řešení</summary>
    
    ```
    prvni_souhrny = hry_df.Summary.iloc[:10]
    ```
</details>

<br>

**Vytvoř proměnnou `vzorek_indexu`, kam načti záznamy z indexů **2, 4, 5, 6, 7** a **9** z celé tabulky**

<details>
    <summary>▶️ Řešení</summary>
    
    ```
    vzorek_indexu = hry_df.loc[[2, 4, 5, 6, 7, 9]]
    ```
</details>

<br>

**Vytvoř proměnnou `hodnoceni`, načti záznamy z indexů **1, 5, 10, 100, 1000** z celé tabulky a vyber pouze sloupečky `Title`, `Rating`, `Release Date`, `Number of Reviews`**

<details>
    <summary>▶️ Řešení</summary>
    
    ```
    hodnoceni = hry_df.loc[[1, 5, 10, 100, 1000], ["Title", "Rating", "Release Date", "Number of Reviews"]]
    ```
</details>

<br>

**Vytvoř proměnnou `prvnich_sto`, která obsahuje pouze sloupečky `Title`a `Rating`. Dále potřebuješ uložit pouze **prvních 100 indexů****

<details>
    <summary>▶️ Řešení</summary>
    
    ```
    prvnich_sto = hry_df.loc[:99, ["Title", "Rating"]]
    ```
</details>

<br>

**Vytvoř proměnnou `vyber`, která obsahuje dva sloupečky `Title` a `Rating`, kde ve sloupečku `rating` chceš získat pouze takové tituly, které mají hodnocení větší nebo rovnou `4.6`**

<details>
    <summary>▶️ Řešení</summary>
    
    ```
    vyber_her = hry_df[hry_df["Rating"] >= 4.6]
    ```

</details>

<br>

## Manipulace se sloupci

---


<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse4.mm.bing.net%2Fth%3Fid%3DOIP.tzaGc-M5pl0DP6pGu-H6WgHaHa%26pid%3DApi&f=1&ipt=39909793c49bf980b8dbceaabe312870e1446f58fba1e6b430630cfbddd2b9c4&ipo=images" width="200" style="margin-left:auto; margin-right:auto"/>



Jakmile se dovedeš zorientovat v datových strukturách knihovny `pandas`, můžeš začít upravovat jejich obsah:
1. **Přejmenovat** sloupce,
2. **vytvořit** nové sloupce,
3. **odstranit** existující sloupce.

### Přejmenování sloupců

Pokud budeš někdy zápasit se špatně pojmenovaným sloupcem nebo sloupci, přejmenuj je pomocí metody `rename`.

In [124]:
uzivatele = {
    'jmeno': ['Matouš', 'Marek', 'Lukáš', 'Jan'],
    'age': [23, 25, 27, 29],
    'vaha': [65, 70, 75, 80],
    'vyska': [160, 170, 180, 190]
}

In [125]:
df_uzivatele = DataFrame(uzivatele)

In [126]:
df_uzivatele.head()

Unnamed: 0,jmeno,age,vaha,vyska
0,Matouš,23,65,160
1,Marek,25,70,170
2,Lukáš,27,75,180
3,Jan,29,80,190


V ukázce výš tě omezuje jazyková nakonzistence mezi sloupečky.

Pomocí metody `rename` a argumentu `columns`, můžeš pomocí `dict` anotace vybrat, co a čím přejmenovat:

In [127]:
df_uzivatele.rename(columns={"age": "vek"})

Unnamed: 0,jmeno,vek,vaha,vyska
0,Matouš,23,65,160
1,Marek,25,70,170
2,Lukáš,27,75,180
3,Jan,29,80,190


Při další kontrole zjistíš, že **nové jméno sloupečku zmizelo**:

In [128]:
df_uzivatele.head()

Unnamed: 0,jmeno,age,vaha,vyska
0,Matouš,23,65,160
1,Marek,25,70,170
2,Lukáš,27,75,180
3,Jan,29,80,190


<br>

Celou situaci můžeš řešit dvěma způsoby:
1. Volitelný argument `inplace`,
2. kopie původního `DataFrame` objektu.

In [129]:
prejmenovany_sloupec_df = df_uzivatele.rename(columns={"age": "vek"})

In [130]:
prejmenovany_sloupec_df.head()

Unnamed: 0,jmeno,vek,vaha,vyska
0,Matouš,23,65,160
1,Marek,25,70,170
2,Lukáš,27,75,180
3,Jan,29,80,190


In [None]:
df_uzivatele.rename(columns={"age": "vek"}, inplace=True)

In [None]:
df_uzivatele.head()

Opatrně na práci s argumentem `inplace`.

Jeho použití vždy důkladně zvaž, ať neztratíš zdrojová data.

<br>

Přejmenovat můžeš i více sloupců současně:

In [None]:
nova_jmena_sloupcu = {
    "jmeno": "first_name",
    "vek": "age",
    "vaha": "weight",
    "vyska": "height"
}

In [None]:
df_uzivatele.rename(columns=nova_jmena_sloupcu, inplace=True)

In [None]:
df_uzivatele.head()

### Přidávání sloupců do DataFrame

Potřebuješ doplnit další sloupec. Nebo upravit data v jednom sloupci a výsledek zapsat do dalšího.

Nejčastěji můžeš pracovat **na přidávání nových sloupců** těmito třemi způsoby:
1. Slovníková anotace pomocí klíče a hodnoty,
2. výsledek pomocí operace mezi dvěma sloupci,
3. pomocí metody `apply`.

#### Jako klíč a hodnota

Takový způsob použiješ, pokud máš nachystané hodnoty pro nový sloupec:

In [None]:
nova_jmena_sloupcu = {
    "first_name": "jmeno",
    "age": "vek",
    "weight": "vaha",
    "height": "vyska"
}

In [None]:
df_uzivatele.rename(columns=nova_jmena_sloupcu, inplace=True)

In [131]:
df_uzivatele.head()

Unnamed: 0,jmeno,age,vaha,vyska
0,Matouš,23,65,160
1,Marek,25,70,170
2,Lukáš,27,75,180
3,Jan,29,80,190


In [132]:
df_uzivatele['prijmeni'] = ["Holinka", "Párek", "Holinka", "Novák"]

In [133]:
df_uzivatele.head()

Unnamed: 0,jmeno,age,vaha,vyska,prijmeni
0,Matouš,23,65,160,Holinka
1,Marek,25,70,170,Párek
2,Lukáš,27,75,180,Holinka
3,Jan,29,80,190,Novák


In [134]:
df_uzivatele.iloc[0]

jmeno        Matouš
age              23
vaha             65
vyska           160
prijmeni    Holinka
Name: 0, dtype: object

#### Kombinace existujících sloupců

Tento způsob lze použít, pokud chceš vytvořit nový sloupec pomocí operací mezi existujícími sloupci:

In [135]:
df_uzivatele.head()

Unnamed: 0,jmeno,age,vaha,vyska,prijmeni
0,Matouš,23,65,160,Holinka
1,Marek,25,70,170,Párek
2,Lukáš,27,75,180,Holinka
3,Jan,29,80,190,Novák


In [136]:
df_uzivatele['BMI'] = round(df_uzivatele['vaha'] / ((df_uzivatele['vyska'] / 100) ** 2), 1)

In [137]:
df_uzivatele.head()

Unnamed: 0,jmeno,age,vaha,vyska,prijmeni,BMI
0,Matouš,23,65,160,Holinka,25.4
1,Marek,25,70,170,Párek,24.2
2,Lukáš,27,75,180,Holinka,23.1
3,Jan,29,80,190,Novák,22.2


#### Metoda `apply`

Pokud potřebuješ aplikovat uživ. funkci **pro stávající sloupec**, využiješ metodu `apply`:

In [138]:
df_uzivatele.head()

Unnamed: 0,jmeno,age,vaha,vyska,prijmeni,BMI
0,Matouš,23,65,160,Holinka,25.4
1,Marek,25,70,170,Párek,24.2
2,Lukáš,27,75,180,Holinka,23.1
3,Jan,29,80,190,Novák,22.2


In [139]:
def vytvor_email(prijmeni: str, domena: str = "gmail.com") -> str:
    """
    Vrať zformátovaný string, který tvoří emailovou adresu.
    """
    return f"{prijmeni.lower()}@{domena}"

In [140]:
vytvor_email("holinka")

'holinka@gmail.com'

In [141]:
df_uzivatele['email'] = df_uzivatele['prijmeni'].apply(vytvor_email)

In [142]:
df_uzivatele.head()

Unnamed: 0,jmeno,age,vaha,vyska,prijmeni,BMI,email
0,Matouš,23,65,160,Holinka,25.4,holinka@gmail.com
1,Marek,25,70,170,Párek,24.2,párek@gmail.com
2,Lukáš,27,75,180,Holinka,23.1,holinka@gmail.com
3,Jan,29,80,190,Novák,22.2,novák@gmail.com


<br>

Pokud budeš potřebovat pracovat **s více sloupečky**:

In [143]:
def vytvor_email(radek: pandas.core.frame.Series, domena: str = "gmail.com") -> str:
    """
    Vrať zformátovaný string, který tvoří emailovou adresu.
    """
    return f"{radek.jmeno.lower()[0]}_{radek.prijmeni.lower()}@{domena}"

In [144]:
df_uzivatele['email_lepsi'] = df_uzivatele.apply(vytvor_email, axis=1)

In [145]:
df_uzivatele

Unnamed: 0,jmeno,age,vaha,vyska,prijmeni,BMI,email,email_lepsi
0,Matouš,23,65,160,Holinka,25.4,holinka@gmail.com,m_holinka@gmail.com
1,Marek,25,70,170,Párek,24.2,párek@gmail.com,m_párek@gmail.com
2,Lukáš,27,75,180,Holinka,23.1,holinka@gmail.com,l_holinka@gmail.com
3,Jan,29,80,190,Novák,22.2,novák@gmail.com,j_novák@gmail.com


<br>

Nepovinný argument `axis` v ohlášení říká, že chce aplikovat metodu **na řádkové hodnoty**.

In [None]:
df_uzivatele.apply?

In [None]:
df_uzivatele.head()

Tento způsob lze použít, pokud chceš vytvořit **nový sloupec** pomocí nějaké funkce na jednotlivé řádky nebo sloupce `DataFrame`.

### Odstraňování sloupečků

K odstranění sloupců z `DataFrame` objektu můžeš použít několik metod:
1. pythonovskou funkci `del`,
2. metodu `drop`,
3. metodu `pop`.

In [146]:
from pandas import DataFrame

In [147]:
df_uzivatele.head()

Unnamed: 0,jmeno,age,vaha,vyska,prijmeni,BMI,email,email_lepsi
0,Matouš,23,65,160,Holinka,25.4,holinka@gmail.com,m_holinka@gmail.com
1,Marek,25,70,170,Párek,24.2,párek@gmail.com,m_párek@gmail.com
2,Lukáš,27,75,180,Holinka,23.1,holinka@gmail.com,l_holinka@gmail.com
3,Jan,29,80,190,Novák,22.2,novák@gmail.com,j_novák@gmail.com


In [148]:
df_uzivatele.columns

Index(['jmeno', 'age', 'vaha', 'vyska', 'prijmeni', 'BMI', 'email',
       'email_lepsi'],
      dtype='object')

In [None]:
df_uzivatele.index

In [150]:
# df_uzivatele.drop?

In [151]:
df_uzivatele = df_uzivatele.drop('email', axis=1)

In [154]:
# df_uzivatele.drop?

In [156]:
df_uzivatele.head()

Unnamed: 0,jmeno,age,vaha,vyska,prijmeni
0,Matouš,23,65,160,Holinka
1,Marek,25,70,170,Párek
2,Lukáš,27,75,180,Holinka
3,Jan,29,80,190,Novák


In [155]:
df_uzivatele = df_uzivatele.drop(['BMI', 'email_lepsi'], axis=1)

<br>

**🧠 CVIČENÍ 🧠, zpracuj zadané body v úloze.**

Máš DataFrame `zamestnanci` s informacemi o zaměstnancích tvé firmy.

Potřebuješ následující:
1. **přidat sloupec** s názvem `plat_na_hodinu`, který bude vypočítán jako průměr platu zaměstnanců dělený počtem odpracovaných hodin.
2. Sloupec `plat_na_hodinu` zaokrouhli **na celé číslo**,
3. **přejmenuj sloupec** `jmeno` na `cele_jmeno`,
4. **vytvoř funkci** `preved_datum`, která změní formát data ve sloupci `datum_narozeni` z `YYYY-MM-DD` na `DD/MM/YYYY`,
5. **odstraň sloupec** `id`.

In [None]:
from datetime import datetime

In [157]:
import pandas as pd

In [158]:
zamestnanci = pd.DataFrame({'id': [1, 2, 3, 4],
                            'jmeno': ['Jan Novák', 'Petr Soukup', 'Marie Horáková', 'Jana Svobodová'],
                            'datum_narozeni': ['1990-05-15', '1985-12-10', '1992-07-25', '1988-03-20'],
                            'plat': [40_000, 45_000, 35_000, 50_000],
                            'odprac_hodiny': [160, 180, 150, 200]}
)

In [160]:
zamestnanci['datum_narozeni'] = pd.to_datetime(zamestnanci['datum_narozeni'])

In [167]:
zamestnanci['datum_narozeni'] = zamestnanci['datum_narozeni'].dt.strftime('%d/%m/%Y')

AttributeError: Can only use .dt accessor with datetimelike values

In [163]:
zamestnanci.head()

Unnamed: 0,id,jmeno,datum_narozeni,plat,odprac_hodiny
0,1,Jan Novák,15/05/1990,40000,160
1,2,Petr Soukup,10/12/1985,45000,180
2,3,Marie Horáková,25/07/1992,35000,150
3,4,Jana Svobodová,20/03/1988,50000,200


<details>
    <summary>▶️ Řešení</summary>
    
```python
zamestnanci['plat_na_hodinu'] = round(zamestnanci['plat'] / zamestnanci['odprac_hodiny'])

zamestnanci = zamestnanci.rename(columns={'jmeno': 'cele_jmeno'})


def preved_datum(datum_narozeni, vstupni_format='%Y-%m-%d', vystupni_format='%d/%m/%Y'):
    dt = datetime.strptime(datum_narozeni, vstupni_format)
    prevedene_datum = dt.strftime(vystupni_format)
    return prevedene_datum


# zamestnanci['datum_narozeni'] = pd.to_datetime(zamestnanci['datum_narozeni']).dt.strftime('%d/%m/%Y')  #  I. řešení
# zamestnanci['datum_narozeni'] = zamestnanci['datum_narozeni'].apply(preved_datum)                      # II. řešení

zamestnanci = zamestnanci.drop(columns=['id'])
```
    
</details>

<br>

## Kombinace datových setů

---


<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse1.mm.bing.net%2Fth%3Fid%3DOIP.APOjuHGvkM0wQaUx9ELKAgHaHa%26pid%3DApi&f=1&ipt=a8b2b692c40e190d4b28c164bf13e6c944702a69944035a4ef9053aa6ea1b190&ipo=images" width="160" style="margin-left:auto; margin-right:auto"/>

Takovými operacemi si můžeš představit jednoduché operace jako **spojování** (*konkatenace*) **dvou a více datasetů** až po složitější joiny podobně jako u databází.

`pandas` obsahuje různé *funkce* a *metody*, které umožňují tento způsob práce.

### Spojování s `concat`

---

Funkce concat() v pandas umožňuje spojit dva nebo více:
1. sloupečků,
2. tabulek.

*Spojení* můžeš provést:
1. **horizontálně**, po sloupcích,
2. **vertikálně**, po řádcích.

Použití funkce `concat()` spočívá v předání seznamu objektů, které chceš spojit, a parametru `axis`, který určuje osu, podle které se májí objekty spojit:

#### Spojení sloupečků

In [168]:
from pandas import concat, Series, DataFrame

In [169]:
sloupec_1 = Series(['A', 'B', 'C'], index=[1, 2, 3])
sloupec_2 = Series(['D', 'E', 'F'], index=[4, 5, 6])

In [170]:
sloupec_1

1    A
2    B
3    C
dtype: object

In [171]:
sloupec_2

4    D
5    E
6    F
dtype: object

In [172]:
spojene_sloupce = concat([sloupec_1, sloupec_2])

In [173]:
spojene_sloupce

1    A
2    B
3    C
4    D
5    E
6    F
dtype: object

#### Spojení tabulek

In [174]:
uzivatele_1 = {
    'jmeno': ['Matouš', 'Marek', 'Lukáš'],
    'vek': [25, 30, 35]
}

In [175]:
uzivatele_2 = {
    'jmeno': ['Petr', 'Jan', 'Michal'],
    'vek': [40, 45, 50]
}

In [176]:
df_uzivatele_1 = DataFrame(uzivatele_1)
df_uzivatele_2 = DataFrame(uzivatele_2)

In [179]:
df_spojene = concat([df_uzivatele_1, df_uzivatele_2], axis=0)

In [178]:
# help(concat)

In [181]:
df_spojene.head(6)

Unnamed: 0,jmeno,vek
0,Matouš,25
1,Marek,30
2,Lukáš,35
0,Petr,40
1,Jan,45
2,Michal,50


Tady se ovšem zduplikovali hodnoty některých indexů.

Ty je potřeba opravit tímto postupem:
1. **Vytvořím nový sloupeček** pro indexy,
2. **odstraním starý sloupeček** s duplicitami.

In [182]:
df_spojene = df_spojene.reset_index()

In [183]:
df_spojene.head()

Unnamed: 0,index,jmeno,vek
0,0,Matouš,25
1,1,Marek,30
2,2,Lukáš,35
3,0,Petr,40
4,1,Jan,45


In [184]:
df_spojene = df_spojene.drop("index", axis=1)

In [185]:
df_spojene

Unnamed: 0,jmeno,vek
0,Matouš,25
1,Marek,30
2,Lukáš,35
3,Petr,40
4,Jan,45
5,Michal,50


Pro odchytávání duplicitních indexů můžeš doplnit parametr `verify_integrity=True`, případně pokud je irelevantní, ignorovat jej úplně `ignore_index=True`.

### `concat` a volitelný argument `join`

---

V jednoduchých ukázkách, jako jsou ty výše, stačilo tabulky a sloupečky spojit.

To prakticky není vždy ideální řešení, protože některé sloupečky můžou, ale nemusí být shodné.

In [None]:
from pandas import DataFrame, concat

In [None]:
df_vzorek_1 = DataFrame({"A": ["A1", "A2"], "B": ["B1", "B2"], "C": ["C1", "C2"]}, index=[1, 2])

In [None]:
df_vzorek_2 = DataFrame({"B": ["B3", "B4"], "C": ["C3", "C4"], "D": ["D3", "D4"]}, index=[3, 4])

In [None]:
vystup = concat([df_vzorek_1, df_vzorek_2])

In [None]:
vystup

Pokud některá data chybějí, jsou automaticky vyplněná jako **neznámé hodnoty**.

Řešením takové situace můžeš být zavedení jiného způsobu spojování.

Tedy nepoužívat defaultní argument `join='outer'`, ale `join='inner'`:

In [None]:
vystup_bez_na = concat([df_vzorek_1, df_vzorek_2], join='inner')

In [None]:
vystup_bez_na

### Spojování pomocí metody `append`

---

Jde **o zastaralé řešení**, ale přesto se s ním můžeš setkat.

Jelikož je spojování natolik běžnou operací, vznikl ještě jeden způsob, který je dokonce stručnější jako `concat`.

Jde o metodu `append`:

In [None]:
df_vzorek_3 = DataFrame({"A": ["A1", "A2"], "B": ["B1", "B2"]}, index=[1, 2])

In [None]:
df_vzorek_4 = DataFrame({"A": ["A3", "A4"], "B": ["B3", "B4"]}, index=[3, 4])

In [None]:
df_vzorek_3.append(df_vzorek_4)

Tato metoda přitom neupravovala původní objekty (jako `append` a `extend` pro `list`), ale vytvořila nový objekt.

### Spojování pomocí `merge`

---

Další funkcí pro spojování `DataFrame` objektů je `merge`.

Tato funkce je vhodná pro spojování DataFrame objektů, které **mají společné sloupce**.

Můžeš lépe zadávat typ spojení (parametr `how='inner' | 'outer' | 'left' | 'join'`).

Dále ti umožní definovat sloupec, nebo sloupce, na kterých chceš spojení provést (parametr `on`).

In [186]:
from pandas import merge

In [188]:
uzivatele_1 = {
    'jmeno': ['Alice', 'Bob', 'Charlie', 'David'],
     'vek': [25, 30, 35, 40],
     'mesto': ['Brno', 'Praha', 'Plzen', 'Ostrava']
}

In [189]:
uzivatele_2 = {
    'jmeno': ['Alice', 'David', 'Emma', 'Frank'],
     'pocet_prijemcu': [100, 200, 150, 250]
}

In [190]:
df_uzivatele_1 = DataFrame(uzivatele_1)

In [191]:
df_uzivatele_2 = DataFrame(uzivatele_2)

In [192]:
df_uzivatele_1

Unnamed: 0,jmeno,vek,mesto
0,Alice,25,Brno
1,Bob,30,Praha
2,Charlie,35,Plzen
3,David,40,Ostrava


In [193]:
df_uzivatele_2

Unnamed: 0,jmeno,pocet_prijemcu
0,Alice,100
1,David,200
2,Emma,150
3,Frank,250


In [196]:
vystup = merge(df_uzivatele_1, df_uzivatele_2, on='jmeno', how='outer')

In [195]:
# merge?

In [197]:
vystup.head()

Unnamed: 0,jmeno,vek,mesto,pocet_prijemcu
0,Alice,25.0,Brno,100.0
1,Bob,30.0,Praha,
2,Charlie,35.0,Plzen,
3,David,40.0,Ostrava,200.0
4,Emma,,,150.0


Obecně platí, že pokud potřebuješ dva nebo více `DataFrame` objektů podle **společného sloupce nebo sloupců**, použij funkci `merge()`.

Pokud chceš jenom **přidat další řádky nebo sloupce** do existujícího `DataFrame` objektu, použij funkci `concat`.

In [198]:
df_uzivatele_1

Unnamed: 0,jmeno,vek,mesto
0,Alice,25,Brno
1,Bob,30,Praha
2,Charlie,35,Plzen
3,David,40,Ostrava


In [199]:
df_uzivatele_2

Unnamed: 0,jmeno,pocet_prijemcu
0,Alice,100
1,David,200
2,Emma,150
3,Frank,250


In [200]:
vystup_left_join = merge(df_uzivatele_1, df_uzivatele_2, on='jmeno', how='left')

In [201]:
vystup_left_join

Unnamed: 0,jmeno,vek,mesto,pocet_prijemcu
0,Alice,25,Brno,100.0
1,Bob,30,Praha,
2,Charlie,35,Plzen,
3,David,40,Ostrava,200.0


V ukázce výš je použitý *left join*.

Tedy ve výsledku uvidíš celou první (levou tabulku) a z druhé pouze ty záznamy, které mají ve spojovacím sloupci `jmeno` společnou hodnotu.

In [202]:
df8 = DataFrame({
    'jmeno': ['Bob', 'Jake', 'Lisa', 'Sue'],
    'poradi': [1, 2, 3, 4]
})

In [203]:
df9 = DataFrame({
    'jmeno': ['Bob', 'Jake', 'Lisa', 'Sue'],
    'poradi': [3, 1, 4, 2]
})

In [204]:
vystup_konflikt = merge(df8, df9, on="jmeno")

In [205]:
vystup_konflikt

Unnamed: 0,jmeno,poradi_x,poradi_y
0,Bob,1,3
1,Jake,2,1
2,Lisa,3,4
3,Sue,4,2


Funkce sama doplní přípony, aby rozlišila mezi oběma původními sloupci.

Pokud potřebuješ vlastní přípony, můžeš vyzkoušet volitelný argument pro `suffixes`:

In [206]:
vystup_vlastni_pripony = merge(df8, df9, on='jmeno', suffixes=('_levy', '_pravy'))

In [207]:
vystup_vlastni_pripony

Unnamed: 0,jmeno,poradi_levy,poradi_pravy
0,Bob,1,3
1,Jake,2,1
2,Lisa,3,4
3,Sue,4,2


### Spojení pomocí indexů, `join`

---

Tato metoda slouží k propojení dvou DataFrame objektů na základě jejich indexů nebo hodnot.

Je velice podobná funkci `merge` ale je přímo součástí `DataFrame` objektu a je snazší ji aplikovat:

In [None]:
uzivatele_1 = {
    'jmeno': ['Alice', 'Bob', 'Petr'],
     'vek': [25, 30, 35]
}

In [None]:
uzivatele_2 = {
    'jmeno': ['Alice', 'Bob', 'Petr'],
    'pocet_prijemcu': [100, 150, 200]
}

In [None]:
df_uzivatele_1 = DataFrame(uzivatele_1)

In [None]:
df_uzivatele_2 = DataFrame(uzivatele_2)

In [None]:
df_uzivatele_1 = df_uzivatele_1.set_index('jmeno')
df_uzivatele_2 = df_uzivatele_2.set_index('jmeno')

In [None]:
vysledek_join_metody = df_uzivatele_1.join(df_uzivatele_2)

In [None]:
vysledek_join_metody

Hlavní rozdíl mezi těmito funkcemi je způsob určení sloupce nebo sloupců, podle kterých se má propojení provést.

Metoda `join()` propojuje DataFrame objekty **na základě jejich indexů**, zatímco funkce `merge()` umožňuje propojit `DataFrame` objekty **na základě hodnoty v jednom nebo více sloupcích**.

<br>

**🧠 CVIČENÍ 🧠, procvič si spojování**

Máš dvě tabulky s informacemi o zákaznících tvé firmy.

Tabulky `zakaznici_objednavky` a `zakaznici_info`.

Tvým úkolem je propojit tyto tabulky podle zadání:
1. Použij funkci `merge()` k propojení obou tabulek podle společného klíče, kterým je sloupec `id_zakaznika`,
2. Použij funkci `concat()` k přidání sloupce `celkova_cena_objednavky`, který bude vypočítán jako součet ceny všech objednávek daného zákazníka,
3. Vyfiltruj pouze informace o zákaznících ze státu `'USA'` a ulož výslednou tabulku.

In [None]:
import pandas as pd

In [None]:
df_zakaznici_info = pd.DataFrame({'id_zakaznika': [1, 2, 3, 4],
                               'jmeno': ['Jan Novák', 'Petr Soukup', 'Marie Horáková', 'Jana Svobodová'],
                               'adresa': ['Hlavní 15', 'Druhá 10', 'Třetí 25', 'Čtvrtá 20'],
                               'mesto': ['Praha', 'Brno', 'Ostrava', 'New York'],
                               'stat': ['CZ', 'CZ', 'CZ', 'USA']})

In [None]:
df_zakaznici_objednavky = pd.DataFrame({'id_zakaznika': [1, 2, 3, 4, 1, 2],
                                     'datum_objednavky': ['2022-01-01', '2022-02-01', '2022-03-01', '2022-04-01', '2022-05-01', '2022-06-01'],
                                     'nazev_produktu': ['PC', 'Notebook', 'Monitor', 'Tiskarna', 'Myš', 'Klávesnice'],
                                     'cena': [15000, 20000, 5000, 3000, 500, 800]})

<details>
    <summary>▶️ Řešení</summary>
    
```python
spojene_tabulky = pd.merge(df_zakaznici_info, df_zakaznici_objednavky, on='id_zakaznika')

celkova_cena_objednavek = spojene_tabulky.groupby('id_zakaznika')['cena'].sum().reset_index()
celkova_cena_objednavek = celkova_cena_objednavek.rename(columns={'cena': 'celkova_cena_objednavky'})
spojene_tabulky = pd.concat([spojene_tabulky, celkova_cena_objednavek['celkova_cena_objednavky']], axis=1)

spojene_tabulky = spojene_tabulky[spojene_tabulky['stat'] == 'USA']
```

</details>

---