# Python Data, 2025

---

* [Úvod k pandám](#Úvod-k-pandám),
* [základní objekty](#Základní-datové-typy-frameworku),
    - [series](#Series),
    - [dataframe](#DataFrame),
    - [index](#Index).
* [načítání objektů](#Načítání-objektů),
    - [načti csv](#Načti-soubor-csv),
    - [načti html](#Načti-tabulku-html),
    - [načti data z SQL](#Načti-výstup-dotazu-do-tabulky) # todo: nachystat demo
* [prohlížení dat](#Prozkoumávání-dat),
    - [selekce u sloupečků](#Selekce-u-sloupečků),
    - [selekce u tabulek](#Selekce-u-tabulárních-hodnot),
    - [další metody prohlížení](#Metody-pro-nahlížení).
* [manipulace s daty](#Manipulace-se-sloupci),  # todo: druhá lekce
    - [přejmenování sloupců](#Přejmenování-sloupců),
    - [přidávání sloupců](#Přidávání-sloupců-do-DataFrame),
    - [odstraňování sloupců]().

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse1.mm.bing.net%2Fth%3Fid%3DOIP.BaZU6gIdwRYQHu4rBBoO-gHaIX%26pid%3DApi&f=1&ipt=1013c975daabd695fcd4ebfc2c0e0b8ba4f10c37780419d8ff56538ec7a7f9ea&ipo=images" width="200" style="margin-left:auto; margin-right:auto"/>

## Úvod k pandám

---



Jde o knihovnu, která staví na jednoduchých, přesto výkonných a intuitivních nástrojích.

Tyto prostředky umožňují manipulaci, analýzu a vizualizaci strukturovaných dat s tabulkovými a časovými daty.

Vezme data z různých zdrojů, načte je, zpracuje a zapíše (pozn. **zdroj v C**).


<br>

### Kde pandy najdu a jak vypadají?

---

- Odkaz na **oficiální repozitář** [této knihovny](https://github.com/pandas-dev/pandas),
- pokud budeš potřebovat více podrobností, mrkni na [oficiální dokumentaci](https://pandas.pydata.org/pandas-docs/stable/index.html),
- pypi.org, instalace knihovny,
- obecně vyhledávat online,
- AI.

<br>

In [None]:
import csv  # Built-in

In [None]:
import pandas

### Proč se ti bude hodit?

---

**Pandas** slouží pro analýzu dat.

Data jsou nejčastěji v SQL databázi, různých souborech, tabulkových procesech atd.

*Pandas* si představ jako Excel, ale s více funkcemi a hlavně možností automatizovat procesy.

<br>

### Jak nainstalovat knihovnu?

---

Instalace **poslední dostupné verze**:

In [None]:
!pip install pandas  # Možnost pracovat s jiným manažerem

<br>

Instalace **konkrétní vybrané verze**:

In [None]:
!pip install pandas==1.1.1

<br>

### Jak knihovnu spustit?

---

In [None]:
import pandas

In [None]:
pandas.__version__  # FutureWarning

<br>

Použití **aliasu**:

In [None]:
import pandas as pd

# from module_1 import read_data
# from module_2 import read_data as rd

In [None]:
from pandas import DataFrame

<br>

### Souhrn kapitoly
---

- knihovna je tedy *švýcarský nožík* pro práci **s tabelárními daty** a **časovými řadami**,
- jde o větší balíček, třetích stran (potřeba stáhnout & instalovat).

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse1.mm.bing.net%2Fth%3Fid%3DOIP.b2NCTuZRiG8yrmTCF7MogAHaHa%26pid%3DApi&f=1&ipt=f9e6a3811b3a707743134cfb19b2ee4f9c44584f5ea328582b227f14b94fcb1f&ipo=images" width="200" style="margin-left:auto; margin-right:auto"/>

## Základní datové typy

---

Knihovna nabízí řadu užitečných nástrojů.

Jde o *metody* a *funkce* nad rámec základních (zabudovaných) **datových struktur**.

Hlavní **tři struktury**, na kterých knihovna stojí jsou:
* `Index`
* `series`,
* `dataFrames`.

<img src="https://i.imgur.com/NNRgONl.png" width="1200" style="margin-left:auto; margin-right:auto"/>

- **Indexes**, je označení (nebo **identifikátor**) jednotlivých řádků, které slouží k jejich jednoznačné identifikaci a usnadňuje přístup k datům,
- **series**, je *sloupec*, **pole** hodnot s Indexem, tedy sloupeček tabulky nebo číslovaný seznam,
- **dataframes**, jde v podstatě o označení celé tabulky.

### Series

---

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse3.mm.bing.net%2Fth%3Fid%3DOIP.Yp6ZBv9C33_pDfZkJcKbJQHaHa%26pid%3DApi&f=1&ipt=546833b7ce370c5a62bea21079371efd1fa9547765d4eae8e6c9e41f6b25a3af&ipo=images" width="200" style="margin-left:auto; margin-right:auto"/>

Jde **o jednodimenzionální pole** (popř. sloupeček, řada).

Tento objekt má **indexované data** (jsi schopen data vybrat, uchopit).

Opět si jej můžeš představit jako sloupeček v obyčejných *Excelovských* tabulkách.

<br>

Na ukázku můžeš tyto sloupečky vytvořit třeba ze sekvencí:

In [1]:
import pandas as pd

In [2]:
mesta_sl = pd.Series(("Praha", "Brno", "Ostrava", "Hradek Králové"))

In [3]:
type(mesta_sl)

pandas.core.series.Series

In [4]:
mesta_sl

0             Praha
1              Brno
2           Ostrava
3    Hradek Králové
dtype: object

<br>

Jak můžeš vidět v ukázce výše, *sloupec* `Series` obsahuje **jak pořadí, tak hodnoty**.

In [5]:
mesta_sl.index

RangeIndex(start=0, stop=4, step=1)

In [6]:
mesta_sl.values

array(['Praha', 'Brno', 'Ostrava', 'Hradek Králové'], dtype=object)

<br>

Obecně vypadá jako nějaké pole, který má svůj nativní datový typ `object`.

<br>

Ačkoliv je `pandas` knihovna Pythonu, datové typy nemusí vždy odpovídat základním **datovým typům Pythonu**:

| Typy `pandas`| typy `Python`| Použití |
| :-: | :-: | :- |
| `object` | `str` nebo směska| text nebo namíchané číselné a nečíselné hodnoty |
| `int64` | `int`| celá čísla |
| `float64` | `float` | desetinná čísla |
| `bool` | `bool` | True a False |
| `datetime64` | `-`| Hodnota data a času |
| `timedelta` | `-` | Časové rozdíly |

<br>

Stejně jako pole nebo sekvence můžeš *indexovat* a *slicovat* hodnoty typu `Series`.

In [7]:
mesta_sl

0             Praha
1              Brno
2           Ostrava
3    Hradek Králové
dtype: object

#### Indexování sloupečku

---

In [None]:
mesta_sl[1]  

'Brno'

<br>

#### Slicing sloupečku

---

In [16]:
mesta_sl[0:3]

0      Praha
1       Brno
2    Ostrava
dtype: object

Na první pohled není tolik odlišný od datového typu `list` nebo `tuple` (případně pole v `numpy`).

Největší rozdíl spočítá právě v **indexu/Indexu**.

Ať `list`, `tuple` nebo `numpy.array` implicitně pracují **s celočíselným indexem**.

<br>

Objekt `Series` na druhou stranu nabízí možnost, zadávat vlastní indexové hodnoty:

In [19]:
mesta_sl = pd.Series(["Praha", "Brno", "Ostrava", "Hradek Králové"],
               index=["1_mesto", "2_mesto", "3_mesto", "4_mesto"])  # Tvoje specifické indexy

In [20]:
mesta_sl.index

Index(['1_mesto', '2_mesto', '3_mesto', '4_mesto'], dtype='object')

In [23]:
mesta_sl

1_mesto             Praha
2_mesto              Brno
3_mesto           Ostrava
4_mesto    Hradek Králové
dtype: object

In [24]:
mesta_sl["2_mesto"]

'Brno'

In [25]:
mesta_sl["1_mesto":"2_mesto"]

1_mesto    Praha
2_mesto     Brno
dtype: object

In [30]:
mesta_sl = pd.Series(["Praha", "Brno", "Ostrava", "Hradek Králové"],
               index=[5, 10, 15, 20])  # Tvoje specifické indexy

In [32]:
mesta_sl

5              Praha
10              Brno
15           Ostrava
20    Hradek Králové
dtype: object

In [31]:
mesta_sl[5]

'Praha'

In [None]:
mesta_sl[5:15]

Series([], dtype: object)

### Atributy `loc`, `iloc`

---
Právě protože je *indexování* a *slicing* v rámci `Series` matoucí, existují pomocné atributy.

<br>

#### iloc

---

Naopak atribut `iloc` je proces, který funguje výlučně na **indexování v rámci Pythonu** (pořadí, začíná nulou):


In [52]:
mesta_sl

5              Praha
10              Brno
15           Ostrava
20    Hradek Králové
dtype: object

In [40]:
mesta_sl.iloc[1]

'Brno'

<br>

Pokud provádíš *slicing* pomocí *indexů*, implicitně **vynecháš konečný index**:

In [53]:
mesta_sl.iloc[1:2]

10    Brno
dtype: object

#### loc

---

Právě tento atribut zaručí, že budeš vždy pracovat pomocí **explicitního zadání hodnoty Indexů**:

In [83]:
mesta_sl.loc[5]

'Praha'

In [56]:
mesta_sl.loc[15]

'Ostrava'

In [41]:
mesta_sl.loc[5:15]

5       Praha
10       Brno
15    Ostrava
dtype: object

Tento jednoduchý přístup potom vede **k častým chybám a nepochopením**.

Jde tedy o explicitní práci s Indexy knihovny `pandas`, ne indexy Pythonu:

In [86]:
jmena_sl = pd.Series(
    ["Matous", "Marek", "Lukas", "Jan"],
    index=[1, 2, 3, 4]
)

In [87]:
jmena_sl

1    Matous
2     Marek
3     Lukas
4       Jan
dtype: object

In [59]:
jmena_sl.loc[1]

'Matous'

In [60]:
jmena_sl.loc[:3]

1    Matous
2     Marek
3     Lukas
dtype: object

Všimni si, jak *Index* o hodnotě 3 je součástí výstupu (narozdíl od pythonovského indexu 3).

---

<br>

#### Pokročilé, type-specific
---
V případě `Series` jde o mapování **typovaných hodnot** na **typované klíče**. Právě pojem **typovaný** (~*type-specific*) je zásadní.

Právě *typovaný* zkompilovaný kód od `Series` nabízí některé efektivnější metody a funkce, které obyč. `dict` v Pythonu ne.

In [26]:
populace_evropa = {
    'Dansko': 5_655_750,
    'Ceska_republika': 10_513_209,
    'Nemecko': 80_716_000,
    'Polsko': 38_483_957,
    'Slovensko': 5_415_949,
    'Rakousko': 8_932_664
}

In [27]:
populace_evropa_sl = pd.Series(populace_evropa)

In [61]:
populace_evropa_sl

Dansko              5655750
Ceska_republika    10513209
Nemecko            80716000
Polsko             38483957
Slovensko           5415949
Rakousko            8932664
dtype: int64

<br>

Defaultně ti objekt `Series` nachystá index ze seřazených klíčů původního datového typu `dict`.

Můžeš provést klasické mapování hodnoty na jméno klíče:

In [62]:
populace_evropa_sl["Ceska_republika"]

np.int64(10513209)

K tomu, ale `Series` nabízí operace jako např. *slicing* pro pole:

In [63]:
populace_evropa_sl["Ceska_republika": "Polsko"]

Ceska_republika    10513209
Nemecko            80716000
Polsko             38483957
dtype: int64

<br>

**🧠 CVIČENÍ 🧠, přepočítej hodnoty ve sloupečku**

In [65]:
from typing import Dict

data: Dict[str, float] = {  # Data v milionech, převeď na jednotky
    "New York": 8.4,        # 8_400_000, (adv. int64)
    "London": 9.0,
    "Tokyo": 13.9,
    "Sydney": 5.3,
}

In [66]:
# Zapiš řešení
from pandas import Series

data_sl = pd.Series(data)

In [67]:
print(data_sl)

New York     8.4
London       9.0
Tokyo       13.9
Sydney       5.3
dtype: float64


In [68]:
def prepocitej_ciselne_hodnoty(data_mesta: Series) -> Series:
    return data_mesta * 1_000_000

In [69]:
prepocitej_ciselne_hodnoty(data_sl)

New York     8400000.0
London       9000000.0
Tokyo       13900000.0
Sydney       5300000.0
dtype: float64

<details>
    <summary>▶️ Řešení</summary>
    
```python
import pandas as pd

data = {
    "New York": 8.4,
    "London": 9.0,
    "Tokyo": 13.9,
    "Sydney": 5.3,
}


mesta_sl = pd.Series(data)


def preved_na_jednotky(series):
    return series * 1_000_000  # astype(int) -> celé číslo


prevedene = preved_na_jednotky(mesta_sl)
```
</details>

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse1.mm.bing.net%2Fth%3Fid%3DOIP._inpASbq98lGCmZFxPEq7wHaHa%26pid%3DApi&f=1&ipt=ecf1243da46e7ae6341330ae58bda2a6456c95f63a0cd79eda7d561cf3334a57&ipo=images" width="200" style="margin-left:auto; margin-right:auto"/>

<br>

### DataFrame

---


Dalším elementárním datovým typem této knihovny je `DataFrame`.

Analogicky si jej můžeš představit **jako tabulku** v Excelu.

Tedy objekt složený **z řádků** (Indexů) a **sloupců** (`Series`).

In [88]:
populace_evropa = {
    'Dansko': 5_655_750,
    'Ceska_republika': 10_513_209,
    'Nemecko': 80_716_000,
    'Polsko': 38_483_957,
    'Slovensko': 5_415_949,
    'Rakousko': 8_932_664
}

In [89]:
rozloha_evropa = {
    'Dansko': 42_916,
    'Ceska_republika': 78_870,
    'Nemecko': 357_168,
    'Polsko': 312_679,
    'Slovensko': 49_035,
    'Rakousko': 83_878
}

<br>

Nezapomeň nahrát potřebný objekt:

In [90]:
from pandas import DataFrame

In [91]:
zeme_evropa_df = DataFrame(  # Zdůraznit "df"
    {"Populace": populace_evropa,
     "Rozloha": rozloha_evropa}
)

In [92]:
zeme_evropa_df

Unnamed: 0,Populace,Rozloha
Dansko,5655750,42916
Ceska_republika,10513209,78870
Nemecko,80716000,357168
Polsko,38483957,312679
Slovensko,5415949,49035
Rakousko,8932664,83878


In [93]:
type(zeme_evropa_df)

pandas.core.frame.DataFrame

<br>

Stejně jako u `Series` má i `DataFrame` svoje *indexy*:

In [94]:
zeme_evropa_df.index

Index(['Dansko', 'Ceska_republika', 'Nemecko', 'Polsko', 'Slovensko',
       'Rakousko'],
      dtype='object')

<br>

Navíc můžeš pracovat s atributem `columns`, který drží jména **jednotlivých sloupečků**:

In [95]:
zeme_evropa_df.columns

Index(['Populace', 'Rozloha'], dtype='object')

In [96]:
zeme_evropa_df.values

array([[ 5655750,    42916],
       [10513209,    78870],
       [80716000,   357168],
       [38483957,   312679],
       [ 5415949,    49035],
       [ 8932664,    83878]])

Proto si můžeš objekt `DataFrame` představit také jako Pythonovský `dict`.

<br>

Ovšem s tím rozdílem, že tentokrát mapuješ jméno sloupečku na `Series`:

In [97]:
zeme_evropa_df["Populace"]

Dansko              5655750
Ceska_republika    10513209
Nemecko            80716000
Polsko             38483957
Slovensko           5415949
Rakousko            8932664
Name: Populace, dtype: int64

In [98]:
populace_sl = zeme_evropa_df["Populace"]

In [99]:
type(populace_sl)

pandas.core.series.Series

Opatrně při vytváření nového `DataFrame`, u chybějících klíčů implictině zapisuje `Nan` hodnotu (~*not a number*):

In [100]:
chybejici_hodnoty_df = DataFrame(
    [
        {"A": 1, "B": 4},
        {"C": 6, "B": 7}
    ]
)

In [101]:
chybejici_hodnoty_df

Unnamed: 0,A,B,C
0,1.0,4,
1,,7,6.0


Navíc si můžeš všimnout rozdílné definice **datového typu**:

In [102]:
chybejici_hodnoty_df.dtypes

A    float64
B      int64
C    float64
dtype: object

In [103]:
chybejici_hodnoty_df["A"]

0    1.0
1    NaN
Name: A, dtype: float64

In [104]:
konvertovany_sl_a = chybejici_hodnoty_df["A"].convert_dtypes()

In [105]:
konvertovany_sl_a

0       1
1    <NA>
Name: A, dtype: Int64

Více si o přetypování obecně a dozvíš později.

**🧠 CVIČENÍ 🧠, přidej nový sloupeček**

In [None]:
from typing import Dict

data: Dict[str, list] = {  # Zalidnění
    "Město": ["New York", "London", "Tokyo", "Sydney"],
    "Populace (v mio)": [8.4, 9.0, 13.9, 5.3],
    "Plocha (km²)": [783, 1572, 2194, 1687]
}

In [None]:
# Zápis
from pandas import DataFrame

data_df = DataFrame(data)

In [None]:
data_df

In [None]:
def vypocitej_zalidneni(data_df: DataFrame) -> DataFrame:
    data_df['Zalidnění (na km²)'] = \
        (data_df['Populace (v mio)'] * 1_000_000) / data_df['Plocha (km²)']

    return data_df

In [None]:
vypocitej_zalidneni(data_df)

<details>
    <summary>▶️ Řešení</summary>
    
```python
import pandas as pd

data = {
    "Město": ["New York", "London", "Tokyo", "Sydney"],
    "Populace (v mio)": [8.4, 9.0, 13.9, 5.3],
    "Plocha (km²)": [783, 1572, 2194, 1687],
}

mesta_df = pd.DataFrame(data)

def vypocitej_hustotu_zalidneni(df):
    """
    Přidejte nový sloupec 'Hustota zalidnění' (počet obyvatel na km²).
    """
    df["Hustota zalidnění (na km²)"] = (df["Populace (v mio)"] * 1_000_000 / df["Plocha (km²)"]).round().astype(int)
    return df

df = vypocitej_hustotu_zalidneni(mesta_df)
print(df)
```
</details>

<img src="https://imgs.search.brave.com/EQep67dP5UaJDlqkF2HvOQTESVA_LQSZx_SR7FE6JYM/rs:fit:500:0:0:0/g:ce/aHR0cHM6Ly9kMW5o/aW8wb3g3cGdiLmNs/b3VkZnJvbnQubmV0/L19pbWcvb19jb2xs/ZWN0aW9uX3BuZy9n/cmVlbl9kYXJrX2dy/ZXkvNTEyeDUxMi9w/bGFpbi90YWJsZV9z/ZWxlY3Rpb25fcm93/LnBuZw" width="200" style="margin-left:auto; margin-right:auto"/>

### Index

---


Posledním ze základních objektů frameworku `pandas` je tedy **Index** (velké "i").

Jak `Series`, tak `DataFrame` v sobě *Index* obsahují.

Pro jednoduchost, si jej můžeš představit jako označení jednotlivých řádků v tabulce.

In [106]:
from pandas import Index

In [107]:
indexy = Index([2, 3, 4, 5])

In [108]:
indexy

Index([2, 3, 4, 5], dtype='int64')

In [109]:
type(indexy)

pandas.core.indexes.base.Index

In [110]:
nove_indexy = Index(('radek_1', 'radek_2', 'radek_3'))

In [111]:
type(nove_indexy)

pandas.core.indexes.base.Index

<br>

#### indexování Indexů

---

In [112]:
indexy

Index([2, 3, 4, 5], dtype='int64')

In [113]:
indexy[2]

np.int64(4)

<br>

#### Slicování indexů

---

In [114]:
indexy[:3]

Index([2, 3, 4], dtype='int64')

<br>

#### Nezměnitelný objekt

---

In [115]:
indexy[2]

np.int64(4)

In [117]:
indexy[2] = 3  # --> TypeError

TypeError: Index does not support mutable operations

Tato nezměnitelnost slouží k větší bezpečnosti, protože jednotlivé indexy, může sdílet více `DataFrame`.

<br>

#### Index jako seřazený set

---

In [118]:
indexy_a = Index([1, 2, 3, 4])
indexy_b = Index([3, 4, 5, 6])

In [119]:
indexy_a.intersection(indexy_b)

Index([3, 4], dtype='int64')

In [120]:
indexy_a.union(indexy_b)

Index([1, 2, 3, 4, 5, 6], dtype='int64')

<br>

### Souhrn k základním typům

---

- **sloupečky**, jako pole, jednorozměrné, možnost selekce indexů i hodnot a jejich rozsahů,
- **indexy**, jako pole, nezměnitelné, možnost selekce jednoho řádků i rozsahu řádků,
- **tabulka**, vícerozměrné pole, výběr podle sloupců.


<img src="https://imgs.search.brave.com/CoDVQW6cpYcV0qJtUejA7WQat4mLN2AOxuK2hXwgGAo/rs:fit:500:0:0:0/g:ce/aHR0cHM6Ly9jZG4w/Lmljb25maW5kZXIu/Y29tL2RhdGEvaWNv/bnMvcm91bmQtdWkt/aWNvbnMvNTEyL2Fk/ZF9ibHVlLnBuZw" width="200" style="margin-left:auto; margin-right:auto"/>

<br>

## Načítání objektů

---

Vytvořit nový `DataFrame` je záležitost několika málo argumentů.

Není ovšem velmi časté, chystat data *z ničeho*.

Většinou potřebuješ právě nahrát různé **existující externí soubory**, do `DataFrame` objektů.

* `read_csv`,
* `read_excel`,
* `read_json`,
* `read_html`,
* `read_sql`,
* `read_parquet`,
* `read_sas`.

###  Načti soubor `csv`

---

Knihovna nabízí přímo specializovanou funkci `read_csv`.

Ta dovede načíst obsah souboru do nového `DataFrame`.

Pro první použití, případně pozdější rozšíření je vhodné, prozkoumat dokumentaci:

In [None]:
pd.read_csv?

[31mSignature:[39m
read_csv(
    filepath_or_buffer: [33m'FilePath | ReadCsvBuffer[bytes] | ReadCsvBuffer[str]'[39m,
    *,
    sep: [33m'str | None | lib.NoDefault'[39m = <no_default>,
    delimiter: [33m'str | None | lib.NoDefault'[39m = [38;5;28;01mNone[39;00m,
    header: [33m"int | Sequence[int] | None | Literal['infer']"[39m = [33m'infer'[39m,
    names: [33m'Sequence[Hashable] | None | lib.NoDefault'[39m = <no_default>,
    index_col: [33m'IndexLabel | Literal[False] | None'[39m = [38;5;28;01mNone[39;00m,
    usecols: [33m'UsecolsArgType'[39m = [38;5;28;01mNone[39;00m,
    dtype: [33m'DtypeArg | None'[39m = [38;5;28;01mNone[39;00m,
    engine: [33m'CSVEngine | None'[39m = [38;5;28;01mNone[39;00m,
    converters: [33m'Mapping[Hashable, Callable] | None'[39m = [38;5;28;01mNone[39;00m,
    true_values: [33m'list | None'[39m = [38;5;28;01mNone[39;00m,
    false_values: [33m'list | None'[39m = [38;5;28;01mNone[39;00m,
    skipinitialspace: 

<br>

Načteš jméno souboru se specifickou příponou `csv`:

In [125]:
zamestnanci_df = pd.read_csv('../onsite/customers_inp.csv')

<br>

Prozkoumej samotný soubor:

In [123]:
!cat ../onsite/customers_inp.csv

customer_id;first_name;last_name;phone;email
11;Matous;Holinka;`+420777666555;matous@matousholinka.com
12;Marek;Parek;`+420777434111;marek.parek@gmail.com
13;Petr;Svetr;`+420777333111;petr@svetr.com
14;Alice;Svobodova;`+420777200300;svobodova.a@email.cz
15;Tereza;Novakova;`+420777608080;novakova_terka@seznam.cz


<br>

Nyní se podívej jak vypadá nově vytvořený `DataFrame`:

In [126]:
type(zamestnanci_df)

pandas.core.frame.DataFrame

In [127]:
zamestnanci_df

Unnamed: 0,customer_id;first_name;last_name;phone;email
0,11;Matous;Holinka;`+420777666555;matous@matous...
1,12;Marek;Parek;`+420777434111;marek.parek@gmai...
2,13;Petr;Svetr;`+420777333111;petr@svetr.com
3,14;Alice;Svobodova;`+420777200300;svobodova.a@...
4,15;Tereza;Novakova;`+420777608080;novakova_ter...


Je potřeba pohlídat si (není řazené podle priorit):
* indexy,
* záhlaví,
* strukturu jednotlivých `Series`,
* datové typy.

<br>

Pokud nesedí **defaultní oddělovač** (*sep* nebo *delimiter*):

In [135]:
!cat ../onsite/customers_inp.csv

customer_id;first_name;last_name;phone;email
11;Matous;Holinka;+420777666555;matous@matousholinka.com
12;Marek;Parek;+420777434111;marek.parek@gmail.com
13;Petr;Svetr;+420777333111;petr@svetr.com
14;Alice;Svobodova;+420777200300;svobodova.a@email.cz
15;Tereza;Novakova;+420777608080;novakova_terka@seznam.cz


In [136]:
zamestnanci_strednik_df = pd.read_csv('../onsite/customers_inp.csv', sep=';')

In [137]:
zamestnanci_strednik_df

Unnamed: 0,customer_id,first_name,last_name,phone,email
0,11,Matous,Holinka,420777666555,matous@matousholinka.com
1,12,Marek,Parek,420777434111,marek.parek@gmail.com
2,13,Petr,Svetr,420777333111,petr@svetr.com
3,14,Alice,Svobodova,420777200300,svobodova.a@email.cz
4,15,Tereza,Novakova,420777608080,novakova_terka@seznam.cz


<br>

Můžeš zadat jiný než *defaultní* oddělovač:

In [138]:
zamestnanci_strednik_df['phone']

0    420777666555
1    420777434111
2    420777333111
3    420777200300
4    420777608080
Name: phone, dtype: int64

**Nevhodné datové typy** je také možné řešit při nové inicializaci `DataFrame`:

In [139]:
zamestnanci_strednik_df.dtypes

customer_id     int64
first_name     object
last_name      object
phone           int64
email          object
dtype: object

Pokud potřebuješ *vynutit* konverzi datového typu:

In [140]:
zamestnanci_bez_cisel_df = pd.read_csv(
    '../onsite/customers_inp.csv',
    sep=";",
    dtype={
        "customer_id": str,
        # "first_name": str,
        # "last_name": str,
        # "phone": str,
        # "email": str
    }
)

In [141]:
zamestnanci_bez_cisel_df.dtypes

customer_id    object
first_name     object
last_name      object
phone           int64
email          object
dtype: object

<br>

### Načti tabulku `html`

---

Funkce `read_html` často zastává některé kroky *web scrapování*.

Přesto je jejím učelem "pouze" extrahování dat v HTML `<table></table>` elementech.

Ukázka [zdroj](https://simple.wikipedia.org/wiki/List_of_U.S._states).

In [145]:
%run ../../shared/onsite/demo_read_html.py

  Flag, name and postal abbreviation [1]  \
  Flag, name and postal abbreviation [1]   
0                                Alabama   
1                                 Alaska   
2                                Arizona   
3                               Arkansas   
4                             California   
5                               Colorado   
6                            Connecticut   
7                               Delaware   
8                                Florida   
9                                Georgia   

                                                 Cities  \
  Flag, name and postal abbreviation [1].1      Capital   
0                                       AL   Montgomery   
1                                       AK       Juneau   
2                                       AZ      Phoenix   
3                                       AR  Little Rock   
4                                       CA   Sacramento   
5                                       CO       Denver   

<br>

**🧠 CVIČENÍ 🧠, načti vlastní CSV soubor**.

In [None]:
# Zápis
cesta_k_souboru: str = '../onsite/games.csv'

In [None]:
from pandas import read_csv

In [None]:
from pathlib import Path

if not Path(cesta_k_souboru).exists():
    print('Chybi soubor pro zpracovani')

hry_df = read_csv(cesta_k_souboru)

In [None]:
hry_df.head(2)

<details>
    <summary>▶️ Řešení</summary>
    
```python
import pandas as pd

muj_csv_soubor = 'toto/je/relativni/cesta.csv'

testovaci_data = pd.read_csv(muj_csv_soubor)
```
</details>

<br>

### Souhrn kapitoly

---

Typický postup, pro práci s pandami, je identifikovat a správně načíst datový zdroj.


<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse3.mm.bing.net%2Fth%3Fid%3DOIP.ACSOiM-U0Q1dA-4JLXwShAHaHx%26pid%3DApi&f=1&ipt=6d4afed7c3560452103fe53af2bd94638c28007aa3141700570a84c7fab7263a&ipo=images" width="200" style="margin-left:auto; margin-right:auto"/>



<br>

## Prozkoumávání dat

---

Jakmile máš data správně načtená a přetypovaná, můžeš s nimi začít pracovat.

Než se do toho vrhneš, není špatné, umět je prohlížet.

<br>

### Selekce u sloupečků

---

Kvůli jasnosti a přehlednosti je obecně výhodnější a doporučováné, pracovat s atributy `loc` a `iloc`.

In [146]:
jmena_sl.loc[:2]

1    Matous
2     Marek
dtype: object

<br>

### Selekce u tabelárních hodnot

---

Jelikož je `DataFrame` složený ze sloupečků, můžeš aplikovat některé postupy z uplynulé teorie.

* **slovníkový klíč**,
* **atributový přístup**,
* **slovníkový náhled**,
* `loc`, `iloc`, `ix`, `T`.

In [147]:
from pandas import DataFrame

In [148]:
populace_evropa = {
    'Dansko': 5_655_750,
    'Ceska_republika': 10_513_209,
    'Nemecko': 80_716_000,
    'Polsko': 38_483_957,
    'Slovensko': 5_415_949,
    'Rakousko': 8_932_664
}

In [149]:
rozloha_evropa = {
    'Dansko': 42_916,
    'Ceska_republika': 78_870,
    'Nemecko': 357_168,
    'Polsko': 312_679,
    'Slovensko': 49_035,
    'Rakousko': 83_878
}

In [150]:
zeme_evropa_df = DataFrame({"populace": populace_evropa, "rozloha": rozloha_evropa})

In [151]:
zeme_evropa_df

Unnamed: 0,populace,rozloha
Dansko,5655750,42916
Ceska_republika,10513209,78870
Nemecko,80716000,357168
Polsko,38483957,312679
Slovensko,5415949,49035
Rakousko,8932664,83878


<br>

#### Přístup pomocí klíčů

---

In [152]:
zeme_evropa_df["populace"]

Dansko              5655750
Ceska_republika    10513209
Nemecko            80716000
Polsko             38483957
Slovensko           5415949
Rakousko            8932664
Name: populace, dtype: int64

In [153]:
zeme_evropa_df["rozloha"]

Dansko              42916
Ceska_republika     78870
Nemecko            357168
Polsko             312679
Slovensko           49035
Rakousko            83878
Name: rozloha, dtype: int64

<br>

#### Přístup pomocí atributů

---

In [154]:
# bool(zeme_evropa_df["rozloha"] is zeme_evropa_df.rozloha)

In [155]:
zeme_evropa_df.populace

Dansko              5655750
Ceska_republika    10513209
Nemecko            80716000
Polsko             38483957
Slovensko           5415949
Rakousko            8932664
Name: populace, dtype: int64

In [156]:
zeme_evropa_df.rozloha

Dansko              42916
Ceska_republika     78870
Nemecko            357168
Polsko             312679
Slovensko           49035
Rakousko            83878
Name: rozloha, dtype: int64

In [157]:
zeme_evropa_df.rozloha > 100_000

Dansko             False
Ceska_republika    False
Nemecko             True
Polsko              True
Slovensko          False
Rakousko           False
Name: rozloha, dtype: bool

In [158]:
zeme_evropa_df[zeme_evropa_df.rozloha > 100_000]

Unnamed: 0,populace,rozloha
Nemecko,80716000,357168
Polsko,38483957,312679


In [159]:
zeme_evropa_df[zeme_evropa_df["rozloha"] > 100_000]

Unnamed: 0,populace,rozloha
Nemecko,80716000,357168
Polsko,38483957,312679


Opatrně, atributový přístup nelze aplikovat, pokud je jméno sloupečku shodné s některým **z rezerovaných výrazů**.

<br>

#### Slovníkový náhled

---

In [160]:
zeme_evropa_df.index

Index(['Dansko', 'Ceska_republika', 'Nemecko', 'Polsko', 'Slovensko',
       'Rakousko'],
      dtype='object')

In [161]:
zeme_evropa_df.columns

Index(['populace', 'rozloha'], dtype='object')

In [162]:
zeme_evropa_df.values

array([[ 5655750,    42916],
       [10513209,    78870],
       [80716000,   357168],
       [38483957,   312679],
       [ 5415949,    49035],
       [ 8932664,    83878]])

<br>

#### loc

---

Stejná pravidla jako pro `Series`, nicméne tentokrát můžeš vybírat buď jednotlivé Indexy, nebo pole Indexů:

In [163]:
zeme_evropa_df

Unnamed: 0,populace,rozloha
Dansko,5655750,42916
Ceska_republika,10513209,78870
Nemecko,80716000,357168
Polsko,38483957,312679
Slovensko,5415949,49035
Rakousko,8932664,83878


In [164]:
zeme_evropa_df.loc["Nemecko"]

populace    80716000
rozloha       357168
Name: Nemecko, dtype: int64

In [165]:
zeme_evropa_df.loc[:"Nemecko"]

Unnamed: 0,populace,rozloha
Dansko,5655750,42916
Ceska_republika,10513209,78870
Nemecko,80716000,357168


<br>

Dále můžeš vybírat kombinaci Indexů a sloupce nebo rozsah sloupců:

In [166]:
zeme_evropa_df.loc["Nemecko", "populace"]

np.int64(80716000)

In [167]:
zeme_evropa_df.loc[:"Nemecko", "populace"]

Dansko              5655750
Ceska_republika    10513209
Nemecko            80716000
Name: populace, dtype: int64

In [168]:
zeme_evropa_df.loc["Ceska_republika":"Nemecko", :"rozloha"]

Unnamed: 0,populace,rozloha
Ceska_republika,10513209,78870
Nemecko,80716000,357168


<br>

#### iloc

---

In [169]:
zeme_evropa_df.iloc[:3, 1]

Dansko              42916
Ceska_republika     78870
Nemecko            357168
Name: rozloha, dtype: int64

<br>

#### Transformace

---

In [170]:
zeme_evropa_df.T

Unnamed: 0,Dansko,Ceska_republika,Nemecko,Polsko,Slovensko,Rakousko
populace,5655750,10513209,80716000,38483957,5415949,8932664
rozloha,42916,78870,357168,312679,49035,83878


#### ix

---

Jde o atribut-hybrid, který kombinuje mixování stylů z `loc` a `iloc`.

Tento *legacy atribut* již neexistuje.

In [171]:
zeme_evropa_df.ix[:"Nemecko", :2]  # iloc + loc --> dnes AttributeError

AttributeError: 'DataFrame' object has no attribute 'ix'

<img src="https://imgs.search.brave.com/lQb3xLIlg9zkzNeOExyC9yipGtQiF1BrVKrC4BwqbF8/rs:fit:500:0:0:0/g:ce/aHR0cHM6Ly90NC5m/dGNkbi5uZXQvanBn/LzA1LzU0LzExLzY3/LzM2MF9GXzU1NDEx/Njc4Nl9DZGhSbWha/YWlaRjdvUVhVajYz/d2RTSzVjOGo5SXNL/bS5qcGc" width="250" style="margin-left:auto; margin-right:auto"/>

<br>

### Metody pro průzkumu dat a nahlížení

---

Následující metody ti ulehčí nahlížení a prozkoumávání dat.

Jsou to metody:
* `info()`,
* `describe()`,
* `head()`,
* `tail()`,

In [172]:
from pandas import DataFrame

In [173]:
populace_evropa = {
    'Dansko': 5_655_750,
    'Ceska_republika': 10_513_209,
    'Nemecko': 80_716_000,
    'Polsko': 38_483_957,
    'Slovensko': 5_415_949,
    'Rakousko': 8_932_664
}

In [174]:
rozloha_evropa = {
    'Dansko': 42_916,
    'Ceska_republika': 78_870,
    'Nemecko': 357_168,
    'Polsko': 312_679,
    'Slovensko': 49_035,
    'Rakousko': 83_878
}

In [175]:
zeme_evropa_df = DataFrame({"populace": populace_evropa, "rozloha": rozloha_evropa})

<br>

#### Metoda `info()`

---

Jde o obecnou informaci o DataFrame:

In [176]:
zeme_evropa_df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 6 entries, Dansko to Rakousko
Data columns (total 2 columns):
 #   Column    Non-Null Count  Dtype
---  ------    --------------  -----
 0   populace  6 non-null      int64
 1   rozloha   6 non-null      int64
dtypes: int64(2)
memory usage: 144.0+ bytes


Z výstupu potom přečteš:
* počet indexů,
* počet sloupců,
* počet neprázdných, nenulových hodnot,
* datové typy pro sloupce.

<br>

#### Metoda `describe()`

---

Tato metoda ti nepodává základní informaci o DataFrame, ale spíše **pracuje s číselnými sloupci**.


Poskytuje základní **statistické přehledy** jako:
* průměr,
* medián,
* minimální & maximální hodnota,
* rozptyl.

In [177]:
zeme_evropa_df['populace'].describe()

count    6.000000e+00
mean     2.495292e+07
std      3.003943e+07
min      5.415949e+06
25%      6.474978e+06
50%      9.722936e+06
75%      3.149127e+07
max      8.071600e+07
Name: populace, dtype: float64

<br>

#### Metody `head()` a `tail()`

---

Obě metody pracují jako náhledové metody. K lepšímu pohledu na konkrétní řádky.

1. `head`, prozkoumá **prvních pět řádků** (defaultně),
2. `tail`, prozkoumá **posledních pět řádků** (defaultně),

In [178]:
zeme_evropa_df.head(3)  # truncate, 

Unnamed: 0,populace,rozloha
Dansko,5655750,42916
Ceska_republika,10513209,78870
Nemecko,80716000,357168


In [179]:
zeme_evropa_df.tail(4)

Unnamed: 0,populace,rozloha
Nemecko,80716000,357168
Polsko,38483957,312679
Slovensko,5415949,49035
Rakousko,8932664,83878


In [180]:
pokusny_index_df = read_csv('../onsite/customers_inp.csv', sep=';', index_col='customer_id')

In [181]:
pokusny_index_df

Unnamed: 0_level_0,first_name,last_name,phone,email
customer_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
11,Matous,Holinka,420777666555,matous@matousholinka.com
12,Marek,Parek,420777434111,marek.parek@gmail.com
13,Petr,Svetr,420777333111,petr@svetr.com
14,Alice,Svobodova,420777200300,svobodova.a@email.cz
15,Tereza,Novakova,420777608080,novakova_terka@seznam.cz


<br>

**🧠 CVIČENÍ 🧠, diktát s pandama.**

**Nahraj zadaný soubor do proměnné `hry_df`**

<details>
    <summary>▶️ Řešení</summary>
    
```python
hry_df = read_csv("../onsite/lesson02/games.csv")
```
</details>

<br>

**Vytvoř proměnnou `jen_souhrn`, která obsahuje pouze sloupec `Summary`**

In [None]:
jen_souhrn

<details>
    <summary>▶️ Řešení</summary>
    
    ```
    souhrn = hry_df.Summary
    ```
</details>

<br>

**Vytvoř proměnnou `prvni_souhrn`, která obsahuje pouze první řádek ze sloupce `Summary`**

<details>
    <summary>▶️ Řešení</summary>
    
    ```
    prvni_radek = hry_df.Summary.iloc[0]
    ```
</details>

<br>

**Vytvoř proměnnou `prvni_radek_tab`, která obsahuje celý první záznam z tabulky, z `hry_df`**

<details>
    <summary>▶️ Řešení</summary>
    
    ```
    prvni_radek_tab = hry_df.iloc[0]
    ```
</details>

<br>

**Vytvoř proměnnou `prvnich_deset_souhrnu`, kam načti prvních deset řádků z vybraného sloupečku `Summary`**

<details>
    <summary>▶️ Řešení</summary>
    
    ```
    prvni_souhrny = hry_df.Summary.iloc[:10]
    ```
</details>

<br>

**Vytvoř proměnnou `vzorek_indexu`, kam načti záznamy z indexů **2, 4, 5, 6, 7** a **9** z celé tabulky**

<details>
    <summary>▶️ Řešení</summary>
    
    ```
    vzorek_indexu = hry_df.loc[[2, 4, 5, 6, 7, 9]]
    ```
</details>

<br>

**Vytvoř proměnnou `hodnoceni`, načti záznamy z indexů **1, 5, 10, 100, 1000** z celé tabulky a vyber pouze sloupečky `Title`, `Rating`, `Release Date`, `Number of Reviews`**

<details>
    <summary>▶️ Řešení</summary>
    
    ```
    hodnoceni = hry_df.loc[[1, 5, 10, 100, 1000], ["Title", "Rating", "Release Date", "Number of Reviews"]]
    ```
</details>

<br>

**Vytvoř proměnnou `prvnich_sto`, která obsahuje pouze sloupečky `Title`a `Rating`. Dále potřebuješ uložit pouze **prvních 100 indexů****

<details>
    <summary>▶️ Řešení</summary>
    
    ```
    prvnich_sto = hry_df.loc[:99, ["Title", "Rating"]]
    ```
</details>

<br>

**Vytvoř proměnnou `vyber`, která obsahuje dva sloupečky `Title` a `Rating`, kde ve sloupečku `rating` chceš získat pouze takové tituly, které mají hodnocení větší nebo rovnou `4.6`**

In [None]:
vyber

<details>
    <summary>▶️ Řešení</summary>
    
    ```
    vyber_her = hry_df[hry_df["Rating"] >= 4.6]
    ```

</details>

<br>

## Manipulace se sloupci

---


<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse4.mm.bing.net%2Fth%3Fid%3DOIP.tzaGc-M5pl0DP6pGu-H6WgHaHa%26pid%3DApi&f=1&ipt=39909793c49bf980b8dbceaabe312870e1446f58fba1e6b430630cfbddd2b9c4&ipo=images" width="200" style="margin-left:auto; margin-right:auto"/>



Jakmile se dovedeš zorientovat v datových strukturách knihovny `pandas`, můžeš začít upravovat jejich obsah:
1. **Přejmenovat** sloupce,
2. **vytvořit** nové sloupce,
3. **odstranit** existující sloupce.

### Přejmenování sloupců

---

Pokud budeš někdy zápasit se špatně pojmenovaným sloupcem nebo sloupci, přejmenuj je pomocí metody `rename`.

In [211]:
uzivatele: dict[str, list] = {
    'jmeno': ['Matouš', 'Marek', 'Lukáš', 'Jan'],
    'age': [23, 25, 27, 29],
    'vaha': [65, 70, 75, 80],
    'vyska': [160, 170, 180, 190]
}

In [212]:
uzivatele_df = pd.DataFrame(uzivatele)

In [213]:
uzivatele_df

Unnamed: 0,jmeno,age,vaha,vyska
0,Matouš,23,65,160
1,Marek,25,70,170
2,Lukáš,27,75,180
3,Jan,29,80,190


V ukázce výš tě omezuje **jazyková nekonzistence** mezi sloupečky.

Pomocí metody `rename` a argumentu `columns`, můžeš pomocí `dict` anotace vybrat, co a čím přejmenovat:

In [214]:
uzivatele_df.rename(columns={"age": "vek"})

Unnamed: 0,jmeno,vek,vaha,vyska
0,Matouš,23,65,160
1,Marek,25,70,170
2,Lukáš,27,75,180
3,Jan,29,80,190


Při další kontrole zjistíš, že **nové jméno sloupečku zmizelo**:

In [215]:
uzivatele_df

Unnamed: 0,jmeno,age,vaha,vyska
0,Matouš,23,65,160
1,Marek,25,70,170
2,Lukáš,27,75,180
3,Jan,29,80,190


<br>

Celou situaci můžeš řešit dvěma způsoby:
1. Volitelný argument `inplace`,
2. kopie původního `DataFrame` objektu.

In [None]:
prejmenovany_sloupec_df = uzivatele_df.rename(
    columns={"age": "vek"})

In [217]:
prejmenovany_sloupec_df

Unnamed: 0,jmeno,vek,vaha,vyska
0,Matouš,23,65,160
1,Marek,25,70,170
2,Lukáš,27,75,180
3,Jan,29,80,190


In [218]:
uzivatele_df

Unnamed: 0,jmeno,age,vaha,vyska
0,Matouš,23,65,160
1,Marek,25,70,170
2,Lukáš,27,75,180
3,Jan,29,80,190


In [219]:
uzivatele_df.rename(columns={"age": "vek"}, inplace=True)  # Za cenu rizika!

In [220]:
uzivatele_df

Unnamed: 0,jmeno,vek,vaha,vyska
0,Matouš,23,65,160
1,Marek,25,70,170
2,Lukáš,27,75,180
3,Jan,29,80,190


Opatrně na práci s argumentem `inplace`.

Jeho použití vždy důkladně zvaž, ať neztratíš zdrojová data.

<br>

Přejmenovat můžeš i **více sloupců** současně:

In [221]:
nova_jmena_sloupcu = {  # CZ > EN
    "jmeno": "first_name",
    "vek": "age",
    "vaha": "weight",
    "vyska": "height"
}

In [222]:
uzivatele_df.rename(columns=nova_jmena_sloupcu, inplace=True)

In [223]:
uzivatele_df

Unnamed: 0,first_name,age,weight,height
0,Matouš,23,65,160
1,Marek,25,70,170
2,Lukáš,27,75,180
3,Jan,29,80,190


### Přidávání sloupců do DataFrame

---

Potřebuješ doplnit další sloupec. Nebo upravit data v jednom sloupci a výsledek zapsat do dalšího.

Nejčastěji můžeš pracovat **na přidávání nových sloupců** těmito třemi způsoby:
1. **Slovníková anotace** pomocí klíče a hodnoty,
2. výsledek pomocí operace **mezi dvěma sloupci**,
3. pomocí metody `apply`.

#### Jako klíč a hodnota

Takový způsob použiješ, pokud máš nachystané hodnoty pro nový sloupec:

In [224]:
uzivatele_df

Unnamed: 0,first_name,age,weight,height
0,Matouš,23,65,160
1,Marek,25,70,170
2,Lukáš,27,75,180
3,Jan,29,80,190


In [225]:
uzivatele_df['surname'] = ("Holinka", "Párek", "Holinka", "Novák")

In [226]:
uzivatele_df

Unnamed: 0,first_name,age,weight,height,surname
0,Matouš,23,65,160,Holinka
1,Marek,25,70,170,Párek
2,Lukáš,27,75,180,Holinka
3,Jan,29,80,190,Novák


<br>

#### Kombinace existujících sloupců

---

Tento způsob lze použít, pokud chceš vytvořit nový sloupec pomocí operací mezi existujícími sloupci:

In [227]:
uzivatele_df["bmi"] = uzivatele_df["weight"] / (uzivatele_df["height"] / 100) ** 2

In [228]:
uzivatele_df

Unnamed: 0,first_name,age,weight,height,surname,bmi
0,Matouš,23,65,160,Holinka,25.390625
1,Marek,25,70,170,Párek,24.221453
2,Lukáš,27,75,180,Holinka,23.148148
3,Jan,29,80,190,Novák,22.160665


In [229]:
uzivatele_df = uzivatele_df.assign(city="Praha")

In [230]:
uzivatele_df

Unnamed: 0,first_name,age,weight,height,surname,bmi,city
0,Matouš,23,65,160,Holinka,25.390625,Praha
1,Marek,25,70,170,Párek,24.221453,Praha
2,Lukáš,27,75,180,Holinka,23.148148,Praha
3,Jan,29,80,190,Novák,22.160665,Praha


In [231]:
uzivatele_df.assign(
    vek_za_5_let=uzivatele_df["age"] + 5,
    mlady=uzivatele_df["age"] < 28
)

Unnamed: 0,first_name,age,weight,height,surname,bmi,city,vek_za_5_let,mlady
0,Matouš,23,65,160,Holinka,25.390625,Praha,28,True
1,Marek,25,70,170,Párek,24.221453,Praha,30,True
2,Lukáš,27,75,180,Holinka,23.148148,Praha,32,True
3,Jan,29,80,190,Novák,22.160665,Praha,34,False


In [232]:
uzivatele_df

Unnamed: 0,first_name,age,weight,height,surname,bmi,city
0,Matouš,23,65,160,Holinka,25.390625,Praha
1,Marek,25,70,170,Párek,24.221453,Praha
2,Lukáš,27,75,180,Holinka,23.148148,Praha
3,Jan,29,80,190,Novák,22.160665,Praha


#### Metoda `apply`

---

Pokud potřebuješ aplikovat uživ. funkci **pro stávající sloupec**, využiješ metodu `apply`:

In [233]:
uzivatele_df

Unnamed: 0,first_name,age,weight,height,surname,bmi,city
0,Matouš,23,65,160,Holinka,25.390625,Praha
1,Marek,25,70,170,Párek,24.221453,Praha
2,Lukáš,27,75,180,Holinka,23.148148,Praha
3,Jan,29,80,190,Novák,22.160665,Praha


In [234]:
def vytvor_email(prijmeni: str, domena: str = "gmail.com") -> str:
    """
    Vrať zformátovaný string, který tvoří emailovou adresu.
    """
    return f"{prijmeni.lower()}@{domena}"

In [235]:
vytvor_email(prijmeni='holinka')

'holinka@gmail.com'

In [237]:
uzivatele_df['email'] = uzivatele_df['surname'].apply(vytvor_email)

In [238]:
uzivatele_df

Unnamed: 0,first_name,age,weight,height,surname,bmi,city,email
0,Matouš,23,65,160,Holinka,25.390625,Praha,holinka@gmail.com
1,Marek,25,70,170,Párek,24.221453,Praha,párek@gmail.com
2,Lukáš,27,75,180,Holinka,23.148148,Praha,holinka@gmail.com
3,Jan,29,80,190,Novák,22.160665,Praha,novák@gmail.com


<br>

Pokud budeš potřebovat pracovat **s více sloupečky**:

In [247]:
from pandas import Series

def vytvor_novy_email(radek: Series, domena: str = "gmail.com") -> str:
    """
    Vrať zformátovaný string, který tvoří emailovou adresu.
    """
    return f"{radek['first_name'].lower()}.{radek['surname'].lower()}@{domena}"

In [248]:
jeden_uzivatel = pd.DataFrame({'first_name': ['Matous'], 'surname': ['Test']})
jeden_uzivatel

Unnamed: 0,first_name,surname
0,Matous,Test


In [249]:
jeden_uzivatel.iloc[0]

first_name    Matous
surname         Test
Name: 0, dtype: object

In [250]:
vytvor_novy_email(radek=jeden_uzivatel.iloc[0])

'matous.test@gmail.com'

In [251]:
uzivatele_df

Unnamed: 0,first_name,age,weight,height,surname,bmi,city,email
0,Matouš,23,65,160,Holinka,25.390625,Praha,holinka@gmail.com
1,Marek,25,70,170,Párek,24.221453,Praha,párek@gmail.com
2,Lukáš,27,75,180,Holinka,23.148148,Praha,holinka@gmail.com
3,Jan,29,80,190,Novák,22.160665,Praha,novák@gmail.com


In [252]:
uzivatele_df['dalsi_email'] = uzivatele_df.apply(vytvor_novy_email, axis=1)

In [None]:
uzivatele_df

Unnamed: 0,jmeno,vek,vaha,vyska,prijmeni,novy_email,dalsi_email
0,Matouš,23,65,160,Holinka,Matouš.Holinka@gmail.com,matouš.holinka@gmail.com
1,Marek,25,70,170,Párek,Marek.Párek@gmail.com,marek.párek@gmail.com
2,Lukáš,27,75,180,Holinka,Lukáš.Holinka@gmail.com,lukáš.holinka@gmail.com
3,Jan,29,80,190,Novák,Jan.Novák@gmail.com,jan.novák@gmail.com


<br>

Nepovinný argument `axis` v ohlášení říká, že chce aplikovat metodu **na řádkové hodnoty**.

In [255]:
uzivatele_df.apply?

[31mSignature:[39m
uzivatele_df.apply(
    func: [33m'AggFuncType'[39m,
    axis: [33m'Axis'[39m = [32m0[39m,
    raw: [33m'bool'[39m = [38;5;28;01mFalse[39;00m,
    result_type: [33m"Literal['expand', 'reduce', 'broadcast'] | None"[39m = [38;5;28;01mNone[39;00m,
    args=(),
    by_row: [33m"Literal[False, 'compat']"[39m = [33m'compat'[39m,
    engine: [33m"Literal['python', 'numba']"[39m = [33m'python'[39m,
    engine_kwargs: [33m'dict[str, bool] | None'[39m = [38;5;28;01mNone[39;00m,
    **kwargs,
)
[31mDocstring:[39m
Apply a function along an axis of the DataFrame.

Objects passed to the function are Series objects whose index is
either the DataFrame's index (``axis=0``) or the DataFrame's columns
(``axis=1``). By default (``result_type=None``), the final return type
is inferred from the return type of the applied function. Otherwise,
it depends on the `result_type` argument.

Parameters
----------
func : function
    Function to apply to each column o

In [256]:
uzivatele_df.head()

Unnamed: 0,first_name,age,weight,height,surname,bmi,city,email,dalsi_email
0,Matouš,23,65,160,Holinka,25.390625,Praha,holinka@gmail.com,matouš.holinka@gmail.com
1,Marek,25,70,170,Párek,24.221453,Praha,párek@gmail.com,marek.párek@gmail.com
2,Lukáš,27,75,180,Holinka,23.148148,Praha,holinka@gmail.com,lukáš.holinka@gmail.com
3,Jan,29,80,190,Novák,22.160665,Praha,novák@gmail.com,jan.novák@gmail.com


Tento způsob lze použít, pokud chceš vytvořit **nový sloupec** pomocí nějaké funkce na jednotlivé řádky nebo sloupce `DataFrame`.

<br>

### Odstraňování sloupečků

---

K odstranění sloupců z `DataFrame` objektu můžeš použít několik metod:
1. pythonovskou funkci `del`,
2. metodu `drop`,
3. metodu `pop`.

In [257]:
uzivatele_df

Unnamed: 0,first_name,age,weight,height,surname,bmi,city,email,dalsi_email
0,Matouš,23,65,160,Holinka,25.390625,Praha,holinka@gmail.com,matouš.holinka@gmail.com
1,Marek,25,70,170,Párek,24.221453,Praha,párek@gmail.com,marek.párek@gmail.com
2,Lukáš,27,75,180,Holinka,23.148148,Praha,holinka@gmail.com,lukáš.holinka@gmail.com
3,Jan,29,80,190,Novák,22.160665,Praha,novák@gmail.com,jan.novák@gmail.com


In [259]:
'dalsi_email' in uzivatele_df.columns

True

In [261]:
uzivatele_df.drop?

[31mSignature:[39m
uzivatele_df.drop(
    labels: [33m'IndexLabel | None'[39m = [38;5;28;01mNone[39;00m,
    *,
    axis: [33m'Axis'[39m = [32m0[39m,
    index: [33m'IndexLabel | None'[39m = [38;5;28;01mNone[39;00m,
    columns: [33m'IndexLabel | None'[39m = [38;5;28;01mNone[39;00m,
    level: [33m'Level | None'[39m = [38;5;28;01mNone[39;00m,
    inplace: [33m'bool'[39m = [38;5;28;01mFalse[39;00m,
    errors: [33m'IgnoreRaise'[39m = [33m'raise'[39m,
) -> [33m'DataFrame | None'[39m
[31mDocstring:[39m
Drop specified labels from rows or columns.

Remove rows or columns by specifying label names and corresponding
axis, or by directly specifying index or column names. When using a
multi-index, labels on different levels can be removed by specifying
the level. See the :ref:`user guide <advanced.shown_levels>`
for more information about the now unused levels.

Parameters
----------
labels : single label or list-like
    Index or column labels to drop. A tuple

In [266]:
uzivatele_df.drop('dalsi_email')

KeyError: "['dalsi_email'] not found in axis"

In [263]:
uzivatele_df.index

RangeIndex(start=0, stop=4, step=1)

In [265]:
uzivatele_df.drop('dalsi_email', axis=1)

Unnamed: 0,first_name,age,weight,height,surname,bmi,city,email
0,Matouš,23,65,160,Holinka,25.390625,Praha,holinka@gmail.com
1,Marek,25,70,170,Párek,24.221453,Praha,párek@gmail.com
2,Lukáš,27,75,180,Holinka,23.148148,Praha,holinka@gmail.com
3,Jan,29,80,190,Novák,22.160665,Praha,novák@gmail.com


In [267]:
uzivatele_df = uzivatele_df.drop('dalsi_email', axis=1)

In [268]:
uzivatele_df

Unnamed: 0,first_name,age,weight,height,surname,bmi,city,email
0,Matouš,23,65,160,Holinka,25.390625,Praha,holinka@gmail.com
1,Marek,25,70,170,Párek,24.221453,Praha,párek@gmail.com
2,Lukáš,27,75,180,Holinka,23.148148,Praha,holinka@gmail.com
3,Jan,29,80,190,Novák,22.160665,Praha,novák@gmail.com


<br>

**🧠 CVIČENÍ 🧠, zpracuj zadané body v úloze.**

Máš DataFrame `zamestnanci` s informacemi o zaměstnancích tvé firmy.

Potřebuješ následující:
1. **přidat sloupec** s názvem `plat_na_hodinu`, který bude vypočítán jako průměr platu zaměstnanců dělený počtem odpracovaných hodin.
2. Sloupec `plat_na_hodinu` zaokrouhli **na celé číslo**,
3. **přejmenuj sloupec** `jmeno` na `cele_jmeno`,
4. **vytvoř funkci** `preved_datum`, která změní formát data ve sloupci `datum_narozeni` z `YYYY-MM-DD` na `DD/MM/YYYY`,
5. **odstraň sloupec** `id`.

In [28]:
from datetime import datetime

import pandas as pd

In [30]:
zamestnanci_df = pd.DataFrame({'id': [1, 2, 3, 4],
                            'jmeno': ['Jan Novák', 'Petr Soukup', 'Marie Horáková', 'Jana Svobodová'],
                            'datum_narozeni': ['1990-05-15', '1985-12-10', '1992-07-25', '1988-03-20'],
                            'plat': [40_000, 45_000, 35_000, 50_000],
                            'odprac_hodiny': [160, 180, 150, 200]}
            )

In [31]:
zamestnanci_df

Unnamed: 0,id,jmeno,datum_narozeni,plat,odprac_hodiny
0,1,Jan Novák,1990-05-15,40000,160
1,2,Petr Soukup,1985-12-10,45000,180
2,3,Marie Horáková,1992-07-25,35000,150
3,4,Jana Svobodová,1988-03-20,50000,200


In [35]:
zamestnanci_df['plat_na_hodinu'] = round(zamestnanci_df['plat'] / zamestnanci_df['odprac_hodiny'], 0)

In [36]:
zamestnanci_df

Unnamed: 0,id,jmeno,datum_narozeni,plat,odprac_hodiny,plat_na_hodinu
0,1,Jan Novák,1990-05-15,40000,160,250.0
1,2,Petr Soukup,1985-12-10,45000,180,250.0
2,3,Marie Horáková,1992-07-25,35000,150,233.0
3,4,Jana Svobodová,1988-03-20,50000,200,250.0


In [37]:
novy_zamestnanci_df = zamestnanci_df.rename(columns={'jmeno': 'cele_jmeno'})

In [38]:
novy_zamestnanci_df

Unnamed: 0,id,cele_jmeno,datum_narozeni,plat,odprac_hodiny,plat_na_hodinu
0,1,Jan Novák,1990-05-15,40000,160,250.0
1,2,Petr Soukup,1985-12-10,45000,180,250.0
2,3,Marie Horáková,1992-07-25,35000,150,233.0
3,4,Jana Svobodová,1988-03-20,50000,200,250.0


In [40]:
# novy_zamestnanci_df.drop?

In [41]:
novy_zamestnanci_df.drop('id', axis=1)

Unnamed: 0,cele_jmeno,datum_narozeni,plat,odprac_hodiny,plat_na_hodinu
0,Jan Novák,1990-05-15,40000,160,250.0
1,Petr Soukup,1985-12-10,45000,180,250.0
2,Marie Horáková,1992-07-25,35000,150,233.0
3,Jana Svobodová,1988-03-20,50000,200,250.0


<details>
    <summary>▶️ Řešení</summary>
    
    ```python
    zamestnanci['plat_na_hodinu'] = round(zamestnanci['plat'] / zamestnanci['odprac_hodiny'])

    zamestnanci = zamestnanci.rename(columns={'jmeno': 'cele_jmeno'})


    def preved_datum(datum_narozeni, vstupni_format='%Y-%m-%d', vystupni_format='%d/%m/%Y'):
        dt = datetime.strptime(datum_narozeni, vstupni_format)
        prevedene_datum = dt.strftime(vystupni_format)
        return prevedene_datum


    # zamestnanci['datum_narozeni'] = pd.to_datetime(zamestnanci['datum_narozeni']).dt.strftime('%d/%m/%Y')  #  I. řešení
    # zamestnanci['datum_narozeni'] = zamestnanci['datum_narozeni'].apply(preved_datum)                      # II. řešení

    zamestnanci = zamestnanci.drop(columns=['id'])
    ```
</details>

---