# Python Data, 2024

---

* [Úvod k pandám](#Úvod-k-pandám),
* [základní objekty](#Základní-datové-typy-frameworku),
    - [series](#Series),
    - [dataframe](#DataFrame),
    - [index](#Index).
* [načítání objektů](#Načítání-objektů),
    - [načti csv](#Načti-soubor-csv),
    - [načti html](#Načti-tabulku-html),
    - [načti data z SQL](#Načti-výstup-dotazu-do-tabulky) # todo: nachystat demo
* [prohlížení dat](#Prozkoumávání-dat),
    - [selekce u sloupečků](#Selekce-u-sloupečků),
    - [selekce u tabulek](#Selekce-u-tabulárních-hodnot),
    - [další metody prohlížení](#Metody-pro-nahlížení).
* [manipulace s daty](#Manipulace-se-sloupci),  # todo: druhá lekce
    - [přejmenování sloupců](#Přejmenování-sloupců),
    - [přidávání sloupců](#Přidávání-sloupců-do-DataFrame),
    - [odstraňování sloupců]().

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse1.mm.bing.net%2Fth%3Fid%3DOIP.BaZU6gIdwRYQHu4rBBoO-gHaIX%26pid%3DApi&f=1&ipt=1013c975daabd695fcd4ebfc2c0e0b8ba4f10c37780419d8ff56538ec7a7f9ea&ipo=images" width="200" style="margin-left:auto; margin-right:auto"/>

## Úvod k pandám

---



Jde o knihovnu, která staví na jednoduchých, přesto výkonných a intuitivních nástrojích.

Tyto prostředky umožňují manipulaci, analýzu a vizualizaci strukturovaných dat s tabulkovými a časovými daty.

Vezme data z různých zdrojů, načte je, zpracuje a zapíše (pozn. **zdroj v C**).


<br>

### Kde pandy najdu a jak vypadají?

---

- Odkaz na **oficiální repozitář** [této knihovny](https://github.com/pandas-dev/pandas),
- pokud budeš potřebovat více podrobností, mrkni na [oficiální dokumentaci](https://pandas.pydata.org/pandas-docs/stable/index.html),
- pypi.org, instalace knihovny,
- obecně vyhledávat online,
- AI.

<br>

In [None]:
import csv  # Built-in

In [None]:
import pandas

### Proč se ti bude hodit?

---

**Pandas** slouží pro analýzu dat.

Data jsou nejčastěji v SQL databázi, různých souborech, tabulkových procesech atd.

*Pandas* si představ jako Excel, ale s více funkcemi a hlavně možností automatizovat procesy.

<br>

### Jak nainstalovat knihovnu?

---

Instalace **poslední dostupné verze**:

In [None]:
!pip install pandas  # Možnost pracovat s jiným manažerem

<br>

Instalace **konkrétní vybrané verze**:

In [None]:
!pip install pandas==1.1.1

<br>

### Jak knihovnu spustit?

---

In [None]:
import pandas

In [None]:
pandas.__version__  # FutureWarning

<br>

Použití **aliasu**:

In [None]:
import pandas as pd

# from module_1 import read_data
# from module_2 import read_data as rd

In [None]:
from pandas import DataFrame

<br>

### Souhrn kapitoly
---

- knihovna je tedy *švýcarský nožík* pro práci **s tabelárními daty** a **časovými řadami**,
- jde o větší balíček, třetích stran (potřeba stáhnout & instalovat).

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse1.mm.bing.net%2Fth%3Fid%3DOIP.b2NCTuZRiG8yrmTCF7MogAHaHa%26pid%3DApi&f=1&ipt=f9e6a3811b3a707743134cfb19b2ee4f9c44584f5ea328582b227f14b94fcb1f&ipo=images" width="200" style="margin-left:auto; margin-right:auto"/>

## Základní datové typy

---

Knihovna nabízí řadu užitečných nástrojů.

Jde o *metody* a *funkce* nad rámec základních (zabudovaných) **datových struktur**.

Hlavní **tři struktury**, na kterých knihovna stojí jsou:
* `Index`
* `series`,
* `dataFrames`.

<img src="https://i.imgur.com/NNRgONl.png" width="1200" style="margin-left:auto; margin-right:auto"/>

- **Indexes**, je označení (nebo **identifikátor**) jednotlivých řádků, které slouží k jejich jednoznačné identifikaci a usnadňuje přístup k datům,
- **series**, je *sloupec*, **pole** hodnot s Indexem, tedy sloupeček tabulky nebo číslovaný seznam,
- **dataframes**, jde v podstatě o označení celé tabulky.

### Series

---

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse3.mm.bing.net%2Fth%3Fid%3DOIP.Yp6ZBv9C33_pDfZkJcKbJQHaHa%26pid%3DApi&f=1&ipt=546833b7ce370c5a62bea21079371efd1fa9547765d4eae8e6c9e41f6b25a3af&ipo=images" width="200" style="margin-left:auto; margin-right:auto"/>

Jde **o jednodimenzionální pole** (popř. sloupeček, řada).

Tento objekt má **indexované data** (jsi schopen data vybrat, uchopit).

Opět si jej můžeš představit jako sloupeček v obyčejných *Excelovských* tabulkách.

<br>

Na ukázku můžeš tyto sloupečky vytvořit třeba ze sekvencí:

In [None]:
from pandas import Series

In [None]:
mesta_sl = Series(("Praha", "Brno", "Ostrava", "Hradek Králové"))

In [None]:
type(mesta_sl)

In [None]:
mesta_sl

<br>

Jak můžeš vidět v ukázce výše, *sloupec* `Series` obsahuje **jak pořadí, tak hodnoty**.

In [None]:
mesta_sl.index

In [None]:
mesta_sl.values

<br>

Obecně vypadá jako nějaké pole, který má svůj nativní datový typ `object`.

<br>

Ačkoliv je `pandas` knihovna Pythonu, datové typy nemusí vždy odpovídat základním **datovým typům Pythonu**:

| Typy `pandas`| typy `Python`| Použití |
| :-: | :-: | :- |
| `object` | `str` nebo směska| text nebo namíchané číselné a nečíselné hodnoty |
| `int64` | `int`| celá čísla |
| `float64` | `float` | desetinná čísla |
| `bool` | `bool` | True a False |
| `datetime64` | `-`| Hodnota data a času |
| `timedelta` | `-` | Časové rozdíly |

<br>

Stejně jako pole nebo sekvence můžeš *indexovat* a *slicovat* hodnoty typu `Series`.

In [None]:
mesta_sl

#### Indexování sloupečku

---

In [None]:
mesta_sl[1]  # s Indexem sloupečku

<br>

#### Slicing sloupečku

---

In [None]:
mesta_sl[0:3]

Na první pohled není tolik odlišný od datového typu `list` nebo `tuple` (případně pole v `numpy`).

Největší rozdíl spočítá právě v **indexu/Indexu**.

Ať `list`, `tuple` nebo `numpy.array` implicitně pracují **s celočíselným indexem**.

<br>

Objekt `Series` na druhou stranu nabízí možnost, zadávat vlastní indexové hodnoty:

In [None]:
mesta_sl = Series(["Praha", "Brno", "Ostrava", "Hradek Králové"],
                  index=["1_mesto", "2_mesto", "3_mesto", "4_mesto"])  # Tvoje specifické indexy

In [None]:
mesta_sl.index

In [None]:
mesta_sl

In [None]:
mesta_sl["2_mesto"]

Tímto způsobem si můžeš představit řadu, sloupec (`Series`) jako variantu datového typu `dict`, v Pythonu.

Víš, že ve slovníku Pythonu jsou hodnoty *mapované* na jednotlivé klíče.

<br>

#### Pokročilé, type-specific
---
V případě `Series` jde o mapování **typovaných hodnot** na **typované klíče**. Právě pojem **typovaný** (~*type-specific*) je zásadní.

Právě *typovaný* zkompilovaný kód od `Series` nabízí některé efektivnější metody a funkce, které obyč. `dict` v Pythonu ne.

In [None]:
populace_evropa = {
    'Dansko': 5_655_750,
    'Ceska_republika': 10_513_209,
    'Nemecko': 80_716_000,
    'Polsko': 38_483_957,
    'Slovensko': 5_415_949,
    'Rakousko': 8_932_664
}

In [None]:
populace_evropa_sl = Series(populace_evropa)

In [None]:
populace_evropa_sl

<br>

Defaultně ti objekt `Series` nachystá index ze seřazených klíčů původního datového typu `dict`.

Můžeš provést klasické mapování hodnoty na jméno klíče:

In [None]:
populace_evropa_sl["Ceska_republika"]

K tomu, ale `Series` nabízí operace jako např. *slicing* pro pole:

In [None]:
populace_evropa_sl["Ceska_republika": "Polsko"]

<br>

**🧠 CVIČENÍ 🧠, přepočítej hodnoty ve sloupečku**

In [None]:
from typing import Dict

data: Dict[str, float] = {  # Data v milionech, převeď na jednotky
    "New York": 8.4,        # 8_400_000, (adv. int64)
    "London": 9.0,
    "Tokyo": 13.9,
    "Sydney": 5.3,
}

In [None]:
# Zapiš řešení
from pandas import Series

data_sl = Series(data)

In [None]:
print(data_sl)

In [None]:
def prepocitej_ciselne_hodnoty(data_mesta: Series) -> Series:
    return data_mesta * 1_000_000

In [None]:
prepocitej_ciselne_hodnoty(data_sl)

<details>
    <summary>▶️ Řešení</summary>
    
```python
import pandas as pd

data = {
    "New York": 8.4,
    "London": 9.0,
    "Tokyo": 13.9,
    "Sydney": 5.3,
}


mesta_sl = pd.Series(data)


def preved_na_jednotky(series):
    return series * 1_000_000  # astype(int) -> celé číslo


prevedene = preved_na_jednotky(mesta_sl)
```
</details>

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse1.mm.bing.net%2Fth%3Fid%3DOIP._inpASbq98lGCmZFxPEq7wHaHa%26pid%3DApi&f=1&ipt=ecf1243da46e7ae6341330ae58bda2a6456c95f63a0cd79eda7d561cf3334a57&ipo=images" width="200" style="margin-left:auto; margin-right:auto"/>

<br>

### DataFrame

---


Dalším elementárním datovým typem této knihovny je `DataFrame`.

Analogicky si jej můžeš představit **jako tabulku** v Excelu.

Tedy objekt složený **z řádků** (Indexů) a **sloupců** (`Series`).

In [None]:
populace_evropa = {
    'Dansko': 5_655_750,
    'Ceska_republika': 10_513_209,
    'Nemecko': 80_716_000,
    'Polsko': 38_483_957,
    'Slovensko': 5_415_949,
    'Rakousko': 8_932_664
}

In [None]:
rozloha_evropa = {
    'Dansko': 42_916,
    'Ceska_republika': 78_870,
    'Nemecko': 357_168,
    'Polsko': 312_679,
    'Slovensko': 49_035,
    'Rakousko': 83_878
}

<br>

Nezapomeň nahrát potřebný objekt:

In [None]:
from pandas import DataFrame

In [None]:
zeme_evropa_df = DataFrame(  # Zdůraznit "df"
    {"Populace": populace_evropa,
     "Rozloha": rozloha_evropa}
)

In [None]:
zeme_evropa_df

In [None]:
type(zeme_evropa_df)

<br>

Stejně jako u `Series` má i `DataFrame` svoje *indexy*:

In [None]:
zeme_evropa_df.index

<br>

Navíc můžeš pracovat s atributem `columns`, který drží jména **jednotlivých sloupečků**:

In [None]:
zeme_evropa_df.columns

In [None]:
zeme_evropa_df.values

Proto si můžeš objekt `DataFrame` představit také jako Pythonovský `dict`.

<br>

Ovšem s tím rozdílem, že tentokrát mapuješ jméno sloupečku na `Series`:

In [None]:
zeme_evropa_df["Populace"]

In [None]:
populace_sl = zeme_evropa_df["Populace"]

In [None]:
type(populace_sl)

Opatrně při vytváření nového `DataFrame`, u chybějících klíčů implictině zapisuje `Nan` hodnotu (~*not a number*):

In [None]:
chybejici_hodnoty_df = DataFrame(
    [
        {"A": 1, "B": 4},
        {"C": 6, "B": 7}
    ]
)

In [None]:
chybejici_hodnoty_df

Navíc si můžeš všimnout rozdílné definice **datového typu**:

In [None]:
chybejici_hodnoty_df.dtypes

In [None]:
chybejici_hodnoty_df["A"]

In [None]:
konvertovany_sl_a = chybejici_hodnoty_df["A"].convert_dtypes()

In [None]:
konvertovany_sl_a

Více si o přetypování obecně a dozvíš později.

**🧠 CVIČENÍ 🧠, přidej nový sloupeček**

In [None]:
from typing import Dict

data: Dict[str, list] = {  # Zalidnění
    "Město": ["New York", "London", "Tokyo", "Sydney"],
    "Populace (v mio)": [8.4, 9.0, 13.9, 5.3],
    "Plocha (km²)": [783, 1572, 2194, 1687]
}

In [None]:
# Zápis
from pandas import DataFrame

data_df = DataFrame(data)

In [None]:
data_df

In [None]:
def vypocitej_zalidneni(data_df: DataFrame) -> DataFrame:
    data_df['Zalidnění (na km²)'] = \
        (data_df['Populace (v mio)'] * 1_000_000) / data_df['Plocha (km²)']

    return data_df

In [None]:
vypocitej_zalidneni(data_df)

<details>
    <summary>▶️ Řešení</summary>
    
```python
import pandas as pd

data = {
    "Město": ["New York", "London", "Tokyo", "Sydney"],
    "Populace (v mio)": [8.4, 9.0, 13.9, 5.3],
    "Plocha (km²)": [783, 1572, 2194, 1687],
}

mesta_df = pd.DataFrame(data)

def vypocitej_hustotu_zalidneni(df):
    """
    Přidejte nový sloupec 'Hustota zalidnění' (počet obyvatel na km²).
    """
    df["Hustota zalidnění (na km²)"] = (df["Populace (v mio)"] * 1_000_000 / df["Plocha (km²)"]).round().astype(int)
    return df

df = vypocitej_hustotu_zalidneni(mesta_df)
print(df)
```
</details>

<img src="https://imgs.search.brave.com/EQep67dP5UaJDlqkF2HvOQTESVA_LQSZx_SR7FE6JYM/rs:fit:500:0:0:0/g:ce/aHR0cHM6Ly9kMW5o/aW8wb3g3cGdiLmNs/b3VkZnJvbnQubmV0/L19pbWcvb19jb2xs/ZWN0aW9uX3BuZy9n/cmVlbl9kYXJrX2dy/ZXkvNTEyeDUxMi9w/bGFpbi90YWJsZV9z/ZWxlY3Rpb25fcm93/LnBuZw" width="200" style="margin-left:auto; margin-right:auto"/>

### Index

---


Posledním ze základních objektů frameworku `pandas` je tedy **Index** (velké "i").

Jak `Series`, tak `DataFrame` v sobě *Index* obsahují.

Pro jednoduchost, si jej můžeš představit jako označení jednotlivých řádků v tabulce.

In [None]:
from pandas import Index

In [None]:
indexy = Index([2, 3, 4, 5])

In [None]:
indexy

In [None]:
type(indexy)

In [None]:
nove_indexy = Index(('radek_1', 'radek_2', 'radek_3'))

In [None]:
type(nove_indexy)

<br>

#### indexování Indexů

---

In [None]:
indexy

In [None]:
indexy[2]

<br>

#### Slicování indexů

---

In [None]:
indexy[:3]

<br>

#### Nezměnitelný objekt

---

In [None]:
indexy[2]

In [None]:
# indexy[2] = 3  # --> TypeError

Tato nezměnitelnost slouží k větší bezpečnosti, protože jednotlivé indexy, může sdílet více `DataFrame`.

<br>

#### Index jako seřazený set

---

In [None]:
indexy_a = Index([1, 2, 3, 4])
indexy_b = Index([3, 4, 5, 6])

In [None]:
indexy_a.intersection(indexy_b)

In [None]:
indexy_a.union(indexy_b)

<br>

### Souhrn k základním typům

---

- **sloupečky**, jako pole, jednorozměrné, možnost selekce indexů i hodnot a jejich rozsahů,
- **indexy**, jako pole, nezměnitelné, možnost selekce jednoho řádků i rozsahu řádků,
- **tabulka**, vícerozměrné pole, výběr podle sloupců.


<img src="https://imgs.search.brave.com/CoDVQW6cpYcV0qJtUejA7WQat4mLN2AOxuK2hXwgGAo/rs:fit:500:0:0:0/g:ce/aHR0cHM6Ly9jZG4w/Lmljb25maW5kZXIu/Y29tL2RhdGEvaWNv/bnMvcm91bmQtdWkt/aWNvbnMvNTEyL2Fk/ZF9ibHVlLnBuZw" width="200" style="margin-left:auto; margin-right:auto"/>

<br>

## Načítání objektů

---

Vytvořit nový `DataFrame` je záležitost několika málo argumentů.

Není ovšem velmi časté, chystat data *z ničeho*.

Většinou potřebuješ právě nahrát různé **existující externí soubory**, do `DataFrame` objektů.

* `read_csv`,
* `read_excel`,
* `read_json`,
* `read_html`,
* `read_sql`,
* `read_parquet`,
* `read_sas`.

###  Načti soubor `csv`

---

Knihovna nabízí přímo specializovanou funkci `read_csv`.

Ta dovede načíst obsah souboru do nového `DataFrame`.

Pro první použití, případně pozdější rozšíření je vhodné, prozkoumat dokumentaci:

In [None]:
from pandas import read_csv

In [None]:
# read_csv?

<br>

Načteš jméno souboru se specifickou příponou `csv`:

In [None]:
zamestnanci_df = read_csv('../onsite/customers_inp.csv')

<br>

Prozkoumej samotný soubor:

In [None]:
!cat ../onsite/customers_inp.csv

<br>

Nyní se podívej jak vypadá nově vytvořený `DataFrame`:

In [None]:
type(zamestnanci_df)

In [None]:
zamestnanci_df

Je potřeba pohlídat si (není řazené podle priorit):
* indexy,
* záhlaví,
* strukturu jednotlivých `Series`,
* datové typy.

<br>

Pokud nesedí **defaultní oddělovač** (*sep* nebo *delimiter*):

In [None]:
!sed -i s"/,/;/g" ../onsite/customers_inp.csv

In [None]:
!cat ../onsite/customers_inp.csv

In [None]:
zamestnanci_strednik_df = read_csv('../onsite/customers_inp.csv', sep=';')

In [None]:
zamestnanci_strednik_df

<br>

Můžeš zadat jiný než *defaultní* oddělovač:

In [None]:
zamestnanci_strednik_df['phone']

**Nevhodné datové typy** je také možné řešit při nové inicializaci `DataFrame`:

In [None]:
zamestnanci_strednik_df.dtypes

Pokud potřebuješ *vynutit* konverzi datového typu:

In [None]:
zamestnanci_bez_cisel_df = read_csv(
    '../onsite/customers_inp.csv',
    sep=";",
    dtype={
        "customer_id": str,
        # "first_name": str,
        # "last_name": str,
        # "phone": str,
        # "email": str
    }
)

In [None]:
zamestnanci_bez_cisel_df.dtypes

<br>

### Načti tabulku `html`

---

Funkce `read_html` často zastává některé kroky *web scrapování*.

Přesto je jejím učelem "pouze" extrahování dat v HTML `<table></table>` elementech.

Ukázka [zdroj](https://simple.wikipedia.org/wiki/List_of_U.S._states).

In [None]:
%run ../../shared/onsite/demo_read_html.py

<br>

**🧠 CVIČENÍ 🧠, načti vlastní CSV soubor**.

In [None]:
# Zápis
cesta_k_souboru: str = '../onsite/games.csv'

In [None]:
from pandas import read_csv

In [None]:
from pathlib import Path

if not Path(cesta_k_souboru).exists():
    print('Chybi soubor pro zpracovani')

hry_df = read_csv(cesta_k_souboru)

In [None]:
hry_df.head(2)

<details>
    <summary>▶️ Řešení</summary>
    
```python
import pandas as pd

muj_csv_soubor = 'toto/je/relativni/cesta.csv'

testovaci_data = pd.read_csv(muj_csv_soubor)
```
</details>

<br>

### Souhrn kapitoly

---

Typický postup, pro práci s pandami, je identifikovat a správně načíst datový zdroj.


<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse3.mm.bing.net%2Fth%3Fid%3DOIP.ACSOiM-U0Q1dA-4JLXwShAHaHx%26pid%3DApi&f=1&ipt=6d4afed7c3560452103fe53af2bd94638c28007aa3141700570a84c7fab7263a&ipo=images" width="200" style="margin-left:auto; margin-right:auto"/>



<br>

## Prozkoumávání dat

---

Jakmile máš data správně načtená a přetypovaná, můžeš s nimi začít pracovat.

Než se do toho vrhneš, není špatné, umět je prohlížet.

<br>

### Selekce u sloupečků

---

In [None]:
from pandas import Series

In [None]:
vek_sl = Series(
    [26, 36, 46, 56],
    index=['Petr', 'Pavel', 'Jiri', 'Tomas'] # ??? , 'Jarek', 'Tomas'; , 66, 76
)

<br>

Pro vytvořený sloupeček:

In [None]:
vek_sl

<br>

Pokud provádíš *slicing* pomocí *indexů*, implicitně **vynecháš konečný index**:

In [None]:
vek_sl[0:3]

<br>

Pokud ovšem zadáváš přímo hodnotu *Indexu*, potom vybíráš hodnoty **včetně konečného Indexu**:

In [None]:
vek_sl["Petr": "Jiri"]

Tento jednoduchý přístup potom vede **k častým chybám a nepochopením**.

### Atributy `loc`, `iloc`

---

Právě protože je *indexování* a *slicing* v rámci `Series` matoucí, existují pomocné atributy.

<br>

#### loc

---

Právě tento atribut zaručí, že budeš vždy pracovat pomocí **explicitního zadání hodnoty Indexů**:

In [None]:
vek_sl

In [None]:
vek_sl.loc["Petr": "Pavel"]

<br>

Jde tedy o explicitní práci s Indexy knihovny `pandas`, ne indexy Pythonu:

In [None]:
jmena_sl = Series(
    ["Matous", "Marek", "Lukas", "Jan"],
    index=[1, 2, 3, 4]
)

In [None]:
jmena_sl

In [None]:
jmena_sl.loc[1]

In [None]:
jmena_sl.loc[:3]

Všimni si, jak *Index* o hodnotě 3 je součástí výstupu (narozdíl od pythonovského indexu 3).

<br>

#### iloc

---

Naopak atribut `iloc` je proces, který funguje výlučně na **indexování v rámci Pythonu** (pořadí, začíná nulou):

In [None]:
jmena_sl

In [None]:
jmena_sl.iloc[1]

In [None]:
jmena_sl.loc[1]

In [None]:
jmena_sl.iloc[:2]

Kvůli jasnosti a přehlednosti je obecně výhodnější a doporučováné, pracovat s atributy `loc` a `iloc`.

In [None]:
jmena_sl.loc[:2]

<br>

### Selekce u tabelárních hodnot

---

Jelikož je `DataFrame` složený ze sloupečků, můžeš aplikovat některé postupy z uplynulé teorie.

* **slovníkový klíč**,
* **atributový přístup**,
* **slovníkový náhled**,
* `loc`, `iloc`, `ix`, `T`.

In [None]:
from pandas import DataFrame

In [None]:
populace_evropa = {
    'Dansko': 5_655_750,
    'Ceska_republika': 10_513_209,
    'Nemecko': 80_716_000,
    'Polsko': 38_483_957,
    'Slovensko': 5_415_949,
    'Rakousko': 8_932_664
}

In [None]:
rozloha_evropa = {
    'Dansko': 42_916,
    'Ceska_republika': 78_870,
    'Nemecko': 357_168,
    'Polsko': 312_679,
    'Slovensko': 49_035,
    'Rakousko': 83_878
}

In [None]:
zeme_evropa_df = DataFrame({"populace": populace_evropa, "rozloha": rozloha_evropa})

In [None]:
zeme_evropa_df

<br>

#### Přístup pomocí klíčů

---

In [None]:
zeme_evropa_df["populace"]

In [None]:
zeme_evropa_df["rozloha"]

<br>

#### Přístup pomocí atributů

---

In [None]:
# bool(zeme_evropa_df["rozloha"] is zeme_evropa_df.rozloha)

In [None]:
zeme_evropa_df.populace

In [None]:
zeme_evropa_df.rozloha

In [None]:
zeme_evropa_df.rozloha > 100_000

In [None]:
zeme_evropa_df[zeme_evropa_df.rozloha > 100_000]

In [None]:
zeme_evropa_df[zeme_evropa_df["rozloha"] > 100_000]

Opatrně, atributový přístup nelze aplikovat, pokud je jméno sloupečku shodné s některým **z rezerovaných výrazů**.

<br>

#### Slovníkový náhled

---

In [None]:
zeme_evropa_df.index

In [None]:
zeme_evropa_df.columns

In [None]:
zeme_evropa_df.values

<br>

#### loc

---

Stejná pravidla jako pro `Series`, nicméne tentokrát můžeš vybírat buď jednotlivé Indexy, nebo pole Indexů:

In [None]:
zeme_evropa_df

In [None]:
zeme_evropa_df.loc["Nemecko"]

In [None]:
zeme_evropa_df.loc[:"Nemecko"]

<br>

Dále můžeš vybírat kombinaci Indexů a sloupce nebo rozsah sloupců:

In [None]:
zeme_evropa_df.loc["Nemecko", "populace"]

In [None]:
zeme_evropa_df.loc[:"Nemecko", "populace"]

In [None]:
zeme_evropa_df.loc["Ceska_republika":"Nemecko", :"rozloha"]

<br>

#### iloc

---

In [None]:
zeme_evropa_df.iloc[:3, 1]

<br>

#### Transformace

---

In [None]:
zeme_evropa_df.T

#### ix

---

Jde o atribut-hybrid, který kombinuje mixování stylů z `loc` a `iloc`.

Tento *legacy atribut* se již oficiálně nedoporučuje.

In [None]:
zeme_evropa_df.ix[:"Nemecko", :2]  # iloc + loc --> dnes AttributeError

<img src="https://imgs.search.brave.com/lQb3xLIlg9zkzNeOExyC9yipGtQiF1BrVKrC4BwqbF8/rs:fit:500:0:0:0/g:ce/aHR0cHM6Ly90NC5m/dGNkbi5uZXQvanBn/LzA1LzU0LzExLzY3/LzM2MF9GXzU1NDEx/Njc4Nl9DZGhSbWha/YWlaRjdvUVhVajYz/d2RTSzVjOGo5SXNL/bS5qcGc" width="250" style="margin-left:auto; margin-right:auto"/>

<br>

### Metody pro průzkumu dat a nahlížení

---

Následující metody ti ulehčí nahlížení a prozkoumávání dat.

Jsou to metody:
* `info()`,
* `describe()`,
* `head()`,
* `tail()`,

In [None]:
from pandas import DataFrame

In [None]:
populace_evropa = {
    'Dansko': 5_655_750,
    'Ceska_republika': 10_513_209,
    'Nemecko': 80_716_000,
    'Polsko': 38_483_957,
    'Slovensko': 5_415_949,
    'Rakousko': 8_932_664
}

In [None]:
rozloha_evropa = {
    'Dansko': 42_916,
    'Ceska_republika': 78_870,
    'Nemecko': 357_168,
    'Polsko': 312_679,
    'Slovensko': 49_035,
    'Rakousko': 83_878
}

In [None]:
zeme_evropa_df = DataFrame({"populace": populace_evropa, "rozloha": rozloha_evropa})

<br>

#### Metoda `info()`

---

Jde o obecnou informaci o DataFrame:

In [None]:
zeme_evropa_df.info()

Z výstupu potom přečteš:
* počet indexů,
* počet sloupců,
* počet neprázdných, nenulových hodnot,
* datové typy pro sloupce.

<br>

#### Metoda `describe()`

---

Tato metoda ti nepodává základní informaci o DataFrame, ale spíše **pracuje s číselnými sloupci**.


Poskytuje základní **statistické přehledy** jako:
* průměr,
* medián,
* minimální & maximální hodnota,
* rozptyl.

In [None]:
zeme_evropa_df['populace'].describe()

<br>

#### Metody `head()` a `tail()`

---

Obě metody pracují jako náhledové metody. K lepšímu pohledu na konkrétní řádky.

1. `head`, prozkoumá **prvních pět řádků** (defaultně),
2. `tail`, prozkoumá **posledních pět řádků** (defaultně),

In [None]:
zeme_evropa_df.head(3)  # truncate, 

In [None]:
zeme_evropa_df.tail(4)

In [None]:
pokusny_index_df = read_csv('../onsite/customers_inp.csv', sep=';', index_col='customer_id')

In [None]:
pokusny_index_df

<br>

**🧠 CVIČENÍ 🧠, diktát s pandama.**

**Nahraj zadaný soubor do proměnné `hry_df`**

In [None]:
hry_df = read_csv("../onsite/games.csv")

In [None]:
hry_df.head(2)

<details>
    <summary>▶️ Řešení</summary>
    
```python
hry_df = read_csv("../onsite/lesson02/games.csv")
```
</details>

<br>

**Vytvoř proměnnou `jen_souhrn`, která obsahuje pouze sloupec `Summary`**

In [None]:
jen_souhrn = hry_df['Summary']

In [None]:
jen_souhrn

<details>
    <summary>▶️ Řešení</summary>
    
    ```
    souhrn = hry_df.Summary
    ```
</details>

<br>

**Vytvoř proměnnou `prvni_souhrn`, která obsahuje pouze první řádek ze sloupce `Summary`**

In [None]:
prvni_souhrn = hry_df.iloc[0]['Summary']

In [None]:
prvni_souhrn

<details>
    <summary>▶️ Řešení</summary>
    
    ```
    prvni_radek = hry_df.Summary.iloc[0]
    ```
</details>

<br>

**Vytvoř proměnnou `prvni_radek_tab`, která obsahuje celý první záznam z tabulky, z `hry_df`**

In [None]:
prvni_radek_tab = hry_df.iloc[0]

<details>
    <summary>▶️ Řešení</summary>
    
    ```
    prvni_radek_tab = hry_df.iloc[0]
    ```
</details>

<br>

**Vytvoř proměnnou `prvnich_deset_souhrnu`, kam načti prvních deset řádků z vybraného sloupečku `Summary`**

In [None]:
prvnich_deset_souhrnu = hry_df.iloc[:10]['Summary']

In [None]:
prvnich_deset_souhrnu

<details>
    <summary>▶️ Řešení</summary>
    
    ```
    prvni_souhrny = hry_df.Summary.iloc[:10]
    ```
</details>

<br>

**Vytvoř proměnnou `vzorek_indexu`, kam načti záznamy z indexů **2, 4, 5, 6, 7** a **9** z celé tabulky**

In [None]:
vzorek_indexu = hry_df.iloc[[2, 4, 5, 6, 7, 9]]

In [None]:
vzorek_indexu

<details>
    <summary>▶️ Řešení</summary>
    
    ```
    vzorek_indexu = hry_df.loc[[2, 4, 5, 6, 7, 9]]
    ```
</details>

<br>

**Vytvoř proměnnou `hodnoceni`, načti záznamy z indexů **1, 5, 10, 100, 1000** z celé tabulky a vyber pouze sloupečky `Title`, `Rating`, `Release Date`, `Number of Reviews`**

In [None]:
hodnoceni = hry_df.loc[
    [1, 5, 10, 100, 1000],
    ['Title', 'Rating', 'Release Date', 'Number of Reviews']
]

In [None]:
hodnoceni

<details>
    <summary>▶️ Řešení</summary>
    
    ```
    hodnoceni = hry_df.loc[[1, 5, 10, 100, 1000], ["Title", "Rating", "Release Date", "Number of Reviews"]]
    ```
</details>

<br>

**Vytvoř proměnnou `prvnich_sto`, která obsahuje pouze sloupečky `Title`a `Rating`. Dále potřebuješ uložit pouze **prvních 100 indexů****

In [None]:
prvnich_sto = hry_df[:100][['Title', 'Rating']]

In [None]:
prvnich_sto

<details>
    <summary>▶️ Řešení</summary>
    
    ```
    prvnich_sto = hry_df.loc[:99, ["Title", "Rating"]]
    ```
</details>

<br>

**Vytvoř proměnnou `vyber`, která obsahuje dva sloupečky `Title` a `Rating`, kde ve sloupečku `rating` chceš získat pouze takové tituly, které mají hodnocení větší nebo rovnou `4.6`**

In [None]:
# vyber = hry_df[['Title', 'Rating']]
# vyber = hry_df['Rating'] >= 4.6

vyber = hry_df[hry_df['Rating'] >= 4.6][['Title', 'Rating']]

In [None]:
vyber

<details>
    <summary>▶️ Řešení</summary>
    
    ```
    vyber_her = hry_df[hry_df["Rating"] >= 4.6]
    ```

</details>

<br>

## Manipulace se sloupci

---


<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse4.mm.bing.net%2Fth%3Fid%3DOIP.tzaGc-M5pl0DP6pGu-H6WgHaHa%26pid%3DApi&f=1&ipt=39909793c49bf980b8dbceaabe312870e1446f58fba1e6b430630cfbddd2b9c4&ipo=images" width="200" style="margin-left:auto; margin-right:auto"/>



Jakmile se dovedeš zorientovat v datových strukturách knihovny `pandas`, můžeš začít upravovat jejich obsah:
1. **Přejmenovat** sloupce,
2. **vytvořit** nové sloupce,
3. **odstranit** existující sloupce.

### Přejmenování sloupců

---

Pokud budeš někdy zápasit se špatně pojmenovaným sloupcem nebo sloupci, přejmenuj je pomocí metody `rename`.

In [3]:
from typing import Dict
from pandas import DataFrame

uzivatele: Dict[str, list] = {
    'jmeno': ['Matouš', 'Marek', 'Lukáš', 'Jan'],
    'age': [23, 25, 27, 29],
    'vaha': [65, 70, 75, 80],
    'vyska': [160, 170, 180, 190]
}

In [4]:
uzivatele_df = DataFrame(uzivatele)

In [5]:
uzivatele_df

Unnamed: 0,jmeno,age,vaha,vyska
0,Matouš,23,65,160
1,Marek,25,70,170
2,Lukáš,27,75,180
3,Jan,29,80,190


V ukázce výš tě omezuje **jazyková nekonzistence** mezi sloupečky.

Pomocí metody `rename` a argumentu `columns`, můžeš pomocí `dict` anotace vybrat, co a čím přejmenovat:

In [None]:
uzivatele_df.rename(columns={"age": "vek"})

Při další kontrole zjistíš, že **nové jméno sloupečku zmizelo**:

In [None]:
uzivatele_df

<br>

Celou situaci můžeš řešit dvěma způsoby:
1. Volitelný argument `inplace`,
2. kopie původního `DataFrame` objektu.

In [None]:
prejmenovany_sloupec_df = uzivatele_df.rename(columns={"age": "vek"})

In [None]:
prejmenovany_sloupec_df

In [None]:
uzivatele_df

In [6]:
uzivatele_df.rename(columns={"age": "vek"}, inplace=True)  # Za cenu rizika!

In [7]:
uzivatele_df

Unnamed: 0,jmeno,vek,vaha,vyska
0,Matouš,23,65,160
1,Marek,25,70,170
2,Lukáš,27,75,180
3,Jan,29,80,190


Opatrně na práci s argumentem `inplace`.

Jeho použití vždy důkladně zvaž, ať neztratíš zdrojová data.

<br>

Přejmenovat můžeš i **více sloupců** současně:

In [None]:
nova_jmena_sloupcu = {  # CZ > EN
    "jmeno": "first_name",
    "vek": "age",
    "vaha": "weight",
    "vyska": "height"
}

In [None]:
uzivatele_df.rename(columns=nova_jmena_sloupcu, inplace=True)

In [None]:
uzivatele_df

### Přidávání sloupců do DataFrame

---

Potřebuješ doplnit další sloupec. Nebo upravit data v jednom sloupci a výsledek zapsat do dalšího.

Nejčastěji můžeš pracovat **na přidávání nových sloupců** těmito třemi způsoby:
1. **Slovníková anotace** pomocí klíče a hodnoty,
2. výsledek pomocí operace **mezi dvěma sloupci**,
3. pomocí metody `apply`.

#### Jako klíč a hodnota

Takový způsob použiješ, pokud máš nachystané hodnoty pro nový sloupec:

In [None]:
nova_jmena_sloupcu = {  # EN > CZ
    "first_name": "jmeno",
    "age": "vek",
    "weight": "vaha",
    "height": "vyska"
}

In [None]:
uzivatele_df.rename(columns=nova_jmena_sloupcu, inplace=True)

In [None]:
uzivatele_df

In [8]:
uzivatele_df['prijmeni'] = ("Holinka", "Párek", "Holinka", "Novák")

In [9]:
uzivatele_df

Unnamed: 0,jmeno,vek,vaha,vyska,prijmeni
0,Matouš,23,65,160,Holinka
1,Marek,25,70,170,Párek
2,Lukáš,27,75,180,Holinka
3,Jan,29,80,190,Novák


In [None]:
uzivatele_df.iloc[1]

<br>

#### Kombinace existujících sloupců

---

Tento způsob lze použít, pokud chceš vytvořit nový sloupec pomocí operací mezi existujícími sloupci:

In [None]:
uzivatele_df

In [None]:
uzivatele_df['BMI'] = round(uzivatele_df['vaha'] / ((uzivatele_df['vyska'] / 100) ** 2), 1)

In [None]:
uzivatele_df

#### Metoda `apply`

---

Pokud potřebuješ aplikovat uživ. funkci **pro stávající sloupec**, využiješ metodu `apply`:

In [None]:
uzivatele_df

In [None]:
def vytvor_email(prijmeni: str, domena: str = "gmail.com") -> str:
    """
    Vrať zformátovaný string, který tvoří emailovou adresu.
    """
    return f"{prijmeni.lower()}@{domena}"

In [None]:
vytvor_email(prijmeni='holinka')

In [None]:
uzivatele_df['email'] = uzivatele_df['prijmeni'].apply(vytvor_email)

In [None]:
uzivatele_df

<br>

Pokud budeš potřebovat pracovat **s více sloupečky**:

In [15]:
from pandas import Series

def vytvor_novy_email(radek: Series, domena: str = "gmail.com") -> str:
    """
    Vrať zformátovaný string, který tvoří emailovou adresu.
    """
    return f"{radek['jmeno'].lower()}.{radek['prijmeni'].lower()}@{domena}"

In [None]:
jeden_uzivatel = DataFrame({'jmeno': ['Matous'], 'prijmeni': ['Test']})

In [None]:
jeden_uzivatel.iloc[0]

In [None]:
vytvor_novy_email(radek=jeden_uzivatel.iloc[0])

In [12]:
uzivatele_df

Unnamed: 0,jmeno,vek,vaha,vyska,prijmeni
0,Matouš,23,65,160,Holinka
1,Marek,25,70,170,Párek
2,Lukáš,27,75,180,Holinka
3,Jan,29,80,190,Novák


In [16]:
uzivatele_df['dalsi_email'] = uzivatele_df.apply(vytvor_novy_email, axis=1)

In [17]:
uzivatele_df

Unnamed: 0,jmeno,vek,vaha,vyska,prijmeni,novy_email,dalsi_email
0,Matouš,23,65,160,Holinka,Matouš.Holinka@gmail.com,matouš.holinka@gmail.com
1,Marek,25,70,170,Párek,Marek.Párek@gmail.com,marek.párek@gmail.com
2,Lukáš,27,75,180,Holinka,Lukáš.Holinka@gmail.com,lukáš.holinka@gmail.com
3,Jan,29,80,190,Novák,Jan.Novák@gmail.com,jan.novák@gmail.com


<br>

Nepovinný argument `axis` v ohlášení říká, že chce aplikovat metodu **na řádkové hodnoty**.

In [None]:
df_uzivatele.apply?

In [None]:
df_uzivatele.head()

Tento způsob lze použít, pokud chceš vytvořit **nový sloupec** pomocí nějaké funkce na jednotlivé řádky nebo sloupce `DataFrame`.

<br>

### Odstraňování sloupečků

---

K odstranění sloupců z `DataFrame` objektu můžeš použít několik metod:
1. pythonovskou funkci `del`,
2. metodu `drop`,
3. metodu `pop`.

In [18]:
from pandas import DataFrame

In [20]:
uzivatele_df

Unnamed: 0,jmeno,vek,vaha,vyska,prijmeni,novy_email,dalsi_email
0,Matouš,23,65,160,Holinka,Matouš.Holinka@gmail.com,matouš.holinka@gmail.com
1,Marek,25,70,170,Párek,Marek.Párek@gmail.com,marek.párek@gmail.com
2,Lukáš,27,75,180,Holinka,Lukáš.Holinka@gmail.com,lukáš.holinka@gmail.com
3,Jan,29,80,190,Novák,Jan.Novák@gmail.com,jan.novák@gmail.com


In [22]:
'novy_email' in uzivatele_df.columns

True

In [23]:
uzivatele_df.index

RangeIndex(start=0, stop=4, step=1)

In [25]:
# uzivatele_df.drop?

In [26]:
uzivatele_df = uzivatele_df.drop('novy_email', axis=1)

In [27]:
uzivatele_df

Unnamed: 0,jmeno,vek,vaha,vyska,prijmeni,dalsi_email
0,Matouš,23,65,160,Holinka,matouš.holinka@gmail.com
1,Marek,25,70,170,Párek,marek.párek@gmail.com
2,Lukáš,27,75,180,Holinka,lukáš.holinka@gmail.com
3,Jan,29,80,190,Novák,jan.novák@gmail.com


<br>

**🧠 CVIČENÍ 🧠, zpracuj zadané body v úloze.**

Máš DataFrame `zamestnanci` s informacemi o zaměstnancích tvé firmy.

Potřebuješ následující:
1. **přidat sloupec** s názvem `plat_na_hodinu`, který bude vypočítán jako průměr platu zaměstnanců dělený počtem odpracovaných hodin.
2. Sloupec `plat_na_hodinu` zaokrouhli **na celé číslo**,
3. **přejmenuj sloupec** `jmeno` na `cele_jmeno`,
4. **vytvoř funkci** `preved_datum`, která změní formát data ve sloupci `datum_narozeni` z `YYYY-MM-DD` na `DD/MM/YYYY`,
5. **odstraň sloupec** `id`.

In [28]:
from datetime import datetime

import pandas as pd

In [30]:
zamestnanci_df = pd.DataFrame({'id': [1, 2, 3, 4],
                            'jmeno': ['Jan Novák', 'Petr Soukup', 'Marie Horáková', 'Jana Svobodová'],
                            'datum_narozeni': ['1990-05-15', '1985-12-10', '1992-07-25', '1988-03-20'],
                            'plat': [40_000, 45_000, 35_000, 50_000],
                            'odprac_hodiny': [160, 180, 150, 200]}
            )

In [31]:
zamestnanci_df

Unnamed: 0,id,jmeno,datum_narozeni,plat,odprac_hodiny
0,1,Jan Novák,1990-05-15,40000,160
1,2,Petr Soukup,1985-12-10,45000,180
2,3,Marie Horáková,1992-07-25,35000,150
3,4,Jana Svobodová,1988-03-20,50000,200


In [35]:
zamestnanci_df['plat_na_hodinu'] = round(zamestnanci_df['plat'] / zamestnanci_df['odprac_hodiny'], 0)

In [36]:
zamestnanci_df

Unnamed: 0,id,jmeno,datum_narozeni,plat,odprac_hodiny,plat_na_hodinu
0,1,Jan Novák,1990-05-15,40000,160,250.0
1,2,Petr Soukup,1985-12-10,45000,180,250.0
2,3,Marie Horáková,1992-07-25,35000,150,233.0
3,4,Jana Svobodová,1988-03-20,50000,200,250.0


In [37]:
novy_zamestnanci_df = zamestnanci_df.rename(columns={'jmeno': 'cele_jmeno'})

In [38]:
novy_zamestnanci_df

Unnamed: 0,id,cele_jmeno,datum_narozeni,plat,odprac_hodiny,plat_na_hodinu
0,1,Jan Novák,1990-05-15,40000,160,250.0
1,2,Petr Soukup,1985-12-10,45000,180,250.0
2,3,Marie Horáková,1992-07-25,35000,150,233.0
3,4,Jana Svobodová,1988-03-20,50000,200,250.0


In [40]:
# novy_zamestnanci_df.drop?

In [41]:
novy_zamestnanci_df.drop('id', axis=1)

Unnamed: 0,cele_jmeno,datum_narozeni,plat,odprac_hodiny,plat_na_hodinu
0,Jan Novák,1990-05-15,40000,160,250.0
1,Petr Soukup,1985-12-10,45000,180,250.0
2,Marie Horáková,1992-07-25,35000,150,233.0
3,Jana Svobodová,1988-03-20,50000,200,250.0


<details>
    <summary>▶️ Řešení</summary>
    
    ```python
    zamestnanci['plat_na_hodinu'] = round(zamestnanci['plat'] / zamestnanci['odprac_hodiny'])

    zamestnanci = zamestnanci.rename(columns={'jmeno': 'cele_jmeno'})


    def preved_datum(datum_narozeni, vstupni_format='%Y-%m-%d', vystupni_format='%d/%m/%Y'):
        dt = datetime.strptime(datum_narozeni, vstupni_format)
        prevedene_datum = dt.strftime(vystupni_format)
        return prevedene_datum


    # zamestnanci['datum_narozeni'] = pd.to_datetime(zamestnanci['datum_narozeni']).dt.strftime('%d/%m/%Y')  #  I. řešení
    # zamestnanci['datum_narozeni'] = zamestnanci['datum_narozeni'].apply(preved_datum)                      # II. řešení

    zamestnanci = zamestnanci.drop(columns=['id'])
    ```
</details>

---