# Python, Data, 2025

---

* [Úvod k pandám](#Úvod-k-pandám),
* [základní objekty](#Základní-datové-typy-frameworku),
    - [series](#Series),
    - [dataframe](#DataFrame),
    - [index](#Index).
* [načítání objektů](#Načítání-objektů),
    - [načti csv](#Načti-soubor-csv),
    - [načti html](#Načti-tabulku-html),
* [prohlížení dat](#Prozkoumávání-dat),
    - [selekce u sloupečků](#Selekce-u-sloupečků),
    - [selekce u tabulek](#Selekce-u-tabulárních-hodnot),
    - [další metody prohlížení](#Metody-pro-nahlížení).

---

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse1.mm.bing.net%2Fth%3Fid%3DOIP.BaZU6gIdwRYQHu4rBBoO-gHaIX%26pid%3DApi&f=1&ipt=1013c975daabd695fcd4ebfc2c0e0b8ba4f10c37780419d8ff56538ec7a7f9ea&ipo=images" width="200" style="margin-left:auto; margin-right:auto"/>

## Úvod k pandám

---



Jde o knihovnu, která staví na jednoduchých, přesto výkonných a intuitivních nástrojích.

Tyto prostředky umožňují manipulaci, analýzu a vizualizaci strukturovaných dat s tabulkovými a časovými daty.

Vezme data z různých zdrojů, načte je, zpracuje a zapíše (pozn. **zdroj v C**).


<br>

In [None]:
import pandas

### Kde pandy najdu a jaké existují zdroje?

---

- Odkaz na **oficiální repozitář** [této knihovny](https://github.com/pandas-dev/pandas),
- pokud budeš potřebovat více podrobností, mrkni na [oficiální dokumentaci](https://pandas.pydata.org/pandas-docs/stable/index.html),
- pypi.org, instalace knihovny,
- obecně vyhledávat online,
- AI agent přístup.

<br>

### Proč se ti bude hodit?

---

**Pandas** usnadňuje efektivní analýzu, úpravu a zpracování dat.
To vše díky intuitivnímu rozhraní a výkonným nástrojům pro práci s tabulkovými daty.

Data jsou nejčastěji v SQL databázi, různých souborech, tabulkových procesech atd.

*Pandas* si představ jako Excel, ale s více funkcemi a hlavně možností automatizovat procesy.

<br>

### Jak nainstalovat knihovnu?

---

Instalace **poslední dostupné verze**:
```bash
pip install pandas  # nebo jiný package manager
```

<br>

Instalace **konkrétní vybrané verze**:

```bash
pip install pandas==1.1.1
```

<br>

### Jak knihovnu spustit?

---

In [None]:
import pandas

In [None]:
pandas.__version__  # FutureWarning

<br>

Použití **aliasu**:

In [None]:
import pandas

In [None]:
import pandas as pd

In [None]:
from pandas import DataFrame

<br>

### Souhrn kapitoly
---

- knihovna je tedy *švýcarský nožík* pro práci **s tabelárními daty** a **časovými řadami**,
- jde o větší balíček, třetích stran (potřeba stáhnout & instalovat),
- existují i další alternativy pro specifické potřeby *grizzly*, *pyspark*.

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse1.mm.bing.net%2Fth%3Fid%3DOIP.b2NCTuZRiG8yrmTCF7MogAHaHa%26pid%3DApi&f=1&ipt=f9e6a3811b3a707743134cfb19b2ee4f9c44584f5ea328582b227f14b94fcb1f&ipo=images" width="200" style="margin-left:auto; margin-right:auto"/>

## Základní datové typy

---

Knihovna nabízí řadu užitečných nástrojů.

Jde o *metody* a *funkce* nad rámec základních (zabudovaných) **datových struktur**.

Hlavní **tři struktury**, na kterých knihovna stojí jsou:
* `Index`
* `series`,
* `dataFrames`.

<img src="https://i.imgur.com/NNRgONl.png" width="1200" style="margin-left:auto; margin-right:auto"/>

- **Indexes**, je označení (nebo **identifikátor**) jednotlivých řádků, které slouží k jejich jednoznačné identifikaci a usnadňuje přístup k datům,
- **series**, je *sloupec*, **pole** hodnot s Indexem, tedy sloupeček tabulky nebo číslovaný seznam,
- **dataframes**, jde v podstatě o označení celé tabulky.

### Sloupečky ~ series

---

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse3.mm.bing.net%2Fth%3Fid%3DOIP.Yp6ZBv9C33_pDfZkJcKbJQHaHa%26pid%3DApi&f=1&ipt=546833b7ce370c5a62bea21079371efd1fa9547765d4eae8e6c9e41f6b25a3af&ipo=images" width="200" style="margin-left:auto; margin-right:auto"/>

Jde **o jednodimenzionální pole** (popř. sloupeček, řada).

Tento objekt má **indexované data** (jsi schopen data vybrat, uchopit).

Opět si jej můžeš představit jako sloupeček v obyčejných *Excelovských* tabulkách.

<br>

Na ukázku můžeš tyto sloupečky vytvořit třeba ze sekvencí:

In [None]:
from pandas import Series

<br>

Opatrně na velikosti písmen pro jednotlivé objekty:

In [None]:
# from pandas import series

In [None]:
mesta = ("Praha", "Brno", "Ostrava", "Hradek Králové")

In [None]:
mesta_sloupecek = Series(mesta)

In [None]:
type(mesta_sloupecek)

In [None]:
mesta           # tuple

In [None]:
mesta_sloupecek # Series

<br>

Jak můžeš vidět v ukázce výše, *sloupec* `Series` obsahuje **jak pořadí, tak hodnoty**.

In [None]:
mesta_sloupecek.index

In [None]:
mesta_sloupecek.values

<br>

Obecně vypadá jako nějaké pole, který má svůj nativní datový typ `object`.  Obvykle se označují texty nebo smíšené datové typy.

<br>

Ačkoliv je `pandas` knihovna Pythonu, datové typy nemusí vždy odpovídat základním **datovým typům Pythonu**:

| Typy `pandas`| typy `Python`| Použití |
| :-: | :-: | :- |
| `object` | `str` nebo směska| text nebo namíchané číselné a nečíselné hodnoty |
| `int64` | `int`| celá čísla |
| `float64` | `float` | desetinná čísla |
| `bool` | `bool` | True a False |
| `datetime64` | `-`| Hodnota data a času |
| `timedelta` | `-` | Časové rozdíly |

<br>

Stejně jako pole nebo sekvence můžeš *indexovat* a *slicovat* hodnoty typu `Series`.

In [None]:
mesta_sloupecek

<br>

#### Indexování sloupečku

---

In [None]:
mesta_sloupecek[1]    # s Indexem sloupečku

<br>

#### Slicing sloupečku

---

In [None]:
mesta_sloupecek[0:3]  # 0, 1, 2.

Na první pohled není tolik odlišný od datového typu `list` nebo `tuple` (případně pole v `numpy`).

Největší rozdíl spočítá právě v **indexu/Indexu**.

Ať `list`, `tuple` nebo `numpy.array` implicitně pracují **s celočíselným indexem**.

<br>

Objekt `Series` na druhou stranu nabízí možnost, zadávat vlastní indexové hodnoty:

In [None]:
mesta_sloupecek = Series(["Praha", "Brno", "Ostrava", "Hradek Králové"],
                         index=["1_mesto", "2_mesto", "3_mesto", "4_mesto"])
                         # Tvoje specifické indexy

In [None]:
mesta_sloupecek.index

In [None]:
mesta_sloupecek

In [None]:
mesta_sloupecek["2_mesto"]

Tímto způsobem si můžeš představit řadu, sloupec (`Series`) jako variantu datového typu `dict`, v Pythonu.

Víš, že ve slovníku Pythonu jsou hodnoty *mapované* na jednotlivé klíče.

<br>

#### Pokročilé, type-specific
---
V případě `Series` jde o mapování **typovaných hodnot** na **typované klíče**. Právě pojem **typovaný** (~*type-specific*) je zásadní.

Právě *typovaný* zkompilovaný kód od `Series` nabízí některé efektivnější metody a funkce, které obyč. `dict` v Pythonu ne.

In [None]:
populace_evropa = {'Dansko': 5_655_750,
                   'Ceska_republika': 10_513_209,
                   'Nemecko': 80_716_000,
                   'Polsko': 38_483_957,
                   'Slovensko': 5_415_949,
                   'Rakousko': 8_932_664}

In [None]:
populace_evropa_sl = Series(populace_evropa)

In [None]:
populace_evropa_sl

<br>

Defaultně ti objekt `Series` nachystá index ze seřazených klíčů původního datového typu `dict`.

Můžeš provést klasické mapování hodnoty na jméno klíče:

In [None]:
populace_evropa_sl["Ceska_republika"]

K tomu, ale `Series` nabízí operace jako např. *slicing* pro pole:

In [None]:
mesta  # zadávání omezené na indexy celými čísly

In [None]:
populace_evropa_sl["Ceska_republika": "Polsko"]

<br>

#### 🧠 CVIČENÍ 🧠, přepočítej hodnoty ve sloupečku

In [None]:
from pandas import Series

# Data v milionech, převeď na jednotky
# 8_400_000.0, .., ponechej desetinná čísla
# .. pro pokročilé převeď na celá čísla
data = {"New York": 8.4,        
        "London": 9.0,
        "Tokyo": 13.9,
        "Sydney": 5.3}

In [None]:
# Zapiš řešení
data_sloupecek = Series(data)

In [None]:
data_sloupecek

In [None]:
def preved_na_jednotky(cely_sloupec):
    prepocitany_sl = cely_sloupec * 1_000_000
    return prepocitany_sl.astype('int64')  # Pro pokročilé

<br>

Formátování celého čísla pomocí řádového oddělovače:

In [None]:
print(f"{1000000:,}".replace(',', ' '))   # TODO: Doplnit oddělovač

In [None]:
preved_na_jednotky(data_sloupecek)

<details>
    <summary>▶️ Řešení</summary>
    
```python
import pandas as pd

data = {
    "New York": 8.4,
    "London": 9.0,
    "Tokyo": 13.9,
    "Sydney": 5.3,
}


mesta_sl = pd.Series(data)


def preved_na_jednotky(series):
    return series * 1_000_000  # astype(int) -> celé číslo


prevedene = preved_na_jednotky(mesta_sl)
```
</details>

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse1.mm.bing.net%2Fth%3Fid%3DOIP._inpASbq98lGCmZFxPEq7wHaHa%26pid%3DApi&f=1&ipt=ecf1243da46e7ae6341330ae58bda2a6456c95f63a0cd79eda7d561cf3334a57&ipo=images" width="200" style="margin-left:auto; margin-right:auto"/>

<br>

### DataFrame

---


Dalším elementárním datovým typem této knihovny je `DataFrame`.

Analogicky si jej můžeš představit **jako tabulku** v Excelu.

Tedy objekt složený **z řádků** (Indexů) a **sloupců** (`Series`).

In [None]:
populace_evropa = {
    'Dansko': 5_655_750,
    'Ceska_republika': 10_513_209,
    'Nemecko': 80_716_000,
    'Polsko': 38_483_957,
    'Slovensko': 5_415_949,
    'Rakousko': 8_932_664
}

In [None]:
rozloha_evropa = {
    'Dansko': 42_916,
    'Ceska_republika': 78_870,
    'Nemecko': 357_168,
    'Polsko': 312_679,
    'Slovensko': 49_035,
    'Rakousko': 83_878
}

<br>

Nezapomeň nahrát potřebný objekt:

In [None]:
from pandas import DataFrame

In [None]:
zeme_evropa_df = DataFrame({"Populace": populace_evropa,
                            "Rozloha": rozloha_evropa})

In [None]:
print(zeme_evropa_df)

In [None]:
zeme_evropa_df

In [None]:
type(zeme_evropa_df)

<br>

Stejně jako u `Series` má i `DataFrame` svoje *indexy*:

In [None]:
zeme_evropa_df.index

<br>

Navíc můžeš pracovat s atributem `columns`, který drží jména **jednotlivých sloupečků**:

In [None]:
zeme_evropa_df.columns

In [None]:
zeme_evropa_df.values

Proto si můžeš objekt `DataFrame` představit také jako Pythonovský `dict`.

<br>

Ovšem s tím rozdílem, že tentokrát mapuješ jméno sloupečku na `Series`:

In [None]:
zeme_evropa_df["Populace"]

In [None]:
populace_sl = zeme_evropa_df["Populace"]

In [None]:
type(populace_sl)

Opatrně při vytváření nového `DataFrame`, u chybějících klíčů implictině zapisuje `Nan` hodnotu (~*not a number*):

In [None]:
import numpy
from pandas import DataFrame

In [None]:
chybejici_hodnoty_df = DataFrame([{"A": 1, "B": 4},
                                  {"C": 6, "B": 7}])  # dtype

In [None]:
print(None)

Navíc si můžeš všimnout rozdílné definice **datového typu**:

In [None]:
chybejici_hodnoty_df.dtypes

In [None]:
chybejici_hodnoty_df["A"]

In [None]:
konvertovany_sl_a = chybejici_hodnoty_df["A"].convert_dtypes()

In [None]:
konvertovany_sl_a

Více si o přetypování obecně a dozvíš později.

#### 🧠 CVIČENÍ 🧠, přidej nový sloupeček

In [None]:
from pandas import DataFrame

# Přidej do tabulky nový sloupec "Hustota zalidnění"
data = {
    "Město": ["New York", "London", "Tokyo", "Sydney"],
    "Populace (v mio)": [8.4, 9.0, 13.9, 5.3],
    "Plocha (km²)": [783, 1572, 2194, 1687]
}

In [None]:
data_df = DataFrame(data, index=data['Město'])

In [None]:
data_df

In [None]:
data_df['Populace (v mio)']

In [None]:
data_df['Nový sloupec'] = 'abc'  # odráží zápis hodnot a klíčů do dict

In [None]:
data_df

In [None]:
def vypocitej_hustotu_osidleni(tabulka):  # DataFrame
    df["Hustota zalidnění (na km²)"] = (df["Populace (v mio)"] * 1_000_000 / df["Plocha (km²)"]).round().astype(int)
    return df

<details>
    <summary>▶️ Řešení</summary>
    
```python
import pandas as pd

data = {
    "Město": ["New York", "London", "Tokyo", "Sydney"],
    "Populace (v mio)": [8.4, 9.0, 13.9, 5.3],
    "Plocha (km²)": [783, 1572, 2194, 1687],
}

mesta_df = pd.DataFrame(data)

def vypocitej_hustotu_zalidneni(df):
    """
    Přidejte nový sloupec 'Hustota zalidnění' (počet obyvatel na km²).
    """
    df["Hustota zalidnění (na km²)"] = (df["Populace (v mio)"] * 1_000_000 / df["Plocha (km²)"]).round().astype(int)
    return df

df = vypocitej_hustotu_zalidneni(mesta_df)
print(df)
```
</details>

<img src="https://imgs.search.brave.com/EQep67dP5UaJDlqkF2HvOQTESVA_LQSZx_SR7FE6JYM/rs:fit:500:0:0:0/g:ce/aHR0cHM6Ly9kMW5o/aW8wb3g3cGdiLmNs/b3VkZnJvbnQubmV0/L19pbWcvb19jb2xs/ZWN0aW9uX3BuZy9n/cmVlbl9kYXJrX2dy/ZXkvNTEyeDUxMi9w/bGFpbi90YWJsZV9z/ZWxlY3Rpb25fcm93/LnBuZw" width="200" style="margin-left:auto; margin-right:auto"/>

### Index

---


Posledním ze základních objektů frameworku `pandas` je tedy **Index** (velké "i").

Jak `Series`, tak `DataFrame` v sobě *Index* obsahují.

Pro jednoduchost, si jej můžeš představit jako označení jednotlivých řádků v tabulce.

In [None]:
from pandas import Index

In [None]:
indexy = Index([2, 3, 4, 5])

In [None]:
indexy

In [None]:
type(indexy)

In [None]:
nove_indexy = Index(('radek_1', 'radek_2', 'radek_3'))

In [None]:
type(nove_indexy)

<br>

#### indexování Indexů

---

In [None]:
indexy

In [None]:
indexy[2]

<br>

#### Slicování indexů

---

In [None]:
indexy[:3]

<br>

#### Nezměnitelný objekt

---

In [None]:
indexy[2]

In [None]:
# indexy[2] = 3  # --> TypeError

Tato nezměnitelnost slouží k větší bezpečnosti, protože jednotlivé indexy, může sdílet více `DataFrame`.

<br>

#### Index jako seřazený set

---

In [None]:
indexy_a = Index([1, 2, 3, 4])
indexy_b = Index([3, 4, 5, 6])

In [None]:
indexy_a.intersection(indexy_b)

In [None]:
indexy_a.union(indexy_b)

<br>

### Souhrn k základním typům

---

- **sloupečky**, jako pole, jednorozměrné, možnost selekce indexů i hodnot a jejich rozsahů,
- **indexy**, jako pole, nezměnitelné, možnost selekce jednoho řádků i rozsahu řádků,
- **tabulka**, vícerozměrné pole, výběr podle sloupců.


<img src="https://imgs.search.brave.com/CoDVQW6cpYcV0qJtUejA7WQat4mLN2AOxuK2hXwgGAo/rs:fit:500:0:0:0/g:ce/aHR0cHM6Ly9jZG4w/Lmljb25maW5kZXIu/Y29tL2RhdGEvaWNv/bnMvcm91bmQtdWkt/aWNvbnMvNTEyL2Fk/ZF9ibHVlLnBuZw" width="200" style="margin-left:auto; margin-right:auto"/>

<br>

## Načítání objektů

---

Vytvořit nový `DataFrame` je záležitost několika málo argumentů.

Není ovšem velmi časté, chystat data *z ničeho*.

Většinou potřebuješ právě nahrát různé **existující externí soubory**, do `DataFrame` objektů.

* `read_csv`,
* `read_excel`,
* `read_json`,
* `read_html`,
* `read_sql`,
* `read_parquet`,
* `read_sas`.

###  Načti soubor `csv`

---

Knihovna nabízí přímo specializovanou funkci `read_csv`.

Ta dovede načíst obsah souboru do nového `DataFrame`.

Pro první použití, případně pozdější rozšíření je vhodné, prozkoumat dokumentaci:

In [None]:
from pandas import read_csv

<br>

Načteš jméno souboru se specifickou příponou `csv`:

In [None]:
# zamestnanci_df = read_csv('../onsite/inp.csv')  # FileNotFoundError

<br>

Je možné použít jak absolutní tak relativní cestu k souboru:

In [None]:
zamestnanci_df = read_csv('/home/matous/projects/python-data-2024/shared/onsite/customers_inp.csv')

<br>

Prozkoumej samotný soubor:

In [None]:
# !cat ../onsite/customers_inp.csv

<br>

Nyní se podívej jak vypadá nově vytvořený `DataFrame`:

In [None]:
type(zamestnanci_df)

In [None]:
zamestnanci_df

Je potřeba pohlídat si (není řazené podle priorit):
* indexy,
* záhlaví,
* strukturu jednotlivých `Series`,
* datové typy.

<br>

Pokud nesedí **defaultní oddělovač** (*sep* nebo *delimiter*):

In [None]:
# !sed -i s"/,/;/g" ../onsite/customers_inp.csv

In [None]:
# !cat ../onsite/customers_inp.csv

In [None]:
zamestnanci_strednik_df = read_csv('../onsite/customers_inp.csv', sep=';')

In [None]:
zamestnanci_strednik_df

<br>

Můžeš zadat jiný než *defaultní* oddělovač:

In [None]:
zamestnanci_strednik_df['phone']

**Nevhodné datové typy** je také možné řešit při nové inicializaci `DataFrame`:

In [None]:
zamestnanci_strednik_df.dtypes

Pokud potřebuješ *vynutit* konverzi datového typu:

In [None]:
zamestnanci_bez_cisel_df = read_csv(
    '../onsite/customers_inp.csv',
    sep=";",
    dtype={"customer_id": str,
           "first_name": str,
           "last_name": str,  # int --> ValueError
           "phone": str,
           "email": str}
)

In [None]:
zamestnanci_bez_cisel_df.dtypes

<br>

### Načti tabulku `html`

---

Funkce `read_html` často zastává některé kroky *web scrapování*.

Přesto je jejím učelem "pouze" extrahování dat v HTML `<table></table>` elementech.

Ukázka [zdroj](https://simple.wikipedia.org/wiki/List_of_U.S._states).

In [None]:
# %run ../../shared/onsite/demo_read_html.py

<br>

**🧠 CVIČENÍ 🧠, načti vlastní CSV soubor**.

In [None]:
# Zápis
cesta_k_souboru: str = '../onsite/games.csv'

In [None]:
from pandas import read_csv

In [None]:
from pathlib import Path

if not Path(cesta_k_souboru).exists():
    print('Chybi soubor pro zpracovani')

hry_df = read_csv(cesta_k_souboru)

In [None]:
hry_df.head(2)

<details>
    <summary>▶️ Řešení</summary>
    
```python
import pandas as pd

muj_csv_soubor = 'toto/je/relativni/cesta.csv'

testovaci_data = pd.read_csv(muj_csv_soubor)
```
</details>

Konvence pro načítání dat `read_XYZ` (kde `XYZ` představuje formát souborů).

Pro ukládání souborů slouží `to_XYZ`.

<br>

### Souhrn kapitoly

---

Typický postup, pro práci s pandami, je identifikovat a správně načíst datový zdroj.


<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse3.mm.bing.net%2Fth%3Fid%3DOIP.ACSOiM-U0Q1dA-4JLXwShAHaHx%26pid%3DApi&f=1&ipt=6d4afed7c3560452103fe53af2bd94638c28007aa3141700570a84c7fab7263a&ipo=images" width="200" style="margin-left:auto; margin-right:auto"/>



<br>

## Prozkoumávání dat

---

Jakmile máš data správně načtená a přetypovaná, můžeš s nimi začít pracovat.

Než se do toho vrhneš, není špatné, umět je prohlížet.

<br>

### Selekce u sloupečků

---

In [1]:
from pandas import Series

In [2]:
vek_sl = Series(
    [26, 36, 46, 56],
    index=['Petr', 'Pavel', 'Jiri', 'Tomas'] # ??? , 'Jarek', 'Tomas'; , 66, 76
)

<br>

Pro vytvořený sloupeček:

In [None]:
vek_sl

<br>

Pokud provádíš *slicing* pomocí *indexů*, implicitně **vynecháš konečný index**:

In [None]:
vek_sl[0:3]

<br>

Pokud ovšem zadáváš přímo hodnotu *Indexu*, potom vybíráš hodnoty **včetně konečného Indexu**:

In [None]:
vek_sl["Petr": "Jiri"]

Tento jednoduchý přístup potom vede **k častým chybám a nepochopením**.

### Atributy `loc`, `iloc`

---

Právě protože je *indexování* a *slicing* v rámci `Series` matoucí, existují pomocné atributy.

<br>

#### loc

---

Právě tento atribut zaručí, že budeš vždy pracovat pomocí **explicitního zadání hodnoty Indexů**:

In [None]:
vek_sl

In [None]:
vek_sl.loc["Petr": "Jiri"]

<br>

Jde tedy o explicitní práci s Indexy knihovny `pandas`, ne indexy Pythonu:

In [None]:
jmena_sl = Series(
    ["Matous", "Marek", "Lukas", "Jan"],
    index=[1, 2, 3, 4]
)

In [None]:
jmena_sl

In [None]:
jmena_sl.loc[1]

In [None]:
jmena_sl.loc[:3]

Všimni si, jak *Index* o hodnotě 3 je součástí výstupu (narozdíl od pythonovského indexu 3).

<br>

#### iloc

---

Naopak atribut `iloc` je proces, který funguje výlučně na **indexování v rámci Pythonu** (pořadí, začíná nulou):

In [None]:
jmena_sl

In [None]:
jmena_sl.iloc[1]   # Opatrně na výstup!!

In [None]:
jmena_sl.index[1]  # indexování Indexů

In [None]:
jmena_sl.loc[1]    # Opatrně na výstup!!

In [None]:
jmena_sl.iloc[:2]

Kvůli jasnosti a přehlednosti je obecně výhodnější a doporučováné, pracovat s atributy `loc` a `iloc`.

In [None]:
jmena_sl.loc[:2]

<br>

### Selekce u tabelárních hodnot

---

Jelikož je `DataFrame` složený ze sloupečků, můžeš aplikovat některé postupy z uplynulé teorie.

* **slovníkový klíč**,
* **atributový přístup**,
* **slovníkový náhled**,
* `loc`, `iloc`, `ix`, `T`.

In [3]:
from pandas import DataFrame

In [4]:
populace_evropa = {'Dansko': 5_655_750,
                   'Ceska_republika': 10_513_209,
                   'Nemecko': 80_716_000,
                   'Polsko': 38_483_957,
                   'Slovensko': 5_415_949,
                   'Rakousko': 8_932_664}

In [5]:
rozloha_evropa = {'Dansko': 42_916,
                  'Ceska_republika': 78_870,
                  'Nemecko': 357_168,
                  'Polsko': 312_679,
                  'Slovensko': 49_035,
                  'Rakousko': 83_878}

In [6]:
zeme_evropa_df = DataFrame({"populace": populace_evropa,
                            "rozloha": rozloha_evropa})

In [7]:
zeme_evropa_df

Unnamed: 0,populace,rozloha
Dansko,5655750,42916
Ceska_republika,10513209,78870
Nemecko,80716000,357168
Polsko,38483957,312679
Slovensko,5415949,49035
Rakousko,8932664,83878


<br>

#### Přístup pomocí klíčů

---

In [8]:
zeme_evropa_df["populace"]

Dansko              5655750
Ceska_republika    10513209
Nemecko            80716000
Polsko             38483957
Slovensko           5415949
Rakousko            8932664
Name: populace, dtype: int64

In [9]:
zeme_evropa_df["rozloha"]

Dansko              42916
Ceska_republika     78870
Nemecko            357168
Polsko             312679
Slovensko           49035
Rakousko            83878
Name: rozloha, dtype: int64

<br>

Pomocí hranaté závorky z tabulky extrahuji **celý sloupeček.**

In [11]:
zeme_evropa_df["rozloha"] >= 50_000

Dansko             False
Ceska_republika     True
Nemecko             True
Polsko              True
Slovensko          False
Rakousko            True
Name: rozloha, dtype: bool

<br>

Boolean dotazování neupravuje původní hodnoty ve sloupečku `rozloha`:

In [12]:
zeme_evropa_df["rozloha"]

Dansko              42916
Ceska_republika     78870
Nemecko            357168
Polsko             312679
Slovensko           49035
Rakousko            83878
Name: rozloha, dtype: int64

In [13]:
zeme_evropa_df[zeme_evropa_df["rozloha"] >= 50_000]

Unnamed: 0,populace,rozloha
Ceska_republika,10513209,78870
Nemecko,80716000,357168
Polsko,38483957,312679
Rakousko,8932664,83878


In [14]:
zeme_evropa_df

Unnamed: 0,populace,rozloha
Dansko,5655750,42916
Ceska_republika,10513209,78870
Nemecko,80716000,357168
Polsko,38483957,312679
Slovensko,5415949,49035
Rakousko,8932664,83878


<br>

#### Přístup pomocí atributů

---

K jednotlivými sloupečkům přistupuji pomocí `.`:

In [None]:
# bool(zeme_evropa_df["rozloha"] is zeme_evropa_df.rozloha)

In [15]:
zeme_evropa_df

Unnamed: 0,populace,rozloha
Dansko,5655750,42916
Ceska_republika,10513209,78870
Nemecko,80716000,357168
Polsko,38483957,312679
Slovensko,5415949,49035
Rakousko,8932664,83878


In [16]:
zeme_evropa_df.populace

Dansko              5655750
Ceska_republika    10513209
Nemecko            80716000
Polsko             38483957
Slovensko           5415949
Rakousko            8932664
Name: populace, dtype: int64

In [17]:
zeme_evropa_df.rozloha

Dansko              42916
Ceska_republika     78870
Nemecko            357168
Polsko             312679
Slovensko           49035
Rakousko            83878
Name: rozloha, dtype: int64

In [18]:
zeme_evropa_df.rozloha > 50_000

Dansko             False
Ceska_republika     True
Nemecko             True
Polsko              True
Slovensko          False
Rakousko            True
Name: rozloha, dtype: bool

In [None]:
zeme_evropa_df[zeme_evropa_df.rozloha > 100_000]  # Méně bezpečný přístup

In [None]:
zeme_evropa_df[zeme_evropa_df["rozloha"] > 100_000]

Opatrně, atributový přístup nelze aplikovat, pokud je jméno sloupečku shodné s některým **z rezerovaných výrazů**.

<br>

#### Slovníkový náhled

---

In [19]:
zeme_evropa_df.index

Index(['Dansko', 'Ceska_republika', 'Nemecko', 'Polsko', 'Slovensko',
       'Rakousko'],
      dtype='object')

In [20]:
zeme_evropa_df.columns

Index(['populace', 'rozloha'], dtype='object')

In [21]:
zeme_evropa_df.values

array([[ 5655750,    42916],
       [10513209,    78870],
       [80716000,   357168],
       [38483957,   312679],
       [ 5415949,    49035],
       [ 8932664,    83878]])

<br>

#### loc

---

Stejná pravidla jako pro `Series`, nicméne tentokrát můžeš vybírat buď jednotlivé Indexy, nebo pole Indexů:

In [22]:
zeme_evropa_df

Unnamed: 0,populace,rozloha
Dansko,5655750,42916
Ceska_republika,10513209,78870
Nemecko,80716000,357168
Polsko,38483957,312679
Slovensko,5415949,49035
Rakousko,8932664,83878


In [23]:
zeme_evropa_df.loc["Nemecko"]

populace    80716000
rozloha       357168
Name: Nemecko, dtype: int64

In [24]:
zeme_evropa_df.iloc[2]

populace    80716000
rozloha       357168
Name: Nemecko, dtype: int64

In [25]:
zeme_evropa_df.loc[:"Nemecko"]

Unnamed: 0,populace,rozloha
Dansko,5655750,42916
Ceska_republika,10513209,78870
Nemecko,80716000,357168


<br>

Dále můžeš vybírat kombinaci Indexů a sloupce nebo rozsah sloupců:

In [26]:
zeme_evropa_df.loc["Nemecko", "populace"]

80716000

In [None]:
zeme_evropa_df.loc[:"Nemecko", "populace"]

In [27]:
zeme_evropa_df.loc["Ceska_republika":"Nemecko", :"rozloha"]

Unnamed: 0,populace,rozloha
Ceska_republika,10513209,78870
Nemecko,80716000,357168


<br>

#### iloc

---

In [None]:
zeme_evropa_df.iloc[:3, 1]

In [28]:
zeme_evropa_df.iloc[2, 0]

80716000

In [32]:
zeme_evropa_df.iloc[:2, :2]

Unnamed: 0,populace,rozloha
Dansko,5655750,42916
Ceska_republika,10513209,78870


<br>

#### Transformace

---

In [33]:
zeme_evropa_df.T

Unnamed: 0,Dansko,Ceska_republika,Nemecko,Polsko,Slovensko,Rakousko
populace,5655750,10513209,80716000,38483957,5415949,8932664
rozloha,42916,78870,357168,312679,49035,83878


#### ix

---

Jde o atribut-hybrid, který kombinuje mixování stylů z `loc` a `iloc`.

Tento *legacy atribut* se již oficiálně nedoporučuje.

In [None]:
# zeme_evropa_df.ix[:"Nemecko", :2]  # iloc + loc --> dnes AttributeError

<img src="https://imgs.search.brave.com/lQb3xLIlg9zkzNeOExyC9yipGtQiF1BrVKrC4BwqbF8/rs:fit:500:0:0:0/g:ce/aHR0cHM6Ly90NC5m/dGNkbi5uZXQvanBn/LzA1LzU0LzExLzY3/LzM2MF9GXzU1NDEx/Njc4Nl9DZGhSbWha/YWlaRjdvUVhVajYz/d2RTSzVjOGo5SXNL/bS5qcGc" width="250" style="margin-left:auto; margin-right:auto"/>

<br>

### Metody pro průzkumu dat a nahlížení

---

Následující metody ti ulehčí nahlížení a prozkoumávání dat.

Jsou to metody:
* `info()`,
* `describe()`,
* `head()`,
* `tail()`,

In [34]:
from pandas import DataFrame

In [35]:
populace_evropa = {
    'Dansko': 5_655_750,
    'Ceska_republika': 10_513_209,
    'Nemecko': 80_716_000,
    'Polsko': 38_483_957,
    'Slovensko': 5_415_949,
    'Rakousko': 8_932_664
}

In [36]:
rozloha_evropa = {
    'Dansko': 42_916,
    'Ceska_republika': 78_870,
    'Nemecko': 357_168,
    'Polsko': 312_679,
    'Slovensko': 49_035,
    'Rakousko': 83_878
}

In [37]:
zeme_evropa_df = DataFrame({"populace": populace_evropa,
                            "rozloha": rozloha_evropa})

<br>

#### Metoda `info()`

---

Jde o obecnou informaci o DataFrame:

In [41]:
zeme_evropa_df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 6 entries, Dansko to Rakousko
Data columns (total 2 columns):
 #   Column    Non-Null Count  Dtype
---  ------    --------------  -----
 0   populace  6 non-null      int64
 1   rozloha   6 non-null      int64
dtypes: int64(2)
memory usage: 144.0+ bytes


Z výstupu potom přečteš:
* počet indexů,
* počet sloupců,
* počet neprázdných, nenulových hodnot,
* datové typy pro sloupce.

<br>

#### Metoda `describe()`

---

Tato metoda ti nepodává základní informaci o DataFrame, ale spíše **pracuje s číselnými sloupci**.


Poskytuje základní **statistické přehledy** jako:
* průměr,
* medián,
* minimální & maximální hodnota,
* rozptyl.

In [43]:
zeme_evropa_df.describe()

Unnamed: 0,populace,rozloha
count,6.0,6.0
mean,24952920.0,154091.0
std,30039430.0,141686.364654
min,5415949.0,42916.0
25%,6474978.0,56493.75
50%,9722936.0,81374.0
75%,31491270.0,255478.75
max,80716000.0,357168.0


<br>

Metoda `describe` je použitelná jak v případě sloupců, tak tabulek.

In [42]:
zeme_evropa_df['populace'].describe()

count    6.000000e+00
mean     2.495292e+07
std      3.003943e+07
min      5.415949e+06
25%      6.474978e+06
50%      9.722936e+06
75%      3.149127e+07
max      8.071600e+07
Name: populace, dtype: float64

In [45]:
zeme_evropa_df.populace.describe()

count    6.000000e+00
mean     2.495292e+07
std      3.003943e+07
min      5.415949e+06
25%      6.474978e+06
50%      9.722936e+06
75%      3.149127e+07
max      8.071600e+07
Name: populace, dtype: float64

<br>

#### Metody `head()` a `tail()`

---

Obě metody pracují jako náhledové metody. K lepšímu pohledu na konkrétní řádky.

1. `head`, prozkoumá **prvních pět řádků** (defaultně),
2. `tail`, prozkoumá **posledních pět řádků** (defaultně),

In [46]:
zeme_evropa_df.head(3)  # truncate, 

Unnamed: 0,populace,rozloha
Dansko,5655750,42916
Ceska_republika,10513209,78870
Nemecko,80716000,357168


In [47]:
zeme_evropa_df.tail(4)

Unnamed: 0,populace,rozloha
Nemecko,80716000,357168
Polsko,38483957,312679
Slovensko,5415949,49035
Rakousko,8932664,83878


In [49]:
zeme_evropa_df['rozloha']

Dansko              42916
Ceska_republika     78870
Nemecko            357168
Polsko             312679
Slovensko           49035
Rakousko            83878
Name: rozloha, dtype: int64

In [53]:
zeme_evropa_df.sort_values(by=['rozloha'], ascending=False)

Unnamed: 0,populace,rozloha
Nemecko,80716000,357168
Polsko,38483957,312679
Rakousko,8932664,83878
Ceska_republika,10513209,78870
Slovensko,5415949,49035
Dansko,5655750,42916


<br>

**🧠 CVIČENÍ 🧠, diktát s pandama.**

**Nahraj zadaný soubor do proměnné `hry_df`**

In [56]:
from pandas import read_csv, DataFrame

In [59]:
hry_df = read_csv('../onsite/games.csv')

In [62]:
# hry_df.info()

<details>
    <summary>▶️ Řešení</summary>
    
```python
hry_df = read_csv("../onsite/lesson02/games.csv")
```
</details>

<br>

**Vytvoř proměnnou `jen_souhrn`, která obsahuje pouze sloupec `Summary`**

In [64]:
jen_souhrn = hry_df['Summary']

In [65]:
type(jen_souhrn)

pandas.core.series.Series

<details>
    <summary>▶️ Řešení</summary>
    
    ```
    souhrn = hry_df.Summary
    ```
</details>

<br>

**Vytvoř proměnnou `prvni_souhrn`, která obsahuje pouze první řádek ze sloupce `Summary`**

In [70]:
prvni_souhrn = hry_df.loc[0, 'Summary']

In [71]:
prvni_souhrn

'Elden Ring is a fantasy, action and open world game with RPG elements such as stats, weapons and spells. Rise, Tarnished, and be guided by grace to brandish the power of the Elden Ring and become an Elden Lord in the Lands Between.'

<details>
    <summary>▶️ Řešení</summary>
    
    ```
    prvni_radek = hry_df.Summary.iloc[0]
    ```
</details>

<br>

**Vytvoř proměnnou `prvni_radek_tab`, která obsahuje celý první záznam z tabulky, z `hry_df`**

In [73]:
prvni_radek_tab = hry_df.iloc[0]

<details>
    <summary>▶️ Řešení</summary>
    
    ```
    prvni_radek_tab = hry_df.iloc[0]
    ```
</details>

<br>

**Vytvoř proměnnou `prvnich_deset_souhrnu`, kam načti prvních deset řádků z vybraného sloupečku `Summary`**

In [94]:
# hry_df.info()

In [93]:
prvnich_deset_souhrnu = hry_df.iloc[:10]['Summary']

<details>
    <summary>▶️ Řešení</summary>
    
    ```
    prvni_souhrny = hry_df.Summary.iloc[:10]
    ```
</details>

<br>

**Vytvoř proměnnou `vzorek_indexu`, kam načti záznamy z indexů **2, 4, 5, 6, 7** a **9** z celé tabulky**

In [104]:
vzorek_indexu = hry_df.iloc[[2, 4, 5, 6, 7, 9]]

<details>
    <summary>▶️ Řešení</summary>
    
    ```
    vzorek_indexu = hry_df.loc[[2, 4, 5, 6, 7, 9]]
    ```
</details>

<br>

**Vytvoř proměnnou `hodnoceni`, načti záznamy z indexů **1, 5, 10, 100, 1000** z celé tabulky a vyber pouze sloupečky `Title`, `Rating`, `Release Date`, `Number of Reviews`**

In [117]:
hodnoceni = hry_df.iloc[[1, 5, 10, 100, 1000]][['Title', 'Rating', 'Release Date', 'Number of Reviews']]

<details>
    <summary>▶️ Řešení</summary>
    
    ```
    hodnoceni = hry_df.loc[[1, 5, 10, 100, 1000], ["Title", "Rating", "Release Date", "Number of Reviews"]]
    ```
</details>

<br>

**Vytvoř proměnnou `prvnich_sto`, která obsahuje pouze sloupečky `Title`a `Rating`. Dále potřebuješ uložit pouze **prvních 100 indexů****

In [124]:
prvnich_sto = hry_df.iloc[:100][['Title', 'Rating']]

In [131]:
# hry_df.loc[:99][['Title', 'Rating']]

<details>
    <summary>▶️ Řešení</summary>
    
    ```
    prvnich_sto = hry_df.loc[:99, ["Title", "Rating"]]
    ```
</details>

<br>

**Vytvoř proměnnou `vyber`, která obsahuje dva sloupečky `Title` a `Rating`, kde ve sloupečku `rating` chceš získat pouze takové tituly, které mají hodnocení větší nebo rovnou `4.6`**

In [142]:
vyber = hry_df[hry_df['Rating'] >= 4.6][['Title', 'Rating']]

Unnamed: 0,Title,Rating
28,Disco Elysium: The Final Cut,4.6
43,Outer Wilds,4.6
139,Disco Elysium,4.6
252,Umineko: When They Cry Chiru,4.6
297,Bloodborne: The Old Hunters,4.6
354,Disco Elysium: The Final Cut,4.6
369,Outer Wilds,4.6
428,Disco Elysium,4.6
539,Umineko: When They Cry Chiru,4.6
717,Hitman World of Assassination,4.6


In [132]:
hry_df.iloc[:100][['Title', 'Rating']]

Unnamed: 0,Title,Rating
0,Elden Ring,4.5
1,Hades,4.3
2,The Legend of Zelda: Breath of the Wild,4.4
3,Undertale,4.2
4,Hollow Knight,4.4
...,...,...
95,Metroid Prime Remastered,4.5
96,Halo Infinite,3.3
97,Batman: Arkham Asylum,3.9
98,Super Mario Sunshine,3.7


In [None]:
# Pro pokročilé - odstranit duplicity z výsledku

<details>
    <summary>▶️ Řešení</summary>
    
    ```
    vyber_her = hry_df[hry_df["Rating"] >= 4.6]
    ```

</details>

---