# Python, Data, 2025

---

* [Úvod k pandám](#Úvod-k-pandám),
* [základní objekty](#Základní-datové-typy-frameworku),
    - [series](#Series),
    - [dataframe](#DataFrame),
    - [index](#Index).
* [načítání objektů](#Načítání-objektů),
    - [načti csv](#Načti-soubor-csv),
    - [načti html](#Načti-tabulku-html),
* [prohlížení dat](#Prozkoumávání-dat),
    - [selekce u sloupečků](#Selekce-u-sloupečků),
    - [selekce u tabulek](#Selekce-u-tabulárních-hodnot),
    - [další metody prohlížení](#Metody-pro-nahlížení).

---

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse1.mm.bing.net%2Fth%3Fid%3DOIP.BaZU6gIdwRYQHu4rBBoO-gHaIX%26pid%3DApi&f=1&ipt=1013c975daabd695fcd4ebfc2c0e0b8ba4f10c37780419d8ff56538ec7a7f9ea&ipo=images" width="200" style="margin-left:auto; margin-right:auto"/>

## Úvod k pandám

---



Jde o knihovnu, která staví na jednoduchých, přesto výkonných a intuitivních nástrojích.

Tyto prostředky umožňují manipulaci, analýzu a vizualizaci strukturovaných dat s tabulkovými a časovými daty.

Vezme data z různých zdrojů, načte je, zpracuje a zapíše (pozn. **zdroj v C**).


<br>

In [1]:
import pandas

### Kde pandy najdu a jaké existují zdroje?

---

- Odkaz na **oficiální repozitář** [této knihovny](https://github.com/pandas-dev/pandas),
- pokud budeš potřebovat více podrobností, mrkni na [oficiální dokumentaci](https://pandas.pydata.org/pandas-docs/stable/index.html),
- pypi.org, instalace knihovny,
- obecně vyhledávat online,
- AI agent přístup.

<br>

### Proč se ti bude hodit?

---

**Pandas** usnadňuje efektivní analýzu, úpravu a zpracování dat.
To vše díky intuitivnímu rozhraní a výkonným nástrojům pro práci s tabulkovými daty.

Data jsou nejčastěji v SQL databázi, různých souborech, tabulkových procesech atd.

*Pandas* si představ jako Excel, ale s více funkcemi a hlavně možností automatizovat procesy.

<br>

### Jak nainstalovat knihovnu?

---

Instalace **poslední dostupné verze**:
```bash
pip install pandas  # nebo jiný package manager
```

<br>

Instalace **konkrétní vybrané verze**:

```bash
pip install pandas==1.1.1
```

<br>

### Jak knihovnu spustit?

---

In [2]:
import pandas

In [3]:
pandas.__version__  # FutureWarning

'2.0.3'

<br>

Použití **aliasu**:

In [4]:
import pandas

In [5]:
import pandas as pd

In [6]:
from pandas import DataFrame

<br>

### Souhrn kapitoly
---

- knihovna je tedy *švýcarský nožík* pro práci **s tabelárními daty** a **časovými řadami**,
- jde o větší balíček, třetích stran (potřeba stáhnout & instalovat),
- existují i další alternativy pro specifické potřeby *grizzly*, *pyspark*.

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse1.mm.bing.net%2Fth%3Fid%3DOIP.b2NCTuZRiG8yrmTCF7MogAHaHa%26pid%3DApi&f=1&ipt=f9e6a3811b3a707743134cfb19b2ee4f9c44584f5ea328582b227f14b94fcb1f&ipo=images" width="200" style="margin-left:auto; margin-right:auto"/>

## Základní datové typy

---

Knihovna nabízí řadu užitečných nástrojů.

Jde o *metody* a *funkce* nad rámec základních (zabudovaných) **datových struktur**.

Hlavní **tři struktury**, na kterých knihovna stojí jsou:
* `Index`
* `series`,
* `dataFrames`.

<img src="https://i.imgur.com/NNRgONl.png" width="1200" style="margin-left:auto; margin-right:auto"/>

- **Indexes**, je označení (nebo **identifikátor**) jednotlivých řádků, které slouží k jejich jednoznačné identifikaci a usnadňuje přístup k datům,
- **series**, je *sloupec*, **pole** hodnot s Indexem, tedy sloupeček tabulky nebo číslovaný seznam,
- **dataframes**, jde v podstatě o označení celé tabulky.

### Sloupečky ~ series

---

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse3.mm.bing.net%2Fth%3Fid%3DOIP.Yp6ZBv9C33_pDfZkJcKbJQHaHa%26pid%3DApi&f=1&ipt=546833b7ce370c5a62bea21079371efd1fa9547765d4eae8e6c9e41f6b25a3af&ipo=images" width="200" style="margin-left:auto; margin-right:auto"/>

Jde **o jednodimenzionální pole** (popř. sloupeček, řada).

Tento objekt má **indexované data** (jsi schopen data vybrat, uchopit).

Opět si jej můžeš představit jako sloupeček v obyčejných *Excelovských* tabulkách.

<br>

Na ukázku můžeš tyto sloupečky vytvořit třeba ze sekvencí:

In [7]:
from pandas import Series

<br>

Opatrně na velikosti písmen pro jednotlivé objekty:

In [8]:
# from pandas import series

In [9]:
mesta = ("Praha", "Brno", "Ostrava", "Hradek Králové")

In [10]:
mesta_sloupecek = Series(mesta)

In [11]:
type(mesta_sloupecek)

pandas.core.series.Series

In [12]:
mesta           # tuple

('Praha', 'Brno', 'Ostrava', 'Hradek Králové')

In [13]:
mesta_sloupecek # Series

0             Praha
1              Brno
2           Ostrava
3    Hradek Králové
dtype: object

<br>

Jak můžeš vidět v ukázce výše, *sloupec* `Series` obsahuje **jak pořadí, tak hodnoty**.

In [14]:
mesta_sloupecek.index

RangeIndex(start=0, stop=4, step=1)

In [15]:
mesta_sloupecek.values

array(['Praha', 'Brno', 'Ostrava', 'Hradek Králové'], dtype=object)

<br>

Obecně vypadá jako nějaké pole, který má svůj nativní datový typ `object`.  Obvykle se označují texty nebo smíšené datové typy.

<br>

Ačkoliv je `pandas` knihovna Pythonu, datové typy nemusí vždy odpovídat základním **datovým typům Pythonu**:

| Typy `pandas`| typy `Python`| Použití |
| :-: | :-: | :- |
| `object` | `str` nebo směska| text nebo namíchané číselné a nečíselné hodnoty |
| `int64` | `int`| celá čísla |
| `float64` | `float` | desetinná čísla |
| `bool` | `bool` | True a False |
| `datetime64` | `-`| Hodnota data a času |
| `timedelta` | `-` | Časové rozdíly |

<br>

Stejně jako pole nebo sekvence můžeš *indexovat* a *slicovat* hodnoty typu `Series`.

In [16]:
mesta_sloupecek

0             Praha
1              Brno
2           Ostrava
3    Hradek Králové
dtype: object

<br>

#### Indexování sloupečku

---

In [17]:
mesta_sloupecek[1]    # s Indexem sloupečku

'Brno'

<br>

#### Slicing sloupečku

---

In [18]:
mesta_sloupecek[0:3]  # 0, 1, 2.

0      Praha
1       Brno
2    Ostrava
dtype: object

Na první pohled není tolik odlišný od datového typu `list` nebo `tuple` (případně pole v `numpy`).

Největší rozdíl spočítá právě v **indexu/Indexu**.

Ať `list`, `tuple` nebo `numpy.array` implicitně pracují **s celočíselným indexem**.

<br>

Objekt `Series` na druhou stranu nabízí možnost, zadávat vlastní indexové hodnoty:

In [19]:
mesta_sloupecek = Series(["Praha", "Brno", "Ostrava", "Hradek Králové"],
                         index=["1_mesto", "2_mesto", "3_mesto", "4_mesto"])
                         # Tvoje specifické indexy

In [20]:
mesta_sloupecek.index

Index(['1_mesto', '2_mesto', '3_mesto', '4_mesto'], dtype='object')

In [21]:
mesta_sloupecek

1_mesto             Praha
2_mesto              Brno
3_mesto           Ostrava
4_mesto    Hradek Králové
dtype: object

In [22]:
mesta_sloupecek["2_mesto"]

'Brno'

Tímto způsobem si můžeš představit řadu, sloupec (`Series`) jako variantu datového typu `dict`, v Pythonu.

Víš, že ve slovníku Pythonu jsou hodnoty *mapované* na jednotlivé klíče.

<br>

#### Pokročilé, type-specific
---
V případě `Series` jde o mapování **typovaných hodnot** na **typované klíče**. Právě pojem **typovaný** (~*type-specific*) je zásadní.

Právě *typovaný* zkompilovaný kód od `Series` nabízí některé efektivnější metody a funkce, které obyč. `dict` v Pythonu ne.

In [23]:
populace_evropa = {'Dansko': 5_655_750,
                   'Ceska_republika': 10_513_209,
                   'Nemecko': 80_716_000,
                   'Polsko': 38_483_957,
                   'Slovensko': 5_415_949,
                   'Rakousko': 8_932_664}

In [24]:
populace_evropa_sl = Series(populace_evropa)

In [25]:
populace_evropa_sl

Dansko              5655750
Ceska_republika    10513209
Nemecko            80716000
Polsko             38483957
Slovensko           5415949
Rakousko            8932664
dtype: int64

<br>

Defaultně ti objekt `Series` nachystá index ze seřazených klíčů původního datového typu `dict`.

Můžeš provést klasické mapování hodnoty na jméno klíče:

In [26]:
populace_evropa_sl["Ceska_republika"]

10513209

K tomu, ale `Series` nabízí operace jako např. *slicing* pro pole:

In [27]:
mesta  # zadávání omezené na indexy celými čísly

('Praha', 'Brno', 'Ostrava', 'Hradek Králové')

In [28]:
populace_evropa_sl["Ceska_republika": "Polsko"]

Ceska_republika    10513209
Nemecko            80716000
Polsko             38483957
dtype: int64

<br>

#### 🧠 CVIČENÍ 🧠, přepočítej hodnoty ve sloupečku

In [29]:
from pandas import Series

# Data v milionech, převeď na jednotky
# 8_400_000.0, .., ponechej desetinná čísla
# .. pro pokročilé převeď na celá čísla
data = {"New York": 8.4,        
        "London": 9.0,
        "Tokyo": 13.9,
        "Sydney": 5.3}

In [30]:
# Zapiš řešení
data_sloupecek = Series(data)

In [31]:
data_sloupecek

New York     8.4
London       9.0
Tokyo       13.9
Sydney       5.3
dtype: float64

In [32]:
def preved_na_jednotky(cely_sloupec):
    prepocitany_sl = cely_sloupec * 1_000_000
    return prepocitany_sl.astype('int64')  # Pro pokročilé

<br>

Formátování celého čísla pomocí řádového oddělovače:

In [33]:
print(f"{1000000:,}".replace(',', ' '))   # TODO: Doplnit oddělovač

1 000 000


In [34]:
preved_na_jednotky(data_sloupecek)

New York     8400000
London       9000000
Tokyo       13900000
Sydney       5300000
dtype: int64

<details>
    <summary>▶️ Řešení</summary>
    
```python
import pandas as pd

data = {
    "New York": 8.4,
    "London": 9.0,
    "Tokyo": 13.9,
    "Sydney": 5.3,
}


mesta_sl = pd.Series(data)


def preved_na_jednotky(series):
    return series * 1_000_000  # astype(int) -> celé číslo


prevedene = preved_na_jednotky(mesta_sl)
```
</details>

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse1.mm.bing.net%2Fth%3Fid%3DOIP._inpASbq98lGCmZFxPEq7wHaHa%26pid%3DApi&f=1&ipt=ecf1243da46e7ae6341330ae58bda2a6456c95f63a0cd79eda7d561cf3334a57&ipo=images" width="200" style="margin-left:auto; margin-right:auto"/>

<br>

### DataFrame

---


Dalším elementárním datovým typem této knihovny je `DataFrame`.

Analogicky si jej můžeš představit **jako tabulku** v Excelu.

Tedy objekt složený **z řádků** (Indexů) a **sloupců** (`Series`).

In [35]:
populace_evropa = {
    'Dansko': 5_655_750,
    'Ceska_republika': 10_513_209,
    'Nemecko': 80_716_000,
    'Polsko': 38_483_957,
    'Slovensko': 5_415_949,
    'Rakousko': 8_932_664
}

In [36]:
rozloha_evropa = {
    'Dansko': 42_916,
    'Ceska_republika': 78_870,
    'Nemecko': 357_168,
    'Polsko': 312_679,
    'Slovensko': 49_035,
    'Rakousko': 83_878
}

<br>

Nezapomeň nahrát potřebný objekt:

In [37]:
from pandas import DataFrame

In [38]:
zeme_evropa_df = DataFrame({"Populace": populace_evropa,
                            "Rozloha": rozloha_evropa})

In [39]:
print(zeme_evropa_df)

                 Populace  Rozloha
Dansko            5655750    42916
Ceska_republika  10513209    78870
Nemecko          80716000   357168
Polsko           38483957   312679
Slovensko         5415949    49035
Rakousko          8932664    83878


In [40]:
zeme_evropa_df

Unnamed: 0,Populace,Rozloha
Dansko,5655750,42916
Ceska_republika,10513209,78870
Nemecko,80716000,357168
Polsko,38483957,312679
Slovensko,5415949,49035
Rakousko,8932664,83878


In [41]:
type(zeme_evropa_df)

pandas.core.frame.DataFrame

<br>

Stejně jako u `Series` má i `DataFrame` svoje *indexy*:

In [42]:
zeme_evropa_df.index

Index(['Dansko', 'Ceska_republika', 'Nemecko', 'Polsko', 'Slovensko',
       'Rakousko'],
      dtype='object')

<br>

Navíc můžeš pracovat s atributem `columns`, který drží jména **jednotlivých sloupečků**:

In [43]:
zeme_evropa_df.columns

Index(['Populace', 'Rozloha'], dtype='object')

In [44]:
zeme_evropa_df.values

array([[ 5655750,    42916],
       [10513209,    78870],
       [80716000,   357168],
       [38483957,   312679],
       [ 5415949,    49035],
       [ 8932664,    83878]])

Proto si můžeš objekt `DataFrame` představit také jako Pythonovský `dict`.

<br>

Ovšem s tím rozdílem, že tentokrát mapuješ jméno sloupečku na `Series`:

In [45]:
zeme_evropa_df["Populace"]

Dansko              5655750
Ceska_republika    10513209
Nemecko            80716000
Polsko             38483957
Slovensko           5415949
Rakousko            8932664
Name: Populace, dtype: int64

In [46]:
populace_sl = zeme_evropa_df["Populace"]

In [47]:
type(populace_sl)

pandas.core.series.Series

Opatrně při vytváření nového `DataFrame`, u chybějících klíčů implictině zapisuje `Nan` hodnotu (~*not a number*):

In [48]:
import numpy
from pandas import DataFrame

In [49]:
chybejici_hodnoty_df = DataFrame([{"A": 1, "B": 4},
                                  {"C": 6, "B": 7}])  # dtype

In [50]:
print(None)

None


Navíc si můžeš všimnout rozdílné definice **datového typu**:

In [51]:
chybejici_hodnoty_df.dtypes

A    float64
B      int64
C    float64
dtype: object

In [52]:
chybejici_hodnoty_df["A"]

0    1.0
1    NaN
Name: A, dtype: float64

In [53]:
konvertovany_sl_a = chybejici_hodnoty_df["A"].convert_dtypes()

In [54]:
konvertovany_sl_a

0       1
1    <NA>
Name: A, dtype: Int64

Více si o přetypování obecně a dozvíš později.

#### 🧠 CVIČENÍ 🧠, přidej nový sloupeček

In [55]:
from pandas import DataFrame

# Přidej do tabulky nový sloupec "Hustota zalidnění"
data = {
    "Město": ["New York", "London", "Tokyo", "Sydney"],
    "Populace (v mio)": [8.4, 9.0, 13.9, 5.3],
    "Plocha (km²)": [783, 1572, 2194, 1687]
}

In [56]:
data_df = DataFrame(data, index=data['Město'])

In [57]:
data_df

Unnamed: 0,Město,Populace (v mio),Plocha (km²)
New York,New York,8.4,783
London,London,9.0,1572
Tokyo,Tokyo,13.9,2194
Sydney,Sydney,5.3,1687


In [58]:
data_df['Populace (v mio)']

New York     8.4
London       9.0
Tokyo       13.9
Sydney       5.3
Name: Populace (v mio), dtype: float64

In [59]:
data_df['Nový sloupec'] = 'abc'  # odráží zápis hodnot a klíčů do dict

In [60]:
data_df

Unnamed: 0,Město,Populace (v mio),Plocha (km²),Nový sloupec
New York,New York,8.4,783,abc
London,London,9.0,1572,abc
Tokyo,Tokyo,13.9,2194,abc
Sydney,Sydney,5.3,1687,abc


In [61]:
def vypocitej_hustotu_osidleni(tabulka):  # DataFrame
    df["Hustota zalidnění (na km²)"] = (df["Populace (v mio)"] * 1_000_000 / df["Plocha (km²)"]).round().astype(int)
    return df

<details>
    <summary>▶️ Řešení</summary>
    
```python
import pandas as pd

data = {
    "Město": ["New York", "London", "Tokyo", "Sydney"],
    "Populace (v mio)": [8.4, 9.0, 13.9, 5.3],
    "Plocha (km²)": [783, 1572, 2194, 1687],
}

mesta_df = pd.DataFrame(data)

def vypocitej_hustotu_zalidneni(df):
    """
    Přidejte nový sloupec 'Hustota zalidnění' (počet obyvatel na km²).
    """
    df["Hustota zalidnění (na km²)"] = (df["Populace (v mio)"] * 1_000_000 / df["Plocha (km²)"]).round().astype(int)
    return df

df = vypocitej_hustotu_zalidneni(mesta_df)
print(df)
```
</details>

<img src="https://imgs.search.brave.com/EQep67dP5UaJDlqkF2HvOQTESVA_LQSZx_SR7FE6JYM/rs:fit:500:0:0:0/g:ce/aHR0cHM6Ly9kMW5o/aW8wb3g3cGdiLmNs/b3VkZnJvbnQubmV0/L19pbWcvb19jb2xs/ZWN0aW9uX3BuZy9n/cmVlbl9kYXJrX2dy/ZXkvNTEyeDUxMi9w/bGFpbi90YWJsZV9z/ZWxlY3Rpb25fcm93/LnBuZw" width="200" style="margin-left:auto; margin-right:auto"/>

### Index

---


Posledním ze základních objektů frameworku `pandas` je tedy **Index** (velké "i").

Jak `Series`, tak `DataFrame` v sobě *Index* obsahují.

Pro jednoduchost, si jej můžeš představit jako označení jednotlivých řádků v tabulce.

In [62]:
from pandas import Index

In [63]:
indexy = Index([2, 3, 4, 5])

In [64]:
indexy

Index([2, 3, 4, 5], dtype='int64')

In [65]:
type(indexy)

pandas.core.indexes.base.Index

In [66]:
nove_indexy = Index(('radek_1', 'radek_2', 'radek_3'))

In [67]:
type(nove_indexy)

pandas.core.indexes.base.Index

<br>

#### indexování Indexů

---

In [68]:
indexy

Index([2, 3, 4, 5], dtype='int64')

In [69]:
indexy[2]

4

<br>

#### Slicování indexů

---

In [70]:
indexy[:3]

Index([2, 3, 4], dtype='int64')

<br>

#### Nezměnitelný objekt

---

In [71]:
indexy[2]

4

In [72]:
# indexy[2] = 3  # --> TypeError

Tato nezměnitelnost slouží k větší bezpečnosti, protože jednotlivé indexy, může sdílet více `DataFrame`.

<br>

#### Index jako seřazený set

---

In [73]:
indexy_a = Index([1, 2, 3, 4])
indexy_b = Index([3, 4, 5, 6])

In [74]:
indexy_a.intersection(indexy_b)

Index([3, 4], dtype='int64')

In [75]:
indexy_a.union(indexy_b)

Index([1, 2, 3, 4, 5, 6], dtype='int64')

<br>

### Souhrn k základním typům

---

- **sloupečky**, jako pole, jednorozměrné, možnost selekce indexů i hodnot a jejich rozsahů,
- **indexy**, jako pole, nezměnitelné, možnost selekce jednoho řádků i rozsahu řádků,
- **tabulka**, vícerozměrné pole, výběr podle sloupců.


<img src="https://imgs.search.brave.com/CoDVQW6cpYcV0qJtUejA7WQat4mLN2AOxuK2hXwgGAo/rs:fit:500:0:0:0/g:ce/aHR0cHM6Ly9jZG4w/Lmljb25maW5kZXIu/Y29tL2RhdGEvaWNv/bnMvcm91bmQtdWkt/aWNvbnMvNTEyL2Fk/ZF9ibHVlLnBuZw" width="200" style="margin-left:auto; margin-right:auto"/>

<br>

## Načítání objektů

---

Vytvořit nový `DataFrame` je záležitost několika málo argumentů.

Není ovšem velmi časté, chystat data *z ničeho*.

Většinou potřebuješ právě nahrát různé **existující externí soubory**, do `DataFrame` objektů.

* `read_csv`,
* `read_excel`,
* `read_json`,
* `read_html`,
* `read_sql`,
* `read_parquet`,
* `read_sas`.

###  Načti soubor `csv`

---

Knihovna nabízí přímo specializovanou funkci `read_csv`.

Ta dovede načíst obsah souboru do nového `DataFrame`.

Pro první použití, případně pozdější rozšíření je vhodné, prozkoumat dokumentaci:

In [76]:
from pandas import read_csv

<br>

Načteš jméno souboru se specifickou příponou `csv`:

In [77]:
# zamestnanci_df = read_csv('../onsite/inp.csv')  # FileNotFoundError

<br>

Je možné použít jak absolutní tak relativní cestu k souboru:

In [78]:
zamestnanci_df = read_csv('/home/matous/projects/python-data-2024/shared/onsite/customers_inp.csv')

<br>

Prozkoumej samotný soubor:

In [79]:
# !cat ../onsite/customers_inp.csv

<br>

Nyní se podívej jak vypadá nově vytvořený `DataFrame`:

In [80]:
type(zamestnanci_df)

pandas.core.frame.DataFrame

In [81]:
zamestnanci_df

Unnamed: 0,customer_id;first_name;last_name;phone;email
0,11;Matous;Holinka;`+420777666555;matous@matous...
1,12;Marek;Parek;`+420777434111;marek.parek@gmai...
2,13;Petr;Svetr;`+420777333111;petr@svetr.com
3,14;Alice;Svobodova;`+420777200300;svobodova.a@...
4,15;Tereza;Novakova;`+420777608080;novakova_ter...


Je potřeba pohlídat si (není řazené podle priorit):
* indexy,
* záhlaví,
* strukturu jednotlivých `Series`,
* datové typy.

<br>

Pokud nesedí **defaultní oddělovač** (*sep* nebo *delimiter*):

In [82]:
# !sed -i s"/,/;/g" ../onsite/customers_inp.csv

In [83]:
# !cat ../onsite/customers_inp.csv

In [84]:
zamestnanci_strednik_df = read_csv('../onsite/customers_inp.csv', sep=';')

In [85]:
zamestnanci_strednik_df

Unnamed: 0,customer_id,first_name,last_name,phone,email
0,11,Matous,Holinka,`+420777666555,matous@matousholinka.com
1,12,Marek,Parek,`+420777434111,marek.parek@gmail.com
2,13,Petr,Svetr,`+420777333111,petr@svetr.com
3,14,Alice,Svobodova,`+420777200300,svobodova.a@email.cz
4,15,Tereza,Novakova,`+420777608080,novakova_terka@seznam.cz


<br>

Můžeš zadat jiný než *defaultní* oddělovač:

In [86]:
zamestnanci_strednik_df['phone']

0    `+420777666555
1    `+420777434111
2    `+420777333111
3    `+420777200300
4    `+420777608080
Name: phone, dtype: object

**Nevhodné datové typy** je také možné řešit při nové inicializaci `DataFrame`:

In [87]:
zamestnanci_strednik_df.dtypes

customer_id     int64
first_name     object
last_name      object
phone          object
email          object
dtype: object

Pokud potřebuješ *vynutit* konverzi datového typu:

In [88]:
zamestnanci_bez_cisel_df = read_csv(
    '../onsite/customers_inp.csv',
    sep=";",
    dtype={"customer_id": str,
           "first_name": str,
           "last_name": str,  # int --> ValueError
           "phone": str,
           "email": str}
)

In [89]:
zamestnanci_bez_cisel_df.dtypes

customer_id    object
first_name     object
last_name      object
phone          object
email          object
dtype: object

<br>

### Načti tabulku `html`

---

Funkce `read_html` často zastává některé kroky *web scrapování*.

Přesto je jejím učelem "pouze" extrahování dat v HTML `<table></table>` elementech.

Ukázka [zdroj](https://simple.wikipedia.org/wiki/List_of_U.S._states).

In [90]:
# %run ../../shared/onsite/demo_read_html.py

<br>

**🧠 CVIČENÍ 🧠, načti vlastní CSV soubor**.

In [91]:
# Zápis
cesta_k_souboru: str = '../onsite/games.csv'

In [92]:
from pandas import read_csv

In [93]:
from pathlib import Path

if not Path(cesta_k_souboru).exists():
    print('Chybi soubor pro zpracovani')

hry_df = read_csv(cesta_k_souboru)

In [94]:
hry_df.head(2)

Unnamed: 0.1,Unnamed: 0,Title,Release Date,Team,Rating,Times Listed,Number of Reviews,Genres,Summary,Reviews,Plays,Playing,Backlogs,Wishlist
0,0,Elden Ring,"Feb 25, 2022","['Bandai Namco Entertainment', 'FromSoftware']",4.5,3.9K,3.9K,"['Adventure', 'RPG']","Elden Ring is a fantasy, action and open world...","[""The first playthrough of elden ring is one o...",17K,3.8K,4.6K,4.8K
1,1,Hades,"Dec 10, 2019",['Supergiant Games'],4.3,2.9K,2.9K,"['Adventure', 'Brawler', 'Indie', 'RPG']",A rogue-lite hack and slash dungeon crawler in...,['convinced this is a roguelike for people who...,21K,3.2K,6.3K,3.6K


<details>
    <summary>▶️ Řešení</summary>
    
```python
import pandas as pd

muj_csv_soubor = 'toto/je/relativni/cesta.csv'

testovaci_data = pd.read_csv(muj_csv_soubor)
```
</details>

Konvence pro načítání dat `read_XYZ` (kde `XYZ` představuje formát souborů).

Pro ukládání souborů slouží `to_XYZ`.

<br>

### Souhrn kapitoly

---

Typický postup, pro práci s pandami, je identifikovat a správně načíst datový zdroj.


<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse3.mm.bing.net%2Fth%3Fid%3DOIP.ACSOiM-U0Q1dA-4JLXwShAHaHx%26pid%3DApi&f=1&ipt=6d4afed7c3560452103fe53af2bd94638c28007aa3141700570a84c7fab7263a&ipo=images" width="200" style="margin-left:auto; margin-right:auto"/>



<br>

## Prozkoumávání dat

---

Jakmile máš data správně načtená a přetypovaná, můžeš s nimi začít pracovat.

Než se do toho vrhneš, není špatné, umět je prohlížet.

<br>

### Selekce u sloupečků

---

In [95]:
from pandas import Series

In [96]:
vek_sl = Series(
    [26, 36, 46, 56],
    index=['Petr', 'Pavel', 'Jiri', 'Tomas'] # ??? , 'Jarek', 'Tomas'; , 66, 76
)

<br>

Pro vytvořený sloupeček:

In [97]:
vek_sl

Petr     26
Pavel    36
Jiri     46
Tomas    56
dtype: int64

<br>

Pokud provádíš *slicing* pomocí *indexů*, implicitně **vynecháš konečný index**:

In [98]:
vek_sl[0:3]

Petr     26
Pavel    36
Jiri     46
dtype: int64

<br>

Pokud ovšem zadáváš přímo hodnotu *Indexu*, potom vybíráš hodnoty **včetně konečného Indexu**:

In [99]:
vek_sl["Petr": "Jiri"]

Petr     26
Pavel    36
Jiri     46
dtype: int64

Tento jednoduchý přístup potom vede **k častým chybám a nepochopením**.

### Atributy `loc`, `iloc`

---

Právě protože je *indexování* a *slicing* v rámci `Series` matoucí, existují pomocné atributy.

<br>

#### loc

---

Právě tento atribut zaručí, že budeš vždy pracovat pomocí **explicitního zadání hodnoty Indexů**:

In [100]:
vek_sl

Petr     26
Pavel    36
Jiri     46
Tomas    56
dtype: int64

In [101]:
vek_sl.loc["Petr": "Jiri"]

Petr     26
Pavel    36
Jiri     46
dtype: int64

<br>

Jde tedy o explicitní práci s Indexy knihovny `pandas`, ne indexy Pythonu:

In [102]:
jmena_sl = Series(
    ["Matous", "Marek", "Lukas", "Jan"],
    index=[1, 2, 3, 4]
)

In [103]:
jmena_sl

1    Matous
2     Marek
3     Lukas
4       Jan
dtype: object

In [104]:
jmena_sl.loc[1]

'Matous'

In [105]:
jmena_sl.loc[:3]

1    Matous
2     Marek
3     Lukas
dtype: object

Všimni si, jak *Index* o hodnotě 3 je součástí výstupu (narozdíl od pythonovského indexu 3).

<br>

#### iloc

---

Naopak atribut `iloc` je proces, který funguje výlučně na **indexování v rámci Pythonu** (pořadí, začíná nulou):

In [106]:
jmena_sl

1    Matous
2     Marek
3     Lukas
4       Jan
dtype: object

In [107]:
jmena_sl.iloc[1]   # Opatrně na výstup!!

'Marek'

In [108]:
jmena_sl.index[1]  # indexování Indexů

2

In [109]:
jmena_sl.loc[1]    # Opatrně na výstup!!

'Matous'

In [110]:
jmena_sl.iloc[:2]

1    Matous
2     Marek
dtype: object

Kvůli jasnosti a přehlednosti je obecně výhodnější a doporučováné, pracovat s atributy `loc` a `iloc`.

In [111]:
jmena_sl.loc[:2]

1    Matous
2     Marek
dtype: object

<br>

### Selekce u tabelárních hodnot

---

Jelikož je `DataFrame` složený ze sloupečků, můžeš aplikovat některé postupy z uplynulé teorie.

* **slovníkový klíč**,
* **atributový přístup**,
* **slovníkový náhled**,
* `loc`, `iloc`, `ix`, `T`.

In [112]:
from pandas import DataFrame

In [113]:
populace_evropa = {'Dansko': 5_655_750,
                   'Ceska_republika': 10_513_209,
                   'Nemecko': 80_716_000,
                   'Polsko': 38_483_957,
                   'Slovensko': 5_415_949,
                   'Rakousko': 8_932_664}

In [114]:
rozloha_evropa = {
    'Dansko': 42_916,
    'Ceska_republika': 78_870,
    'Nemecko': 357_168,
    'Polsko': 312_679,
    'Slovensko': 49_035,
    'Rakousko': 83_878
}

In [115]:
zeme_evropa_df = DataFrame({"populace": populace_evropa, "rozloha": rozloha_evropa})

In [116]:
zeme_evropa_df

Unnamed: 0,populace,rozloha
Dansko,5655750,42916
Ceska_republika,10513209,78870
Nemecko,80716000,357168
Polsko,38483957,312679
Slovensko,5415949,49035
Rakousko,8932664,83878


<br>

#### Přístup pomocí klíčů

---

In [117]:
zeme_evropa_df["populace"]

Dansko              5655750
Ceska_republika    10513209
Nemecko            80716000
Polsko             38483957
Slovensko           5415949
Rakousko            8932664
Name: populace, dtype: int64

In [118]:
zeme_evropa_df["rozloha"]

Dansko              42916
Ceska_republika     78870
Nemecko            357168
Polsko             312679
Slovensko           49035
Rakousko            83878
Name: rozloha, dtype: int64

<br>

#### Přístup pomocí atributů

---

In [119]:
# bool(zeme_evropa_df["rozloha"] is zeme_evropa_df.rozloha)

In [120]:
zeme_evropa_df.populace

Dansko              5655750
Ceska_republika    10513209
Nemecko            80716000
Polsko             38483957
Slovensko           5415949
Rakousko            8932664
Name: populace, dtype: int64

In [121]:
zeme_evropa_df.rozloha

Dansko              42916
Ceska_republika     78870
Nemecko            357168
Polsko             312679
Slovensko           49035
Rakousko            83878
Name: rozloha, dtype: int64

In [122]:
zeme_evropa_df.rozloha > 100_000

Dansko             False
Ceska_republika    False
Nemecko             True
Polsko              True
Slovensko          False
Rakousko           False
Name: rozloha, dtype: bool

In [123]:
zeme_evropa_df[zeme_evropa_df.rozloha > 100_000]

Unnamed: 0,populace,rozloha
Nemecko,80716000,357168
Polsko,38483957,312679


In [124]:
zeme_evropa_df[zeme_evropa_df["rozloha"] > 100_000]

Unnamed: 0,populace,rozloha
Nemecko,80716000,357168
Polsko,38483957,312679


Opatrně, atributový přístup nelze aplikovat, pokud je jméno sloupečku shodné s některým **z rezerovaných výrazů**.

<br>

#### Slovníkový náhled

---

In [125]:
zeme_evropa_df.index

Index(['Dansko', 'Ceska_republika', 'Nemecko', 'Polsko', 'Slovensko',
       'Rakousko'],
      dtype='object')

In [126]:
zeme_evropa_df.columns

Index(['populace', 'rozloha'], dtype='object')

In [127]:
zeme_evropa_df.values

array([[ 5655750,    42916],
       [10513209,    78870],
       [80716000,   357168],
       [38483957,   312679],
       [ 5415949,    49035],
       [ 8932664,    83878]])

<br>

#### loc

---

Stejná pravidla jako pro `Series`, nicméne tentokrát můžeš vybírat buď jednotlivé Indexy, nebo pole Indexů:

In [128]:
zeme_evropa_df

Unnamed: 0,populace,rozloha
Dansko,5655750,42916
Ceska_republika,10513209,78870
Nemecko,80716000,357168
Polsko,38483957,312679
Slovensko,5415949,49035
Rakousko,8932664,83878


In [129]:
zeme_evropa_df.loc["Nemecko"]

populace    80716000
rozloha       357168
Name: Nemecko, dtype: int64

In [130]:
zeme_evropa_df.loc[:"Nemecko"]

Unnamed: 0,populace,rozloha
Dansko,5655750,42916
Ceska_republika,10513209,78870
Nemecko,80716000,357168


<br>

Dále můžeš vybírat kombinaci Indexů a sloupce nebo rozsah sloupců:

In [131]:
zeme_evropa_df.loc["Nemecko", "populace"]

80716000

In [132]:
zeme_evropa_df.loc[:"Nemecko", "populace"]

Dansko              5655750
Ceska_republika    10513209
Nemecko            80716000
Name: populace, dtype: int64

In [133]:
zeme_evropa_df.loc["Ceska_republika":"Nemecko", :"rozloha"]

Unnamed: 0,populace,rozloha
Ceska_republika,10513209,78870
Nemecko,80716000,357168


<br>

#### iloc

---

In [134]:
zeme_evropa_df.iloc[:3, 1]

Dansko              42916
Ceska_republika     78870
Nemecko            357168
Name: rozloha, dtype: int64

<br>

#### Transformace

---

In [135]:
zeme_evropa_df.T

Unnamed: 0,Dansko,Ceska_republika,Nemecko,Polsko,Slovensko,Rakousko
populace,5655750,10513209,80716000,38483957,5415949,8932664
rozloha,42916,78870,357168,312679,49035,83878


#### ix

---

Jde o atribut-hybrid, který kombinuje mixování stylů z `loc` a `iloc`.

Tento *legacy atribut* se již oficiálně nedoporučuje.

In [136]:
# zeme_evropa_df.ix[:"Nemecko", :2]  # iloc + loc --> dnes AttributeError

<img src="https://imgs.search.brave.com/lQb3xLIlg9zkzNeOExyC9yipGtQiF1BrVKrC4BwqbF8/rs:fit:500:0:0:0/g:ce/aHR0cHM6Ly90NC5m/dGNkbi5uZXQvanBn/LzA1LzU0LzExLzY3/LzM2MF9GXzU1NDEx/Njc4Nl9DZGhSbWha/YWlaRjdvUVhVajYz/d2RTSzVjOGo5SXNL/bS5qcGc" width="250" style="margin-left:auto; margin-right:auto"/>

<br>

### Metody pro průzkumu dat a nahlížení

---

Následující metody ti ulehčí nahlížení a prozkoumávání dat.

Jsou to metody:
* `info()`,
* `describe()`,
* `head()`,
* `tail()`,

In [137]:
from pandas import DataFrame

In [138]:
populace_evropa = {
    'Dansko': 5_655_750,
    'Ceska_republika': 10_513_209,
    'Nemecko': 80_716_000,
    'Polsko': 38_483_957,
    'Slovensko': 5_415_949,
    'Rakousko': 8_932_664
}

In [139]:
rozloha_evropa = {
    'Dansko': 42_916,
    'Ceska_republika': 78_870,
    'Nemecko': 357_168,
    'Polsko': 312_679,
    'Slovensko': 49_035,
    'Rakousko': 83_878
}

In [140]:
zeme_evropa_df = DataFrame({"populace": populace_evropa, "rozloha": rozloha_evropa})

<br>

#### Metoda `info()`

---

Jde o obecnou informaci o DataFrame:

In [141]:
zeme_evropa_df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 6 entries, Dansko to Rakousko
Data columns (total 2 columns):
 #   Column    Non-Null Count  Dtype
---  ------    --------------  -----
 0   populace  6 non-null      int64
 1   rozloha   6 non-null      int64
dtypes: int64(2)
memory usage: 144.0+ bytes


Z výstupu potom přečteš:
* počet indexů,
* počet sloupců,
* počet neprázdných, nenulových hodnot,
* datové typy pro sloupce.

<br>

#### Metoda `describe()`

---

Tato metoda ti nepodává základní informaci o DataFrame, ale spíše **pracuje s číselnými sloupci**.


Poskytuje základní **statistické přehledy** jako:
* průměr,
* medián,
* minimální & maximální hodnota,
* rozptyl.

In [142]:
zeme_evropa_df['populace'].describe()

count    6.000000e+00
mean     2.495292e+07
std      3.003943e+07
min      5.415949e+06
25%      6.474978e+06
50%      9.722936e+06
75%      3.149127e+07
max      8.071600e+07
Name: populace, dtype: float64

<br>

#### Metody `head()` a `tail()`

---

Obě metody pracují jako náhledové metody. K lepšímu pohledu na konkrétní řádky.

1. `head`, prozkoumá **prvních pět řádků** (defaultně),
2. `tail`, prozkoumá **posledních pět řádků** (defaultně),

In [143]:
zeme_evropa_df.head(3)  # truncate, 

Unnamed: 0,populace,rozloha
Dansko,5655750,42916
Ceska_republika,10513209,78870
Nemecko,80716000,357168


In [144]:
zeme_evropa_df.tail(4)

Unnamed: 0,populace,rozloha
Nemecko,80716000,357168
Polsko,38483957,312679
Slovensko,5415949,49035
Rakousko,8932664,83878


In [145]:
pokusny_index_df = read_csv('../onsite/customers_inp.csv', sep=';', index_col='customer_id')

In [146]:
pokusny_index_df

Unnamed: 0_level_0,first_name,last_name,phone,email
customer_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
11,Matous,Holinka,`+420777666555,matous@matousholinka.com
12,Marek,Parek,`+420777434111,marek.parek@gmail.com
13,Petr,Svetr,`+420777333111,petr@svetr.com
14,Alice,Svobodova,`+420777200300,svobodova.a@email.cz
15,Tereza,Novakova,`+420777608080,novakova_terka@seznam.cz


<br>

**🧠 CVIČENÍ 🧠, diktát s pandama.**

**Nahraj zadaný soubor do proměnné `hry_df`**

In [147]:
hry_df = read_csv("../onsite/games.csv")

In [148]:
hry_df.head(2)

Unnamed: 0.1,Unnamed: 0,Title,Release Date,Team,Rating,Times Listed,Number of Reviews,Genres,Summary,Reviews,Plays,Playing,Backlogs,Wishlist
0,0,Elden Ring,"Feb 25, 2022","['Bandai Namco Entertainment', 'FromSoftware']",4.5,3.9K,3.9K,"['Adventure', 'RPG']","Elden Ring is a fantasy, action and open world...","[""The first playthrough of elden ring is one o...",17K,3.8K,4.6K,4.8K
1,1,Hades,"Dec 10, 2019",['Supergiant Games'],4.3,2.9K,2.9K,"['Adventure', 'Brawler', 'Indie', 'RPG']",A rogue-lite hack and slash dungeon crawler in...,['convinced this is a roguelike for people who...,21K,3.2K,6.3K,3.6K


<details>
    <summary>▶️ Řešení</summary>
    
```python
hry_df = read_csv("../onsite/lesson02/games.csv")
```
</details>

<br>

**Vytvoř proměnnou `jen_souhrn`, která obsahuje pouze sloupec `Summary`**

In [149]:
jen_souhrn = hry_df['Summary']

In [150]:
jen_souhrn

0       Elden Ring is a fantasy, action and open world...
1       A rogue-lite hack and slash dungeon crawler in...
2       The Legend of Zelda: Breath of the Wild is the...
3       A small child falls into the Underground, wher...
4       A 2D metroidvania with an emphasis on close co...
                              ...                        
1507    Back to the Future: The Game is one of Telltal...
1508    Team Sonic Racing combines the best elements o...
1509    Set in a huge open world, Dragon’s Dogma: Dark...
1510    An ancient evil has returned to Baldur's Gate,...
1511    Join Emmet and an unlikely group of resistance...
Name: Summary, Length: 1512, dtype: object

<details>
    <summary>▶️ Řešení</summary>
    
    ```
    souhrn = hry_df.Summary
    ```
</details>

<br>

**Vytvoř proměnnou `prvni_souhrn`, která obsahuje pouze první řádek ze sloupce `Summary`**

In [151]:
prvni_souhrn = hry_df.iloc[0]['Summary']

In [152]:
prvni_souhrn

'Elden Ring is a fantasy, action and open world game with RPG elements such as stats, weapons and spells. Rise, Tarnished, and be guided by grace to brandish the power of the Elden Ring and become an Elden Lord in the Lands Between.'

<details>
    <summary>▶️ Řešení</summary>
    
    ```
    prvni_radek = hry_df.Summary.iloc[0]
    ```
</details>

<br>

**Vytvoř proměnnou `prvni_radek_tab`, která obsahuje celý první záznam z tabulky, z `hry_df`**

In [153]:
prvni_radek_tab = hry_df.iloc[0]

<details>
    <summary>▶️ Řešení</summary>
    
    ```
    prvni_radek_tab = hry_df.iloc[0]
    ```
</details>

<br>

**Vytvoř proměnnou `prvnich_deset_souhrnu`, kam načti prvních deset řádků z vybraného sloupečku `Summary`**

In [154]:
prvnich_deset_souhrnu = hry_df.iloc[:10]['Summary']

In [155]:
prvnich_deset_souhrnu

0    Elden Ring is a fantasy, action and open world...
1    A rogue-lite hack and slash dungeon crawler in...
2    The Legend of Zelda: Breath of the Wild is the...
3    A small child falls into the Underground, wher...
4    A 2D metroidvania with an emphasis on close co...
5    Minecraft focuses on allowing the player to ex...
6    A turn-based surreal horror RPG in which a chi...
7    Join intergalactic bounty hunter Samus Aran in...
8    Join your crew-mates in a multiplayer game of ...
9    NieR: Automata tells the story of androids 2B,...
Name: Summary, dtype: object

<details>
    <summary>▶️ Řešení</summary>
    
    ```
    prvni_souhrny = hry_df.Summary.iloc[:10]
    ```
</details>

<br>

**Vytvoř proměnnou `vzorek_indexu`, kam načti záznamy z indexů **2, 4, 5, 6, 7** a **9** z celé tabulky**

In [156]:
vzorek_indexu = hry_df.iloc[[2, 4, 5, 6, 7, 9]]

In [157]:
vzorek_indexu

Unnamed: 0.1,Unnamed: 0,Title,Release Date,Team,Rating,Times Listed,Number of Reviews,Genres,Summary,Reviews,Plays,Playing,Backlogs,Wishlist
2,2,The Legend of Zelda: Breath of the Wild,"Mar 03, 2017","['Nintendo', 'Nintendo EPD Production Group No...",4.4,4.3K,4.3K,"['Adventure', 'RPG']",The Legend of Zelda: Breath of the Wild is the...,['This game is the game (that is not CS:GO) th...,30K,2.5K,5K,2.6K
4,4,Hollow Knight,"Feb 24, 2017",['Team Cherry'],4.4,3K,3K,"['Adventure', 'Indie', 'Platform']",A 2D metroidvania with an emphasis on close co...,"[""this games worldbuilding is incredible, with...",21K,2.4K,8.3K,2.3K
5,5,Minecraft,"Nov 18, 2011",['Mojang Studios'],4.3,2.3K,2.3K,"['Adventure', 'Simulator']",Minecraft focuses on allowing the player to ex...,['Minecraft is what you make of it. Unfortunat...,33K,1.8K,1.1K,230
6,6,Omori,"Dec 25, 2020","['OMOCAT', 'PLAYISM']",4.2,1.6K,1.6K,"['Adventure', 'Indie', 'RPG', 'Turn Based Stra...",A turn-based surreal horror RPG in which a chi...,"[""The best game I've played in my life"", ""omor...",7.2K,1.1K,4.5K,3.8K
7,7,Metroid Dread,"Oct 07, 2021","['Nintendo', 'MercurySteam']",4.3,2.1K,2.1K,"['Adventure', 'Platform']",Join intergalactic bounty hunter Samus Aran in...,['Have only been a Metroid fan for couple of y...,9.2K,759,3.4K,3.3K
9,9,NieR: Automata,"Feb 23, 2017","['PlatinumGames', 'Square Enix']",4.3,2.9K,2.9K,"['Brawler', 'RPG']","NieR: Automata tells the story of androids 2B,...","['Holy shit', 'im carrying the weight of the w...",18K,1.1K,6.2K,3.6K


<details>
    <summary>▶️ Řešení</summary>
    
    ```
    vzorek_indexu = hry_df.loc[[2, 4, 5, 6, 7, 9]]
    ```
</details>

<br>

**Vytvoř proměnnou `hodnoceni`, načti záznamy z indexů **1, 5, 10, 100, 1000** z celé tabulky a vyber pouze sloupečky `Title`, `Rating`, `Release Date`, `Number of Reviews`**

In [158]:
hodnoceni = hry_df.loc[
    [1, 5, 10, 100, 1000],
    ['Title', 'Rating', 'Release Date', 'Number of Reviews']
]

In [159]:
hodnoceni

Unnamed: 0,Title,Rating,Release Date,Number of Reviews
1,Hades,4.3,"Dec 10, 2019",2.9K
5,Minecraft,4.3,"Nov 18, 2011",2.3K
10,Persona 5 Royal,4.4,"Oct 31, 2019",2.7K
100,MultiVersus,2.8,"Jul 19, 2022",480
1000,Grand Theft Auto III,3.3,"Oct 22, 2001",711


<details>
    <summary>▶️ Řešení</summary>
    
    ```
    hodnoceni = hry_df.loc[[1, 5, 10, 100, 1000], ["Title", "Rating", "Release Date", "Number of Reviews"]]
    ```
</details>

<br>

**Vytvoř proměnnou `prvnich_sto`, která obsahuje pouze sloupečky `Title`a `Rating`. Dále potřebuješ uložit pouze **prvních 100 indexů****

In [160]:
prvnich_sto = hry_df[:100][['Title', 'Rating']]

In [161]:
prvnich_sto

Unnamed: 0,Title,Rating
0,Elden Ring,4.5
1,Hades,4.3
2,The Legend of Zelda: Breath of the Wild,4.4
3,Undertale,4.2
4,Hollow Knight,4.4
...,...,...
95,Metroid Prime Remastered,4.5
96,Halo Infinite,3.3
97,Batman: Arkham Asylum,3.9
98,Super Mario Sunshine,3.7


<details>
    <summary>▶️ Řešení</summary>
    
    ```
    prvnich_sto = hry_df.loc[:99, ["Title", "Rating"]]
    ```
</details>

<br>

**Vytvoř proměnnou `vyber`, která obsahuje dva sloupečky `Title` a `Rating`, kde ve sloupečku `rating` chceš získat pouze takové tituly, které mají hodnocení větší nebo rovnou `4.6`**

In [162]:
# vyber = hry_df[['Title', 'Rating']]
# vyber = hry_df['Rating'] >= 4.6

vyber = hry_df[hry_df['Rating'] >= 4.6][['Title', 'Rating']]

In [163]:
vyber

Unnamed: 0,Title,Rating
28,Disco Elysium: The Final Cut,4.6
43,Outer Wilds,4.6
139,Disco Elysium,4.6
252,Umineko: When They Cry Chiru,4.6
297,Bloodborne: The Old Hunters,4.6
354,Disco Elysium: The Final Cut,4.6
369,Outer Wilds,4.6
428,Disco Elysium,4.6
539,Umineko: When They Cry Chiru,4.6
717,Hitman World of Assassination,4.6


<details>
    <summary>▶️ Řešení</summary>
    
    ```
    vyber_her = hry_df[hry_df["Rating"] >= 4.6]
    ```

</details>

---