# Python, Data, 2025

---

* [Skutečné hodnoty](#Skutečné-datové-sety),
    - [chybějící údaje](#Kolik-mi-chybí-údajů),
    - [encoding](#Encoding),
    - [nekonzistentní data](#Nekonzistentní-data).

---


<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse1.mm.bing.net%2Fth%3Fid%3DOIP.JJu86kKRph1LHt5M7agODQHaHa%26pid%3DApi&f=1&ipt=5cfb9e9f7b451b3a4f7a3ebdc4eb99177d477f20f8145cd818cc4966143f8b2b&ipo=images" width="160" style="margin-left:auto; margin-right:auto"/>

## Skutečné datové sety

---

Čištění dat je proces, který patří k samotné práci s daty.

Spolu s některými souvisejícími úkony, patří mezi ty více frustrující.

Nesmyslné datové typy, zkomolené časové údaje, nefungující transformace.

In [None]:
from pandas import DataFrame

In [None]:
uzivatele_df = DataFrame({'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eve'],
                          'Age': [None, 20, None, 22, 23],
                          'Height_cm': [160, 170, 175, None, 165],
                          'Weight_kg': [50, 65, 70, 80, 55]})

In [None]:
uzivatele_df

Ihned po načtení je nejlepší **data prozkoumat**.

Nejenom datové typy ale také mít povědomí **o chybějících hodnotách**:

In [None]:
uzivatele_df.info()

<br>

Pomocí metody `info` si uděláš aspoň povrchní přehled o hodnotách, datových typech a chybějících hodnotách.

<br>

### Kolik mi chybí údajů?

---

Vždycky přistupuj k datům s mírnou skepsí.

Otázkou potom není, *JESTLI* mi chybí data, ale *KOLIK* dat mi chybí **a kde**.

In [None]:
chybejici_hodnoty = uzivatele_df.isnull()  # isna()

In [None]:
chybejici_hodnoty

<br>

Pomocí metody `isnull` nahradíš všechny chybějící hodnoty v tabulce/sloupcích pomocí `True`.

Pokud nechybí, nahradí s `False`.

In [None]:
type(chybejici_hodnoty)

Takový výstup ale není zcela reprezentativní.

<br>

Proto je potřeba, sečíst všechny `True` hodnoty **po sloupcích**:

In [None]:
soucet_chybejich_hodnot = uzivatele_df.isnull().sum()

In [None]:
soucet_chybejich_hodnot

<br>

Opět v jednotkách to nemusí zcela **prozrazovat chybovost**.

Nejlepším indikátorem ale bývají **procenta z celkového množství hodnot ve sloupci**:

In [None]:
uzivatele_df.shape[0]

<br>

... v tomto případě jde o počet záznamů/ řádků v tabulce.

In [None]:
celkem_zaznamu = uzivatele_df.shape[0]  # 0 ... Indexy, 1 ... sloupce

In [None]:
v_procentech = round(soucet_chybejich_hodnot / celkem_zaznamu * 100, 1)

In [None]:
v_procentech

<br>

Případně celkové množství záznamů ve všech sloupcích:

In [None]:
vsechny_bunky = uzivatele_df.shape[0] * uzivatele_df.shape[1]  # 5 * 4

In [None]:
vsechny_bunky

In [None]:
vsechny_chybejici_hodnoty = chybejici_hodnoty.sum()            # 3

In [None]:
vsechny_chybejici_hodnoty

In [None]:
soucet_chybejich_hodnot.sum()

In [None]:
celkem_v_procentech = round(soucet_chybejich_hodnot.sum() / vsechny_bunky * 100, 1)

In [None]:
celkem_v_procentech

<br>

V této ukázce tedy chybí 15 % dat a to není málo!

<br>

### Co s chybějícími hodnotami?

---

Je důležité vědět, proč máš takové množství chybějících hodnot.

Chybí ti data, protože neexistují, nebo protože nejsou součástí záznamů v datasetu.

V takových krocích je obvykle nutné, pochopit podstatu údajů (dokumentace, specifikace,..).

Nejjednodušší způsoby, jak s chybějícími daty naložit (ale ne efektivní!!):
1. Zahodit chybějící hodnoty,
2. doplnit chybějící hodnoty.

#### Zahodit chybějící hodnoty
---

In [None]:
# df_uzivatele.dropna?

In [None]:
uzivatele_df

In [None]:
uzivatele_df.dropna()  # axis=0

<br>

V tento okamžik si zahodíš všechny záznamy, které **postrádaly nějakou hodnotu**.

Někdy je jednodušší zahodit sloupeček, který má chybějící hodnotu:

In [None]:
uzivatele_df.dropna(axis=1)

#### Doplnit automaticky hodnoty

---

In [None]:
# df_uzivatele.fillna?

In [None]:
uzivatele_df

In [None]:
novy_df = uzivatele_df.fillna('Nula')  # replace: "Nan" --> 0

In [None]:
novy_df['Age'] * 2

In [None]:
uzivatele_df

<br>

Pomocí funkce `fillna` můžeš vyplnit místo chybějících hodnot předdefinovanou vlastní hodnotu.

Nebo pomocí argumentu pro `method` pracovat s elegantnějším zadáním.

Nahradit chybějící hodnoty hodnotou, která následuje bezprostředně za ní ve stejném sloupci (To má velký smysl u souborů dat, kde mají pozorování nějaké logické pořadí.)

In [None]:
uzivatele_df.fillna(method='bfill', axis=0)

In [None]:
uzivatele_df

In [None]:
uzivatele_df.fillna(method='ffill', axis=0)

<br>

Při volbě metody `ffill` může dělat problémy chybějící hodnota v prvním Indexu.

In [None]:
uzivatele_df.fillna(method='ffill', axis=0).fillna(19)

Pro doplnění **nedoplněných hodnot** ve spolupráci s metodou `fillna` můžeš tuto metoda spustit opakovaně.

In [None]:
import numpy

In [None]:
numpy.isnan(0)

In [None]:
uzivatele_df

Založím novou kopii objektu z původní tabulky: 

In [None]:
novi_uzivatele_df = uzivatele_df.copy()

<br>

Zapíšu existující hodnoty do nového sloupce `Age_NEW`:

In [None]:
novi_uzivatele_df['Age_NEW'] = novi_uzivatele_df['Age']

<br>

Nahradíme prázdné řádky s doplňujícím výpočtem:

In [None]:
chybejici = novi_uzivatele_df['Age'].isna()

In [None]:
chybejici

In [None]:
novi_uzivatele_df.loc[chybejici, 'Age_NEW'] = \
    novi_uzivatele_df.loc[chybejici, 'Height_cm'] * novi_uzivatele_df.loc[chybejici, 'Weight_kg']

In [None]:
novi_uzivatele_df.head()

<img src="https://imgs.search.brave.com/lUUqjUIBtDUFPXtoZsXuQckIeZDaKPxCsaKdK1kJuFw/rs:fit:500:0:0:0/g:ce/aHR0cHM6Ly90NC5m/dGNkbi5uZXQvanBn/LzA5LzM4LzAxLzE1/LzM2MF9GXzkzODAx/MTU4MF9leVZ5Um9z/Z20wakNsVzhMRm1l/R0dpeDNJQ0tXdmhV/WS5qcGc" width="160" style="margin-left:auto; margin-right:auto"/>



### Encoding, znakové sady

---

Problémy s *kódováním* jsou běžné.

Jde o proces, který mapuje **bajtové stringy** (`0110101011`) na **uživatelsky čitelný text** (`"ahoj!"`).

Tento problém nastane, pokud se snažíš načíst zdroj v jiné kódovací sadě, než byl soubor zapsaný.

Protože je těchto sad hodně, občas skončíš s *escapovanými znaky*, nebo s neznámými kliky-háky:

In [None]:
print('æ–‡å')

<br>

Případně pokud nelze domapovat znaky:

��

<br>

V **Pythonu 2** nebylo lehké *encoding* zajistit.

V **Pythonu 3** je celý proces o dost jednodušší.

Standardem pro práci bývá obyčejně UTF-8. Na to ale zrovna v našich končinách nemůžeš spoléhat.

In [None]:
veta = "Matouš zaplatil 100 $"

In [None]:
# veta?

<br>

Údaj, který vidíš výš je datový typ `str`.

In [None]:
prevedena_veta = veta.encode("utf-8", errors="replace")

In [None]:
prevedena_veta

In [None]:
# prevedena_veta?

<br>

Dál je možné, převést `str` na `bytes`. Tedy sekvenci čísel.

Jak ale teď tato sekvence vypadá:

In [None]:
prevedena_veta

<br>

Celou větu můžeš zpátky kódovat pomocí funkce `decode` z `bytes` na `str`:

In [None]:
print(prevedena_veta.decode("utf-8"))

<br>

Pokud ale zvolíš jinou sadu, nemusíš dostat stejné hodnoty:

In [None]:
print(prevedena_veta.decode("windows-1250"))

In [None]:
# print(prevedena_veta.decode("ascii"))

<br>

Toto a další neúspěšné postupy je samozřejmě špatně a ty se tomu chceš určitě vyhnout.

In [None]:
from pandas import read_csv

In [None]:
# chybna_sada = read_csv("../onsite/cviceni_3.csv")

<br>

Ne vždy je možné, defaultně pracovat se znakovou sadou **UTF-8**.

Ve výstupu je vidět, že jde o směs několika sad a ty musíš vyzkoušet, jaká bude fungovat.

<br>

Pomocí knihovny `sys` zkontroluješ, jakou znakovou sadu interně používáš:

In [None]:
import sys

In [None]:
sys.getdefaultencoding()

<br>

Ještě potřebuješ nástroj, který umí ověřit znakovou lokálního souboru:

#### Řešení pomocí knihovny chardet

---

Současně je řešení pomocí této knihovny starší, existují efektivnější varianty:

In [None]:
# !pip install chardet

In [None]:
from chardet.universaldetector import UniversalDetector

In [None]:
detector = UniversalDetector()

In [None]:
for line in open("../onsite/cviceni_3.csv", 'rb'):
    detector.feed(line)
    if detector.done:
        break

detector.close()
print(detector.result)

<br>

#### Řešení pomocí charset-normalizer

---

In [None]:
# !pip install charset-normalizer

In [None]:
import charset_normalizer

<br>

Použít relativní/absolutní cestu k souboru a načíst jej do Pythonu:

In [None]:
vysledky = charset_normalizer.from_path("../onsite/cviceni_3.csv")

In [None]:
hledana_znak_sada = vysledky.best()

In [None]:
hledana_znak_sada.percent_coherence

In [None]:
hledana_znak_sada.encoding

<br>

Pomocí stringu knihovně předám lokální soubor, který je řádek po řádku kontrolován:

<br>

Pomocí knihovny `chardet` / `charset_normalizer` identifikuješ, o jaké znakové sady jde:

Nyní máš lepší představu o tom, jakou znakovou sadu soubor používá.

Opatrně na délku `str`, který detekuješ.

Pokud je příliš krátký, může to ovlivnit výsledek.

Naopak pokud je příliš dlouhý, může trvat jeho načtení.

In [None]:
spravna_sada = read_csv("../onsite/cviceni_3.csv", encoding="Windows-1252")

In [None]:
spravna_sada.head()

In [None]:
spravna_sada = read_csv("../onsite/cviceni_3.csv",
                        encoding="cp1250",
                        sep=';')

In [None]:
spravna_sada.head()

In [None]:
spravna_sada.info()

<br>

Tentokrát soubor otevřeš pouze s varováním.

Pro příště je určitě výhodou vytvořit kopii takového souboru, kterou uložíš v ideálním kódování:

In [None]:
spravna_sada.to_csv("../onsite/cviceni_3_sada_utf8.csv", encoding="utf-8")

<img src="https://imgs.search.brave.com/EXc5_PuzQ1oh9QtKkq86VbHLTjcQKbX7sH3-di9Lrxc/rs:fit:500:0:0:0/g:ce/aHR0cHM6Ly9jZG4y/Lmljb25maW5kZXIu/Y29tL2RhdGEvaWNv/bnMvdGhpbmdzLTEz/LzgwL21hdGNoaW5n/LWNvbXBhcmUtbWF0/Y2hpbmctY29sbGF0/ZS02NC5wbmc" width="160" style="margin-left:auto; margin-right:auto"/>



<br>

### Nekonzistentní data

---

Pokud ti data nechybí, ještě neznamená, že musí být nutně v pořádku:

In [1]:
from pandas import DataFrame

In [2]:
chybny_dataset = {
    "id": [111, 112, 113, 114, 115, 116, 117],
    "jmeno": ["Matous", "Marek", "Petr", "Filip", "Jan", "Lukas", "David"],
    "vek": [22, 29, 31, 55, 43, 61, 55],
    "zeme": ["Ceska republika", "Slovensko", "Nemecko", "Ceskarepublika", "Ceska Republika", "Rakousko", "Ceska Reapublika"]
}

In [3]:
zamestnanci_df = DataFrame(chybny_dataset)

In [4]:
zamestnanci_df

Unnamed: 0,id,jmeno,vek,zeme
0,111,Matous,22,Ceska republika
1,112,Marek,29,Slovensko
2,113,Petr,31,Nemecko
3,114,Filip,55,Ceskarepublika
4,115,Jan,43,Ceska Republika
5,116,Lukas,61,Rakousko
6,117,David,55,Ceska Reapublika


Různé zdroje, správci můžou způsobit nejednotný zápis a dopustit se *nekonzistence*.

In [5]:
zamestnanci_df["jmeno"].unique()

array(['Matous', 'Marek', 'Petr', 'Filip', 'Jan', 'Lukas', 'David'],
      dtype=object)

In [6]:
zamestnanci_df["zeme"].unique()

array(['Ceska republika', 'Slovensko', 'Nemecko', 'Ceskarepublika',
       'Ceska Republika', 'Rakousko', 'Ceska Reapublika'], dtype=object)

<br>

To můžou být jak malá velká písmena, tak různé znaky, chybějící mezery apod.

Odstranit je není náročné.

Náročné může být opět rozpoznání takové komplikace.

In [7]:
zamestnanci_df["zeme"].str.lower().unique()

array(['ceska republika', 'slovensko', 'nemecko', 'ceskarepublika',
       'rakousko', 'ceska reapublika'], dtype=object)

<br>

Některé chyby, ale můžou způsobit paseku. Třeba chybějící mezery.

Tady je nejlepší, pomoci si vhodným nástrojem.

<br>

Knihovny typu:
- `Rapidfuzz`,
- `difflib`,
- `SpaCy`,
- `Jellyfish`,
- `fuzzywuzzy`

#### Ukázka pomocí `fuzzywuzzy`

---

In [None]:
# !pip install fuzzywuzzy

In [8]:
import fuzzywuzzy
from fuzzywuzzy import process



<br>

Pro menší datasety s chybějícími mezerami aj., může tato knihovna pracovat prakticky sama.

Účel této knihovny je rozpoznat podobné řetězce, jaké

In [9]:
shodne = fuzzywuzzy.process.extract("Ceska republika",  # 'ceska repoblika'
                                    zamestnanci_df["zeme"],
                                    limit=6,
                                    scorer=fuzzywuzzy.fuzz.token_sort_ratio)

In [10]:
shodne

[('Ceska republika', 100, 0),
 ('Ceska Republika', 100, 4),
 ('Ceskarepublika', 97, 3),
 ('Ceska Reapublika', 97, 6),
 ('Slovensko', 25, 1),
 ('Nemecko', 18, 2)]

<br>

Dostávám **dvourozměrné pole** (matici), která obsahuje jednotlivé výstupy.

Mezi výstupy řadíme:
1. Porovnávaný string,
2. pravděpodobnost, se kterou odpovídá zadanému stringu.

In [11]:
zamestnanci_df["zeme"].unique()

array(['Ceska republika', 'Slovensko', 'Nemecko', 'Ceskarepublika',
       'Ceska Republika', 'Rakousko', 'Ceska Reapublika'], dtype=object)

<br>

Nyní můžeš vidět shodné `str` se zvoleným zadáním, jak to vidí `fuzzywuzzy`.

Pro nahrazení je optimální nachystat vhodnou uživatelskou funkci:

In [12]:
nejblizsi_shoda = [shoda[0] for shoda in shodne if shoda[1] >= 90]

<br>

Izoluji jen ty shody, které se z zádáním shodují více než na 90%:

In [13]:
nejblizsi_shoda

['Ceska republika', 'Ceska Republika', 'Ceskarepublika', 'Ceska Reapublika']

In [14]:
shodujici_udaje = zamestnanci_df["zeme"].isin(nejblizsi_shoda)  # ~membership testing

In [15]:
shodujici_udaje

0     True
1    False
2    False
3     True
4     True
5    False
6     True
Name: zeme, dtype: bool

In [16]:
zamestnanci_df

Unnamed: 0,id,jmeno,vek,zeme
0,111,Matous,22,Ceska republika
1,112,Marek,29,Slovensko
2,113,Petr,31,Nemecko
3,114,Filip,55,Ceskarepublika
4,115,Jan,43,Ceska Republika
5,116,Lukas,61,Rakousko
6,117,David,55,Ceska Reapublika


In [17]:
zamestnanci_df.loc[1]  # Index

id             112
jmeno        Marek
vek             29
zeme     Slovensko
Name: 1, dtype: object

In [18]:
zamestnanci_df.loc[1, 'zeme']

'Slovensko'

In [19]:
zamestnanci_df.loc[[0, 3, 4, 6], "zeme"]

0     Ceska republika
3      Ceskarepublika
4     Ceska Republika
6    Ceska Reapublika
Name: zeme, dtype: object

In [20]:
zamestnanci_df.loc[shodujici_udaje, "zeme"]

0     Ceska republika
3      Ceskarepublika
4     Ceska Republika
6    Ceska Reapublika
Name: zeme, dtype: object

In [21]:
zamestnanci_df.loc[shodujici_udaje, "zeme"] = "Ceska republika"

In [22]:
zamestnanci_df

Unnamed: 0,id,jmeno,vek,zeme
0,111,Matous,22,Ceska republika
1,112,Marek,29,Slovensko
2,113,Petr,31,Nemecko
3,114,Filip,55,Ceska republika
4,115,Jan,43,Ceska republika
5,116,Lukas,61,Rakousko
6,117,David,55,Ceska republika


In [25]:
def nahrad_shody_stringem(dframe, jmeno_sloupce, vzor, min_shoda=90):
    vsechny_stringy = dframe[jmeno_sloupce].unique()
    
    shody = fuzzywuzzy.process.extract(vzor, vsechny_stringy, limit=5,
                                       scorer=fuzzywuzzy.fuzz.token_sort_ratio)
    
    nejblizsi_shoda = [shoda [0] for shoda in shody if shoda[1] >= min_shoda]
    
    shodujici_zaznam = dframe[jmeno_sloupce].isin(nejblizsi_shoda)
    dframe.loc[shodujici_zaznam, jmeno_sloupce] = vzor
    return dframe

In [26]:
nahrad_shody_stringem(dframe=zamestnanci_df,
                      jmeno_sloupce="zeme",
                      vzor="Ceska republika")

Unnamed: 0,id,jmeno,vek,zeme
0,111,Matous,22,Ceska republika
1,112,Marek,29,Slovensko
2,113,Petr,31,Nemecko
3,114,Filip,55,Ceska republika
4,115,Jan,43,Ceska republika
5,116,Lukas,61,Rakousko
6,117,David,55,Ceska republika


#### Ukázka s RapidFuzz

---

In [None]:
# !pip install RapidFuzz

In [27]:
from rapidfuzz import fuzz, process

In [28]:
def nahrad_shody_stringem(dframe, jmeno_sloupce, vzor, min_shoda=90):
    vsechny_stringy = dframe[jmeno_sloupce].unique()

    shody = process.extract(vzor,
                            vsechny_stringy,
                            scorer=fuzz.token_sort_ratio,
                            limit=5)

    nejblizsi_shody = [shoda[0] for shoda in shody if shoda[1] >= min_shoda]

    shodujici_zaznam = dframe[jmeno_sloupce].isin(nejblizsi_shody)
    dframe.loc[shodujici_zaznam, jmeno_sloupce] = vzor

    return dframe

In [29]:
nahrad_shody_stringem(zamestnanci_df, "zeme", "Ceska Republika", min_shoda=85)

Unnamed: 0,id,jmeno,vek,zeme
0,111,Matous,22,Ceska Republika
1,112,Marek,29,Slovensko
2,113,Petr,31,Nemecko
3,114,Filip,55,Ceska Republika
4,115,Jan,43,Ceska Republika
5,116,Lukas,61,Rakousko
6,117,David,55,Ceska Republika


<br>

#### **🧠 CVIČENÍ 🧠, procvič si práci s chybným datasetem, 1**

In [32]:
import pandas as pd
from fuzzywuzzy import process

In [33]:
import difflib

In [68]:
data_df = pd.DataFrame({
    "city": ["Praag", "Londn", "New York", "Tokio", "Sidney", "London", "Praha", "Nwe York", "Sydney", "Tky"]
})

In [None]:
correct_cities = ["Prague", "London", "New York", "Tokyo", "Sydney"]

In [69]:
data_df

Unnamed: 0,city
0,Praag
1,Londn
2,New York
3,Tokio
4,Sidney
5,London
6,Praha
7,Nwe York
8,Sydney
9,Tky


In [36]:
vsechny_unikatni_hodnoty = data_df['city'].unique()

In [48]:
vsechny_testovaci_hodnoty = ['Tokio', 'Tky', 'ykToo', 'Tok@@@o']

In [49]:
shoda_fuzzy = process.extract("Tokyo",
                              vsechny_testovaci_hodnoty,
                              limit=4,
                              scorer=fuzz.token_sort_ratio)

In [51]:
shoda_fuzzy

[('Tokio', 80.0), ('Tky', 75.0), ('ykToo', 60.0), ('Tok@@@o', 60.0)]

<br>

#### Řešení pomocí knihovny `difflib`

---

In [54]:
shoda_difflib = difflib.get_close_matches("Tokyo",
                                          vsechny_testovaci_hodnoty,
                                          n=4,
                                          cutoff=0.55)

In [55]:
shoda_difflib

['Tokio', 'Tky', 'Tok@@@o', 'ykToo']

In [62]:
potencialni_radky = data_df['city'].isin(shoda_difflib)

In [66]:
data_df

'Tokyo'

In [70]:
data_df.loc[potencialni_radky, 'city'] = 'Tokyo'

In [71]:
data_df

Unnamed: 0,city
0,Praag
1,Londn
2,New York
3,Tokyo
4,Sidney
5,London
6,Praha
7,Nwe York
8,Sydney
9,Tokyo


In [73]:
for city in correct_cities:
    shoda_difflib = difflib.get_close_matches(city,
                                              vsechny_unikatni_hodnoty,
                                              n=5,
                                              cutoff=0.6)
    
    # Identifikuji řádky, které se shodují se vzorem True/ False
    potencialni_radky = data_df['city'].isin(shoda_difflib)

    # Nahraď shodné hodnoty ve sloupci
    data_df.loc[potencialni_radky, 'city'] = city

In [74]:
data_df

Unnamed: 0,city
0,Prague
1,London
2,New York
3,Tokyo
4,Sydney
5,London
6,Praha
7,New York
8,Sydney
9,Tokyo


<details>
    <summary>▶️ Řešení</summary>
    
```python
import pandas as pd

data = pd.DataFrame({
    "city": ["Praag", "Londn", "New York", "Tokio", "Sidney", "London", "Praha", "Nwe York", "Sydney", "Tky"]
})

correct_cities = ["Prague", "London", "New York", "Tokyo", "Sydney"]

def fix_city_name_all(city, correct_cities, threshold=65):
    matches = process.extract(city, correct_cities, limit=3)
    best_match = matches[0]
    return best_match[0] if best_match[1] > threshold else city

data["corrected_city"] = [
    fix_city_name_all(city, correct_cities) for city in data["city"]
]

print(data)
```
</details>

<br>

#### **🧠 CVIČENÍ 🧠, procvič si práci s chybným datasetem, 2**

Analyzuj prodeje produktu ve fiktivní společnosti během jednoho roku a zjisti následující:
1. Nahraj soubor do `DataFrame`, jméno souboru `cviceni_3.csv` (správný encoding, správné rozdělení),
2. projdi sloupce, zkontroluj, kde je problém s daty,
3. vypiš všechny záznamy, které mají ve sloupci `mesto` hodnotu `Praha`.

In [None]:
from pandas import read_csv

In [None]:
import pandas as pd
import fuzzywuzzy
from fuzzywuzzy import process

<details>
    <summary>▶️ Řešení</summary>
    
```python
df_ukazka = read_csv("cviceni_3.csv", encoding="Windows-1250", delimiter=";")

def nahrad_shody_stringem(df, vzor, vyber, min_shoda=85):
    shody = fuzzywuzzy.process.extract(vzor, vyber, limit=20,
                                       scorer=fuzzywuzzy.fuzz.token_sort_ratio)

    nejblizsi_shoda = [shoda[0] for shoda in shody if shoda[1] >= min_shoda]

    shodujici_zaznam = vyber.isin(nejblizsi_shoda)
    df.loc[shodujici_zaznam, "mesto"] = vzor
    
nahrad_shody_stringem(df_ukazka, "Praha", df_ukazka["mesto"])
vystup = df_ukazka[df_ukazka["mesto"] == "Praha"]


# Alternativní řešení
data = pd.read_csv(
    encoding = 'cp1250',
    sep = ';'
)

def nahrad_shody_stringem(dframe, sloupec, vzor, min_shoda=60):
    vsechny_stringy = dframe[sloupec].unique()
    shody = fuzzywuzzy.process.extract(vzor, vsechny_stringy, limit=5, scorer=fuzzywuzzy.fuzz.token_sort_ratio)
    nejblizsi_shoda = [shoda [0] for shoda in shody if shoda[1] >= min_shoda]
    shodujici_zaznam = dframe[sloupec].isin(nejblizsi_shoda)
    dframe.loc[shodujici_zaznam, sloupec] = vzor

print( 'Problémy s daty:' )
display( data[~data['narozeni'].str.contains('\\d{1,2}/\\d{1,2}/\\d{4}', regex= True, na=False)] )
display( data['mesto'].unique( ) )

#oprava narození
data['narozeni'] = data['narozeni'].astype( 'datetime64' )
#oprava města
nahrad_shody_stringem(dframe=data, sloupec="mesto", vzor="Praha")
print( 'Výsledek:' )
data.query( "mesto == 'Praha'" )
```
</details>

---