# Príprava dát

[Originálny zdroj notebooku z *Data Science: Introduction to Machine Learning for Data Science Python and Machine Learning Studio od Lee Stott*](https://github.com/leestott/intro-Datascience/blob/master/Course%20Materials/4-Cleaning_and_Manipulating-Reference.ipynb)

## Preskúmanie informácií o `DataFrame`

> **Cieľ učenia:** Na konci tejto podsekcie by ste mali byť schopní pohodlne nájsť všeobecné informácie o dátach uložených v pandas DataFrames.

Keď načítate svoje dáta do pandas, je veľmi pravdepodobné, že budú vo forme `DataFrame`. Ak však má váš `DataFrame` 60 000 riadkov a 400 stĺpcov, ako vôbec začať chápať, s čím pracujete? Našťastie pandas poskytuje niekoľko praktických nástrojov na rýchle získanie celkových informácií o `DataFrame`, ako aj na zobrazenie prvých a posledných niekoľkých riadkov.

Aby sme preskúmali túto funkcionalitu, importujeme knižnicu Python scikit-learn a použijeme ikonický dataset, ktorý každý dátový vedec videl stokrát: dataset britského biológa Ronalda Fishera *Iris*, použitý v jeho článku z roku 1936 "Použitie viacerých meraní v taxonomických problémoch":


In [1]:
import pandas as pd
from sklearn.datasets import load_iris

iris = load_iris()
iris_df = pd.DataFrame(data=iris['data'], columns=iris['feature_names'])

### `DataFrame.shape`
Načítali sme dataset Iris do premennej `iris_df`. Predtým, než sa pustíme do analýzy dát, by bolo užitočné vedieť, koľko dátových bodov máme a aká je celková veľkosť datasetu. Je užitočné pozrieť sa na objem dát, s ktorými pracujeme.


In [2]:
iris_df.shape

(150, 4)

Takže máme do činenia so 150 riadkami a 4 stĺpcami údajov. Každý riadok predstavuje jeden dátový bod a každý stĺpec predstavuje jednu vlastnosť spojenú s dátovým rámcom. V podstate teda ide o 150 dátových bodov, z ktorých každý obsahuje 4 vlastnosti.

`shape` je tu atribút dátového rámca, nie funkcia, a preto nekončí dvojicou zátvoriek.


### `DataFrame.columns`
Pozrime sa teraz na 4 stĺpce údajov. Čo presne každý z nich predstavuje? Atribút `columns` nám poskytne názvy stĺpcov v dataframe.


In [3]:
iris_df.columns

Index(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)'],
      dtype='object')

Ako môžeme vidieť, sú tu štyri (4) stĺpce. Atribút `columns` nám hovorí názvy stĺpcov a v podstate nič viac. Tento atribút nadobúda význam, keď chceme identifikovať vlastnosti, ktoré dataset obsahuje.


### `DataFrame.info`
Množstvo údajov (dané atribútom `shape`) a názvy vlastností alebo stĺpcov (dané atribútom `columns`) nám poskytujú určitý pohľad na dataset. Teraz by sme chceli ísť hlbšie do datasetu. Funkcia `DataFrame.info()` je na to veľmi užitočná.


In [4]:
iris_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
dtypes: float64(4)
memory usage: 4.8 KB


Odtiaľto môžeme urobiť niekoľko pozorovaní:
1. Typ údajov každého stĺpca: V tomto súbore údajov sú všetky údaje uložené ako 64-bitové čísla s pohyblivou desatinnou čiarkou.
2. Počet nenulových hodnôt: Práca s nulovými hodnotami je dôležitým krokom pri príprave údajov. Týmto sa budeme zaoberať neskôr v notebooku.


### DataFrame.describe()
Povedzme, že máme veľa číselných údajov v našej dátovej sade. Jednoduché štatistické výpočty, ako je priemer, medián, kvartily atď., môžu byť vykonané na každom stĺpci samostatne. Funkcia `DataFrame.describe()` nám poskytuje štatistický prehľad číselných stĺpcov dátovej sady.


In [5]:
iris_df.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


Výstup vyššie zobrazuje celkový počet dátových bodov, priemer, štandardnú odchýlku, minimum, dolný kvartil (25 %), medián (50 %), horný kvartil (75 %) a maximálnu hodnotu každého stĺpca.


### `DataFrame.head`
So všetkými vyššie uvedenými funkciami a atribútmi sme získali všeobecný prehľad o dátovom súbore. Vieme, koľko dátových bodov obsahuje, koľko má vlastností, aký je dátový typ každej vlastnosti a koľko neprázdnych hodnôt má každá vlastnosť.

Teraz je čas pozrieť sa na samotné dáta. Pozrime sa, ako vyzerajú prvé riadky (prvé dátové body) nášho `DataFrame`:


In [6]:
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


Ako výstup tu vidíme päť (5) záznamov z datasetu. Ak sa pozrieme na index naľavo, zistíme, že ide o prvých päť riadkov.


### Cvičenie:

Z vyššie uvedeného príkladu je zrejmé, že predvolene `DataFrame.head` vráti prvých päť riadkov z `DataFrame`. V kódovom bloku nižšie, dokážete nájsť spôsob, ako zobraziť viac ako päť riadkov?


In [7]:
# Hint: Consult the documentation by using iris_df.head?

### `DataFrame.tail`
Ďalší spôsob, ako sa pozrieť na údaje, je od konca (namiesto od začiatku). Opačnou funkciou k `DataFrame.head` je `DataFrame.tail`, ktorá vráti posledných päť riadkov `DataFrame`:


In [8]:
iris_df.tail()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3
149,5.9,3.0,5.1,1.8


V praxi je užitočné mať možnosť jednoducho si prezrieť prvé alebo posledné riadky `DataFrame`, najmä keď hľadáte odľahlé hodnoty v usporiadaných dátových súboroch.

Všetky funkcie a atribúty uvedené vyššie s pomocou príkladov kódu nám umožňujú získať prehľad o dátach.

> **Hlavná myšlienka:** Už len pohľad na metadáta o informáciách v `DataFrame` alebo na prvé a posledné hodnoty v ňom vám môže okamžite poskytnúť predstavu o veľkosti, tvare a obsahu dát, s ktorými pracujete.


### Chýbajúce údaje
Pozrime sa na problematiku chýbajúcich údajov. Chýbajúce údaje nastávajú, keď v niektorých stĺpcoch nie je uložená žiadna hodnota.

Uveďme si príklad: povedzme, že niekto je citlivý na svoju váhu a nevyplní pole s váhou v prieskume. V takom prípade bude hodnota váhy pre danú osobu chýbať.

Vo väčšine prípadov sa v reálnych datasetoch vyskytujú chýbajúce hodnoty.

**Ako Pandas spracováva chýbajúce údaje**

Pandas spracováva chýbajúce hodnoty dvoma spôsobmi. Prvý ste už videli v predchádzajúcich sekciách: `NaN`, alebo Not a Number. Toto je špeciálna hodnota, ktorá je súčasťou špecifikácie IEEE pre čísla s pohyblivou desatinnou čiarkou a používa sa iba na označenie chýbajúcich hodnôt typu float.

Pre chýbajúce hodnoty, ktoré nie sú typu float, používa pandas objekt Pythonu `None`. Aj keď sa môže zdať mätúce, že sa stretnete s dvoma rôznymi typmi hodnôt, ktoré v podstate vyjadrujú to isté, existujú rozumné programátorské dôvody pre toto rozhodnutie. V praxi tento prístup umožňuje pandas dosiahnuť dobrý kompromis vo väčšine prípadov. Napriek tomu však `None` aj `NaN` majú obmedzenia, na ktoré si musíte dávať pozor, pokiaľ ide o ich použitie.


### `None`: nečíselné chýbajúce údaje
Keďže `None` pochádza z Pythonu, nemôže byť použitý v poliach NumPy a pandas, ktoré nemajú dátový typ `'object'`. Pamätajte, že polia NumPy (a dátové štruktúry v pandas) môžu obsahovať iba jeden typ údajov. Práve to im dáva obrovskú silu pri práci s veľkými dátami a výpočtovými operáciami, ale zároveň obmedzuje ich flexibilitu. Takéto polia musia byť pretypované na „najnižší spoločný menovateľ“, teda dátový typ, ktorý zahŕňa všetko v poli. Keď sa v poli nachádza `None`, znamená to, že pracujete s Python objektmi.

Aby ste to videli v praxi, zvážte nasledujúce príkladové pole (všimnite si jeho `dtype`):


In [9]:
import numpy as np

example1 = np.array([2, None, 6, 8])
example1

array([2, None, 6, 8], dtype=object)

Realita upcastovaných dátových typov prináša so sebou dva vedľajšie účinky. Po prvé, operácie sa budú vykonávať na úrovni interpretovaného Python kódu namiesto skompilovaného NumPy kódu. V podstate to znamená, že akékoľvek operácie zahŕňajúce `Series` alebo `DataFrames`, ktoré obsahujú `None`, budú pomalšie. Aj keď si tento pokles výkonu pravdepodobne nevšimnete, pri veľkých datasetoch by to mohlo predstavovať problém.

Druhý vedľajší účinok vyplýva z prvého. Keďže `None` v podstate vracia `Series` alebo `DataFrame` späť do sveta obyčajného Pythonu, použitie agregácií NumPy/pandas, ako napríklad `sum()` alebo `min()`, na poliach obsahujúcich hodnotu ``None`` vo všeobecnosti spôsobí chybu:


In [10]:
example1.sum()

TypeError: ignored

**Hlavný bod**: Sčítanie (a iné operácie) medzi celými číslami a hodnotami `None` je nedefinované, čo môže obmedziť možnosti práce s dátovými súbormi, ktoré ich obsahujú.


### `NaN`: chýbajúce hodnoty typu float

Na rozdiel od `None`, NumPy (a teda aj pandas) podporuje `NaN` pre svoje rýchle, vektorové operácie a ufuncs. Nevýhodou je, že akákoľvek aritmetická operácia vykonaná na `NaN` vždy vedie k výsledku `NaN`. Napríklad:


In [11]:
np.nan + 1

nan

In [12]:
np.nan * 0

nan

Dobrá správa: agregácie vykonávané na poliach s `NaN` v nich nevyhadzujú chyby. Zlá správa: výsledky nie sú jednotne užitočné:


In [13]:
example2 = np.array([2, np.nan, 6, 8]) 
example2.sum(), example2.min(), example2.max()

(nan, nan, nan)

### Cvičenie:


In [11]:
# What happens if you add np.nan and None together?


Pamätajte: `NaN` je len pre chýbajúce hodnoty s pohyblivou desatinnou čiarkou; neexistuje ekvivalent `NaN` pre celé čísla, reťazce alebo Booleovské hodnoty.


### `NaN` a `None`: nulové hodnoty v pandas

Aj keď sa `NaN` a `None` môžu správať trochu odlišne, pandas je navrhnutý tak, aby s nimi pracoval zameniteľne. Aby sme si to ukázali, pozrime sa na `Series` celých čísel:


In [15]:
int_series = pd.Series([1, 2, 3], dtype=int)
int_series

0    1
1    2
2    3
dtype: int64

### Cvičenie:


In [16]:
# Now set an element of int_series equal to None.
# How does that element show up in the Series?
# What is the dtype of the Series?


Pri procese zjednocovania dátových typov na zabezpečenie homogénnosti dát v `Series` a `DataFrame`s pandas ochotne prepína chýbajúce hodnoty medzi `None` a `NaN`. Vďaka tejto vlastnosti dizajnu môže byť užitočné vnímať `None` a `NaN` ako dva rôzne typy "nulových" hodnôt v pandas. Skutočne, niektoré základné metódy, ktoré budete používať na prácu s chýbajúcimi hodnotami v pandas, túto myšlienku odrážajú vo svojich názvoch:

- `isnull()`: Vytvára Booleovskú masku označujúcu chýbajúce hodnoty
- `notnull()`: Opak metódy `isnull()`
- `dropna()`: Vracia filtrovanú verziu dát
- `fillna()`: Vracia kópiu dát s vyplnenými alebo imputovanými chýbajúcimi hodnotami

Tieto metódy sú dôležité na zvládnutie a pohodlné používanie, preto si ich prejdime podrobnejšie.


### Detekcia nulových hodnôt

Teraz, keď sme pochopili význam chýbajúcich hodnôt, musíme ich najskôr identifikovať v našej dátovej sade, než s nimi začneme pracovať. Metódy `isnull()` a `notnull()` sú vaše hlavné nástroje na detekciu nulových údajov. Obe vracajú Booleovské masky nad vašimi údajmi.


In [17]:
example3 = pd.Series([0, np.nan, '', None])

In [18]:
example3.isnull()

0    False
1     True
2    False
3     True
dtype: bool

Pozrite sa pozorne na výstup. Prekvapilo vás niečo? Aj keď `0` je aritmetická nula, stále je to úplne platné celé číslo a pandas ho tak aj považuje. `''` je trochu jemnejší prípad. Aj keď sme ho v sekcii 1 použili na reprezentáciu prázdnej hodnoty reťazca, stále ide o objekt typu reťazec a pandas ho nepovažuje za reprezentáciu nulovej hodnoty.

Teraz to otočíme a použijeme tieto metódy spôsobom, akým ich budete používať v praxi. Boolean masky môžete použiť priamo ako index pre ``Series`` alebo ``DataFrame``, čo môže byť užitočné pri práci s izolovanými chýbajúcimi (alebo prítomnými) hodnotami.

Ak chceme získať celkový počet chýbajúcich hodnôt, stačí vykonať súčet nad maskou, ktorú vytvorí metóda `isnull()`.


In [19]:
example3.isnull().sum()

2

### Cvičenie:


In [20]:
# Try running example3[example3.notnull()].
# Before you do so, what do you expect to see?


**Hlavný bod**: Metódy `isnull()` a `notnull()` produkujú podobné výsledky, keď ich použijete v DataFrame: zobrazujú výsledky a index týchto výsledkov, čo vám môže výrazne pomôcť pri práci s vašimi údajmi.


### Práca s chýbajúcimi údajmi

> **Cieľ učenia:** Na konci tejto podsekcie by ste mali vedieť, ako a kedy nahradiť alebo odstrániť nulové hodnoty z DataFrames.

Modely strojového učenia nedokážu samy pracovať s chýbajúcimi údajmi. Preto je potrebné pred odovzdaním údajov do modelu tieto chýbajúce hodnoty spracovať.

Spôsob, akým sa chýbajúce údaje riešia, prináša jemné kompromisy, ktoré môžu ovplyvniť vašu konečnú analýzu a výsledky v reálnom svete.

Existujú dva hlavné spôsoby, ako sa vysporiadať s chýbajúcimi údajmi:

1.   Odstrániť riadok obsahujúci chýbajúcu hodnotu
2.   Nahradiť chýbajúcu hodnotu inou hodnotou

Obe tieto metódy a ich výhody a nevýhody si podrobne rozoberieme.


### Odstraňovanie nulových hodnôt

Množstvo údajov, ktoré poskytneme nášmu modelu, má priamy vplyv na jeho výkon. Odstraňovanie nulových hodnôt znamená, že znižujeme počet dátových bodov, a tým aj veľkosť datasetu. Preto je vhodné odstrániť riadky s nulovými hodnotami, keď je dataset pomerne veľký.

Ďalším prípadom môže byť situácia, keď určitý riadok alebo stĺpec obsahuje veľa chýbajúcich hodnôt. V takom prípade ich možno odstrániť, pretože by nepriniesli veľkú hodnotu do našej analýzy, keďže väčšina údajov pre daný riadok/stĺpec chýba.

Okrem identifikácie chýbajúcich hodnôt poskytuje pandas pohodlný spôsob na odstránenie nulových hodnôt zo `Series` a `DataFrame`. Aby sme to videli v praxi, vráťme sa k `example3`. Funkcia `DataFrame.dropna()` pomáha pri odstraňovaní riadkov s nulovými hodnotami.


In [21]:
example3 = example3.dropna()
example3

0    0
2     
dtype: object

Všimnite si, že toto by malo vyzerať ako váš výstup z `example3[example3.notnull()]`. Rozdiel je v tom, že namiesto indexovania na základe maskovaných hodnôt, `dropna` odstránil tieto chýbajúce hodnoty zo `Series` `example3`.

Keďže DataFrames majú dve dimenzie, ponúkajú viac možností na odstránenie údajov.


In [22]:
example4 = pd.DataFrame([[1,      np.nan, 7], 
                         [2,      5,      8], 
                         [np.nan, 6,      9]])
example4

Unnamed: 0,0,1,2
0,1.0,,7
1,2.0,5.0,8
2,,6.0,9


(Všimli ste si, že pandas zmenil typ dvoch stĺpcov na float, aby mohli obsahovať hodnoty `NaN`?)

Nie je možné odstrániť jednu hodnotu z `DataFrame`, takže musíte odstrániť celé riadky alebo stĺpce. V závislosti od toho, čo robíte, môžete chcieť použiť jednu alebo druhú možnosť, a preto vám pandas ponúka obe. Keďže v dátovej vede stĺpce zvyčajne predstavujú premenné a riadky predstavujú pozorovania, častejšie budete odstraňovať riadky dát; predvolené nastavenie pre `dropna()` je odstrániť všetky riadky, ktoré obsahujú akékoľvek nulové hodnoty:


In [23]:
example4.dropna()

Unnamed: 0,0,1,2
1,2.0,5.0,8


Ak je to potrebné, môžete odstrániť hodnoty NA zo stĺpcov. Použite `axis=1` na tento účel:


In [24]:
example4.dropna(axis='columns')

Unnamed: 0,2
0,7
1,8
2,9


Všimnite si, že týmto spôsobom môžete odstrániť veľa údajov, ktoré by ste možno chceli zachovať, najmä v menších súboroch údajov. Čo ak chcete odstrániť iba riadky alebo stĺpce, ktoré obsahujú niekoľko alebo dokonca všetky nulové hodnoty? Tieto nastavenia môžete špecifikovať v `dropna` pomocou parametrov `how` a `thresh`.

Predvolene je nastavené `how='any'` (ak si to chcete sami overiť alebo zistiť, aké ďalšie parametre má táto metóda, spustite `example4.dropna?` v bunkách kódu). Alternatívne môžete špecifikovať `how='all'`, aby ste odstránili iba riadky alebo stĺpce, ktoré obsahujú všetky nulové hodnoty. Rozšírime náš príklad `DataFrame`, aby sme si to ukázali v praxi v nasledujúcom cvičení.


In [25]:
example4[3] = np.nan
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


> Hlavné body: 
1. Odstránenie nulových hodnôt je dobrý nápad iba v prípade, že dataset je dostatočne veľký.
2. Celé riadky alebo stĺpce môžu byť odstránené, ak väčšina ich údajov chýba.
3. Metóda `DataFrame.dropna(axis=)` pomáha pri odstraňovaní nulových hodnôt. Argument `axis` určuje, či sa majú odstrániť riadky alebo stĺpce.
4. Môže sa použiť aj argument `how`. Predvolene je nastavený na hodnotu `any`. Takže odstraňuje iba tie riadky/stĺpce, ktoré obsahujú akékoľvek nulové hodnoty. Môže byť nastavený na hodnotu `all`, aby sa špecifikovalo, že odstránime iba tie riadky/stĺpce, kde sú všetky hodnoty nulové.


### Cvičenie:


In [22]:
# How might you go about dropping just column 3?
# Hint: remember that you will need to supply both the axis parameter and the how parameter.


Parameter `thresh` vám poskytuje jemnejšiu kontrolu: nastavíte počet *nenulových* hodnôt, ktoré musí riadok alebo stĺpec obsahovať, aby bol zachovaný:


In [27]:
example4.dropna(axis='rows', thresh=3)

Unnamed: 0,0,1,2,3
1,2.0,5.0,8,


Tu boli prvý a posledný riadok vynechané, pretože obsahujú iba dve nenulové hodnoty.


### Vyplnenie nulových hodnôt

Niekedy má zmysel vyplniť chýbajúce hodnoty takými, ktoré by mohli byť platné. Existuje niekoľko techník na vyplnenie nulových hodnôt. Prvou je použitie znalostí z danej oblasti (znalosti témy, na ktorej je dataset založený) na približné určenie chýbajúcich hodnôt.

Môžete použiť `isnull` na vykonanie tejto operácie priamo, ale to môže byť zdĺhavé, najmä ak máte veľa hodnôt na vyplnenie. Keďže ide o tak bežnú úlohu v dátovej vede, pandas poskytuje funkciu `fillna`, ktorá vráti kópiu `Series` alebo `DataFrame` s chýbajúcimi hodnotami nahradenými hodnotami podľa vášho výberu. Vytvorme ďalší príklad `Series`, aby sme videli, ako to funguje v praxi.


### Kategorické údaje (Nenumerické)
Najprv sa pozrime na nenumerické údaje. V datasetoch máme stĺpce s kategorizovanými údajmi, napr. Pohlavie, Pravda alebo Nepravda atď.

Vo väčšine týchto prípadov nahrádzame chýbajúce hodnoty `modom` stĺpca. Povedzme, že máme 100 dátových bodov, z ktorých 90 uviedlo Pravda, 8 uviedlo Nepravda a 2 nevyplnili. Potom môžeme tieto 2 nahradiť hodnotou Pravda, berúc do úvahy celý stĺpec.

Opäť tu môžeme využiť znalosti z danej oblasti. Pozrime sa na príklad vyplnenia pomocou modu.


In [28]:
fill_with_mode = pd.DataFrame([[1,2,"True"],
                               [3,4,None],
                               [5,6,"False"],
                               [7,8,"True"],
                               [9,10,"True"]])

fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,
2,5,6,False
3,7,8,True
4,9,10,True


Teraz najprv nájdime modus pred vyplnením hodnoty `None` modusom.


In [29]:
fill_with_mode[2].value_counts()

True     3
False    1
Name: 2, dtype: int64

Takže, nahradíme None hodnotou True


In [30]:
fill_with_mode[2].fillna('True',inplace=True)

In [31]:
fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,True
2,5,6,False
3,7,8,True
4,9,10,True


Ako vidíme, nulová hodnota bola nahradená. Netreba dodávať, že sme mohli napísať čokoľvek namiesto `'True'` a bolo by to nahradené.


### Číselné údaje
Teraz sa pozrime na číselné údaje. Tu máme dva bežné spôsoby nahrádzania chýbajúcich hodnôt:

1. Nahradiť mediánom riadku
2. Nahradiť priemerom riadku

Medián používame v prípade skreslených údajov s odľahlými hodnotami. Je to preto, že medián je odolný voči odľahlým hodnotám.

Keď sú údaje normalizované, môžeme použiť priemer, pretože v takom prípade by priemer a medián boli veľmi podobné.

Najprv si vezmime stĺpec, ktorý má normálne rozdelenie, a vyplňme chýbajúce hodnoty priemerom stĺpca.


In [32]:
fill_with_mean = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [np.nan,4,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,,4,5
3,1.0,6,7
4,2.0,8,9


Priemer stĺpca je


In [33]:
np.mean(fill_with_mean[0])

0.0

Vyplnenie priemerom


In [34]:
fill_with_mean[0].fillna(np.mean(fill_with_mean[0]),inplace=True)
fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,0.0,4,5
3,1.0,6,7
4,2.0,8,9


Ako vidíme, chýbajúca hodnota bola nahradená jej priemerom.


Teraz vyskúšajme ďalší dataframe, a tentokrát nahradíme hodnoty None mediánom stĺpca.


In [35]:
fill_with_median = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [0,np.nan,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,,5
3,1,6.0,7
4,2,8.0,9


Medián druhého stĺpca je


In [36]:
fill_with_median[1].median()

4.0

Vyplnenie mediánom


In [37]:
fill_with_median[1].fillna(fill_with_median[1].median(),inplace=True)
fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,4.0,5
3,1,6.0,7
4,2,8.0,9


Ako môžeme vidieť, hodnota NaN bola nahradená mediánom stĺpca.


In [38]:
example5 = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
example5

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64

Môžete vyplniť všetky prázdne položky jednou hodnotou, napríklad `0`:


In [39]:
example5.fillna(0)

a    1.0
b    0.0
c    2.0
d    0.0
e    3.0
dtype: float64

> Hlavné body:
1. Dopĺňanie chýbajúcich hodnôt by sa malo vykonávať, keď je k dispozícii menej údajov alebo existuje stratégia na ich doplnenie.
2. Na dopĺňanie chýbajúcich hodnôt je možné využiť odborné znalosti z danej oblasti, a to ich približným odhadom.
3. Pri kategorizovaných údajoch sa chýbajúce hodnoty najčastejšie nahrádzajú módou stĺpca.
4. Pri číselných údajoch sa chýbajúce hodnoty zvyčajne dopĺňajú priemerom (pri normalizovaných datasetoch) alebo mediánom stĺpcov.


### Cvičenie:


In [40]:
# What happens if you try to fill null values with a string, like ''?


Môžete **dopĺňať dopredu** nulové hodnoty, čo znamená použiť poslednú platnú hodnotu na vyplnenie nulovej hodnoty:


In [41]:
example5.fillna(method='ffill')

a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64

Môžete tiež **dopĺňať späť**, aby ste propagovali nasledujúcu platnú hodnotu dozadu na vyplnenie null:


In [42]:
example5.fillna(method='bfill')

a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64

Ako môžete hádať, toto funguje rovnako s DataFrames, ale môžete tiež špecifikovať `axis`, pozdĺž ktorého chcete vyplniť nulové hodnoty:


In [43]:
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


In [44]:
example4.fillna(method='ffill', axis=1)

Unnamed: 0,0,1,2,3
0,1.0,1.0,7.0,7.0
1,2.0,5.0,8.0,8.0
2,,6.0,9.0,9.0


Všimnite si, že keď predchádzajúca hodnota nie je dostupná na doplnenie, nulová hodnota zostáva.


### Cvičenie:


In [45]:
# What output does example4.fillna(method='bfill', axis=1) produce?
# What about example4.fillna(method='ffill') or example4.fillna(method='bfill')?
# Can you think of a longer code snippet to write that can fill all of the null values in example4?


Môžete byť kreatívni pri používaní `fillna`. Napríklad sa pozrime na `example4` znova, ale tentokrát vyplňme chýbajúce hodnoty priemerom všetkých hodnôt v `DataFrame`:


In [46]:
example4.fillna(example4.mean())

Unnamed: 0,0,1,2,3
0,1.0,5.5,7,
1,2.0,5.0,8,
2,1.5,6.0,9,


Všimnite si, že stĺpec 3 je stále bez hodnoty: predvolený smer je vyplniť hodnoty po riadkoch.

> **Poučenie:** Existuje viacero spôsobov, ako sa vysporiadať s chýbajúcimi hodnotami vo vašich dátových súboroch. Konkrétna stratégia, ktorú použijete (odstránenie, nahradenie alebo dokonca spôsob, akým ich nahradíte), by mala byť určená špecifikami daných dát. Lepší cit pre riešenie chýbajúcich hodnôt si vyviniete postupne, čím viac budete pracovať a interagovať s dátovými súbormi.


### Kódovanie kategóriálnych údajov

Modely strojového učenia pracujú iba s číslami a akoukoľvek formou číselných údajov. Nedokážu rozlíšiť medzi Áno a Nie, ale dokážu rozlíšiť medzi 0 a 1. Preto po doplnení chýbajúcich hodnôt musíme kategóriálne údaje zakódovať do nejakej číselnej formy, aby ich model pochopil.

Kódovanie je možné vykonať dvoma spôsobmi. Budeme ich rozoberať ďalej.


**KÓDOVANIE ŠTÍTKA**

Kódovanie štítka spočíva v konverzii každej kategórie na číslo. Napríklad, povedzme, že máme dataset cestujúcich leteckej spoločnosti a je tu stĺpec obsahujúci ich triedu medzi nasledujúcimi ['business class', 'economy class', 'first class']. Ak sa vykoná kódovanie štítka, bude to transformované na [0,1,2]. Pozrime sa na príklad pomocou kódu. Keďže sa budeme učiť `scikit-learn` v nadchádzajúcich poznámkach, tu ho nepoužijeme.


In [47]:
label = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
label

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


Na vykonanie kódovania štítkov na 1. stĺpci musíme najskôr opísať mapovanie z každej triedy na číslo, predtým ako nahradíme.


In [48]:
class_labels = {'business class':0,'economy class':1,'first class':2}
label['class'] = label['class'].replace(class_labels)
label

Unnamed: 0,ID,class
0,10,0
1,20,2
2,30,1
3,40,1
4,50,1
5,60,0


Ako vidíme, výstup zodpovedá tomu, čo sme očakávali. Kedy teda používame kódovanie štítkov? Kódovanie štítkov sa používa v jednej alebo oboch z nasledujúcich situácií:
1. Keď je počet kategórií veľký
2. Keď sú kategórie usporiadané.


**ONE HOT ENCODING**

Ďalším typom kódovania je One Hot Encoding. Pri tomto type kódovania sa každá kategória stĺpca pridá ako samostatný stĺpec a každému dátovému bodu sa priradí 0 alebo 1 podľa toho, či obsahuje danú kategóriu. Ak teda existuje n rôznych kategórií, do dátového rámca sa pridá n stĺpcov.

Napríklad, vezmime si ten istý príklad triedy lietadla. Kategórie boli: ['business class', 'economy class', 'first class']. Ak vykonáme One Hot Encoding, do datasetu sa pridajú nasledujúce tri stĺpce: ['class_business class', 'class_economy class', 'class_first class'].


In [49]:
one_hot = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
one_hot

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


Poďme vykonať one hot encoding na prvom stĺpci


In [50]:
one_hot_data = pd.get_dummies(one_hot,columns=['class'])

In [51]:
one_hot_data

Unnamed: 0,ID,class_business class,class_economy class,class_first class
0,10,1,0,0
1,20,0,0,1
2,30,0,1,0
3,40,0,1,0
4,50,0,1,0
5,60,1,0,0


Každý stĺpec s one-hot kódovaním obsahuje 0 alebo 1, čo určuje, či daná kategória existuje pre daný dátový bod.


Kedy používame one hot encoding? One hot encoding sa používa v jednej alebo oboch z nasledujúcich situácií:

1. Keď je počet kategórií a veľkosť datasetu menšia.
2. Keď kategórie nemajú žiadne konkrétne poradie.


> Hlavné body:
1. Kódovanie sa vykonáva na konverziu nenumerických údajov na numerické údaje.
2. Existujú dva typy kódovania: Label encoding a One Hot encoding, ktoré je možné vykonať podľa požiadaviek datasetu.


## Odstraňovanie duplicitných údajov

> **Cieľ učenia:** Na konci tejto podsekcie by ste mali byť schopní identifikovať a odstrániť duplicitné hodnoty z DataFrames.

Okrem chýbajúcich údajov sa v reálnych dátových súboroch často stretnete s duplicitnými údajmi. Našťastie, pandas poskytuje jednoduchý spôsob na detekciu a odstránenie duplicitných záznamov.


### Identifikácia duplicitných hodnôt: `duplicated`

Duplicitné hodnoty môžete jednoducho identifikovať pomocou metódy `duplicated` v pandas, ktorá vracia Booleovskú masku označujúcu, či je záznam v `DataFrame` duplicitou skoršieho záznamu. Vytvorme ďalší príklad `DataFrame`, aby sme si to ukázali v praxi.


In [52]:
example6 = pd.DataFrame({'letters': ['A','B'] * 2 + ['B'],
                         'numbers': [1, 2, 1, 3, 3]})
example6

Unnamed: 0,letters,numbers
0,A,1
1,B,2
2,A,1
3,B,3
4,B,3


In [53]:
example6.duplicated()

0    False
1    False
2     True
3    False
4     True
dtype: bool

### Odstránenie duplicitných hodnôt: `drop_duplicates`
`drop_duplicates` jednoducho vráti kópiu údajov, pre ktoré sú všetky hodnoty označené ako `duplicated` nastavené na `False`:


In [54]:
example6.drop_duplicates()

Unnamed: 0,letters,numbers
0,A,1
1,B,2
3,B,3


Obe funkcie `duplicated` a `drop_duplicates` štandardne zohľadňujú všetky stĺpce, ale môžete špecifikovať, aby skúmali iba podmnožinu stĺpcov vo vašom `DataFrame`:


In [55]:
example6.drop_duplicates(['letters'])

Unnamed: 0,letters,numbers
0,A,1
1,B,2


> **Poučenie:** Odstránenie duplicitných údajov je nevyhnutnou súčasťou takmer každého projektu v oblasti dátovej vedy. Duplicitné údaje môžu zmeniť výsledky vašich analýz a poskytnúť vám nepresné výsledky!


## Kontroly kvality údajov v reálnom svete

> **Cieľ učenia:** Na konci tejto sekcie by ste mali byť schopní identifikovať a opraviť bežné problémy s kvalitou údajov v reálnom svete, vrátane nekonzistentných kategórií, abnormálnych číselných hodnôt (extrémnych hodnôt) a duplicitných entít s variáciami.

Aj keď chýbajúce hodnoty a presné duplikáty sú bežné problémy, dátové súbory v reálnom svete často obsahujú jemnejšie problémy:

1. **Nekonzistentné kategórie**: Rovnaká kategória napísaná rôznymi spôsobmi (napr. "USA", "U.S.A", "United States")
2. **Abnormálne číselné hodnoty**: Extrémne hodnoty, ktoré naznačujú chyby pri zadávaní údajov (napr. vek = 999)
3. **Takmer duplicitné riadky**: Záznamy, ktoré predstavujú tú istú entitu s miernymi variáciami

Poďme preskúmať techniky na identifikáciu a riešenie týchto problémov.


### Vytvorenie ukážkového „nečistého“ datasetu

Najskôr si vytvoríme ukážkový dataset, ktorý obsahuje typy problémov, s ktorými sa často stretávame v reálnych dátach:


In [None]:
import pandas as pd
import numpy as np

# Create a sample dataset with quality issues
dirty_data = pd.DataFrame({
    'customer_id': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12],
    'name': ['John Smith', 'Jane Doe', 'John Smith', 'Bob Johnson', 
             'Alice Williams', 'Charlie Brown', 'John  Smith', 'Eva Martinez',
             'Bob Johnson', 'Diana Prince', 'Frank Castle', 'Alice Williams'],
    'age': [25, 32, 25, 45, 28, 199, 25, 31, 45, 27, -5, 28],
    'country': ['USA', 'UK', 'U.S.A', 'Canada', 'USA', 'United Kingdom',
                'United States', 'Mexico', 'canada', 'USA', 'UK', 'usa'],
    'purchase_amount': [100.50, 250.00, 105.00, 320.00, 180.00, 90.00,
                       102.00, 275.00, 325.00, 195.00, 410.00, 185.00]
})

print("Sample 'Dirty' Dataset:")
print(dirty_data)

### 1. Detekcia nekonzistentných kategóriálnych hodnôt

Všimnite si, že stĺpec `country` má viacero reprezentácií pre tie isté krajiny. Poďme identifikovať tieto nekonzistencie:


In [None]:
# Check unique values in the country column
print("Unique country values:")
print(dirty_data['country'].unique())
print(f"\nTotal unique values: {dirty_data['country'].nunique()}")

# Count occurrences of each variation
print("\nValue counts:")
print(dirty_data['country'].value_counts())

#### Štandardizácia kategóriálnych hodnôt

Môžeme vytvoriť mapovanie na štandardizáciu týchto hodnôt. Jednoduchý prístup je konvertovať na malé písmená a vytvoriť mapovaciu slovník:


In [None]:
# Create a standardization mapping
country_mapping = {
    'usa': 'USA',
    'u.s.a': 'USA',
    'united states': 'USA',
    'uk': 'UK',
    'united kingdom': 'UK',
    'canada': 'Canada',
    'mexico': 'Mexico'
}

# Standardize the country column
dirty_data['country_clean'] = dirty_data['country'].str.lower().map(country_mapping)

print("Before standardization:")
print(dirty_data['country'].value_counts())
print("\nAfter standardization:")
print(dirty_data[['country_clean']].value_counts())

**Alternatíva: Použitie nepresného porovnávania**

Pre zložitejšie prípady môžeme použiť nepresné porovnávanie reťazcov s knižnicou `rapidfuzz` na automatickú detekciu podobných reťazcov:


In [None]:
try:
    from rapidfuzz import process, fuzz
except ImportError:
    print("rapidfuzz is not installed. Please install it with 'pip install rapidfuzz' to use fuzzy matching.")
    process = None
    fuzz = None

# Get unique countries
unique_countries = dirty_data['country'].unique()

# For each country, find similar matches
if process is not None and fuzz is not None:
    print("Finding similar country names (similarity > 70%):")
    for country in unique_countries:
        matches = process.extract(country, unique_countries, scorer=fuzz.ratio, limit=3)
        # Filter matches with similarity > 70 and not identical
        similar = [m for m in matches if m[1] > 70 and m[0] != country]
        if similar:
            print(f"\n'{country}' is similar to:")
            for match, score, _ in similar:
                print(f"  - '{match}' (similarity: {score}%)")
else:
    print("Skipping fuzzy matching because rapidfuzz is not available.")

### 2. Detekcia abnormálnych číselných hodnôt (odľahlých hodnôt)

Pri pohľade na stĺpec `age` máme niektoré podozrivé hodnoty, ako napríklad 199 a -5. Použime štatistické metódy na detekciu týchto odľahlých hodnôt.


In [None]:
# Display basic statistics
print("Age column statistics:")
print(dirty_data['age'].describe())

# Identify impossible values using domain knowledge
print("\nRows with impossible age values (< 0 or > 120):")
impossible_ages = dirty_data[(dirty_data['age'] < 0) | (dirty_data['age'] > 120)]
print(impossible_ages[['customer_id', 'name', 'age']])

#### Použitie metódy IQR (Interkvartilový rozsah)

Metóda IQR je robustná štatistická technika na detekciu odľahlých hodnôt, ktorá je menej citlivá na extrémne hodnoty:


In [None]:
# Calculate IQR for age (excluding impossible values)
valid_ages = dirty_data[(dirty_data['age'] >= 0) & (dirty_data['age'] <= 120)]['age']

Q1 = valid_ages.quantile(0.25)
Q3 = valid_ages.quantile(0.75)
IQR = Q3 - Q1

# Define outlier bounds
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

print(f"IQR-based outlier bounds for age: [{lower_bound:.2f}, {upper_bound:.2f}]")

# Identify outliers
age_outliers = dirty_data[(dirty_data['age'] < lower_bound) | (dirty_data['age'] > upper_bound)]
print(f"\nRows with age outliers:")
print(age_outliers[['customer_id', 'name', 'age']])

#### Použitie metódy Z-skóre

Metóda Z-skóre identifikuje odľahlé hodnoty na základe štandardných odchýlok od priemeru:


In [None]:
try:
    from scipy import stats
except ImportError:
    print("scipy is required for Z-score calculation. Please install it with 'pip install scipy' and rerun this cell.")
else:
    # Calculate Z-scores for age, handling NaN values
    age_nonan = dirty_data['age'].dropna()
    zscores = np.abs(stats.zscore(age_nonan))
    dirty_data['age_zscore'] = np.nan
    dirty_data.loc[age_nonan.index, 'age_zscore'] = zscores

    # Typically, Z-score > 3 indicates an outlier
    print("Rows with age Z-score > 3:")
    zscore_outliers = dirty_data[dirty_data['age_zscore'] > 3]
    print(zscore_outliers[['customer_id', 'name', 'age', 'age_zscore']])

    # Clean up the temporary column
    dirty_data = dirty_data.drop('age_zscore', axis=1)

#### Riešenie odľahlých hodnôt

Po ich identifikácii je možné odľahlé hodnoty riešiť niekoľkými spôsobmi:
1. **Odstrániť**: Vymazať riadky s odľahlými hodnotami (ak ide o chyby)
2. **Obmedziť**: Nahradiť hraničnými hodnotami
3. **Nahradiť NaN**: Považovať za chýbajúce údaje a použiť techniky imputácie
4. **Ponechať**: Ak ide o legitímne extrémne hodnoty


In [None]:
# Create a cleaned version by replacing impossible ages with NaN
dirty_data['age_clean'] = dirty_data['age'].apply(
    lambda x: np.nan if (x < 0 or x > 120) else x
)

print("Age column before and after cleaning:")
print(dirty_data[['customer_id', 'name', 'age', 'age_clean']])

### 3. Detekcia takmer duplicitných riadkov

Všimnite si, že náš dataset obsahuje viacero záznamov pre "John Smith" s mierne odlišnými hodnotami. Poďme identifikovať potenciálne duplicity na základe podobnosti mien.


In [None]:
# First, let's look at exact name matches (ignoring extra whitespace)
dirty_data['name_normalized'] = dirty_data['name'].str.strip().str.lower()

print("Checking for duplicate names:")
duplicate_names = dirty_data[dirty_data.duplicated(['name_normalized'], keep=False)]
print(duplicate_names.sort_values('name_normalized')[['customer_id', 'name', 'age', 'country']])

#### Hľadanie takmer duplicitných záznamov pomocou nepresného porovnávania

Pre pokročilejšie zisťovanie duplicít môžeme použiť nepresné porovnávanie na nájdenie podobných mien:


In [None]:
try:
    from rapidfuzz import process, fuzz

    # Function to find potential duplicates
    def find_near_duplicates(df, column, threshold=90):
        """
        Find near-duplicate entries in a column using fuzzy matching.
        
        Parameters:
        - df: DataFrame
        - column: Column name to check for duplicates
        - threshold: Similarity threshold (0-100)
        
        Returns: List of potential duplicate groups
        """
        values = df[column].unique()
        duplicate_groups = []
        checked = set()
        
        for value in values:
            if value in checked:
                continue
                
            # Find similar values
            matches = process.extract(value, values, scorer=fuzz.ratio, limit=len(values))
            similar = [m[0] for m in matches if m[1] >= threshold]
            
            if len(similar) > 1:
                duplicate_groups.append(similar)
                checked.update(similar)
        
        return duplicate_groups

    # Find near-duplicate names
    duplicate_groups = find_near_duplicates(dirty_data, 'name', threshold=90)

    print("Potential duplicate groups:")
    for i, group in enumerate(duplicate_groups, 1):
        print(f"\nGroup {i}:")
        for name in group:
            matching_rows = dirty_data[dirty_data['name'] == name]
            print(f"  '{name}': {len(matching_rows)} occurrence(s)")
            for _, row in matching_rows.iterrows():
                print(f"    - Customer {row['customer_id']}: age={row['age']}, country={row['country']}")
except ImportError:
    print("rapidfuzz is not installed. Skipping fuzzy matching for near-duplicates.")

#### Riešenie duplicít

Keď ich identifikujete, musíte sa rozhodnúť, ako s nimi naložiť:
1. **Zachovať prvý výskyt**: Použite `drop_duplicates(keep='first')`
2. **Zachovať posledný výskyt**: Použite `drop_duplicates(keep='last')`
3. **Agregovať informácie**: Skombinovať informácie z duplicitných riadkov
4. **Manuálna kontrola**: Označiť na manuálne preskúmanie


In [None]:
# Example: Remove duplicates based on normalized name, keeping first occurrence
cleaned_data = dirty_data.drop_duplicates(subset=['name_normalized'], keep='first')

print(f"Original dataset: {len(dirty_data)} rows")
print(f"After removing name duplicates: {len(cleaned_data)} rows")
print(f"Removed: {len(dirty_data) - len(cleaned_data)} duplicate rows")

print("\nCleaned dataset:")
print(cleaned_data[['customer_id', 'name', 'age', 'country_clean']])

### Zhrnutie: Kompletný proces čistenia dát

Spojme všetko dohromady do komplexného procesu čistenia dát:


In [None]:
def clean_dataset(df):
    """
    Comprehensive data cleaning function.
    """
    # Create a copy to avoid modifying the original
    cleaned = df.copy()
    
    # 1. Standardize categorical values (country)
    country_mapping = {
        'usa': 'USA', 'u.s.a': 'USA', 'united states': 'USA',
        'uk': 'UK', 'united kingdom': 'UK',
        'canada': 'Canada', 'mexico': 'Mexico'
    }
    cleaned['country'] = cleaned['country'].str.lower().map(country_mapping)
    
    # 2. Clean abnormal age values
    cleaned['age'] = cleaned['age'].apply(
        lambda x: np.nan if (x < 0 or x > 120) else x
    )
    
    # 3. Remove near-duplicate names (normalize whitespace)
    cleaned['name'] = cleaned['name'].str.strip()
    cleaned = cleaned.drop_duplicates(subset=['name'], keep='first')
    
    return cleaned

# Apply the cleaning pipeline
final_cleaned_data = clean_dataset(dirty_data)

print("Before cleaning:")
print(f"  Rows: {len(dirty_data)}")
print(f"  Unique countries: {dirty_data['country'].nunique()}")
print(f"  Invalid ages: {((dirty_data['age'] < 0) | (dirty_data['age'] > 120)).sum()}")

print("\nAfter cleaning:")
print(f"  Rows: {len(final_cleaned_data)}")
print(f"  Unique countries: {final_cleaned_data['country'].nunique()}")
print(f"  Invalid ages: {((final_cleaned_data['age'] < 0) | (final_cleaned_data['age'] > 120)).sum()}")

print("\nCleaned dataset:")
print(final_cleaned_data[['customer_id', 'name', 'age', 'country', 'purchase_amount']])

### 🎯 Výzva na cvičenie

Teraz je rad na vás! Nižšie je nový riadok údajov s viacerými problémami s kvalitou. Dokážete:

1. Identifikovať všetky problémy v tomto riadku
2. Napísať kód na opravu každého problému
3. Pridať opravený riadok do datasetu

Tu sú problematické údaje:


In [None]:
# New problematic row
new_row = pd.DataFrame({
    'customer_id': [13],
    'name': ['  Diana  Prince  '],  # Extra whitespace
    'age': [250],  # Impossible age
    'country': ['U.S.A.'],  # Inconsistent format
    'purchase_amount': [150.00]
})

print("New row to clean:")
print(new_row)

# TODO: Your code here to clean this row
# Hints:
# 1. Strip whitespace from the name
# 2. Check if the name is a duplicate (Diana Prince already exists)
# 3. Handle the impossible age value
# 4. Standardize the country name

# Example solution (uncomment and modify as needed):
# new_row_cleaned = new_row.copy()
# new_row_cleaned['name'] = new_row_cleaned['name'].str.strip()
# new_row_cleaned['age'] = np.nan  # Invalid age
# new_row_cleaned['country'] = 'USA'  # Standardized
# print("\nCleaned row:")
# print(new_row_cleaned)

### Hlavné poznatky

1. **Nekonzistentné kategórie** sú bežné v reálnych dátach. Vždy skontrolujte jedinečné hodnoty a štandardizujte ich pomocou mapovania alebo fuzzy porovnávania.

2. **Extrémy** môžu výrazne ovplyvniť vašu analýzu. Na ich detekciu použite kombináciu odborných znalostí a štatistických metód (IQR, Z-score).

3. **Takmer duplicitné údaje** sa ťažšie identifikujú ako presné duplikáty. Zvážte použitie fuzzy porovnávania a normalizácie údajov (zmenšenie písmen, odstránenie medzier) na ich identifikáciu.

4. **Čistenie dát je iteratívny proces**. Možno budete musieť použiť viacero techník a preskúmať výsledky predtým, než dokončíte svoj vyčistený dataset.

5. **Dokumentujte svoje rozhodnutia**. Sledujte, aké kroky čistenia ste aplikovali a prečo, pretože je to dôležité pre reprodukovateľnosť a transparentnosť.

> **Najlepšia prax:** Vždy si ponechajte kópiu svojich pôvodných "špinavých" dát. Nikdy neprepíšte svoje zdrojové súbory - vytvorte vyčistené verzie s jasnými konvenciami pomenovania, ako napríklad `data_cleaned.csv`.



---

**Upozornenie**:  
Tento dokument bol preložený pomocou služby AI prekladu [Co-op Translator](https://github.com/Azure/co-op-translator). Hoci sa snažíme o presnosť, prosím, berte na vedomie, že automatizované preklady môžu obsahovať chyby alebo nepresnosti. Pôvodný dokument v jeho rodnom jazyku by mal byť považovaný za autoritatívny zdroj. Pre kritické informácie sa odporúča profesionálny ľudský preklad. Nenesieme zodpovednosť za akékoľvek nedorozumenia alebo nesprávne interpretácie vyplývajúce z použitia tohto prekladu.
