# Příprava dat

[Originální zdroj notebooku z *Data Science: Introduction to Machine Learning for Data Science Python and Machine Learning Studio od Lee Stott*](https://github.com/leestott/intro-Datascience/blob/master/Course%20Materials/4-Cleaning_and_Manipulating-Reference.ipynb)

## Zkoumání informací o `DataFrame`

> **Cíl učení:** Na konci této podsekce byste měli být schopni pohodlně najít obecné informace o datech uložených v pandas DataFrames.

Jakmile načtete svá data do pandas, je velmi pravděpodobné, že budou ve formátu `DataFrame`. Ale pokud má datová sada ve vašem `DataFrame` 60 000 řádků a 400 sloupců, jak vůbec začít získávat představu o tom, s čím pracujete? Naštěstí pandas poskytuje několik praktických nástrojů, které vám umožní rychle získat celkový přehled o `DataFrame`, kromě prvních a posledních několika řádků.

Abychom prozkoumali tuto funkcionalitu, importujeme knihovnu Python scikit-learn a použijeme ikonickou datovou sadu, kterou každý datový vědec viděl už stokrát: *Iris* dataset britského biologa Ronalda Fishera, použitý v jeho článku z roku 1936 "Použití více měření v taxonomických problémech":


In [1]:
import pandas as pd
from sklearn.datasets import load_iris

iris = load_iris()
iris_df = pd.DataFrame(data=iris['data'], columns=iris['feature_names'])

### `DataFrame.shape`
Načetli jsme dataset Iris do proměnné `iris_df`. Než se pustíme do analýzy dat, bylo by užitečné zjistit počet datových bodů, které máme, a celkovou velikost datasetu. Je dobré podívat se na objem dat, se kterými pracujeme.


In [2]:
iris_df.shape

(150, 4)

Takže máme 150 řádků a 4 sloupce dat. Každý řádek představuje jeden datový bod a každý sloupec představuje jednu vlastnost spojenou s datovým rámcem. V podstatě tedy existuje 150 datových bodů, z nichž každý obsahuje 4 vlastnosti.

`shape` je zde atribut datového rámce, nikoli funkce, což je důvod, proč nekončí dvojicí závorek.


### `DataFrame.columns`
Nyní se podíváme na 4 sloupce dat. Co přesně každý z nich představuje? Atribut `columns` nám poskytne názvy sloupců v datovém rámci.


In [3]:
iris_df.columns

Index(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)'],
      dtype='object')

Jak můžeme vidět, jsou zde čtyři (4) sloupce. Atribut `columns` nám říká názvy sloupců a v podstatě nic jiného. Tento atribut nabývá na důležitosti, když chceme identifikovat vlastnosti, které dataset obsahuje.


### `DataFrame.info`
Množství dat (dané atributem `shape`) a názvy vlastností nebo sloupců (dané atributem `columns`) nám poskytují určité informace o datové sadě. Nyní bychom chtěli prozkoumat datovou sadu podrobněji. Funkce `DataFrame.info()` je pro tento účel velmi užitečná.


In [4]:
iris_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
dtypes: float64(4)
memory usage: 4.8 KB


Odtud můžeme učinit několik pozorování:  
1. Datový typ každého sloupce: V tomto datasetu jsou všechna data uložena jako 64bitová čísla s plovoucí desetinnou čárkou.  
2. Počet nenulových hodnot: Práce s nulovými hodnotami je důležitým krokem při přípravě dat. Tím se budeme zabývat později v notebooku.  


### DataFrame.describe()
Řekněme, že máme v našem datovém souboru hodně číselných dat. Jednovariátní statistické výpočty, jako je průměr, medián, kvartily atd., lze provádět na jednotlivých sloupcích samostatně. Funkce `DataFrame.describe()` nám poskytuje statistický přehled číselných sloupců datového souboru.


In [5]:
iris_df.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


Výstup výše ukazuje celkový počet datových bodů, průměr, směrodatnou odchylku, minimum, dolní kvartil (25 %), medián (50 %), horní kvartil (75 %) a maximální hodnotu každého sloupce.


### `DataFrame.head`
S pomocí všech výše uvedených funkcí a atributů jsme získali přehled na vysoké úrovni o datasetu. Víme, kolik datových bodů obsahuje, kolik má vlastností, jaký je datový typ každé vlastnosti a kolik má každá vlastnost nenulových hodnot.

Teď je čas podívat se na samotná data. Podívejme se, jak vypadají první řádky (první datové body) našeho `DataFrame`:


In [6]:
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


Jak vidíme na výstupu, máme zde pět (5) záznamů datové sady. Pokud se podíváme na index vlevo, zjistíme, že se jedná o prvních pět řádků.


### Cvičení:

Z výše uvedeného příkladu je zřejmé, že `DataFrame.head` ve výchozím nastavení vrací prvních pět řádků `DataFrame`. Dokážete v níže uvedené buňce kódu najít způsob, jak zobrazit více než pět řádků?


In [7]:
# Hint: Consult the documentation by using iris_df.head?

### `DataFrame.tail`
Další způsob, jak se podívat na data, může být od konce (namísto od začátku). Opačnou funkcí k `DataFrame.head` je `DataFrame.tail`, která vrací posledních pět řádků `DataFrame`:


In [8]:
iris_df.tail()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3
149,5.9,3.0,5.1,1.8


V praxi je užitečné mít možnost snadno prohlédnout prvních několik řádků nebo posledních několik řádků `DataFrame`, zejména když hledáte odlehlé hodnoty v uspořádaných datových sadách.

Všechny funkce a atributy uvedené výše s pomocí příkladů kódu nám umožňují získat přehled o datech.

> **Shrnutí:** Už jen pohledem na metadata o informacích v DataFrame nebo na prvních a posledních několik hodnot v něm můžete okamžitě získat představu o velikosti, tvaru a obsahu dat, se kterými pracujete.


### Chybějící data
Pojďme se podívat na chybějící data. Chybějící data nastávají, když v některých sloupcích není uložena žádná hodnota.

Uveďme si příklad: řekněme, že někdo je citlivý na svou váhu a nevyplní pole s váhou v dotazníku. Potom bude hodnota váhy pro tuto osobu chybět.

Ve většině případů se v reálných datových sadách vyskytují chybějící hodnoty.

**Jak Pandas pracuje s chybějícími daty**

Pandas pracuje s chybějícími hodnotami dvěma způsoby. První způsob jste již viděli v předchozích sekcích: `NaN`, neboli Not a Number. Jedná se o speciální hodnotu, která je součástí specifikace IEEE pro čísla s plovoucí desetinnou čárkou a používá se pouze k označení chybějících hodnot typu float.

Pro chybějící hodnoty, které nejsou typu float, používá pandas objekt `None` z Pythonu. I když se může zdát matoucí, že se setkáte se dvěma různými typy hodnot, které v podstatě říkají totéž, existují dobré programátorské důvody pro toto designové rozhodnutí. V praxi tento přístup umožňuje pandas nabídnout dobrý kompromis pro drtivou většinu případů. Přesto však jak `None`, tak `NaN` mají omezení, na která je třeba dávat pozor, pokud jde o jejich použití.


### `None`: ne-float chybějící data
Protože `None` pochází z Pythonu, nelze jej použít v polích NumPy a pandas, která nemají datový typ `'object'`. Pamatujte, že NumPy pole (a datové struktury v pandas) mohou obsahovat pouze jeden typ dat. To je to, co jim dává jejich obrovskou sílu pro práci s velkými daty a výpočty, ale zároveň to omezuje jejich flexibilitu. Taková pole musí být převedena na „nejnižší společný jmenovatel“, tedy datový typ, který zahrne vše v poli. Když je v poli `None`, znamená to, že pracujete s Python objekty.

Pro názornou ukázku zvažte následující příklad pole (všimněte si jeho `dtype`):


In [9]:
import numpy as np

example1 = np.array([2, None, 6, 8])
example1

array([2, None, 6, 8], dtype=object)

Realita upcastovaných datových typů přináší dva vedlejší účinky. Za prvé, operace budou prováděny na úrovni interpretovaného Python kódu, nikoli na úrovni kompilovaného kódu NumPy. To v podstatě znamená, že jakékoli operace zahrnující `Series` nebo `DataFrames`, které obsahují `None`, budou pomalejší. I když si tohoto výkonového poklesu pravděpodobně nevšimnete, u velkých datových sad by to mohlo představovat problém.

Druhý vedlejší účinek vyplývá z prvního. Protože `None` v podstatě vrací `Series` nebo `DataFrame` zpět do světa běžného Pythonu, použití agregací NumPy/pandas, jako je `sum()` nebo `min()`, na polích obsahujících hodnotu ``None`` obvykle způsobí chybu:


In [10]:
example1.sum()

TypeError: ignored

**Klíčový poznatek**: Sčítání (a jiné operace) mezi celými čísly a hodnotami `None` není definováno, což může omezit možnosti práce s datovými sadami, které je obsahují.


### `NaN`: chybějící hodnoty typu float

Na rozdíl od `None` podporuje NumPy (a tedy i pandas) `NaN` pro své rychlé, vektorové operace a ufuncs. Špatnou zprávou je, že jakákoli aritmetická operace provedená na `NaN` vždy vrátí `NaN`. Například:


In [11]:
np.nan + 1

nan

In [12]:
np.nan * 0

nan

Dobrá zpráva: agregace prováděné na polích obsahujících `NaN` nevyvolávají chyby. Špatná zpráva: výsledky nejsou jednotně užitečné:


In [13]:
example2 = np.array([2, np.nan, 6, 8]) 
example2.sum(), example2.min(), example2.max()

(nan, nan, nan)

### Cvičení:


In [11]:
# What happens if you add np.nan and None together?


Pamatujte: `NaN` je pouze pro chybějící hodnoty s plovoucí desetinnou čárkou; neexistuje žádný ekvivalent `NaN` pro celá čísla, řetězce nebo Booleany.


### `NaN` a `None`: nulové hodnoty v pandas

I když se `NaN` a `None` mohou chovat trochu odlišně, pandas je přesto navržen tak, aby s nimi pracoval zaměnitelně. Abyste pochopili, co tím myslíme, podívejte se na `Series` celých čísel:


In [15]:
int_series = pd.Series([1, 2, 3], dtype=int)
int_series

0    1
1    2
2    3
dtype: int64

### Cvičení:


In [16]:
# Now set an element of int_series equal to None.
# How does that element show up in the Series?
# What is the dtype of the Series?


Při procesu převodu datových typů na vyšší úroveň za účelem zajištění homogenity dat v `Series` a `DataFrame`, pandas ochotně přepíná chybějící hodnoty mezi `None` a `NaN`. Kvůli této vlastnosti návrhu může být užitečné považovat `None` a `NaN` za dvě různé podoby "null" v pandas. Ve skutečnosti některé základní metody, které budete používat k práci s chybějícími hodnotami v pandas, tuto myšlenku odrážejí ve svých názvech:

- `isnull()`: Vytváří booleovskou masku označující chybějící hodnoty
- `notnull()`: Opak metody `isnull()`
- `dropna()`: Vrací filtrovanou verzi dat
- `fillna()`: Vrací kopii dat s vyplněnými nebo imputovanými chybějícími hodnotami

Tyto metody jsou důležité zvládnout a osvojit si jejich používání, takže si je podrobněji projdeme.


### Detekce nulových hodnot

Nyní, když jsme pochopili důležitost chybějících hodnot, musíme je v našem datovém souboru nejprve detekovat, než s nimi začneme pracovat. Metody `isnull()` a `notnull()` jsou vaše hlavní nástroje pro detekci nulových dat. Obě vracejí Booleovské masky nad vašimi daty.


In [17]:
example3 = pd.Series([0, np.nan, '', None])

In [18]:
example3.isnull()

0    False
1     True
2    False
3     True
dtype: bool

Pozorně se podívejte na výstup. Překvapilo vás něco? I když `0` je aritmetická nula, stále je to zcela platné celé číslo a pandas s ním tak zachází. `''` je trochu jemnější záležitost. Zatímco jsme jej v sekci 1 použili k reprezentaci prázdné hodnoty řetězce, stále se jedná o objekt typu řetězec, nikoli o reprezentaci nulové hodnoty z pohledu pandas.

Teď to otočíme a použijeme tyto metody způsobem, který je blíže tomu, jak je budete používat v praxi. Boolean masky můžete použít přímo jako index ``Series`` nebo ``DataFrame``, což může být užitečné při práci s izolovanými chybějícími (nebo přítomnými) hodnotami.

Pokud chceme celkový počet chybějících hodnot, stačí provést součet nad maskou vytvořenou metodou `isnull()`.


In [19]:
example3.isnull().sum()

2

### Cvičení:


In [20]:
# Try running example3[example3.notnull()].
# Before you do so, what do you expect to see?


**Klíčový poznatek**: Metody `isnull()` a `notnull()` produkují podobné výsledky, když je použijete v DataFramech: zobrazují výsledky a index těchto výsledků, což vám enormně pomůže při práci s vašimi daty.


### Práce s chybějícími daty

> **Cíl učení:** Na konci této podsekce byste měli vědět, jak a kdy nahradit nebo odstranit nulové hodnoty z DataFrame.

Modely strojového učení si samy s chybějícími daty neporadí. Proto je potřeba před předáním dat modelu tyto chybějící hodnoty vyřešit.

Způsob, jakým se chybějící data řeší, s sebou nese jemné kompromisy, které mohou ovlivnit vaše konečné analýzy i výsledky v reálném světě.

Existují především dva způsoby, jak pracovat s chybějícími daty:

1.   Odstranit řádek obsahující chybějící hodnotu
2.   Nahradit chybějící hodnotu jinou hodnotou

Obě tyto metody a jejich výhody i nevýhody si podrobně rozebereme.


### Odstranění nulových hodnot

Množství dat, které předáváme našemu modelu, má přímý vliv na jeho výkon. Odstranění nulových hodnot znamená, že snižujeme počet datových bodů, a tím i velikost datové sady. Proto je vhodné odstranit řádky s nulovými hodnotami, pokud je datová sada poměrně velká.

Dalším případem může být situace, kdy určitý řádek nebo sloupec obsahuje mnoho chybějících hodnot. V takovém případě je možné je odstranit, protože by nepřidaly přílišnou hodnotu naší analýze, jelikož většina dat pro daný řádek/sloupec chybí.

Kromě identifikace chybějících hodnot poskytuje pandas pohodlný způsob, jak odstranit nulové hodnoty z `Series` a `DataFrame`. Abychom si to ukázali v praxi, vraťme se k `example3`. Funkce `DataFrame.dropna()` pomáhá při odstraňování řádků s nulovými hodnotami.


In [21]:
example3 = example3.dropna()
example3

0    0
2     
dtype: object

Všimněte si, že by to mělo vypadat jako váš výstup z `example3[example3.notnull()]`. Rozdíl je zde v tom, že místo pouhého indexování na maskované hodnoty `dropna` odstranil tyto chybějící hodnoty ze `Series` `example3`.

Protože DataFrames mají dvě dimenze, nabízejí více možností pro odstranění dat.


In [22]:
example4 = pd.DataFrame([[1,      np.nan, 7], 
                         [2,      5,      8], 
                         [np.nan, 6,      9]])
example4

Unnamed: 0,0,1,2
0,1.0,,7
1,2.0,5.0,8
2,,6.0,9


(Všimli jste si, že pandas převedl dva sloupce na typ float, aby mohl zpracovat hodnoty `NaN`?)

Z `DataFrame` nelze odstranit jednotlivou hodnotu, takže je nutné odstranit celé řádky nebo sloupce. V závislosti na tom, co děláte, můžete chtít provést jedno nebo druhé, a proto vám pandas nabízí možnosti pro obě varianty. Protože ve vědě o datech sloupce obvykle představují proměnné a řádky představují pozorování, je pravděpodobnější, že budete odstraňovat řádky dat; výchozí nastavení pro `dropna()` je odstranit všechny řádky, které obsahují jakékoli nulové hodnoty:


In [23]:
example4.dropna()

Unnamed: 0,0,1,2
1,2.0,5.0,8


Pokud je to nutné, můžete odstranit hodnoty NA ze sloupců. Použijte `axis=1` k tomu:


In [24]:
example4.dropna(axis='columns')

Unnamed: 0,2
0,7
1,8
2,9


Všimněte si, že tímto způsobem můžete ztratit mnoho dat, která byste si možná chtěli ponechat, zejména u menších datových sad. Co když chcete odstranit pouze řádky nebo sloupce, které obsahují několik nebo dokonce všechny nulové hodnoty? Tyto možnosti nastavíte v `dropna` pomocí parametrů `how` a `thresh`.

Ve výchozím nastavení je `how='any'` (pokud si to chcete ověřit sami nebo zjistit, jaké další parametry metoda má, spusťte `example4.dropna?` v buňce kódu). Alternativně můžete nastavit `how='all`, aby se odstranily pouze řádky nebo sloupce, které obsahují všechny nulové hodnoty. Rozšíříme náš příklad `DataFrame`, abychom si to ukázali v praxi v následujícím cvičení.


In [25]:
example4[3] = np.nan
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


> Klíčové body:  
1. Odstranění nulových hodnot je dobrý nápad pouze tehdy, pokud je datová sada dostatečně velká.  
2. Celé řádky nebo sloupce lze odstranit, pokud jim chybí většina dat.  
3. Metoda `DataFrame.dropna(axis=)` pomáhá při odstraňování nulových hodnot. Argument `axis` určuje, zda se mají odstranit řádky nebo sloupce.  
4. Lze použít také argument `how`. Ve výchozím nastavení je nastaven na `any`. To znamená, že odstraní pouze ty řádky/sloupce, které obsahují jakékoli nulové hodnoty. Může být nastaven na `all`, což specifikuje, že odstraníme pouze ty řádky/sloupce, kde jsou všechny hodnoty nulové.  


### Cvičení:


In [22]:
# How might you go about dropping just column 3?
# Hint: remember that you will need to supply both the axis parameter and the how parameter.


Parametr `thresh` vám poskytuje jemnější kontrolu: nastavíte počet *neprázdných* hodnot, které musí řádek nebo sloupec mít, aby byl zachován:


In [27]:
example4.dropna(axis='rows', thresh=3)

Unnamed: 0,0,1,2,3
1,2.0,5.0,8,


Zde byly první a poslední řádek odstraněny, protože obsahují pouze dvě nenulové hodnoty.


### Vyplňování chybějících hodnot

Někdy má smysl doplnit chybějící hodnoty takovými, které by mohly být platné. Existuje několik technik, jak vyplnit chybějící hodnoty. První z nich je použití znalostí z dané oblasti (znalostí tématu, na kterém je datová sada založena) k přibližnému odhadu chybějících hodnot.

Můžete použít `isnull` k provedení této operace přímo, ale to může být zdlouhavé, zvláště pokud máte hodně hodnot k vyplnění. Protože se jedná o tak běžný úkol v datové vědě, pandas poskytuje funkci `fillna`, která vrací kopii `Series` nebo `DataFrame` s chybějícími hodnotami nahrazenými hodnotami podle vašeho výběru. Vytvořme další příklad `Series`, abychom viděli, jak to funguje v praxi.


### Kategorická data (nečíselná)
Nejprve se podívejme na nečíselná data. V datových sadách máme sloupce s kategorickými daty, například pohlaví, Pravda nebo Nepravda atd.

Ve většině těchto případů nahrazujeme chybějící hodnoty `modem` sloupce. Řekněme, že máme 100 datových bodů, z nichž 90 uvedlo Pravda, 8 uvedlo Nepravda a 2 nevyplnili. Poté můžeme tyto 2 nahradit hodnotou Pravda, pokud zohledníme celý sloupec.

Opět zde můžeme využít znalosti z dané oblasti. Podívejme se na příklad vyplnění pomocí modu.


In [28]:
fill_with_mode = pd.DataFrame([[1,2,"True"],
                               [3,4,None],
                               [5,6,"False"],
                               [7,8,"True"],
                               [9,10,"True"]])

fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,
2,5,6,False
3,7,8,True
4,9,10,True


Nyní nejprve najdeme modus, než vyplníme hodnotu `None` pomocí modusu.


In [29]:
fill_with_mode[2].value_counts()

True     3
False    1
Name: 2, dtype: int64

Takže nahradíme None za True


In [30]:
fill_with_mode[2].fillna('True',inplace=True)

In [31]:
fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,True
2,5,6,False
3,7,8,True
4,9,10,True


Jak vidíme, nulová hodnota byla nahrazena. Netřeba dodávat, že jsme mohli napsat cokoli místo `'True'` a bylo by to nahrazeno.


### Číselná data
Nyní se podíváme na číselná data. Zde máme dva běžné způsoby nahrazování chybějících hodnot:

1. Nahrazení mediánem řádku  
2. Nahrazení průměrem řádku  

Medián používáme v případě zkreslených dat s odlehlými hodnotami. Je to proto, že medián je vůči odlehlým hodnotám odolný.

Když jsou data normalizovaná, můžeme použít průměr, protože v takovém případě budou průměr a medián velmi blízko.

Nejprve si vezměme sloupec, který má normální rozdělení, a vyplňme chybějící hodnoty průměrem sloupce.


In [32]:
fill_with_mean = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [np.nan,4,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,,4,5
3,1.0,6,7
4,2.0,8,9


Průměr sloupce je


In [33]:
np.mean(fill_with_mean[0])

0.0

Vyplnění průměrem


In [34]:
fill_with_mean[0].fillna(np.mean(fill_with_mean[0]),inplace=True)
fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,0.0,4,5
3,1.0,6,7
4,2.0,8,9


Jak vidíme, chybějící hodnota byla nahrazena jejím průměrem.


Nyní zkusme jiný dataframe a tentokrát nahradíme hodnoty None mediánem sloupce.


In [35]:
fill_with_median = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [0,np.nan,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,,5
3,1,6.0,7
4,2,8.0,9


Medián druhého sloupce je


In [36]:
fill_with_median[1].median()

4.0

Vyplnění mediánem


In [37]:
fill_with_median[1].fillna(fill_with_median[1].median(),inplace=True)
fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,4.0,5
3,1,6.0,7
4,2,8.0,9


Jak vidíme, hodnota NaN byla nahrazena mediánem sloupce.


In [38]:
example5 = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
example5

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64

Můžete vyplnit všechny prázdné položky jednou hodnotou, například `0`:


In [39]:
example5.fillna(0)

a    1.0
b    0.0
c    2.0
d    0.0
e    3.0
dtype: float64

> Klíčové poznatky:
1. Doplnění chybějících hodnot by mělo být provedeno, pokud je k dispozici méně dat nebo existuje strategie, jak chybějící data doplnit.
2. K doplnění chybějících hodnot lze využít znalosti z dané oblasti a hodnoty přibližně odhadnout.
3. U kategorických dat se chybějící hodnoty většinou nahrazují módem sloupce.
4. U číselných dat se chybějící hodnoty obvykle doplňují průměrem (u normalizovaných dat) nebo mediánem sloupců.


### Cvičení:


In [40]:
# What happens if you try to fill null values with a string, like ''?


Můžete **doplnit dopředu** nulové hodnoty, což znamená použít poslední platnou hodnotu k vyplnění nulové hodnoty:


In [41]:
example5.fillna(method='ffill')

a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64

Můžete také **zpětně vyplnit**, abyste propagovali další platnou hodnotu zpět a vyplnili null:


In [42]:
example5.fillna(method='bfill')

a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64

Jak můžete tušit, toto funguje stejně i s DataFrames, ale můžete také specifikovat `axis`, podél kterého chcete vyplnit nulové hodnoty:


In [43]:
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


In [44]:
example4.fillna(method='ffill', axis=1)

Unnamed: 0,0,1,2,3
0,1.0,1.0,7.0,7.0
1,2.0,5.0,8.0,8.0
2,,6.0,9.0,9.0


Všimněte si, že když není k dispozici předchozí hodnota pro doplnění, zůstává nulová hodnota.


### Cvičení:


In [45]:
# What output does example4.fillna(method='bfill', axis=1) produce?
# What about example4.fillna(method='ffill') or example4.fillna(method='bfill')?
# Can you think of a longer code snippet to write that can fill all of the null values in example4?


Můžete být kreativní při používání `fillna`. Například se podívejme znovu na `example4`, ale tentokrát vyplňme chybějící hodnoty průměrem všech hodnot v `DataFrame`:


In [46]:
example4.fillna(example4.mean())

Unnamed: 0,0,1,2,3
0,1.0,5.5,7,
1,2.0,5.0,8,
2,1.5,6.0,9,


Všimněte si, že sloupec 3 je stále bez hodnot: výchozí směr je vyplňování hodnot po řádcích.

> **Poučení:** Existuje několik způsobů, jak se vypořádat s chybějícími hodnotami ve vašich datových sadách. Konkrétní strategie, kterou použijete (odstranění, nahrazení nebo způsob nahrazení), by měla být určena specifiky těchto dat. Čím více budete pracovat s datovými sadami, tím lépe si osvojíte způsoby, jak řešit chybějící hodnoty.


### Kódování kategorických dat

Modely strojového učení pracují pouze s čísly a jakoukoli formou číselných dat. Nebudou schopny rozlišit mezi Ano a Ne, ale dokážou rozlišit mezi 0 a 1. Proto je po doplnění chybějících hodnot potřeba zakódovat kategorická data do nějaké číselné podoby, aby je model pochopil.

Kódování lze provést dvěma způsoby. Ty si nyní rozebereme.


**KÓDOVÁNÍ ŠTÍTKŮ**

Kódování štítků spočívá v převodu každé kategorie na číslo. Například, řekněme, že máme dataset cestujících letecké společnosti a je zde sloupec obsahující jejich třídu z následujících možností ['business class', 'economy class', 'first class']. Pokud by bylo provedeno kódování štítků, bylo by to převedeno na [0,1,2]. Podívejme se na příklad pomocí kódu. Jelikož se budeme učit `scikit-learn` v nadcházejících poznámkách, zde ho nepoužijeme.


In [47]:
label = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
label

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


Pro provedení kódování štítků na 1. sloupci musíme nejprve popsat mapování každé třídy na číslo, než provedeme nahrazení.


In [48]:
class_labels = {'business class':0,'economy class':1,'first class':2}
label['class'] = label['class'].replace(class_labels)
label

Unnamed: 0,ID,class
0,10,0
1,20,2
2,30,1
3,40,1
4,50,1
5,60,0


Jak vidíme, výstup odpovídá tomu, co jsme očekávali. Kdy tedy použít kódování štítků? Kódování štítků se používá v jednom nebo obou z následujících případů:
1. Když je počet kategorií velký
2. Když jsou kategorie seřazeny.


**ONE HOT ENCODING**

Dalším typem kódování je One Hot Encoding. Při tomto typu kódování se každá kategorie sloupce přidá jako samostatný sloupec a každému datovému bodu se přiřadí 0 nebo 1 podle toho, zda obsahuje danou kategorii. Pokud tedy existuje n různých kategorií, do datového rámce se přidá n sloupců.

Například vezměme stejný příklad tříd v letadle. Kategorie byly: ['business class', 'economy class', 'first class']. Pokud provedeme One Hot Encoding, do datasetu budou přidány následující tři sloupce: ['class_business class', 'class_economy class', 'class_first class'].


In [49]:
one_hot = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
one_hot

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


Proveďme one hot encoding na prvním sloupci


In [50]:
one_hot_data = pd.get_dummies(one_hot,columns=['class'])

In [51]:
one_hot_data

Unnamed: 0,ID,class_business class,class_economy class,class_first class
0,10,1,0,0
1,20,0,0,1
2,30,0,1,0
3,40,0,1,0
4,50,0,1,0
5,60,1,0,0


Každý sloupec s jedním horkým kódováním obsahuje 0 nebo 1, což určuje, zda daná kategorie existuje pro daný datový bod.


Kdy používáme one hot encoding? One hot encoding se používá v jednom nebo obou následujících případech:

1. Když je počet kategorií a velikost datového souboru menší.
2. Když kategorie nemají žádné konkrétní pořadí.


> Klíčové poznatky:
1. Kódování se provádí za účelem převodu nenumerických dat na numerická data.
2. Existují dva typy kódování: Label encoding a One Hot encoding, které lze použít podle požadavků datové sady.


## Odstranění duplicitních dat

> **Cíl učení:** Na konci této podsekce byste měli být schopni identifikovat a odstranit duplicitní hodnoty z DataFrames.

Kromě chybějících dat se v reálných datových sadách často setkáte s duplicitními daty. Naštěstí pandas nabízí snadný způsob, jak detekovat a odstranit duplicitní záznamy.


### Identifikace duplicit: `duplicated`

Duplicitní hodnoty můžete snadno zjistit pomocí metody `duplicated` v pandas, která vrací Booleovskou masku označující, zda je záznam v `DataFrame` duplicitou dřívějšího záznamu. Vytvořme si další příklad `DataFrame`, abychom to viděli v praxi.


In [52]:
example6 = pd.DataFrame({'letters': ['A','B'] * 2 + ['B'],
                         'numbers': [1, 2, 1, 3, 3]})
example6

Unnamed: 0,letters,numbers
0,A,1
1,B,2
2,A,1
3,B,3
4,B,3


In [53]:
example6.duplicated()

0    False
1    False
2     True
3    False
4     True
dtype: bool

### Odstranění duplicit: `drop_duplicates`
`drop_duplicates` jednoduše vrátí kopii dat, u kterých jsou všechny hodnoty označené jako `duplicated` nastaveny na `False`:


In [54]:
example6.drop_duplicates()

Unnamed: 0,letters,numbers
0,A,1
1,B,2
3,B,3


Jak `duplicated`, tak `drop_duplicates` ve výchozím nastavení zohledňují všechny sloupce, ale můžete specifikovat, že mají zkoumat pouze podmnožinu sloupců ve vašem `DataFrame`:


In [55]:
example6.drop_duplicates(['letters'])

Unnamed: 0,letters,numbers
0,A,1
1,B,2


> **Závěr:** Odstranění duplicitních dat je nezbytnou součástí téměř každého projektu v oblasti datové vědy. Duplicitní data mohou změnit výsledky vašich analýz a poskytnout vám nepřesné výsledky!


## Kontroly kvality dat v reálném světě

> **Cíl učení:** Na konci této sekce byste měli být schopni rozpoznat a opravit běžné problémy s kvalitou dat v reálném světě, včetně nekonzistentních hodnot kategorií, abnormálních číselných hodnot (odlehlých bodů) a duplicitních entit s variacemi.

Zatímco chybějící hodnoty a přesné duplicity jsou běžné problémy, datové sady z reálného světa často obsahují jemnější problémy:

1. **Nekonzistentní hodnoty kategorií**: Stejná kategorie napsaná různými způsoby (např. "USA", "U.S.A", "United States")
2. **Abnormální číselné hodnoty**: Extrémní odlehlé body, které naznačují chyby při zadávání dat (např. věk = 999)
3. **Téměř duplicitní řádky**: Záznamy, které představují stejnou entitu s drobnými variacemi

Pojďme prozkoumat techniky, jak tyto problémy odhalit a řešit.


### Vytvoření ukázkového „špinavého“ datasetu

Nejprve vytvoříme ukázkový dataset, který obsahuje typy problémů, se kterými se běžně setkáváme u reálných dat:


In [None]:
import pandas as pd
import numpy as np

# Create a sample dataset with quality issues
dirty_data = pd.DataFrame({
    'customer_id': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12],
    'name': ['John Smith', 'Jane Doe', 'John Smith', 'Bob Johnson', 
             'Alice Williams', 'Charlie Brown', 'John  Smith', 'Eva Martinez',
             'Bob Johnson', 'Diana Prince', 'Frank Castle', 'Alice Williams'],
    'age': [25, 32, 25, 45, 28, 199, 25, 31, 45, 27, -5, 28],
    'country': ['USA', 'UK', 'U.S.A', 'Canada', 'USA', 'United Kingdom',
                'United States', 'Mexico', 'canada', 'USA', 'UK', 'usa'],
    'purchase_amount': [100.50, 250.00, 105.00, 320.00, 180.00, 90.00,
                       102.00, 275.00, 325.00, 195.00, 410.00, 185.00]
})

print("Sample 'Dirty' Dataset:")
print(dirty_data)

### 1. Detekce nekonzistentních hodnot v kategoriích

Všimněte si, že sloupec `country` obsahuje více reprezentací pro stejné země. Pojďme identifikovat tyto nekonzistence:


In [None]:
# Check unique values in the country column
print("Unique country values:")
print(dirty_data['country'].unique())
print(f"\nTotal unique values: {dirty_data['country'].nunique()}")

# Count occurrences of each variation
print("\nValue counts:")
print(dirty_data['country'].value_counts())

#### Standardizace kategoriálních hodnot

Můžeme vytvořit mapování pro standardizaci těchto hodnot. Jednoduchý přístup je převést hodnoty na malá písmena a vytvořit slovník mapování:


In [None]:
# Create a standardization mapping
country_mapping = {
    'usa': 'USA',
    'u.s.a': 'USA',
    'united states': 'USA',
    'uk': 'UK',
    'united kingdom': 'UK',
    'canada': 'Canada',
    'mexico': 'Mexico'
}

# Standardize the country column
dirty_data['country_clean'] = dirty_data['country'].str.lower().map(country_mapping)

print("Before standardization:")
print(dirty_data['country'].value_counts())
print("\nAfter standardization:")
print(dirty_data[['country_clean']].value_counts())

**Alternativa: Použití rozmazaného porovnávání**

Pro složitější případy můžeme použít rozmazané porovnávání řetězců s knihovnou `rapidfuzz` k automatické detekci podobných řetězců:


In [None]:
try:
    from rapidfuzz import process, fuzz
except ImportError:
    print("rapidfuzz is not installed. Please install it with 'pip install rapidfuzz' to use fuzzy matching.")
    process = None
    fuzz = None

# Get unique countries
unique_countries = dirty_data['country'].unique()

# For each country, find similar matches
if process is not None and fuzz is not None:
    print("Finding similar country names (similarity > 70%):")
    for country in unique_countries:
        matches = process.extract(country, unique_countries, scorer=fuzz.ratio, limit=3)
        # Filter matches with similarity > 70 and not identical
        similar = [m for m in matches if m[1] > 70 and m[0] != country]
        if similar:
            print(f"\n'{country}' is similar to:")
            for match, score, _ in similar:
                print(f"  - '{match}' (similarity: {score}%)")
else:
    print("Skipping fuzzy matching because rapidfuzz is not available.")

### 2. Detekce abnormálních číselných hodnot (odlehlých hodnot)

Při pohledu na sloupec `age` máme některé podezřelé hodnoty, jako například 199 a -5. Použijme statistické metody k detekci těchto odlehlých hodnot.


In [None]:
# Display basic statistics
print("Age column statistics:")
print(dirty_data['age'].describe())

# Identify impossible values using domain knowledge
print("\nRows with impossible age values (< 0 or > 120):")
impossible_ages = dirty_data[(dirty_data['age'] < 0) | (dirty_data['age'] > 120)]
print(impossible_ages[['customer_id', 'name', 'age']])

#### Použití metody IQR (Interkvartilové rozpětí)

Metoda IQR je robustní statistická technika pro detekci odlehlých hodnot, která je méně citlivá na extrémní hodnoty:


In [None]:
# Calculate IQR for age (excluding impossible values)
valid_ages = dirty_data[(dirty_data['age'] >= 0) & (dirty_data['age'] <= 120)]['age']

Q1 = valid_ages.quantile(0.25)
Q3 = valid_ages.quantile(0.75)
IQR = Q3 - Q1

# Define outlier bounds
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

print(f"IQR-based outlier bounds for age: [{lower_bound:.2f}, {upper_bound:.2f}]")

# Identify outliers
age_outliers = dirty_data[(dirty_data['age'] < lower_bound) | (dirty_data['age'] > upper_bound)]
print(f"\nRows with age outliers:")
print(age_outliers[['customer_id', 'name', 'age']])

#### Použití metody Z-skóre

Metoda Z-skóre identifikuje odlehlé hodnoty na základě standardních odchylek od průměru:


In [None]:
try:
    from scipy import stats
except ImportError:
    print("scipy is required for Z-score calculation. Please install it with 'pip install scipy' and rerun this cell.")
else:
    # Calculate Z-scores for age, handling NaN values
    age_nonan = dirty_data['age'].dropna()
    zscores = np.abs(stats.zscore(age_nonan))
    dirty_data['age_zscore'] = np.nan
    dirty_data.loc[age_nonan.index, 'age_zscore'] = zscores

    # Typically, Z-score > 3 indicates an outlier
    print("Rows with age Z-score > 3:")
    zscore_outliers = dirty_data[dirty_data['age_zscore'] > 3]
    print(zscore_outliers[['customer_id', 'name', 'age', 'age_zscore']])

    # Clean up the temporary column
    dirty_data = dirty_data.drop('age_zscore', axis=1)

#### Zpracování odlehlých hodnot

Jakmile jsou odlehlé hodnoty detekovány, lze je zpracovat několika způsoby:
1. **Odstranit**: Smazat řádky s odlehlými hodnotami (pokud se jedná o chyby)
2. **Omezit**: Nahradit hraničními hodnotami
3. **Nahradit NaN**: Považovat za chybějící data a použít metody imputace
4. **Ponechat**: Pokud se jedná o legitimní extrémní hodnoty


In [None]:
# Create a cleaned version by replacing impossible ages with NaN
dirty_data['age_clean'] = dirty_data['age'].apply(
    lambda x: np.nan if (x < 0 or x > 120) else x
)

print("Age column before and after cleaning:")
print(dirty_data[['customer_id', 'name', 'age', 'age_clean']])

### 3. Detekce téměř duplicitních řádků

Všimněte si, že náš dataset obsahuje více záznamů pro „John Smith“ s mírně odlišnými hodnotami. Pojďme identifikovat potenciální duplicity na základě podobnosti jmen.


In [None]:
# First, let's look at exact name matches (ignoring extra whitespace)
dirty_data['name_normalized'] = dirty_data['name'].str.strip().str.lower()

print("Checking for duplicate names:")
duplicate_names = dirty_data[dirty_data.duplicated(['name_normalized'], keep=False)]
print(duplicate_names.sort_values('name_normalized')[['customer_id', 'name', 'age', 'country']])

#### Hledání téměř duplicit pomocí fuzzy porovnávání

Pro pokročilejší detekci duplicit můžeme použít fuzzy porovnávání k nalezení podobných jmen:


In [None]:
try:
    from rapidfuzz import process, fuzz

    # Function to find potential duplicates
    def find_near_duplicates(df, column, threshold=90):
        """
        Find near-duplicate entries in a column using fuzzy matching.
        
        Parameters:
        - df: DataFrame
        - column: Column name to check for duplicates
        - threshold: Similarity threshold (0-100)
        
        Returns: List of potential duplicate groups
        """
        values = df[column].unique()
        duplicate_groups = []
        checked = set()
        
        for value in values:
            if value in checked:
                continue
                
            # Find similar values
            matches = process.extract(value, values, scorer=fuzz.ratio, limit=len(values))
            similar = [m[0] for m in matches if m[1] >= threshold]
            
            if len(similar) > 1:
                duplicate_groups.append(similar)
                checked.update(similar)
        
        return duplicate_groups

    # Find near-duplicate names
    duplicate_groups = find_near_duplicates(dirty_data, 'name', threshold=90)

    print("Potential duplicate groups:")
    for i, group in enumerate(duplicate_groups, 1):
        print(f"\nGroup {i}:")
        for name in group:
            matching_rows = dirty_data[dirty_data['name'] == name]
            print(f"  '{name}': {len(matching_rows)} occurrence(s)")
            for _, row in matching_rows.iterrows():
                print(f"    - Customer {row['customer_id']}: age={row['age']}, country={row['country']}")
except ImportError:
    print("rapidfuzz is not installed. Skipping fuzzy matching for near-duplicates.")

#### Řešení duplicit

Jakmile jsou duplicity identifikovány, je třeba rozhodnout, jak s nimi naložit:
1. **Ponechat první výskyt**: Použijte `drop_duplicates(keep='first')`
2. **Ponechat poslední výskyt**: Použijte `drop_duplicates(keep='last')`
3. **Agregovat informace**: Sloučit informace z duplicitních řádků
4. **Ruční kontrola**: Označit k manuálnímu přezkoumání


In [None]:
# Example: Remove duplicates based on normalized name, keeping first occurrence
cleaned_data = dirty_data.drop_duplicates(subset=['name_normalized'], keep='first')

print(f"Original dataset: {len(dirty_data)} rows")
print(f"After removing name duplicates: {len(cleaned_data)} rows")
print(f"Removed: {len(dirty_data) - len(cleaned_data)} duplicate rows")

print("\nCleaned dataset:")
print(cleaned_data[['customer_id', 'name', 'age', 'country_clean']])

### Shrnutí: Kompletní proces čištění dat

Spojme vše dohromady do uceleného procesu čištění dat:


In [None]:
def clean_dataset(df):
    """
    Comprehensive data cleaning function.
    """
    # Create a copy to avoid modifying the original
    cleaned = df.copy()
    
    # 1. Standardize categorical values (country)
    country_mapping = {
        'usa': 'USA', 'u.s.a': 'USA', 'united states': 'USA',
        'uk': 'UK', 'united kingdom': 'UK',
        'canada': 'Canada', 'mexico': 'Mexico'
    }
    cleaned['country'] = cleaned['country'].str.lower().map(country_mapping)
    
    # 2. Clean abnormal age values
    cleaned['age'] = cleaned['age'].apply(
        lambda x: np.nan if (x < 0 or x > 120) else x
    )
    
    # 3. Remove near-duplicate names (normalize whitespace)
    cleaned['name'] = cleaned['name'].str.strip()
    cleaned = cleaned.drop_duplicates(subset=['name'], keep='first')
    
    return cleaned

# Apply the cleaning pipeline
final_cleaned_data = clean_dataset(dirty_data)

print("Before cleaning:")
print(f"  Rows: {len(dirty_data)}")
print(f"  Unique countries: {dirty_data['country'].nunique()}")
print(f"  Invalid ages: {((dirty_data['age'] < 0) | (dirty_data['age'] > 120)).sum()}")

print("\nAfter cleaning:")
print(f"  Rows: {len(final_cleaned_data)}")
print(f"  Unique countries: {final_cleaned_data['country'].nunique()}")
print(f"  Invalid ages: {((final_cleaned_data['age'] < 0) | (final_cleaned_data['age'] > 120)).sum()}")

print("\nCleaned dataset:")
print(final_cleaned_data[['customer_id', 'name', 'age', 'country', 'purchase_amount']])

### 🎯 Cvičné cvičení

Teď je řada na vás! Níže je nový řádek dat s několika problémy s kvalitou. Dokážete:

1. Identifikovat všechny problémy v tomto řádku
2. Napsat kód pro opravu každého problému
3. Přidat opravený řádek do datové sady

Zde jsou problematická data:


In [None]:
# New problematic row
new_row = pd.DataFrame({
    'customer_id': [13],
    'name': ['  Diana  Prince  '],  # Extra whitespace
    'age': [250],  # Impossible age
    'country': ['U.S.A.'],  # Inconsistent format
    'purchase_amount': [150.00]
})

print("New row to clean:")
print(new_row)

# TODO: Your code here to clean this row
# Hints:
# 1. Strip whitespace from the name
# 2. Check if the name is a duplicate (Diana Prince already exists)
# 3. Handle the impossible age value
# 4. Standardize the country name

# Example solution (uncomment and modify as needed):
# new_row_cleaned = new_row.copy()
# new_row_cleaned['name'] = new_row_cleaned['name'].str.strip()
# new_row_cleaned['age'] = np.nan  # Invalid age
# new_row_cleaned['country'] = 'USA'  # Standardized
# print("\nCleaned row:")
# print(new_row_cleaned)

### Klíčové poznatky

1. **Nekonzistentní kategorie** jsou běžné v reálných datech. Vždy zkontrolujte unikátní hodnoty a standardizujte je pomocí mapování nebo fuzzy porovnávání.

2. **Odlehlé hodnoty** mohou výrazně ovlivnit vaši analýzu. Použijte kombinaci znalostí z oboru a statistických metod (IQR, Z-skóre) k jejich detekci.

3. **Téměř duplicitní hodnoty** je těžší odhalit než přesné duplicity. Zvažte použití fuzzy porovnávání a normalizace dat (převod na malá písmena, odstranění mezer) k jejich identifikaci.

4. **Čištění dat je iterativní proces**. Může být nutné použít více technik a zkontrolovat výsledky před dokončením čištěného datasetu.

5. **Dokumentujte svá rozhodnutí**. Sledujte, jaké kroky čištění jste aplikovali a proč, protože to je důležité pro reprodukovatelnost a transparentnost.

> **Doporučený postup:** Vždy si ponechte kopii původních "špinavých" dat. Nikdy nepřepisujte své zdrojové datové soubory – vytvořte vyčištěné verze s jasnými názvy, například `data_cleaned.csv`.



---

**Prohlášení**:  
Tento dokument byl přeložen pomocí služby AI pro překlady [Co-op Translator](https://github.com/Azure/co-op-translator). I když se snažíme o přesnost, mějte prosím na paměti, že automatizované překlady mohou obsahovat chyby nebo nepřesnosti. Původní dokument v jeho původním jazyce by měl být považován za autoritativní zdroj. Pro důležité informace doporučujeme profesionální lidský překlad. Neodpovídáme za žádná nedorozumění nebo nesprávné interpretace vyplývající z použití tohoto překladu.
