## Úvod do klasifikácie: Čistenie, príprava a vizualizácia dát

V týchto štyroch lekciách sa zameriame na základný aspekt klasického strojového učenia - *klasifikáciu*. Prejdeme si používanie rôznych klasifikačných algoritmov na dátovom súbore o všetkých úžasných kuchyniach Ázie a Indie. Dúfame, že máte chuť na jedlo!

<p >
   <img src="../../images/pinch.png"
   width="600"/>
   <figcaption>Oslávte panázijské kuchyne v týchto lekciách! Obrázok od Jen Looper</figcaption>


<!--![Oslávte panázijské kuchyne v týchto lekciách! Obrázok od Jen Looper](../../../../../../4-Classification/1-Introduction/solution/R/images/pinch.png)-->

Klasifikácia je forma [supervised learning](https://wikipedia.org/wiki/Supervised_learning), ktorá má veľa spoločného s regresnými technikami. Pri klasifikácii trénujete model, aby predpovedal, do akej `kategórie` položka patrí. Ak je strojové učenie o predpovedaní hodnôt alebo názvov vecí pomocou dátových súborov, potom klasifikácia všeobecne spadá do dvoch skupín: *binárna klasifikácia* a *multiklasová klasifikácia*.

Pamätajte:

-   **Lineárna regresia** vám pomohla predpovedať vzťahy medzi premennými a presne určiť, kde by nový dátový bod spadal vo vzťahu k tejto línii. Napríklad ste mohli predpovedať číselné hodnoty, ako *aká bude cena tekvice v septembri vs. decembri*.

-   **Logistická regresia** vám pomohla objaviť "binárne kategórie": pri tejto cenovej úrovni, *je táto tekvica oranžová alebo nie-oranžová*?

Klasifikácia používa rôzne algoritmy na určenie ďalších spôsobov, ako priradiť dátovému bodu štítok alebo triedu. Poďme pracovať s týmito dátami o kuchyniach, aby sme zistili, či na základe skupiny ingrediencií dokážeme určiť jej pôvodnú kuchyňu.

### [**Kvíz pred prednáškou**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/19/)

### **Úvod**

Klasifikácia je jednou zo základných aktivít výskumníka strojového učenia a dátového vedca. Od základnej klasifikácie binárnej hodnoty ("je tento e-mail spam alebo nie?") až po komplexnú klasifikáciu a segmentáciu obrázkov pomocou počítačového videnia, je vždy užitočné vedieť triediť dáta do tried a klásť im otázky.

Ak to vyjadríme vedeckejšie, vaša klasifikačná metóda vytvára prediktívny model, ktorý vám umožňuje mapovať vzťah medzi vstupnými premennými a výstupnými premennými.

<p >
   <img src="../../images/binary-multiclass.png"
   width="600"/>
   <figcaption>Binárne vs. multiklasové problémy, ktoré klasifikačné algoritmy riešia. Infografika od Jen Looper</figcaption>



Predtým, než začneme proces čistenia našich dát, ich vizualizácie a prípravy na úlohy strojového učenia, poďme sa naučiť niečo o rôznych spôsoboch, ako môže byť strojové učenie využité na klasifikáciu dát.

Odvodené zo [štatistiky](https://wikipedia.org/wiki/Statistical_classification), klasifikácia pomocou klasického strojového učenia používa vlastnosti, ako `fajčiar`, `hmotnosť` a `vek`, na určenie *pravdepodobnosti vývoja X choroby*. Ako technika supervised learning podobná regresným cvičeniam, ktoré ste vykonávali skôr, vaše dáta sú označené a algoritmy strojového učenia používajú tieto označenia na klasifikáciu a predpovedanie tried (alebo 'vlastností') dátového súboru a ich priradenie do skupiny alebo výsledku.

✅ Predstavte si na chvíľu dátový súbor o kuchyniach. Na čo by mohol odpovedať multiklasový model? Na čo by mohol odpovedať binárny model? Čo ak by ste chceli určiť, či daná kuchyňa pravdepodobne používa senovku grécku? Čo ak by ste chceli zistiť, či by ste na základe daru tašky s potravinami plnej badiánu, artičokov, karfiolu a chrenu mohli vytvoriť typické indické jedlo?

### **Ahoj 'klasifikátor'**

Otázka, ktorú chceme položiť tomuto dátovému súboru o kuchyniach, je vlastne **multiklasová otázka**, pretože máme niekoľko potenciálnych národných kuchýň, s ktorými môžeme pracovať. Na základe dávky ingrediencií, do ktorej z týchto mnohých tried budú dáta patriť?

Tidymodels ponúka niekoľko rôznych algoritmov na klasifikáciu dát, v závislosti od typu problému, ktorý chcete vyriešiť. V nasledujúcich dvoch lekciách sa naučíte o niekoľkých z týchto algoritmov.

#### **Predpoklad**

Pre túto lekciu budeme potrebovať nasledujúce balíky na čistenie, prípravu a vizualizáciu našich dát:

-   `tidyverse`: [tidyverse](https://www.tidyverse.org/) je [kolekcia balíkov pre R](https://www.tidyverse.org/packages), ktorá robí dátovú vedu rýchlejšou, jednoduchšou a zábavnejšou!

-   `tidymodels`: [tidymodels](https://www.tidymodels.org/) je rámec [kolekcie balíkov](https://www.tidymodels.org/packages/) na modelovanie a strojové učenie.

-   `DataExplorer`: Balík [DataExplorer](https://cran.r-project.org/web/packages/DataExplorer/vignettes/dataexplorer-intro.html) je určený na zjednodušenie a automatizáciu procesu EDA a generovania správ.

-   `themis`: Balík [themis](https://themis.tidymodels.org/) poskytuje extra kroky receptov na riešenie nevyvážených dát.

Môžete ich nainštalovať pomocou:

`install.packages(c("tidyverse", "tidymodels", "DataExplorer", "here"))`

Alternatívne, skript nižšie skontroluje, či máte balíky potrebné na dokončenie tohto modulu, a nainštaluje ich za vás, ak chýbajú.


In [None]:
suppressWarnings(if (!require("pacman"))install.packages("pacman"))

pacman::p_load(tidyverse, tidymodels, DataExplorer, themis, here)

Neskôr načítame tieto úžasné balíky a sprístupníme ich v našej aktuálnej R relácii. (Toto je len na ilustráciu, `pacman::p_load()` to už za vás urobil)


## Cvičenie - vyčistite a vyvážte svoje dáta

Prvým krokom pred začatím tohto projektu je vyčistiť a **vyvážiť** svoje dáta, aby ste dosiahli lepšie výsledky.

Zoznámme sa s dátami! 🕵️


In [None]:
# Import data
df <- read_csv(file = "https://raw.githubusercontent.com/microsoft/ML-For-Beginners/main/4-Classification/data/cuisines.csv")

# View the first 5 rows
df %>% 
  slice_head(n = 5)


Zaujímavé! Podľa vzhľadu to vyzerá, že prvý stĺpec je akýsi stĺpec `id`. Poďme získať trochu viac informácií o údajoch.


In [None]:
# Basic information about the data
df %>%
  introduce()

# Visualize basic information above
df %>% 
  plot_intro(ggtheme = theme_light())

Z výstupu môžeme okamžite vidieť, že máme `2448` riadkov a `385` stĺpcov a `0` chýbajúcich hodnôt. Máme tiež 1 diskrétny stĺpec, *cuisine*.

## Cvičenie - učenie sa o kuchyniach

Teraz sa práca začína stávať zaujímavejšou. Poďme objaviť rozdelenie údajov podľa kuchyne.


In [None]:
# Count observations per cuisine
df %>% 
  count(cuisine) %>% 
  arrange(n)

# Plot the distribution
theme_set(theme_light())
df %>% 
  count(cuisine) %>% 
  ggplot(mapping = aes(x = n, y = reorder(cuisine, -n))) +
  geom_col(fill = "midnightblue", alpha = 0.7) +
  ylab("cuisine")

Existuje konečný počet kuchýň, ale rozloženie údajov je nerovnomerné. Môžete to napraviť! Predtým však preskúmajte trochu viac.

Ďalej priraďme každú kuchyňu do jej vlastného tibble a zistime, koľko údajov je k dispozícii (riadky, stĺpce) na jednu kuchyňu.

> [Tibble](https://tibble.tidyverse.org/) je moderný dátový rámec.

<p >
   <img src="../../images/dplyr_filter.jpg"
   width="600"/>
   <figcaption>Ilustrácia od @allison_horst</figcaption>


In [None]:
# Create individual tibble for the cuisines
thai_df <- df %>% 
  filter(cuisine == "thai")
japanese_df <- df %>% 
  filter(cuisine == "japanese")
chinese_df <- df %>% 
  filter(cuisine == "chinese")
indian_df <- df %>% 
  filter(cuisine == "indian")
korean_df <- df %>% 
  filter(cuisine == "korean")


# Find out how much data is available per cuisine
cat(" thai df:", dim(thai_df), "\n",
    "japanese df:", dim(japanese_df), "\n",
    "chinese_df:", dim(chinese_df), "\n",
    "indian_df:", dim(indian_df), "\n",
    "korean_df:", dim(korean_df))

## **Cvičenie - Objavovanie hlavných ingrediencií podľa kuchyne pomocou dplyr**

Teraz sa môžete hlbšie ponoriť do údajov a zistiť, aké sú typické ingrediencie pre jednotlivé kuchyne. Mali by ste odstrániť opakujúce sa údaje, ktoré spôsobujú zmätok medzi kuchyňami, takže sa poďme pozrieť na tento problém.

Vytvorte funkciu `create_ingredient()` v R, ktorá vráti dataframe s ingredienciami. Táto funkcia začne odstránením nepotrebného stĺpca a zoradí ingrediencie podľa ich počtu.

Základná štruktúra funkcie v R je:

`myFunction <- function(arglist){`

**`...`**

**`return`**`(value)`

`}`

Úhľadný úvod do funkcií v R nájdete [tu](https://skirmer.github.io/presentations/functions_with_r.html#1).

Poďme na to! Využijeme [dplyr slovesá](https://dplyr.tidyverse.org/), ktoré sme sa učili v predchádzajúcich lekciách. Na zopakovanie:

-   `dplyr::select()`: pomáha vám vybrať, ktoré **stĺpce** chcete ponechať alebo vylúčiť.

-   `dplyr::pivot_longer()`: pomáha "predĺžiť" údaje, čím sa zvýši počet riadkov a zníži počet stĺpcov.

-   `dplyr::group_by()` a `dplyr::summarise()`: pomáha nájsť štatistické súhrny pre rôzne skupiny a usporiadať ich do prehľadnej tabuľky.

-   `dplyr::filter()`: vytvára podmnožinu údajov obsahujúcu iba riadky, ktoré spĺňajú vaše podmienky.

-   `dplyr::mutate()`: pomáha vytvárať alebo upravovať stĺpce.

Pozrite si tento [*umelecky* ladený learnr tutoriál](https://allisonhorst.shinyapps.io/dplyr-learnr/#section-welcome) od Allison Horst, ktorý predstavuje niektoré užitočné funkcie na spracovanie údajov v dplyr *(súčasť Tidyverse)*.


In [None]:
# Creates a functions that returns the top ingredients by class

create_ingredient <- function(df){
  
  # Drop the id column which is the first colum
  ingredient_df = df %>% select(-1) %>% 
  # Transpose data to a long format
    pivot_longer(!cuisine, names_to = "ingredients", values_to = "count") %>% 
  # Find the top most ingredients for a particular cuisine
    group_by(ingredients) %>% 
    summarise(n_instances = sum(count)) %>% 
    filter(n_instances != 0) %>% 
  # Arrange by descending order
    arrange(desc(n_instances)) %>% 
    mutate(ingredients = factor(ingredients) %>% fct_inorder())
  
  
  return(ingredient_df)
} # End of function

Teraz môžeme použiť funkciu na získanie predstavy o desiatich najpopulárnejších ingredienciách podľa kuchyne. Poďme si to vyskúšať s `thai_df`.


In [None]:
# Call create_ingredient and display popular ingredients
thai_ingredient_df <- create_ingredient(df = thai_df)

thai_ingredient_df %>% 
  slice_head(n = 10)

V predchádzajúcej časti sme použili `geom_col()`, pozrime sa, ako môžete použiť aj `geom_bar` na vytvorenie stĺpcových grafov. Použite `?geom_bar` na ďalšie čítanie.


In [None]:
# Make a bar chart for popular thai cuisines
thai_ingredient_df %>% 
  slice_head(n = 10) %>% 
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "steelblue") +
  xlab("") + ylab("")

In [None]:
# Get popular ingredients for Japanese cuisines and make bar chart
create_ingredient(df = japanese_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "darkorange", alpha = 0.8) +
  xlab("") + ylab("")


Čo tak čínska kuchyňa?


In [None]:
# Get popular ingredients for Chinese cuisines and make bar chart
create_ingredient(df = chinese_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "cyan4", alpha = 0.8) +
  xlab("") + ylab("")

In [None]:
# Get popular ingredients for Indian cuisines and make bar chart
create_ingredient(df = indian_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "#041E42FF", alpha = 0.8) +
  xlab("") + ylab("")

In [None]:
# Get popular ingredients for Korean cuisines and make bar chart
create_ingredient(df = korean_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "#852419FF", alpha = 0.8) +
  xlab("") + ylab("")

Z vizualizácií dát môžeme teraz vynechať najbežnejšie ingrediencie, ktoré spôsobujú zmätok medzi odlišnými kuchyňami, pomocou `dplyr::select()`.

Každý miluje ryžu, cesnak a zázvor!


In [None]:
# Drop id column, rice, garlic and ginger from our original data set
df_select <- df %>% 
  select(-c(1, rice, garlic, ginger))

# Display new data set
df_select %>% 
  slice_head(n = 5)

## Predspracovanie údajov pomocou receptov 👩‍🍳👨‍🍳 - Riešenie nevyvážených údajov ⚖️

<p >
   <img src="../../images/recipes.png"
   width="600"/>
   <figcaption>Ilustrácia od @allison_horst</figcaption>

Keďže táto lekcia je o kuchyniach, musíme dať `recepty` do kontextu.

Tidymodels poskytuje ďalší šikovný balík: `recipes` - balík na predspracovanie údajov.


Pozrime sa znova na rozdelenie našich kuchýň.


In [None]:
# Distribution of cuisines
old_label_count <- df_select %>% 
  count(cuisine) %>% 
  arrange(desc(n))

old_label_count

Ako vidíte, počet kuchýň je dosť nerovnomerne rozdelený. Kórejské kuchyne sú takmer 3-krát početnejšie ako thajské kuchyne. Nevyvážené údaje často negatívne ovplyvňujú výkon modelu. Zamyslite sa nad binárnou klasifikáciou. Ak väčšina vašich údajov patrí do jednej triedy, model strojového učenia bude túto triedu predpovedať častejšie, jednoducho preto, že má k dispozícii viac údajov. Vyváženie údajov odstraňuje akúkoľvek skreslenosť a pomáha eliminovať túto nerovnováhu. Mnohé modely dosahujú najlepšie výsledky, keď je počet pozorovaní rovnaký, a preto majú tendenciu zápasiť s nevyváženými údajmi.

Existujú dva hlavné spôsoby, ako sa vysporiadať s nevyváženými dátovými súbormi:

-   pridanie pozorovaní do minoritnej triedy: `Over-sampling`, napr. pomocou algoritmu SMOTE

-   odstránenie pozorovaní z majoritnej triedy: `Under-sampling`

Teraz si ukážeme, ako pracovať s nevyváženými dátovými súbormi pomocou `receptu`. Recept si môžete predstaviť ako plán, ktorý popisuje, aké kroky by sa mali aplikovať na dátový súbor, aby bol pripravený na analýzu údajov.


In [None]:
# Load themis package for dealing with imbalanced data
library(themis)

# Create a recipe for preprocessing data
cuisines_recipe <- recipe(cuisine ~ ., data = df_select) %>% 
  step_smote(cuisine)

cuisines_recipe

Poďme si rozobrať naše kroky predspracovania.

-   Volanie funkcie `recipe()` s formulou určuje *úlohy* premenných pomocou údajov `df_select` ako referencie. Napríklad stĺpec `cuisine` bol priradený úlohe `outcome`, zatiaľ čo ostatné stĺpce boli priradené úlohe `predictor`.

-   [`step_smote(cuisine)`](https://themis.tidymodels.org/reference/step_smote.html) vytvára *špecifikáciu* kroku receptu, ktorý synteticky generuje nové príklady minoritnej triedy pomocou najbližších susedov týchto prípadov.

Ak by sme teraz chceli vidieť predspracované údaje, museli by sme [**`prep()`**](https://recipes.tidymodels.org/reference/prep.html) a [**`bake()`**](https://recipes.tidymodels.org/reference/bake.html) náš recept.

`prep()`: odhaduje potrebné parametre z tréningovej množiny, ktoré môžu byť neskôr aplikované na iné množiny údajov.

`bake()`: vezme pripravený recept a aplikuje operácie na akúkoľvek množinu údajov.


In [None]:
# Prep and bake the recipe
preprocessed_df <- cuisines_recipe %>% 
  prep() %>% 
  bake(new_data = NULL) %>% 
  relocate(cuisine)

# Display data
preprocessed_df %>% 
  slice_head(n = 5)

# Quick summary stats
preprocessed_df %>% 
  introduce()

Poďme teraz skontrolovať rozdelenie našich kuchýň a porovnať ich s nevyváženými údajmi.


In [None]:
# Distribution of cuisines
new_label_count <- preprocessed_df %>% 
  count(cuisine) %>% 
  arrange(desc(n))

list(new_label_count = new_label_count,
     old_label_count = old_label_count)

Mňam! Dáta sú pekné, čisté, vyvážené a veľmi chutné 😋!

> Zvyčajne sa recept používa ako predspracovateľ pre modelovanie, kde definuje, aké kroky by sa mali aplikovať na dátovú sadu, aby bola pripravená na modelovanie. V takom prípade sa typicky používa `workflow()` (ako sme už videli v našich predchádzajúcich lekciách) namiesto manuálneho odhadovania receptu.
>
> Preto zvyčajne nepotrebujete **`prep()`** a **`bake()`** recepty, keď používate tidymodels, ale sú to užitočné funkcie, ktoré môžete mať vo svojej výbave na potvrdenie, že recepty robia to, čo očakávate, ako v našom prípade.
>
> Keď **`bake()`** predspracovaný recept s **`new_data = NULL`**, dostanete späť dáta, ktoré ste poskytli pri definovaní receptu, ale už prešli krokmi predspracovania.

Teraz si uložíme kópiu týchto dát na použitie v budúcich lekciách:


In [None]:
# Save preprocessed data
write_csv(preprocessed_df, "../../../data/cleaned_cuisines_R.csv")

Tento nový CSV súbor sa teraz nachádza v hlavnom priečinku s dátami.

**🚀Výzva**

Tento učebný plán obsahuje niekoľko zaujímavých datasetov. Prezrite si priečinky `data` a zistite, či niektoré obsahujú datasety vhodné na binárnu alebo viactriednu klasifikáciu. Aké otázky by ste mohli položiť tomuto datasetu?

## [**Kvíz po prednáške**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/20/)

## **Prehľad a samostatné štúdium**

-   Pozrite si [balík themis](https://github.com/tidymodels/themis). Aké ďalšie techniky by sme mohli použiť na riešenie nevyvážených dát?

-   Referenčná stránka [Tidy models](https://www.tidymodels.org/start/).

-   H. Wickham a G. Grolemund, [*R for Data Science: Vizualizácia, modelovanie, transformácia, úprava a import dát*](https://r4ds.had.co.nz/).

#### ĎAKUJEME:

[`Allison Horst`](https://twitter.com/allison_horst/) za vytvorenie úžasných ilustrácií, ktoré robia R prístupnejším a zábavnejším. Viac ilustrácií nájdete v jej [galérii](https://www.google.com/url?q=https://github.com/allisonhorst/stats-illustrations&sa=D&source=editors&ust=1626380772530000&usg=AOvVaw3zcfyCizFQZpkSLzxiiQEM).

[Cassie Breviu](https://www.twitter.com/cassieview) a [Jen Looper](https://www.twitter.com/jenlooper) za vytvorenie pôvodnej verzie tohto modulu v Pythone ♥️

<p >
   <img src="../../images/r_learners_sm.jpeg"
   width="600"/>
   <figcaption>Ilustrácia od @allison_horst</figcaption>



---

**Upozornenie**:  
Tento dokument bol preložený pomocou služby AI prekladu [Co-op Translator](https://github.com/Azure/co-op-translator). Hoci sa snažíme o presnosť, prosím, berte na vedomie, že automatizované preklady môžu obsahovať chyby alebo nepresnosti. Pôvodný dokument v jeho rodnom jazyku by mal byť považovaný za autoritatívny zdroj. Pre kritické informácie sa odporúča profesionálny ľudský preklad. Nie sme zodpovední za akékoľvek nedorozumenia alebo nesprávne interpretácie vyplývajúce z použitia tohto prekladu.
