# Vytvořte klasifikační model: Lahodné asijské a indické kuchyně


## Úvod do klasifikace: Čištění, příprava a vizualizace dat

V těchto čtyřech lekcích se zaměříme na základní téma klasického strojového učení - *klasifikaci*. Projdeme si použití různých klasifikačních algoritmů na datasetu o všech skvělých kuchyních Asie a Indie. Doufáme, že máte hlad!

<p >
   <img src="../../images/pinch.png"
   width="600"/>
   <figcaption>Oslavte panasijské kuchyně v těchto lekcích! Obrázek od Jen Looper</figcaption>


<!--![Oslavte panasijské kuchyně v těchto lekcích! Obrázek od Jen Looper](../../../../../../4-Classification/1-Introduction/solution/R/images/pinch.png)-->

Klasifikace je forma [učeného učení](https://wikipedia.org/wiki/Supervised_learning), která má mnoho společného s regresními technikami. Při klasifikaci trénujete model, aby předpověděl, do které `kategorie` daná položka patří. Pokud je strojové učení o předpovídání hodnot nebo názvů věcí pomocí datasetů, pak klasifikace obecně spadá do dvou skupin: *binární klasifikace* a *vícetřídová klasifikace*.

Pamatujte:

-   **Lineární regrese** vám pomohla předpovědět vztahy mezi proměnnými a provádět přesné předpovědi, kam nový datový bod spadne ve vztahu k této linii. Například jste mohli předpovědět číselné hodnoty, jako *jaká bude cena dýně v září oproti prosinci*.

-   **Logistická regrese** vám pomohla objevit "binární kategorie": při této cenové hladině, *je tato dýně oranžová nebo neoranžová*?

Klasifikace využívá různé algoritmy k určení dalších způsobů, jak určit štítek nebo třídu datového bodu. Pojďme pracovat s těmito daty o kuchyních a zjistit, zda můžeme na základě skupiny ingrediencí určit původní kuchyni.

### [**Kvíz před lekcí**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/19/)

### **Úvod**

Klasifikace je jednou ze základních činností výzkumníka strojového učení a datového vědce. Od základní klasifikace binární hodnoty ("je tento e-mail spam nebo ne?") až po složitou klasifikaci a segmentaci obrázků pomocí počítačového vidění, je vždy užitečné být schopen třídit data do tříd a klást jim otázky.

Řečeno vědecky, vaše klasifikační metoda vytváří prediktivní model, který vám umožňuje mapovat vztah mezi vstupními proměnnými a výstupními proměnnými.

<p >
   <img src="../../images/binary-multiclass.png"
   width="600"/>
   <figcaption>Binární vs. vícetřídové problémy, které klasifikační algoritmy řeší. Infografika od Jen Looper</figcaption>



Než začneme s procesem čištění našich dat, jejich vizualizací a přípravou na úkoly strojového učení, pojďme se trochu seznámit s různými způsoby, jak lze strojové učení využít ke klasifikaci dat.

Odvozeno ze [statistiky](https://wikipedia.org/wiki/Statistical_classification), klasifikace pomocí klasického strojového učení využívá vlastnosti, jako jsou `kuřák`, `váha` a `věk`, k určení *pravděpodobnosti vývoje X nemoci*. Jako technika učeného učení podobná regresním cvičením, která jste prováděli dříve, jsou vaše data označena a algoritmy strojového učení používají tyto štítky k klasifikaci a předpovědi tříd (nebo 'vlastností') datasetu a jejich přiřazení ke skupině nebo výsledku.

✅ Udělejte si chvíli a představte si dataset o kuchyních. Na co by mohl odpovědět vícetřídový model? Na co by mohl odpovědět binární model? Co kdybyste chtěli určit, zda daná kuchyně pravděpodobně používá pískavici? Co kdybyste chtěli zjistit, zda byste mohli z tašky s potravinami plné badyánu, artyčoků, květáku a křenu vytvořit typické indické jídlo?

### **Ahoj 'klasifikátore'**

Otázka, kterou chceme položit tomuto datasetu o kuchyních, je vlastně **vícetřídová otázka**, protože máme několik potenciálních národních kuchyní, se kterými můžeme pracovat. Na základě dávky ingrediencí, do které z těchto mnoha tříd budou data spadat?

Tidymodels nabízí několik různých algoritmů pro klasifikaci dat, v závislosti na typu problému, který chcete řešit. V následujících dvou lekcích se naučíte o několika z těchto algoritmů.

#### **Předpoklady**

Pro tuto lekci budeme potřebovat následující balíčky pro čištění, přípravu a vizualizaci našich dat:

-   `tidyverse`: [tidyverse](https://www.tidyverse.org/) je [kolekce balíčků pro R](https://www.tidyverse.org/packages), která dělá datovou vědu rychlejší, jednodušší a zábavnější!

-   `tidymodels`: [tidymodels](https://www.tidymodels.org/) je [rámec balíčků](https://www.tidymodels.org/packages/) pro modelování a strojové učení.

-   `DataExplorer`: [balíček DataExplorer](https://cran.r-project.org/web/packages/DataExplorer/vignettes/dataexplorer-intro.html) je určen k zjednodušení a automatizaci procesu EDA a generování reportů.

-   `themis`: [balíček themis](https://themis.tidymodels.org/) poskytuje další kroky pro práci s nevyváženými daty.

Můžete je nainstalovat pomocí:

`install.packages(c("tidyverse", "tidymodels", "DataExplorer", "here"))`

Alternativně, skript níže zkontroluje, zda máte balíčky potřebné k dokončení tohoto modulu, a nainstaluje je za vás, pokud chybí.


In [None]:
suppressWarnings(if (!require("pacman"))install.packages("pacman"))

pacman::p_load(tidyverse, tidymodels, DataExplorer, themis, here)

Později načteme tyto skvělé balíčky a zpřístupníme je v naší aktuální relaci R. (Toto je pouze pro ilustraci, `pacman::p_load()` to již za vás udělal)


## Cvičení - vyčistěte a vyvažte svá data

Prvním úkolem, než začnete s tímto projektem, je vyčistit a **vyvážit** svá data, abyste dosáhli lepších výsledků.

Seznamme se s daty! 🕵️


In [None]:
# Import data
df <- read_csv(file = "https://raw.githubusercontent.com/microsoft/ML-For-Beginners/main/4-Classification/data/cuisines.csv")

# View the first 5 rows
df %>% 
  slice_head(n = 5)


Zajímavé! Podle všeho je první sloupec jakýsi sloupec `id`. Zjistíme si trochu více informací o těchto datech.


In [None]:
# Basic information about the data
df %>%
  introduce()

# Visualize basic information above
df %>% 
  plot_intro(ggtheme = theme_light())

Z výstupu můžeme okamžitě vidět, že máme `2448` řádků a `385` sloupců a `0` chybějících hodnot. Máme také 1 diskrétní sloupec, *cuisine*.

## Cvičení - poznávání kuchyní

Teď začíná práce být zajímavější. Pojďme objevit rozložení dat podle jednotlivých kuchyní.


In [None]:
# Count observations per cuisine
df %>% 
  count(cuisine) %>% 
  arrange(n)

# Plot the distribution
theme_set(theme_light())
df %>% 
  count(cuisine) %>% 
  ggplot(mapping = aes(x = n, y = reorder(cuisine, -n))) +
  geom_col(fill = "midnightblue", alpha = 0.7) +
  ylab("cuisine")

Existuje konečný počet kuchyní, ale rozložení dat je nerovnoměrné. To můžete napravit! Než tak učiníte, prozkoumejte to trochu více.

Dále přiřaďme každou kuchyni do jejího vlastního tibble a zjistěme, kolik dat je k dispozici (řádky, sloupce) pro jednotlivé kuchyně.

> [Tibble](https://tibble.tidyverse.org/) je moderní datový rámec.

<p >
   <img src="../../images/dplyr_filter.jpg"
   width="600"/>
   <figcaption>Ilustrace od @allison_horst</figcaption>


In [None]:
# Create individual tibble for the cuisines
thai_df <- df %>% 
  filter(cuisine == "thai")
japanese_df <- df %>% 
  filter(cuisine == "japanese")
chinese_df <- df %>% 
  filter(cuisine == "chinese")
indian_df <- df %>% 
  filter(cuisine == "indian")
korean_df <- df %>% 
  filter(cuisine == "korean")


# Find out how much data is available per cuisine
cat(" thai df:", dim(thai_df), "\n",
    "japanese df:", dim(japanese_df), "\n",
    "chinese_df:", dim(chinese_df), "\n",
    "indian_df:", dim(indian_df), "\n",
    "korean_df:", dim(korean_df))

## **Cvičení - Objevování nejlepších ingrediencí podle kuchyně pomocí dplyr**

Nyní se můžete ponořit hlouběji do dat a zjistit, jaké jsou typické ingredience pro jednotlivé kuchyně. Měli byste odstranit opakující se data, která vytvářejí zmatek mezi kuchyněmi, takže se podíváme na tento problém.

Vytvořte funkci `create_ingredient()` v R, která vrátí dataframe s ingrediencemi. Tato funkce začne odstraněním nepotřebného sloupce a seřadí ingredience podle jejich počtu.

Základní struktura funkce v R vypadá takto:

`myFunction <- function(arglist){`

**`...`**

**`return`**`(value)`

`}`

Přehledný úvod do funkcí v R najdete [zde](https://skirmer.github.io/presentations/functions_with_r.html#1).

Pojďme na to! Využijeme [dplyr sloves](https://dplyr.tidyverse.org/), které jsme se učili v předchozích lekcích. Pro připomenutí:

-   `dplyr::select()`: pomáhá vám vybrat, které **sloupce** chcete ponechat nebo vyloučit.

-   `dplyr::pivot_longer()`: pomáhá "prodloužit" data, zvýšit počet řádků a snížit počet sloupců.

-   `dplyr::group_by()` a `dplyr::summarise()`: pomáhá najít souhrnné statistiky pro různé skupiny a uspořádat je do přehledné tabulky.

-   `dplyr::filter()`: vytváří podmnožinu dat obsahující pouze řádky, které splňují vaše podmínky.

-   `dplyr::mutate()`: pomáhá vytvořit nebo upravit sloupce.

Podívejte se na tento [*uměním* naplněný learnr tutoriál](https://allisonhorst.shinyapps.io/dplyr-learnr/#section-welcome) od Allison Horst, který představuje některé užitečné funkce pro zpracování dat v dplyr *(součást Tidyverse)*.


In [None]:
# Creates a functions that returns the top ingredients by class

create_ingredient <- function(df){
  
  # Drop the id column which is the first colum
  ingredient_df = df %>% select(-1) %>% 
  # Transpose data to a long format
    pivot_longer(!cuisine, names_to = "ingredients", values_to = "count") %>% 
  # Find the top most ingredients for a particular cuisine
    group_by(ingredients) %>% 
    summarise(n_instances = sum(count)) %>% 
    filter(n_instances != 0) %>% 
  # Arrange by descending order
    arrange(desc(n_instances)) %>% 
    mutate(ingredients = factor(ingredients) %>% fct_inorder())
  
  
  return(ingredient_df)
} # End of function

Nyní můžeme použít funkci, abychom získali představu o deseti nejoblíbenějších ingrediencích podle kuchyně. Pojďme si to vyzkoušet s `thai_df`.


In [None]:
# Call create_ingredient and display popular ingredients
thai_ingredient_df <- create_ingredient(df = thai_df)

thai_ingredient_df %>% 
  slice_head(n = 10)

V předchozí části jsme použili `geom_col()`, podívejme se, jak můžete použít také `geom_bar` k vytvoření sloupcových grafů. Použijte `?geom_bar` pro další čtení.


In [None]:
# Make a bar chart for popular thai cuisines
thai_ingredient_df %>% 
  slice_head(n = 10) %>% 
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "steelblue") +
  xlab("") + ylab("")

Pojďme udělat totéž pro japonská data


In [None]:
# Get popular ingredients for Japanese cuisines and make bar chart
create_ingredient(df = japanese_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "darkorange", alpha = 0.8) +
  xlab("") + ylab("")


Co třeba čínská kuchyně?


In [None]:
# Get popular ingredients for Chinese cuisines and make bar chart
create_ingredient(df = chinese_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "cyan4", alpha = 0.8) +
  xlab("") + ylab("")

In [None]:
# Get popular ingredients for Indian cuisines and make bar chart
create_ingredient(df = indian_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "#041E42FF", alpha = 0.8) +
  xlab("") + ylab("")

Nakonec vykreslete korejské ingredience.


In [None]:
# Get popular ingredients for Korean cuisines and make bar chart
create_ingredient(df = korean_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "#852419FF", alpha = 0.8) +
  xlab("") + ylab("")

Z datových vizualizací nyní můžeme vyřadit nejběžnější ingredience, které způsobují záměnu mezi různými kuchyněmi, pomocí `dplyr::select()`.

Každý miluje rýži, česnek a zázvor!


In [None]:
# Drop id column, rice, garlic and ginger from our original data set
df_select <- df %>% 
  select(-c(1, rice, garlic, ginger))

# Display new data set
df_select %>% 
  slice_head(n = 5)

## Předzpracování dat pomocí receptů 👩‍🍳👨‍🍳 - Práce s nevyváženými daty ⚖️

<p >
   <img src="../../images/recipes.png"
   width="600"/>
   <figcaption>Ilustrace od @allison_horst</figcaption>

Vzhledem k tomu, že tato lekce je o kuchyních, musíme dát `recepty` do kontextu.

Tidymodels nabízí další šikovný balíček: `recipes` - balíček pro předzpracování dat.


Pojďme se znovu podívat na rozložení našich kuchyní.


In [None]:
# Distribution of cuisines
old_label_count <- df_select %>% 
  count(cuisine) %>% 
  arrange(desc(n))

old_label_count

Jak vidíte, počet kuchyní je značně nerovnoměrně rozložen. Korejské kuchyně jsou téměř třikrát početnější než thajské kuchyně. Nevyvážená data často negativně ovlivňují výkon modelu. Představte si binární klasifikaci. Pokud většina vašich dat patří do jedné třídy, model strojového učení bude tuto třídu předpovídat častěji, jednoduše proto, že pro ni má více dat. Vyvážení dat odstraňuje jakoukoli nerovnováhu v datech. Mnoho modelů dosahuje nejlepšího výkonu, když je počet pozorování stejný, a proto mají tendenci mít problémy s nevyváženými daty.

Existují dvě hlavní metody, jak pracovat s nevyváženými datovými sadami:

-   přidání pozorování do minoritní třídy: `Over-sampling`, například použití algoritmu SMOTE

-   odstranění pozorování z majoritní třídy: `Under-sampling`

Nyní si ukážeme, jak pracovat s nevyváženými datovými sadami pomocí `receptu`. Recept si můžete představit jako plán, který popisuje, jaké kroky by měly být aplikovány na datovou sadu, aby byla připravena pro analýzu dat.


In [None]:
# Load themis package for dealing with imbalanced data
library(themis)

# Create a recipe for preprocessing data
cuisines_recipe <- recipe(cuisine ~ ., data = df_select) %>% 
  step_smote(cuisine)

cuisines_recipe

Pojďme si rozebrat kroky předzpracování.

-   Volání `recipe()` s formulí říká receptu *role* proměnných pomocí dat `df_select` jako referenčního bodu. Například sloupec `cuisine` byl přiřazen roli `outcome`, zatímco ostatní sloupce byly přiřazeny roli `predictor`.

-   [`step_smote(cuisine)`](https://themis.tidymodels.org/reference/step_smote.html) vytváří *specifikaci* kroku receptu, který synteticky generuje nové příklady minoritní třídy pomocí nejbližších sousedů těchto případů.

Pokud bychom nyní chtěli vidět předzpracovaná data, museli bychom [**`prep()`**](https://recipes.tidymodels.org/reference/prep.html) a [**`bake()`**](https://recipes.tidymodels.org/reference/bake.html) náš recept.

`prep()`: odhaduje potřebné parametry z trénovací sady, které mohou být později aplikovány na jiné datové sady.

`bake()`: vezme připravený recept a aplikuje operace na jakoukoli datovou sadu.


In [None]:
# Prep and bake the recipe
preprocessed_df <- cuisines_recipe %>% 
  prep() %>% 
  bake(new_data = NULL) %>% 
  relocate(cuisine)

# Display data
preprocessed_df %>% 
  slice_head(n = 5)

# Quick summary stats
preprocessed_df %>% 
  introduce()

Pojďme nyní zkontrolovat rozložení našich kuchyní a porovnat je s nevyváženými daty.


In [None]:
# Distribution of cuisines
new_label_count <- preprocessed_df %>% 
  count(cuisine) %>% 
  arrange(desc(n))

list(new_label_count = new_label_count,
     old_label_count = old_label_count)

Mňam! Data jsou pěkně čistá, vyvážená a velmi chutná 😋!

> Obvykle se recept používá jako předzpracovatel pro modelování, kde definuje, jaké kroky by měly být aplikovány na datovou sadu, aby byla připravena pro modelování. V takovém případě se obvykle používá `workflow()` (jak jsme již viděli v našich předchozích lekcích) místo ručního odhadu receptu.
>
> Proto obvykle nemusíte používat **`prep()`** a **`bake()`** recepty, když používáte tidymodels, ale jsou to užitečné funkce, které můžete mít ve své sadě nástrojů pro ověření, že recepty fungují podle vašich očekávání, jako v našem případě.
>
> Když použijete **`bake()`** na připravený recept s **`new_data = NULL`**, získáte zpět data, která jste poskytli při definování receptu, ale prošla kroky předzpracování.

Teď si uložíme kopii těchto dat pro použití v budoucích lekcích:


In [None]:
# Save preprocessed data
write_csv(preprocessed_df, "../../../data/cleaned_cuisines_R.csv")

Tento nový CSV soubor nyní najdete v kořenové složce dat.

**🚀Výzva**

Tento kurz obsahuje několik zajímavých datových sad. Projděte složky `data` a zjistěte, zda některé obsahují datové sady vhodné pro binární nebo vícetřídní klasifikaci. Jaké otázky byste si k této datové sadě položili?

## [**Kvíz po přednášce**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/20/)

## **Opakování & Samostudium**

-   Podívejte se na [balíček themis](https://github.com/tidymodels/themis). Jaké další techniky bychom mohli použít k řešení problémů s nevyváženými daty?

-   Referenční web [Tidy models](https://www.tidymodels.org/start/).

-   H. Wickham a G. Grolemund, [*R for Data Science: Visualize, Model, Transform, Tidy, and Import Data*](https://r4ds.had.co.nz/).

#### DĚKUJEME:

[`Allison Horst`](https://twitter.com/allison_horst/) za vytvoření úžasných ilustrací, které činí R přívětivějším a poutavějším. Další ilustrace najdete v její [galerii](https://www.google.com/url?q=https://github.com/allisonhorst/stats-illustrations&sa=D&source=editors&ust=1626380772530000&usg=AOvVaw3zcfyCizFQZpkSLzxiiQEM).

[Cassie Breviu](https://www.twitter.com/cassieview) a [Jen Looper](https://www.twitter.com/jenlooper) za vytvoření původní verze tohoto modulu v Pythonu ♥️

<p >
   <img src="../../images/r_learners_sm.jpeg"
   width="600"/>
   <figcaption>Ilustrace od @allison_horst</figcaption>



---

**Upozornění**:  
Tento dokument byl přeložen pomocí služby pro automatický překlad [Co-op Translator](https://github.com/Azure/co-op-translator). I když se snažíme o co největší přesnost, mějte prosím na paměti, že automatické překlady mohou obsahovat chyby nebo nepřesnosti. Původní dokument v jeho původním jazyce by měl být považován za závazný zdroj. Pro důležité informace doporučujeme profesionální lidský překlad. Neodpovídáme za žádná nedorozumění nebo nesprávné výklady vyplývající z použití tohoto překladu.
