# Zgradite klasifikacijski model: Slastne azijske in indijske kuhinje


## Uvod v klasifikacijo: Čiščenje, priprava in vizualizacija podatkov

V teh štirih lekcijah boste raziskovali temeljni vidik klasičnega strojnega učenja - *klasifikacijo*. Preučili bomo uporabo različnih algoritmov za klasifikacijo na podatkovnem naboru o vseh čudovitih kuhinjah Azije in Indije. Upam, da ste lačni!

<p >
   <img src="../../images/pinch.png"
   width="600"/>
   <figcaption>Proslavite panazijske kuhinje v teh lekcijah! Slika: Jen Looper</figcaption>

<!--![Proslavite panazijske kuhinje v teh lekcijah! Slika: Jen Looper](../../../../../../4-Classification/1-Introduction/solution/R/images/pinch.png)-->

Klasifikacija je oblika [nadzorovanega učenja](https://wikipedia.org/wiki/Supervised_learning), ki ima veliko skupnega s tehnikami regresije. Pri klasifikaciji trenirate model, da napove, v katero `kategorijo` spada določen element. Če je strojno učenje namenjeno napovedovanju vrednosti ali imen stvari z uporabo podatkovnih nizov, potem klasifikacija običajno spada v dve skupini: *binarna klasifikacija* in *večrazredna klasifikacija*.

Zapomnite si:

-   **Linearna regresija** vam je pomagala napovedati odnose med spremenljivkami in narediti natančne napovedi, kje bi nov podatkovni element padel v odnosu do te črte. Na primer, lahko bi napovedali numerične vrednosti, kot je *kakšna bo cena buče septembra v primerjavi z decembrom*.

-   **Logistična regresija** vam je pomagala odkriti "binarne kategorije": pri tej cenovni točki, *ali je buča oranžna ali ne-oranžna*?

Klasifikacija uporablja različne algoritme za določanje drugih načinov določanja oznake ali razreda podatkovne točke. Delajmo s temi podatki o kuhinjah, da vidimo, ali lahko z opazovanjem skupine sestavin določimo izvorno kuhinjo.

### [**Predlekcijski kviz**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/19/)

### **Uvod**

Klasifikacija je ena temeljnih dejavnosti raziskovalca strojnega učenja in podatkovnega znanstvenika. Od osnovne klasifikacije binarne vrednosti ("ali je ta e-pošta spam ali ne?") do kompleksne klasifikacije slik in segmentacije z uporabo računalniškega vida, je vedno koristno, da lahko podatke razvrstimo v razrede in zastavimo vprašanja o njih.

Če proces opišemo na bolj znanstven način, vaša metoda klasifikacije ustvari napovedni model, ki vam omogoča mapiranje odnosa med vhodnimi spremenljivkami in izhodnimi spremenljivkami.

<p >
   <img src="../../images/binary-multiclass.png"
   width="600"/>
   <figcaption>Binarni vs. večrazredni problemi, ki jih algoritmi za klasifikacijo obravnavajo. Infografika: Jen Looper</figcaption>

Preden začnemo s procesom čiščenja podatkov, njihove vizualizacije in priprave za naloge strojnega učenja, se naučimo nekaj o različnih načinih, kako lahko strojno učenje uporabimo za klasifikacijo podatkov.

Izpeljana iz [statistike](https://wikipedia.org/wiki/Statistical_classification), klasifikacija z uporabo klasičnega strojnega učenja uporablja značilnosti, kot so `kadilec`, `teža` in `starost`, za določanje *verjetnosti razvoja X bolezni*. Kot tehnika nadzorovanega učenja, podobna regresijskim vajam, ki ste jih izvajali prej, so vaši podatki označeni, algoritmi strojnega učenja pa te oznake uporabljajo za klasifikacijo in napovedovanje razredov (ali 'značilnosti') podatkovnega niza ter njihovo dodelitev skupini ali izidu.

✅ Vzemite trenutek in si zamislite podatkovni niz o kuhinjah. Kaj bi lahko odgovoril večrazredni model? Kaj bi lahko odgovoril binarni model? Kaj če bi želeli ugotoviti, ali določena kuhinja verjetno uporablja piskavico? Kaj če bi želeli videti, ali bi lahko iz vrečke zvezdastega janeža, artičok, cvetače in hrena pripravili tipično indijsko jed?

### **Pozdravljeni 'klasifikator'**

Vprašanje, ki ga želimo zastaviti o tem podatkovnem naboru kuhinj, je pravzaprav **večrazredno vprašanje**, saj imamo na voljo več potencialnih nacionalnih kuhinj. Glede na skupino sestavin, v katerega od teh razredov bodo podatki ustrezali?

Tidymodels ponuja več različnih algoritmov za klasifikacijo podatkov, odvisno od vrste problema, ki ga želite rešiti. V naslednjih dveh lekcijah se boste naučili o nekaterih od teh algoritmov.

#### **Predpogoj**

Za to lekcijo bomo potrebovali naslednje pakete za čiščenje, pripravo in vizualizacijo naših podatkov:

-   `tidyverse`: [tidyverse](https://www.tidyverse.org/) je [zbirka paketov za R](https://www.tidyverse.org/packages), zasnovana za hitrejše, lažje in bolj zabavno podatkovno znanost!

-   `tidymodels`: [tidymodels](https://www.tidymodels.org/) je okvir [zbirke paketov](https://www.tidymodels.org/packages/) za modeliranje in strojno učenje.

-   `DataExplorer`: Paket [DataExplorer](https://cran.r-project.org/web/packages/DataExplorer/vignettes/dataexplorer-intro.html) je namenjen poenostavitvi in avtomatizaciji procesa EDA ter generiranju poročil.

-   `themis`: Paket [themis](https://themis.tidymodels.org/) ponuja dodatne korake receptov za obravnavo neuravnoteženih podatkov.

Namestite jih lahko z:

`install.packages(c("tidyverse", "tidymodels", "DataExplorer", "here"))`

Alternativno, spodnji skript preveri, ali imate pakete, potrebne za dokončanje tega modula, in jih namesti, če manjkajo.


In [None]:
suppressWarnings(if (!require("pacman"))install.packages("pacman"))

pacman::p_load(tidyverse, tidymodels, DataExplorer, themis, here)

Kasneje bomo naložili te odlične pakete in jih naredili dostopne v naši trenutni R seji. (To je zgolj za ponazoritev, `pacman::p_load()` je to že naredil namesto vas)


## Vaja - očistite in uravnotežite svoje podatke

Prva naloga, preden začnete s tem projektom, je očistiti in **uravnotežiti** svoje podatke za boljše rezultate.

Spoznajmo podatke! 🕵️


In [None]:
# Import data
df <- read_csv(file = "https://raw.githubusercontent.com/microsoft/ML-For-Beginners/main/4-Classification/data/cuisines.csv")

# View the first 5 rows
df %>% 
  slice_head(n = 5)


Zanimivo! Po videzu sodeč je prvi stolpec nekakšen stolpec `id`. Poglejmo si malo več informacij o podatkih.


In [None]:
# Basic information about the data
df %>%
  introduce()

# Visualize basic information above
df %>% 
  plot_intro(ggtheme = theme_light())

Iz izpisa lahko takoj vidimo, da imamo `2448` vrstic in `385` stolpcev ter `0` manjkajočih vrednosti. Imamo tudi 1 diskretni stolpec, *cuisine*.

## Naloga - spoznavanje kuhinj

Zdaj delo postaja bolj zanimivo. Odkrijmo porazdelitev podatkov glede na kuhinjo.


In [None]:
# Count observations per cuisine
df %>% 
  count(cuisine) %>% 
  arrange(n)

# Plot the distribution
theme_set(theme_light())
df %>% 
  count(cuisine) %>% 
  ggplot(mapping = aes(x = n, y = reorder(cuisine, -n))) +
  geom_col(fill = "midnightblue", alpha = 0.7) +
  ylab("cuisine")

Obstaja končno število kuhinj, vendar je porazdelitev podatkov neenakomerna. To lahko popravite! Preden to storite, raziščite še malo več.

Nato dodelimo vsako kuhinjo v njen lasten tibble in ugotovimo, koliko podatkov je na voljo (vrstice, stolpci) za posamezno kuhinjo.

> [Tibble](https://tibble.tidyverse.org/) je sodoben podatkovni okvir.

<p >
   <img src="../../images/dplyr_filter.jpg"
   width="600"/>
   <figcaption>Umetniško delo @allison_horst</figcaption>


In [None]:
# Create individual tibble for the cuisines
thai_df <- df %>% 
  filter(cuisine == "thai")
japanese_df <- df %>% 
  filter(cuisine == "japanese")
chinese_df <- df %>% 
  filter(cuisine == "chinese")
indian_df <- df %>% 
  filter(cuisine == "indian")
korean_df <- df %>% 
  filter(cuisine == "korean")


# Find out how much data is available per cuisine
cat(" thai df:", dim(thai_df), "\n",
    "japanese df:", dim(japanese_df), "\n",
    "chinese_df:", dim(chinese_df), "\n",
    "indian_df:", dim(indian_df), "\n",
    "korean_df:", dim(korean_df))

## **Vaja - Odkrijte glavne sestavine po kuhinji z uporabo dplyr**

Zdaj lahko podrobneje raziščete podatke in ugotovite, katere so značilne sestavine za posamezno kuhinjo. Odstraniti morate ponavljajoče se podatke, ki povzročajo zmedo med kuhinjami, zato se lotimo tega problema.

Ustvarite funkcijo `create_ingredient()` v R, ki vrne podatkovni okvir sestavin. Ta funkcija bo začela z odstranitvijo neuporabnega stolpca in razvrstila sestavine glede na njihovo število.

Osnovna struktura funkcije v R je:

`myFunction <- function(arglist){`

**`...`**

**`return`**`(value)`

`}`

Uvod v funkcije v R najdete [tukaj](https://skirmer.github.io/presentations/functions_with_r.html#1).

Pojdimo naravnost k stvari! Uporabili bomo [dplyr glagole](https://dplyr.tidyverse.org/), ki smo jih spoznali v prejšnjih lekcijah. Za osvežitev spomina:

-   `dplyr::select()`: vam pomaga izbrati, katere **stolpce** obdržati ali izključiti.

-   `dplyr::pivot_longer()`: vam pomaga "podaljšati" podatke, s čimer povečate število vrstic in zmanjšate število stolpcev.

-   `dplyr::group_by()` in `dplyr::summarise()`: vam pomagata najti povzetke statistike za različne skupine in jih predstaviti v pregledni tabeli.

-   `dplyr::filter()`: ustvari podmnožico podatkov, ki vsebuje samo vrstice, ki ustrezajo vašim pogojem.

-   `dplyr::mutate()`: vam pomaga ustvariti ali spremeniti stolpce.

Oglejte si ta [*umetniško* obarvan učni vodič](https://allisonhorst.shinyapps.io/dplyr-learnr/#section-welcome) avtorice Allison Horst, ki predstavlja nekaj uporabnih funkcij za obdelavo podatkov v dplyr *(del Tidyverse)*.


In [None]:
# Creates a functions that returns the top ingredients by class

create_ingredient <- function(df){
  
  # Drop the id column which is the first colum
  ingredient_df = df %>% select(-1) %>% 
  # Transpose data to a long format
    pivot_longer(!cuisine, names_to = "ingredients", values_to = "count") %>% 
  # Find the top most ingredients for a particular cuisine
    group_by(ingredients) %>% 
    summarise(n_instances = sum(count)) %>% 
    filter(n_instances != 0) %>% 
  # Arrange by descending order
    arrange(desc(n_instances)) %>% 
    mutate(ingredients = factor(ingredients) %>% fct_inorder())
  
  
  return(ingredient_df)
} # End of function

Zdaj lahko uporabimo funkcijo, da dobimo vpogled v deset najbolj priljubljenih sestavin po kuhinji. Preizkusimo jo s `thai_df`.


In [None]:
# Call create_ingredient and display popular ingredients
thai_ingredient_df <- create_ingredient(df = thai_df)

thai_ingredient_df %>% 
  slice_head(n = 10)

V prejšnjem razdelku smo uporabili `geom_col()`, poglejmo, kako lahko uporabite tudi `geom_bar` za ustvarjanje stolpčnih grafikonov. Uporabite `?geom_bar` za nadaljnje branje.


In [None]:
# Make a bar chart for popular thai cuisines
thai_ingredient_df %>% 
  slice_head(n = 10) %>% 
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "steelblue") +
  xlab("") + ylab("")

Naredimo enako za japonske podatke


In [None]:
# Get popular ingredients for Japanese cuisines and make bar chart
create_ingredient(df = japanese_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "darkorange", alpha = 0.8) +
  xlab("") + ylab("")


Kaj pa kitajska kuhinja?


In [None]:
# Get popular ingredients for Chinese cuisines and make bar chart
create_ingredient(df = chinese_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "cyan4", alpha = 0.8) +
  xlab("") + ylab("")

In [None]:
# Get popular ingredients for Indian cuisines and make bar chart
create_ingredient(df = indian_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "#041E42FF", alpha = 0.8) +
  xlab("") + ylab("")

Na koncu narišite korejske sestavine.


In [None]:
# Get popular ingredients for Korean cuisines and make bar chart
create_ingredient(df = korean_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "#852419FF", alpha = 0.8) +
  xlab("") + ylab("")

Iz vizualizacij podatkov lahko zdaj odstranimo najpogostejše sestavine, ki povzročajo zmedo med različnimi kuhinjami, z uporabo `dplyr::select()`.

Vsi obožujemo riž, česen in ingver!


In [None]:
# Drop id column, rice, garlic and ginger from our original data set
df_select <- df %>% 
  select(-c(1, rice, garlic, ginger))

# Display new data set
df_select %>% 
  slice_head(n = 5)

## Predobdelava podatkov z recepti 👩‍🍳👨‍🍳 - Obvladovanje neuravnoteženih podatkov ⚖️

<p >
   <img src="../../images/recipes.png"
   width="600"/>
   <figcaption>Umetniško delo @allison_horst</figcaption>

Ker je ta lekcija o kulinariki, moramo postaviti `recepte` v kontekst.

Tidymodels ponuja še en odličen paket: `recipes` - paket za predobdelavo podatkov.


Poglejmo si ponovno porazdelitev naših kuhinj.


In [None]:
# Distribution of cuisines
old_label_count <- df_select %>% 
  count(cuisine) %>% 
  arrange(desc(n))

old_label_count

Kot lahko vidite, je število kuhinj precej neenakomerno porazdeljeno. Korejske kuhinje so skoraj trikrat bolj številčne kot tajske kuhinje. Neuravnoteženi podatki pogosto negativno vplivajo na delovanje modela. Pomislite na binarno klasifikacijo. Če večina vaših podatkov pripada enemu razredu, bo model strojnega učenja pogosteje napovedoval ta razred, preprosto zato, ker je zanj na voljo več podatkov. Uravnoteženje podatkov odpravlja to neuravnoteženost in pomaga odstraniti pristranskost. Veliko modelov najbolje deluje, ko je število opazovanj enako, zato se pogosto soočajo s težavami pri delu z neuravnoteženimi podatki.

Obstajata dva glavna načina za obravnavo neuravnoteženih podatkovnih nizov:

-   dodajanje opazovanj v manjšinski razred: `Over-sampling`, npr. uporaba algoritma SMOTE

-   odstranjevanje opazovanj iz večinskega razreda: `Under-sampling`

Zdaj bomo prikazali, kako obravnavati neuravnotežene podatkovne nize z uporabo `recipe`. Recipe lahko razumemo kot načrt, ki opisuje, katere korake je treba uporabiti na podatkovnem nizu, da ga pripravimo za analizo podatkov.


In [None]:
# Load themis package for dealing with imbalanced data
library(themis)

# Create a recipe for preprocessing data
cuisines_recipe <- recipe(cuisine ~ ., data = df_select) %>% 
  step_smote(cuisine)

cuisines_recipe

Razčlenimo naše korake predobdelave.

-   Klic funkcije `recipe()` s formulo pove receptu *vloge* spremenljivk, pri čemer uporablja podatke `df_select` kot referenco. Na primer, stolpec `cuisine` je bil dodeljen vlogi `outcome`, medtem ko so ostali stolpci dodeljeni vlogi `predictor`.

-   [`step_smote(cuisine)`](https://themis.tidymodels.org/reference/step_smote.html) ustvari *specifikacijo* koraka recepta, ki sintetično generira nove primere manjšinske skupine z uporabo najbližjih sosedov teh primerov.

Če bi želeli videti predobdelane podatke, bi morali [**`prep()`**](https://recipes.tidymodels.org/reference/prep.html) in [**`bake()`**](https://recipes.tidymodels.org/reference/bake.html) uporabiti na našem receptu.

`prep()`: oceni potrebne parametre iz učnega nabora, ki jih je mogoče kasneje uporabiti na drugih podatkovnih nizih.

`bake()`: uporabi pripravljen recept in operacije na katerem koli podatkovnem nizu.


In [None]:
# Prep and bake the recipe
preprocessed_df <- cuisines_recipe %>% 
  prep() %>% 
  bake(new_data = NULL) %>% 
  relocate(cuisine)

# Display data
preprocessed_df %>% 
  slice_head(n = 5)

# Quick summary stats
preprocessed_df %>% 
  introduce()

Zdaj preverimo porazdelitev naših kuhinj in jih primerjajmo z neuravnoteženimi podatki.


In [None]:
# Distribution of cuisines
new_label_count <- preprocessed_df %>% 
  count(cuisine) %>% 
  arrange(desc(n))

list(new_label_count = new_label_count,
     old_label_count = old_label_count)

Mmm! Podatki so lepi in čisti, uravnoteženi in zelo okusni 😋!

> Običajno se recept uporablja kot predprocesor za modeliranje, kjer določa, katere korake je treba uporabiti na podatkovnem naboru, da ga pripravimo za modeliranje. V tem primeru se običajno uporablja `workflow()` (kot smo že videli v prejšnjih lekcijah) namesto ročnega ocenjevanja recepta.
>
> Zato običajno ni treba uporabljati **`prep()`** in **`bake()`** receptov, ko uporabljate tidymodels, vendar so to koristne funkcije, ki jih imate v svojem orodju za preverjanje, ali recepti delujejo, kot pričakujete, kot v našem primeru.
>
> Ko z **`new_data = NULL`** **`bake()`** pripravljen recept, dobite nazaj podatke, ki ste jih podali pri definiranju recepta, vendar so že prestali korake predprocesiranja.

Zdaj shranimo kopijo teh podatkov za uporabo v prihodnjih lekcijah:


In [None]:
# Save preprocessed data
write_csv(preprocessed_df, "../../../data/cleaned_cuisines_R.csv")

Ta svež CSV je zdaj na voljo v korenski mapi podatkov.

**🚀Izziv**

Ta učni načrt vsebuje več zanimivih podatkovnih zbirk. Prebrskajte mape `data` in preverite, ali katera vsebuje podatkovne zbirke, ki bi bile primerne za binarno ali večrazredno klasifikacijo? Kakšna vprašanja bi zastavili tej podatkovni zbirki?

## [**Kvizi po predavanju**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/20/)

## **Pregled & Samostojno učenje**

-   Oglejte si [paket themis](https://github.com/tidymodels/themis). Katere druge tehnike bi lahko uporabili za obravnavo neuravnoteženih podatkov?

-   Referenčna spletna stran za Tidy models [tukaj](https://www.tidymodels.org/start/).

-   H. Wickham in G. Grolemund, [*R za podatkovno znanost: Vizualizacija, modeliranje, transformacija, urejanje in uvoz podatkov*](https://r4ds.had.co.nz/).

#### HVALA:

[`Allison Horst`](https://twitter.com/allison_horst/) za ustvarjanje čudovitih ilustracij, ki naredijo R bolj prijazen in privlačen. Več ilustracij najdete v njeni [galeriji](https://www.google.com/url?q=https://github.com/allisonhorst/stats-illustrations&sa=D&source=editors&ust=1626380772530000&usg=AOvVaw3zcfyCizFQZpkSLzxiiQEM).

[Cassie Breviu](https://www.twitter.com/cassieview) in [Jen Looper](https://www.twitter.com/jenlooper) za ustvarjanje izvirne Python različice tega modula ♥️

<p >
   <img src="../../images/r_learners_sm.jpeg"
   width="600"/>
   <figcaption>Umetniško delo @allison_horst</figcaption>



---

**Omejitev odgovornosti**:  
Ta dokument je bil preveden z uporabo storitve za strojno prevajanje [Co-op Translator](https://github.com/Azure/co-op-translator). Čeprav si prizadevamo za natančnost, vas prosimo, da upoštevate, da lahko avtomatizirani prevodi vsebujejo napake ali netočnosti. Izvirni dokument v njegovem izvirnem jeziku je treba obravnavati kot avtoritativni vir. Za ključne informacije priporočamo strokovno človeško prevajanje. Ne prevzemamo odgovornosti za morebitna nesporazumevanja ali napačne razlage, ki izhajajo iz uporabe tega prevoda.
