# Izgradite model za klasifikaciju: Ukusne azijske i indijske kuhinje


## Uvod u klasifikaciju: Očistite, pripremite i vizualizirajte svoje podatke

U ovim četirima lekcijama istražit ćete temeljni fokus klasičnog strojnog učenja - *klasifikaciju*. Proći ćemo kroz korištenje raznih algoritama za klasifikaciju s pomoću skupa podataka o svim briljantnim kuhinjama Azije i Indije. Nadamo se da ste gladni!

<p>
   <img src="../../images/pinch.png"
   width="600"/>
   <figcaption>Proslavite pan-azijske kuhinje u ovim lekcijama! Slika: Jen Looper</figcaption>

Klasifikacija je oblik [nadziranog učenja](https://wikipedia.org/wiki/Supervised_learning) koji ima mnogo zajedničkog s tehnikama regresije. U klasifikaciji trenirate model kako biste predvidjeli kojoj `kategoriji` neki element pripada. Ako je strojno učenje usmjereno na predviđanje vrijednosti ili naziva stvari pomoću skupova podataka, tada klasifikacija općenito spada u dvije skupine: *binarna klasifikacija* i *višeklasna klasifikacija*.

Zapamtite:

-   **Linearna regresija** pomogla vam je predvidjeti odnose između varijabli i napraviti točna predviđanja o tome gdje će novi podatak pasti u odnosu na tu liniju. Na primjer, mogli ste predvidjeti numeričke vrijednosti poput *koja će cijena bundeve biti u rujnu u usporedbi s prosincem*.

-   **Logistička regresija** pomogla vam je otkriti "binarne kategorije": pri ovoj cijeni, *je li bundeva narančasta ili nije narančasta*?

Klasifikacija koristi razne algoritme za određivanje drugih načina dodjeljivanja oznake ili klase podatkovnoj točki. Radit ćemo s ovim podacima o kuhinjama kako bismo vidjeli možemo li, promatrajući skup sastojaka, odrediti izvor kuhinje.

### [**Kviz prije predavanja**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/19/)

### **Uvod**

Klasifikacija je jedna od temeljnih aktivnosti istraživača strojnog učenja i podatkovnih znanstvenika. Od osnovne klasifikacije binarne vrijednosti ("je li ovaj e-mail spam ili nije?") do složene klasifikacije i segmentacije slika pomoću računalnog vida, uvijek je korisno moći razvrstati podatke u klase i postavljati pitanja o njima.

Da bismo proces izrazili na znanstveniji način, vaša metoda klasifikacije stvara prediktivni model koji vam omogućuje mapiranje odnosa između ulaznih varijabli i izlaznih varijabli.

<p>
   <img src="../../images/binary-multiclass.png"
   width="600"/>
   <figcaption>Binarni vs. višeklasni problemi za algoritme klasifikacije. Infografika: Jen Looper</figcaption>

Prije nego što započnemo proces čišćenja podataka, njihove vizualizacije i pripreme za zadatke strojnog učenja, naučimo malo o raznim načinima na koje se strojno učenje može koristiti za klasifikaciju podataka.

Izvedena iz [statistike](https://wikipedia.org/wiki/Statistical_classification), klasifikacija pomoću klasičnog strojnog učenja koristi značajke poput `pušač`, `težina` i `dob` kako bi odredila *vjerojatnost razvoja određene bolesti*. Kao tehnika nadziranog učenja slična regresijskim vježbama koje ste ranije izvodili, vaši podaci su označeni, a algoritmi strojnog učenja koriste te oznake za klasifikaciju i predviđanje klasa (ili 'značajki') skupa podataka te njihovo dodjeljivanje grupi ili ishodu.

✅ Zastanite na trenutak i zamislite skup podataka o kuhinjama. Na što bi višeklasni model mogao odgovoriti? Na što bi binarni model mogao odgovoriti? Što ako želite odrediti koristi li određena kuhinja vjerojatno piskavicu? Što ako želite vidjeti možete li, s obzirom na vrećicu namirnica punu zvjezdastog anisa, artičoka, cvjetače i hrena, stvoriti tipično indijsko jelo?

### **Pozdrav 'klasifikatoru'**

Pitanje koje želimo postaviti ovom skupu podataka o kuhinjama zapravo je **višeklasno pitanje**, jer imamo nekoliko potencijalnih nacionalnih kuhinja s kojima radimo. S obzirom na skup sastojaka, kojoj od ovih mnogih klasa će podaci pripadati?

Tidymodels nudi nekoliko različitih algoritama za klasifikaciju podataka, ovisno o vrsti problema koji želite riješiti. U sljedeće dvije lekcije naučit ćete o nekoliko tih algoritama.

#### **Preduvjet**

Za ovu lekciju trebat će nam sljedeći paketi za čišćenje, pripremu i vizualizaciju podataka:

-   `tidyverse`: [tidyverse](https://www.tidyverse.org/) je [zbirka R paketa](https://www.tidyverse.org/packages) osmišljena kako bi znanost o podacima bila brža, lakša i zabavnija!

-   `tidymodels`: [tidymodels](https://www.tidymodels.org/) okvir je [zbirka paketa](https://www.tidymodels.org/packages/) za modeliranje i strojno učenje.

-   `DataExplorer`: [DataExplorer paket](https://cran.r-project.org/web/packages/DataExplorer/vignettes/dataexplorer-intro.html) namijenjen je pojednostavljivanju i automatizaciji procesa istraživačke analize podataka (EDA) i generiranja izvještaja.

-   `themis`: [themis paket](https://themis.tidymodels.org/) pruža dodatne korake za recepte za rad s neuravnoteženim podacima.

Možete ih instalirati pomoću:

`install.packages(c("tidyverse", "tidymodels", "DataExplorer", "here"))`

Alternativno, skripta ispod provjerava imate li potrebne pakete za dovršetak ovog modula i instalira ih za vas ako nedostaju.


In [None]:
suppressWarnings(if (!require("pacman"))install.packages("pacman"))

pacman::p_load(tidyverse, tidymodels, DataExplorer, themis, here)

Kasnije ćemo učitati ove sjajne pakete i učiniti ih dostupnima u našoj trenutnoj R sesiji. (Ovo je samo za ilustraciju, `pacman::p_load()` je to već učinio za vas)


## Vježba - očistite i uravnotežite svoje podatke

Prvi zadatak prije početka ovog projekta je očistiti i **uravnotežiti** svoje podatke kako biste postigli bolje rezultate.

Upoznajmo podatke!🕵️


In [None]:
# Import data
df <- read_csv(file = "https://raw.githubusercontent.com/microsoft/ML-For-Beginners/main/4-Classification/data/cuisines.csv")

# View the first 5 rows
df %>% 
  slice_head(n = 5)


Zanimljivo! Čini se da je prvi stupac neka vrsta `id` stupca. Hajdemo dobiti malo više informacija o podacima.


In [None]:
# Basic information about the data
df %>%
  introduce()

# Visualize basic information above
df %>% 
  plot_intro(ggtheme = theme_light())

Iz rezultata možemo odmah vidjeti da imamo `2448` redaka i `385` stupaca te `0` nedostajućih vrijednosti. Također imamo 1 diskretni stupac, *cuisine*.

## Vježba - upoznavanje s kuhinjama

Sada posao postaje zanimljiviji. Otkrijmo raspodjelu podataka po kuhinji.


In [None]:
# Count observations per cuisine
df %>% 
  count(cuisine) %>% 
  arrange(n)

# Plot the distribution
theme_set(theme_light())
df %>% 
  count(cuisine) %>% 
  ggplot(mapping = aes(x = n, y = reorder(cuisine, -n))) +
  geom_col(fill = "midnightblue", alpha = 0.7) +
  ylab("cuisine")

Postoji ograničen broj kuhinja, ali raspodjela podataka je neujednačena. Možete to popraviti! Prije nego što krenete, istražite malo više.

Zatim, dodijelite svaku kuhinju u njezin vlastiti tibble i saznajte koliko je podataka dostupno (redaka, stupaca) po kuhinji.

> [Tibble](https://tibble.tidyverse.org/) je moderni podatkovni okvir.

<p >
   <img src="../../images/dplyr_filter.jpg"
   width="600"/>
   <figcaption>Ilustracija: @allison_horst</figcaption>


In [None]:
# Create individual tibble for the cuisines
thai_df <- df %>% 
  filter(cuisine == "thai")
japanese_df <- df %>% 
  filter(cuisine == "japanese")
chinese_df <- df %>% 
  filter(cuisine == "chinese")
indian_df <- df %>% 
  filter(cuisine == "indian")
korean_df <- df %>% 
  filter(cuisine == "korean")


# Find out how much data is available per cuisine
cat(" thai df:", dim(thai_df), "\n",
    "japanese df:", dim(japanese_df), "\n",
    "chinese_df:", dim(chinese_df), "\n",
    "indian_df:", dim(indian_df), "\n",
    "korean_df:", dim(korean_df))

## **Vježba - Otkrivanje glavnih sastojaka po kuhinji koristeći dplyr**

Sada možete dublje istražiti podatke i saznati koji su tipični sastojci za svaku kuhinju. Trebali biste očistiti ponavljajuće podatke koji stvaraju zbrku između kuhinja, pa hajdemo naučiti više o ovom problemu.

Napravite funkciju `create_ingredient()` u R-u koja vraća dataframe sastojaka. Ova funkcija će započeti uklanjanjem nekorisnog stupca i razvrstavanjem sastojaka prema njihovom broju.

Osnovna struktura funkcije u R-u je:

`myFunction <- function(arglist){`

**`...`**

**`return`**`(value)`

`}`

Uvod u funkcije u R-u možete pronaći [ovdje](https://skirmer.github.io/presentations/functions_with_r.html#1).

Krenimo odmah! Koristit ćemo [dplyr glagole](https://dplyr.tidyverse.org/) koje smo učili u prethodnim lekcijama. Kao podsjetnik:

-   `dplyr::select()`: pomaže vam odabrati koje **stupce** želite zadržati ili isključiti.

-   `dplyr::pivot_longer()`: pomaže vam "produžiti" podatke, povećavajući broj redaka i smanjujući broj stupaca.

-   `dplyr::group_by()` i `dplyr::summarise()`: pomažu vam pronaći sažetke statistike za različite grupe i staviti ih u preglednu tablicu.

-   `dplyr::filter()`: stvara podskup podataka koji sadrži samo retke koji zadovoljavaju vaše uvjete.

-   `dplyr::mutate()`: pomaže vam stvoriti ili izmijeniti stupce.

Pogledajte ovaj [*umjetnički*-ispunjen learnr tutorial](https://allisonhorst.shinyapps.io/dplyr-learnr/#section-welcome) od Allison Horst, koji uvodi neke korisne funkcije za obradu podataka u dplyr *(dio Tidyverse-a)*.


In [None]:
# Creates a functions that returns the top ingredients by class

create_ingredient <- function(df){
  
  # Drop the id column which is the first colum
  ingredient_df = df %>% select(-1) %>% 
  # Transpose data to a long format
    pivot_longer(!cuisine, names_to = "ingredients", values_to = "count") %>% 
  # Find the top most ingredients for a particular cuisine
    group_by(ingredients) %>% 
    summarise(n_instances = sum(count)) %>% 
    filter(n_instances != 0) %>% 
  # Arrange by descending order
    arrange(desc(n_instances)) %>% 
    mutate(ingredients = factor(ingredients) %>% fct_inorder())
  
  
  return(ingredient_df)
} # End of function

Sada možemo koristiti funkciju kako bismo dobili uvid u deset najpopularnijih sastojaka po kuhinji. Isprobajmo je s `thai_df`.


In [None]:
# Call create_ingredient and display popular ingredients
thai_ingredient_df <- create_ingredient(df = thai_df)

thai_ingredient_df %>% 
  slice_head(n = 10)

U prethodnom odjeljku koristili smo `geom_col()`, pogledajmo kako možete koristiti i `geom_bar` za izradu stupčastih grafikona. Koristite `?geom_bar` za dodatno čitanje.


In [None]:
# Make a bar chart for popular thai cuisines
thai_ingredient_df %>% 
  slice_head(n = 10) %>% 
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "steelblue") +
  xlab("") + ylab("")

Hajdemo učiniti isto za japanske podatke


In [None]:
# Get popular ingredients for Japanese cuisines and make bar chart
create_ingredient(df = japanese_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "darkorange", alpha = 0.8) +
  xlab("") + ylab("")


Što je s kineskom kuhinjom?


In [None]:
# Get popular ingredients for Chinese cuisines and make bar chart
create_ingredient(df = chinese_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "cyan4", alpha = 0.8) +
  xlab("") + ylab("")

In [None]:
# Get popular ingredients for Indian cuisines and make bar chart
create_ingredient(df = indian_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "#041E42FF", alpha = 0.8) +
  xlab("") + ylab("")

Napokon, prikažite korejske sastojke.


In [None]:
# Get popular ingredients for Korean cuisines and make bar chart
create_ingredient(df = korean_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "#852419FF", alpha = 0.8) +
  xlab("") + ylab("")

Iz vizualizacija podataka, sada možemo izostaviti najčešće sastojke koji stvaraju zabunu između različitih kuhinja koristeći `dplyr::select()`.

Svi vole rižu, češnjak i đumbir!


In [None]:
# Drop id column, rice, garlic and ginger from our original data set
df_select <- df %>% 
  select(-c(1, rice, garlic, ginger))

# Display new data set
df_select %>% 
  slice_head(n = 5)

## Predobrada podataka pomoću recepata 👩‍🍳👨‍🍳 - Rješavanje problema neuravnoteženih podataka ⚖️

<p >
   <img src="../../images/recipes.png"
   width="600"/>
   <figcaption>Ilustracija: @allison_horst</figcaption>

S obzirom na to da je ova lekcija o kuhinjama, moramo staviti `recepte` u kontekst.

Tidymodels nudi još jedan praktičan paket: `recipes` - paket za predobradu podataka.


Hajdemo ponovno pogledati raspodjelu naših kuhinja.


In [None]:
# Distribution of cuisines
old_label_count <- df_select %>% 
  count(cuisine) %>% 
  arrange(desc(n))

old_label_count

Kao što možete vidjeti, postoji prilično nejednaka raspodjela u broju kuhinja. Korejske kuhinje su gotovo tri puta brojnije od tajlandskih. Neuravnoteženi podaci često negativno utječu na performanse modela. Razmislite o binarnoj klasifikaciji. Ako većina vaših podataka pripada jednoj klasi, ML model će češće predviđati tu klasu, jednostavno zato što za nju ima više podataka. Uravnoteženje podataka uklanja bilo kakvu pristranost i pomaže eliminirati ovu neravnotežu. Mnogi modeli najbolje funkcioniraju kada je broj opažanja jednak i, stoga, imaju poteškoća s neuravnoteženim podacima.

Postoje uglavnom dva načina za rješavanje neuravnoteženih skupova podataka:

-   dodavanje opažanja manjinskoj klasi: `Over-sampling`, npr. korištenjem SMOTE algoritma

-   uklanjanje opažanja iz većinske klase: `Under-sampling`

Sada ćemo demonstrirati kako se nositi s neuravnoteženim skupovima podataka koristeći `recipe`. Recipe se može smatrati nacrtom koji opisuje koje korake treba primijeniti na skup podataka kako bi bio spreman za analizu podataka.


In [None]:
# Load themis package for dealing with imbalanced data
library(themis)

# Create a recipe for preprocessing data
cuisines_recipe <- recipe(cuisine ~ ., data = df_select) %>% 
  step_smote(cuisine)

cuisines_recipe

Razmotrimo korake predobrade.

-   Poziv funkcije `recipe()` s formulom govori receptu *uloge* varijabli koristeći podatke iz `df_select` kao referencu. Na primjer, stupac `cuisine` dodijeljen je ulozi `outcome`, dok su ostali stupci dodijeljeni ulozi `predictor`.

-   [`step_smote(cuisine)`](https://themis.tidymodels.org/reference/step_smote.html) stvara *specifikaciju* koraka recepta koji sintetički generira nove primjere manjinske klase koristeći najbliže susjede tih slučajeva.

Sada, ako želimo vidjeti predobrađene podatke, moramo [**`prep()`**](https://recipes.tidymodels.org/reference/prep.html) i [**`bake()`**](https://recipes.tidymodels.org/reference/bake.html) naš recept.

`prep()`: procjenjuje potrebne parametre iz skupa za treniranje koji se kasnije mogu primijeniti na druge skupove podataka.

`bake()`: primjenjuje pripremljeni recept na bilo koji skup podataka.


In [None]:
# Prep and bake the recipe
preprocessed_df <- cuisines_recipe %>% 
  prep() %>% 
  bake(new_data = NULL) %>% 
  relocate(cuisine)

# Display data
preprocessed_df %>% 
  slice_head(n = 5)

# Quick summary stats
preprocessed_df %>% 
  introduce()

Hajdemo sada provjeriti distribuciju naših kuhinja i usporediti ih s neuravnoteženim podacima.


In [None]:
# Distribution of cuisines
new_label_count <- preprocessed_df %>% 
  count(cuisine) %>% 
  arrange(desc(n))

list(new_label_count = new_label_count,
     old_label_count = old_label_count)

Mmm! Podaci su lijepi i čisti, uravnoteženi i vrlo ukusni 😋!

> Obično se recept koristi kao preprocesor za modeliranje, gdje definira koje korake treba primijeniti na skup podataka kako bi ga se pripremilo za modeliranje. U tom slučaju se obično koristi `workflow()` (kao što smo već vidjeli u prethodnim lekcijama) umjesto ručnog procjenjivanja recepta.
>
> Stoga, obično ne trebate koristiti **`prep()`** i **`bake()`** recepte kada koristite tidymodels, ali to su korisne funkcije koje možete imati u svom alatu za potvrdu da recepti rade ono što očekujete, kao u našem slučaju.
>
> Kada **`bake()`** koristite pripremljeni recept s **`new_data = NULL`**, dobijete podatke koje ste dali prilikom definiranja recepta, ali koji su prošli korake predobrade.

Sada ćemo spremiti kopiju ovih podataka za korištenje u budućim lekcijama:


In [None]:
# Save preprocessed data
write_csv(preprocessed_df, "../../../data/cleaned_cuisines_R.csv")

Ovaj svježi CSV sada se nalazi u glavnoj mapi podataka.

**🚀Izazov**

Ovaj kurikulum sadrži nekoliko zanimljivih skupova podataka. Pregledajte mape `data` i provjerite sadrži li neki od njih skupove podataka koji bi bili prikladni za binarnu ili višeklasnu klasifikaciju? Koja pitanja biste postavili o ovom skupu podataka?

## [**Kviz nakon predavanja**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/20/)

## **Pregled i samostalno učenje**

-   Pogledajte [paket themis](https://github.com/tidymodels/themis). Koje druge tehnike možemo koristiti za rješavanje problema neuravnoteženih podataka?

-   Referentna stranica za Tidy models [web stranica](https://www.tidymodels.org/start/).

-   H. Wickham i G. Grolemund, [*R za Data Science: Vizualiziraj, Modeliraj, Transformiraj, Uredi i Uvezi Podatke*](https://r4ds.had.co.nz/).

#### HVALA:

[`Allison Horst`](https://twitter.com/allison_horst/) za stvaranje nevjerojatnih ilustracija koje čine R pristupačnijim i zanimljivijim. Pronađite više ilustracija u njezinoj [galeriji](https://www.google.com/url?q=https://github.com/allisonhorst/stats-illustrations&sa=D&source=editors&ust=1626380772530000&usg=AOvVaw3zcfyCizFQZpkSLzxiiQEM).

[Cassie Breviu](https://www.twitter.com/cassieview) i [Jen Looper](https://www.twitter.com/jenlooper) za stvaranje originalne Python verzije ovog modula ♥️

<p >
   <img src="../../images/r_learners_sm.jpeg"
   width="600"/>
   <figcaption>Ilustracija od @allison_horst</figcaption>



---

**Odricanje od odgovornosti**:  
Ovaj dokument je preveden korištenjem AI usluge za prevođenje [Co-op Translator](https://github.com/Azure/co-op-translator). Iako nastojimo osigurati točnost, imajte na umu da automatski prijevodi mogu sadržavati pogreške ili netočnosti. Izvorni dokument na izvornom jeziku treba smatrati mjerodavnim izvorom. Za ključne informacije preporučuje se profesionalni prijevod od strane stručnjaka. Ne preuzimamo odgovornost za bilo kakva nesporazuma ili pogrešna tumačenja koja mogu proizaći iz korištenja ovog prijevoda.
