# Направите класификациони модел: Укусна азијска и индијска јела


## Увод у класификацију: Чишћење, припрема и визуализација података

У ове четири лекције истражићете један од основних аспеката класичног машинског учења - *класификацију*. Проћи ћемо кроз употребу различитих алгоритама класификације са скупом података о свим сјајним кухињама Азије и Индије. Надамо се да сте гладни!

<p >
   <img src="../../images/pinch.png"
   width="600"/>
   <figcaption>Прославите паназијске кухиње у овим лекцијама! Слика: Џен Лупер</figcaption>


<!--![Прославите паназијске кухиње у овим лекцијама! Слика: Џен Лупер](../../../../../../4-Classification/1-Introduction/solution/R/images/pinch.png)-->

Класификација је облик [надгледаног учења](https://wikipedia.org/wiki/Supervised_learning) који има доста сличности са техникама регресије. У класификацији, обучавате модел да предвиди којој `категорији` неки елемент припада. Ако је машинско учење усмерено на предвиђање вредности или имена ствари коришћењем скупова података, онда се класификација углавном дели на две групе: *бинарна класификација* и *вишекласна класификација*.

Запамтите:

-   **Линеарна регресија** вам је помогла да предвидите односе између променљивих и направите тачна предвиђања о томе где би нова тачка података пала у односу на ту линију. На пример, могли сте да предвидите нумеричке вредности као што је *која би цена бундеве била у септембру у односу на децембар*.

-   **Логистичка регресија** вам је помогла да откријете "бинарне категорије": на овој цени, *да ли је ова бундева наранџаста или није-наранџаста*?

Класификација користи различите алгоритме за одређивање других начина за идентификацију ознаке или класе неке тачке података. Хајде да радимо са овим подацима о кухињама како бисмо видели да ли можемо, посматрајући групу састојака, одредити њихово порекло.

### [**Квиз пре предавања**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/19/)

### **Увод**

Класификација је једна од основних активности истраживача машинског учења и научника за податке. Од основне класификације бинарне вредности ("да ли је овај имејл спам или није?"), до сложене класификације слика и сегментације коришћењем рачунарског вида, увек је корисно бити у могућности да сортирате податке у класе и постављате питања о њима.

Научно речено, ваш метод класификације креира предиктивни модел који вам омогућава да мапирате однос између улазних променљивих и излазних променљивих.

<p >
   <img src="../../images/binary-multiclass.png"
   width="600"/>
   <figcaption>Бинарни наспрам вишекласних проблема за алгоритме класификације. Инфографика: Џен Лупер</figcaption>



Пре него што започнемо процес чишћења наших података, њихове визуализације и припреме за задатке машинског учења, хајде да научимо мало више о различитим начинима на које се машинско учење може користити за класификацију података.

Изведена из [статистике](https://wikipedia.org/wiki/Statistical_classification), класификација коришћењем класичног машинског учења користи карактеристике, као што су `пушач`, `тежина` и `године`, како би одредила *вероватноћу развоја X болести*. Као техника надгледаног учења слична вежбама регресије које сте раније радили, ваши подаци су означени, а алгоритми машинског учења користе те ознаке да класификују и предвиђају класе (или 'карактеристике') скупа података и додељују их групи или исходу.

✅ Одвојите тренутак да замислите скуп података о кухињама. На шта би вишекласни модел могао да одговори? На шта би бинарни модел могао да одговори? Шта ако желите да утврдите да ли је одређена кухиња вероватно користила пискавац? Шта ако желите да видите да ли, уз поклон у виду кесе са намирницама пуне звездастог аниса, артичока, карфиола и рена, можете направити типично индијско јело?

### **Здраво, 'класификаторе'**

Питање које желимо да поставимо овом скупу података о кухињама је заправо **вишекласно питање**, јер имамо неколико потенцијалних националних кухиња са којима радимо. С обзиром на групу састојака, којој од ових многих класа ће подаци припадати?

Tidymodels нуди неколико различитих алгоритама за класификацију података, у зависности од врсте проблема који желите да решите. У наредне две лекције, научићете о неколико ових алгоритама.

#### **Предуслови**

За ову лекцију, биће нам потребни следећи пакети за чишћење, припрему и визуализацију наших података:

-   `tidyverse`: [tidyverse](https://www.tidyverse.org/) је [збирка R пакета](https://www.tidyverse.org/packages) дизајнирана да учини науку о подацима бржом, лакшом и забавнијом!

-   `tidymodels`: [tidymodels](https://www.tidymodels.org/) је оквир који представља [збирку пакета](https://www.tidymodels.org/packages/) за моделирање и машинско учење.

-   `DataExplorer`: [DataExplorer пакет](https://cran.r-project.org/web/packages/DataExplorer/vignettes/dataexplorer-intro.html) је намењен поједностављењу и аутоматизацији процеса истраживачке анализе података и генерисању извештаја.

-   `themis`: [themis пакет](https://themis.tidymodels.org/) пружа додатне кораке за рецепте за рад са неуравнотеженим подацима.

Можете их инсталирати помоћу:

`install.packages(c("tidyverse", "tidymodels", "DataExplorer", "here"))`

Алтернативно, скрипта испод проверава да ли имате пакете потребне за завршетак овог модула и инсталира их у случају да недостају.


In [None]:
suppressWarnings(if (!require("pacman"))install.packages("pacman"))

pacman::p_load(tidyverse, tidymodels, DataExplorer, themis, here)

Касније ћемо учитати ове сјајне пакете и учинити их доступним у нашој тренутној R сесији. (Ово је само за илустрацију, `pacman::p_load()` је то већ урадио за вас)


## Вежба - очистите и избалансирајте своје податке

Први задатак који треба обавити пре почетка овог пројекта је да очистите и **избалансирате** своје податке како бисте добили боље резултате.

Хајде да упознамо податке! 🕵️


In [None]:
# Import data
df <- read_csv(file = "https://raw.githubusercontent.com/microsoft/ML-For-Beginners/main/4-Classification/data/cuisines.csv")

# View the first 5 rows
df %>% 
  slice_head(n = 5)


Интересантно! По изгледу, прва колона је нека врста `id` колоне. Хајде да добијемо мало више информација о подацима.


In [None]:
# Basic information about the data
df %>%
  introduce()

# Visualize basic information above
df %>% 
  plot_intro(ggtheme = theme_light())

Iz rezultata odmah možemo videti da imamo `2448` redova i `385` kolona, kao i `0` nedostajućih vrednosti. Takođe imamo 1 diskretnu kolonu, *cuisine*.

## Vežba - upoznavanje sa kuhinjama

Sada posao postaje zanimljiviji. Hajde da otkrijemo raspodelu podataka po kuhinjama.


In [None]:
# Count observations per cuisine
df %>% 
  count(cuisine) %>% 
  arrange(n)

# Plot the distribution
theme_set(theme_light())
df %>% 
  count(cuisine) %>% 
  ggplot(mapping = aes(x = n, y = reorder(cuisine, -n))) +
  geom_col(fill = "midnightblue", alpha = 0.7) +
  ylab("cuisine")

Постоји коначан број кухиња, али је расподела података неравномерна. Можете то поправити! Пре него што то урадите, истражите мало више.

Следеће, хајде да сваку кухињу доделимо њеној појединачној табели (tibble) и сазнамо колико је података доступно (редови, колоне) по кухињи.

> [Tibble](https://tibble.tidyverse.org/) је модеран облик података (data frame).

<p >
   <img src="../../images/dplyr_filter.jpg"
   width="600"/>
   <figcaption>Илустрација: @allison_horst</figcaption>


In [None]:
# Create individual tibble for the cuisines
thai_df <- df %>% 
  filter(cuisine == "thai")
japanese_df <- df %>% 
  filter(cuisine == "japanese")
chinese_df <- df %>% 
  filter(cuisine == "chinese")
indian_df <- df %>% 
  filter(cuisine == "indian")
korean_df <- df %>% 
  filter(cuisine == "korean")


# Find out how much data is available per cuisine
cat(" thai df:", dim(thai_df), "\n",
    "japanese df:", dim(japanese_df), "\n",
    "chinese_df:", dim(chinese_df), "\n",
    "indian_df:", dim(indian_df), "\n",
    "korean_df:", dim(korean_df))

## **Вежба - Откривање најбољих састојака по кухињи уз помоћ dplyr**

Сада можете дубље истражити податке и сазнати који су типични састојци за сваку кухињу. Треба да очистите поновљене податке који стварају забуну између кухиња, па хајде да научимо више о овом проблему.

Направите функцију `create_ingredient()` у R-у која враћа датафрејм са састојцима. Ова функција ће започети уклањањем некорисне колоне и сортирањем састојака према њиховом броју.

Основна структура функције у R-у је:

`myFunction <- function(arglist){`

**`...`**

**`return`**`(value)`

`}`

Уредан увод у функције у R-у можете пронаћи [овде](https://skirmer.github.io/presentations/functions_with_r.html#1).

Хајде да кренемо! Користићемо [глаголе из dplyr-а](https://dplyr.tidyverse.org/) које смо учили у претходним лекцијама. Као подсетник:

-   `dplyr::select()`: помаже вам да изаберете које **колоне** желите да задржите или искључите.

-   `dplyr::pivot_longer()`: помаже вам да "продужите" податке, повећавајући број редова и смањујући број колона.

-   `dplyr::group_by()` и `dplyr::summarise()`: помажу вам да пронађете статистику за различите групе и представите је у лепој табели.

-   `dplyr::filter()`: креира подскуп података који садржи само редове који задовољавају ваше услове.

-   `dplyr::mutate()`: помаже вам да креирате или измените колоне.

Погледајте овај [*уметнички*-испуњен learnr туторијал](https://allisonhorst.shinyapps.io/dplyr-learnr/#section-welcome) од Алисон Хорст, који представља неке корисне функције за обраду података у dplyr-у *(део Tidyverse-а)*.


In [None]:
# Creates a functions that returns the top ingredients by class

create_ingredient <- function(df){
  
  # Drop the id column which is the first colum
  ingredient_df = df %>% select(-1) %>% 
  # Transpose data to a long format
    pivot_longer(!cuisine, names_to = "ingredients", values_to = "count") %>% 
  # Find the top most ingredients for a particular cuisine
    group_by(ingredients) %>% 
    summarise(n_instances = sum(count)) %>% 
    filter(n_instances != 0) %>% 
  # Arrange by descending order
    arrange(desc(n_instances)) %>% 
    mutate(ingredients = factor(ingredients) %>% fct_inorder())
  
  
  return(ingredient_df)
} # End of function

Сада можемо користити функцију да добијемо идеју о десет најпопуларнијих састојака по кухињи. Хајде да је испробамо са `thai_df`.


In [None]:
# Call create_ingredient and display popular ingredients
thai_ingredient_df <- create_ingredient(df = thai_df)

thai_ingredient_df %>% 
  slice_head(n = 10)

У претходном одељку користили смо `geom_col()`, хајде да видимо како можете користити и `geom_bar` за креирање стубичастих графикона. Користите `?geom_bar` за додатно читање.


In [None]:
# Make a bar chart for popular thai cuisines
thai_ingredient_df %>% 
  slice_head(n = 10) %>% 
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "steelblue") +
  xlab("") + ylab("")

Хајде да урадимо исто за јапанске податке


In [None]:
# Get popular ingredients for Japanese cuisines and make bar chart
create_ingredient(df = japanese_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "darkorange", alpha = 0.8) +
  xlab("") + ylab("")


Шта је са кинеском кухињом?


In [None]:
# Get popular ingredients for Chinese cuisines and make bar chart
create_ingredient(df = chinese_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "cyan4", alpha = 0.8) +
  xlab("") + ylab("")

In [None]:
# Get popular ingredients for Indian cuisines and make bar chart
create_ingredient(df = indian_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "#041E42FF", alpha = 0.8) +
  xlab("") + ylab("")

In [None]:
# Get popular ingredients for Korean cuisines and make bar chart
create_ingredient(df = korean_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "#852419FF", alpha = 0.8) +
  xlab("") + ylab("")

Из визуализација података, сада можемо изоставити најчешће састојке који стварају забуну између различитих кухиња, користећи `dplyr::select()`.

Сви воле пиринач, бели лук и ђумбир!


In [None]:
# Drop id column, rice, garlic and ginger from our original data set
df_select <- df %>% 
  select(-c(1, rice, garlic, ginger))

# Display new data set
df_select %>% 
  slice_head(n = 5)

## Предобрада података уз помоћ рецепата 👩‍🍳👨‍🍳 - Рад са неуравнотеженим подацима ⚖️

<p >
   <img src="../../images/recipes.png"
   width="600"/>
   <figcaption>Илустрација: @allison_horst</figcaption>

С обзиром на то да је ова лекција о кухињама, морамо ставити `recipes` у контекст.

Tidymodels пружа још један користан пакет: `recipes` - пакет за предобраду података.


Хајде да поново погледамо расподелу наших кухиња.


In [None]:
# Distribution of cuisines
old_label_count <- df_select %>% 
  count(cuisine) %>% 
  arrange(desc(n))

old_label_count

Као што можете видети, постоји прилично неједнака расподела у броју кухиња. Корејске кухиње су скоро три пута бројније од тајландских. Неуравнотежени подаци често имају негативан утицај на перформансе модела. Размислите о бинарној класификацији. Ако већина ваших података припада једној класи, модел машинског учења ће чешће предвиђати ту класу, једноставно зато што за њу има више података. Уравнотежавање података узима било какве искривљене податке и помаже у уклањању те неравнотеже. Многи модели најбоље функционишу када је број посматрања једнак и, самим тим, имају потешкоћа са неуравнотеженим подацима.

Постоје углавном два начина за решавање проблема са неуравнотеженим скуповима података:

-   додавање посматрања мањинској класи: `Over-sampling`, на пример, коришћењем SMOTE алгоритма

-   уклањање посматрања из већинске класе: `Under-sampling`

Хајде сада да покажемо како се носити са неуравнотеженим скуповима података користећи `recipe`. Рецепт се може посматрати као план који описује које кораке треба применити на скуп података како би био спреман за анализу података.


In [None]:
# Load themis package for dealing with imbalanced data
library(themis)

# Create a recipe for preprocessing data
cuisines_recipe <- recipe(cuisine ~ ., data = df_select) %>% 
  step_smote(cuisine)

cuisines_recipe

Хајде да разложимо кораке претпроцесирања.

-   Позив функције `recipe()` са формулом говори рецепту *улоге* променљивих користећи `df_select` податке као референцу. На пример, колона `cuisine` је додељена улога `outcome`, док су остале колоне добиле улогу `predictor`.

-   [`step_smote(cuisine)`](https://themis.tidymodels.org/reference/step_smote.html) креира *спецификацију* корака рецепта који синтетички генерише нове примере мањинске класе користећи најближе суседе тих случајева.

Сада, ако желимо да видимо претпроцесиране податке, морамо [**`prep()`**](https://recipes.tidymodels.org/reference/prep.html) и [**`bake()`**](https://recipes.tidymodels.org/reference/bake.html) наш рецепт.

`prep()`: процењује потребне параметре из тренинг скупа који се касније могу применити на друге скупове података.

`bake()`: узима припремљен рецепт и примењује операције на било који скуп података.


In [None]:
# Prep and bake the recipe
preprocessed_df <- cuisines_recipe %>% 
  prep() %>% 
  bake(new_data = NULL) %>% 
  relocate(cuisine)

# Display data
preprocessed_df %>% 
  slice_head(n = 5)

# Quick summary stats
preprocessed_df %>% 
  introduce()

Хајде сада да проверимо расподелу наших кухиња и упоредимо их са неуравнотеженим подацима.


In [None]:
# Distribution of cuisines
new_label_count <- preprocessed_df %>% 
  count(cuisine) %>% 
  arrange(desc(n))

list(new_label_count = new_label_count,
     old_label_count = old_label_count)

Ммм! Подаци су лепо уређени, избалансирани и веома укусни 😋!

> Обично се рецепт користи као претпроцесор за моделирање, где дефинише које кораке треба применити на скуп података како би био спреман за моделирање. У том случају, `workflow()` се обично користи (као што смо већ видели у претходним лекцијама) уместо ручног процењивања рецепта.
>
> Сходно томе, обично не морате да користите **`prep()`** и **`bake()`** рецепте када користите tidymodels, али то су корисне функције које можете имати у свом алату за потврду да рецепти раде оно што очекујете, као у нашем случају.
>
> Када користите **`bake()`** на припремљеном рецепту са **`new_data = NULL`**, добијате назад податке које сте дали приликом дефинисања рецепта, али који су прошли кроз кораке претпроцесирања.

Хајде сада да сачувамо копију ових података за употребу у будућим лекцијама:


In [None]:
# Save preprocessed data
write_csv(preprocessed_df, "../../../data/cleaned_cuisines_R.csv")

Овај нови CSV сада се налази у главном фолдеру за податке.

**🚀Изазов**

Овај курикулум садржи неколико занимљивих скупова података. Претражите `data` фолдере и видите да ли неки садрже скупове података који би били погодни за бинарну или мултикласну класификацију? Која питања бисте поставили о овом скупу података?

## [**Квиз након предавања**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/20/)

## **Преглед и Самостално учење**

-   Погледајте [пакет themis](https://github.com/tidymodels/themis). Које друге технике можемо користити за решавање проблема са неуравнотеженим подацима?

-   Референтни сајт за Tidy models [вебсајт](https://www.tidymodels.org/start/).

-   Х. Викам и Г. Гролемунд, [*R за науку о подацима: Визуализација, Моделовање, Трансформација, Уређивање и Увоз података*](https://r4ds.had.co.nz/).

#### ХВАЛА:

[`Елисон Хорст`](https://twitter.com/allison_horst/) за креирање невероватних илустрација које чине R приступачнијим и занимљивијим. Пронађите више илустрација у њеној [галерији](https://www.google.com/url?q=https://github.com/allisonhorst/stats-illustrations&sa=D&source=editors&ust=1626380772530000&usg=AOvVaw3zcfyCizFQZpkSLzxiiQEM).

[Кеси Бревиу](https://www.twitter.com/cassieview) и [Џен Лупер](https://www.twitter.com/jenlooper) за креирање оригиналне Python верзије овог модула ♥️

<p >
   <img src="../../images/r_learners_sm.jpeg"
   width="600"/>
   <figcaption>Илустрација од @allison_horst</figcaption>



---

**Одрицање од одговорности**:  
Овај документ је преведен коришћењем услуге за превођење помоћу вештачке интелигенције [Co-op Translator](https://github.com/Azure/co-op-translator). Иако тежимо тачности, молимо вас да имате у виду да аутоматски преводи могу садржати грешке или нетачности. Оригинални документ на изворном језику треба сматрати ауторитативним извором. За критичне информације препоручује се професионални превод од стране људи. Не сносимо одговорност за било каква неспоразумевања или погрешна тумачења која могу произаћи из коришћења овог превода.
