# Създайте модел за класификация: Вкусни азиатски и индийски ястия


## Въведение в класификацията: Почистете, подгответе и визуализирайте данните си

В тези четири урока ще разгледате основен аспект на класическото машинно обучение - *класификация*. Ще преминем през използването на различни алгоритми за класификация с набор от данни за всички невероятни кухни на Азия и Индия. Надявам се, че сте гладни!

<p >
   <img src="../../images/pinch.png"
   width="600"/>
   <figcaption>Празнувайте паназиатските кухни в тези уроци! Изображение от Джен Лупър</figcaption>


<!--![Празнувайте паназиатските кухни в тези уроци! Изображение от Джен Лупър](../../../../../../4-Classification/1-Introduction/solution/R/images/pinch.png)-->

Класификацията е форма на [контролирано обучение](https://wikipedia.org/wiki/Supervised_learning), която има много общо с техниките за регресия. При класификацията обучавате модел, за да предскаже към коя `категория` принадлежи даден елемент. Ако машинното обучение е свързано с предсказване на стойности или имена на неща чрез използване на набори от данни, тогава класификацията обикновено се разделя на две групи: *бинарна класификация* и *многокласова класификация*.

Запомнете:

-   **Линейната регресия** ви помогна да предскажете връзките между променливите и да направите точни прогнози за това къде нова точка от данни би попаднала спрямо тази линия. Например, можете да предскажете числови стойности като *каква би била цената на тиква през септември спрямо декември*.

-   **Логистичната регресия** ви помогна да откриете "бинарни категории": при тази ценова точка, *оранжева ли е тиквата или не*?

Класификацията използва различни алгоритми, за да определи други начини за определяне на етикета или класа на дадена точка от данни. Нека работим с тези данни за кухни, за да видим дали, наблюдавайки група от съставки, можем да определим произхода на кухнята.

### [**Тест преди лекцията**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/19/)

### **Въведение**

Класификацията е една от основните дейности на изследователя в областта на машинното обучение и на специалиста по данни. От основна класификация на бинарна стойност ("този имейл спам ли е или не?") до сложна класификация на изображения и сегментация с помощта на компютърно зрение, винаги е полезно да можете да сортирате данни в класове и да задавате въпроси за тях.

Ако трябва да опишем процеса по-научно, вашият метод за класификация създава предсказателен модел, който ви позволява да картографирате връзката между входните променливи и изходните променливи.

<p >
   <img src="../../images/binary-multiclass.png"
   width="600"/>
   <figcaption>Бинарни срещу многокласови проблеми, които алгоритмите за класификация трябва да решат. Инфографика от Джен Лупър</figcaption>



Преди да започнем процеса на почистване на данните, визуализирането им и подготовката им за нашите задачи по машинно обучение, нека научим малко за различните начини, по които машинното обучение може да се използва за класифициране на данни.

Произлизаща от [статистиката](https://wikipedia.org/wiki/Statistical_classification), класификацията с помощта на класическо машинно обучение използва характеристики като `пушач`, `тегло` и `възраст`, за да определи *вероятността за развитие на дадено заболяване*. Като техника за контролирано обучение, подобна на упражненията за регресия, които извършихте по-рано, вашите данни са етикетирани, а алгоритмите за машинно обучение използват тези етикети, за да класифицират и предсказват класове (или 'характеристики') на набор от данни и да ги присвояват към група или резултат.

✅ Отделете момент, за да си представите набор от данни за кухни. Какво би могъл да отговори един многокласов модел? Какво би могъл да отговори един бинарен модел? Ами ако искате да определите дали дадена кухня вероятно използва сминдух? Ами ако искате да видите дали, при наличието на торба с хранителни продукти, пълна със звезден анасон, артишок, карфиол и хрян, можете да създадете типично индийско ястие?

### **Здравейте, 'класификатор'**

Въпросът, който искаме да зададем на този набор от данни за кухни, всъщност е **многокласов въпрос**, тъй като имаме няколко потенциални национални кухни, с които да работим. Като се има предвид група от съставки, към кой от тези много класове ще се впишат данните?

Tidymodels предлага няколко различни алгоритми за класифициране на данни, в зависимост от вида на проблема, който искате да решите. В следващите два урока ще научите за някои от тези алгоритми.

#### **Предварителни изисквания**

За този урок ще ни трябват следните пакети, за да почистим, подготвим и визуализираме данните си:

-   `tidyverse`: [tidyverse](https://www.tidyverse.org/) е [колекция от пакети за R](https://www.tidyverse.org/packages), създадена да направи науката за данни по-бърза, лесна и забавна!

-   `tidymodels`: [tidymodels](https://www.tidymodels.org/) е рамка, представляваща [колекция от пакети](https://www.tidymodels.org/packages/) за моделиране и машинно обучение.

-   `DataExplorer`: [DataExplorer](https://cran.r-project.org/web/packages/DataExplorer/vignettes/dataexplorer-intro.html) е пакет, предназначен да опрости и автоматизира процеса на изследване на данни и генериране на отчети.

-   `themis`: [themis](https://themis.tidymodels.org/) предоставя допълнителни стъпки за рецепти за работа с небалансирани данни.

Можете да ги инсталирате със следната команда:

`install.packages(c("tidyverse", "tidymodels", "DataExplorer", "here"))`

Алтернативно, скриптът по-долу проверява дали имате необходимите пакети за завършване на този модул и ги инсталира, ако липсват.


In [None]:
suppressWarnings(if (!require("pacman"))install.packages("pacman"))

pacman::p_load(tidyverse, tidymodels, DataExplorer, themis, here)

По-късно ще заредим тези страхотни пакети и ще ги направим достъпни в текущата R сесия. (Това е само за илюстрация, `pacman::p_load()` вече го направи за вас)


## Упражнение - почистете и балансирайте вашите данни

Първата задача, преди да започнете този проект, е да почистите и **балансирате** вашите данни, за да постигнете по-добри резултати.

Нека се запознаем с данните! 🕵️


In [None]:
# Import data
df <- read_csv(file = "https://raw.githubusercontent.com/microsoft/ML-For-Beginners/main/4-Classification/data/cuisines.csv")

# View the first 5 rows
df %>% 
  slice_head(n = 5)


Интересно! От изгледа на нещата, първата колона е вид `id` колона. Нека получим малко повече информация за данните.


In [None]:
# Basic information about the data
df %>%
  introduce()

# Visualize basic information above
df %>% 
  plot_intro(ggtheme = theme_light())

От резултата веднага виждаме, че имаме `2448` реда и `385` колони и `0` липсващи стойности. Също така имаме 1 дискретна колона, *cuisine*.

## Упражнение - запознаване с кухните

Сега работата започва да става по-интересна. Нека открием разпределението на данните по кухни.


In [None]:
# Count observations per cuisine
df %>% 
  count(cuisine) %>% 
  arrange(n)

# Plot the distribution
theme_set(theme_light())
df %>% 
  count(cuisine) %>% 
  ggplot(mapping = aes(x = n, y = reorder(cuisine, -n))) +
  geom_col(fill = "midnightblue", alpha = 0.7) +
  ylab("cuisine")

Има ограничен брой кухни, но разпределението на данните е неравномерно. Можете да го поправите! Преди това обаче, разгледайте малко повече.

След това, нека разпределим всяка кухня в отделна tibble и да разберем колко данни са налични (редове, колони) за всяка кухня.

> [tibble](https://tibble.tidyverse.org/) е модерен data frame.

<p >
   <img src="../../images/dplyr_filter.jpg"
   width="600"/>
   <figcaption>Илюстрация от @allison_horst</figcaption>


In [None]:
# Create individual tibble for the cuisines
thai_df <- df %>% 
  filter(cuisine == "thai")
japanese_df <- df %>% 
  filter(cuisine == "japanese")
chinese_df <- df %>% 
  filter(cuisine == "chinese")
indian_df <- df %>% 
  filter(cuisine == "indian")
korean_df <- df %>% 
  filter(cuisine == "korean")


# Find out how much data is available per cuisine
cat(" thai df:", dim(thai_df), "\n",
    "japanese df:", dim(japanese_df), "\n",
    "chinese_df:", dim(chinese_df), "\n",
    "indian_df:", dim(indian_df), "\n",
    "korean_df:", dim(korean_df))

## **Упражнение - Откриване на основни съставки по кухня с помощта на dplyr**

Сега можете да се задълбочите в данните и да разберете кои са типичните съставки за различните кухни. Трябва да премахнете повтарящи се данни, които създават объркване между кухните, така че нека разгледаме този проблем.

Създайте функция `create_ingredient()` в R, която връща dataframe със съставки. Тази функция ще започне с премахване на ненужна колона и ще сортира съставките според тяхната честота.

Основната структура на функция в R е:

`myFunction <- function(arglist){`

**`...`**

**`return`**`(value)`

`}`

Едно добро въведение в R функциите можете да намерите [тук](https://skirmer.github.io/presentations/functions_with_r.html#1).

Да се захващаме за работа! Ще използваме [глаголите на dplyr](https://dplyr.tidyverse.org/), които изучавахме в предишните уроци. Като обобщение:

-   `dplyr::select()`: помага ви да изберете кои **колони** да запазите или изключите.

-   `dplyr::pivot_longer()`: помага ви да "удължите" данните, увеличавайки броя на редовете и намалявайки броя на колоните.

-   `dplyr::group_by()` и `dplyr::summarise()`: помагат ви да намерите обобщени статистики за различни групи и да ги представите в удобна таблица.

-   `dplyr::filter()`: създава подмножество от данните, съдържащо само редовете, които отговарят на вашите условия.

-   `dplyr::mutate()`: помага ви да създавате или модифицирате колони.

Разгледайте този [*арт*-пълен learnr урок](https://allisonhorst.shinyapps.io/dplyr-learnr/#section-welcome) от Алисън Хорст, който представя някои полезни функции за обработка на данни в dplyr *(част от Tidyverse)*.


In [None]:
# Creates a functions that returns the top ingredients by class

create_ingredient <- function(df){
  
  # Drop the id column which is the first colum
  ingredient_df = df %>% select(-1) %>% 
  # Transpose data to a long format
    pivot_longer(!cuisine, names_to = "ingredients", values_to = "count") %>% 
  # Find the top most ingredients for a particular cuisine
    group_by(ingredients) %>% 
    summarise(n_instances = sum(count)) %>% 
    filter(n_instances != 0) %>% 
  # Arrange by descending order
    arrange(desc(n_instances)) %>% 
    mutate(ingredients = factor(ingredients) %>% fct_inorder())
  
  
  return(ingredient_df)
} # End of function

Сега можем да използваме функцията, за да получим представа за десетте най-популярни съставки според кухнята. Нека я изпробваме с `thai_df`.


In [None]:
# Call create_ingredient and display popular ingredients
thai_ingredient_df <- create_ingredient(df = thai_df)

thai_ingredient_df %>% 
  slice_head(n = 10)

В предишния раздел използвахме `geom_col()`, нека видим как можете да използвате и `geom_bar`, за да създавате стълбовидни диаграми. Използвайте `?geom_bar` за допълнително четене.


In [None]:
# Make a bar chart for popular thai cuisines
thai_ingredient_df %>% 
  slice_head(n = 10) %>% 
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "steelblue") +
  xlab("") + ylab("")

Нека направим същото за японските данни


In [None]:
# Get popular ingredients for Japanese cuisines and make bar chart
create_ingredient(df = japanese_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "darkorange", alpha = 0.8) +
  xlab("") + ylab("")


Какво ще кажете за китайската кухня?


In [None]:
# Get popular ingredients for Chinese cuisines and make bar chart
create_ingredient(df = chinese_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "cyan4", alpha = 0.8) +
  xlab("") + ylab("")

In [None]:
# Get popular ingredients for Indian cuisines and make bar chart
create_ingredient(df = indian_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "#041E42FF", alpha = 0.8) +
  xlab("") + ylab("")

Накрая начертайте корейските съставки.


In [None]:
# Get popular ingredients for Korean cuisines and make bar chart
create_ingredient(df = korean_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "#852419FF", alpha = 0.8) +
  xlab("") + ylab("")

От визуализациите на данните можем сега да премахнем най-често срещаните съставки, които създават объркване между различните кухни, използвайки `dplyr::select()`.

Всички обичат ориз, чесън и джинджифил!


In [None]:
# Drop id column, rice, garlic and ginger from our original data set
df_select <- df %>% 
  select(-c(1, rice, garlic, ginger))

# Display new data set
df_select %>% 
  slice_head(n = 5)

## Предварителна обработка на данни с рецепти 👩‍🍳👨‍🍳 - Работа с небалансирани данни ⚖️

<p >
   <img src="../../images/recipes.png"
   width="600"/>
   <figcaption>Илюстрация от @allison_horst</figcaption>

Тъй като този урок е за кухни, трябва да поставим `рецептите` в контекст.

Tidymodels предоставя още един удобен пакет: `recipes` - пакет за предварителна обработка на данни.


Нека отново разгледаме разпределението на нашите кухни.


In [None]:
# Distribution of cuisines
old_label_count <- df_select %>% 
  count(cuisine) %>% 
  arrange(desc(n))

old_label_count

Както виждате, има доста неравномерно разпределение в броя на кухните. Корейските кухни са почти три пъти повече от тайландските. Небалансираните данни често имат отрицателно въздействие върху производителността на модела. Помислете за бинарна класификация. Ако по-голямата част от вашите данни принадлежат към един клас, моделът за машинно обучение ще предсказва този клас по-често, просто защото има повече данни за него. Балансирането на данните коригира всякакви изкривявания и помага за премахването на този дисбаланс. Много модели работят най-добре, когато броят на наблюденията е равен, и следователно имат затруднения с небалансирани данни.

Има основно два начина за справяне с небалансирани набори от данни:

-   добавяне на наблюдения към малцинствения клас: `Over-sampling`, например чрез използване на алгоритъма SMOTE

-   премахване на наблюдения от мнозинствения клас: `Under-sampling`

Нека сега демонстрираме как да се справим с небалансирани набори от данни, използвайки `recipe`. Рецептата може да се разглежда като план, който описва какви стъпки трябва да се приложат към набора от данни, за да бъде подготвен за анализ.


In [None]:
# Load themis package for dealing with imbalanced data
library(themis)

# Create a recipe for preprocessing data
cuisines_recipe <- recipe(cuisine ~ ., data = df_select) %>% 
  step_smote(cuisine)

cuisines_recipe

Нека разгледаме стъпките за предварителна обработка.

-   Извикването на `recipe()` с формула указва на рецептата *ролите* на променливите, използвайки данните от `df_select` като референция. Например, колоната `cuisine` е определена с роля `outcome`, докато останалите колони са определени с роля `predictor`.

-   [`step_smote(cuisine)`](https://themis.tidymodels.org/reference/step_smote.html) създава *спецификация* на стъпка от рецептата, която синтетично генерира нови примери за малцинствената класа, използвайки най-близките съседи на тези случаи.

Сега, ако искаме да видим предварително обработените данни, трябва да [**`prep()`**](https://recipes.tidymodels.org/reference/prep.html) и [**`bake()`**](https://recipes.tidymodels.org/reference/bake.html) нашата рецепта.

`prep()`: изчислява необходимите параметри от тренировъчен набор, които по-късно могат да бъдат приложени към други набори от данни.

`bake()`: взема предварително обработена рецепта и прилага операциите към всеки набор от данни.


In [None]:
# Prep and bake the recipe
preprocessed_df <- cuisines_recipe %>% 
  prep() %>% 
  bake(new_data = NULL) %>% 
  relocate(cuisine)

# Display data
preprocessed_df %>% 
  slice_head(n = 5)

# Quick summary stats
preprocessed_df %>% 
  introduce()

Нека сега проверим разпределението на нашите кухни и да ги сравним с небалансираните данни.


In [None]:
# Distribution of cuisines
new_label_count <- preprocessed_df %>% 
  count(cuisine) %>% 
  arrange(desc(n))

list(new_label_count = new_label_count,
     old_label_count = old_label_count)

Ммм! Данните са чисти, балансирани и много вкусни 😋!

> Обикновено рецептата се използва като предварителен процесор за моделиране, където се определя какви стъпки трябва да се приложат към набора от данни, за да бъде готов за моделиране. В този случай обикновено се използва `workflow()` (както вече видяхме в предишните уроци), вместо ръчно да се изчислява рецепта.
>
> Затова обикновено не е необходимо да използвате **`prep()`** и **`bake()`** за рецепти, когато работите с tidymodels, но те са полезни функции, които можете да имате в арсенала си, за да потвърдите, че рецептите работят според очакванията ви, както е в нашия случай.
>
> Когато използвате **`bake()`** върху предварително подготвена рецепта с **`new_data = NULL`**, получавате обратно данните, които сте предоставили при дефинирането на рецептата, но вече преминали през стъпките на предварителната обработка.

Нека сега запазим копие на тези данни за използване в бъдещи уроци:


In [None]:
# Save preprocessed data
write_csv(preprocessed_df, "../../../data/cleaned_cuisines_R.csv")

Този нов CSV файл вече може да бъде намерен в основната папка с данни.

**🚀Предизвикателство**

Тази учебна програма съдържа няколко интересни набора от данни. Разгледайте папките `data` и вижте дали някой от тях съдържа набори от данни, подходящи за бинарна или многокласова класификация? Какви въпроси бихте задали на този набор от данни?

## [**Тест след лекцията**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/20/)

## **Преглед и самостоятелно обучение**

-   Разгледайте [пакета themis](https://github.com/tidymodels/themis). Какви други техники можем да използваме за справяне с небалансирани данни?

-   Уебсайт с референции за Tidy models [тук](https://www.tidymodels.org/start/).

-   Х. Уикъм и Г. Гролемунд, [*R за анализ на данни: Визуализация, моделиране, трансформация, подреждане и импортиране на данни*](https://r4ds.had.co.nz/).

#### БЛАГОДАРНОСТИ КЪМ:

[`Алисън Хорст`](https://twitter.com/allison_horst/) за създаването на невероятните илюстрации, които правят R по-приветлив и ангажиращ. Намерете още илюстрации в нейния [галерия](https://www.google.com/url?q=https://github.com/allisonhorst/stats-illustrations&sa=D&source=editors&ust=1626380772530000&usg=AOvVaw3zcfyCizFQZpkSLzxiiQEM).

[Каси Бревиу](https://www.twitter.com/cassieview) и [Джен Лупър](https://www.twitter.com/jenlooper) за създаването на оригиналната версия на този модул на Python ♥️

<p >
   <img src="../../images/r_learners_sm.jpeg"
   width="600"/>
   <figcaption>Илюстрация от @allison_horst</figcaption>



---

**Отказ от отговорност**:  
Този документ е преведен с помощта на AI услуга за превод [Co-op Translator](https://github.com/Azure/co-op-translator). Въпреки че се стремим към точност, моля, имайте предвид, че автоматизираните преводи може да съдържат грешки или неточности. Оригиналният документ на неговия изходен език трябва да се счита за авторитетен източник. За критична информация се препоръчва професионален превод от човек. Ние не носим отговорност за каквито и да е недоразумения или погрешни интерпретации, произтичащи от използването на този превод.
