## Вступ до класифікації: Очистіть, підготуйте та візуалізуйте свої дані

У цих чотирьох уроках ви дослідите основний аспект класичного машинного навчання - *класифікацію*. Ми розглянемо використання різних алгоритмів класифікації з набором даних про всі чудові кухні Азії та Індії. Сподіваємося, ви голодні!

<p >
   <img src="../../images/pinch.png"
   width="600"/>
   <figcaption>Відзначайте паназійські кухні в цих уроках! Зображення Джен Лупер</figcaption>

Класифікація є формою [навчання з учителем](https://wikipedia.org/wiki/Supervised_learning), яка має багато спільного з техніками регресії. У класифікації ви навчаєте модель передбачати, до якої `категорії` належить елемент. Якщо машинне навчання полягає у прогнозуванні значень або назв для речей за допомогою наборів даних, то класифікація зазвичай поділяється на дві групи: *бінарна класифікація* та *багатокласова класифікація*.

Запам'ятайте:

-   **Лінійна регресія** допомогла вам передбачити взаємозв'язки між змінними та зробити точні прогнози щодо того, де нова точка даних потрапить у відношенні до цієї лінії. Наприклад, ви могли передбачити числові значення, такі як *яка ціна гарбуза буде у вересні порівняно з груднем*.

-   **Логістична регресія** допомогла вам виявити "бінарні категорії": за цією ціною *чи буде гарбуз помаранчевим чи не помаранчевим*?

Класифікація використовує різні алгоритми для визначення інших способів визначення мітки або класу точки даних. Давайте попрацюємо з цими даними про кухні, щоб побачити, чи можемо ми, спостерігаючи за групою інгредієнтів, визначити її кухню походження.

### [**Тест перед лекцією**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/19/)

### **Вступ**

Класифікація є однією з основних діяльностей дослідника машинного навчання та дата-сайєнтиста. Від базової класифікації бінарного значення ("чи є цей електронний лист спамом чи ні?") до складної класифікації зображень та сегментації за допомогою комп'ютерного зору, завжди корисно мати можливість сортувати дані за класами та ставити їм запитання.

Якщо висловити процес більш науково, ваш метод класифікації створює прогностичну модель, яка дозволяє вам відобразити взаємозв'язок між вхідними змінними та вихідними змінними.

<p >
   <img src="../../images/binary-multiclass.png"
   width="600"/>
   <figcaption>Бінарні та багатокласові задачі для алгоритмів класифікації. Інфографіка Джен Лупер</figcaption>

Перш ніж розпочати процес очищення наших даних, їх візуалізації та підготовки до завдань машинного навчання, давайте трохи дізнаємося про різні способи використання машинного навчання для класифікації даних.

Походячи з [статистики](https://wikipedia.org/wiki/Statistical_classification), класифікація за допомогою класичного машинного навчання використовує ознаки, такі як `курець`, `вага` та `вік`, щоб визначити *ймовірність розвитку X хвороби*. Як техніка навчання з учителем, схожа на вправи з регресії, які ви виконували раніше, ваші дані мають мітки, і алгоритми машинного навчання використовують ці мітки для класифікації та прогнозування класів (або 'ознак') набору даних і призначення їх групі або результату.

✅ Уявіть собі набір даних про кухні. На які запитання міг би відповісти багатокласовий модель? А бінарний? Що, якщо ви хотіли б визначити, чи ймовірно, що певна кухня використовує пажитник? Або що, якщо ви хотіли б побачити, чи можете ви, отримавши подарунок у вигляді пакета продуктів, що містить зірчастий аніс, артишоки, цвітну капусту та хрін, створити типову індійську страву?

### **Привіт, 'классифікатор'**

Запитання, яке ми хочемо поставити до цього набору даних про кухні, насправді є **багатокласовим запитанням**, оскільки у нас є кілька потенційних національних кухонь для роботи. Враховуючи набір інгредієнтів, до якого з цих багатьох класів належатимуть дані?

Tidymodels пропонує кілька різних алгоритмів для класифікації даних, залежно від типу задачі, яку ви хочете вирішити. У наступних двох уроках ви дізнаєтеся про кілька з цих алгоритмів.

#### **Передумови**

Для цього уроку нам знадобляться наступні пакети для очищення, підготовки та візуалізації наших даних:

-   `tidyverse`: [tidyverse](https://www.tidyverse.org/) - це [колекція пакетів R](https://www.tidyverse.org/packages), створена для того, щоб зробити роботу з даними швидшою, простішою та цікавішою!

-   `tidymodels`: [tidymodels](https://www.tidymodels.org/) - це [фреймворк](https://www.tidymodels.org/packages/) для моделювання та машинного навчання.

-   `DataExplorer`: [Пакет DataExplorer](https://cran.r-project.org/web/packages/DataExplorer/vignettes/dataexplorer-intro.html) призначений для спрощення та автоматизації процесу EDA та генерації звітів.

-   `themis`: [Пакет themis](https://themis.tidymodels.org/) надає додаткові кроки для роботи з незбалансованими даними.

Ви можете встановити їх за допомогою:

`install.packages(c("tidyverse", "tidymodels", "DataExplorer", "here"))`

Або ж скрипт нижче перевірить, чи є у вас необхідні пакети для завершення цього модуля, і встановить їх у разі відсутності.


In [None]:
suppressWarnings(if (!require("pacman"))install.packages("pacman"))

pacman::p_load(tidyverse, tidymodels, DataExplorer, themis, here)

Ми пізніше завантажимо ці чудові пакети та зробимо їх доступними в нашій поточній сесії R. (Це лише для ілюстрації, `pacman::p_load()` вже зробив це за вас)


## Вправа - очистіть і збалансуйте ваші дані

Першим завданням перед початком цього проєкту є очистити та **збалансувати** ваші дані, щоб отримати кращі результати.

Давайте познайомимося з даними!🕵️


In [None]:
# Import data
df <- read_csv(file = "https://raw.githubusercontent.com/microsoft/ML-For-Beginners/main/4-Classification/data/cuisines.csv")

# View the first 5 rows
df %>% 
  slice_head(n = 5)


Цікаво! Судячи з усього, перший стовпець є своєрідним стовпцем `id`. Давайте дізнаємося трохи більше про ці дані.


In [None]:
# Basic information about the data
df %>%
  introduce()

# Visualize basic information above
df %>% 
  plot_intro(ggtheme = theme_light())

З отриманих даних ми бачимо, що у нас є `2448` рядків і `385` стовпців, а також `0` пропущених значень. Крім того, у нас є 1 дискретний стовпець, *cuisine*.

## Вправа - вивчення кухонь

Тепер робота стає більш цікавою. Давайте дослідимо розподіл даних за типами кухонь.


In [None]:
# Count observations per cuisine
df %>% 
  count(cuisine) %>% 
  arrange(n)

# Plot the distribution
theme_set(theme_light())
df %>% 
  count(cuisine) %>% 
  ggplot(mapping = aes(x = n, y = reorder(cuisine, -n))) +
  geom_col(fill = "midnightblue", alpha = 0.7) +
  ylab("cuisine")

Існує обмежена кількість кухонь, але розподіл даних є нерівномірним. Ви можете це виправити! Перед тим як це зробити, дослідіть трохи більше.

Далі, давайте призначимо кожну кухню до її окремого tibble і дізнаємося, скільки даних доступно (рядків, стовпців) для кожної кухні.

> [Tibble](https://tibble.tidyverse.org/) — це сучасна форма таблиці даних.

<p >
   <img src="../../images/dplyr_filter.jpg"
   width="600"/>
   <figcaption>Ілюстрація від @allison_horst</figcaption>


In [None]:
# Create individual tibble for the cuisines
thai_df <- df %>% 
  filter(cuisine == "thai")
japanese_df <- df %>% 
  filter(cuisine == "japanese")
chinese_df <- df %>% 
  filter(cuisine == "chinese")
indian_df <- df %>% 
  filter(cuisine == "indian")
korean_df <- df %>% 
  filter(cuisine == "korean")


# Find out how much data is available per cuisine
cat(" thai df:", dim(thai_df), "\n",
    "japanese df:", dim(japanese_df), "\n",
    "chinese_df:", dim(chinese_df), "\n",
    "indian_df:", dim(indian_df), "\n",
    "korean_df:", dim(korean_df))

## **Вправа - Виявлення найпопулярніших інгредієнтів за кухнею за допомогою dplyr**

Тепер ви можете глибше зануритися в дані та дізнатися, які інгредієнти є типовими для кожної кухні. Вам слід очистити повторювані дані, які створюють плутанину між кухнями, тож давайте розберемося з цією проблемою.

Створіть функцію `create_ingredient()` в R, яка повертає датафрейм інгредієнтів. Ця функція почне з видалення непотрібного стовпця та сортування інгредієнтів за їх кількістю.

Базова структура функції в R виглядає так:

`myFunction <- function(arglist){`

**`...`**

**`return`**`(value)`

`}`

Ознайомитися з введенням у функції R можна [тут](https://skirmer.github.io/presentations/functions_with_r.html#1).

Давайте приступимо до роботи! Ми будемо використовувати [дієслова dplyr](https://dplyr.tidyverse.org/), які ми вивчали на попередніх уроках. Для повторення:

-   `dplyr::select()`: допомагає вибрати, які **стовпці** залишити або виключити.

-   `dplyr::pivot_longer()`: допомагає "розширити" дані, збільшуючи кількість рядків і зменшуючи кількість стовпців.

-   `dplyr::group_by()` та `dplyr::summarise()`: допомагають знайти статистичні дані для різних груп і представити їх у зручній таблиці.

-   `dplyr::filter()`: створює підмножину даних, яка містить лише рядки, що відповідають вашим умовам.

-   `dplyr::mutate()`: допомагає створювати або змінювати стовпці.

Ознайомтеся з цим [навчальним посібником](https://allisonhorst.shinyapps.io/dplyr-learnr/#section-welcome) від Еллісон Хорст, який вводить у корисні функції для обробки даних у dplyr *(частина Tidyverse)*.


In [None]:
# Creates a functions that returns the top ingredients by class

create_ingredient <- function(df){
  
  # Drop the id column which is the first colum
  ingredient_df = df %>% select(-1) %>% 
  # Transpose data to a long format
    pivot_longer(!cuisine, names_to = "ingredients", values_to = "count") %>% 
  # Find the top most ingredients for a particular cuisine
    group_by(ingredients) %>% 
    summarise(n_instances = sum(count)) %>% 
    filter(n_instances != 0) %>% 
  # Arrange by descending order
    arrange(desc(n_instances)) %>% 
    mutate(ingredients = factor(ingredients) %>% fct_inorder())
  
  
  return(ingredient_df)
} # End of function

Тепер ми можемо використати функцію, щоб отримати уявлення про десять найпопулярніших інгредієнтів за кухнею. Давайте перевіримо це на прикладі `thai_df`.


In [None]:
# Call create_ingredient and display popular ingredients
thai_ingredient_df <- create_ingredient(df = thai_df)

thai_ingredient_df %>% 
  slice_head(n = 10)

У попередньому розділі ми використовували `geom_col()`, давайте подивимося, як ви можете використовувати `geom_bar` також, щоб створювати стовпчикові діаграми. Використовуйте `?geom_bar` для додаткового читання.


In [None]:
# Make a bar chart for popular thai cuisines
thai_ingredient_df %>% 
  slice_head(n = 10) %>% 
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "steelblue") +
  xlab("") + ylab("")

In [None]:
# Get popular ingredients for Japanese cuisines and make bar chart
create_ingredient(df = japanese_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "darkorange", alpha = 0.8) +
  xlab("") + ylab("")


А як щодо китайської кухні?


In [None]:
# Get popular ingredients for Chinese cuisines and make bar chart
create_ingredient(df = chinese_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "cyan4", alpha = 0.8) +
  xlab("") + ylab("")

In [None]:
# Get popular ingredients for Indian cuisines and make bar chart
create_ingredient(df = indian_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "#041E42FF", alpha = 0.8) +
  xlab("") + ylab("")

In [None]:
# Get popular ingredients for Korean cuisines and make bar chart
create_ingredient(df = korean_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "#852419FF", alpha = 0.8) +
  xlab("") + ylab("")

З аналізу візуалізацій даних ми тепер можемо виключити найпоширеніші інгредієнти, які створюють плутанину між різними кухнями, використовуючи `dplyr::select()`.

Усі обожнюють рис, часник і імбир!


In [None]:
# Drop id column, rice, garlic and ginger from our original data set
df_select <- df %>% 
  select(-c(1, rice, garlic, ginger))

# Display new data set
df_select %>% 
  slice_head(n = 5)

## Попередня обробка даних за допомогою рецептів 👩‍🍳👨‍🍳 - Робота з незбалансованими даними ⚖️

<p >
   <img src="../../images/recipes.png"
   width="600"/>
   <figcaption>Ілюстрація від @allison_horst</figcaption>

Оскільки цей урок стосується кухонь, нам потрібно поставити `recipes` у контекст.

Tidymodels пропонує ще один чудовий пакет: `recipes` - пакет для попередньої обробки даних.


Давайте ще раз поглянемо на розподіл наших кухонь.


In [None]:
# Distribution of cuisines
old_label_count <- df_select %>% 
  count(cuisine) %>% 
  arrange(desc(n))

old_label_count

Як ви можете побачити, існує досить нерівномірний розподіл кількості кухонь. Корейські кухні майже втричі перевищують тайські кухні. Незбалансовані дані часто негативно впливають на продуктивність моделі. Подумайте про бінарну класифікацію. Якщо більшість ваших даних належить до одного класу, модель машинного навчання буде частіше передбачати цей клас просто тому, що для нього є більше даних. Балансування даних усуває будь-яку нерівномірність і допомагає позбутися цього дисбалансу. Багато моделей працюють найкраще, коли кількість спостережень є рівною, і тому їм важко працювати з незбалансованими даними.

Існує два основних способи роботи з незбалансованими наборами даних:

-   додавання спостережень до меншості класу: `Over-sampling`, наприклад, використання алгоритму SMOTE

-   видалення спостережень із більшості класу: `Under-sampling`

Давайте тепер продемонструємо, як працювати з незбалансованими наборами даних, використовуючи `recipe`. Рецепт можна уявити як план, який описує, які кроки слід застосувати до набору даних, щоб підготувати його до аналізу.


In [None]:
# Load themis package for dealing with imbalanced data
library(themis)

# Create a recipe for preprocessing data
cuisines_recipe <- recipe(cuisine ~ ., data = df_select) %>% 
  step_smote(cuisine)

cuisines_recipe

Давайте розглянемо наші кроки попередньої обробки.

-   Виклик `recipe()` із формулою вказує рецепту *ролі* змінних, використовуючи дані `df_select` як еталон. Наприклад, стовпцю `cuisine` було призначено роль `outcome`, тоді як решті стовпців було призначено роль `predictor`.

-   [`step_smote(cuisine)`](https://themis.tidymodels.org/reference/step_smote.html) створює *специфікацію* кроку рецепту, який синтетично генерує нові приклади для меншості класу, використовуючи найближчих сусідів цих випадків.

Тепер, якщо ми хочемо побачити попередньо оброблені дані, нам потрібно [**`prep()`**](https://recipes.tidymodels.org/reference/prep.html) і [**`bake()`**](https://recipes.tidymodels.org/reference/bake.html) наш рецепт.

`prep()`: оцінює необхідні параметри на основі навчального набору, які згодом можуть бути застосовані до інших наборів даних.

`bake()`: бере підготовлений рецепт і застосовує операції до будь-якого набору даних.


In [None]:
# Prep and bake the recipe
preprocessed_df <- cuisines_recipe %>% 
  prep() %>% 
  bake(new_data = NULL) %>% 
  relocate(cuisine)

# Display data
preprocessed_df %>% 
  slice_head(n = 5)

# Quick summary stats
preprocessed_df %>% 
  introduce()

Давайте тепер перевіримо розподіл наших кухонь і порівняємо їх із незбалансованими даними.


In [None]:
# Distribution of cuisines
new_label_count <- preprocessed_df %>% 
  count(cuisine) %>% 
  arrange(desc(n))

list(new_label_count = new_label_count,
     old_label_count = old_label_count)

Ммм! Дані чисті, збалансовані та дуже смачні 😋!

> Зазвичай рецепт використовується як препроцесор для моделювання, де визначається, які кроки потрібно застосувати до набору даних, щоб підготувати його до моделювання. У такому випадку зазвичай використовується `workflow()` (як ми вже бачили в попередніх уроках), замість того, щоб вручну оцінювати рецепт.
>
> Таким чином, вам зазвичай не потрібно використовувати **`prep()`** і **`bake()`** рецепти, коли ви працюєте з tidymodels, але ці функції корисно мати у своєму арсеналі для перевірки того, що рецепти працюють так, як ви очікуєте, як у нашому випадку.
>
> Коли ви використовуєте **`bake()`** для підготовленого рецепта з **`new_data = NULL`**, ви отримуєте дані, які ви надали при визначенні рецепта, але вже після виконання кроків препроцесингу.

Давайте тепер збережемо копію цих даних для використання в майбутніх уроках:


In [None]:
# Save preprocessed data
write_csv(preprocessed_df, "../../../data/cleaned_cuisines_R.csv")

Цей новий CSV тепер знаходиться в кореневій папці даних.

**🚀Виклик**

Ця навчальна програма містить кілька цікавих наборів даних. Перегляньте папки `data` і подивіться, чи є там набори даних, які підходять для бінарної або багатокласової класифікації? Які питання ви могли б поставити до цього набору даних?

## [**Тест після лекції**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/20/)

## **Огляд і самостійне навчання**

-   Ознайомтеся з [пакетом themis](https://github.com/tidymodels/themis). Які інші методи ми могли б використати для роботи з незбалансованими даними?

-   Вебсайт [довідника Tidy models](https://www.tidymodels.org/start/).

-   Г. Вікхем і Г. Гролемунд, [*R для науки про дані: візуалізація, моделювання, трансформація, впорядкування та імпорт даних*](https://r4ds.had.co.nz/).

#### ДЯКУЄМО:

[`Елісон Хорст`](https://twitter.com/allison_horst/) за створення чудових ілюстрацій, які роблять R більш доступним і цікавим. Більше ілюстрацій можна знайти в її [галереї](https://www.google.com/url?q=https://github.com/allisonhorst/stats-illustrations&sa=D&source=editors&ust=1626380772530000&usg=AOvVaw3zcfyCizFQZpkSLzxiiQEM).

[Кассі Бревіу](https://www.twitter.com/cassieview) і [Джен Лупер](https://www.twitter.com/jenlooper) за створення оригінальної версії цього модуля на Python ♥️

<p >
   <img src="../../images/r_learners_sm.jpeg"
   width="600"/>
   <figcaption>Ілюстрація від @allison_horst</figcaption>



---

**Відмова від відповідальності**:  
Цей документ було перекладено за допомогою сервісу автоматичного перекладу [Co-op Translator](https://github.com/Azure/co-op-translator). Хоча ми прагнемо до точності, зверніть увагу, що автоматичні переклади можуть містити помилки або неточності. Оригінальний документ мовою оригіналу слід вважати авторитетним джерелом. Для критично важливої інформації рекомендується професійний людський переклад. Ми не несемо відповідальності за будь-які непорозуміння або неправильні тлумачення, що виникли внаслідок використання цього перекладу.
