# Постройте модель классификации: Вкусные азиатские и индийские кухни


## Введение в классификацию: Очистка, подготовка и визуализация данных

В этих четырех уроках вы изучите один из ключевых аспектов классического машинного обучения — *классификацию*. Мы рассмотрим использование различных алгоритмов классификации на примере набора данных о великолепных кухнях Азии и Индии. Надеюсь, вы готовы к аппетитному путешествию!

<p >
   <img src="../../images/pinch.png"
   width="600"/>
   <figcaption>Празднуем паназиатские кухни в этих уроках! Изображение: Джен Лупер</figcaption>

Классификация — это форма [обучения с учителем](https://wikipedia.org/wiki/Supervised_learning), которая имеет много общего с методами регрессии. В классификации вы обучаете модель предсказывать, к какой `категории` относится объект. Если машинное обучение заключается в прогнозировании значений или имен объектов с использованием наборов данных, то классификация обычно делится на две группы: *бинарная классификация* и *многоклассовая классификация*.

Запомните:

-   **Линейная регрессия** помогала предсказывать отношения между переменными и делать точные прогнозы о том, где новый элемент данных окажется относительно этой линии. Например, вы могли предсказать числовое значение, такое как *какая будет цена тыквы в сентябре по сравнению с декабрем*.

-   **Логистическая регрессия** помогала обнаруживать "бинарные категории": при определенной цене *эта тыква оранжевая или не оранжевая*?

Классификация использует различные алгоритмы для определения других способов присвоения метки или класса элементу данных. Давайте поработаем с этими данными о кухнях, чтобы выяснить, можем ли мы, наблюдая за группой ингредиентов, определить их происхождение.

### [**Тест перед лекцией**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/19/)

### **Введение**

Классификация — это одна из основных задач исследователя машинного обучения и специалиста по данным. От простой классификации бинарного значения ("является ли это письмо спамом или нет?") до сложной классификации изображений и сегментации с использованием компьютерного зрения — всегда полезно уметь сортировать данные по классам и задавать им вопросы.

Если выразить процесс более научным языком, ваш метод классификации создает предсказательную модель, которая позволяет установить связь между входными переменными и выходными переменными.

<p >
   <img src="../../images/binary-multiclass.png"
   width="600"/>
   <figcaption>Бинарные и многоклассовые задачи для алгоритмов классификации. Инфографика: Джен Лупер</figcaption>

Прежде чем начать процесс очистки данных, их визуализации и подготовки к задачам машинного обучения, давайте немного узнаем о различных способах использования машинного обучения для классификации данных.

Происходя из [статистики](https://wikipedia.org/wiki/Statistical_classification), классификация с использованием классического машинного обучения использует признаки, такие как `курильщик`, `вес` и `возраст`, чтобы определить *вероятность развития X заболевания*. Как техника обучения с учителем, похожая на выполненные ранее упражнения по регрессии, ваши данные имеют метки, и алгоритмы машинного обучения используют эти метки для классификации и прогнозирования классов (или 'признаков') набора данных и их присвоения группе или результату.

✅ Представьте себе набор данных о кухнях. На какие вопросы мог бы ответить многоклассовый алгоритм? А бинарный? Что, если вы захотите определить, вероятно ли использование пажитника в данной кухне? А если вы захотите узнать, сможете ли вы, имея в наличии пакет продуктов, содержащий бадьян, артишоки, цветную капусту и хрен, приготовить типичное индийское блюдо?

### **Привет, 'классификатор'**

Вопрос, который мы хотим задать этому набору данных о кухнях, на самом деле является **многоклассовым вопросом**, так как у нас есть несколько потенциальных национальных кухонь для анализа. Учитывая набор ингредиентов, к какому из этих множества классов будут относиться данные?

Tidymodels предлагает несколько различных алгоритмов для классификации данных, в зависимости от типа задачи, которую вы хотите решить. В следующих двух уроках вы узнаете о некоторых из этих алгоритмов.

#### **Предварительные требования**

Для этого урока нам понадобятся следующие пакеты для очистки, подготовки и визуализации данных:

-   `tidyverse`: [tidyverse](https://www.tidyverse.org/) — это [коллекция пакетов для R](https://www.tidyverse.org/packages), разработанная для того, чтобы сделать работу с данными быстрее, проще и увлекательнее!

-   `tidymodels`: [tidymodels](https://www.tidymodels.org/) — это [фреймворк](https://www.tidymodels.org/packages/) для моделирования и машинного обучения, состоящий из коллекции пакетов.

-   `DataExplorer`: [DataExplorer](https://cran.r-project.org/web/packages/DataExplorer/vignettes/dataexplorer-intro.html) предназначен для упрощения и автоматизации процесса разведочного анализа данных и генерации отчетов.

-   `themis`: [themis](https://themis.tidymodels.org/) предоставляет дополнительные шаги для работы с несбалансированными данными.

Вы можете установить их с помощью команды:

`install.packages(c("tidyverse", "tidymodels", "DataExplorer", "here"))`

Или используйте следующий скрипт, который проверяет наличие необходимых пакетов для выполнения этого модуля и устанавливает их, если они отсутствуют.


In [None]:
suppressWarnings(if (!require("pacman"))install.packages("pacman"))

pacman::p_load(tidyverse, tidymodels, DataExplorer, themis, here)

Позже мы загрузим эти замечательные пакеты и сделаем их доступными в нашей текущей R-сессии. (Это просто для иллюстрации, `pacman::p_load()` уже сделал это за вас)


## Упражнение - очистка и балансировка данных

Первая задача, которую нужно выполнить перед началом проекта, — это очистить и **сбалансировать** данные, чтобы получить более качественные результаты.

Давайте познакомимся с данными!🕵️


In [None]:
# Import data
df <- read_csv(file = "https://raw.githubusercontent.com/microsoft/ML-For-Beginners/main/4-Classification/data/cuisines.csv")

# View the first 5 rows
df %>% 
  slice_head(n = 5)


Интересно! Судя по всему, первый столбец является своего рода столбцом `id`. Давайте узнаем немного больше о данных.


In [None]:
# Basic information about the data
df %>%
  introduce()

# Visualize basic information above
df %>% 
  plot_intro(ggtheme = theme_light())

Из результата видно, что у нас есть `2448` строк, `385` столбцов и `0` пропущенных значений. Также у нас есть 1 дискретный столбец, *cuisine*.

## Упражнение - изучение кухонь

Теперь работа становится более увлекательной. Давайте изучим распределение данных по типам кухни.


In [None]:
# Count observations per cuisine
df %>% 
  count(cuisine) %>% 
  arrange(n)

# Plot the distribution
theme_set(theme_light())
df %>% 
  count(cuisine) %>% 
  ggplot(mapping = aes(x = n, y = reorder(cuisine, -n))) +
  geom_col(fill = "midnightblue", alpha = 0.7) +
  ylab("cuisine")

Существует ограниченное количество кухонь, но распределение данных неравномерное. Вы можете это исправить! Но прежде чем приступить, давайте немного исследуем данные.

Далее, давайте назначим каждую кухню в отдельный tibble и узнаем, сколько данных доступно (строк, столбцов) для каждой кухни.

> [Tibble](https://tibble.tidyverse.org/) — это современный формат датафрейма.

<p >
   <img src="../../images/dplyr_filter.jpg"
   width="600"/>
   <figcaption>Иллюстрация от @allison_horst</figcaption>


In [None]:
# Create individual tibble for the cuisines
thai_df <- df %>% 
  filter(cuisine == "thai")
japanese_df <- df %>% 
  filter(cuisine == "japanese")
chinese_df <- df %>% 
  filter(cuisine == "chinese")
indian_df <- df %>% 
  filter(cuisine == "indian")
korean_df <- df %>% 
  filter(cuisine == "korean")


# Find out how much data is available per cuisine
cat(" thai df:", dim(thai_df), "\n",
    "japanese df:", dim(japanese_df), "\n",
    "chinese_df:", dim(chinese_df), "\n",
    "indian_df:", dim(indian_df), "\n",
    "korean_df:", dim(korean_df))

## **Упражнение - Изучение основных ингредиентов по кухне с использованием dplyr**

Теперь вы можете углубиться в данные и узнать, какие ингредиенты характерны для каждой кухни. Вам нужно будет очистить повторяющиеся данные, которые создают путаницу между кухнями, поэтому давайте разберемся с этой проблемой.

Создайте функцию `create_ingredient()` на R, которая возвращает датафрейм с ингредиентами. Эта функция начнет с удаления ненужного столбца и сортировки ингредиентов по их количеству.

Базовая структура функции в R выглядит так:

`myFunction <- function(arglist){`

**`...`**

**`return`**`(value)`

`}`

Краткое введение в функции R можно найти [здесь](https://skirmer.github.io/presentations/functions_with_r.html#1).

Давайте начнем! Мы будем использовать [глаголы dplyr](https://dplyr.tidyverse.org/), которые мы изучали на предыдущих уроках. Напомним:

-   `dplyr::select()`: помогает выбрать, какие **столбцы** оставить или исключить.

-   `dplyr::pivot_longer()`: помогает "удлинить" данные, увеличивая количество строк и уменьшая количество столбцов.

-   `dplyr::group_by()` и `dplyr::summarise()`: помогают находить сводную статистику для различных групп и представлять ее в удобной таблице.

-   `dplyr::filter()`: создает подмножество данных, содержащее только строки, которые соответствуют вашим условиям.

-   `dplyr::mutate()`: помогает создавать или изменять столбцы.

Ознакомьтесь с этим [*арт*-наполненным учебным пособием learnr](https://allisonhorst.shinyapps.io/dplyr-learnr/#section-welcome) от Эллисон Хорст, которое представляет полезные функции для обработки данных в dplyr *(часть Tidyverse)*.


In [None]:
# Creates a functions that returns the top ingredients by class

create_ingredient <- function(df){
  
  # Drop the id column which is the first colum
  ingredient_df = df %>% select(-1) %>% 
  # Transpose data to a long format
    pivot_longer(!cuisine, names_to = "ingredients", values_to = "count") %>% 
  # Find the top most ingredients for a particular cuisine
    group_by(ingredients) %>% 
    summarise(n_instances = sum(count)) %>% 
    filter(n_instances != 0) %>% 
  # Arrange by descending order
    arrange(desc(n_instances)) %>% 
    mutate(ingredients = factor(ingredients) %>% fct_inorder())
  
  
  return(ingredient_df)
} # End of function

Теперь мы можем использовать функцию, чтобы получить представление о десяти самых популярных ингредиентах по кухне. Давайте протестируем её с `thai_df`.


In [None]:
# Call create_ingredient and display popular ingredients
thai_ingredient_df <- create_ingredient(df = thai_df)

thai_ingredient_df %>% 
  slice_head(n = 10)

В предыдущем разделе мы использовали `geom_col()`, давайте посмотрим, как можно использовать `geom_bar` для создания столбчатых диаграмм. Используйте `?geom_bar` для дополнительного чтения.


In [None]:
# Make a bar chart for popular thai cuisines
thai_ingredient_df %>% 
  slice_head(n = 10) %>% 
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "steelblue") +
  xlab("") + ylab("")

In [None]:
# Get popular ingredients for Japanese cuisines and make bar chart
create_ingredient(df = japanese_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "darkorange", alpha = 0.8) +
  xlab("") + ylab("")


Что насчет китайской кухни?


In [None]:
# Get popular ingredients for Chinese cuisines and make bar chart
create_ingredient(df = chinese_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "cyan4", alpha = 0.8) +
  xlab("") + ylab("")

In [None]:
# Get popular ingredients for Indian cuisines and make bar chart
create_ingredient(df = indian_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "#041E42FF", alpha = 0.8) +
  xlab("") + ylab("")

In [None]:
# Get popular ingredients for Korean cuisines and make bar chart
create_ingredient(df = korean_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "#852419FF", alpha = 0.8) +
  xlab("") + ylab("")

Из визуализаций данных мы теперь можем исключить самые распространенные ингредиенты, которые вызывают путаницу между различными кухнями, используя `dplyr::select()`.

Все обожают рис, чеснок и имбирь!


In [None]:
# Drop id column, rice, garlic and ginger from our original data set
df_select <- df %>% 
  select(-c(1, rice, garlic, ginger))

# Display new data set
df_select %>% 
  slice_head(n = 5)

## Предобработка данных с помощью recipes 👩‍🍳👨‍🍳 - Работа с несбалансированными данными ⚖️

<p >
   <img src="../../images/recipes.png"
   width="600"/>
   <figcaption>Иллюстрация от @allison_horst</figcaption>

Поскольку этот урок посвящен кухням, нам нужно рассмотреть `recipes` в контексте.

Tidymodels предоставляет еще один удобный пакет: `recipes` - пакет для предобработки данных.


Давайте снова посмотрим на распределение наших кухонь.


In [None]:
# Distribution of cuisines
old_label_count <- df_select %>% 
  count(cuisine) %>% 
  arrange(desc(n))

old_label_count

Как видно, количество кухонь распределено довольно неравномерно. Корейских кухонь почти в три раза больше, чем тайских. Несбалансированные данные часто негативно влияют на производительность модели. Представьте себе задачу бинарной классификации. Если большая часть ваших данных относится к одному классу, модель машинного обучения будет чаще предсказывать этот класс просто потому, что для него больше данных. Балансировка данных устраняет перекос и помогает избавиться от этого дисбаланса. Многие модели работают лучше, когда количество наблюдений равно, и, соответственно, испытывают трудности с несбалансированными данными.

Существует два основных способа работы с несбалансированными наборами данных:

-   добавление наблюдений в меньшинство: `Over-sampling`, например, с использованием алгоритма SMOTE

-   удаление наблюдений из большинства: `Under-sampling`

Теперь давайте продемонстрируем, как работать с несбалансированными наборами данных, используя `recipe`. Рецепт можно рассматривать как план, описывающий, какие шаги следует применить к набору данных, чтобы подготовить его к анализу.


In [None]:
# Load themis package for dealing with imbalanced data
library(themis)

# Create a recipe for preprocessing data
cuisines_recipe <- recipe(cuisine ~ ., data = df_select) %>% 
  step_smote(cuisine)

cuisines_recipe

Давайте разберем этапы предварительной обработки данных.

-   Вызов функции `recipe()` с формулой сообщает рецепту *роли* переменных, используя данные `df_select` в качестве ориентира. Например, столбцу `cuisine` присвоена роль `outcome`, а остальным столбцам — роль `predictor`.

-   [`step_smote(cuisine)`](https://themis.tidymodels.org/reference/step_smote.html) создает *спецификацию* шага рецепта, который синтетически генерирует новые примеры для меньшинства класса, используя ближайших соседей этих случаев.

Теперь, если мы захотим увидеть предварительно обработанные данные, нам нужно [**`prep()`**](https://recipes.tidymodels.org/reference/prep.html) и [**`bake()`**](https://recipes.tidymodels.org/reference/bake.html) наш рецепт.

`prep()`: оценивает необходимые параметры на тренировочном наборе данных, которые затем могут быть применены к другим наборам данных.

`bake()`: берет подготовленный рецепт и применяет операции к любому набору данных.


In [None]:
# Prep and bake the recipe
preprocessed_df <- cuisines_recipe %>% 
  prep() %>% 
  bake(new_data = NULL) %>% 
  relocate(cuisine)

# Display data
preprocessed_df %>% 
  slice_head(n = 5)

# Quick summary stats
preprocessed_df %>% 
  introduce()

Давайте теперь проверим распределение наших кухонь и сравним их с несбалансированными данными.


In [None]:
# Distribution of cuisines
new_label_count <- preprocessed_df %>% 
  count(cuisine) %>% 
  arrange(desc(n))

list(new_label_count = new_label_count,
     old_label_count = old_label_count)

Ммм! Данные чистые, сбалансированные и очень аппетитные 😋!

> Обычно рецепт используется как препроцессор для моделирования, где он определяет, какие шаги нужно применить к набору данных, чтобы подготовить его для моделирования. В таком случае обычно используется `workflow()` (как мы уже видели на предыдущих уроках) вместо того, чтобы вручную оценивать рецепт.
>
> Таким образом, вам обычно не нужно использовать **`prep()`** и **`bake()`** для рецептов при работе с tidymodels, но это полезные функции, которые стоит иметь в своем арсенале, чтобы убедиться, что рецепты работают так, как вы ожидаете, как в нашем случае.
>
> Когда вы используете **`bake()`** для подготовленного рецепта с параметром **`new_data = NULL`**, вы получаете обратно данные, которые вы предоставили при определении рецепта, но уже прошедшие шаги предварительной обработки.

Теперь давайте сохраним копию этих данных для использования на будущих уроках:


In [None]:
# Save preprocessed data
write_csv(preprocessed_df, "../../../data/cleaned_cuisines_R.csv")

Этот свежий CSV теперь находится в корневой папке данных.

**🚀Задача**

Эта учебная программа содержит несколько интересных наборов данных. Исследуйте папки `data` и посмотрите, содержат ли они наборы данных, подходящие для бинарной или многоклассовой классификации? Какие вопросы вы могли бы задать к этому набору данных?

## [**Тест после лекции**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/20/)

## **Обзор и самостоятельное изучение**

-   Ознакомьтесь с [пакетом themis](https://github.com/tidymodels/themis). Какие еще методы можно использовать для работы с несбалансированными данными?

-   Сайт с [справочной информацией о Tidy models](https://www.tidymodels.org/start/).

-   Х. Уикхэм и Г. Гролемунд, [*R для анализа данных: визуализация, моделирование, преобразование, упорядочивание и импорт данных*](https://r4ds.had.co.nz/).

#### СПАСИБО:

[`Эллисон Хорст`](https://twitter.com/allison_horst/) за создание удивительных иллюстраций, которые делают R более доступным и увлекательным. Найдите больше иллюстраций в ее [галерее](https://www.google.com/url?q=https://github.com/allisonhorst/stats-illustrations&sa=D&source=editors&ust=1626380772530000&usg=AOvVaw3zcfyCizFQZpkSLzxiiQEM).

[Кэсси Бревью](https://www.twitter.com/cassieview) и [Джен Лупер](https://www.twitter.com/jenlooper) за создание оригинальной версии этого модуля на Python ♥️

<p >
   <img src="../../images/r_learners_sm.jpeg"
   width="600"/>
   <figcaption>Иллюстрация от @allison_horst</figcaption>



---

**Отказ от ответственности**:  
Этот документ был переведен с помощью сервиса автоматического перевода [Co-op Translator](https://github.com/Azure/co-op-translator). Несмотря на наши усилия по обеспечению точности, автоматические переводы могут содержать ошибки или неточности. Оригинальный документ на его родном языке следует считать авторитетным источником. Для получения критически важной информации рекомендуется профессиональный перевод человеком. Мы не несем ответственности за любые недоразумения или неправильные интерпретации, возникающие в результате использования данного перевода.
