## Побудова моделі логістичної регресії - Урок 4

![Інфографіка: логістична vs. лінійна регресія](../../../../../../2-Regression/4-Logistic/images/linear-vs-logistic.png)

#### **[Тест перед лекцією](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/15/)**

#### Вступ

У цьому останньому уроці про регресію, одну з базових *класичних* технік машинного навчання, ми розглянемо логістичну регресію. Цю техніку використовують для виявлення закономірностей з метою прогнозування бінарних категорій. Це цукерка з шоколадом чи ні? Це захворювання заразне чи ні? Чи обере цей клієнт продукт чи ні?

У цьому уроці ви дізнаєтесь:

-   Техніки логістичної регресії

✅ Поглибте своє розуміння роботи з цим типом регресії у цьому [модулі навчання](https://learn.microsoft.com/training/modules/introduction-classification-models/?WT.mc_id=academic-77952-leestott)

## Передумови

Працюючи з даними про гарбузи, ми вже достатньо знайомі з ними, щоб зрозуміти, що є одна бінарна категорія, з якою ми можемо працювати: `Color`.

Давайте побудуємо модель логістичної регресії, щоб передбачити, враховуючи деякі змінні, *який колір, ймовірно, матиме даний гарбуз* (помаранчевий 🎃 чи білий 👻).

> Чому ми говоримо про бінарну класифікацію в уроці, присвяченому регресії? Лише для мовного зручності, оскільки логістична регресія [насправді є методом класифікації](https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression), хоча й базується на лінійних принципах. Дізнайтеся про інші способи класифікації даних у наступній групі уроків.

Для цього уроку нам знадобляться наступні пакети:

-   `tidyverse`: [tidyverse](https://www.tidyverse.org/) — це [колекція пакетів для R](https://www.tidyverse.org/packages), створена для того, щоб зробити роботу з даними швидшою, простішою та цікавішою!

-   `tidymodels`: [tidymodels](https://www.tidymodels.org/) — це [фреймворк пакетів](https://www.tidymodels.org/packages/) для моделювання та машинного навчання.

-   `janitor`: [Пакет janitor](https://github.com/sfirke/janitor) надає прості інструменти для аналізу та очищення "брудних" даних.

-   `ggbeeswarm`: [Пакет ggbeeswarm](https://github.com/eclarke/ggbeeswarm) пропонує методи для створення графіків у стилі "бджолиного рою" за допомогою ggplot2.

Ви можете встановити їх за допомогою:

`install.packages(c("tidyverse", "tidymodels", "janitor", "ggbeeswarm"))`

Або ж скрипт нижче перевірить, чи є у вас необхідні пакети для виконання цього модуля, і встановить їх, якщо вони відсутні.


In [None]:
suppressWarnings(if (!require("pacman"))install.packages("pacman"))

pacman::p_load(tidyverse, tidymodels, janitor, ggbeeswarm)


## **Визначення питання**

Для наших цілей ми будемо виражати це як бінарне: 'Білий' або 'Не білий'. У нашому наборі даних також є категорія 'смугастий', але випадків її використання дуже мало, тому ми не будемо її враховувати. Вона зникає, як тільки ми видаляємо null-значення з набору даних.

> 🎃 Цікавий факт: ми іноді називаємо білі гарбузи 'гарбузами-привидами'. Їх не дуже легко вирізати, тому вони не такі популярні, як помаранчеві, але виглядають круто! Тож ми також могли б переформулювати наше питання як: 'Привид' або 'Не привид'. 👻

## **Про логістичну регресію**

Логістична регресія відрізняється від лінійної регресії, про яку ви дізналися раніше, кількома важливими аспектами.

#### **Бінарна класифікація**

Логістична регресія не пропонує ті ж функції, що й лінійна регресія. Перша дає прогноз щодо `бінарної категорії` ("помаранчевий чи не помаранчевий"), тоді як друга здатна прогнозувати `безперервні значення`, наприклад, враховуючи походження гарбуза та час збору врожаю, *наскільки зросте його ціна*.

![Інфографіка від Dasani Madipalli](../../../../../../2-Regression/4-Logistic/images/pumpkin-classifier.png)

### Інші класифікації

Існують інші типи логістичної регресії, включаючи мультиноміальну та порядкову:

- **Мультиноміальна**, яка передбачає наявність більше ніж однієї категорії - "Помаранчевий, Білий і Смугастий".

- **Порядкова**, яка передбачає впорядковані категорії, корисна, якщо ми хочемо впорядкувати наші результати логічно, наприклад, наші гарбузи, які впорядковані за обмеженою кількістю розмірів (mini, sm, med, lg, xl, xxl).

![Мультиноміальна vs порядкова регресія](../../../../../../2-Regression/4-Logistic/images/multinomial-vs-ordinal.png)

#### **Змінні НЕ повинні корелювати**

Пам'ятаєте, як лінійна регресія працювала краще з більш корельованими змінними? Логістична регресія — це протилежність: змінні не обов'язково мають бути узгодженими. Це підходить для цього набору даних, у якому кореляції досить слабкі.

#### **Потрібно багато чистих даних**

Логістична регресія дасть більш точні результати, якщо використовувати більше даних; наш невеликий набір даних не є оптимальним для цього завдання, тому майте це на увазі.

✅ Подумайте про типи даних, які добре підходять для логістичної регресії.

## Вправа - впорядкування даних

Спочатку трохи очистіть дані, видаливши null-значення та вибравши лише деякі з колонок:

1. Додайте наступний код:


In [None]:
# Load the core tidyverse packages
library(tidyverse)

# Import the data and clean column names
pumpkins <- read_csv(file = "https://raw.githubusercontent.com/microsoft/ML-For-Beginners/main/2-Regression/data/US-pumpkins.csv") %>% 
  clean_names()

# Select desired columns
pumpkins_select <- pumpkins %>% 
  select(c(city_name, package, variety, origin, item_size, color)) 

# Drop rows containing missing values and encode color as factor (category)
pumpkins_select <- pumpkins_select %>% 
  drop_na() %>% 
  mutate(color = factor(color))

# View the first few rows
pumpkins_select %>% 
  slice_head(n = 5)


Ви завжди можете переглянути ваш новий датафрейм, використовуючи функцію [*glimpse()*](https://pillar.r-lib.org/reference/glimpse.html), як показано нижче:


In [None]:
pumpkins_select %>% 
  glimpse()


Давайте підтвердимо, що ми дійсно будемо вирішувати задачу бінарної класифікації:


In [None]:
# Subset distinct observations in outcome column
pumpkins_select %>% 
  distinct(color)


### Візуалізація - категоріальний графік
На даний момент ви знову завантажили дані про гарбузи та очистили їх, щоб зберегти набір даних, який містить кілька змінних, включаючи Color. Давайте візуалізуємо цей датафрейм у блокноті за допомогою бібліотеки ggplot.

Бібліотека ggplot пропонує зручні способи візуалізації ваших даних. Наприклад, ви можете порівняти розподіли даних для кожного Variety і Color у категоріальному графіку.

1. Створіть такий графік, використовуючи функцію geombar, наші дані про гарбузи, і задайте кольорове відображення для кожної категорії гарбузів (помаранчевий або білий):


In [None]:
# Specify colors for each value of the hue variable
palette <- c(ORANGE = "orange", WHITE = "wheat")

# Create the bar plot
ggplot(pumpkins_select, aes(y = variety, fill = color)) +
  geom_bar(position = "dodge") +
  scale_fill_manual(values = palette) +
  labs(y = "Variety", fill = "Color") +
  theme_minimal()

Спостерігаючи за даними, можна побачити, як дані про Колір пов'язані з Різновидом.

✅ Враховуючи цей категоріальний графік, які цікаві дослідження ви можете уявити?


### Попередня обробка даних: кодування ознак

Наш набір даних про гарбузи містить текстові значення у всіх своїх стовпцях. Робота з категоріальними даними є інтуїтивно зрозумілою для людей, але не для машин. Алгоритми машинного навчання добре працюють із числовими даними. Саме тому кодування є дуже важливим етапом у фазі попередньої обробки даних, оскільки воно дозволяє перетворити категоріальні дані на числові, не втрачаючи жодної інформації. Якісне кодування сприяє створенню якісної моделі.

Для кодування ознак існує два основних типи кодерів:

1. Ординальний кодер: добре підходить для ординальних змінних, які є категоріальними змінними, де їхні дані мають логічний порядок, як, наприклад, стовпець `item_size` у нашому наборі даних. Він створює відображення, де кожна категорія представлена числом, яке відповідає порядку категорії у стовпці.

2. Категоріальний кодер: добре підходить для номінальних змінних, які є категоріальними змінними, де їхні дані не мають логічного порядку, як усі ознаки, окрім `item_size`, у нашому наборі даних. Це кодування "один із багатьох" (one-hot encoding), що означає, що кожна категорія представлена окремим бінарним стовпцем: закодована змінна дорівнює 1, якщо гарбуз належить до цієї категорії, і 0 — в іншому випадку.

Tidymodels пропонує ще один зручний пакет: [recipes](https://recipes.tidymodels.org/) — пакет для попередньої обробки даних. Ми визначимо `recipe`, який вказує, що всі стовпці предикторів мають бути закодовані у набір цілих чисел, `prep` для оцінки необхідних кількостей і статистичних даних, потрібних для будь-яких операцій, і, нарешті, `bake`, щоб застосувати обчислення до нових даних.

> Зазвичай recipes використовується як попередній процесор для моделювання, де він визначає, які кроки слід застосувати до набору даних, щоб підготувати його до моделювання. У цьому випадку **дуже рекомендується** використовувати `workflow()` замість ручного оцінювання рецепту за допомогою prep і bake. Ми розглянемо це трохи згодом.
>
> Однак наразі ми використовуємо recipes + prep + bake, щоб визначити, які кроки слід застосувати до набору даних, щоб підготувати його до аналізу даних, а потім витягнути попередньо оброблені дані з застосованими кроками.


In [None]:
# Preprocess and extract data to allow some data analysis
baked_pumpkins <- recipe(color ~ ., data = pumpkins_select) %>%
  # Define ordering for item_size column
  step_mutate(item_size = ordered(item_size, levels = c('sml', 'med', 'med-lge', 'lge', 'xlge', 'jbo', 'exjbo'))) %>%
  # Convert factors to numbers using the order defined above (Ordinal encoding)
  step_integer(item_size, zero_based = F) %>%
  # Encode all other predictors using one hot encoding
  step_dummy(all_nominal(), -all_outcomes(), one_hot = TRUE) %>%
  prep(data = pumpkin_select) %>%
  bake(new_data = NULL)

# Display the first few rows of preprocessed data
baked_pumpkins %>% 
  slice_head(n = 5)


✅ Які переваги використання порядкового кодувальника для стовпця Item Size?

### Аналіз взаємозв'язків між змінними

Тепер, коли ми попередньо обробили наші дані, можемо проаналізувати взаємозв'язки між ознаками та міткою, щоб зрозуміти, наскільки добре модель зможе передбачати мітку на основі ознак. Найкращий спосіб виконати такий аналіз — це візуалізація даних.  
Ми знову будемо використовувати функцію ggplot geom_boxplot_, щоб візуалізувати взаємозв'язки між Item Size, Variety і Color у категоріальному графіку. Для кращої візуалізації даних ми будемо використовувати закодований стовпець Item Size і некодований стовпець Variety.


In [None]:
# Define the color palette
palette <- c(ORANGE = "orange", WHITE = "wheat")

# We need the encoded Item Size column to use it as the x-axis values in the plot
pumpkins_select_plot<-pumpkins_select
pumpkins_select_plot$item_size <- baked_pumpkins$item_size

# Create the grouped box plot
ggplot(pumpkins_select_plot, aes(x = `item_size`, y = color, fill = color)) +
  geom_boxplot() +
  facet_grid(variety ~ ., scales = "free_x") +
  scale_fill_manual(values = palette) +
  labs(x = "Item Size", y = "") +
  theme_minimal() +
  theme(strip.text = element_text(size = 12)) +
  theme(axis.text.x = element_text(size = 10)) +
  theme(axis.title.x = element_text(size = 12)) +
  theme(axis.title.y = element_blank()) +
  theme(legend.position = "bottom") +
  guides(fill = guide_legend(title = "Color")) +
  theme(panel.spacing = unit(0.5, "lines"))+
  theme(strip.text.y = element_text(size = 4, hjust = 0)) 


#### Використання swarm plot

Оскільки Color є бінарною категорією (Білий або Ні), для її візуалізації потрібен '[спеціалізований підхід](https://github.com/rstudio/cheatsheets/blob/main/data-visualization.pdf)'.

Спробуйте `swarm plot`, щоб показати розподіл кольору відносно item_size.

Ми використаємо [пакет ggbeeswarm](https://github.com/eclarke/ggbeeswarm), який надає методи для створення графіків у стилі beeswarm за допомогою ggplot2. Beeswarm-графіки дозволяють розташовувати точки, які зазвичай накладаються одна на одну, так, щоб вони розміщувалися поруч.


In [None]:
# Create beeswarm plots of color and item_size
baked_pumpkins %>% 
  mutate(color = factor(color)) %>% 
  ggplot(mapping = aes(x = color, y = item_size, color = color)) +
  geom_quasirandom() +
  scale_color_brewer(palette = "Dark2", direction = -1) +
  theme(legend.position = "none")


Тепер, коли ми маємо уявлення про зв'язок між бінарними категоріями кольору та більшою групою розмірів, давайте розглянемо логістичну регресію, щоб визначити ймовірний колір гарбуза.

## Створіть свою модель

Виберіть змінні, які ви хочете використовувати у своїй класифікаційній моделі, і розділіть дані на навчальний та тестовий набори. [rsample](https://rsample.tidymodels.org/), пакет у Tidymodels, забезпечує інфраструктуру для ефективного розподілу даних та повторного вибіркового аналізу:


In [None]:
# Split data into 80% for training and 20% for testing
set.seed(2056)
pumpkins_split <- pumpkins_select %>% 
  initial_split(prop = 0.8)

# Extract the data in each split
pumpkins_train <- training(pumpkins_split)
pumpkins_test <- testing(pumpkins_split)

# Print out the first 5 rows of the training set
pumpkins_train %>% 
  slice_head(n = 5)


🙌 Ми готові навчати модель, підбираючи навчальні ознаки до навчальної мітки (колір).

Почнемо з створення рецепту, який визначає кроки попередньої обробки даних, щоб підготувати їх до моделювання, тобто: кодування категоріальних змінних у набір цілих чисел. Так само, як `baked_pumpkins`, ми створюємо `pumpkins_recipe`, але не використовуємо `prep` і `bake`, оскільки це буде включено в робочий процес, який ви побачите через кілька кроків.

Існує досить багато способів визначити модель логістичної регресії в Tidymodels. Дивіться `?logistic_reg()`. На даний момент ми визначимо модель логістичної регресії через стандартний двигун `stats::glm()`.


In [None]:
# Create a recipe that specifies preprocessing steps for modelling
pumpkins_recipe <- recipe(color ~ ., data = pumpkins_train) %>% 
  step_mutate(item_size = ordered(item_size, levels = c('sml', 'med', 'med-lge', 'lge', 'xlge', 'jbo', 'exjbo'))) %>%
  step_integer(item_size, zero_based = F) %>%  
  step_dummy(all_nominal(), -all_outcomes(), one_hot = TRUE)

# Create a logistic model specification
log_reg <- logistic_reg() %>% 
  set_engine("glm") %>% 
  set_mode("classification")


Тепер, коли у нас є рецепт і специфікація моделі, потрібно знайти спосіб об'єднати їх в один об'єкт, який спочатку буде попередньо обробляти дані (підготовка + обробка за лаштунками), навчати модель на попередньо оброблених даних, а також дозволить виконувати потенційні дії з постобробки.

У Tidymodels цей зручний об'єкт називається [`workflow`](https://workflows.tidymodels.org/) і зручно зберігає ваші компоненти моделювання.


In [None]:
# Bundle modelling components in a workflow
log_reg_wf <- workflow() %>% 
  add_recipe(pumpkins_recipe) %>% 
  add_model(log_reg)

# Print out the workflow
log_reg_wf


Після того, як робочий процес *визначено*, модель можна `навчити` за допомогою функції [`fit()`](https://tidymodels.github.io/parsnip/reference/fit.html). Робочий процес оцінить рецепт і попередньо обробить дані перед навчанням, тому нам не доведеться робити це вручну за допомогою prep і bake.


In [None]:
# Train the model
wf_fit <- log_reg_wf %>% 
  fit(data = pumpkins_train)

# Print the trained workflow
wf_fit


Модель виводить коефіцієнти, отримані під час навчання.

Тепер, коли ми навчили модель на навчальних даних, можемо робити прогнози на тестових даних, використовуючи [parsnip::predict()](https://parsnip.tidymodels.org/reference/predict.model_fit.html). Давайте почнемо з використання моделі для прогнозування міток для нашого тестового набору та ймовірностей для кожної мітки. Якщо ймовірність перевищує 0.5, передбачений клас — `WHITE`, інакше — `ORANGE`.


In [None]:
# Make predictions for color and corresponding probabilities
results <- pumpkins_test %>% select(color) %>% 
  bind_cols(wf_fit %>% 
              predict(new_data = pumpkins_test)) %>%
  bind_cols(wf_fit %>%
              predict(new_data = pumpkins_test, type = "prob"))

# Compare predictions
results %>% 
  slice_head(n = 10)


Дуже добре! Це дає більше розуміння того, як працює логістична регресія.

### Краще розуміння через матрицю плутанини

Порівнювати кожне передбачення з відповідним "еталонним" фактичним значенням — не дуже ефективний спосіб визначити, наскільки добре модель робить прогнози. На щастя, Tidymodels має ще кілька хитрощів у своєму арсеналі: [`yardstick`](https://yardstick.tidymodels.org/) — пакет, який використовується для оцінки ефективності моделей за допомогою метрик продуктивності.

Однією з метрик продуктивності, пов’язаних із задачами класифікації, є [`матриця плутанини`](https://wikipedia.org/wiki/Confusion_matrix). Матриця плутанини описує, наскільки добре працює модель класифікації. Вона показує, скільки прикладів у кожному класі були правильно класифіковані моделлю. У нашому випадку вона покаже, скільки помаранчевих гарбузів були класифіковані як помаранчеві, а скільки білих гарбузів — як білі; матриця плутанини також покаже, скільки з них були класифіковані у **неправильні** категорії.

Функція [**`conf_mat()`**](https://tidymodels.github.io/yardstick/reference/conf_mat.html) з пакету yardstick обчислює цю крос-табуляцію спостережуваних і передбачених класів.


In [None]:
# Confusion matrix for prediction results
conf_mat(data = results, truth = color, estimate = .pred_class)


Давайте розглянемо матрицю плутанини. Нашу модель просять класифікувати гарбузи між двома бінарними категоріями: категорія `білий` і категорія `не-білий`.

-   Якщо ваша модель прогнозує гарбуз як білий, і він насправді належить до категорії "білий", ми називаємо це `істинно позитивним`, що показано у верхньому лівому куті.

-   Якщо ваша модель прогнозує гарбуз як не білий, і він насправді належить до категорії "білий", ми називаємо це `хибно негативним`, що показано у нижньому лівому куті.

-   Якщо ваша модель прогнозує гарбуз як білий, і він насправді належить до категорії "не-білий", ми називаємо це `хибно позитивним`, що показано у верхньому правому куті.

-   Якщо ваша модель прогнозує гарбуз як не білий, і він насправді належить до категорії "не-білий", ми називаємо це `істинно негативним`, що показано у нижньому правому куті.

| Реальність |
|:----------:|

|               |        |       |
|---------------|--------|-------|
| **Прогноз**   | БІЛИЙ | ПОМАРАНЧЕВИЙ |
| БІЛИЙ         | TP     | FP    |
| ПОМАРАНЧЕВИЙ  | FN     | TN    |

Як ви могли здогадатися, бажано мати більше істинно позитивних і істинно негативних результатів, а також менше хибно позитивних і хибно негативних результатів, що свідчить про кращу роботу моделі.

Матриця плутанини є корисною, оскільки вона дозволяє обчислювати інші метрики, які допомагають краще оцінити продуктивність моделі класифікації. Давайте розглянемо деякі з них:

🎓 Точність (Precision): `TP/(TP + FP)` визначається як частка передбачених позитивних результатів, які насправді є позитивними. Також називається [позитивною прогностичною цінністю](https://en.wikipedia.org/wiki/Positive_predictive_value "Positive predictive value").

🎓 Повнота (Recall): `TP/(TP + FN)` визначається як частка позитивних результатів серед кількості зразків, які насправді є позитивними. Також відома як `чутливість`.

🎓 Специфічність (Specificity): `TN/(TN + FP)` визначається як частка негативних результатів серед кількості зразків, які насправді є негативними.

🎓 Точність класифікації (Accuracy): `TP + TN/(TP + TN + FP + FN)` Відсоток міток, які були правильно передбачені для зразка.

🎓 F-міра (F Measure): Зважене середнє між точністю та повнотою, де найкраще значення — 1, а найгірше — 0.

Давайте обчислимо ці метрики!


In [None]:
# Combine metric functions and calculate them all at once
eval_metrics <- metric_set(ppv, recall, spec, f_meas, accuracy)
eval_metrics(data = results, truth = color, estimate = .pred_class)


## Візуалізація ROC-кривої цієї моделі

Давайте зробимо ще одну візуалізацію, щоб побачити так звану [`ROC-криву`](https://en.wikipedia.org/wiki/Receiver_operating_characteristic):


In [None]:
# Make a roc_curve
results %>% 
  roc_curve(color, .pred_ORANGE) %>% 
  autoplot()


Криві ROC часто використовуються для оцінки роботи класифікатора в термінах його істинно позитивних та хибно позитивних результатів. Криві ROC зазвичай мають `True Positive Rate`/Чутливість на осі Y та `False Positive Rate`/1-Специфічність на осі X. Таким чином, важливими є крутизна кривої та простір між діагоналлю і самою кривою: бажано, щоб крива швидко піднімалася вгору і відходила від діагоналі. У нашому випадку спочатку є хибно позитивні результати, а потім крива правильно піднімається вгору.

Нарешті, давайте використаємо `yardstick::roc_auc()`, щоб обчислити фактичну площу під кривою (AUC). Один зі способів інтерпретації AUC — це ймовірність того, що модель оцінить випадковий позитивний приклад вище, ніж випадковий негативний приклад.


In [None]:
# Calculate area under curve
results %>% 
  roc_auc(color, .pred_ORANGE)


Результат становить приблизно `0.975`. Оскільки AUC варіюється від 0 до 1, вам потрібен високий показник, адже модель, яка на 100% правильна у своїх прогнозах, матиме AUC, рівний 1; у цьому випадку модель є *доволі хорошою*.

У майбутніх уроках про класифікацію ви дізнаєтеся, як покращити показники вашої моделі (наприклад, як працювати з незбалансованими даними у цьому випадку).

## 🚀Виклик

Є багато аспектів, які варто дослідити щодо логістичної регресії! Але найкращий спосіб навчитися — це експериментувати. Знайдіть набір даних, який підходить для такого типу аналізу, і побудуйте модель на його основі. Що ви дізналися? підказка: спробуйте [Kaggle](https://www.kaggle.com/search?q=logistic+regression+datasets) для цікавих наборів даних.

## Огляд та самостійне навчання

Прочитайте перші кілька сторінок [цієї статті зі Стенфорда](https://web.stanford.edu/~jurafsky/slp3/5.pdf) про практичне використання логістичної регресії. Поміркуйте над завданнями, які краще підходять для одного чи іншого типу регресії, які ми вивчали до цього моменту. Що працюватиме найкраще?



---

**Відмова від відповідальності**:  
Цей документ був перекладений за допомогою сервісу автоматичного перекладу [Co-op Translator](https://github.com/Azure/co-op-translator). Хоча ми прагнемо до точності, будь ласка, майте на увазі, що автоматичні переклади можуть містити помилки або неточності. Оригінальний документ на його рідній мові слід вважати авторитетним джерелом. Для критичної інформації рекомендується професійний людський переклад. Ми не несемо відповідальності за будь-які непорозуміння або неправильні тлумачення, що виникають у результаті використання цього перекладу.
