## Вступ до регресії - Урок 1

#### Погляд у перспективу

✅ Існує багато типів методів регресії, і вибір залежить від того, яку відповідь ви шукаєте. Якщо ви хочете передбачити ймовірний зріст людини певного віку, вам слід використовувати `лінійну регресію`, оскільки ви шукаєте **числове значення**. Якщо ж вас цікавить визначення, чи слід вважати певну кухню веганською чи ні, ви шукаєте **категоризацію**, тому вам підійде `логістична регресія`. Ви дізнаєтеся більше про логістичну регресію пізніше. Подумайте трохи про запитання, які можна поставити до даних, і який із цих методів буде більш доречним.

У цьому розділі ви працюватимете з [невеликим набором даних про діабет](https://www4.stat.ncsu.edu/~boos/var.select/diabetes.html). Уявіть, що ви хочете протестувати лікування для пацієнтів із діабетом. Моделі машинного навчання можуть допомогти визначити, які пацієнти краще реагуватимуть на лікування, виходячи з комбінацій змінних. Навіть дуже базова модель регресії, якщо її візуалізувати, може показати інформацію про змінні, яка допоможе вам організувати теоретичні клінічні випробування.

Отже, почнемо виконувати це завдання!

<p >
   <img src="../../images/encouRage.jpg"
   width="630"/>
   <figcaption>Ілюстрація від @allison_horst</figcaption>

<!--![Ілюстрація від \@allison_horst](../../../../../../2-Regression/1-Tools/images/encouRage.jpg)<br>Ілюстрація від @allison_horst-->


## 1. Завантаження нашого інструментарію

Для цього завдання нам знадобляться наступні пакети:

-   `tidyverse`: [tidyverse](https://www.tidyverse.org/) — це [колекція пакетів для R](https://www.tidyverse.org/packages), створена для того, щоб зробити роботу з даними швидшою, простішою та цікавішою!

-   `tidymodels`: [tidymodels](https://www.tidymodels.org/) — це [фреймворк з колекцією пакетів](https://www.tidymodels.org/packages/) для моделювання та машинного навчання.

Ви можете встановити їх за допомогою команди:

`install.packages(c("tidyverse", "tidymodels"))`

Скрипт нижче перевіряє, чи встановлені у вас необхідні пакети для виконання цього модуля, і встановлює їх, якщо якихось не вистачає.


In [2]:
suppressWarnings(if(!require("pacman")) install.packages("pacman"))
pacman::p_load(tidyverse, tidymodels)

Loading required package: pacman



Тепер завантажимо ці чудові пакети та зробимо їх доступними в нашій поточній R-сесії. (Це лише для ілюстрації, `pacman::p_load()` вже зробив це за вас)


In [None]:
# load the core Tidyverse packages
library(tidyverse)

# load the core Tidymodels packages
library(tidymodels)


## 2. Набір даних про діабет

У цьому завданні ми продемонструємо наші навички регресії, роблячи прогнози на основі набору даних про діабет. [Набір даних про діабет](https://www4.stat.ncsu.edu/~boos/var.select/diabetes.rwrite1.txt) містить `442 зразки` даних, пов'язаних із діабетом, з 10 предикторними змінними: `вік`, `стать`, `індекс маси тіла`, `середній артеріальний тиск` і `шість вимірювань сироватки крові`, а також змінну результату `y`: кількісну оцінку прогресування хвороби через рік після початкового обстеження.

|Кількість спостережень|442|
|----------------------|:---|
|Кількість предикторів|Перші 10 стовпців є числовими предикторами|
|Результат/Ціль|Стовпець 11 є кількісною оцінкою прогресування хвороби через рік після початкового обстеження|
|Інформація про предиктори|- вік у роках
||- стать
||- bmi індекс маси тіла
||- bp середній артеріальний тиск
||- s1 tc, загальний холестерин у сироватці крові
||- s2 ldl, ліпопротеїни низької щільності
||- s3 hdl, ліпопротеїни високої щільності
||- s4 tch, співвідношення загального холестерину до HDL
||- s5 ltg, можливо, логарифм рівня тригліцеридів у сироватці
||- s6 glu, рівень цукру в крові|




> 🎓 Пам’ятайте, це навчання з учителем, і нам потрібна цільова змінна 'y'.

Перш ніж ви зможете працювати з даними в R, потрібно імпортувати дані в пам’ять R або створити підключення до даних, яке R зможе використовувати для віддаленого доступу до них.

> Пакет [readr](https://readr.tidyverse.org/), який є частиною Tidyverse, забезпечує швидкий і зручний спосіб зчитування прямокутних даних у R.

Тепер завантажимо набір даних про діабет із цього URL-адреси: <https://www4.stat.ncsu.edu/~boos/var.select/diabetes.html>

Також ми виконаємо перевірку даних за допомогою `glimpse()` і відобразимо перші 5 рядків за допомогою `slice()`.

Перш ніж рухатися далі, давайте також познайомимося з чимось, що ви часто зустрічатимете в коді R 🥁🥁: оператор pipe `%>%`

Оператор pipe (`%>%`) виконує операції в логічній послідовності, передаючи об’єкт у функцію або вираз. Ви можете уявити оператор pipe як "а потім" у вашому коді.


In [None]:
# Import the data set
diabetes <- read_table2(file = "https://www4.stat.ncsu.edu/~boos/var.select/diabetes.rwrite1.txt")


# Get a glimpse and dimensions of the data
glimpse(diabetes)


# Select the first 5 rows of the data
diabetes %>% 
  slice(1:5)

`glimpse()` показує нам, що цей набір даних має 442 рядки та 11 стовпців, причому всі стовпці мають тип даних `double`.

<br>

> `glimpse()` і `slice()` — це функції з пакету [`dplyr`](https://dplyr.tidyverse.org/). Dplyr, який є частиною Tidyverse, — це граматика маніпуляції даними, що забезпечує узгоджений набір дієслів, які допомагають вирішувати найпоширеніші завдання з обробки даних.

<br>

Тепер, коли ми маємо дані, давайте зосередимося на одній ознаці (`bmi`) для цієї вправи. Для цього нам потрібно вибрати потрібні стовпці. Як це зробити?

[`dplyr::select()`](https://dplyr.tidyverse.org/reference/select.html) дозволяє нам *вибирати* (і за бажанням перейменовувати) стовпці в датафреймі.


In [None]:
# Select predictor feature `bmi` and outcome `y`
diabetes_select <- diabetes %>% 
  select(c(bmi, y))

# Print the first 5 rows
diabetes_select %>% 
  slice(1:10)

## 3. Навчальні та тестові дані

У контрольованому навчанні зазвичай прийнято *розділяти* дані на два підмножини: (зазвичай більший) набір для навчання моделі та менший "резервний" набір, щоб оцінити, як модель впоралася.

Тепер, коли наші дані готові, ми можемо перевірити, чи може машина допомогти визначити логічний розподіл чисел у цьому наборі даних. Ми можемо використати пакет [rsample](https://tidymodels.github.io/rsample/), який є частиною фреймворку Tidymodels, щоб створити об'єкт, що містить інформацію про *те, як* розділити дані, а потім ще дві функції rsample, щоб отримати створені навчальні та тестові набори:


In [None]:
set.seed(2056)
# Split 67% of the data for training and the rest for tesing
diabetes_split <- diabetes_select %>% 
  initial_split(prop = 0.67)

# Extract the resulting train and test sets
diabetes_train <- training(diabetes_split)
diabetes_test <- testing(diabetes_split)

# Print the first 3 rows of the training set
diabetes_train %>% 
  slice(1:10)

## 4. Навчання моделі лінійної регресії за допомогою Tidymodels

Тепер ми готові навчати нашу модель!

У Tidymodels моделі задаються за допомогою `parsnip()` через визначення трьох концепцій:

-   **Тип моделі** розрізняє моделі, такі як лінійна регресія, логістична регресія, моделі дерев рішень тощо.

-   **Режим моделі** включає поширені варіанти, такі як регресія та класифікація; деякі типи моделей підтримують обидва режими, а деякі мають лише один.

-   **Двигун моделі** — це обчислювальний інструмент, який буде використовуватися для навчання моделі. Зазвичай це пакети R, такі як **`"lm"`** або **`"ranger"`**.

Ця інформація про моделювання зберігається у специфікації моделі, тож давайте створимо її!


In [None]:
# Build a linear model specification
lm_spec <- 
  # Type
  linear_reg() %>% 
  # Engine
  set_engine("lm") %>% 
  # Mode
  set_mode("regression")


# Print the model specification
lm_spec

Після того, як модель була *визначена*, її можна `оцінити` або `навчити` за допомогою функції [`fit()`](https://parsnip.tidymodels.org/reference/fit.html), зазвичай використовуючи формулу та деякі дані.

`y ~ .` означає, що ми будемо підбирати `y` як прогнозовану величину/ціль, пояснену всіма предикторами/фічами, тобто `.` (у цьому випадку у нас є лише один предиктор: `bmi`).


In [None]:
# Build a linear model specification
lm_spec <- linear_reg() %>% 
  set_engine("lm") %>%
  set_mode("regression")


# Train a linear regression model
lm_mod <- lm_spec %>% 
  fit(y ~ ., data = diabetes_train)

# Print the model
lm_mod

З моделі, що була створена, ми можемо побачити коефіцієнти, отримані під час навчання. Вони представляють коефіцієнти лінії найкращого наближення, яка забезпечує найменшу загальну похибку між фактичними та передбаченими значеннями змінної.
<br>

## 5. Зробіть прогнози на тестовому наборі даних

Тепер, коли ми навчили модель, ми можемо використати її для прогнозування прогресування хвороби y для тестового набору даних за допомогою [parsnip::predict()](https://parsnip.tidymodels.org/reference/predict.model_fit.html). Це буде використано для побудови лінії між групами даних.


In [None]:
# Make predictions for the test set
predictions <- lm_mod %>% 
  predict(new_data = diabetes_test)

# Print out some of the predictions
predictions %>% 
  slice(1:5)

Ура! 💃🕺 Ми щойно натренували модель і використали її для створення прогнозів!

Під час створення прогнозів, за конвенцією tidymodels, завжди створюється tibble/таблиця результатів зі стандартизованими назвами стовпців. Це спрощує об'єднання початкових даних і прогнозів у зручному форматі для подальших операцій, таких як побудова графіків.

`dplyr::bind_cols()` ефективно об'єднує кілька таблиць за стовпцями.


In [None]:
# Combine the predictions and the original test set
results <- diabetes_test %>% 
  bind_cols(predictions)


results %>% 
  slice(1:5)

## 6. Візуалізація результатів моделювання

Тепер настав час побачити це візуально 📈. Ми створимо точковий графік усіх значень `y` та `bmi` з тестового набору, а потім використаємо прогнози, щоб намалювати лінію в найбільш відповідному місці між групами даних моделі.

R має кілька систем для створення графіків, але `ggplot2` є однією з найелегантніших і найуніверсальніших. Вона дозволяє створювати графіки, **поєднуючи незалежні компоненти**.


In [None]:
# Set a theme for the plot
theme_set(theme_light())
# Create a scatter plot
results %>% 
  ggplot(aes(x = bmi)) +
  # Add a scatter plot
  geom_point(aes(y = y), size = 1.6) +
  # Add a line plot
  geom_line(aes(y = .pred), color = "blue", size = 1.5)

✅ Подумайте трохи про те, що тут відбувається. Пряма лінія проходить через багато маленьких точок даних, але що саме вона робить? Чи можете ви зрозуміти, як за допомогою цієї лінії можна передбачити, де нова, невидима точка даних повинна розташуватися відносно осі y графіка? Спробуйте сформулювати практичне застосування цієї моделі словами.

Вітаємо, ви створили свою першу модель лінійної регресії, зробили прогноз за її допомогою та відобразили його на графіку!



---

**Відмова від відповідальності**:  
Цей документ було перекладено за допомогою сервісу автоматичного перекладу [Co-op Translator](https://github.com/Azure/co-op-translator). Хоча ми прагнемо до точності, зверніть увагу, що автоматичні переклади можуть містити помилки або неточності. Оригінальний документ мовою оригіналу слід вважати авторитетним джерелом. Для критично важливої інформації рекомендується професійний людський переклад. Ми не несемо відповідальності за будь-які непорозуміння або неправильні тлумачення, що виникли внаслідок використання цього перекладу.
