## Введение в регрессию - Урок 1

#### Понимание в контексте

✅ Существует множество методов регрессии, и выбор подходящего зависит от того, какой ответ вы ищете. Если вы хотите предсказать вероятный рост человека определенного возраста, вам подойдет `линейная регрессия`, так как вы ищете **числовое значение**. Если вас интересует, следует ли считать определенный тип кухни веганским или нет, вы ищете **категориальное назначение**, и тогда вам подойдет `логистическая регрессия`. Позже вы узнаете больше о логистической регрессии. Подумайте немного о вопросах, которые можно задать данным, и о том, какой из этих методов будет наиболее подходящим.

В этом разделе вы будете работать с [небольшим набором данных о диабете](https://www4.stat.ncsu.edu/~boos/var.select/diabetes.html). Представьте, что вы хотите протестировать лечение для пациентов с диабетом. Модели машинного обучения могут помочь определить, какие пациенты лучше отреагируют на лечение, основываясь на комбинациях переменных. Даже очень простая модель регрессии, визуализированная, может показать информацию о переменных, которая поможет вам организовать теоретические клинические испытания.

Итак, приступим к выполнению этой задачи!

<p >
   <img src="../../images/encouRage.jpg"
   width="630"/>
   <figcaption>Иллюстрация @allison_horst</figcaption>

<!--![Иллюстрация \@allison_horst](../../../../../../translated_images/encouRage.e75d5fe0367fb9136b78104baf4e2032a7622bc42a2bc34c0ad36c294eeb83f5.ru.jpg)<br>Иллюстрация @allison_horst-->


## 1. Загружаем наш набор инструментов

Для выполнения этой задачи нам понадобятся следующие пакеты:

-   `tidyverse`: [tidyverse](https://www.tidyverse.org/) — это [набор пакетов для R](https://www.tidyverse.org/packages), разработанный для того, чтобы сделать работу с данными быстрее, проще и увлекательнее!

-   `tidymodels`: [tidymodels](https://www.tidymodels.org/) — это [фреймворк из пакетов](https://www.tidymodels.org/packages/) для моделирования и машинного обучения.

Вы можете установить их с помощью следующей команды:

`install.packages(c("tidyverse", "tidymodels"))`

Скрипт ниже проверяет, установлены ли у вас необходимые для выполнения этого модуля пакеты, и автоматически устанавливает их, если каких-то не хватает.


In [2]:
suppressWarnings(if(!require("pacman")) install.packages("pacman"))
pacman::p_load(tidyverse, tidymodels)

Loading required package: pacman



Теперь давайте загрузим эти потрясающие пакеты и сделаем их доступными в нашей текущей R-сессии. (Это просто для иллюстрации, `pacman::p_load()` уже сделал это за вас)


In [None]:
# load the core Tidyverse packages
library(tidyverse)

# load the core Tidymodels packages
library(tidymodels)


## 2. Набор данных о диабете

В этом упражнении мы продемонстрируем наши навыки регрессии, делая прогнозы на основе набора данных о диабете. [Набор данных о диабете](https://www4.stat.ncsu.edu/~boos/var.select/diabetes.rwrite1.txt) включает `442 образца` данных, связанных с диабетом, с 10 предикторными переменными: `возраст`, `пол`, `индекс массы тела`, `среднее артериальное давление` и `шесть измерений сыворотки крови`, а также переменную результата `y`: количественную меру прогрессирования заболевания через год после исходного уровня.

|Количество наблюдений|442|
|----------------------|:---|
|Количество предикторов|Первые 10 столбцов являются числовыми предикторами|
|Результат/Цель|11-й столбец — это количественная мера прогрессирования заболевания через год после исходного уровня|
|Информация о предикторах|- возраст в годах
||- пол
||- bmi индекс массы тела
||- bp среднее артериальное давление
||- s1 tc, общий уровень холестерина в сыворотке
||- s2 ldl, липопротеины низкой плотности
||- s3 hdl, липопротеины высокой плотности
||- s4 tch, общий холестерин / HDL
||- s5 ltg, возможно, логарифм уровня триглицеридов в сыворотке
||- s6 glu, уровень сахара в крови|

> 🎓 Помните, это обучение с учителем, и нам нужна целевая переменная с именем 'y'.

Прежде чем вы сможете работать с данными в R, необходимо импортировать данные в память R или установить соединение с данными, чтобы R мог получить к ним удаленный доступ.

> Пакет [readr](https://readr.tidyverse.org/), который является частью Tidyverse, предоставляет быстрый и удобный способ чтения прямоугольных данных в R.

Теперь давайте загрузим набор данных о диабете, предоставленный по следующему URL-адресу: <https://www4.stat.ncsu.edu/~boos/var.select/diabetes.html>

Также мы проведем проверку данных с помощью `glimpse()` и отобразим первые 5 строк с помощью `slice()`.

Прежде чем двигаться дальше, давайте познакомимся с чем-то, что вы будете часто встречать в коде R 🥁🥁: оператор pipe `%>%`

Оператор pipe (`%>%`) выполняет операции в логической последовательности, передавая объект в функцию или выражение вызова. Вы можете представить оператор pipe как выражение "а затем" в вашем коде.


In [None]:
# Import the data set
diabetes <- read_table2(file = "https://www4.stat.ncsu.edu/~boos/var.select/diabetes.rwrite1.txt")


# Get a glimpse and dimensions of the data
glimpse(diabetes)


# Select the first 5 rows of the data
diabetes %>% 
  slice(1:5)

`glimpse()` показывает, что этот набор данных содержит 442 строки и 11 столбцов, причем все столбцы имеют тип данных `double`.

<br>

> `glimpse()` и `slice()` — это функции из пакета [`dplyr`](https://dplyr.tidyverse.org/). Dplyr, являющийся частью Tidyverse, представляет собой грамматику манипуляции данными, предоставляющую набор удобных глаголов, которые помогают решать наиболее распространенные задачи обработки данных.

<br>

Теперь, когда у нас есть данные, давайте сосредоточимся на одной характеристике (`bmi`) для выполнения этого упражнения. Для этого нам нужно выбрать нужные столбцы. Как это сделать?

Функция [`dplyr::select()`](https://dplyr.tidyverse.org/reference/select.html) позволяет *выбирать* (и при необходимости переименовывать) столбцы в датафрейме.


In [None]:
# Select predictor feature `bmi` and outcome `y`
diabetes_select <- diabetes %>% 
  select(c(bmi, y))

# Print the first 5 rows
diabetes_select %>% 
  slice(1:10)

## 3. Обучающие и тестовые данные

В задачах с учителем обычно принято *разделять* данные на два подмножества: (как правило, большее) множество для обучения модели и меньшее "резервное" множество, чтобы оценить, как модель справилась с задачей.

Теперь, когда у нас есть подготовленные данные, мы можем проверить, сможет ли машина помочь определить логическое разделение чисел в этом наборе данных. Мы можем использовать пакет [rsample](https://tidymodels.github.io/rsample/), который является частью фреймворка Tidymodels, чтобы создать объект, содержащий информацию о том, *как* разделить данные, а затем две дополнительные функции rsample, чтобы извлечь созданные обучающие и тестовые наборы:


In [None]:
set.seed(2056)
# Split 67% of the data for training and the rest for tesing
diabetes_split <- diabetes_select %>% 
  initial_split(prop = 0.67)

# Extract the resulting train and test sets
diabetes_train <- training(diabetes_split)
diabetes_test <- testing(diabetes_split)

# Print the first 3 rows of the training set
diabetes_train %>% 
  slice(1:10)

## 4. Обучение модели линейной регрессии с помощью Tidymodels

Теперь мы готовы обучить нашу модель!

В Tidymodels модели задаются с помощью `parsnip()`, где указываются три ключевых аспекта:

-   **Тип модели** различает такие модели, как линейная регрессия, логистическая регрессия, модели деревьев решений и другие.

-   **Режим модели** включает общие варианты, такие как регрессия и классификация; некоторые типы моделей поддерживают оба режима, а некоторые только один.

-   **Движок модели** — это вычислительный инструмент, который будет использоваться для подгонки модели. Часто это R-пакеты, такие как **`"lm"`** или **`"ranger"`**.

Эта информация о модели фиксируется в спецификации модели, так что давайте создадим её!


In [None]:
# Build a linear model specification
lm_spec <- 
  # Type
  linear_reg() %>% 
  # Engine
  set_engine("lm") %>% 
  # Mode
  set_mode("regression")


# Print the model specification
lm_spec

После того как модель *определена*, её можно `оценить` или `обучить` с помощью функции [`fit()`](https://parsnip.tidymodels.org/reference/fit.html), обычно используя формулу и некоторые данные.

`y ~ .` означает, что мы будем подбирать `y` как предсказываемую величину/цель, объясняемую всеми предикторами/признаками, то есть `.` (в данном случае у нас есть только один предиктор: `bmi`).


In [None]:
# Build a linear model specification
lm_spec <- linear_reg() %>% 
  set_engine("lm") %>%
  set_mode("regression")


# Train a linear regression model
lm_mod <- lm_spec %>% 
  fit(y ~ ., data = diabetes_train)

# Print the model
lm_mod

Из вывода модели мы можем увидеть коэффициенты, полученные в процессе обучения. Они представляют собой коэффициенты линии наилучшего соответствия, которая обеспечивает минимальную общую ошибку между фактической и предсказанной переменной.
<br>

## 5. Сделайте прогнозы на тестовом наборе данных

Теперь, когда мы обучили модель, мы можем использовать её для предсказания прогрессирования заболевания y на тестовом наборе данных с помощью [parsnip::predict()](https://parsnip.tidymodels.org/reference/predict.model_fit.html). Это будет использовано для проведения линии между группами данных.


In [None]:
# Make predictions for the test set
predictions <- lm_mod %>% 
  predict(new_data = diabetes_test)

# Print out some of the predictions
predictions %>% 
  slice(1:5)

Ура! 💃🕺 Мы только что обучили модель и использовали её для предсказаний!

При выполнении предсказаний принято в tidymodels всегда создавать tibble/таблицу данных с результатами, где используются стандартизированные названия столбцов. Это упрощает объединение исходных данных и предсказаний в удобный формат для последующих операций, таких как построение графиков.

`dplyr::bind_cols()` эффективно объединяет несколько таблиц данных по столбцам.


In [None]:
# Combine the predictions and the original test set
results <- diabetes_test %>% 
  bind_cols(predictions)


results %>% 
  slice(1:5)

## 6. Построение результатов моделирования

Теперь пришло время увидеть это визуально 📈. Мы создадим диаграмму рассеяния для всех значений `y` и `bmi` из тестового набора, а затем используем предсказания, чтобы провести линию в наиболее подходящем месте между группировками данных модели.

R предлагает несколько систем для построения графиков, но `ggplot2` является одной из самых элегантных и универсальных. Этот инструмент позволяет создавать графики, **комбинируя независимые компоненты**.


In [None]:
# Set a theme for the plot
theme_set(theme_light())
# Create a scatter plot
results %>% 
  ggplot(aes(x = bmi)) +
  # Add a scatter plot
  geom_point(aes(y = y), size = 1.6) +
  # Add a line plot
  geom_line(aes(y = .pred), color = "blue", size = 1.5)

✅ Подумайте, что здесь происходит. Прямая линия проходит через множество маленьких точек данных, но что именно она делает? Можете ли вы понять, как эта линия может помочь предсказать, где новый, ранее не виденный, точка данных должна находиться относительно оси y графика? Попробуйте описать практическое применение этой модели словами.

Поздравляем, вы создали свою первую модель линейной регрессии, сделали предсказание с её помощью и отобразили его на графике!



---

**Отказ от ответственности**:  
Этот документ был переведен с помощью сервиса автоматического перевода [Co-op Translator](https://github.com/Azure/co-op-translator). Несмотря на наши усилия обеспечить точность, автоматические переводы могут содержать ошибки или неточности. Оригинальный документ на его родном языке следует считать авторитетным источником. Для получения критически важной информации рекомендуется профессиональный перевод человеком. Мы не несем ответственности за любые недоразумения или неправильные интерпретации, возникшие в результате использования данного перевода.
