# ML-2 Обучение с учителем. Регрессия
###  Содержание <a class="anchor" id=0></a>
- [1. Введение](#1)
- [2. Линейная регрессия. Аналитическое решение](#2)
- [3. Метрики регрессии. Недостатки аналитического решения](#3)
- [4. Линейная регрессия. Численные решения](#4)
- [5. Дилемма смещения и разброса. Полигональные признаки. Регуляризация](#5)
- [6. Линейная регрессия. Практика](#6)
- [7. Итоги](#7)

# 1. Введение <a class="anchor" id=1></a>

[к содержанию](#0)

<img src=ml2_img1.png width=900>

В категории обучения с учителем модели можно условно разделить на следующие основные типы:

* **Линейные модели:** линейная регрессия (для задачи регрессии) и логистическая регрессия (для задачи классификации) и производные от них.
* **«Древесные» модели:** дерево решений и производные от него. 
* **Метрические алгоритмы:** метод ближайших соседей и производные от него.
* **Байесовские методы:** метод наивного Байеса и производные от него.
* **Ансамблевые методы:** композиции из методов (бэггинг, стекинг, бустинг).

В этом модуле мы поговорим о **линейных моделях** (но на самом деле ими не ограничимся), которые позволяют решать задачу регрессии.

>**Линейные модели** — это модели, отображающие зависимость целевого признака от факторов в виде линейной взаимосвязи.

<img src=ml2_img2.png width=900>

>На данном графике мы видим зависимость цены товара от его размера. Из диаграммы рассеяния видно, что в среднем точки расположены на одной прямой линии. То есть зависимость линейная.

Подкласс линейных моделей в свою очередь содержит множество конкретных моделей. В библиотеке `sklearn`, которую мы будем использовать, все линейные алгоритмы содержатся в модуле [linear_model](https://scikit-learn.ru/1-1-linear-models/). 

# 2. Линейная регрессия. Аналитическое решение <a class="anchor" id=2></a>

[к содержанию](#0)

`Регрессия` — это класс задач обучения с учителем, когда по определённому набору признаков объекта необходимо предсказать числовую целевую переменную.

`Цель обучения` — построить модель, которая бы отражала зависимость между признаками и целевой числовой переменной.

Когда зависимость принимается линейной, такая модель называется `линейной регрессией`.

## ОБЩЕЕ ПРЕДСТАВЛЕНИЕ О ЛИНЕЙНОЙ РЕГРЕССИИ

**Линейная регрессия** (`Linear Regression`) — одна из простейших моделей для решения задачи регрессии. Главная гипотеза состоит в том, что рассматриваемая зависимость является линейной.

Общий вид модели в случае, когда целевая переменная зависит от `m` факторов, будет иметь следующий вид:

<img src=ml2_img3.png>

Давайте разбираться, что в этом выражении значит каждая из переменных. Начнём с простого — с двумерного случая.

### 2D-СЛУЧАЙ

Для начала поговорим о самом простом случае, когда у нас есть один фактор и зависящий от него целевой признак. Геометрически такая зависимость представляет собой координатную плоскость, где мы отмечаем точки по оси `x` и соответствующие им точки на оси `y`.

>Рассмотрим задачу из нефтяной отрасли. Есть набор данных, где представлены данные о средней пористости скважин (в процентах) и добыче газа на этих скважинах в сутки (в миллионах кубических футов). 

Нам бы хотелось построить модель, которая опишет зависимость и позволит по известной пористости скважин предсказывать неизвестную выработку газа.

Зависимость целевого признака от фактора представлена на диаграмме рассеяния (см. ниже). Пористость скважины отложена по оси абсцисс — `Porosity (%)`, а добыча газа — по оси ординат, `Gas production (Mcf/day)`.

<img src=ml2_img4.png>

Из диаграммы отчётливо видно, что с ростом пористости скважины растёт добыча газа. Причём растёт она преимущественно линейно: основная масса точек находится на одной прямой.

>Идея! Давайте проведём через точки прямую линию так, чтобы она максимально хорошо описывала зависимость.

Для этого сначала вспомним уравнение прямой из школьного курса математики:

`y = kx + b`

где:

* `x` — это некоторый фактор, от которого зависит целевая переменная `y`. В нашем случае, `x` — это пористость скважины, а `y` — добыча газа.
* `k` — коэффициент наклона прямой (**тангенс угла наклона**). Если `k > 0`, это означает, что угол наклона прямой острый и прямая возрастает. Если `k < 0`, угол наклона тупой и прямая убывает.
* `b` — коэффициент смещения прямой по оси `y`. Он будет соответствовать значению `y` при `x = 0`. То есть это точка пересечения прямой и оси `Y`.

<img src=ml2_img5.png>

<img src=ml2_img6.png>

Это уравнение и есть двумерная модель линейной регрессии. Зная коэффициенты `k` и `b`, мы можем подставить в него любую пористость скважины `x` и получить предсказание добычи газа `y`.

Однако в машинном обучении приняты немного другие обозначения. Фактическое значение целевой переменной обозначается как `y`, а вот предсказанное моделью — `y^`. Также для удобства коэффициенты `k`и `b` приведём к единому обозначению: `w0 = k` и `w1 = b`. Тогда уравнение модели линейной регрессии запишется в виде:

<img src=ml2_img7.png>

>**Примечание. Коэффициенты `w0` и `w1` называются параметрами линейной регрессии**.

Остаётся только один вопрос: откуда, собственно, взять параметры `w0` и `w1`? Обсудим этот вопрос чуть позже.

А пока представим, что параметры мы нашли. В таком случае можно построить прямую, которая опишет нашу зависимость. Пусть коэффициенты составляют (мы их нашли сами по методу наименьших квадратов, о котором поговорим ниже):

`w0 = -2.94`

`w1 = 287.7`

Тогда модель будет иметь следующий вид:

`y^ = 287.7x - 2.94`

Если подставлять значения конкретные значения пористости `x` в модель, можно построить прямую, которая описывает исходную зависимость. Это и будет графическая интерпретация нашей модели:

<img src=ml2_img8.png>



### 3D-СЛУЧАЙ

Теперь представим, что у нас не один фактор, а два. Например, помимо пористости скважины, мы дополнительно знаем ещё и о её хрупкости в процентах. То есть у нас теперь есть два фактора: `x1` — пористость и `x2` — хрупкость.

Можно отобразить такую зависимость добычи газа от этих факторов в трёхмерном пространстве в виде диаграммы рассеяния:

<img src=ml2_img9.png>

В таком случае в выражение для модели добавится ещё одна переменная`x2` и соответствующий ей коэффициент `w2`:

Опять же, представим, что параметры модели мы нашли и они равны:

`w0 = -2003`

`w1 = 302.3`

`w1 = 31.38`

Тогда модель будет иметь следующий вид:

`y^ = 302.2x1 + 31.38x2 - 2003`

Это была алгебра — теперь перейдём к геометрии. Геометрически данное уравнение описывает плоскость в трёхмерном пространстве с осями `x1` и `x2`, `w0` — смещение плоскости по вертикальной оси, а коэффициенты `w1` и `w2` — коэффициенты наклона этой плоскости к осям `x1` и `x2`. 

То это это будет плоскость, которая подстроена под точки в трёхмерном пространстве:

<img src=ml2_img10.png>

## ОБЩИЙ СЛУЧАЙ

А что если факторов не два, а больше: 3, 15, 100? Тут-то мы и приходим к общему виду модели линейной регрессии, который вводили в самом начале. Пусть у нас есть `m` факторов `{x1, x2, ..., xm}`, от которых зависит целевая переменная `y`.

<img src=ml2_img11.png>

В геометрическом смысле данное уравнение описывает плоскость в `(m - 1)`-мерном пространстве (`m` факторов + `1` целевой признак отложены по осям координат). Такую плоскость называют **гиперплоскостью**.

Абстрактное `(m - 1)`-мерное пространство, конечно же, невозможно отобразить графически и сложно даже представить, как оно выглядит. Но нам это и не нужно. Все операции в таком пространстве аналогичны операциям в двумерном или трёхмерном пространстве.

>Для понимания принципа работы мы будем рассматривать только прямую в двумерном пространстве, а результат уже обобщать на случай с большей размерностью.

Стоит отметить, что в `DS` мы, как правило, работаем с большим количеством факторов (больше двух), которые описывают данные, поэтому отобразить модель в геометрическом пространстве не получится, но важно понимать, что представляет собой сама модель.

## ПОИСК ПАРАМЕТРОВ ЛИНЕЙНОЙ РЕГРЕССИИ: МЕТОД НАИМЕНЬШИХ КВАДРАТОВ

>Теперь мы знаем, как выглядит модель линейной регрессии в общем случае: это простое линейное выражение, подставляя в которое значения факторов, можно найти целевую переменную. Это линейное выражение соответствует прямой, плоскости или гиперплоскости в зависимости от количества признаков.

Остаётся вопрос: откуда взять коэффициенты, которые стоят при `x`?

Прямую же можно провести как угодно. Вот например несколько прямых, построенных с различными случайными коэффициентами:

<img src=ml2_img12.png>

Какие параметры будут наилучшими?

Для ответа на этот вопрос давайте вспомним схему обучения моделей машинного обучения по принципу минимизации эмпирического риска, которую мы рассматривали в предыдущем модуле:

<img src=ml2_img13.png width=900>

Согласно данной схеме обучения, поиск параметров производится путём минимизации некоторой **функции ошибки**. Математически мы пытаемся с помощью методов оптимизации найти такие параметры, чтобы ошибка была наименьшей из возможных.

Осталось только понять: **где взять эту функцию ошибки**? Ответ кроется в картинке ниже. Давайте представим, как могла бы выглядеть прямая в двумерном пространстве, проведённая, например, через пять точек:

<img src=ml2_img14.png>

>Что вообще есть **ошибка**? В самом простом понимании это расхождение между истиной и предсказанием.

Чтобы не учитывать знак расхождения, можно взять модуль разницы между истинным значением и предсказанным (тем, что лежит на прямой). Рассчитать ошибки  `e_i` (на рисунке они отмечены красными отрезками) для всех пяти точек можно следующим образом:

<img src=ml2_img15.png>

>Тут-то математики и столкнулись с проблемой. Оказывается, если пытаться решить эту оптимизационную задачу классическими способами (через условия экстремума функции), то поиск решения будет противоречить основным законам математического анализа. Почему? Обсудим это в модулях по математике, когда будем решать оптимизационные задачи.

<img src=ml2_img16.png>

Математике известно решение данной задачи оптимизации. Метод поиска параметров линейной регрессии называется методом наименьших квадратов (сокращённо — `МНК`) и был изобретён **Гауссом** ещё в **1795 году**. В английской литературе часто можно встретить аббревиатуру `OLS` (`Ordinary Least Squares`).

>Решать саму задачу поиска минимума функции мы сейчас не будем, так как пока что не владеем достаточными для её решения знаниями о частной производной и условиях экстремума функции многих переменных, но приведём финальный ответ, полученный для общего случая.

Итак, пусть у нас есть матрица `X`, в которой по строкам собрано `n` наблюдений, а по столбцам отложено `m` факторов — по сути, это обычный, привычный нам `DataFrame`. К каждому примеру из таблицы `X` есть ответ `y`.

Зависимость между факторами и целевым признаком принята линейной, то есть рассматривается обучение модели линейной регрессии:

<img src=ml2_img17.png>

Мы хотим найти наилучшую оценку для `w0`, `w1`, `w2`, ...m `w_m`.

>Примечание. Для того чтобы конечная запись формулы была короче и можно было включить в вектор `w-` коэффициент смещения прямой `w0`, в матрицу `X` первым добавляют столбец, полностью состоящий из единиц. Это связано со спецификой матричного умножения, о котором мы поговорим далее в курсе.

Согласно методу наименьших квадратов, аналитическое выражение для поиска вектора коэффициентов уравнения линейной регрессии имеет вид:

<img src=ml2_img18.png>

Саму процедуру обращения матриц мы будем рассматривать в модуле по линейной алгебре. Сейчас же для проведения этой операции мы будем использовать библиотеку numpy, которая позволяет очень быстро и просто обращать матрицы.

# 3. Метрики регрессии. Недостатки аналитического решения <a class="anchor" id=3></a>

[к содержанию](#0)

# 4. Линейная регрессия. Числовые решения <a class="anchor" id=4></a>

[к содержанию](#0)

# 5. Дилемма смещения и разброса. Полигональные признаки. Регуляризация <a class="anchor" id=5></a>

[к содержанию](#0)

# 6. Линейная регрессия. Практика <a class="anchor" id=6></a>

[к содержанию](#0)

# 7. Итоги <a class="anchor" id=7></a>

[к содержанию](#0)