# **Линейная регрессия: аналитическое решение**

**Регрессия** — это класс задач обучения с учителем, когда по определённому набору признаков объекта необходимо предсказать числовую целевую переменную.

Цель обучения — *построить модель, которая бы отражала зависимость между признаками и целевой числовой переменной*.

Когда зависимость принимается линейной, такая модель называется **линейной регрессией**.

![](https://lms.skillfactory.ru/assets/courseware/v1/7feb9c1039cfe25f8efb02994733047f/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/dst3-ml1-3_5.png)

***
## **ОБЩЕЕ ПРЕДСТАВЛЕНИЕ О ЛИНЕЙНОЙ РЕГРЕССИИ**

**Линейная регрессия (Linear Regression)** — одна из простейших моделей для решения задачи регрессии. Главная гипотеза состоит в том, что рассматриваемая зависимость является линейной.

Общий вид модели в случае, когда целевая переменная зависит от ***m*** факторов, будет иметь следующий вид:

![](data\f1.png)

Давайте разбираться, что в этом выражении значит каждая из переменных. Начнём с простого — с двумерного случая.

### **2D-СЛУЧАЙ**

Для начала поговорим о самом простом случае, когда у нас есть один фактор и зависящий от него целевой признак. Геометрически такая зависимость представляет собой координатную плоскость, где мы отмечаем точки по оси x и соответствующие им точки на оси y.

*Рассмотрим задачу из нефтяной отрасли. Есть набор данных, где представлены данные о средней пористости скважин (в процентах) и добыче газа на этих скважинах в сутки (в миллионах кубических футов).*

Нам бы хотелось построить модель, которая опишет зависимость и позволит по известной пористости скважин предсказывать неизвестную выработку газа.

Зависимость целевого признака от фактора представлена на диаграмме рассеяния (см. ниже). Пористость скважины отложена по оси абсцисс — Porosity (%), а добыча газа — по оси ординат, Gas production (Mcf/day).

![](https://lms.skillfactory.ru/assets/courseware/v1/5aac4f0c35432b4d259b26227fe41e59/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/dst3-ml2-2_1.png)

Из диаграммы отчётливо видно, что с ростом пористости скважины растёт добыча газа. Причём растёт она преимущественно линейно: основная масса точек находится на одной прямой.

Идея! Давайте проведём через точки прямую линию так, чтобы она максимально хорошо описывала зависимость.

Для этого сначала вспомним уравнение прямой из школьного курса математики:

![](data\f2.png)

где:

* ***x*** — это некоторый фактор, от которого зависит целевая переменная y. В нашем случае, x — это пористость скважины, а y — добыча газа.
* ***k*** — коэффициент наклона прямой (тангенс угла наклона). Если k>0, это означает, что угол наклона прямой острый и прямая возрастает. Если k<0>, угол наклона тупой и прямая убывает.
* ***b*** — коэффициент смещения прямой по оси y. Он будет соответствовать значению y при x=0. То есть это точка пересечения прямой и оси Y.

![](https://lms.skillfactory.ru/assets/courseware/v1/efff3f61af4a7ba5499bb204d8c61aeb/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/dst3-ml2-2_2.png)

На данном графике изображены две прямые с разными коэффициентами наклона. Зелёная прямая соответствует положительному значению k1>0, и геометрически  равен **тангенсу острого угла** a1 наклона прямой по отношению к оси x: k1 = tg(a1). Синяя прямая соответствует отрицательному значению k2<0, и геометрически k2 равен тангенсу тупого угла a2 наклона прямой по отношению к оси x: k2 = tg(a2). Каждая из прямых пересекается с осью y в точках b1 и b2 — это и есть **коэффициент смещения прямых**.

Это уравнение и есть двумерная модель линейной регрессии. Зная коэффициенты k и b, мы можем подставить в него любую пористость скважины x и получить предсказание добычи газа y.

Однако в машинном обучении приняты немного другие обозначения. Фактическое значение целевой переменной обозначается как y, а вот предсказанное моделью — y^. Также для удобства коэффициенты b и k приведём к единому обозначению: w0 = b и w1 = k. Тогда уравнение модели линейной регрессии запишется в виде:

![](data\f3.png)

***Примечание. Коэффициенты w0 и w1 называются параметрами линейной регрессии.***

Остаётся только один вопрос: откуда, собственно, взять параметры w0 и w1? Обсудим этот вопрос чуть позже.

А пока представим, что параметры мы нашли. В таком случае можно построить прямую, которая опишет нашу зависимость. Пусть коэффициенты составляют (мы их нашли сами по методу наименьших квадратов, о котором поговорим ниже):

![](data\f4.png)

Тогда модель будет иметь следующий вид:

![](data\f5.png)

Если подставлять значения конкретные значения пористости x в модель, можно построить прямую, которая описывает исходную зависимость. Это и будет графическая интерпретация нашей модели:

![](https://lms.skillfactory.ru/assets/courseware/v1/68be2a900a484a12681d3e6d5be5fc3b/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/dst3-ml2-2_3.png)

### **3D-СЛУЧАЙ**

Теперь представим, что у нас не один фактор, а два. Например, помимо пористости скважины, мы дополнительно знаем ещё и о её хрупкости в процентах. То есть у нас теперь есть два фактора: ***x1*** — пористость и ***x2*** — хрупкость.

Можно отобразить такую зависимость добычи газа от этих факторов в трёхмерном пространстве в виде диаграммы рассеяния:

![](https://lms.skillfactory.ru/assets/courseware/v1/241e1620934df4bea3c70cd4d37ac1d7/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/dst3-ml2-2_4.png)

В таком случае в выражение для модели добавится ещё одна переменная x2 и соответствующий ей коэффициент w2:

![](data\f6.png)

Опять же, представим, что параметры модели мы нашли и они равны:

![](data\f7.png)

Тогда модель будет иметь следующий вид:

![](data\f8.png)

Это была алгебра — теперь перейдём к геометрии. Геометрически данное уравнение описывает плоскость в трёхмерном пространстве с осями x1 и x2, w0 — смещение плоскости по вертикальной оси, а коэффициенты w1 и w2 — коэффициенты наклона этой плоскости к осям x1 и x2.

![](https://lms.skillfactory.ru/assets/courseware/v1/5e86dbff46a7bda35c15bf2c88738e67/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/dst3-ml2-2_5.png)

### **ОБЩИЙ СЛУЧАЙ**

А что если факторов не два, а больше: 3, 15, 100? Тут-то мы и приходим к общему виду модели линейной регрессии, который вводили в самом начале. Пусть у нас есть ***m*** факторов {x1, x2, ... xm}, от которых зависит целевая переменная y.

![](data\f9.png)

В геометрическом смысле данное уравнение описывает плоскость в (m+1)-мерном пространстве (m факторов + 1 целевой признак отложены по осям координат). Такую плоскость называют **гиперплоскостью**.

Абстрактное (m+1)-мерное пространство, конечно же, невозможно отобразить графически и сложно даже представить, как оно выглядит. Но нам это и не нужно. Все операции в таком пространстве аналогичны операциям в двумерном или трёхмерном пространстве.

Для понимания принципа работы мы будем рассматривать только прямую в двумерном пространстве, а результат уже обобщать на случай с большей размерностью.

Стоит отметить, что в DS мы, как правило, работаем с большим количеством факторов (больше двух), которые описывают данные, поэтому отобразить модель в геометрическом пространстве не получится, но важно понимать, что представляет собой сама модель.

***
## **ПОИСК ПАРАМЕТРОВ ЛИНЕЙНОЙ РЕГРЕССИИ: МЕТОД НАИМЕНЬШИХ КВАДРАТОВ**

Теперь мы знаем, как выглядит модель линейной регрессии в общем случае: это простое линейное выражение, подставляя в которое значения факторов, можно найти целевую переменную. Это линейное выражение соответствует прямой, плоскости или гиперплоскости в зависимости от количества признаков.

Остаётся вопрос: откуда взять коэффициенты, которые стоят при ***x***?

Для ответа на этот вопрос давайте вспомним схему обучения моделей машинного обучения по принципу минимизации эмпирического риска, которую мы рассматривали в предыдущем модуле:

![](https://lms.skillfactory.ru/assets/courseware/v1/5fac5fe11d423f674949523e3db643c9/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/dst3-ml1-2_1.png)

Согласно данной схеме обучения, поиск параметров производится путём ***минимизации некоторой функции ошибки***. Математически мы пытаемся с помощью методов оптимизации найти такие параметры, чтобы ошибка была наименьшей из возможных.

Осталось только понять: где взять эту функцию ошибки? Ответ кроется в картинке ниже. Давайте представим, как могла бы выглядеть прямая в двумерном пространстве, проведённая, например, через пять точек:

![](https://lms.skillfactory.ru/assets/courseware/v1/5fec239cc84df5a5cd29cab48650641d/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/dst3-ml2-2_7.png)

* Что вообще есть **ошибка**? В самом простом понимании это расхождение между истиной и предсказанием.

Чтобы не учитывать знак расхождения, можно взять модуль разницы между истинным значением и предсказанным (тем, что лежит на прямой). Рассчитать ошибки ei (на рисунке они отмечены красными отрезками) для всех пяти точек можно следующим образом:

![](data\f11.png)

где ***yi*** — это результат подстановки i-ого значения x в модель линейной регрессии.

Вычислим среднее по всем ошибкам. Такая ошибка называется средняя абсолютная ошибка **(Mean Absolute Error, MAE)** и записывается следующим образом (в двумерном случае):

![](data\f12.png)

Осталось только найти такие w0 и w1, при которых MAE была бы минимальной. В математике это записывается следующим образом:

![](data\f13.png)

→ Тут-то математики и столкнулись с проблемой. Оказывается, если пытаться решить эту оптимизационную задачу классическими способами (через условия [**экстремума функции**](https://ru.wikipedia.org/wiki/Экстремум)), то поиск решения будет противоречить основным законам математического анализа. Почему? Функция модуля является недифференцируемой в точке 0, то есть не имеет производной. Классическая оптимизационная задача решается через равенство производной функции нулю. Поиск производной может обернуться математическим противоречием.

Проблему с MAE можно решить, но всё же она используется гораздо реже.

Но математикам, конечно, удалось найти выход. Вместо модуля можно использовать квадрат — он тоже убирает знак ошибки и по сути аналогичен модулю. Получим **среднеквадратичную ошибку (Mean Square Error, MSE)**:

![](data\f14.png)

Это и будет наша функция ошибки, которую мы будем минимизировать, управляя параметрами w0 и w1:

![](data\f15.png)

*Примечание. В общем случае, когда X — это таблица из ***n*** наблюдений и ***m*** признаков, постановка задачи оптимизации MSE выглядит следующим образом:*

![](data\f16.png)

где xij — это значение, которое находится в i-ой строке и j-ом столбце таблицы наблюдений.

Математике известно решение данной задачи оптимизации. Метод поиска параметров линейной регрессии называется **методом наименьших квадратов** (сокращённо — МНК) и был изобретён Гауссом ещё в 1795 году. В английской литературе часто можно встретить аббревиатуру OLS (**Ordinary Least Squares**).

→ Решать саму задачу поиска минимума функции мы сейчас не будем, так как пока что не владеем достаточными для её решения знаниями о частной производной и условиях экстремума функции многих переменных, но приведём финальный ответ, полученный для общего случая.

Итак, пусть у нас есть матрица X, в которой по строкам собрано n наблюдений, а по столбцам отложено m факторов — по сути, это обычный, привычный нам DataFrame. К каждому примеру из таблицы X есть ответ y.

Зависимость между факторами и целевым признаком принята линейной, то есть рассматривается обучение модели линейной регрессии:

![](data\f17.png)

Мы хотим найти наилучшую оценку для w0, w1, w2, ...,wm.

Примечание. Для того чтобы конечная запись формулы была короче и можно было включить в вектор w коэффициент смещения прямой w0, в матрицу X первым добавляют столбец, полностью состоящий из единиц. Это связано со спецификой матричного умножения, о котором мы поговорим далее в курсе.

Согласно методу наименьших квадратов, аналитическое выражение для поиска вектора коэффициентов уравнения линейной регрессии имеет вид:

![](data\f18.png)

Данная матричная формула позволяет найти неизвестные параметры линейной регрессии в виде вектора w = (w0,w1,w2, ..., wm). Найденные коэффициенты называют **решением задачи линейной регрессии**.

Примечание. Верхний индекс T у матрицы X означает транспонирование матриц — смену строк и столбцов местами (поворот таблицы). Пример:

![](data\f19.png)

Операция возведения матриц в степень -1 называется обращением матриц. Полученная в результате матрица называется обратной к исходной. Так, матрица (X^T X)^-1 является обратной к матрице X^T X.

Саму процедуру обращения матриц мы будем рассматривать в модуле по линейной алгебре. Сейчас же для проведения этой операции мы будем использовать библиотеку numpy, которая позволяет очень быстро и просто обращать матрицы.



***
## **АНАЛИТИЧЕСКОЕ РЕШЕНИЕ С ПОМОЩЬЮ NUMPY**

Перейдём к практической части. Давайте научимся строить аналитическое решение линейной регрессии по МНК в Python.

Вот какие этапы нам предстоит пройти, чтобы построить свою модель:

1. Загрузить данные и проанализировать датасет на предмет пропусков.
2. Подготовить данные для подачи в модель: избавиться от пропусков, если они есть, и перекодировать категориальные признаки, если они представлены текстом.
3. Построить модель. Будем строить несколько моделей линейной регрессии: первую — на одном признаке, вторую — на всех доступных признаках.
4. Оценить качество модели.

Для начала импортируем необходимые вспомогательные библиотеки:

In [3]:
import numpy as np #для матричных вычислений
import pandas as pd #для анализа и предобработки данных
from IPython.display import display
import matplotlib.pyplot as plt #для визуализации
import seaborn as sns #для визуализации
%matplotlib inline
plt.style.use('seaborn') #установка стиля matplotlib

Будем работать с датасетом из библиотеки sklearn о домах в Бостоне. Этот набор данных содержит информацию, собранную службой переписи населения США и касающуюся жилья в районе Бостона, штат Массачусетс.

Данный датасет содержится в модуле datasets библиотеки sklearn. Давайте загрузим датасет с помощью функции ***load_boston()*** и выведем его описание, обратившись по ключу ***'DESCR'***:

In [4]:
from sklearn.datasets import load_boston 
boston = load_boston()
print(boston['DESCR'])

.. _boston_dataset:

Boston house prices dataset
---------------------------

**Data Set Characteristics:**  

    :Number of Instances: 506 

    :Number of Attributes: 13 numeric/categorical predictive. Median Value (attribute 14) is usually the target.

    :Attribute Information (in order):
        - CRIM     per capita crime rate by town
        - ZN       proportion of residential land zoned for lots over 25,000 sq.ft.
        - INDUS    proportion of non-retail business acres per town
        - CHAS     Charles River dummy variable (= 1 if tract bounds river; 0 otherwise)
        - NOX      nitric oxides concentration (parts per 10 million)
        - RM       average number of rooms per dwelling
        - AGE      proportion of owner-occupied units built prior to 1940
        - DIS      weighted distances to five Boston employment centres
        - RAD      index of accessibility to radial highways
        - TAX      full-value property-tax rate per $10,000
        - PTRATIO  pu


    The Boston housing prices dataset has an ethical problem. You can refer to
    the documentation of this function for further details.

    The scikit-learn maintainers therefore strongly discourage the use of this
    dataset unless the purpose of the code is to study and educate about
    ethical issues in data science and machine learning.

    In this special case, you can fetch the dataset from the original
    source::

        import pandas as pd
        import numpy as np

        data_url = "http://lib.stat.cmu.edu/datasets/boston"
        raw_df = pd.read_csv(data_url, sep="\s+", skiprows=22, header=None)
        data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]])
        target = raw_df.values[1::2, 2]

    Alternative datasets include the California housing dataset (i.e.
    :func:`~sklearn.datasets.fetch_california_housing`) and the Ames housing
    dataset. You can load the datasets as follows::

        from sklearn.datasets import fetch_california_ho

В данном описании говорится, что у нас есть 506 участков с жилыми домами, которые описываются 13-ю признаками. На каждом из участков находится несколько домов. Измерены общие показатели по каждому из участков, в том числе медианная стоимость.

**Задача — научить модель предсказывать медианную стоимость дома на участке.**