# Линейная регрессия

## Постановка задачи

Представим, что мы хотим определить цену в одном доме квартиры на основании площади квартиры. У нас есть база данных полученная от риэлтерской компании. В данном случае нам нужно найти зависимость между площадью квартиры и ценой квартиры. То есть, нужно найти функцию $f(X) = y$, где $X$ это площадь квартиры, а $y$ это цена на квартиру. Это и есть задача регрессии.

Давайте загрузим и визуализируем данные. Для этого нажмите *Ctrl+Enter* на следующей ячейке. После этого в вектре $X$ у нас будет площадь квартиры в $м^2$, а в вектре $y$ цена на квартиру. А внизу ячейки у нас будет диаграмму с точками.

In [None]:
from regression_helper import * # не обращайте внимание на эту строчку
X, y = get_data()    # Загружаем данные в X и y
plot_data(X, y)      # Строим диаграму с точками 
print_table_with_data(X, y)

Допустим мы предполагаем, что данная зависимость может описаться линейной функцией вида $y = kX$. Это наша гипотеза. Давайте нанесем на график несколько линейных функциях с разным коэффициентом.

In [None]:
choose_slope(X, y)

У нас есть гипотезы. Но как численно определить какая из них лучшая?

Для это введем функцию ошибку. Функция ошибки - численное значение того, как наша гипотеза хорошо моделирует функцию.

Пусть у нас есть функция (наша модель)  $f(X) = kX = \hat{y}$. То есть, $\hat{y}$ является предсказанными нами значениями для X. А настоящие значения будут равны $y$.

Тогда определим нашу функцию ошибки от параметра k:

$J(k) = \frac{1}{2N}\sum_{i=0}^{N}{(\hat{y_i} - y_i)^2}= \frac{1}{2N} \sum_{i=0}^{N}{(f(X_i) - y_i)^2} = \frac{1}{2N} \sum_{i=0}^{N}{(kX_i - y_i)^2} $

Где $N$ - это количество квартир, $X_i$ - это площадь i-oй квартиры, $y_i$ - цена для i-oй квартиры, $\hat{y_i}$ - предсказанная цена для i-oй квартиры.
      
Например, $X_2=36$, $y_3=5500000.0$

$\sum_{i=0}^{N}$  - это знак суммирования.
Например, у нас есть $a_0, a_2, a_3, \cdots a_N$. Тогда $\sum_{i=0}^{N}{a_i} = a_0 + a_2 + a_3 + \cdots + a_N$

Ниже у нас есть пример с визуализацией ошибки для одной из гипотез.


In [None]:
plot_data_and_error(X, y)

Давайте визуализируем ошибки для наших гипотез.

In [None]:
plot_data_and_J(X, y) 

Давайте теперь визуализируем всю функцию ошибки.

In [None]:
plot_all_J(X, y) 

Наша задачи - это минимизации функции ошибки. 
Я думаю, что вы знаете как можно найти значение минимума для данной функции. Нужно взять производную функции ошибки и приравнять ее к нулю. $J'(k) = \frac{dJ(k)}{dk} = 0$.

В данном случае производную можно рассматривать $f'(x_0) = \frac{f(x_0+\epsilon) - f(x_0)}{\epsilon}, \epsilon \rightarrow 0$ 

![alt](img\der.jpg) 

Например, для функции $f(x) = x^2$, $f'(x) = \frac{(x+\epsilon)^2 - x^2}{\epsilon} = \frac{x^2+ 2x\epsilon + \epsilon^2 - x^2}{\epsilon}= \frac{2x\epsilon + \epsilon^2}{\epsilon} = 2x + \epsilon = 2x$

$\epsilon \rightarrow 0$

Таким образом, в нашем случае:

$J'(k) = \frac{dJ(k)}{dk} = \frac{d}{dk}(\frac{1}{2N}\sum_{i=1}^{N}{(y_i - \hat{y_i})^2}) 
= 2 \cdot \frac{1}{2N}\sum_{i=1}^{N} (kX_i - y_i)\frac{d}{dk}(kX_i - y_i) =
          \frac{1}{N} \sum_{i=1}^{N} (kX_i - y_i)X_i = 0$ 

Решив уравнение, мы получим значение для $k=185072.4$


In [None]:
plot_data_and_hyp(X, y, 185072.4) 

Но в реальных приложениях не всегда возможно решить это уравнение (далее я расскажу поподробнее о таких ситуациях). Поэтому, познакомимся с такой техникой как градиентный спуск. Как вызнаете, значение производной в точке равно значению тангенса угла наклона касательной в данной точке.

In [None]:
plot_all_J_with_der(X, y) 

Использую эту информацию мы можем понять где находится минимум и изменить значение $k$ в сторону минимума. Если производная положительная (как касательная в точке 190000), то нам нужно уменьшать значение $k$. Если производная отрицательная (как касательная в точке 180000), то нам нужно увеличить значение $k$.  

Таким образом сам алгоритм градиентного спуска можно описать следующим образом.

* Выбираем случайное значение для $k$
* Повторить пока не сойдется:

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; $k = k - \alpha \cdot \frac{d}{dk} J(k)$

Где $\alpha$ это коэффициент, который мы выбреем. Теперь поэкспериментируем со значением $\alpha$ и начальным значением коэффициента.

In [None]:
Traice(X, y)

# Цена квартиры в зависимости от площади и дальности квартиры от центра Москвы
Допустим теперь нам требуется определить цену квартиры в зависимости от квартиры и дальности квартиры от центра Москвы. То есть, теперь у нас есть 2 параметра. И наша функция, которую мы хотим найти будет выглядеть вот так $y = F(X_1, X_2)$, где $X_1$ площадь квартиры в $м^2$, $X_2$ дальность квартиры от центра в км, а $y$ цена на квартиру.

In [None]:
X1, X2, y = get_new_data()
print_3d_table_with_data(X1, X2, y)
plot_new_3d_data(X1, X2, y)

Для решения данной проблемы введем нашу гипотезу: $f(X) = k_0 + k_1 X^{(1)} + k_2 X^{(2)} = \hat{y}$. Это линейная функция для двух входных параметров.

Тогда определим нашу функцию ошибки от параметров $k_0, k_1, k_2$:

$J(k) = \frac{1}{2N}\sum_{i=1}^{N}{(\hat{y_i} - y_i)^2}= \frac{1}{2N} \sum_{i=1}^{N}{k_0 + k_1 X^{(1)} + k_2 X^{(2)}  - y_i)^2}$

Где $N$ - это количество квартир, $X^{(1)}_i$ - это площадь i-oй квартиры, $X^{(2)}_i$ - это расстояние квартиры до центра Москвы, а $y_i$ - цена для i-oй квартиры, $\hat{y_i}$ - предсказанная цена для i-oй квартиры.

Для нахождения этих коэффициентов также используем градиентный спуск. Но теперь нам необходимо найти производную от функции ошибки для каждого коэффициента.

$\frac{\delta  J(k_0, k_1, k_2)}{\delta k_0} = \frac{1}{N}\sum_{i=1}^{N} (k_0 + k_1 X^{(1)} + k_2 X^{(2)}  - y_i)$ 

$\frac{\delta J(k_0, k_1, k_2)}{\delta k_1} = \frac{1}{N}\sum_{i=1}^{N} (k_0 + k_1 X^{(1)} + k_2 X^{(2)}  - y_i)X^{(1)}_i$ 

$\frac{\delta J(k_0, k_1, k_2)}{\delta k_2} = \frac{1}{N}\sum_{i=1}^{N} (k_0 + k_1 X^{(1)} + k_2 X^{(2)} - y_i)X^{(2)}_i$ 

Мы также можем приравнять каждую производную к нулю и найти решение системы уравнений. Но делать это не целесообразно. Для решения данной системы в компьютере потребуется построить матричное уравнение. А в процессе решения потребуется найти обратную матрицу. Данная операция является очень медленной, даже на современных компьютерах. В данном примере у нас всего 2 входных параметра и 20 значений $X$. Вычисления обратной матрицы для нашего примера займет микросекунды. Но в реальных приложениях обычно бывает и по десяткам тысяч входных параметров и сотни миллионов значений. Нахождения обратной матриц для таких задач займет несравнимо много времени по сравнению с градиентным спуском. Поэтому в промышленности применяется именно градиентный спуск. 

Полный алгоритм градиентного спуска c $M$ коэффициентами можно описать следующим образом.

* Выбираем случайное значение для $k_0, k_1, ... k_M$
* Повторить пока не сойдется:

    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; $k_0 = k_0 - \alpha \cdot \frac{\delta }{\delta k_0} J(k_0, k_1, ... k_M)$ 
    
    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; $k_1 = k_1 - \alpha \cdot \frac{\delta }{\delta k_1} J(k_0, k_1, ... k_M)$
    
    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; $ \cdots $ 
    
    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; $k_M = k_M - \alpha \cdot \frac{\delta }{\delta k_M} J(k_0, k_1, ... k_M)$ 
    

Где $\alpha$ это коэффициент, который мы выбираем. 

Давайте теперь визуализируем ошибку.


In [None]:
plot_loss_in_3d(X1, X2, y)

Тогда если мы используем формулы выше, то мы увидим следующую картину.

In [None]:
a=0.0001
k1, k2 = lin_grad_full(X1, X2, y, alpha=a, iters=50, k0_init=5000000, k1_init=500000, k2_init=-200000)

А теперь визуализируеим полученный результат.

In [None]:
plot_new_data_and_hyp(X1, X2, y, 5000000, k1, k2)

# Переобучение и слишком простая модель

Как вы понимаете линейные функции не всегда могут быть использована для все данных. Например, допустим у нас есть следующий набор данных:

![alt](img\new_data.png)

Линейная регрессия может предсказать только прямую линию, но тут такое не пойдет. Нам нужно что-то по сложнее. То есть, наша модель слишком простая.

## Полиномы

Полиномом степени n называется функция $f(X) = k_n X^n + k_{n-1} X^{n-1}  \ldots + k_1 X + k_0$. Известное вам квадратное уравнение — это полином второй степени. $f(X) = k_2 X^2 + k_1 X + k_0$

![alt](img\polynomes.png)

В дальнейшем мы будем использовать полиномиальную регрессию. Но я не буду обсуждать то, как она работает. 

Давайте получим и визуализируем новые данные.

In [None]:
X, y = get_poly_data()
plot_more_poly_data(X, y)

Теперь посмотрим, как различные полиномы могут репрезентировать данные.

In [None]:
plot_poly_data(X, y)

Но нужно помнить, что не всегда у нас может быть хороший набор данных. Допустим после того как мы обучили нашу модель мы собрали еще данных.  

In [None]:
X1, y1 = get_more_poly_data()
plot_more_poly_data(X, y, X1, y1)

Теперь посмотрим на ошибку также на новых данных.

In [None]:
plot_poly_data(X, y, X1, y1)

То есть, слишком сложная модель переобучается на данных. 

Для решения этой проблемы мы делим наши данные на обучающий набор и тестовый набор. Модель обучается на тестовом наборе, но окончательная оценка производится по тестовому набору. 

## Пример переобучения человека


![alt](img\illusion.jpg)

![alt](img\illusion2.jpg)

# Задание

* Сдалать линейную функцию
* Сдалать функцию ошибки
* Сдалать расчитать градиет
* Сдалать реализовать градиентный спуск