# Определение и принцип работы
Построим модель, используя **Линейную регрессию**.

Линейная регрессия — это алгоритм **обучения с учителем**, используемый, когда целевая/зависимая переменная является действительным числом. При линейной регресии устанавливается связь между зависимой переменной $y$ и одной или несколькими независимыми переменными $x$, используя линию наилучшего соответствия. Линейная регрессия работает по принципу наименьших квадратов $(OLS)$ и среднеквадратической ошибки $(MSE)$. В статистике OLS — это метод оценки неизвестных параметров функции линейной регрессии, цель которого — минимизировать сумму квадратов разностей между наблюдаемыми зависимыми переменными в заданном наборе данных и значениями, предсказанными функцией линейной регрессии.

## Представление гипотезы

Мы будем использовать $\mathbf{x_i}$ для обозначения независимой переменной, а $\mathbf{y_i}$ — для обозначения зависимой переменной. Пара $\mathbf{(x_i,y_i)}$ называется обучающим примером. Индекс $\mathbf{i}$ в обозначении — это просто индекс в обучающем наборе. У нас есть обучающий пример $\mathbf{m}$, тогда $\mathbf{i = 1,2,3,...m}$.

Цель обучения с учителем — обучить *функцию гипотезы $\mathbf{h}$* для заданного обучающего набора, которую можно использовать для оценки $\mathbf{y}$ на основе $\mathbf{x}$. Таким образом, функция гипотезы представлена ​​как

$$\mathbf{ h_\theta(x_{i}) = \theta_0 + \theta_1x_i }$$
$\mathbf{\theta_0,\theta_1}$ являются параметрами гипотезы. Это уравнение для **простой/одномерной линейной регрессии**.

<img src=data/lr2.png></img> 

Для **множественной линейной регрессии**, где присутствует более одной независимой переменной, мы будем использовать $\mathbf{x_{ij}}$ для обозначения независимой переменной и $\mathbf{y_{i}}$ для обозначения зависимой переменной. Если независимая переменная $\mathbf{n}$, то $\mathbf{j=1,2,3 ..... n}$. Функция гипотезы, представленная как

$$\mathbf{h_\theta(x_{i}) = \theta_0 + \theta_1x_{i1} + \theta_2 x_{i2} + ..... \theta_j x_{ij} ...... \theta_n x_{mn} }$$
$\mathbf{\theta_0,\theta_1,....\theta_j....\theta_n }$ — параметр гипотезы,
$\mathbf{m}$ Количество обучающих примеров,
$\mathbf{n}$ Номер независимой переменной,
$\mathbf{x_{ij}}$ — это $\mathbf{i^{th}}$ пример обучения функции $\mathbf{j^{th}}$.

<img src=data/lr3.png></img> 

### Предскажем зарплату ($y$) по опыту работы ($x_1$) и возрасту ($x_2$):

$$
\hat{y} = 20{,}000 + 3{,}000 \cdot x_1 + 500 \cdot x_2
$$

* Опыт работы на год больше → зарплата выше на 3000.
* Возраст на год больше → зарплата выше на 500.

Для задачи регрессии мы теперь пытаемся приблизить значение игрек какой-то линейной функцией от переменной икс. А что будет значить линейность для задачи классификации? Давайте вспомним про пример с поиском мошеннических транзакций по картам. Допустим, нам известна ровно одна численная переменная — объём транзакции. Для бинарной классификации транзакций на законные и потенциально мошеннические мы будем искать так называемое разделяющее правило: там, где значение функции положительно, мы будем предсказывать один класс, где отрицательно – другой. В нашем примере простейшим правилом будет какое-то пороговое значение объёма транзакций, после которого есть смысл пометить транзакцию как подозрительную

<img src=data/ya_linear1.png></img> 

## Первичный анализ

In [None]:
# Import library
import pandas  as pd #Data manipulation
import numpy as np #Data manipulation
import matplotlib.pyplot as plt # Visualization
import seaborn as sns #Visualization
plt.rcParams['figure.figsize'] = [8,5]
plt.rcParams['font.size'] =14
plt.rcParams['font.weight']= 'bold'
#plt.style.use('seaborn-whitegrid')

In [None]:
# Import dataset
#path ='dataset/'
path = 'data/insurance/'
df = pd.read_csv(path+'insurance.csv')
print('\nNumber of rows and columns in the data set: ',df.shape)
print('')

#Lets look into top few rows and columns in the dataset
df.head()

Таким образом, есть обучающий выбор с $\mathbf{m=1338}$ примерами, в каждом из которых переменных - $\mathbf{n=7}$. Целевая переменная здесь — это расходы, а оставшиеся шесть переменных, такие как возраст, пол, ИМТ, дети, курение и регион, являются признаками. Целевая функция выглядит следующим образом:

$$\mathbf{ h_\theta(x_{i}) = \theta_0+\theta_1 age + \theta_2 sex + \theta_3 bmi + \theta_4 children + \theta_5 smoker + \theta_6 region }$$

Для такой функции объект выборки будет слудующим.  
If $\mathbf{i=0}$ then 

$$\mathbf{h_\theta(x_{0}) = \theta_0+\theta_1 19 + \theta_2 female + \theta_3 27.900 + \theta_4 0 + \theta_5 yes + \theta_6 southwest}$$

If $\mathbf{i=2}$ then $$\mathbf{h_\theta(x_{2}) = \theta_0+\theta_1 28 + \theta_2 male + \theta_3 33.000 + \theta_4 3 + \theta_5 no + \theta_6 northwest}$$ 
$$\mathbf{y_3 = 4449.46200}$$

$$\mathbf{x_1 = \left(\begin{matrix} x_{11} & x_{12} & x_{13} & x_{14} & x_{15} & x_{16}\end{matrix}\right) = \left(\begin{matrix} 19 & female & 27.900 & 1 & no & northwest\end{matrix}\right) }$$

## Матричная формулировка

В общем случае вектор можно записать как $$ \mathbf{ x_{ij}} = \left( \begin{smallmatrix} \mathbf{x_{i1}} & \mathbf{x_{i2}} &.&.&.& \mathbf{x_{in}} \end{smallmatrix} \right)$$

Теперь мы объединяем все доступные отдельные векторы в одну входную матрицу размера $(m,n)$ и обозначаем её как входная матрица $\mathbf{X}$, которая состоит из всех обучающих примеров,
$$\mathbf{X} = \left( \begin{smallmatrix} x_{11} & x_{12} &.&.&.&.& x_{1n}\\
x_{21} & x_{22} &.&.&.&.& x_{2n}\\
x_{31} & x_{32} &.&.&.&.& x_{3n}\\
.&.&.&. &.&.&.& \\
.&.&.&. &.&.&.& \\
x_{m1} & x_{m2} &.&.&.&.&. x_{mn}\\
\end{smallmatrix} \right)_{(m,n)}$$

Представим параметр функции и зависимую переменную в векторной форме как:
$$\theta = \left (\begin{matrix} \theta_0 \\ \theta_1 \\ .\\.\\ \theta_j\\.\\.\\ \theta_n \end {matrix}\right)_{(n+1,1)}
\mathbf{ y } = \left (\begin{matrix} y_1\\ y_2\\. \\. \\ y_i \\. \\. \\ y_m \end{matrix} \right)_{(m,1)}$$

Итак, мы представляем функцию-гипотезу в векторизованном виде: $$\mathbf{ h_\theta{(x)} = X\theta}$$

Seaborn позволяет визуализировать линии регресии с помощью lmplot https://seaborn.pydata.org/tutorial/regression.html


## Функция потерь (Loss function)


Функция потерь измеряет степень ошибки модели с точки зрения её способности оценить взаимосвязь между $x$ и $y$.
Ведь нужен способ измерить, насколько наша предсказанная прямая ошибается. Мы не можем просто посчитать разницы, потому что некоторые ошибки будут положительными, некоторые отрицательными, и в сумме они дадут ноль, даже если ошибки огромны.

Существует много способов определить функцию потерь. Наиболее популярный - метод наименьших квадратов

1. Для каждого объекта считает разницу между реальным значением целевой переменной и предсказанием
Ошибка = Y_real - Y_pred

2. Возводим каждую ошибку в квадрат. Это решает проблему с знаками (все числа становятся положительными) и сильно штрафует модель за большие ошибки.
Квадрат ошибки = (Y_real - Y_pred)²

3. Складываем все квадраты ошибок для всех объектов. 

4. Делим на количество объектов в датасете, чтобы получить среднее значение.

4 шага дают функцию потерь, которая покажет насколько "не точна" наша модель

Для нашей задачи
$$L(a, b) = (1/n) * Σ [ (Yreal_i - (\theta_0+\theta_1 age + \theta_2 sex + \theta_3 bmi + \theta_4 children + \theta_5 smoker + \theta_6))² ]$$

Минимум функции потерь - наша цель

## Градиентный спуск

Как известно, градиент функции в точке направлен в сторону её наискорейшего роста, а антиградиент (противоположный градиенту вектор) в сторону наискорейшего убывания. То есть имея какое-то приближение оптимального значения параметра, мы можем его улучшить, посчитав градиент функции потерь в точке и немного сдвинув вектор весов в направлении антиградиента

<img src="data/descent.png"></img>

<img src="data/descent2.png"></img>

<img src="data/descent3.png"></img>

<img src="data/descent4.png"></img>

## Стохастический градиентный спуск

На каждом шаге градиентного спуска нам требуется выполнить потенциально дорогую операцию вычисления градиента по всей выборке. Возникает идея заменить градиент его оценкой на подвыборке (в английской литературе такую подвыборку обычно именуют batch или mini-batch; в русской разговорной терминологии тоже часто встречается слово батч или мини-батч).


## Регуляризация

<img src="data/regular1.png"></img>

К чему это приводит переобучение?

- Наша модель становится слишком сложной. Она уже не прямая линия, а "зазубренная" кривая, которая изгибается, чтобы пройти через каждую точку.

Как понять что идет переобучение
- На тренировочных данных (на тех примерах, что мы ей показали) она ошибается очень мало (функция потерь почти нулевая). Но на новых данных она делает большие ошибки. 
- большие коэффициенты (таким образом она "объясняет шум в данных")
- мало данных при многих признаках

Регуляризация - штрафное слагаемое функции потерь 

**Новая_Функция_Потерь = Старая_Функция_Потерь + λ * Штраф(Веса)**
λ — коэффициент регуляризации. Он определяет, насколько сильно мы штрафуем модель

Варианты регуляризации: L1 (Lasso) vs L2 (Ridge)

Вариант 1: L2-регуляризация (Rgeression) — "Штраф за слишком быструю езду"

Как считается штраф? Штраф = a₁² + a₂² + ... + aₙ² (Сумма квадратов всех весов).
Как работает?

Она не обнуляет веса, а равномерно уменьшает их все, сжимая модель.

Когда использовать? Когда все признаки в той или иной степени полезны для предсказания.
Вариант 2: L1-регуляризация (Lasso-регрессия) — "Отбор самых важных признаков"

Как считается штраф? Штраф = |a₁| + |a₂| + ... + |aₙ| (Сумма модулей всех весов).
Как работает?

Она имеет очень полезное свойство: она обнуляет веса менее важных признаков.
Когда использовать? Когда большинство из них бесполезны или избыточны. Lasso помогает упростить модель и отобрать только самое главное.
Сравнение на примере:

Допустим, у нас есть три признака для предсказания цены квартиры:


<img src="data/regular2.png"></img>