## Юнит 5. Основные алгоритмы машинного обучения. Часть I 
### Skillfactory: DSPR-19
### ML-3A. Регрессия 

План модуля:
1. Линейная регрессия.
2. Ошибки в линейной регрессии.
3. Прямой поиск.
4. Логистическая регрессия.

**Регрессия** — класс задач обучения ***с учителем***, когда по определённому набору признаков объекта нужно предсказать целевую переменную.

### 3A.2. Линейная регрессия
#### Реализация в Python
Обучим совсем простую модель, которая будет предсказывать тормозной путь автомобиля в зависимости от скорости.

In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [3]:
myData = pd.read_csv('mycar.csv')

In [4]:
myData.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 49 entries, 0 to 48
Data columns (total 2 columns):
 #   Column         Non-Null Count  Dtype
---  ------         --------------  -----
 0   Speed          49 non-null     int64
 1   Stopping_dist  49 non-null     int64
dtypes: int64(2)
memory usage: 912.0 bytes


In [5]:
myData.head(5)

Unnamed: 0,Speed,Stopping_dist
0,4,2
1,4,10
2,7,4
3,7,22
4,8,16


У нас здесь всего два признака: один из них будет зависимой переменной, а другой — независимой.  
Обозначим их:


In [9]:
X = myData.iloc[:,:-1].values #Speed
Y = myData.iloc[:,1].values  #Stopping_dist

Для начала нам необходимо разделить выборку (то есть все наши объекты) на **обучающую** и **тестовую**. Давайте разберемся, зачем это нужно.

Дело в том, что нам не столько важно, насколько успешно будет алгоритм давать предсказания на наших данных, сколько важно, чтобы он показывал хорошие результаты на реальных данных, «в бою». Можно привести следующую аналогию: обучающая выборка — это тренировочные примеры для нашего алгоритма, а тестовая — экзаменационные.

Обычно выборка делится на обучающую и тестовую не в равных долях: на обучающую  мы берем 70-80 % наблюдений, а на тестовую — 20-30 % наблюдений.

Подгрузим нужную функцию для разбиения:

In [10]:
from sklearn.model_selection import train_test_split

Теперь с помощью этой функции мы получаем независимые и зависимые переменные из обучающей и тестовой выборки. Размер тестовой выборки задаем 0,3.

In [11]:
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size= 0.3)

Теперь обучим модель:

In [12]:
from sklearn.linear_model import LinearRegression
myModel = LinearRegression() #Обозначаем, что наша модель - линейная регрессия
myModel.fit(X_train,Y_train) #обучаем модель на обучающих данных

LinearRegression()

Итак, модель обучена. Что теперь?

Теперь можем попробовать предсказать значения зависимой переменной для тестовой выборки:

In [13]:
y_pred = myModel.predict(X_test)
y_pred

array([38.22182297, 42.00279782, 76.03157144, 38.22182297, 45.78377266,
       60.90767205, 26.87889843, 57.1266972 , 30.65987328, 19.31694873,
       23.09792358, 49.56474751, 45.78377266, 49.56474751, 49.56474751])

Но как узнать, насколько модель хороша? Для этого мы в будущих уроках научимся сравнивать, насколько предсказанные значения близки к реальным.

### Задание 3.2.1
Какая из этих задач является задачей линейной регрессии?  
Ответ:
- Предсказание зарплаты на основе опыта работы, образования и т.д

### Задание 3.2.2
Почему для этих данных не подходит модель линейной регрессии?  
Ответ:
- Дисперсия шума зависит от x




### Задание 3.2.3
Какой размер будет у матрицы X (матрица признаков) для данных в таблице? Задача — модель предсказания продаж.  
Ответ:
- (3*2) 

### 3A.3. Ошибки в линейной регрессии


Есть несколько способов посчитать ошибку, один из них — средняя квадратичная ошибка (mean squared error, MSE).  
  
Как правило, при увеличении сложности модели увеличивается **дисперсия** (разброс) оценки, но уменьшается **смещение**. Если модель слабая, то она не в состоянии выучить закономерность, в результате выучивается что-то другое, смещённое относительно правильного решения.

Построить модель регрессии не так уж и сложно. Но после ее построения возникает логичный вопрос: насколько хорошо она предсказывает нужный нам признак и можно ли улучшить его качество? Для этого надо уметь измерять какие-то показатели, по которым можно судить о качестве модели.

Для каждого значения переменной Х мы имеет реальное значение и предсказанное. Для того, чтобы оценить качество алгоритма, нам надо научиться определять, насколько предсказанное значения отличается от реального. Есть несколько способов это сделать.

**MAE (Mean Absolute Error)**. Чтобы посчитать данную метрику, нужно найти все остатки (разницы между предсказанным значением и реальным), взять от каждого из них модуль, сложить их и поделить на количество. Иными словами, нам нужно найти среднее арифметическое модуля отклонения предсказанного значения от реального.

**MSE (Mean Squared Error)**. Логика вычисления данной ошибки очень похожа на предыдущую. Разница лишь в том, что вместо модуля разности между предсказанным значением и реальным мы берем квадрат этого модуля/

**RMSE (Root Mean Squared Error)**. Для получения RMSE надо просто извлечь квадратный корень из MSE

**MAPE (Mean Absolute Percent Error)** — реже используемая, но все равно важная метрика. Для ее вычисления модуль разницы между предсказанием алгоритма и истинным значением мы делим на истинное значение. Потом складываем все результаты (для каждого объекта), делим на количество и умножаем на 100 %. Итак, эта метрика показывает, на сколько процентов в среднем наше предсказание отклоняется от реального значения.

Реализация на Python  
Подгружаем нужные библиотеки:

In [15]:
import pandas as pd               # библиотека для работы с таблицами
import numpy as np                # библиотека для работы с матрицами

Предположим, что у нас есть показатели уровня счастья для пяти человек:



In [16]:
y_happy = [4,20,110,15,23]

Допустим, у нас есть показатели счастья для этих же пяти человек, но предсказанные некоторым алгоритмом:



In [17]:
y_happy_pred = [5,15,100,9,21]

Давайте вычислим метрики для этих данных!



In [19]:
from sklearn import metrics  # подгружаем метрики

In [20]:
#Вычисляем MAE:

MAE = metrics.mean_absolute_error(y_happy, y_happy_pred)

print(MAE)

4.8


In [21]:
#Вычисляем MSE:

MSE = metrics.mean_squared_error(y_happy, y_happy_pred)
print(MSE)

33.2


In [22]:
#Вычисляем коэффициент детерминации:

R_2 = metrics.r2_score(y_happy, y_happy_pred)
print(R_2)

0.9774247946472284


Теперь мы умеем обучить модель линейной регрессии и рассчитывать все  метрики для оценки ее качества.



### Задание 3.3.1
Чему равна MSE на этих данных F?

In [23]:
y_F = [1,3,2,5]

In [24]:
y_F_pred = [2,3,-1,4]

In [25]:
#Вычисляем MSE:

MSE = metrics.mean_squared_error(y_F, y_F_pred)
print(MSE)

2.75


### Задание 3.3.2
Что из этого является причиной использования MSE для задачи линейной регрессии?  
Ответ:
- Функция потерь непрерывная
- MSE сильнее штрафует за большие ошибки
- MSE выпуклая

### Задание 3.3.3
У какой из этих моделей большой bias, а у какой — variance?  
Ответ:
- У левой большой variance
- У правой большой bias



### 3A.4. Поиск прямой
