
# Семинар: Линейная регрессия. Задачи

### Задание: Линейная регрессия.

В этом задании мы рассмотрим метод линейной регрессии (метод наименьших квадратов - МНК). Будем работать с наборов данных, содержащим информацию о бриллиантах. Описание можно посмотреть [здесь](https://www.kaggle.com/shivam2503/diamonds).

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

In [None]:
data = pd.read_csv('diamonds.csv')
data.head(5)

Будем решать задачу предсказания цены бриллианта `price` в зависимости от его характеристик.

**Задача 1.1.** Есть ли в наборе данных пропущенные значения? Если да, удалите их. 

**Задача 1.2.** Есть ли в наборе данных бессмысленные столбцы (признаки, не несущие дополнительной информации)? Если да, то удалите их. 

Выведите размеры таблицы.

**Задача 1.3.** Линейная регрессия основана на предположении о линейной связи между признаками и целевой переменной, а потому перед выбором переменных для включения в модель имеет смысл проверить, насколько эта связь выполняется. Для следующих пунктов нам также потребуются выборочные корреляции между признаками. 

Выведите матрицу выборочных корреляций между всеми вещественными признаками и целевой переменной (то есть в этой матрице будет $k+1$ строка, где $k$ – количество вещественных признаков).

Какие вещественные признаки коррелируют с целевой переменной больше всего?

**Задача 1.4.** Так как линейная модель складывает значения признаков с некоторыми весами, нам нужно аккуратно обработать категориальные признаки. Закодируйте категориальные переменные при помощи OneHot-кодирования.

Выведите размеры полученной таблицы.

**Задача 1.5.** Отделите целевую переменную. Разделите выборку на тренировочную и тестовую. Долю тестовой выборки укажите равной 0.3, при разделении выборки укажите параметр `random_state=123`.

Выведите размеры тренировочной и тестовой выборок после разделения.

**Задача 1.6.** Зачастую при использовании линейных моделей вещественные признаки масштабируются. При этом оценки коэффициентов теряют прямую статистическую интерпретацию ("при увеличении $X_1$ на 1, $y$ увеличивается на $w_1$"), но приобретают свойства, полезные в задачах машинного обучения. 

В этой задаче масштабируйте вещественные признаки тренировочной и тестовой выборок при помощи модуля `StandardScaler`.

**Задача 1.7.** Обучите
линейную регрессию на тренировочной выборке. Сделайте предсказания на тренировочной и тестовой выборках. Выведите среднеквадратичную ошибку на тренировочной и тестовой выборках.

**Задача 1.8.** Изучите документацию модуля `LinearRegression` и выведите полученные оценки коэффициентов (весов). Назовите вещественные переменные, оценки коэффициентов которых по модулю на порядок превышают оценки прочих вещественных переменных.

**Задача 1.9.** Как можно заметить из анализа корреляционной матрицы в задаче 1.3, *между некоторыми признаками* имеется сильная корреляция, что может быть индикатором проблемы *мультиколлинеарности* (наличия линейной зависимости между объясняющими переменными (факторами) модели). Различия в порядке коэффициентов, выявленные в предыдущей задаче также намекают на её присутствие. Как известно, для решения этой проблемы можно   
*либо исключить некоторые признаки из модели*,  
*либо использовать регуляризацию*.   
Мы воспользуемся вторым вариантом. 

Вспомним, что смысл регуляризации заключается в том, чтобы изменить функцию потерь так, чтобы устранить проблемы, появляющиеся из-за мультиколлинеарности. 

При L1-регуляризации предлагается минимизировать следующую функцию потерь:

$
Q_\alpha(w) = \|y - X\hat{w}\|^2 + \alpha\sum_{i=1}^k|w_i|.
$
Такая модель называется Lasso-регрессией.

При L2-регуляризации предлагается минимизировать следующую функцию потерь:

$
Q_\alpha(w) = \|y - X\hat{w}\|^2 + \alpha\|w\|^2.
$
Такая модель называется Ridge-регрессией. 

В обучающей выборке выберите два признака, сильно коррелирующих между собой, и постройте зависимость (scatter) одного от другого.

Обучите Lasso-регрессию и Ridge-регрессию, уставновив гиперпараметр регуляризации равным 10. Для этого используйте модули `Lasso` и `Ridge` из `sklearn`. Сильно ли уменьшились веса?

**Задача 1.10** Lasso-регрессию можно использовать для отбора наиболее информативных признаков. 

Для следующих значений параметра регуляриазции $\alpha$: 0.1, 1, 10, 100, 200 –  обучите Lasso- и Ridge-регрессии и постройте график измненения евклидовой нормы весов (`np.linalg.norm()` от вектора оценок коэффициентов) в зависимости от параметра $\alpha$. 

Как известно, норма является численной характеристикой величины вектора, а потому по норме можно судить о том, насколько большие элементы содержит вектор оценок коэффициентов. 

Какой метод сильнее уменьшает веса? 

In [None]:
alpha = np.array([0.1, 1, 10, 100, 200])

**Задача 1.11** 
В зависимости от значения параметра $\alpha$ в Lasso-регрессии зануляются разные оценки коэффициентов. Оптимальное значение $\alpha$ можно подобрать, например, при помощи кросс-валидации по тренировочной выборке. 

Для проведения кросс-валидации используем модуль `LassoCV`. Этот модуль принимает список значений $\alpha$ (параметр `alphas`) и при обучении проводит кросс-валидацию для каждого значения из этого списка. `LassoCV` сохраняет MSE на каждом участке кросс-валидации (количество участков – параметр `cv`) в матрицу ошибок (то есть итоговая матрица будет иметь размер `len(alphas)` $\times$ `cv`). 

_После обучения модели матрицу ошибок можно получить, обратившись к атрибуту `.mse_path_`. 
Заметим, что модель может использовать $\alpha$ не в том порядке, в котором вы подаёте их в функцию: для определения порядка используйте атрибут `.alphas_`_

Итак, импортируйте модуль `LassoCV`. В `LassoCV` установите количество участков для кросс-валидации (параметр `cv`) равным 5, передайте список $\alpha$, установите `random_state=123`.

Обучите `LassoCV` на тренировочной выборке. 

Выведите матрицу ошибок.

Выведите $\alpha$ в порядке использования их моделью.

Усредните ошибки MSE для каждого значения $\alpha$ (то есть по строкам матрицы ошибок) и выберите то значение $\alpha$, которое даёт наилучшее качество. 

In [None]:
from sklearn.linear_model import LassoCV

In [None]:
alpha = np.array([0.1, 0.3, 0.5, 0.7, 0.9, 1, 10, 100, 200])

**Задача 1.12** Обучите снова Lasso-регрессию (аналогично задаче 1.9) с подобранным в задаче 1.11 
параметром $\alpha$ на тренировочной выборке. Выведите полученные здесь коэффициенты (веса) и коэффициенты (веса) обычной линейной регрессии из задачи 1.8. Какие признаки оказались неинформативными, а какие – наиболее информативными?

**Задача 1.13** Сделайте предсказания на тестовой выборке обученной в задаче 1.12 Lasso-регрессией и сравните среднеквадратичную ошибку с ошибкой обычной линейной регрессии на тестовой выборке из задачи 1.7. Какую модель лучше использовать для предсказаний? 