# Линейная регрессия

В этом домашнем задании мы работаем с набором данных об уровне счастья в странах за 2019 год. Он доступен в репозитории или можно скачать с Kaggle [соревнования](https://www.kaggle.com/unsdsn/world-happiness?select=2019.csv).

Все импорты помещаем сверху, под этой клеткой.

1.Считайте данные с помощью pandas в переменную `df`.

2.Выведите диаграмму рассеяния признаков `Score` и `GDP per capita` используя метод `regplot()` из `seaborn`.

Мы будем моделировать эту зависимость. То есть независимой переменной является `GDP per capita`, зависимой `Score`. Судя по диаграмме рассеяния, зависимость между этими двумя переменными должна хорошо описываться линейной моделью.

## Решение задачи линейной регрессии методом градиентного спуска

Обозначения:
- `X` - матрица признаков
- `y` - целевая переменная
- `theta` - вектор параметров
- `alpha` - темп обучения (learning rate)

3.Реализуйте формулу предсказания линейной регрессии в методе `predict`. Метод возвращает предсказание. Напомню, что для каждого наблюдения из матрицы признаков предсказание находим с помощью следующей формулы:
$$x \in X, i \in [1,m], j : \\ \hat{y}_i = \theta_0 + \theta_1 x_1 + ... + \theta_n x_n = \theta^T x ,\\
\text{где m - количество наблюдений, } \\ 
\text{n - количество признаков, } \\
x_0 = 1 \ \text{для всех наблюдений}.
$$

Предсказания для всех наблюдений в матрице Х можем найти как умножение матрицы признаков на веса.

In [None]:
def predict(X, theta):
    prediction = ...
    return prediction

4.Дополните вычисление значения функции затрат, формула которой приведена в слайдах лекции о линейной регрессии (подсказка - формула такая же, как если бы мы считали среднеквадратичную ошибку).   
Метод `cost()` принимает вектор параметров `theta`, матрицу наших признаков `X` и реальные значения  целевой переменной `y`.


In [None]:
def cost(y_true, y_estimate):
    m = len(y)
    cost_value = ... # ваш код тут
    return cost_value

5.Ознакомьтесь с реализацией метода `get_gradient()`, которая возвращает вектор частных производных функции затрат по каждому из параметров линейной регрессии.
Дополните метод `gradient_descent()`, которые позволят реализовать  алгоритм градиетного спуска. В ходе градиентного спука мы обновляем параметры согласно формуле: 
$$
\text{для каждого} \ j \in [0, n]: \quad \theta_j := \theta_j - \alpha \frac{\partial}{\partial \theta_j}J(\theta), \\ 
\text{где n - количество признаков}
$$
    Метод градиентного спуска обновляет веса (модель обучается) пока они не перестанут меняться от итерации к итерации, то есть пока Эвклидово расстояние (обычное расстояние между веткорами как в школьной геометрии) между векторами весов за последние две итерации не будет меньше небольшой константы (обычно обозначается как $\epsilon$ (эпсилон), мы установим $\epsilon=10^{-6}$).

В `gradient_descent()` заполните все места, где стоят троеточия. Используйте реализованные в предыдущих заданиях методы `cost()` и `predict()`, и конечно же Вам понадобится метод `get_gradient()`.

In [None]:
def get_gradient(X, y, y_estimate):
    error = y_estimate - y
    gradient = (1.0 / len(y)) * X.T.dot(error)
    return gradient

In [None]:
def gradient_descent(X, y, theta, learning_rate, eps, max_iterations):
    cost_history = []
    theta_history = []
    iterations = 1
    while True:
        y_estimate = ... # предсказание с текущими значениями весов
        gradient = ... # значения частных производных функции затрат с текущими значениями весов
        cost_value = ... # значение функции затрат при текущих весах
        cost_history.append(cost_value)
        new_theta = ...
        theta_history.append(new_theta)
        # Условие остановки, описанное в условии задания
        if ... < eps:
            print("Алгоритм сошёлся.")
            break
            
        # Второе условие остановки
        if iterations >= max_iterations:
            print("Достигнуто максимальное число итераций")
            break

        # Выводим информацию каждые 100 итераций
        if iterations % 100 == 0:
            print ("Итерация: %d - Ошибка на трейн данных: %.4f" % (iterations, cost_value))

        iterations += 1
        theta = new_theta
    return theta, cost_history, theta_history, iterations


Подготовим данные.

In [None]:
X = df['GDP per capita'].values.reshape(-1,1)
y = df['Score'].values.reshape(-1,1)

6.Разделите `X` и `y` на `train` и `test` подвыборки в соотношении 80/20. Поскольку у нас мало данных, валидационную выборку выделять не будем. Запишите результаты в `X_train`, `y_train`, `X_test`, `y_test`.

7.Реализуйте масштабирование признаков с использованием `MinMaxScaler`. Помните о том, как мы применяем масштабирование признаков на `train` и `test` выборках.

8.Добавьте колонку из единичек в массивы `X_train`, `X_test`.

9.Установите темп обучения равный 0.01, точность эпсилон равный $10^{-6}$, количество итераций равное 20000 и запустите градиентный спуск на тренировочных данных, передав все необходимые параметры.

In [None]:
learning_rate = ...
max_iterations = ...
epsilon = ...

theta = np.random.randn(2,1)

theta, cost_history, theta_history, iterations = gradient_descent(...)

10.Отобразите на линейном графике значения переменной `cost_history`. Используйте любую библиотеку для визуализации на ваш выбор.

Отобразите только первые 200 итераций. Похоже, после них модель мало обучается. Мы могли бы применить технику early stopping в данном случае и остановиться на некотором небольшом количестве итераций. Обычно эта техника применяется, чтоб збежать переобучения. При этом теряется немного точности на train set.

Выведем полученные параметры и последнее значение функции затрат.

In [None]:
print('Theta0:          {:0.3f},\nTheta1:          {:0.3f}'.format(theta[0][-1],theta[1][-1]))
print('Final cost/MSE:  {:0.3f}'.format(cost_history[-1]))
print('Number of iterateions: {:d}'.format(iterations))

11.Найдите прогнозы на `X_train_df`, `X_test_df` и посчитайте `mean_squared_error` ошибку прогнозов на обеих подвыборках.

12.Выведите диаграмму рассеяния признаков `Score` и `GDP per capita` и добавьте линию прогноза модели

13.Обучите линейную регрессию на наборе данных состоящем только из признака `GDP per capita`, но теперь используя LinearRegression из sklearn.   
Подумайте, надо ли в sklearn модель подавать колонку из единичек, которую мы подавали в самописную модель.

Сравните ошибку на тестовой выборке линейной регрессии, написанной вами, и из sklearn. Есть ли разница в значениях?

14.Обучим линейную регрессию на большем количестве признаков и посмотрим, удастся ли улучшить модель.

14.1.Обучите линейную регрессию из sklearn используя в качестве набора признаков следующий: `GDP per capita`, `Social support`, `Healthy life expectancy`, `Freedom to make life choices`, `Generosity`, `Perceptions of corruption`

Не забудьте:  
1. Разделить на `train` и `test`.
2. Нормировать каждую колонку данных.  

14.2.Выведите ошибку прогноза на `train` и `test` выборках. Сравните с результатом, полученным при обучении на одном признаке. Изменились ли метрики?

14.3.Выведите коэффициенты модели и определите, какие признаки имеют стоящие перед ними наибольшие коэффициенты по модулю (достаточно вывести названия признаков и коэффициенты в одном датафрейме).

15.Обучите модель полиномиальной регрессии со степенью 2 на тех же данных, что и в предыдущем пункте. Используйте в процессе обучения `PolynomialFeatures`. Исследуйте метрики качества на трейн и тест датасетах. Есть ли переобучение (overfit)?

16.Сделайте пайплайн с шагами `MinMaxScaler`, `PolynomialFeatures` и `ElasticNet`. Проведите поиск оптимальных гиперпараметров на тренировочном наборе данных используя `GridSearchCV`, метрика качества.   
Какие риперпараметры искать выберите на своё усмотрение, к примеру, это могут быть параметры регуляризации `ElasticNet` или количество степеней в `PolynomialFeatures`.  
Выведите значения найденных оптимальных гиперпараметров.  
Лучшую модель из кросс валидации оцените на тестовом наборе данных.  


Какая модель в домашнем задании дала лучшие значения среднеквадратичной ошибки на тестовых данных, лин. регрессия написанная самостоятельно, лин. регрессия из sklearn, полиномиальная регрессия со степенями признаков 2, модель найденная в результате поиска гиперпараметров?  