 ### Линейная регрессия
 ```

 План лабораторной работы

 1. Линейная регрессия

 2. Множественная линейная регрессия

 3. Полиномиальная регрессия

4. Переобучение и недообучение

 ```
 <hr>

 ## Типичная процедура обучения модели машинного обучения



 1. Определение задачи (обучение с учителем или без учителя, классификация или регрессия)

 1. Импорт необходимых библиотек

 1. Загрузка и исследование набора данных (визуализация)

 1. Предварительная обработка данных и разделение на обучающую и тестовую выборки (выбор признаков, масштабирование, нормализация и т.д.)

 1. Построение, обучение и тестирование модели

 1. Оценка модели с использованием соответствующих метрик оценки (MSE, $R^2$, точность, F-мера, точность, полнота и т.д.)

 ## 1. Линейная регрессия



 В этой задаче регрессии мы будем предсказывать процент оценок, которые студент, вероятно, получит, основываясь на количестве часов, которые он потратил на учебу.

 <br>

 <br>

 <center><b>Простая линейная регрессия</b></center>



 $$y = \beta_0 + \beta_1x_1 $$



 **Задание 1.1:** Объясните своими словами, что означают коэффициенты $\beta_0$ и $\beta_1$ в контексте этой задачи.

In [None]:
# TODO: Объясните значение beta_0 и beta_1


 ### 1.2 Импорт необходимых библиотек

In [None]:
import pandas as pd 
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn import metrics


 ### 1.3 Загрузка и исследование набора данных

In [None]:
student_scores_df = pd.read_csv('student_scores.csv')
student_scores_df.head()


 ### 1.3.1 Статистика данных

In [None]:
student_scores_df.describe()


 ### 1.3.1 Визуализация



 Постройте точки данных на двумерном графике, чтобы визуально оценить наш набор данных и посмотреть, можно ли вручную найти какую-либо зависимость между точками данных. Обычно используется Matplotlib, но существуют и другие библиотеки, например [Plotly](https://github.com/plotly/plotly.py  ), [Seaborn](https://seaborn.pydata.org/  ),[Geoplotlib](https://github.com/andrea-cuttone/geoplotlib/wiki/User-Guide  ), [Gleam](https://github.com/dgrtwo/gleam  ), [ggplot](https://github.com/tidyverse/ggplot2  )



 **Помните:** График должен иметь заголовок, подписи осей и легенду для легкой интерпретации

In [None]:
student_scores_df.plot(x='Hours', y='Scores', style='o')
plt.title('Часы против Процента')
plt.xlabel('Часы учебы')
plt.ylabel('Процент оценки')
plt.show()


 **Задание 1.2:** Используя библиотеку `seaborn`, создайте более продвинутую визуализацию, например, `sns.scatterplot()` с теми же данными. Добавьте линию тренда с помощью `sns.regplot()`.

In [None]:
# TODO: Создайте визуализацию с seaborn


 ### 1.4 Предварительная обработка данных и разделение на обучающий и тестовый наборы

In [None]:
X = student_scores_df.iloc[:, :-1].values
y = student_scores_df.iloc[:, 1].values

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=431)


 ### 1.5 Построение, обучение и тестирование модели линейной регрессии

In [None]:
regressor = LinearRegression()
regressor.fit(X_train, y_train)
print(f"Пересечение модели (intercept) : {regressor.intercept_}")
print(f"Коэффициент модели (coefficient) : {regressor.coef_}")

y_pred = regressor.predict(X_test)
eval_df = pd.DataFrame({'Фактический': y_test, 'Прогнозируемый': y_pred})


In [None]:
eval_df


 **Задание 1.4:** Используйте обученную модель для предсказания оценки студента, который учился 9.25 часов. Сравните это предсказание с фактическими данными, если они доступны.

In [None]:
# TODO: Сделайте предсказание для 9.25 часов обучения


 ### 1.5 Оценка модели с использованием соответствующих метрик оценки

In [None]:
print('Средняя абсолютная ошибка (MAE):', metrics.mean_absolute_error(y_test, y_pred))
print('Среднеквадратичная ошибка (MSE):', metrics.mean_squared_error(y_test, y_pred))
print('Корень из среднеквадратичной ошибки (RMSE):', np.sqrt(metrics.mean_squared_error(y_test, y_pred)))
print('Коэффициент детерминации (R2):', metrics.r2_score(y_test, y_pred))


 ## 2. Множественная линейная регрессия



 Линейная регрессия с участием нескольких переменных называется "множественной линейной регрессией".

 Мы будем использовать множественную линейную регрессию для прогнозирования потребления бензина (в миллионах галлонов) в 48 штатах США на основе налогов на бензин (в центах), дохода на душу населения (доллары), асфальтированных автомагистралей (в милях) и доли населения, имеющего водительские права.

 Мы ищем модель вида:



 $$\hat{y} = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + ... + \beta_n x_n.$$

 ### 2.3  Загрузка и исследование набора данных

In [None]:
petrol_consumption_df = pd.read_csv('petrol_consumption.csv')
petrol_consumption_df.head()


In [None]:
petrol_consumption_df.describe().T


 **Задание 2.1:** Постройте матрицу корреляций для всех признаков в датасете `petrol_consumption_df` с помощью `seaborn.heatmap()`. Проанализируйте, какие признаки наиболее сильно коррелируют с целевой переменной `Petrol_Consumption`.

In [None]:
# TODO: Постройте матрицу корреляций


 ### 2.4 Предварительная обработка данных и разделение на обучающий и тестовый наборы

In [None]:
X = petrol_consumption_df.drop('Petrol_Consumption', axis=1)
y = petrol_consumption_df['Petrol_Consumption']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)


 **Задание 2.2:** Проверьте, нет ли в данных пропущенных значений (missing values) с помощью метода `.isnull().sum()` для датафрейма `petrol_consumption_df`.

In [None]:
# TODO: Проверьте наличие пропущенных значений


 ### 2.5 Построение, обучение и тестирование модели регрессии

In [None]:
regressor = LinearRegression()
regressor.fit(X_train, y_train)
print(f"Пересечение модели (intercept) : {regressor.intercept_}")
print(f"Коэффициенты модели (coefficients) : {regressor.coef_}")


 **Задание 2.3:** Создайте DataFrame, который будет содержать имена признаков и соответствующие им коэффициенты модели. Это поможет лучше интерпретировать влияние каждого признака на целевую переменную.

In [None]:
# TODO: Создайте DataFrame с коэффициентами модели


 ### 2.6 Оценка модели с использованием соответствующих метрик оценки



 **Задание 1 :** Используйте функцию predict в модели (`regressor`) для прогнозирования выходных данных тестового набора (`X_test`) и распечатайте их.



 **Задание 2 :** Измерьте производительность модели с помощью: <br>

 1. корня среднеквадратичной ошибки (RMSE)

 1. средней абсолютной ошибки (MAE)

 1. коэффициента детерминации $R^2$. См. [`sklearn.metrics.r2_score`](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.r2_score.html  ) для $R^2$.

In [None]:
# TODO: Сделайте предсказания на тестовом наборе


In [None]:
# TODO: Вычислите метрики RMSE, MAE и R2


 ## 3. Полиномиальная регрессия, недообучение и переобучение



 Полиномиальная регрессия - это просто преобразование объясняющих переменных в члены более высокого полиномиального порядка с интерактивными переменными.



 1. Зачем она нам нужна?

 1. Какой порядок полинома мы должны выбрать?

 2. Следует ли всегда выбирать самую сложную модель?





 ### 3.2 Импорт библиотек

In [None]:
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import PolynomialFeatures #для преобразования исходных признаков в их члены более высокого порядка 
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import cross_val_score


 ### 3.3 Загрузка и исследование набора данных

 **Для этой задачи мы сгенерируем синтетический набор данных, добавив некоторый случайный гауссовский шум к косинусоидальной функции.**

In [None]:
# косинусоидальная функция
def sinusoidal(X):
    return np.cos(1.5 * np.pi * X)

np.random.seed(0)

n_samples = 30
X = np.sort(np.random.rand(n_samples))
y = sinusoidal(X) + np.random.randn(n_samples) * 0.1

plt.scatter(X,y,label="Выборки")
plt.title('синтетический набор данных')
plt.xlabel('X')
plt.ylabel('Y')
plt.legend(loc="best")
plt.show()


 **Задание 3.1:** Попробуйте изменить уровень шума (коэффициент перед `np.random.randn`) на 0.01 и 0.5. Как это влияет на сложность задачи и выбор подходящей модели?

In [None]:
# TODO: Исследуйте влияние уровня шума на данные


 ### 3.4 Предварительная обработка данных, построение модели и оценка модели



 * Мы построим три полиномиальные модели со степенями [1, 4, 15] и понаблюдаем за влиянием увеличения степени сложности модели на то, насколько хорошо она подходит к данным.

 * Мы оценим нашу модель с помощью перекрестной проверки (cross validation)

In [None]:
degrees = [1, 4, 15]

plt.figure(figsize=(14, 5))
for i in range(len(degrees)):
    ax = plt.subplot(1, len(degrees), i + 1)
    plt.setp(ax, xticks=(), yticks=())

    polynomial_features = PolynomialFeatures(degree=degrees[i])
    linear_regression = LinearRegression()
    pipeline = Pipeline([("polynomial_features", polynomial_features),
                         ("linear_regression", linear_regression)])
    pipeline.fit(X[:, np.newaxis], y)

    # Оценка моделей с использованием перекрестной проверки
    scores = cross_val_score(pipeline, X[:, np.newaxis], y,
                             scoring="neg_mean_squared_error", cv=10)

    X_test = np.linspace(0, 1, 100)
    plt.plot(X_test, pipeline.predict(X_test[:, np.newaxis]), label="Модель")
    plt.plot(X_test, sinusoidal(X_test), label="Истинная функция")
    plt.scatter(X, y, edgecolor='b', s=20, label="Выборки")
    plt.xlabel("x")
    plt.ylabel("y")
    plt.xlim((0, 1))
    plt.ylim((-2, 2))
    plt.legend(loc="best")
    plt.title("Степень {}\nMSE = {:.2e}(+/- {:.2e})".format(
        degrees[i], -scores.mean(), scores.std()))
plt.show()


 **Задание 3.2:** Объясните, какая из трех моделей (степень 1, 4 или 15) демонстрирует недообучение, какая - хорошее приближение, а какая - переобучение. Обоснуйте свой ответ.

In [None]:
# TODO: Объясните недообучение, переобучение и хорошее приближение


 **Задание 3.3:** Попробуйте добавить регуляризацию (например, Ridge regression) к полиномиальной модели степени 15. Помогает ли это уменьшить переобучение?

In [None]:
# TODO: Примените регуляризацию Ridge к модели


  ## <center>Задания / Домашняя работа</center>







  * Используя набор данных о ценах на жилье в Бостоне (Boston house-prices dataset).



      1. Разделите данные на обучающий и тестовый наборы (80% для обучения). Используйте [`sklearn.model_selection.train_test_split`](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html    )



      1. Обучите модель множественной линейной регрессии, которая будет предсказывать цену дома (`MEDV`).



      1. Распечатайте `среднюю абсолютную ошибку` (MAE), `среднеквадратичную ошибку` (MSE) и `корень из среднеквадратичной ошибки` (RMSE) модели.











  * Выберите `RM` или `LSTAT` в качестве независимой переменной и `MEDV` в качестве зависимой переменной



      1. Визуализируйте данные (используя `matplotlib`)



      1. Создайте модель полиномиальной регрессии, используя степени `[1,5,24]`



      1. Объясните свои наблюдения в терминах переобучения, недообучения и компромисса смещения-дисперсии.







  * Дополнительные задания:



      1. Постройте графики зависимости MSE от степени полинома для обучающей и тестовой выборок. Проанализируйте, при какой степени начинается переобучение.



      1. Используйте регуляризацию (Ridge или Lasso) для борьбы с переобучением в полиномиальной регрессии. Сравните результаты.


In [None]:
import pandas as pd
import numpy as np
def load_boston():
    header =  ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT', 'MEDV'] 
    data_url = "http://lib.stat.cmu.edu/datasets/boston"
    raw_df = pd.read_csv(data_url, sep="\s+", skiprows=22, header=None)
    data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]])
    target = np.expand_dims(raw_df.values[1::2, 2], 1)
    df = pd.DataFrame(np.hstack([data, target]), columns=header)
    return df


In [None]:
# Решение