# <a href="https://mipt-stats.gitlab.io/courses/ad_mipt.html">Phystech@DataScience</a>
## Задание 2

**Правила:**

* Выполненную работу нужно отправить телеграм-боту.
* Дедлайн **23 февраля в 15:00 (отбор)**. После дедлайна работы не принимаются кроме случаев наличия уважительной причины с подтверждающими документами.
* Прислать нужно ноутбук в формате `ipynb` 
* Решения, размещенные на каких-либо интернет-ресурсах, не принимаются. Публикация решения может быть приравнена к предоставлении возможности списать.
* Для выполнения задания используйте этот ноутбук в качествие основы, ничего не удаляя из него.

-----

In [1]:
import numpy as np
import pandas as pd
from sklearn.datasets import load_diabetes
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression

import matplotlib.pyplot as plt
import seaborn as sns
sns.set(font_scale=1.3)

Рассмотрим данные исследования 2004 года о зависимости риска развития диабета от пола, возраста, индекса массы тела, среднего кровяного давления и других показателей. 

Функция `sklearn.datasets.load_diabetes()` возвращает словарь. В поле `data` записана матрица регрессоров, в которой данные предварительно центрированы и нормированы. В поле `target` записана мера прогрессирования заболевания в течении года. В поле `DESCR` можно прочитать подробнее о данных.

### Загрузка данных

In [2]:
data = load_diabetes()

Посмотрим на описание датасета.

In [3]:
print(data['DESCR'])

.. _diabetes_dataset:

Diabetes dataset
----------------

Ten baseline variables, age, sex, body mass index, average blood
pressure, and six blood serum measurements were obtained for each of n =
442 diabetes patients, as well as the response of interest, a
quantitative measure of disease progression one year after baseline.

**Data Set Characteristics:**

  :Number of Instances: 442

  :Number of Attributes: First 10 columns are numeric predictive values

  :Target: Column 11 is a quantitative measure of disease progression one year after baseline

  :Attribute Information:
      - Age
      - Sex
      - Body mass index
      - Average blood pressure
      - S1
      - S2
      - S3
      - S4
      - S5
      - S6

Note: Each of these 10 feature variables have been mean centered and scaled by the standard deviation times `n_samples` (i.e. the sum of squares of each column totals 1).

Source URL:
https://www4.stat.ncsu.edu/~boos/var.select/diabetes.html

For more information see:
Bra

Поле `data` содержит матрицу размера 442 $\times$ 10, где 442 — количество пациентов, а 10 — количество признаков (возраст, пол, и т.д.). 
Строки матрицы соответствуют пациентам, столбцы — признакам.

In [4]:
data['data'].shape

(442, 10)

Целевая переменная $-$ мера прогрессирования заболевания в течении года.


In [5]:
data['target'].shape

(442,)

Создайте матрицу регрессоров $X$ и столбец наблюдений $y$.

In [6]:
X, y = data['data'] , data['target']

### Обучение моделей

Разбейте данные случайно на две части — обучающую и тестовую в соотношении 80:20.

Если что-то забыли или что-то не понятно, можно почитать справку:

In [7]:
train_test_split?

In [8]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, train_size=0.8)

print(X_train.shape, X_test.shape, y_train.shape, y_test.shape)

(353, 10) (89, 10) (353,) (89,)


Заведите модель линейной регрессии из `sklearn` и обучите ее по обучающей части данных.

In [9]:
model = LinearRegression()
model.fit(X_train, y_train)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None, normalize=False)

Выведите кооэффициенты модели, включая свободный член.

In [10]:
print(f'Коэффициенты: {model.coef_}','\n', f'Свободный член: {model.intercept_}')

Коэффициенты: [   26.48101942  -221.37101405   528.72060618   365.57179946
 -1208.72221431   732.26776666   363.13377913   332.68801258
   874.6300328     60.65640567] 
 Свободный член: 152.64238983965615


Посчитайте предсказания построенной модели на тестовой выборке

In [11]:
y_pred = model.predict(X_test)

Реализуйте метрики MSE, MAE, MAPE без использования `sklearn` и других готовых реализаций.

In [12]:
def mean_squared_error(y_true, y_pred):
    return ((y_true - y_pred)**2).mean()

def mean_absolute_error(y_true, y_pred):
    return(np.absolute(y_true - y_pred)).mean()

def mean_absolute_percentage_error(y_true, y_pred):
    return(np.absolute(1-y_pred/y_true)).mean()*100

Посчитайте MSE, MAE, MAPE на тестовой выборке и выведите с точностью до трех знаков после запятой.

In [13]:
print(f"MSE: {mean_squared_error(y_test, y_pred): .3f}")
print(f"MAE: {mean_absolute_error(y_test, y_pred): .3f}")
print(f"MAPE: {mean_absolute_percentage_error(y_test, y_pred): .3f}")

MSE:  3557.448
MAE:  48.217
MAPE:  43.962


###Своя реализация модели

Теперь реализуем линейную регрессию самостоятельно, используя формулы с лекции.
Вам нужно только заполнить прочерки в методах `fit` и `predict`.

In [19]:
class MyLinearRegression:
    """
    Класс, реализующий линейную регрессию c помощью МНК.
    """
    
    def __init__(self):
        pass
        
    def fit(self, X, Y):
        """
        Функция обучения модели. 
        
        Предполагается модель Y = X * theta + epsilon. 
        где X --- регрессор (матрица размера n x d), 
        Y --- отклик (матрица размера n x 1),
        epsilon-ы имеют нормальное распределение

        Обратите внимание, здесь нет intercept_
        """
        
        self.n, self.d = X.shape[0], X.shape[1]
        
        self.theta = np.dot(np.linalg.inv(np.dot(X.T,X)),X.T).dot(Y)
  
        return self
    
        
    def predict(self, X):
        """
        Возвращает предсказание отклика на новых объектах X 
        и опционально доверительный/предсказательный интервал.
        
        X --- матрица объектов размера n x d
                        
        """
        
        y_pred = np.dot(X,self.theta)
        return y_pred

Обучите вашу модель на данных о диабете с добавлением свободного члена.
Распечатайте коэффициенты и сравните их с коэффициентами модели из `sklearn`.

In [23]:
my = MyLinearRegression()

X_train_intercept = np.column_stack((np.ones(X_train.shape[0]), X_train))

my.fit(X_train_intercept, y_train)
X_test_intercept=np.column_stack((np.ones(X_test.shape[0]), X_test))
y_pred_intercept = my.predict(X_test_intercept)

print('Коэффициенты модели из sklearn:\n', model.intercept_, model.coef_)
print('Коэффициенты моей модели со свободным членом:\n', my.theta)

Коэффициенты модели из sklearn:
 152.64238983965615 [   26.48101942  -221.37101405   528.72060618   365.57179946
 -1208.72221431   732.26776666   363.13377913   332.68801258
   874.6300328     60.65640567]
Коэффициенты моей модели со свободным членом:
 [  152.64238984    26.48101942  -221.37101405   528.72060618
   365.57179946 -1208.72221431   732.26776666   363.13377913
   332.68801258   874.6300328     60.65640567]


Теперь обучите модель без свободного члена.

In [24]:
my1 = MyLinearRegression()
my1.fit(X_train, y_train)
y_pred_mnk = my1.predict(X_test)
print('Коэффициенты модели из sklearn:\n', model.coef_)
print('Коэффициенты моей модели без свободного члена:\n', my.theta)

Коэффициенты модели из sklearn:
 [   26.48101942  -221.37101405   528.72060618   365.57179946
 -1208.72221431   732.26776666   363.13377913   332.68801258
   874.6300328     60.65640567]
Коэффициенты моей модели без свободного члена:
 [  152.64238984    26.48101942  -221.37101405   528.72060618
   365.57179946 -1208.72221431   732.26776666   363.13377913
   332.68801258   874.6300328     60.65640567]


Сравните качество моделей со свободным членом и без него на тестовой выборке.

In [25]:
print('Коэффициенты модели из sklearn:\n',model.coef_)
print('Коэффициенты моей модели без свободного члена:\n', my1.theta)



Коэффициенты модели из sklearn:
 [   26.48101942  -221.37101405   528.72060618   365.57179946
 -1208.72221431   732.26776666   363.13377913   332.68801258
   874.6300328     60.65640567]
Коэффициенты моей модели без свободного члена:
 [  15.63806159 -160.76710941  559.95658938  439.03378259 -921.0592633
  588.03176502  184.87589853  157.80200923  806.14953877   71.47086491]


In [27]:

print(f"MSE without intercept: {mean_squared_error(y_test, y_pred_mnk) :.3f}")
print(f"MAE without intercept: {mean_absolute_error(y_test, y_pred_mnk) :.3f}")
print(f"MAPE without intercept: {mean_absolute_percentage_error(y_test, y_pred_mnk) :.3f}")

print(f"MSE with intercept: {mean_squared_error(y_test, y_pred_intercept) :.3f}")
print(f"MAE with intercept: {mean_absolute_error(y_test, y_pred_intercept) :.3f}")
print(f"MAPE with intercept: {mean_absolute_percentage_error(y_test, y_pred_intercept) :.3f}")

MSE without intercept: 26482.196
MAE without intercept: 151.227
MAPE without intercept: 121.297
MSE with intercept: 3557.448
MAE with intercept: 48.217
MAPE with intercept: 43.962


Сделайте выводы.

Вывод в том, что по всей видимости в реальности наши наблюдения имеют свободный член, поэтому методом построения МНК без свободного члена наблюдения будет трудно предсказать. Вообще говоря, при построении модели МНК всегда стоит пользоваться моделью со свободным членом(пусть он занулится если что)