# <a href="https://mipt-stats.gitlab.io/courses/ad_mipt.html">Phystech@DataScience</a>
## Задание 2

**Правила:**

* Выполненную работу нужно отправить телеграм-боту.
* Дедлайн **23 февраля в 15:00 (отбор)**. После дедлайна работы не принимаются кроме случаев наличия уважительной причины с подтверждающими документами.
* Прислать нужно ноутбук в формате `ipynb` 
* Решения, размещенные на каких-либо интернет-ресурсах, не принимаются. Публикация решения может быть приравнена к предоставлении возможности списать.
* Для выполнения задания используйте этот ноутбук в качествие основы, ничего не удаляя из него.

-----

In [1]:
import numpy as np
import pandas as pd
from sklearn.datasets import load_diabetes
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression

import matplotlib.pyplot as plt
import seaborn as sns
sns.set(font_scale=1.3)

Рассмотрим данные исследования 2004 года о зависимости риска развития диабета от пола, возраста, индекса массы тела, среднего кровяного давления и других показателей. 

Функция `sklearn.datasets.load_diabetes()` возвращает словарь. В поле `data` записана матрица регрессоров, в которой данные предварительно центрированы и нормированы. В поле `target` записана мера прогрессирования заболевания в течении года. В поле `DESCR` можно прочитать подробнее о данных.

### Загрузка данных

In [25]:
data = load_diabetes()

Посмотрим на описание датасета.

In [3]:
print(data['DESCR'])

.. _diabetes_dataset:

Diabetes dataset
----------------

Ten baseline variables, age, sex, body mass index, average blood
pressure, and six blood serum measurements were obtained for each of n =
442 diabetes patients, as well as the response of interest, a
quantitative measure of disease progression one year after baseline.

**Data Set Characteristics:**

  :Number of Instances: 442

  :Number of Attributes: First 10 columns are numeric predictive values

  :Target: Column 11 is a quantitative measure of disease progression one year after baseline

  :Attribute Information:
      - age     age in years
      - sex
      - bmi     body mass index
      - bp      average blood pressure
      - s1      tc, total serum cholesterol
      - s2      ldl, low-density lipoproteins
      - s3      hdl, high-density lipoproteins
      - s4      tch, total cholesterol / HDL
      - s5      ltg, possibly log of serum triglycerides level
      - s6      glu, blood sugar level

Note: Each of these 1

Поле `data` содержит матрицу размера 442 $\times$ 10, где 442 — количество пациентов, а 10 — количество признаков (возраст, пол, и т.д.). 
Строки матрицы соответствуют пациентам, столбцы — признакам.

In [27]:
data['data'].shape

(442, 10)

Целевая переменная $-$ мера прогрессирования заболевания в течении года.


In [21]:
data['target'].shape

(442,)

Создайте матрицу регрессоров $X$ и столбец наблюдений $y$.

In [6]:
X, y = data['data'],data['target']

### Обучение моделей

Разбейте данные случайно на две части — обучающую и тестовую в соотношении 80:20.

Если что-то забыли или что-то не понятно, можно почитать справку:

In [29]:
train_test_split?

In [63]:
X_train, X_test, y_train, y_test = train_test_split(X,y,train_size = 0.8,test_size = 0.2)

print(X_train.shape, X_test.shape, y_train.shape, y_test.shape)

(353, 10) (89, 10) (353,) (89,)


Заведите модель линейной регрессии из `sklearn` и обучите ее по обучающей части данных.

In [65]:
model = LinearRegression(fit_intercept = True).fit(X_train,y_train)

Выведите кооэффициенты модели, включая свободный член.

In [66]:
model.coef_, model.intercept_

(array([  -7.53447102, -217.16817255,  500.32795508,  300.05869039,
        -389.92843114,  234.31510516, -146.27241479,   26.00104527,
         598.91628116,   90.18453424]),
 152.76984433013598)

Посчитайте предсказания построенной модели на тестовой выборке

In [35]:
y_pred = model.predict(X_test)

Реализуйте метрики MSE, MAE, MAPE без использования `sklearn` и других готовых реализаций.

In [39]:
def mean_squared_error(y_true, y_pred):
    return np.mean((y_true - y_pred)**2)

def mean_absolute_error(y_true, y_pred):
    return np.mean(np.abs(y_true - y_pred))

def mean_absolute_percentage_error(y_true, y_pred):
    return np.mean(np.abs((y_true - y_pred)/y_true))   

Посчитайте MSE, MAE, MAPE на тестовой выборке и выведите с точностью до трех знаков после запятой.

In [82]:
( 
np.round(mean_squared_error(y_test, y_pred),3) , 
np.round(mean_absolute_error(y_test, y_pred),3) ,
np.round(mean_absolute_percentage_error(y_test, y_pred),3) 
)

(9480.666, 78.173, 0.636)

#Своя реализация модели

Теперь реализуем линейную регрессию самостоятельно, используя формулы с лекции.
Вам нужно только заполнить прочерки в методах `fit` и `predict`.

In [75]:
class MyLinearRegression:
    """
    Класс, реализующий линейную регрессию c помощью МНК.
    """
    
    def __init__(self):
        pass
        
    def fit(self, X, Y):
        """
        Функция обучения модели. 
        
        Предполагается модель Y = X * theta + epsilon. 
        где X --- регрессор (матрица размера n x d), 
        Y --- отклик (матрица размера n x 1),
        epsilon-ы имеют нормальное распределение

        Обратите внимание, здесь нет intercept_
        """
        
        self.n, self.d = X.shape
        
        self.theta = np.linalg.inv(X.transpose().dot(X)).dot(X.transpose().dot(Y))
  
        return self
    
        
    def predict(self, X):
        """
        Возвращает предсказание отклика на новых объектах X 
        и опционально доверительный/предсказательный интервал.
        
        X --- матрица объектов размера n x d
                        
        """
        
        y_pred = X.dot(self.theta)
        return y_pred

Обучите вашу модель на данных о диабете с добавлением свободного члена.
Распечатайте коэффициенты и сравните их с коэффициентами модели из `sklearn`.

In [41]:
my = MyLinearRegression()
my.fit(np.c_[X_train,np.ones(X_train.shape[0])],y_train)

my.theta

array([ -40.78349718, -257.659311  ,  498.38047786,  380.89597065,
       -949.81087601,  582.22385241,  142.34409873,  255.2316323 ,
        740.863414  ,   47.60468584,  153.02757567])

Теперь обучите модель без свободного члена.

In [42]:
my_wo = MyLinearRegression()
my_wo.fit(X_train,y_train)

<__main__.MyLinearRegression at 0x2b4352c3310>

Сравните качество моделей со свободным членом и без него на тестовой выборке.

In [43]:
y_pred_wo = my_wo.predict(X_test)


In [44]:
( 
np.round(mean_squared_error(y_test, y_pred_wo),3) , 
np.round(mean_absolute_error(y_test, y_pred_wo),3) ,
np.round(mean_absolute_percentage_error(y_test, y_pred_wo),3) 
)

(26069.902, 150.889, 1.247)

Сделайте выводы.

Обучена модель предсказания риска развития диабета со средней относительной точностью 63 процнета, что, как мне кажется очень не точно. Чтобы убедиться в этом давайте, проверим достоверность первого коэффициента. Он отрицательный, что должно означать, что риск развития диабета медленно но снижается с возрастом, это звучит очень странно. Значит, линейная регрессия на данных признаках справляется весьма плохо. Также из модели следует, что чем больше общий холорестерин тем меньше риск развития болезни. Это, насколько я знаю, совсем неправда.  Отбрасывание свободного члена ожидаемо очень понижает точность. Написав код самостоятельно мы убеделись, что функция из библитоеки работает "как надо".  