# Ejercicio 2: Regresión lineal con diabetes

Uno de los datasets que tiene sklearn para practicar nuestras técnicas de Machine Learning, está relacionado con la diabetes. Lo bueno de estos datasets es que ya suelen estar preparados y limpios para trabajar con ellos, además de incluir numerosas utilidades como información de sus propias variables.

In [62]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns

from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn import metrics

Lo primero que deberemos de hacer es cargar el dataset, para lo cual podemos hacer lo sigueinte:

In [63]:
from sklearn.datasets import load_diabetes
diabetes = load_diabetes()

Si le echamos un vistazo a lo que acabamos de cargar, observaremos que diabetes es un diccionario, donde tenemos tanto los datos de entrada al modelo (en forma de matriz), las etiquetas de estos datos e información útil como una descripción del propio dataset.

In [41]:
diabetes

{'data': array([[ 0.03807591,  0.05068012,  0.06169621, ..., -0.00259226,
          0.01990842, -0.01764613],
        [-0.00188202, -0.04464164, -0.05147406, ..., -0.03949338,
         -0.06832974, -0.09220405],
        [ 0.08529891,  0.05068012,  0.04445121, ..., -0.00259226,
          0.00286377, -0.02593034],
        ...,
        [ 0.04170844,  0.05068012, -0.01590626, ..., -0.01107952,
         -0.04687948,  0.01549073],
        [-0.04547248, -0.04464164,  0.03906215, ...,  0.02655962,
          0.04452837, -0.02593034],
        [-0.04547248, -0.04464164, -0.0730303 , ..., -0.03949338,
         -0.00421986,  0.00306441]]),
 'target': array([151.,  75., 141., 206., 135.,  97., 138.,  63., 110., 310., 101.,
         69., 179., 185., 118., 171., 166., 144.,  97., 168.,  68.,  49.,
         68., 245., 184., 202., 137.,  85., 131., 283., 129.,  59., 341.,
         87.,  65., 102., 265., 276., 252.,  90., 100.,  55.,  61.,  92.,
        259.,  53., 190., 142.,  75., 142., 155., 225.,  59

#### ¿Qué es ese key llamado 'DESCR'?

Por lo visto, el dataset tiene su propia descripción. Imprime por pantalla la descripción del dataset haciendo uso de la clave "DESCR" del diccionario de diabetes. Usa la función ``print`` para que se formatee bien lo que veas por pantalla:

*Tip: Lee lo que imprimas*

In [42]:
print(diabetes['DESCR'])

.. _diabetes_dataset:

Diabetes dataset
----------------

Ten baseline variables, age, sex, body mass index, average blood
pressure, and six blood serum measurements were obtained for each of n =
442 diabetes patients, as well as the response of interest, a
quantitative measure of disease progression one year after baseline.

**Data Set Characteristics:**

  :Number of Instances: 442

  :Number of Attributes: First 10 columns are numeric predictive values

  :Target: Column 11 is a quantitative measure of disease progression one year after baseline

  :Attribute Information:
      - age     age in years
      - sex
      - bmi     body mass index
      - bp      average blood pressure
      - s1      tc, T-Cells (a type of white blood cells)
      - s2      ldl, low-density lipoproteins
      - s3      hdl, high-density lipoproteins
      - s4      tch, thyroid stimulating hormone
      - s5      ltg, lamotrigine
      - s6      glu, blood sugar level

Note: Each of these 10 feature va

#### Basándote en la descripción que acabas de leer, responde:

1. ¿Cuántos atributos tenemos en el dataset? ¿ Qué significan?

1. ¿Cuál es la relación entre `diabetes['data']` y `diabetes['target']`?

1. ¿Cuántos registros tenemos en los datos?

In [43]:
diabetes['feature_names']

['age', 'sex', 'bmi', 'bp', 's1', 's2', 's3', 's4', 's5', 's6']

#### Bien, ahora explora qué tenemos en ``data``, así como en el ``target``

Scikit-learn está diseñado en su mayoría para recibir arrays bidimensionales de Numpy como entrada (aunque también puede aceptar dataframes de Pandas). Inspecciona la forma de `data` y `target`. Confirma que se corresponden con la descripción que se comenta anteriormente

In [71]:
import pandas as pd

X = pd.DataFrame(diabetes['data'], columns=diabetes['feature_names'])
y = diabetes['target']


In [72]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state = 42)

lin_reg = LinearRegression()
lin_reg.fit(X_train, y_train)

predictions = lin_reg.predict(X_test)
predictions_train = lin_reg.predict(X_train)


# Métricas:
print("MAE:", metrics.mean_absolute_error(y_test, predictions))
print("MSE:", metrics.mean_squared_error(y_test, predictions))
print("RMSE:", np.sqrt(metrics.mean_squared_error(y_test, predictions)))

# print("R^2 (train):", lin_reg.score(X_train, y_train))
print("R^2 (train):", metrics.r2_score(y_train, predictions_train))
print("R^2 (test):", lin_reg.score(X_test, y_test))

MAE: 41.919253605566794
MSE: 2821.7385595843766
RMSE: 53.12003915269996
R^2 (train): 0.5244132008226972
R^2 (test): 0.47729201741573324


In [74]:
X

Unnamed: 0,age,sex,bmi,bp,s1,s2,s3,s4,s5,s6
0,0.038076,0.050680,0.061696,0.021872,-0.044223,-0.034821,-0.043401,-0.002592,0.019908,-0.017646
1,-0.001882,-0.044642,-0.051474,-0.026328,-0.008449,-0.019163,0.074412,-0.039493,-0.068330,-0.092204
2,0.085299,0.050680,0.044451,-0.005671,-0.045599,-0.034194,-0.032356,-0.002592,0.002864,-0.025930
3,-0.089063,-0.044642,-0.011595,-0.036656,0.012191,0.024991,-0.036038,0.034309,0.022692,-0.009362
4,0.005383,-0.044642,-0.036385,0.021872,0.003935,0.015596,0.008142,-0.002592,-0.031991,-0.046641
...,...,...,...,...,...,...,...,...,...,...
437,0.041708,0.050680,0.019662,0.059744,-0.005697,-0.002566,-0.028674,-0.002592,0.031193,0.007207
438,-0.005515,0.050680,-0.015906,-0.067642,0.049341,0.079165,-0.028674,0.034309,-0.018118,0.044485
439,0.041708,0.050680,-0.015906,0.017282,-0.037344,-0.013840,-0.024993,-0.011080,-0.046879,0.015491
440,-0.045472,-0.044642,0.039062,0.001215,0.016318,0.015283,-0.028674,0.026560,0.044528,-0.025930


In [85]:
import statsmodels.formula.api as smf
lm_sm = smf.ols(formula='y_train~X_train', data=X_train).fit()
print(lm_sm.summary())

                            OLS Regression Results                            
Dep. Variable:                y_train   R-squared:                       0.524
Model:                            OLS   Adj. R-squared:                  0.508
Method:                 Least Squares   F-statistic:                     32.86
Date:                Sat, 23 Jan 2021   Prob (F-statistic):           1.37e-42
Time:                        17:06:09   Log-Likelihood:                -1671.5
No. Observations:                 309   AIC:                             3365.
Df Residuals:                     298   BIC:                             3406.
Df Model:                          10                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept    151.0082      3.143     48.050      0.0

## Entrando en acción: Construyendo el modelo

Los datos ya se han dividido en variables de predicción (*data*) y respuesta (*target*). Dada esta información, aplica lo que has aprendido anteriormente sobre la regresión lineal, utilizando el algoritmo al conjunto de datos de diabetes.

#### Comienza por importar el regresor lineal de `linear_model` de `sklearn`. 

#### Crea una nueva instancia del modelo de regresión lineal que te acabas de importar y llámalo `diabetes_model`.

#### Ahora, separa en train y test

Los nombres de las variables serán `diabetes_data_train`, `diabetes_target_train`, `diabetes_data_test`, y `diabetes_target_test`, respectivamente. Usa los 20 últimos registros para test y el resto para train. No es lo que se suele hacer, salvo que haya una marcada componente temporal, pero esta vez lo haremos así.

Repito, no hay que separar aleatoriamente.

Haz un ``fit`` de los datos de entrenamiento y su etiqueta sobre el modelo que estás creando: `diabetes_model`. Imprime el término independiente y los coeficientes del modelo:

#### Inspeccionando los resultados

De los resultados que deberías haber obtenido algo que coincidiera con:

- La intersección es un número flotante.
- Los coeficientes son una matriz que contiene 10 números flotantes.

Este es el modelo de regresión lineal ajustado al conjunto de datos de entrenamiento.

#### Usando el modelo de regresión lineal ajustado que te has creado, ¿podrías predecir el target de `diabetes_data_test`?

Haz la predicción de esos 20 registros y represéntalos en una gráfica frente a los valores reales. Créate una lista con las diferencias de cada predicción con su valor real y compara ambos conjuntos de datos.

#### Finalmente, calcula las métricas, tanto en test como en train. ¿Se parecen? Saca los indicadores MAE, RMSE y R-squared