# Regresión lineal sobre el dataset diabetes

Importa el dataset "diabetes" de scikit-learn y crea dos modelos con distintos algoritmos para predecir la variable *target*. Compara el rendimiento de ambos modelos.
Nota: al igual que sucede con los estimadores, los datasets de scikit-learn tienen una interfaz parecida. Igual que el dataset Iris puede ser cargado con `load_iris`, el dataset diabetes puede ser cargado con `load_diabetes`, y ambos pertenecen al mismo módulo.

In [14]:
from sklearn.datasets import load_diabetes
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error
from sklearn.tree import DecisionTreeRegressor

dataset = load_diabetes()
print(dataset.DESCR)

.. _diabetes_dataset:

Diabetes dataset
----------------

Ten baseline variables, age, sex, body mass index, average blood
pressure, and six blood serum measurements were obtained for each of n =
442 diabetes patients, as well as the response of interest, a
quantitative measure of disease progression one year after baseline.

**Data Set Characteristics:**

:Number of Instances: 442

:Number of Attributes: First 10 columns are numeric predictive values

:Target: Column 11 is a quantitative measure of disease progression one year after baseline

:Attribute Information:
    - age     age in years
    - sex
    - bmi     body mass index
    - bp      average blood pressure
    - s1      tc, total serum cholesterol
    - s2      ldl, low-density lipoproteins
    - s3      hdl, high-density lipoproteins
    - s4      tch, total cholesterol / HDL
    - s5      ltg, possibly log of serum triglycerides level
    - s6      glu, blood sugar level

Note: Each of these 10 feature variables have bee

Podemos comprobar el tipo de los datos dentro del array de la variable objetivo, corroborando que se trata de un array de números reales.

In [15]:
print(dataset.target.dtype)

float64


Como nos explica la documentación y podemos observar de la variable objetivo, esta es continua y se trata por tanto de un problema de regresión.

In [16]:
diabetes_X, diabetes_y = load_diabetes(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(diabetes_X, diabetes_y, test_size=0.2, random_state=42)

el parámetro `return_X_y` de la función `load_diabetes` permite obtener separadamente las variables predictoras y la variable objetivo.

In [17]:
model_linear = LinearRegression().fit(X_train, y_train)
y_test_pred = model_linear.predict(X_test)
mae_linear = mean_absolute_error(y_test, y_test_pred)
print("MAE Regresión lineal: ", mae_linear)

MAE Regresión lineal:  42.79409467959994


In [18]:
tree_reg = DecisionTreeRegressor().fit(X_train, y_train)
print("MAE Árbol de decisión: ", mean_absolute_error(y_test, tree_reg.predict(X_test)))

MAE Árbol de decisión:  58.662921348314605
