In [2]:
from sklearn import datasets

In [3]:
boston = datasets.load_boston()


    The Boston housing prices dataset has an ethical problem. You can refer to
    the documentation of this function for further details.

    The scikit-learn maintainers therefore strongly discourage the use of this
    dataset unless the purpose of the code is to study and educate about
    ethical issues in data science and machine learning.

    In this special case, you can fetch the dataset from the original
    source::

        import pandas as pd
        import numpy as np


        data_url = "http://lib.stat.cmu.edu/datasets/boston"
        raw_df = pd.read_csv(data_url, sep="\s+", skiprows=22, header=None)
        data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]])
        target = raw_df.values[1::2, 2]

    Alternative datasets include the California housing dataset (i.e.
    :func:`~sklearn.datasets.fetch_california_housing`) and the Ames housing
    dataset. You can load the datasets as follows::

        from sklearn.datasets import fetch_california_h

In [4]:
from sklearn.linear_model import LinearRegression

In [5]:
model = LinearRegression()

In [6]:
model.fit(X=boston["data"], y=boston["target"])

LinearRegression()

In [7]:
y_objetivo = boston["target"]
y_pred = model.predict(boston["data"])

In [8]:
from sklearn import metrics

## Error Absoluto Medio

El *Error Absoluto Medio* (Mean Absolute Error o **MAE**) se define como:

$$ \frac{1}{n} \sum^n_{i=1}{|y_i - \hat{y}_i|} $$

Es decir, la media de las diferencias entre la variable objetivo y las predicciones sin el signo.

MAE es una métrica robusta, en cuanto a que no varía mucho si hay valores extremos en los datos. El error se puede interpretar como unidades de la variable objetivo (por ejemplo, si la variable objetivo es en dólare, MAE estará también en dólares).

In [9]:
metrics.mean_absolute_error(y_objetivo, y_pred)

3.2708628109003133

### Error Cuadrático Medio

El *Error Cuadrático Medio* (Mean Squared Error o MSE)

$$ \frac{1}{n} \sum^n_{i=1}{(y_i - \hat{y}_i)^2}$$

Dado que el MSE se define en unidades al cuadrado, lo cual no es intuitivo (¿dólares cuadrados?), generalmente se usa su raíz.

### Raíz del Error Cuadrático Medio

La *Raíz del Error Cuadrático Medio* (Root Mean Squared Error o RMSE) se diferencia del MSE en que el resultado se puede medir en las mismas unidades que la variable objetivo.

$$ \sqrt{ \frac{1}{n} \sum^n_{i=1}{(y_i - \hat{y}_i)^2} } $$

Sin embargo, tiene un problema y es que da más importancia a los errores grandes. Por ejemplo, en el Boston Hosting Dataset, si tenemos dos observaciones y sus predicciones:

	observacion1: MEDV: 10	MEDV_pred: 15	RMSE: (10-15)^2=25
	observacion2: MEDV: 1000 MEDV_pred: 1010 RMSE: (1000-1010)^2=100

El usar RMSE como medida de error significa que se le dará más peso al error de la observacion2 que al de la observacion1, pese a que un error 5,000 dólares en una zona donde el valor medio es de 10,000 es un error mucho más grave que un error de 10,000 dólares en una zona donde el valor medio de las vasas es de 1 millon de dólares.

In [10]:
import numpy as np

np.sqrt(metrics.mean_squared_error(y_objetivo, y_pred))			

4.679191295697281

### Coeficiente de determinación

El coeficiente de determinación (R2 o R-squared) mide la porción de la varianza de la variable objetivo que se puede explicar por el modelo.

R2 tiene un valor máximo de 1 (cuando el modelo explica toda la varianza), aunque puede tener valores negativos.

Hay *varias formas de definir R2*, pero una de las más sencillas es simplemente la correlación (definida como la **Correlación de Pearson**) entre la variable objetivo y las predicciones, elevada al cuadrado.

$$ r = r_{xy} = \frac{ n\sum{x_iy_i} - \sum{x_i} \sum{y_i} } { \sqrt{ n \sum{x^2_i} - ( \sum{x_i}^2) } \sqrt{n\sum{y^2_i} - (\sum{y_i})^2} } $$

Un problema importante que tiene R2 es que no nos indica si el modelo explica la varianza debido a que está sobreajustando (overfitted). Por eso una medida mejor es el *Coeficiente de Determinación Ajustado* (Ajusted R-Squared), que tiene en consideración la complejidad del modelo.

$$ 1 - \frac{(1 - R^2) (n - 1)}{n - k - 1} $$

donde n es el número de observaciones y k es el número de coeficientes del modelo (sin contar el término independiente).

In [11]:
modelo_r2 = metrics.r2_score(y_objetivo, y_pred)
modelo_r2

0.7406426641094095

In [13]:
import numpy as np
np.corrcoef(y_objetivo, y_pred)**2


array([[1.        , 0.74064266],
       [0.74064266, 1.        ]])

In [14]:
len(model.coef_)

13

In [15]:
modelo_r2_ajustado = 1 - (1-modelo_r2)*(len(boston["target"]) - 1) / \
						 (len(boston["target"]) - boston["data"].shape[1] - 1)
modelo_r2_ajustado

0.733789726372463