In [None]:
# Carga del dataset
from sklearn.datasets import fetch_california_housing

housing = fetch_california_housing(as_frame=True)
data, target = housing.data, housing.target
target *= 100  # rescalar el target en k$

In [None]:
# Modelo a entrenar
from sklearn.tree import DecisionTreeRegressor
from sklearn.linear_model import LinearRegression

regressor = DecisionTreeRegressor()
# regressor = LinearRegression()

In [None]:
# Cálculo de errores de training y test
import pandas as pd
from sklearn.model_selection import cross_validate, ShuffleSplit

cv = ShuffleSplit(n_splits=30, test_size=0.2)
cv_results = cross_validate(regressor, data, target,
                            cv=cv, scoring="neg_mean_absolute_error",
                            return_train_score=True, n_jobs=2)
cv_results = pd.DataFrame(cv_results)
print(cv_results)

In [None]:
# La validación cruzada utiliza el error absoluto medio negativo. 
# Transformamos el error absoluto medio negativo en un error absoluto medio positivo.

scores = pd.DataFrame()
scores[["train error", "test error"]] = -cv_results[
    ["train_score", "test_score"]]

In [None]:
import matplotlib.pyplot as plt

scores.plot.hist(bins=50, edgecolor="black")
plt.xlabel("Error absoluto medio (k$)")
_ = plt.title("Distribución de errores de training y prueba con CV")

Obtenemos información sobre si nuestro modelo se ajusta demasiado (**over-fitting**), se ajusta mal(**under-fitting**), o ambos.

El **error de training es prácticamente cero**, lo que significa que el modelo hace under-fitting (es suficientemente flexible como para capturar cualquier variación presente en el conjunto de entrenamiento).

El **error de prueba significativamente mayor** nos dice que el modelo se ajusta demasiado: ha memorizado muchas variaciones del conjunto de entrenamiento y **no generalizan** para hacer una buena predicción en el conjunto de prueba.