# Bagging

In [None]:
from sklearn.datasets import fetch_california_housing

data, target = fetch_california_housing(as_frame=True, return_X_y=True)
target *= 100

In [None]:
# verificamos el rendimiento de generalización del regresor del árbol de decisión con los parámetros predeterminados.

from sklearn.model_selection import cross_validate
from sklearn.tree import DecisionTreeRegressor

tree = DecisionTreeRegressor(random_state=0)
cv_results = cross_validate(tree, data, target, n_jobs=2)
scores = cv_results["test_score"]

print(f"score R2 por validación cruzada: "
      f"{scores.mean():.3f} ± {scores.std():.3f}")

In [None]:
%%time

# hacemos una búsqueda de cuadrícula para ajustar los hiperparámetros.

from sklearn.model_selection import GridSearchCV
from sklearn.tree import DecisionTreeRegressor

param_grid = {
    "max_depth": [5, 8, None],
    "min_samples_split": [2, 10, 30, 50],
    "min_samples_leaf": [0.01, 0.05, 0.1, 1]}
cv = 3

tree = GridSearchCV(DecisionTreeRegressor(random_state=0),
                    param_grid=param_grid, cv=cv, n_jobs=2)
cv_results = cross_validate(tree, data, target, n_jobs=2,
                            return_estimator=True)
scores = cv_results["test_score"]

print(f"score R2 por validación cruzada: "
      f"{scores.mean():.3f} ± {scores.std():.3f}")

**Ahora usaremos bagging**
- Usaremos 20 árboles de decisión y verificaremos el tiempo de ajuste, así como el rendimiento de generalización en los datos de pruebas de izquierda.
- Es importante tener en cuenta que no vamos a sintonizar ningún parámetro del árbol de decisión.

In [None]:
%%time
from sklearn.ensemble import BaggingRegressor

base_estimator = DecisionTreeRegressor(random_state=0)
bagging_regressor = BaggingRegressor(
    estimator=base_estimator, n_estimators=20, random_state=0)

cv_results = cross_validate(bagging_regressor, data, target, n_jobs=2)
scores = cv_results["test_score"]

print(f"score R2 por validación cruzada: "
      f"{scores.mean():.3f} ± {scores.std():.3f}")

>This shows the motivation behind the use of an ensemble learner: it gives a relatively good baseline with decent generalization performance without any parameter tuning.


> Sin buscar hiperparámetros óptimos, el rendimiento general de generalización del regresor bagging es mejor que un solo árbol de decisión.
Además, el costo computacional se reduce en comparación con la búsqueda de hiperparámetros óptimos.

> Ofrece una línea de base relativamente buena con un rendimiento de generalización decente sin ningún ajuste de parámetros.