In [1]:
%load_ext autoreload
%autoreload 3

In [2]:
import os
import sys

sys.path.append(os.path.dirname(os.path.abspath(os.path.abspath(""))))

# Implementación de Randomized

Lo importante para la implementación en código de [RandomizedSearchCV](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.RandomizedSearchCV.html) es que cuando elijamos un modelo a optimizar, en este caso [RandomForestRegressor](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestRegressor.html) vayamos a su documentación y observemos todos sus parámetros configurables:

```python
Parameters:
n_estimatorsint, default=100

criterion{“squared_error”, “absolute_error”, “friedman_mse”, “poisson”}, default=”squared_error”

max_depthint, default=None

min_samples_splitint or float, default=2

ETC
```


In [3]:
import pandas as pd
from sklearn.model_selection import RandomizedSearchCV
from sklearn.ensemble import RandomForestRegressor

In [4]:
dataset = pd.read_csv("../data/felicidad.csv")
# La razon de elimina el rank y el score,
# Es porque se quiere que los features no tegan ninguna corelacion entre ellos.
# Lo ideal es que exista correlacion solo entre las features y la variable objetivo.
data = dataset.drop(["country", "rank", "score"], axis=1)
target = dataset["score"]

Con base en estos parámetros ajustables podemos crear nuestra grilla de combinaciones:


In [5]:
parameters = {
    "n_estimators": range(4, 16),
    "criterion": ["friedman_mse", "squared_error", "poisson", "absolute_error"],
    "max_depth": range(2, 11),
}

Y finalmente entrenar a nuestro metaclasificador utilizando RandomizedSerachCV


In [7]:
reg = RandomForestRegressor()

rand_est = RandomizedSearchCV(
    reg, parameters, n_iter=10, cv=3, scoring="neg_mean_squared_error", random_state=42
)
rand_est.fit(data, target)
print("=" * 64)
print("Mejores estimadores: ")
print("-" * 64)
print(rand_est.best_estimator_)
print("=" * 64)
print("Mejores parametros: ")
print("-" * 64)
print(rand_est.best_params_)
print("=" * 64)
print("Pruebas")
print("-" * 64)
y_hat = rand_est.predict(data.loc[[0]])
print(f"Predict: {y_hat[0]}")
print(f"Real: {target[0]}")
print("=" * 64)

Mejores estimadores: 
----------------------------------------------------------------
RandomForestRegressor(criterion='friedman_mse', max_depth=8, n_estimators=7)
Mejores parametros: 
----------------------------------------------------------------
{'n_estimators': 7, 'max_depth': 8, 'criterion': 'friedman_mse'}
Pruebas
----------------------------------------------------------------
Predict: 7.4768571852857155
Real: 7.537000179
