Búsqueda aleatoria en hiperparámetros.

RandomizedSearchCV implementa un método de "ajuste" y "puntuación". También implementa “score_samples”, “predict”, “predict_proba”, “decision_function”, “transform” y “inverse_transform” si están implementados en el estimador utilizado.

Los parámetros del estimador que se utilizan para aplicar estos métodos se optimizan mediante una búsqueda de validación cruzada sobre la configuración de los parámetros.

A diferencia de GridSearchCV, no se prueban todos los valores de los parámetros, sino que se muestrea un número fijo de configuraciones de parámetros de las distribuciones especificadas. El número de configuraciones de parámetros que se prueban viene dado por n_iter.

Si todos los parámetros se presentan como una lista, se realiza un muestreo sin reemplazo. Si se da al menos un parámetro como distribución, se utiliza el muestreo con reemplazo. Se recomienda encarecidamente utilizar distribuciones continuas para parámetros continuos.

In [1]:
# Importamos las bibliotecas
import pandas as pd
import sklearn

In [2]:
# Importamos los modelos de sklearn 
from sklearn.model_selection import RandomizedSearchCV
from sklearn.ensemble import RandomForestRegressor


In [3]:
import pathlib
pathlib.Path()

PosixPath('.')

In [4]:
CURRENT_DIRT = pathlib.Path().resolve()
CURRENT_DIRT

PosixPath('/home/santi/personalProjects/ML_con_sklearn/ejemplos/examples/notebook')

In [5]:
df = pd.read_csv(CURRENT_DIRT.parent.joinpath("data","felicidad.csv"))
df.head(5)

Unnamed: 0,country,rank,score,high,low,gdp,family,lifexp,freedom,generosity,corruption,dystopia
0,Norway,1,7.537,7.594445,7.479556,1.616463,1.533524,0.796667,0.635423,0.362012,0.315964,2.277027
1,Denmark,2,7.522,7.581728,7.462272,1.482383,1.551122,0.792566,0.626007,0.35528,0.40077,2.313707
2,Iceland,3,7.504,7.62203,7.38597,1.480633,1.610574,0.833552,0.627163,0.47554,0.153527,2.322715
3,Switzerland,4,7.494,7.561772,7.426227,1.56498,1.516912,0.858131,0.620071,0.290549,0.367007,2.276716
4,Finland,5,7.469,7.527542,7.410458,1.443572,1.540247,0.809158,0.617951,0.245483,0.382612,2.430182


In [7]:
X = df.drop(['country', 'rank', 'score'], axis=1)
y = df['score']

In [6]:
#definir el regresor 
reg = RandomForestRegressor()

# definir los parametros del optimizados (un diccionario con valores para que el randomized los tome)
parametros = {
    'n_estimators' : range(4,16),
    'criterion' : ['squared_error', 'absolute_error'],
    'max_depth' : range(2,11)
}

In [9]:
#ceración del estimador, cv => toma todos los datos y lo parte en 3 pliegues para este ejemplo
rand_est = RandomizedSearchCV(reg, parametros, n_iter=10, cv=3, scoring="neg_mean_absolute_error").fit(X,y)

RandomForestRegressor(max_depth=8, n_estimators=10)


In [11]:
# datos del estimador y el valor de sus mejores variables para las predicciones
print(rand_est.best_estimator_)
print(rand_est.best_params_)
print(rand_est.predict(X.loc[[0]]))

RandomForestRegressor(max_depth=8, n_estimators=10)
{'n_estimators': 10, 'max_depth': 8, 'criterion': 'squared_error'}
[7.50990014]
