# 1 ¿Qué son los hiperparámetros?

Los hiperparámetros son parámetros que no se aprenden directamente dentro de los estimadores. En scikit-learn se pasan como argumentos al constructor de las clases. Hiperparámetros típicos son por ejemplo, "C", "kernel" y "gamma" para los clasificadores de vector soporte.

# 2 ¿Se pueden optimizar los hiperparámetros?
Es posible y recomendable buscar en el espacio de hiperparámetros los mejores valores para, a su vez, obtener la mejor puntuación de validacioón cruzada. Cualquier parámetro proporcionado al construir un estimador puede optimizarse de esta manera.

# 3 ¿Qué hace falta para llevar a cabo una bíusqueda de hiperparámetros?
Una búsqueda consta de :

+ Un estimador (un objeto regresor o clasificarodr, como por ejemplo sklearn.svmSVC())
+ Un espacio de parámetros en el cual buscar
+ Un método para buscar o muestrear candidatos
+ Un esquema de validación cruzada
+ Una función de puntuación

# 4 Métodos de búsqeuda de hiperprámetros 
En Scikit-learn se proporcionan dos enfoques genéricos para buscar hiperparámetros:

+ Para un conjunto de valores dados, GridSearchCV considera exhaustivametne todas las combinaciones posibles de dichos valores de hiperparámetros.
+ El método RandomizedSearchCV puede analizar un número determinado de valores de un espacio de hiperparámetros con una distribución específica.

Es importante tener en cuenta que puede haber unos pocos hiperparámetros que tengan un gran impacto en el rendimiento del modelo, mientras que otros quizás puedan dejarse simplemente con los valores que les da Scikit-Learn por defecto.

# 4.1 GridSeachCV (búsqeuda exhaustiva de cuadrícula)
La búsqueda de cuadrícula (*GridSearchCV* en Scikit-Learn) estudia todas las posibles combinaciones de valores de hiperparámetros, que se especifican mediante el parámetro param_grid, como por ejemplo de la siguiente manera:

In [None]:
param_grid = [
    {"C": [1, 10, 100 , 1000], "kernel":["linear"]},
    {"C": [1, 10, 100 , 1000], "gamma": [0.001, 0.0001], "kernel":["rfb"]}
]

Este ejmplo de param_grid indica que se deban explorar dos cuadrículas: una con un kernel lineal y valores C en 1, 10, 100 y 1000; y la segunda con un kernel RBF, y el producto cruzado de los valores C en 1, 10, 100 y 1000 para valores gamma en 0.001 y 0.0001.

Tra evaluar todas las combinaciones, se conserba la mejor de ellas.

# 4.1 ¿Cómo se usa GridSearchCV en Scikit-Learn?

class sklearn.model_selection.GridSearchCV(estimator, param_grid, *, scoring=None, n_jobs=None, refit=True, cv=None, verbose=0, pre_dispatch='2*n_jobs', error_score=nan, return_train_score=False)

+ estimator: un estimador Scikit-Learn, como por ejemplo *sklearn.svm.SVC()*.
+ param_grid: diccionario o lista de diccionarios. Deba proporcionar los nombres de los hiperparámetros con los valores que se desean probar.
+ scooring: métrica/s para evaluar las predicciones en el conjunto de prueba. Si es *None*, se utiliza la métrica de puntuación que tenga asociada el estimador.
+ refit: indica si se desea reajustart el estimador utilizando los mejores parámetros encontrados en todo el conjunto de datos. Ese estimador reajustado estará disponible en el atributo *best_estimator* y se podrá utilizar para hacer predicciones directamente con la instancia de GridSearchCV.
+ cv: determina la estrategia de división de validación cruzada. Consultar las posibles entradas para cv en la documentación oficial.
+ verbose: controla la verbosidad (información que se muestra durante la ejecuación). Se indica mediante un número entero, y cuando más alto sea su valro, más mensajes se mostrarán. 
+  error_score: valor para asignar a la puntuación si se produce un error en el ajuste del estimador.
+ return_train_score: si es *False*, el atributo *cv_results* no incluirá las puntuaciones de entrenamientos. El cálculo de puntuaciones de entrenamiento se usa para obtener información sobre cómo diferentes configuraciones de parámetros impactan en la compensación del overfitting./underfitting. Sin embargo, calcular los resultados de las métricas de evaluación en el conjunto de entrenamiento puede ser computacionalmente costoso y no es estricatamente necesario para seleccionar los parámetros que producen el mejor rendimiento de generalización.

### 4.1.2 Ejemplo práctico

In [16]:
from sklearn import datasets
from sklearn import svm
from sklearn.model_selection import GridSearchCV
import pandas as pd

In [2]:
iris = datasets.load_iris()

In [12]:
iris

{'data': array([[5.1, 3.5, 1.4, 0.2],
        [4.9, 3. , 1.4, 0.2],
        [4.7, 3.2, 1.3, 0.2],
        [4.6, 3.1, 1.5, 0.2],
        [5. , 3.6, 1.4, 0.2],
        [5.4, 3.9, 1.7, 0.4],
        [4.6, 3.4, 1.4, 0.3],
        [5. , 3.4, 1.5, 0.2],
        [4.4, 2.9, 1.4, 0.2],
        [4.9, 3.1, 1.5, 0.1],
        [5.4, 3.7, 1.5, 0.2],
        [4.8, 3.4, 1.6, 0.2],
        [4.8, 3. , 1.4, 0.1],
        [4.3, 3. , 1.1, 0.1],
        [5.8, 4. , 1.2, 0.2],
        [5.7, 4.4, 1.5, 0.4],
        [5.4, 3.9, 1.3, 0.4],
        [5.1, 3.5, 1.4, 0.3],
        [5.7, 3.8, 1.7, 0.3],
        [5.1, 3.8, 1.5, 0.3],
        [5.4, 3.4, 1.7, 0.2],
        [5.1, 3.7, 1.5, 0.4],
        [4.6, 3.6, 1. , 0.2],
        [5.1, 3.3, 1.7, 0.5],
        [4.8, 3.4, 1.9, 0.2],
        [5. , 3. , 1.6, 0.2],
        [5. , 3.4, 1.6, 0.4],
        [5.2, 3.5, 1.5, 0.2],
        [5.2, 3.4, 1.4, 0.2],
        [4.7, 3.2, 1.6, 0.2],
        [4.8, 3.1, 1.6, 0.2],
        [5.4, 3.4, 1.5, 0.4],
        [5.2, 4.1, 1.5, 0.1],
  

In [5]:
svc = svm.SVC()

In [13]:
paramgrid = {"kernel":("linear","rbf"),
            "C": [1, 10]}

In [14]:
clf = GridSearchCV(estimator= svc, param_grid = paramgrid, scoring = None, cv = None)

In [15]:
clf.fit(iris.data, iris.target)

GridSearchCV(estimator=SVC(),
             param_grid={'C': [1, 10], 'kernel': ('linear', 'rbf')})

In [17]:
pd.DataFrame(clf.cv_results_)

Unnamed: 0,mean_fit_time,std_fit_time,mean_score_time,std_score_time,param_C,param_kernel,params,split0_test_score,split1_test_score,split2_test_score,split3_test_score,split4_test_score,mean_test_score,std_test_score,rank_test_score
0,0.002304,0.002148,0.000401,0.000491,1,linear,"{'C': 1, 'kernel': 'linear'}",0.966667,1.0,0.966667,0.966667,1.0,0.98,0.01633,1
1,0.000801,0.0004,0.000599,0.000489,1,rbf,"{'C': 1, 'kernel': 'rbf'}",0.966667,0.966667,0.966667,0.933333,1.0,0.966667,0.021082,4
2,0.0006,0.00049,0.0,0.0,10,linear,"{'C': 10, 'kernel': 'linear'}",1.0,1.0,0.9,0.966667,1.0,0.973333,0.038873,3
3,0.000601,0.000491,0.0004,0.00049,10,rbf,"{'C': 10, 'kernel': 'rbf'}",0.966667,1.0,0.966667,0.966667,1.0,0.98,0.01633,1


In [18]:
# modelo ajustado con los mejores parámetros
clf.best_estimator_.predict

SVC(C=1, kernel='linear')

In [19]:
clf.best_score_

0.9800000000000001

In [20]:
clf.best_params_

{'C': 1, 'kernel': 'linear'}

In [21]:
clf.best_score_

0.9800000000000001

In [22]:
clf.n_splits_

5

# 4.2 RandomizedSearchCV (búsqueda aleatoria)

Si bien la búsqueda de cuadrícula es el método actualmente más utilizado par la optimización de parámetros, otras técnicas tienen propiedades que también las convierten en buenas opciones. *RandomizedSearchCV* implementa una búsqueda aleatoria de parámetros, donde cada configuración de muestra a partir de una distribución de posibles valores de parámetros. Esto tiene dos ventajas principales sobre una búsqueda exhaustiva:
+ Se puede elegir un presupuesto independientemente del número de parámertros y valores posibles.
+ Agregar parámetros que no influyen en el rendimiento no disminuye la eficiencia. 

La especificación de cómo se deben muestrear los parámetros se realiza mediante un diccionario, muy similar a la especificación de parámetros para GridSearchCV. Además, un presupuesto de cálculo, que es el número de candidatos muestreados o iteraciones de muestreo, se especifica mediante el parámetro "n_iter". Para cada parámetro, se puede especificar una distribución sobre los valores posibles o una lista de opciones discretas(que se muestrean de manera uniforme):
 
{"C": scipy.stats.expon(scale = 100), "gamma": scipy.stats.expon(scale = .1),
"kernel" : ["rbf"], "class_weight": ["balanced", None]}

Este ejemplo utiliza el módulo scipy.stats, que contiene muchas distribuciones útiles para los parámetros de muestreo, tales como expon, gamma, uniform o randint.

# 5 Ampliación

## 5.1 Especificar una métrica objetiva
**De forma predeterminada, la búsqueda de parámetros utiliza la función *socre* del estimador** para la evaluación del parámetro, concretamente skelearn.metrics.accuracy_score para la clasificación y sklearn.metrics.r2_score para regresión. Para algunas ampliaciones, otras funciones de puntuación son más adecuadas (por ejemplo, en la clasificación no balanceada, la puntuación de precisión no suele ser informativa). Se puede especificar una función de puntuación alternativa a través del parámetros "scoring" de GridSearchCV, RandomizedSearchCV y muchas de las herramientas de validación cruzada

## 5.2 Especificar múltiples métricas para evaluación
GridSearchCV y RandomizedSearchCV permiten especificar varias métricas para el parámetro "scoring".
La puntuación multimétrica puede especificarse de dos maneras:
+ Como una lista de cadenas de nombres de puntuaciones:
scoring = ['accuracy','precision']
+ Como un diccionario que correlaciona el nombre de la puntuación con la fucnión que permite calcular dicha puntuación:
from sklearn.metrics import accuracy_score
from sklearn.metrics import make_scorer
scoring = {'accuracy': make_scorer(accuracy_score),'prec':'precision'}

## 5.3 Selección de modelos
A menudo, se utilizan los métodos de evaluación de hiperparámetros anteriores para comparar el rendimiento de diferentes modelos entre si, o de diferentes versiones de un mismo modelo.

Al evaluar cada modelo resultante, es importante hacerlo con datos que no se hayan "visto" durante el proceso de búsqueda de la cuadrícula, es decir, se recomienda dividir los datos en un conjunto de desarrollo (que será el que utilice el método GridSearchCV) y un conjunto de evaluación para calcular métricas de rendimiento.