# AJUSTE DE HIPERPARÁMETROS

<p style="text-align: justify;">El ajuste de hiperparámetros es el proceso de encontrar los valores óptimos para los parámetros que el modelo de aprendizaje automático no aprende durante el entrenamiento, sino que se establecen antes de que comience. Ejemplos incluyen la velocidad de aprendizaje, el número de capas ocultas en una red neuronal, la intensidad de regularización y el tamaño del lote.</p>
<p style="text-align: justify;">
El rendimiento de un modelo puede ser altamente sensible a la elección de estos hiperparámetros, que puede variar significativamente según el problema y el conjunto de datos. Por lo tanto, ajustar los hiperparámetros es crucial, ya que puede mejorar significativamente la precisión y la capacidad de generalización del modelo.</p>


disponible en: https://learn.microsoft.com/es-es/fabric/data-science/hyperparameter-tuning-fabric

## IMPORTANCIA DEL AJUSTE

<p style="text-align: justify;">El ajuste adecuado de los hiperparámetros puede mejorar significativamente el rendimiento de un modelo. Un mal ajuste puede llevara un modelo sobreajustado (overfitting) o subajustado (underfitting), afectando negativamente su capacidad de generalización 
y, en consecuencia, su desempeño en datos no vistos.</p>

## MÉTODOS DE AJUSTE 

Existen varios algoritmos de ajuste de hiperparámetros, aunque los tipos más utilizados son la optimización bayesiana, la búsqueda por cuadrícula y la búsqueda aleatoria.

- **Búsqueda por cuadrícula:** <p style="text-align: justify;">La búsqueda de cuadrícula especifica una lista de hiperparámetros y una métrica de rendimiento, probando todas las combinaciones posibles para encontrar la mejor. Aunque es efectiva, es computacionalmente intensiva y puede ser tediosa con muchos hiperparámetros.</p>
- **Búsqueda aleatorizada:** <p style="text-align: justify;">La búsqueda aleatoria selecciona combinaciones de hiperparámetros al azar en cada iteración, a diferencia de la búsqueda por cuadrícula. Es efectiva cuando pocos hiperparámetros influyen significativamente en el rendimiento del modelo.</p>
- **Optimización bayesiana:** <p style="text-align: justify;">La optimización bayesiana utiliza el teorema de Bayes para crear un modelo probabilístico que optimiza una métrica específica. Mediante análisis de regresión, selecciona iterativamente el mejor conjunto de hiperparámetros basándose en el conocimiento actual.</p>

disponible en: https://aws.amazon.com/es/what-is/hyperparameter-tuning/


# EJEMPLO CON IRIS

## LIBRERIAS

In [23]:
import pandas as pd 
import numpy as np 
import matplotlib.pyplot as plt
from sklearn.model_selection import GridSearchCV , RandomizedSearchCV
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from scipy.stats import uniform, randint
from skopt import BayesSearchCV
from skopt.space import Real, Integer

## CARGA DE DATOS

In [3]:
df = pd.read_csv("dataset\Iris.csv",sep=',')
df.head(5)

Unnamed: 0,Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
0,1,5.1,3.5,1.4,0.2,Iris-setosa
1,2,4.9,3.0,1.4,0.2,Iris-setosa
2,3,4.7,3.2,1.3,0.2,Iris-setosa
3,4,4.6,3.1,1.5,0.2,Iris-setosa
4,5,5.0,3.6,1.4,0.2,Iris-setosa


## BÚSQUEDA POR CUADRÍCULA

In [4]:
# DEFINICION DEL CASIFICADOR 
forest = RandomForestClassifier()
forest.get_params()

{'bootstrap': True,
 'ccp_alpha': 0.0,
 'class_weight': None,
 'criterion': 'gini',
 'max_depth': None,
 'max_features': 'sqrt',
 'max_leaf_nodes': None,
 'max_samples': None,
 'min_impurity_decrease': 0.0,
 'min_samples_leaf': 1,
 'min_samples_split': 2,
 'min_weight_fraction_leaf': 0.0,
 'n_estimators': 100,
 'n_jobs': None,
 'oob_score': False,
 'random_state': None,
 'verbose': 0,
 'warm_start': False}

In [5]:
#DEFINICION DE LOS PARAMETROS 
parms = {"criterion":("gini","entropy"),
         "n_estimators":(10,20,30,40,50),
         "max_depth":  (4, 6, 8, 10),
        }

In [6]:
Busqueda = GridSearchCV(forest , parms , scoring="accuracy")

In [7]:
#ENTRENAMIENTO
Busqueda.fit(df[['SepalLengthCm','SepalWidthCm','PetalLengthCm','PetalWidthCm']].values , df['Species'].values)

In [8]:
sorted(Busqueda.cv_results_.keys())

['mean_fit_time',
 'mean_score_time',
 'mean_test_score',
 'param_criterion',
 'param_max_depth',
 'param_n_estimators',
 'params',
 'rank_test_score',
 'split0_test_score',
 'split1_test_score',
 'split2_test_score',
 'split3_test_score',
 'split4_test_score',
 'std_fit_time',
 'std_score_time',
 'std_test_score']

In [9]:
# RANKING DEL LOS MODELOS
print(Busqueda.cv_results_['rank_test_score'])
print(Busqueda.cv_results_['mean_test_score'])

[24 24  1 24 11 24 11 24 11 24 24 24 11 24 24 24 11 24 24 11 11  9  1  1
 11 24 11 11  1 11  9 40  1  1 11 24  1  1 24 11]
[0.95333333 0.95333333 0.96666667 0.95333333 0.96       0.95333333
 0.96       0.95333333 0.96       0.95333333 0.95333333 0.95333333
 0.96       0.95333333 0.95333333 0.95333333 0.96       0.95333333
 0.95333333 0.96       0.96       0.96       0.96666667 0.96666667
 0.96       0.95333333 0.96       0.96       0.96666667 0.96
 0.96       0.94666667 0.96666667 0.96666667 0.96       0.95333333
 0.96666667 0.96666667 0.95333333 0.96      ]


In [10]:
#VISTA DEL MEJOR MODELO Y SUS HIPERPARAMETROS
print(Busqueda.best_score_)
print(Busqueda.best_params_)

0.9666666666666668
{'criterion': 'gini', 'max_depth': 4, 'n_estimators': 30}


## BÚSQUEDA ALEATORIZADA

In [11]:
# DEFINICION DEL CASIFICADOR 
support = SVC()
support.get_params()

{'C': 1.0,
 'break_ties': False,
 'cache_size': 200,
 'class_weight': None,
 'coef0': 0.0,
 'decision_function_shape': 'ovr',
 'degree': 3,
 'gamma': 'scale',
 'kernel': 'rbf',
 'max_iter': -1,
 'probability': False,
 'random_state': None,
 'shrinking': True,
 'tol': 0.001,
 'verbose': False}

In [12]:
#DEFINICION DE LOS PARAMETROS 
param_dist = {
    'C': uniform(0.1, 10),
    'gamma': ['scale', 'auto'], 
    'kernel': ['linear', 'poly', 'rbf', 'sigmoid'], 
    'degree': randint(1, 10), 
}

In [13]:
random_search = RandomizedSearchCV(support , param_dist, n_iter=10, cv=5, scoring='accuracy', random_state=42)

In [14]:
#ENTRENAMIENTO
random_search.fit(df[['SepalLengthCm','SepalWidthCm','PetalLengthCm','PetalWidthCm']].values , df['Species'].values)

In [15]:
sorted(random_search.cv_results_.keys())

['mean_fit_time',
 'mean_score_time',
 'mean_test_score',
 'param_C',
 'param_degree',
 'param_gamma',
 'param_kernel',
 'params',
 'rank_test_score',
 'split0_test_score',
 'split1_test_score',
 'split2_test_score',
 'split3_test_score',
 'split4_test_score',
 'std_fit_time',
 'std_score_time',
 'std_test_score']

In [16]:
# RANKING DEL LOS MODELOS
print(random_search.cv_results_['rank_test_score'])
print(random_search.cv_results_['mean_test_score'])

[6 3 9 8 9 3 1 3 6 1]
[0.97333333 0.98       0.09333333 0.95333333 0.09333333 0.98
 0.98666667 0.98       0.97333333 0.98666667]


In [17]:
#VISTA DEL MEJOR MODELO Y SUS HIPERPARAMETROS
print(random_search.best_score_)
print(random_search.best_params_)

0.9866666666666667
{'C': 5.347564316322378, 'degree': 9, 'gamma': 'scale', 'kernel': 'rbf'}


## OPTIMIZACIÓN BAYESIANA

In [34]:
tree = DecisionTreeClassifier()

In [35]:
Param_dist = {
'max_depth': Integer(1, 20),  # Aumentar el rango de búsqueda
    'min_samples_split': Integer(2, 40),  # Aumentar el rango de búsqueda
    'min_samples_leaf': Integer(1, 40) 
}

In [37]:
tree_bayes = BayesSearchCV(tree , Param_dist , n_iter=50, cv=5, scoring='accuracy')

In [38]:
#ENTRENAMIENTO
tree_bayes.fit(df[['SepalLengthCm','SepalWidthCm','PetalLengthCm','PetalWidthCm']].values , df['Species'].values)

In [39]:
sorted(tree_bayes.cv_results_.keys())

['mean_fit_time',
 'mean_score_time',
 'mean_test_score',
 'param_max_depth',
 'param_min_samples_leaf',
 'param_min_samples_split',
 'params',
 'rank_test_score',
 'split0_test_score',
 'split1_test_score',
 'split2_test_score',
 'split3_test_score',
 'split4_test_score',
 'std_fit_time',
 'std_score_time',
 'std_test_score']

In [41]:
# RANKING DEL LOS MODELOS
print(tree_bayes.cv_results_['rank_test_score'])
print(tree_bayes.cv_results_['mean_test_score'])

[16 16 16 16 16  6 16 13 16 13  6  6 16 46 16 16 49  9 16 16 16 16 16 16
 16 16 16 16  1 49 16 16  9 16  1 16  1 16 12 16 16 16 16 46 16 46  9 13
  1  1]
[0.93333333 0.93333333 0.93333333 0.93333333 0.93333333 0.96
 0.93333333 0.94       0.93333333 0.94       0.96       0.96
 0.93333333 0.76666667 0.93333333 0.93333333 0.66666667 0.95333333
 0.93333333 0.93333333 0.93333333 0.93333333 0.93333333 0.93333333
 0.93333333 0.93333333 0.93333333 0.93333333 0.96666667 0.66666667
 0.93333333 0.93333333 0.95333333 0.93333333 0.96666667 0.93333333
 0.96666667 0.93333333 0.94666667 0.93333333 0.93333333 0.93333333
 0.93333333 0.76666667 0.93333333 0.76666667 0.95333333 0.94
 0.96666667 0.96666667]


In [43]:
#VISTA DEL MEJOR MODELO Y SUS HIPERPARAMETROS
print(tree_bayes.best_score_)
print(tree_bayes.best_params_)

0.9666666666666668
OrderedDict([('max_depth', 6), ('min_samples_leaf', 1), ('min_samples_split', 17)])
