Este experimento evalúa el rendimiento de una red neuronal en el conjunto de datos Iris de sklearn utilizando diferentes combinaciones de hiperparámetros. Los modelos se entrenaron con diversas funciones de activación, optimizadores, tasas de aprendizaje, tamaños de lote y números de épocas. El objetivo es identificar la mejor configuración en términos de precisión de validación.
A continuación, se explican brevemente los principales hiperparámetros probados en este experimento:
Las funciones de activación determinan la transformación aplicada a la salida de cada neurona. Las funciones probadas son:
- ReLU: Rectified Linear Unit, activa solo valores positivos.
- Tanh: Tangente hiperbólica, escala las salidas en el rango [-1, 1].
- Sigmoid: Función sigmoide, mapea las salidas en el rango [0, 1].
- Softplus: Aproximación suave de la función ReLU.
Los optimizadores ajustan los pesos de la red durante el entrenamiento:
- Adam: Un optimizador basado en gradientes con correcciones de momento.
- SGD: Descenso de gradiente estocástico clásico.
- RMSprop: Utiliza promedios de los cuadrados de los gradientes.
- Adagrad: Ajusta la tasa de aprendizaje de acuerdo con la frecuencia de los parámetros.
La tasa de aprendizaje controla el tamaño de los pasos que da el optimizador al ajustar los pesos.
El tamaño de lote es el número de muestras procesadas antes de actualizar los pesos. Se probaron tamaños de lote de 8, 16 y 32.
Número de veces que el modelo pasa por todo el conjunto de datos. Se probaron 20, 50 y 100 épocas.
Aquí se presenta un ejemplo de los resultados de precisión para una combinación específica de hiperparámetros:
Clasificación para relu + adam (lr=0.01, bs=8, epochs=20): precision recall f1-score support 0 1.0 1.0 1.0 19.0 1 1.0 1.0 1.0 13.0 2 1.0 1.0 1.0 13.0 accuracy 1.0 1.0 1.0 1.0 macro avg 1.0 1.0 1.0 45.0 weighted avg 1.0 1.0 1.0 45.0
La mejor configuración encontrada en este experimento es ReLU + Adam (lr=0.01, bs=8, epochs=20), que alcanzó una precisión de 1.0 en el conjunto de validación.
- Ventajas de esta configuración:
- La función de activación ReLU muestra un buen rendimiento al no saturarse tanto como otras funciones.
- El optimizador Adam, combinado con una tasa de aprendizaje de 0.01, ayuda a una rápida convergencia del modelo.
- El tamaño de lote pequeño (8) favorece una actualización más frecuente de los pesos, lo que permite una mejor optimización.
En resumen, los experimentos muestran que la configuración de ReLU + Adam con una tasa de aprendizaje de 0.01, tamaño de lote 8 y 20 épocas ha dado los mejores resultados en términos de precisión. Estas configuraciones deben considerarse para problemas similares y pueden ser la base para una mejora continua.