### Experimentación en Aprendizaje Automático:

Dada la complejidad de los métodos de aprendizaje automático, estos en general resisten los métodos de análisis formal. Por lo tanto, debemos aprender sobre el comportamiento de los algoritmos en nuestros problemas específicos de manera empírica. 

**Las respuestas a preguntas que son importantes para ti, como qué algoritmo funciona mejor con tus datos o qué características de entrada utilizar, solo se pueden encontrar a través de los resultados de ensayos experimentales.**

Esto representa tanto un desafío cuando nos iniciamos en este campo, como una oportunidad para el descubrimiento y la contribución.

La experimentación en aprendizaje automático se trata de realizar ensayos rigurosos y controlados para encontrar el modelo óptimo para un problema específico. Implica variar sistemáticamente las variables independientes, como algoritmos, características o hiperparámetros, y observar su impacto en las métricas de rendimiento.

Los experimentos en aprendizaje automático son inherentemente probabilísticos debido a la variabilidad en los datos y en el modelo.

**Variabilidad de los datos** surge de las muestras específicas que elegimos para el entrenamiento y la evaluación. 

**Variabilidad del modelo** proviene de la aleatoriedad inherente a muchos algoritmos, como la inicialización aleatoria de pesos o la aleatorización de los datos.

Para obtener buenos resultados en la experimentación, siempre debemos considerar los siguientes principios:

1. **Aleatorización**: Para garantizar que cada experimento sea independiente y esté libre de sesgos, debemos aleatorizar la selección de nuestros datos y el orden de los ensayos. Esto asegura que no estemos introduciendo errores sistemáticos de manera involuntaria.
2. **Replicación**: Necesitamos repetir nuestros experimentos varias veces, ejecutándolos con diferentes muestras aleatorias de datos y configuraciones de modelo, para comprender el verdadero rango de variabilidad y obtener resultados estadísticamente significativos.
3. **Reducción de ruido**: Nuestro objetivo es minimizar la influencia del ruido aleatorio para poder aislar los efectos de nuestras variables independientes.


### Especificidad vs. generalidad

La evaluación de los enfoques de aprendizaje automático (ML) depende en gran medida del alcance previsto de la aplicación. 

Existen dos enfoques distintos: evaluaciones específicas del dominio y evaluaciones genéricas.

**Evaluación Específica del Dominio** se enfoca en adaptar la evaluación a la aplicación objetivo. Esto incluye:

- Usar un conjunto de datos que refleje con precisión el escenario del mundo real, asegurando diversidad y capturando variaciones relevantes.
- Es apropiado medir el rendimiento utilizando una única métrica en el conjunto de datos elegido. El modelo con el mejor rendimiento en la prueba se considera el mejor para la tarea específica.
- Los resultados obtenidos en un conjunto de datos específico del dominio no deben generalizarse a otros contextos.

**Evaluación Genérica** tiene como objetivo una comprensión más amplia de las capacidades de un modelo en diversos dominios. Esto implica:

- Emplear múltiples conjuntos de datos de diferentes dominios para probar la adaptabilidad del modelo.
- Utilizar múltiples métricas de rendimiento para obtener una visión integral de las fortalezas y debilidades del modelo.
- Tener cuidado al comparar simplemente los resultados entre conjuntos de datos. Sacar conclusiones sobre el enfoque "mejor" en general requiere un análisis más profundo y, posiblemente, un meta-análisis de los resultados.

Es crucial reconocer que los resultados de cualquiera de los enfoques no pueden extrapolarse directamente al otro. Los resultados específicos del dominio no deben usarse para reclamar una superioridad general, aunque pueden contribuir a estudios futuros de meta-análisis. De manera similar, los buenos resultados genéricos no garantizan el éxito en aplicaciones específicas. Un enfoque que se ha demostrado ser bueno en promedio en varias tareas puede no tener un buen desempeño en una tarea específica.

Realizar una evaluación integral es lo ideal, pero las limitaciones de recursos suelen restringir el alcance de los experimentos. Es importante reconocer estas limitaciones y ajustar las afirmaciones y conclusiones en consecuencia. La clave es evitar hacer afirmaciones que no estén respaldadas por experimentos.

Un caso práctico de esto puede consultarse [aquí](https://towardsdatascience.com/a-quick-guide-to-designing-rigorous-machine-learning-experiments-21b19f067703).


### Model Selection

Al abordar un problema práctico, generalmente podemos pensar en varios algoritmos que podrían ofrecer una buena solución, cada uno de los cuales podría tener varios parámetros. *¿Cómo podemos elegir el mejor algoritmo para el problema en cuestión? ¿Y cómo ajustamos los parámetros del algoritmo?* Esta tarea a menudo se denomina **selección de modelo**.

La selección de modelo implica probar diferentes algoritmos y configuraciones de parámetros para determinar cuál ofrece el mejor rendimiento en términos de precisión, generalización y eficiencia para el problema específico. Este proceso incluye la evaluación de los algoritmos en conjuntos de datos de entrenamiento y prueba, la optimización de hiperparámetros y la comparación de métricas de desempeño. El objetivo es encontrar el modelo más adecuado para el problema, considerando tanto su capacidad de aprendizaje como su capacidad de generalizar a nuevos datos.


##### Dos problemas relacionados: Model Selection y Hyperparameter Tuning

**Model Selection**  
Se refiere a la elección de:  
- *Características de entrada*: qué variables incluir.
- *Preprocesamiento*: qué transformación aplicar (por ejemplo, escalado).  
- *Método de aprendizaje automático*: qué algoritmo utilizar.

**Hyperparameter Tuning**  
Consiste en seleccionar los parámetros específicos del método de aprendizaje automático.  

Aunque se distinguen conceptualmente, en la práctica ambos problemas se abordan de manera conjunta. Usamos generalmente validación cruzada para elegir el modelo y los hiperparámetros que minimicen el error en el conjunto de prueba.  


#### Evaluación de modelos

Entrenar un modelo y evaluarlo utilizando los mismos datos es un error metodológico: un modelo que simplemente memorice las etiquetas de los ejemplos vistos durante el entrenamiento obtendría una puntuación perfecta, pero sería incapaz de generalizar a datos nuevos. 
A este problema se le conoce como **sobreajuste**.  

Para evitarlo, es habitual en experimentos de aprendizaje supervisado separar una parte de los datos disponibles como conjunto de prueba (`X_test`, `y_test`), que se utiliza exclusivamente para evaluar el desempeño del modelo. 

En *scikit-learn*, se puede realizar rápidamente una división aleatoria entre el conjunto de entrenamiento y el de prueba utilizando la función auxiliar `train_test_split`.  \
Esta función permite especificar la proporción de datos que se incluirán en el conjunto de prueba, mezclar los datos y establecer una semilla aleatoria para garantizar la reproducibilidad.



Al evaluar diferentes configuraciones (*“hiperparámetros”*) para los estimadores, sigue existiendo el riesgo de sobreajuste en el conjunto de prueba, ya que los parámetros pueden ajustarse hasta que el estimador rinda de manera óptima. \
De esta forma, el conocimiento sobre el conjunto de prueba puede "filtrarse" hacia el modelo y las métricas de evaluación ya no reflejarán el desempeño de generalización.  

Para resolver este problema, se puede reservar otra parte del conjunto de datos como un **“conjunto de validación”**: el entrenamiento se realiza sobre el conjunto de entrenamiento, luego se evalúa en el conjunto de validación, y cuando el experimento parece exitoso, se puede realizar la evaluación final sobre el conjunto de prueba.

Ambas técnicas las habíamos utilizado en clases anteriores.

*¿Qué desventajas tiene este último enfoque?*

- Al dividir los datos disponibles en tres conjuntos, reducimos drásticamente el número de muestras que se pueden utilizar para entrenar el modelo.  
- Los resultados pueden depender de una elección aleatoria particular para el par de conjuntos (entrenamiento, validación).


Una solución a este problema es un procedimiento llamado **validación cruzada** (*cross-validation* o CV, por su nombre en inglés). 
Aún debe reservarse un conjunto de prueba para la evaluación final, pero el conjunto de validación ya no es necesario al realizar CV.  

En el enfoque básico, llamado **k-fold CV**, el conjunto de entrenamiento se divide en k conjuntos más pequeños. El siguiente procedimiento se sigue para cada uno de los k grupos:

1. Se entrena un modelo utilizando *k-1* de los conjuntos como datos de entrenamiento.  
2. El modelo resultante se valida sobre el conjunto restante de los datos (es decir, se utiliza como un conjunto de prueba para calcular las medidas de desempeño).

La medida de desempeño reportada por la validación cruzada *k-fold* es el promedio de los valores calculados en el ciclo.


A continuación, se muestra una figura que ilustra el procedimiento para **k = 5**:


<img src="images/kfold.png" alt="image" width="auto" height="300">

**Ventajas de la validación cruzada k-fold:**

- *Uso eficiente de los datos*: Todos los datos se utilizan tanto para entrenar como para validar el modelo, lo que es crucial cuando los datos son limitados.

- *Evaluación más robusta*: Al realizar múltiples entrenamientos y evaluaciones con diferentes particiones, se obtiene una estimación más precisa del desempeño del modelo, menos influenciada por la partición aleatoria.

- *Reducción del sesgo*: Al evaluar el modelo en diferentes subconjuntos de datos, se reduce el riesgo de que el modelo se sobreajuste a una partición específica del conjunto de validación.

**Desventajas de la validación cruzada k-fold:**

- *Costo computacional* El entrenamiento y la validación deben realizarse k veces, lo que puede ser costoso en términos de tiempo y recursos computacionales, especialmente con modelos complejos o grandes volúmenes de datos.


*Esta estrategia básica de validación cruzada es factible para todos los tipos de datos y problemas?*

*En qué casos crees que podría no funcionar?*

**Estrategias de Validación Cruzada**

Scikit-learn ofrece varias estrategias de validación cruzada, cada una diseñada para adaptarse a diferentes tipos de conjuntos de datos y requisitos de validación de modelos. 

A continuación se presentan algunas de las estrategias clave:

1. **Validación Cruzada K-Folds**:
   - El conjunto de datos se divide en K subconjuntos (folds).
   - El modelo se entrena con K-1 subconjuntos y se prueba con el subconjunto restante.
   - Este proceso se repite K veces, con cada fold sirviendo una vez como conjunto de prueba.
   - Proporciona una estimación confiable del rendimiento del modelo.

2. **Validación Cruzada K-Folds Estratificada**:
   - Similar a K-folds, pero asegura que cada fold mantenga la misma distribución de la variable objetivo que el conjunto de datos original.
   - Es especialmente útil para tareas de clasificación desequilibradas.

3. **Validación Cruzada Leave-One-Out (LOO-CV)**:
   - Cada elemento del conjunto de datos se usa como conjunto de prueba, mientras que los restantes se usan para entrenar.
   - Es útil cuando se trabaja con conjuntos de datos pequeños, pero es costoso computacionalmente.

4. **Validación Cruzada Leave-P-Out**:
   - Similar a LOO-CV, pero prueba con P elementos de datos dejados afuera, en lugar de solo uno.
   - Proporciona una estimación más amplia de la capacidad de generalización del modelo.

5. **Validación Cruzada ShuffleSplit**:
   - Este método divide aleatoriamente los datos en conjuntos de entrenamiento y prueba varias veces.
   - A diferencia de K-folds, los conjuntos de entrenamiento y prueba pueden superponerse entre divisiones, ofreciendo mayor variabilidad.

6. **Group K-Folds**:
   - La suposición de independencia e idéntica distribución (i.i.d.) se rompe cuando el proceso generador subyacente produce grupos de muestras dependientes. 
   - En este caso, los datos están agrupados en conjuntos distintos. Por ejemplo, si una misma prueba médica proviene de hospitales o equipos diferentes, cada fuente podría ser un grupo. Si se dividieran aleatoriamente los datos en los diferentes *folds*, podría ocurrir que un mismo grupo (por ejemplo, todas las muestras de un hospital X) apareciera tanto en el conjunto de entrenamiento como en el de prueba, lo que podría llevar a una evaluación sesgada del modelo.
   - En este caso, nos gustaría saber si un modelo entrenado con un conjunto particular de grupos generaliza bien a los grupos no vistos. Para medir esto, necesitamos asegurarnos de que todas las muestras en el fold de validación provengan de grupos que no estén representados en absoluto en el fold de entrenamiento correspondiente.

7. **TimeSeriesSplit**:
   - Diseñada específicamente para datos de series temporales donde no se deben usar valores futuros para predecir valores pasados.
   - Este método divide los datos en un número fijo de divisiones, asegurando que el modelo siempre se entrene con puntos de datos previos al conjunto de prueba, respetando el orden temporal.
   - TimeSeriesSplit es una variación de k-fold que devuelve los primeros k folds como conjunto de entrenamiento y el fold k+1 como conjunto de prueba. 
   - A diferencia de los métodos de validación cruzada estándar, los conjuntos de entrenamiento sucesivos son supersets de aquellos que vienen antes que ellos.

Estas estrategias ayudan a mitigar el sobreajuste, garantizan una evaluación justa del modelo y se eligen según la estructura y características del conjunto de datos.

Para más detalles sobre estas estrategias y ejemplos, consulta la [documentación oficial de scikit-learn](https://scikit-learn.org/1.5/modules/cross_validation.html).


A continuación, se muestra una figura que ilustra el procedimiento general para seleccionar un modelo:

<img src="images/grid_search_workflow.png" alt="image" width="auto" height="300">

### Estimadores Dummy

Cuando calculas tus primeros resultados de validación cruzada para estimar el rendimiento de tu modelo, generalmente sabes que, mientras mayor sea la puntuación, mejor. Si la puntuación es bastante alta en el primer intento, eso es excelente, pero no suele ser el caso.

*¿Qué hacer si la primera puntuación de precisión es bastante baja o inferior a lo que deseas o esperas? ¿Es un problema de los datos? ¿Es el modelo? ¿Ambos? ¿Cómo podemos saber rápidamente si nuestro modelo está mal ajustado?*

Aquí es donde entran los **modelos dummy**. Su complejidad e "inteligencia" son muy bajas: la idea es que puedes comparar tu modelo con ellos para ver cuánto mejor es en comparación con los modelos más *simples o ingenuos*. Cabe destacar que los modelos dummy no predicen intencionalmente valores absurdos, sino que hacen suposiciones muy simples y directas.

Si tu modelo tiene un rendimiento peor que el modelo dummy, deberías ajustar o cambiar completamente tu modelo.

`DummyClassifier` de **scikit-learn** implementa varias de estas estrategias simples para clasificación:

- `stratified` genera predicciones aleatorias respetando la distribución de clases del conjunto de entrenamiento.
- `most_frequent` siempre predice la etiqueta más frecuente en el conjunto de entrenamiento.
- `prior` siempre predice la clase que maximiza la probabilidad a priori de la clase (como `most_frequent`), y `predict_proba` devuelve la probabilidad a priori de la clase.
- `uniform` genera predicciones aleatorias de manera uniforme.
- `constant` siempre predice una etiqueta constante proporcionada por el usuario. Una motivación principal de este método es el cálculo del F1-score, cuando la clase positiva es minoritaria.

`DummyClassifier` se utiliza principalmente para crear modelos de referencia y comparar el rendimiento de modelos más complejos con un modelo básico que no realiza un aprendizaje real. Esto ayuda a verificar si el modelo más avanzado está aprendiendo de manera significativa y no simplemente generando predicciones triviales o aleatorias.

El `DummyRegressor` también implementa cuatro reglas simples de referencia para regresión:

- `mean`: siempre predice la media de los valores objetivo del conjunto de entrenamiento.
- `median`: siempre predice la mediana de los valores objetivo del conjunto de entrenamiento.
- `quantile`: siempre predice un cuantil especificado por el usuario a partir de los valores objetivo del conjunto de entrenamiento.
- `constant`: siempre predice un valor constante proporcionado por el usuario.

### Selección de hiperparámetros

Los **Hyper-parameters** son parámetros que no se aprenden directamente dentro de los estimadores. Ejemplos típicos incluyen `C`, `kernel` y `gamma` para clasificadores de vectores de soporte (SVC), o `k` para K-Nearest Neighbors (KNN), entre otros.

El **ajuste de hiperparámetros** es un proceso crítico en el desarrollo de modelos de machine learning. Consiste en encontrar la configuración óptima de hiperparámetros para el comportamiento de un algoritmo de aprendizaje automático. Estos parámetros tienen un impacto significativo en el rendimiento del modelo, y elegir los hiperparámetros correctos puede ser la diferencia entre un modelo poco efectivo y uno que alcance resultados de vanguardia.

Es posible y recomendable buscar en el espacio de hiperparámetros para encontrar la mejor puntuación de validación cruzada. Cualquier parámetro proporcionado al construir un estimador puede optimizarse de esta manera. 

Específicamente, para obtener los nombres y valores actuales de todos los parámetros de un estimador dado, se puede usar:

```python
estimator.get_params()
```

Un proceso de búsqueda consta de:

- Un estimador (regresor o clasificador, como `sklearn.svm.SVC()`).
- Un espacio de parámetros.
- Un método para buscar o muestrear candidatos.
- Un esquema de validación cruzada.
- Una función de puntuación.

En **scikit-learn** se proporcionan dos enfoques genéricos para la búsqueda de parámetros:

1. **`GridSearchCV`**: considera exhaustivamente todas las combinaciones de parámetros en un espacio definido.
2. **`RandomizedSearchCV`**: muestrea un número dado de candidatos del espacio de parámetros con una distribución especificada.

Ambas herramientas tienen contrapartes de **halving**: `HalvingGridSearchCV` y `HalvingRandomSearchCV`, que pueden ser mucho más rápidas para encontrar una buena combinación de parámetros.

Para más detalles sobre estas estrategias y tips, consulta la [documentación oficial](https://scikit-learn.org/1.5/modules/grid_search.html).

Existen varias estrategias y herramientas más allá de `GridSearchCV` y `RandomizedSearchCV` para optimizar hiperparámetros. Algunos ejemplos son:

**Búsqueda Bayesiana**  
   Este método utiliza modelos probabilísticos para construir una función de probabilidad del espacio de hiperparámetros y selecciona las configuraciones que probablemente optimicen el modelo.

**Optimización Evolutiva (Algoritmos Genéticos)**  
   Se basa en la evolución natural para iterar sobre configuraciones de hiperparámetros, utilizando operaciones como selección, cruce y mutación.

**AutoML**  


### Curva de Validación

Para validar un modelo, se necesita una función de puntuación, como *accuracy* para clasificadores.  

La forma adecuada para seleccionar múltiples hiperparámetros de un estimador es a través de **grid search** u otros métodos similares. Estos métodos eligen los hiperparámetros que maximizan el puntaje en un conjunto de validación o múltiples conjuntos de validación.  

Sin embargo, a veces, resulta útil graficar cómo un único hiperparámetro influye en los puntajes de entrenamiento y validación para identificar si el modelo está sobreajustando o subajustando a ciertos valores del hiperparámetro.

*¿Qué es una curva de validación?*

Una **curva de validación** muestra cómo el cambio en un hiperparámetro afecta el rendimiento del modelo.  

Nos permite analizar la relación entre la complejidad del modelo (como el número de características o la profundidad de un árbol de decisión) y el rendimiento en los datos de entrenamiento y validación.



*¿Cómo crear una curva de validación?*

1. Elegir un hiperparámetro.
2. Entrenar varios modelos con diferentes valores de ese parámetro.
3. Medir el rendimiento de cada modelo en los datos de entrenamiento y validación.
4. Graficar los resultados obtenidos.

*Curva de Validación en Scikit-learn*

Scikit-learn proporciona la función `validation_curve` para generar curvas de validación de manera sencilla. 

```python
from sklearn.model_selection import validation_curve

train_scores, valid_scores = validation_curve(
    estimator,          # El modelo a evaluar, por ejemplo, SVC()
    X,                  # Características (features) del conjunto de datos de entrenamiento
    y,                  # Etiquetas del conjunto de datos de entrenamiento
    param_name,         # Nombre del hiperparámetro a variar (str)
    param_range,        # Lista de valores para el hiperparámetro
    scoring=None,       # Métrica de evaluación (opcional, por defecto usa la predeterminada de    estimador)
    cv=5                # Número de particiones de validación cruzada
)

```
En lugar de graficar manualmente los resultados de `validation_curve` con `matplotlib`, Scikit-learn ofrece la clase `ValidationCurveDisplay`. Esta es una opción más directa y sencilla para visualizar las curvas de validación sin necesidad de manejar directamente los resultados con matplotlib.

A continuación se muestra una imagen de ejemplo de una curva de validación para ilustrar cómo el cambio en los hiperparámetros afecta el rendimiento del modelo en los datos de entrenamiento y validación.

![Curva de Validación de Ejemplo](images/val_curve-1.png)

*Interpretación de la curva de validación*:
- **Detección de sobreajuste**:  
  Si el rendimiento en entrenamiento es significativamente mejor que en validación, el modelo está sobreajustando. Esto indica que el modelo está memorizando los datos de entrenamiento, pero no generaliza bien a datos nuevos.

- **Detección de subajuste**:  
  Si el rendimiento en entrenamiento y validación son bajos, el modelo está subajustando. Esto sugiere que el modelo es demasiado simple para capturar los patrones en los datos.

### Curva de Aprendizaje

Una **curva de aprendizaje** muestra cómo varían la puntuación de entrenamiento y validación de un estimador a medida que cambia el número de muestras de entrenamiento utilizadas. Es una herramienta muy útil para determinar:

- **Qué tanto se beneficia el modelo al agregar más datos de entrenamiento.**  
- **Si el modelo tiene más problemas con errores por varianza o por sesgo (bias).**

*Generación de la Curva de Aprendizaje*

Para obtener los valores necesarios para graficar la curva de aprendizaje (número de muestras utilizadas, la media de las puntuaciones en los conjuntos de entrenamiento y validación), se puede utilizar la función `learning_curve`.

Si solo necesitas graficar la curva de aprendizaje, es más sencillo utilizar la clase `LearningCurveDisplay`.

La siguiente imagen ilustra lo que se considera una *curva de aprendizaje ideal* en el contexto de entrenamiento de modelos de Machine Learning:

<img src="images/Learning curve.png" alt="image" width="auto" height="300">


### Interpretabilidad de los modelos de aprendizaje

En **Machine Learning (ML)**, la **interpretabilidad** y la **explicabilidad** son conceptos fundamentales para comprender cómo un modelo toma sus decisiones. Esto es crucial porque permite:

- Generar confianza en los resultados.
- Detectar y corregir sesgos.
- Diagnosticar debilidades para mejorar el rendimiento.
- Cumplir con regulaciones legales y éticas.

En aplicaciones críticas como **medicina, finanzas o justicia**, entender por qué un modelo toma una decisión es esencial para evitar errores y asegurar la transparencia. Además, estas prácticas permiten:

- Optimizar los modelos.
- Identificar sus limitaciones.
- Garantizar que sus decisiones sean responsables y seguras para los usuarios.

En el notebook [`Metodos_de_Analisis.ipynb`](Metodos_de_Analisis.ipynb) se exploran y relacionan algunas de estas técnicas.