### Ejercicios

**Ejercicio 1: Pipeline con transformadores personalizados y regresión lineal**  
- **Enunciado:**  
  Diseña un pipeline que integre varios pasos de preprocesamiento para un conjunto de datos con variables numéricas y categóricas. Crea al menos dos transformadores personalizados: uno que implemente una transformación logarítmica para variables con sesgo y otro que realice un escalado robusto sobre datos numéricos. Posteriormente, incluye un transformador que combine variables o cree nuevas features (por ejemplo, interacciones o polinomios). Finalmente, utiliza un estimador de regresión lineal con regularización (Ridge o Lasso) y realiza un grid search para optimizar los hiperparámetros del modelo y de los transformadores.  
- **Requisitos adicionales:**  
  - Integra validación cruzada en el pipeline.  
  - Realiza el análisis de residuos y la evaluación del desempeño utilizando métricas como MAE, RMSE y R².  
  - Documenta el pipeline y cada transformador personalizado con comentarios detallados.


**Ejercicio 2: Pipeline para clasificación con KNN y SVM en datos desbalanceados**  
- **Enunciado:**  
  Con un dataset de clasificación con clases desbalanceadas, diseña un pipeline que incluya:  
  - Un paso de imputación y escalado de las variables.  
  - Un transformador personalizado para generar nuevas variables a partir de la ingeniería de características (por ejemplo, combinaciones o extracciones de texto si aplica).  
  - La integración de técnicas de sobremuestreo o submuestreo (puedes implementar un transformador que lo simule o integrar herramientas de imbalance-learn).  
  Luego, compara dos modelos: un clasificador KNN y un SVM. Configura un proceso de búsqueda de hiperparámetros (por ejemplo, GridSearchCV) que incluya tanto parámetros de preprocesado (como la cantidad de vecinos en KNN o el kernel y el coeficiente de penalización en SVM) como del método de muestreo.  
- **Requisitos adicionales:**  
  - Evalúa el modelo usando métricas específicas para datos desbalanceados (por ejemplo, F1-score, AUC-ROC y matriz de confusión).  
  - El pipeline debe poder serializarse y cargarse para inferencias futuras.  
  - Incluye un análisis comparativo y visualización de la curva ROC de ambos modelos.

**Ejercicio 3: Implementación de un pipeline con árboles de decisión y ensamble**  
- **Enunciado:**  
  Diseña un pipeline que permita probar varios modelos basados en árboles de decisión, incluyendo un árbol de decisión simple, un Random Forest y un Gradient Boosting. En el pipeline, implementa:  
  - Un transformador personalizado que realice la selección automática de features basado en un umbral de correlación o importancia.  
  - Un transformador para el manejo de outliers (por ejemplo, mediante la transformación de Winsorización).  
  - La posibilidad de preprocesar datos de forma secuencial (por ejemplo, imputación, escalado y selección de características) y, a continuación, aplicar el método de ensamble.  
- **Requisitos adicionales:**  
  - Implementa la comparación de modelos utilizando validación cruzada anidada.  
  - Configura un grid search para cada modelo de árbol, ajustando parámetros como la profundidad máxima, el número de estimadores y el criterio de división.  
  - Presenta una visualización que muestre la importancia de las variables para cada modelo.


**Ejercicio 4: Pipeline de procesamiento de texto y clasificación con SVM**  
- **Enunciado:**  
  Utilizando un dataset de texto (por ejemplo, reseñas, noticias o comentarios en redes sociales), desarrolla un pipeline que incluya:  
  - Un transformador personalizado que realice la limpieza y normalización de texto (eliminación de stopwords, lematización, etc.).  
  - La conversión del texto a una representación numérica utilizando técnicas como TF-IDF o embeddings propios.  
  - Un componente de reducción de dimensionalidad (como PCA o TruncatedSVD).  
  - Finalmente, implementa un clasificador SVM, ajustando hiperparámetros tanto del preprocesamiento de texto como del modelo SVM.  
- **Requisitos adicionales:**  
  - Incluye un análisis de sensibilidad de parámetros y la visualización de los clusters resultantes del espacio reducido.  
  - El pipeline debe ser modular y permitir la incorporación o modificación de cada uno de los pasos de procesamiento de forma independiente.  
  - Realiza una evaluación exhaustiva utilizando métricas de clasificación y visualización de la matriz de confusión.


**Ejercicio 5: Pipeline multisalida para regresión y clasificación simultánea**  
- **Enunciado:**  
  Crea un pipeline que permita realizar tanto una tarea de regresión como de clasificación a partir de un mismo conjunto de datos. Para ello:  
  - Implementa un transformador personalizado que divida y preprocese de manera diferenciada las variables de entrada según la tarea (por ejemplo, normalización para la regresión y escalado para la clasificación).  
  - Diseña el pipeline de forma que se puedan entrenar dos modelos simultáneamente: uno de regresión lineal (o una variante robusta) y otro de clasificación (por ejemplo, SVM o KNN).  
  - Integra una estrategia de validación cruzada que evalúe conjuntamente ambos modelos, permitiendo comparar y correlacionar sus resultados.  
- **Requisitos adicionales:**  
  - Incluye una función que muestre la relación entre las predicciones del modelo de regresión y la probabilidad de la clase predicha en la tarea de clasificación.  
  - Realiza una búsqueda de hiperparámetros conjunta que considere parámetros de ambos modelos y pasos del pipeline.  
  - Documenta y justifica la estrategia de preprocesamiento diferencial aplicada a cada tarea.


**Ejercicio 6: Pipeline para series temporales con componentes de feature extraction y SVM**  
- **Enunciado:**  
  Diseña un pipeline orientado al análisis de series temporales en el que se realicen las siguientes tareas:  
  - Implementa un transformador personalizado para extraer características temporales (por ejemplo, tendencias, estacionalidad, ventanas deslizantes, Fourier transform, etc.).  
  - Incluye pasos de preprocesamiento como el escalado y la imputación de valores faltantes específicos para series temporales.  
  - Incorpora un estimador de regresión basado en SVM para predecir valores futuros, ajustando parámetros específicos de la ventana y del modelo.  
  - Realiza una validación utilizando técnicas de división temporal (por ejemplo, walk-forward validation).  
- **Requisitos adicionales:**  
  - El pipeline debe permitir la integración de múltiples transformadores en paralelo (por ejemplo, distintos métodos de extracción de features) y su posterior fusión.  
  - Se debe incluir una estrategia para la detección y corrección de outliers en la serie.  
  - Documenta el rendimiento del modelo y realiza una comparación con al menos un modelo alternativo (por ejemplo, ARIMA o Random Forest).



**Ejercicio 7: Pipeline modular para optimización de modelos en un entorno multi-fase**  
- **Enunciado:**  
  Crea un pipeline modular que permita dividir el proceso de modelado en tres fases:  
  1. Preprocesamiento de datos (limpieza, imputación, escalado, codificación de variables categóricas, etc.).  
  2. Generación y selección de features utilizando transformadores personalizados y técnicas de reducción de dimensionalidad.  
  3. Entrenamiento de modelos y validación, comparando al menos tres algoritmos (por ejemplo, regresión lineal, KNN y SVM).  
  - Implementa un sistema de logging y trazabilidad para cada fase del pipeline.  
- **Requisitos adicionales:**  
  - Cada fase debe poder ser ejecutada de forma independiente y en conjunto, permitiendo reutilizar componentes.  
  - Integra un mecanismo para la selección automática de los mejores parámetros y el ensamblaje de los resultados finales.  
  - Realiza un análisis comparativo que incluya visualizaciones detalladas del rendimiento y la importancia de las features seleccionadas.


**Ejercicio 8: Pipeline avanzado para modelado y explicabilidad con árboles de decisión y SVM**  
- **Enunciado:**  
  Desarrolla un pipeline avanzado que, además de entrenar modelos, permita la interpretación y explicabilidad de los resultados. Para ello, incluye:  
  - Un paso de preprocesamiento que incorpore transformadores personalizados para normalizar, escalar y seleccionar variables, incluyendo la creación de variables derivadas mediante interacciones o funciones no lineales.  
  - La integración de dos modelos: un árbol de decisión (o un ensamble basado en árboles) y un SVM.  
  - Un componente que utilice técnicas de interpretación (por ejemplo, SHAP o LIME) para explicar las predicciones de ambos modelos.  
  - Configura un proceso de validación cruzada y búsqueda de hiperparámetros que cubra tanto los aspectos del preprocesamiento como los parámetros específicos de cada modelo.  
- **Requisitos adicionales:**  
  - El pipeline debe generar reportes automáticos que incluyan gráficos explicativos y métricas de desempeño (precisión, recall, F1, AUC para clasificación; RMSE, MAE para regresión).  
  - Integra la capacidad de analizar la importancia de las features a través de ambos enfoques de modelado y comparar sus explicaciones.  
  - Documenta exhaustivamente cada parte del pipeline, justificando las decisiones de preprocesamiento, modelado y métodos de interpretabilidad.


In [None]:
### Tus respuestas