<div style="width: 100%; clear: both;">
<div style="float: left; width: 50%;">
<img src="https://www.uoc.edu/content/dam/news/images/noticies/2016/202-nova-marca-uoc.jpg" align="left" width="45%">
</div>
<div style="float: right; width: 50%;">
<p style="margin: 0; padding-top: 22px; text-align:right;">M2.891 · Aprendizaje automático · PEC4</p>
<p style="margin: 0; text-align:right;">2024-1 · Máster universitario en Ciencia de datos (Data science)</p>
<p style="margin: 0; text-align:right; padding-button: 100px;">Estudios de Informática, Multimedia y Telecomunicación</p>
</div>
</div>
<div style="width:100%;">&nbsp;</div>

# **PEC 4: Aprendizaje con Ensemble Avanzado, Transfer Learning y Evaluación de Modelos**

## **Objetivo:**
El objetivo principal de esta cuarta PEC es consolidar los conocimientos adquiridos en las PECs anteriores e introducir técnicas avanzadas de ensemble y transfer learning. Esta práctica le ayudará a entender cómo combinar varios modelos y aplicar aprendizaje profundo preentrenado para mejorar el rendimiento, evaluándolos críticamente con métricas adecuadas. Nos centraremos en métricas como la sensibilidad y la especificidad, especialmente importantes en el contexto médico.

## **Contexto:**
Después de completar las PECs anteriores (PAC 1, PAC 2 y PAC 3), ya está familiarizado con la preparación de datos, el aprendizaje supervisado y no supervisado, la reducción de dimensionalidad y el manejo de conjuntos de datos desbalanceados. En esta PAC 4, aplicará estas habilidades utilizando técnicas avanzadas como Bagging, Boosting, Stacking, Cascading y Transfer Learning con un modelo preentrenado adaptado para datos tabulares.

### **Conjunto de Datos:**
Trabajará con un conjunto de datos real sobre diabetes. Estos datos contienen varias variables clínicas que permiten predecir si un paciente tiene diabetes. Su primer paso será preparar los datos y realizar un análisis exploratorio. A continuación, comparará dos enfoques:

1. Utilizar las variables originales como descriptores.
2. Utilizar los principales componentes (PCs) obtenidos del Análisis de Componentes Principales (PCA) como descriptores.

Además, aplicará **Transfer Learning** utilizando un modelo de red neuronal preentrenado para mejorar el rendimiento de su mejor modelo.

---

## **Resumen de las Tareas:**

### **1. Preparación de Datos y Análisis Exploratorio (EDA) (0.5 puntos)**

- Cargue el conjunto de datos sobre diabetes.
- Realice un análisis estadístico básico.
- Realice un análisis exploratorio de datos (EDA) con visualizaciones para entender la distribución y correlación.
- Limpie y preprocesamente los datos, incluyendo el tratamiento de valores perdidos y valores atípicos.

### **2. Reducción de Dimensionalidad (1 punto)**

- Preparación: Se separan a los pacientes diabéticos para el entrenamiento del PCA. Divide los datos diabéticos en entrenamiento/validación (80%) y pruebas (20%), random state=42.
- Normalización y construcción del modelo PCA: Se normalizan los datos y se crea el modelo de los componentes principales con el conjunto de pacientes de entrenamiento del paso anterior (diabéticos)
- Proyección de los Datos Restantes: Utilizamos el modelo creado en el paso anterior para proyectar tanto los datos de test de los pacientes diabéticos como los datos de los pacientes no diabéticos.
- Creación del Conjunto de Entrenamiento para Clasificación: El conjunto de datos proyectado se utiliza como entrada para los modelos de clasificación.

### **3. Entrenamiento y Evaluación de Modelos Base (2.5 puntos)**

- Entrene modelos base con las variables originales como descriptores.
- Entrene modelos base con los componentes principales (PCs) como descriptores.
- Evalúe los modelos utilizando métricas de exactitud, sensibilidad, especificidad, ROC-AUC y análisis de la matriz de confusión.

### **4. Técnicas Avanzadas de Ensemble (3 puntos)**

- Implemente y evalúe técnicas de ensemble como Bagging, Boosting, Stacking y Cascading utilizando las variables originales.
- Repita la implementación con los componentes principales como descriptores.
- Compare el rendimiento de cada método y analice los resultados.

### **5. Convolutional Neural Network para Datos Tabulares (1 punto + 1 punto adicional)**

- Diseña un modelo Convolutional Neural Network (CNN) para datos tabulares.
- Entrene el modelo utilizando los datos preprocesados y compare el rendimiento con los métodos de ensemble.
- Evalúe el modelo utilizando exactitud, sensibilidad, especificidad, ROC-AUC y matriz de confusión.
- Adapte, entrene y evalúe un modelo de red neuronal preentrenado (ResNet50) para datos tabulares (opcional, 1 punto extra).


### **6. Optimización del Modelo y Sintonización de Hiperparámetros (2 puntos)**

- Realice una sintonización de hiperparámetros con GridSearchCV para el mejor modelo de ensemble.
- Evalúe el modelo optimizado en el conjunto de test.

---

### **Importante:**
- La entrega debe ser en formato Jupyter Notebook (*.ipynb) y HTML.
- No utilice métodos o funciones declarados "deprecated".
- Incluya su nombre y apellidos en la solución.
- Utilice celdas Markdown para responder a las preguntas teóricas.

---

Esta PAC está diseñada para desafiar su comprensión sobre técnicas de ensemble avanzadas y transfer learning, ofreciendo una visión completa de cómo mejorar el rendimiento de los modelos en contextos médicos. Al final de esta PAC, será capaz de:

- Aplicar técnicas avanzadas para mejorar el rendimiento de los modelos de clasificación.
- Utilizar transfer learning para aumentar la eficiencia de los modelos en datos tabulares.
- Evaluar los modelos utilizando métricas relevantes en el contexto médico, con énfasis en sensibilidad y especificidad.

<div class="alert alert-block alert-info">
<strong>Nombre y apellidos: Víctor M. Sola Rodríguez</strong>
</div>

Para la realización de la práctica, necesitaremos importar los siguientes módulos:

In [6]:
# Upgrade pip to ensure compatibility
!pip install --upgrade pip --quiet 
# Keep active

# Install required libraries with quiet output
!pip install scikit-learn tensorflow keras-tuner --quiet  
# Keep active
!pip install numpy pandas seaborn matplotlib tensorflow keras_tuner imbalanced-learn
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import tensorflow as tf
import keras_tuner as kt
from mpl_toolkits.mplot3d import Axes3D
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.model_selection import KFold
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.ensemble import BaggingClassifier, AdaBoostClassifier, StackingClassifier
from sklearn.ensemble import RandomForestClassifier # Import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_curve, accuracy_score, confusion_matrix, roc_auc_score, RocCurveDisplay, classification_report
from sklearn.metrics import make_scorer, accuracy_score, recall_score
from sklearn.base import BaseEstimator, ClassifierMixin
from imblearn.over_sampling import SMOTE, ADASYN
from tensorflow.keras.layers import Dense, Input, Dropout, Flatten
from tensorflow.keras.models import Model
from tensorflow.keras.applications import ResNet50
from tensorflow.keras.utils import to_categorical
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Conv2D, MaxPooling2D, BatchNormalization, GlobalAveragePooling2D
from tensorflow.keras.models import Sequential
from tensorflow.keras.optimizers import Adam
from keras_tuner.tuners import RandomSearch
from keras.models import Sequential
from keras.layers import Dense, Dropout, Conv2D, Flatten, BatchNormalization, MaxPooling2D
from keras.optimizers import Adam

# Ensure that plots are displayed inline (especially useful for Jupyter Notebooks and Colab)
%matplotlib inline

Collecting imbalanced-learn
  Downloading imbalanced_learn-0.13.0-py3-none-any.whl.metadata (8.8 kB)
Collecting sklearn-compat<1,>=0.1 (from imbalanced-learn)
  Downloading sklearn_compat-0.1.3-py3-none-any.whl.metadata (18 kB)
Downloading imbalanced_learn-0.13.0-py3-none-any.whl (238 kB)
Downloading sklearn_compat-0.1.3-py3-none-any.whl (18 kB)
Installing collected packages: sklearn-compat, imbalanced-learn
Successfully installed imbalanced-learn-0.13.0 sklearn-compat-0.1.3


### ¿Por qué utilizar Google Colab para esta PEC 4?

Teniendo en cuenta los requisitos de esta PEC 4, que incluyen **cálculos intensivos**, **modelos preentrenados** y la necesidad de **resultados consistentes y reproducibles**, Google Colab ofrece una plataforma robusta, eficiente y accesible. Entre sus principales ventajas destacan:

1. **Acceso a Hardware Potente (GPU/TPU gratuitas):**  
   Google Colab ofrece acceso gratuito a GPUs y TPUs, lo que resulta especialmente útil para entrenar modelos complejos, especialmente al implementar el **transfer learning**. El uso de una GPU puede reducir significativamente el tiempo de entrenamiento de los modelos, acelerando el proceso de experimentación.

2. **Sin Necesidad de Configuración Local:**  
   Se puede evitar la complejidad de configurar el entorno local con todas las dependencias necesarias. Colab viene preconfigurado con las versiones más recientes de bibliotecas esenciales de Python como **Scikit-Learn, TensorFlow, PyTorch**, y otras que se utilizan en esta PEC. Esto reduce los problemas de compatibilidad y asegura una ejecución fluida del notebook.

3. **Integración Sencilla con Google Drive:**  
   Colab permite una integración directa con Google Drive, facilitando la tarea de guardar los progresos, conjuntos de datos y modelos sin preocuparse por las limitaciones de almacenamiento local. Esta característica es especialmente útil cuando se trabaja con conjuntos de datos grandes, como el conjunto de datos de diabetes utilizado en esta PEC.

4. **Acceso a Modelos Preentrenados:**  
   Cuando se aplica **transfer learning**, a menudo es necesario descargar grandes modelos preentrenados (como ResNet, VGG). Colab tiene una conexión a internet rápida, lo que facilita el acceso y la carga de estos modelos de manera más rápida que en un entorno local típico.

5. **Reproducibilidad y Consistencia:**  
   Utilizar un entorno en la nube como Colab asegura una ejecución consistente para todos, ya que se emplea la misma configuración. Esto reduce la variabilidad en los resultados debido a diferencias en el hardware o en la configuración del software.

<div class="alert alert-block alert-info">
<strong>Implementación:</strong> Abre Colab, permite que acceda a Google Drive y crea un directorio de trabajo:
</div>

### **1. Preparación de Datos y Análisis Exploratorio (EDA) (0.5 puntos)**

- 1.1. Cargad el conjunto de datos sobre diabetes.

<div class="alert alert-block alert-info">
<strong>Implementación:</strong> carga el archivo en un dataframe. Verifica los tipos de variables.
</div>

- 1.2. Análisis estadístico básico.

<div class="alert alert-block alert-info">
<strong>Implementación:</strong> Realiza el análisis estadístico básico.
</div>

- 1.3. Realizad un análisis exploratorio de datos (EDA) con visualizaciones para entender la distribución y correlación.  
1.3.1. Análisis de Variables Categóricas

1.3.2. Análisis de Variables Numéricas

1.3.3. Matriz de Correlación

- 1.4. Preprocesamiento de datos:

<div class="alert alert-block alert-info">
<strong>Implementación:</strong> Limpia y preprocesa los datos, incluyendo el tratamiento de valores perdidos y valores atípicos.
</div>

- 1.5. Balanceo de clases

<div class="alert alert-block alert-info">
<strong>Implementación:</strong> Verificación de la distribución de clases.
</div>

Dado que tenemos previsto utilizar redes neuronales y transferencia de aprendizaje o transfer learning (que puede gestionar bien grandes conjuntos de datos), el mejor método sería una combinación de **SMOTE** y **ADASYN**:

- Primero utiliza **SMOTE**. Ayudará a crear un conjunto de datos equilibrado con muestras sintéticas (random_state=42).  
- Después **ADASYN**. Perfeccionará aún más los datos sintéticos, centrándose en las muestras desafiantes (random_state=42).

<div class="alert alert-block alert-info">
<strong>Implementación:</strong> Realiza el análisis de balance de clases.
</div>

<div class="alert alert-block alert-info">
<strong>Implementación:</strong> Crea un nuevo DataFrame para los datos remuestreados.
</div>

### **2. Reducción de Dimensionalidad (1 punto)**

En esta parte de la PEC, utilizaremos **Análisis de Componentes Principales (PCA)** para mejorar la información de los pacientes diabéticos con el objetivo de facilitar la separación en el modelo de clasificación. Nuestro objetivo es garantizar que el modelo PCA capture patrones útiles para distinguir mejor a los pacientes diabéticos de los no diabéticos.

**Riesgos de Overfitting y Cómo Evitarlos:**

Cuando construimos el modelo PCA solo con pacientes diabéticos, puede existir el riesgo de que los componentes principales capturen patrones específicos de este grupo y no se generalicen bien para los pacientes no diabéticos. Para mitigar este riesgo, seguiremos un enfoque robusto con **validación cruzada**, el cual:

1. **Reduce el sobreajuste**, evaluando la estabilidad de los componentes principales a través de diferentes particiones de datos de pacientes diabéticos.
2. **Garantiza una mejor generalización**, ya que seleccionamos un conjunto estable de componentes mediante la **promediación de las cargas** de los componentes principales a través de los diferentes pliegues (folds) de la validación cruzada.

### **Proceso Recomendado**

1. **Preparación:** Se separan los pacientes diabéticos para el entrenamiento del PCA. Divide los datos diabéticos en entrenamiento/validación (80%) y pruebas (20%), random_state=42.
2. **Normalización y Validación Cruzada para el PCA:** Utilizamos validación cruzada (n_splits=5, shuffle=True, random_state=42) para normalizar los datos y evaluar la consistencia de los componentes principales.
3. **Promediación de los Componentes Principales:** Se promedian las cargas de los componentes principales para obtener un conjunto estable.
4. **Proyección de los Datos Restantes:** Utilizamos los componentes estables para proyectar tanto los datos de test de los pacientes diabéticos como los datos de los pacientes no diabéticos.
5. **Creación del Conjunto de Entrenamiento para Clasificación:** El conjunto de datos proyectado se utiliza como entrada para los modelos de clasificación.

Este enfoque garantiza que el modelo PCA no sobreajuste a los pacientes diabéticos utilizados para construirlo, y nos permite utilizar descriptores coherentes para todo el conjunto de datos. Esto mejora la robustez del modelo de clasificación, minimizando el riesgo de sesgo y mejorando la separación de los pacientes en base a sus características proyectadas.

- 2.1. Preparación.

<div class="alert alert-block alert-info">
<strong>Implementación:</strong> Se separan los pacientes diabéticos para el entrenamiento del PCA. Divide los datos diabéticos en entrenamiento/validación (80%) y pruebas (20%), random state=42.
</div>

- 2.2. Normalización y construcción del modelo PCA

<div class="alert alert-block alert-info">
<strong>Implementación:</strong> Se normalizan los datos y se crea el modelo de los componentes principales con el conjunto de pacientes de entrenamiento del paso anterior (diabéticos) con el 95% de varianza retenida.
</div>

<div class="alert alert-block alert-info">
<strong>Implementación:</strong> Realice las gráficas que considere necesarias.
</div>

- 2.3. Proyección de los Datos Restantes

En este punto, ya hemos construido el modelo PCA utilizando solo los datos de los pacientes diagnosticados con diabetes. Ahora, para poder comparar el rendimiento de nuestros clasificadores de manera consistente, necesitamos proyectar **todas** las muestras. Tanto los datos escalados de los pacientes con diabetes (restante 20%) como los de los pacientes sin diabetes, sobre este mismo modelo PCA.

##### **¿Por qué proyectar todos los datos sobre el mismo modelo PCA?**

1. **Consistencia de los descriptores**:
   - Al proyectar todos los datos sobre el mismo modelo PCA, obtenemos un conjunto de descriptores uniformes (los componentes principales) para todos los pacientes, independientemente de su diagnóstico. Esto es clave para que los clasificadores trabajen con las mismas variables de entrada.

2. **Reducción de la dimensionalidad**:
   - Utilizar los componentes principales como variables de entrada reduce el número de dimensiones, lo que facilita el entrenamiento de los modelos y reduce el riesgo de overfitting.

3. **Mejora de la generalización**:
   - Al usar descriptores PCA, que son las combinaciones lineales de las variables originales más informativas, se mejora la capacidad del modelo para generalizar a nuevos datos.

<div class="alert alert-block alert-info">
<strong>Implementación:</strong>
Utilizamos el modelo creado en el paso anterior para proyectar tanto los datos de test de los pacientes diabéticos (20% restante) como los datos de los pacientes no diabéticos.
</div>

<div class="alert alert-block alert-info">
<strong>Implementación:</strong> Realice las gráficas que considere necesarias. Ayuda:
Realice la gráfica en 2D de las dos primeras componentes principales (o 3D para las tres primeras). Incluye los datos utilizados para entrenar el modelo (diabéticos 80%), el 20% restante de diabéticos y los no diabéticos. Utilice colores distintos para cada grupo.
</div>

- 2.4. Creación del Conjunto de Entrenamiento para Clasificación

Al trabajar con modelos de PCA utilizando la librería `scikit-learn`, es importante entender que el objeto del PCA (`pca_final`) **no guarda automáticamente los componentes principales asociados a las muestras transformadas**. El PCA solo mantiene los componentes del modelo (es decir, las combinaciones lineales de las variables originales) y la información de la varianza explicada.

Por ello, si deseáis conservar los **valores de los componentes principales (scores)** asociados a cada muestra transformada para su uso futuro, debéis hacerlo **manualmente**, creando un DataFrame separado. Esto os permitirá:

1. **Reutilizar los datos**: Podréis cargarlos directamente en el futuro sin tener que repetir el cálculo del PCA.
2. **Asegurar la consistencia**: Evitad diferencias si el conjunto de datos original cambia o si se añaden nuevas muestras.
3. **Preparar los datos para el análisis**: Podéis combinar los scores con otras variables o utilizarlos directamente en modelos de clasificación.

Consideraciones finales:
- Recordad que este proceso debe repetirse para cualquier conjunto de datos que deseéis proyectar en el modelo PCA (diabetic_test_data, non_diabetic_data).
- Esta separación permite mantener el modelo PCA enfocado únicamente en transformaciones y conservar los scores como datos procesados.

Esta particularidad puede parecer poco intuitiva al principio, pero asegura que el modelo se mantenga modular y fácil de utilizar para otras transformaciones.

<div class="alert alert-block alert-info">
<strong>Implementación:</strong>
Agrupa en un solo conjunto de datos la proyección de los datos de train de los pacientes no diabéticos (los que ya se han utilizado para entrenar al PCA), el 20% de los datos de test de los pacientes diabéticos y todos los datos de los pacientes no diabéticos.
</div>

<div class="alert alert-block alert-info">
<strong> </strong>
El conjunto de datos resultante contiene:
<ol>
 <li> Una columna para cada componente principal ("PC1", "PC2", ..., "PCn").
 <li> Una columna "Outcome" para identificar si son muestras de diabéticos o no.
</div>

### 3. Entrenamiento y Evaluación de Modelos Base (2.5 puntos)

Se formarán cuatro modelos diferentes:
- 1. Regresión Logística
- 2. Árbol de Decisión
- 3. Bosque Aleatorio (Random Forest)
- 4. SVM

y cada modelo será entrenado utilizando los dos grupos de:
- Las características originales
- Las características transformadas de PCA.

##### 3.1 Entrenamiento

3.1.1. Características originales

Pasos a seguir para las entradas de las características originales:

- 1. Reúne las características originales en un solo dataframe llamado X y otro llamado y para la salida u outcome.

- 2. Asigna las etiquetas de clase: Asigna 1 para muestras diabéticas y 0 para muestras no diabéticas.

- 3. Divide los datos: Asegúrate de dividir el conjunto de datos combinado en conjuntos de entrenamiento (80%) y prueba si no lo has hecho ya. Esto evita la fuga de información de las pruebas al entrenamiento.

- 4. Entrenamiento y evaluación de modelos de clasificación: Utiliza el conjunto de datos para entrenar modelos que puedan separar las clases diabéticas y no diabéticas.

<div class="alert alert-block alert-info">
<strong>Implementación:</strong> Para las características originales, prepara la entrada X y salida/outcome y para los clasificadores.
Divide el conjunto de datos en 80%-20% para entrenamiento y prueba.
</div>

3.1.2. Entradas de los componentes principales

Este es el momento en el que utilizarás los componentes principales que has almacenado anteriormente de PCA. Pasos a seguir para las entradas de los componentes principales:

- 1. Combina los componentes principales diabéticos y no diabéticos: Combina los componentes principales de los datos diabéticos (entrenamiento y prueba) y no diabéticos en un único conjunto de datos para la clasificación.

- 2. Asigna las etiquetas de clase: Asigna 1 para muestras diabéticas y 0 para muestras no diabéticas.

- 3. Divide los datos combinados: Asegúrate de dividir el conjunto de datos combinado en conjuntos de entrenamiento (80%) y prueba si no lo has hecho ya. Esto evita la fuga de información de las pruebas al entrenamiento.

- 4. Entrenamiento y evaluación de modelos de clasificación: Utiliza el conjunto de datos para entrenar modelos que puedan separar eficazmente las clases diabéticas y no diabéticas.

<div class="alert alert-block alert-info">
<strong>Implementación:</strong> Para las características transformadas de PCA, prepara la entrada X y la salida/outcome y para los clasificadores.  
Divide el conjunto de datos en un 80% para entrenamiento y un 20% para prueba.  
</div>

- 3.2. Entrenamiento de los modelos de clasificación con las variables originales

<div class="alert alert-block alert-info">
<strong>Implementación:</strong> Entrena modelos base con las variables originales como descriptores y evalúa los modelos utilizando métricas de exactitud, sensibilidad, especificidad, ROC-AUC y análisis de la matriz de confusión.
</div>

- 3.3. Entrenamiento de los modelos de clasificación con las variables transformadas por los componentes principales (PCs)

<div class="alert alert-block alert-info">
<strong>Implementación:</strong> Entrena modelos base con los componentes principales (PCs) como descriptores y evalúa los modelos utilizando métricas de exactitud, sensibilidad, especificidad, ROC-AUC y análisis de la matriz de confusión.
</div>

- 3.4 Análisis de resultados

<div class="alert alert-block alert-info">
<strong>Análisis:</strong> Analice los resultados utilizando las variables originales como entradas a las herramientas de clasificación y los resultados utilizando los principales componentes o variables latentes como entradas a las mismas herramientas de clasificación.
</div>

### **4. Técnicas Avanzadas de Ensemble (3 puntos)**

- 4.1. Implemente y evalúe técnicas de ensemble como Bagging, Boosting, Stacking y Cascading utilizando las variables originales.
- 4.2. Repita la implementación con los componentes principales como descriptores.
- 4.3. Compare el rendimiento de cada método y analice los resultados.

Para aplicar el ensemble learning, proponemos seguir los siguientes pasos:

---

**1. Clase `CascadingClassifier`**

###### **Propósito:**
- Implementa una técnica personalizada de aprendizaje en ensamblado donde las predicciones de un primer modelo (`base_model1`) se añaden como características adicionales a los datos de entrada para un segundo modelo (`base_model2`).

###### **Componentes clave:**
- **Método `__init__`:**
  - Inicializa el clasificador con dos modelos base.
- **Método `fit`:**
  - Entrena el `base_model1` con las características de entrada (`X`) y las etiquetas (`y`).
  - Genera las predicciones del `base_model1` y las añade como una nueva columna a las características de entrada.
  - Entrena el `base_model2` con este conjunto de datos aumentado.
- **Método `predict`:**
  - Utiliza el `base_model1` entrenado para predecir las etiquetas de los datos de entrada.
  - Aumenta las características de entrada con estas predicciones y las pasa al `base_model2` para obtener las predicciones finales.
- **Método `predict_proba`:**
  - Similar a `predict`, pero devuelve las probabilidades de clase para los datos de entrada.

###### **Librerías y técnicas clave:**
- **`np.hstack`:** Combina arrays por columnas para añadir las predicciones como características.
- **`BaseEstimator` y `ClassifierMixin`:** Garantizan la compatibilidad con los pipelines y métodos de evaluación de Scikit-learn.

---

**2. Función `evaluate_ensemble`**

###### **Propósito:**
- Evalúa el rendimiento de los modelos ensemble utilizando métricas como el accuracy, la sensibilidad, la especificidad y el ROC-AUC. También genera una matriz de confusión y la curva ROC.

###### **Visualización:**
- Utiliza `RocCurveDisplay` para trazar la curva ROC.
- Mejora la interpretabilidad

<div class="alert alert-block alert-info">
<strong>Implementación:</strong>
Aplica los pasos anteriormente descritos para obtener los modelos y realizar el testing de las técnicas de Bagging, Boosting, Stacking y Cascading, tanto para las características originales como para los componentes principales:
</div>

<div class="alert alert-block alert-info">
<strong>Análisis:</strong> Compara el rendimiento de cada método utilizando las métricas calculadas.
Discute cómo se comporta cada método con las variables originales en comparación con los datos transformados por PCA. Analiza cómo el PCA afecta el rendimiento de cada método de ensemble.
</div>

### **5. Convolutional Neural Network para Datos Tabulares (1 punto + 1 adicional)**

5.1 ¿Qué es una CNN?
**CNN** significa **Red Neuronal Convolucional** (en inglés, **Convolutional Neural Network**). Es un tipo de red neuronal profunda utilizada principalmente en tareas de visión por computador, aunque también se aplica en otros campos como el procesamiento del lenguaje natural y las series temporales.

Una CNN es especialmente efectiva para analizar **imágenes** y **datos espaciales** porque puede identificar automáticamente **patrones, bordes y características** en diferentes niveles de abstracción. Es decir, aprende a detectar características simples como líneas o colores en las primeras capas y características más complejas (caras, objetos, etc.) en capas más profundas.

**Componentes de una CNN:**
1. **Capa Convolucional (Convolutional Layer):**
 Aplica filtros a la imagen de entrada para extraer características como bordes, texturas o formas.

2. **Función de Activación (Activation Function):**
 Introduce no linealidad en el modelo. La más utilizada es **ReLU (Rectified Linear Unit)**, que elimina valores negativos.

3. **Capa de Pooling (Pooling Layer):**
 Reduce la dimensionalidad de las características extraídas, disminuyendo el tiempo de cálculo y evitando el sobreajuste. **max-pooling** es el más común, ya que selecciona el valor máximo dentro de una región.

4. **Capas Densas (Fully Connected Layers):**
 Conectan todas las neuronas previas y generan la salida final, como la clasificación de una imagen (por ejemplo, perro vs. gato).

---

### **Ejemplo de Aplicación:**
- **Clasificación de Imágenes:** Identificación de objetos en imágenes (reconocimiento facial, vehículos, etc.).
- **Detección de Anomalías:** Reconocimiento de patrones anómalos en imágenes médicas o de seguridad.
- **Reconocimiento de Texto:** Detección de caracteres o texto manuscrito.


---

5.2. Adaptación de los datos para utilizar una CNN

En este apartado, transformaremos los datos tabulares en una forma que pueda ser procesada por un modelo personalizado, como un Custom CNN. Esto implica representar los datos tabulares como "imágenes" (matrices en 2D o 3D) para cumplir con los requisitos de entrada del modelo.

---

5.2.1. ¿Por qué es necesario transformar los datos tabulares?
Los modelos convolucionales están diseñados para trabajar con datos en forma de matrices (altura, anchura, canales), habitualmente para procesar imágenes. En el caso de nuestros datos:
- Los datos originales tienen **8 características** (por ejemplo, `Glucose`, `BMI`, etc.).
- Los datos PCA tienen **7 componentes principales**, que son combinaciones lineales de las características originales.

Dado que estas características son unidimensionales, es necesario transformarlas para que el modelo pueda procesarlas como "imágenes artificiales".

---

5.2.2. ¿Cómo se transforma una matriz unidimensional en una "imagen"?

Para convertir los datos tabulares en "imágenes", debemos:

1. **Decidir la forma de entrada (`input_shape`):**
 - Los datos originales con **8 características** se pueden reorganizar en una matriz de **\(2 x 4 x 1\)** (2 filas, 4 columnas y 1 canal).
 - Los datos PCA con **7 componentes principales** se pueden reorganizar en una matriz de **\(7 x 1 x 1\)**.

2. **Validar la forma de los datos:**
 - El número total de características debe coincidir con el producto \( altura x anchura x canales \).
 - Por ejemplo, para los datos originales, \(2 x 4 x 1 = 8 \), que corresponde al número de características.

3. **Aplicar la transformación:**
 - Reorganizamos cada muestra para que tenga la forma adecuada mediante un código personalizado.

---

<div class="alert alert-block alert-info">
<strong>Implementación:</strong>
Aplica los pasos descritos anteriormente para transformar los datos tabulares en imágenes:
</div>

- 5.3 Transformación de los datos

1. **Datos originales (8 características):** Los datos originales con 8 características se pueden reorganizar en una matriz de (2 x 4 x 1) (2 filas, 4 columnas y 1 canal).

<div class="alert alert-block alert-info">
<strong>Implementación:</strong>
Reorganiza los datos en una matriz de (2x4x1):
</div>

2. **Datos PCA (7 componentes principales):**  
Los datos PCA con 7 componentes principales se pueden reorganizar en una matriz de (7 x 1 x 1).

<div class="alert alert-block alert-info">
<strong>Implementación:</strong>  
Reorganiza los datos en una matriz de (7x1x1):
</div>

- **5.4. Conversión de datos a float32**

**¿Por qué es necesario convertir los datos a `float32`?**

En el ámbito del aprendizaje automático y el procesamiento de datos, es habitual que sea necesario convertir los datos al formato `float32`. Pros:

---

**Eficiencia de memoria**
- **Reducción del uso de memoria**: El formato `float32` utiliza 4 bytes de memoria, mientras que `float64` (el formato predeterminado en muchas librerías como NumPy o Pandas) utiliza 8 bytes. En conjuntos de datos grandes, esta diferencia puede reducir significativamente el consumo de memoria.
- **Adaptabilidad para GPUs**: Las GPUs suelen trabajar con `float32` de manera nativa. Utilizar este formato evita un uso innecesario de memoria y mejora la eficiencia computacional.

---

**Optimización del rendimiento**
- **Cálculos más rápidos**: Los cálculos con `float32` son más rápidos que con `float64`, especialmente en GPUs, ya que muchas herramientas de aprendizaje profundo (como TensorFlow o PyTorch) están optimizadas para `float32`.
- **Tiempo de transferencia reducido**: Transferir datos entre CPU y GPU es más rápido cuando los datos están en formato `float32`, gracias al menor volumen de datos.

---

**Evitar problemas de compatibilidad**
- **Requisitos de las herramientas**: Muchas herramientas de aprendizaje automático, como TensorFlow o Keras, esperan que los datos de entrada estén en formato `float32`. Si se utiliza `float64`, se pueden generar advertencias o errores que obligarán a hacer la conversión posteriormente.
- **Modelos preentrenados**: La mayoría de los modelos preentrenados y operaciones en aprendizaje profundo están diseñados para trabajar con `float32`. Esto asegura la compatibilidad y evita desajustes entre tipos de datos.

---

**Impacto mínimo en la precisión**
- **Precisión suficiente**: Para la mayoría de tareas de aprendizaje automático, la precisión que ofrece `float32` es más que suficiente. Aunque `float64` proporciona una precisión más alta, esta normalmente no es necesaria en aplicaciones prácticas.
- **Control de errores**: El formato `float32` ayuda a mitigar problemas como desbordamientos o subdesbordamientos de valores, que pueden ser más probables con `float64`.

---

**Buenas prácticas en la industria**
- **Consistencia**: Mantener el mismo tipo de datos en toda la pipeline (entrada, pesos del modelo, salidas) evita comportamientos inesperados o incompatibilidades durante los cálculos.
- **Estándar**: La mayoría de librerías y herramientas de aprendizaje automático utilizan `float32` como formato predeterminado. Esto hace que este formato sea un estándar para garantizar la compatibilidad.

---

**¿Cuándo no es necesario convertir a `float32`?**
- **Requisitos de alta precisión**: Si la aplicación requiere cálculos muy precisos (por ejemplo, simulaciones científicas), podría ser más adecuado utilizar `float64`.
- **Conjuntos de datos pequeños**: Si el conjunto de datos es pequeño y el consumo de memoria no es un problema, la conversión puede no ser imprescindible.

---

Por tanto, a la hora de preparar los datos para una pipeline de aprendizaje automático, **debes convertirlos a `float32` para mejorar el rendimiento, reducir el consumo de memoria y garantizar la compatibilidad con las herramientas modernas.** Esto es especialmente importante si estás trabajando con conjuntos de datos grandes o entrenando modelos en GPUs.

<div class="alert alert-block alert-info">
<strong>Implementación:</strong>  
Convierte los datos originales y los componentes principales (PCs) a `float32`.
</div>

- Errores comunes y cómo evitarlos  
1. **Forma de entrada incorrecta:**  
   - Si el número de características no coincide con el producto de la forma de entrada especificada, aparecerá un error.  
   - **Solución:** Comprueba que el número de características \(n\) = \(altura x anchura x canales\).  

2. **Transformación repetida:**  
   - Transformar los datos repetidamente puede generar errores.  
   - **Solución:** Utiliza solo los datos transformados (por ejemplo, `X_train_original_reshaped`) en entrenamientos posteriores.  

3. **Diferencias en las dimensiones entre datos de entrenamiento y test:**  
   - Si los datos de entrenamiento y test tienen dimensiones diferentes, ResNet50 no podrá procesarlos.  
   - **Solución:** Asegúrate de que la transformación se aplica de manera consistente a todos los datos.  

<div class="alert alert-block alert-info">
<strong>Implementación:</strong>
Antes de entrenar el modelo, asegúrate de que los datos tienen la forma correcta:
</div>

- 5.5. Entrena el modelo utilizando los datos preprocesados y compara el rendimiento con los métodos de ensemble.

Una vez transformados los datos, entrena y evalua la CNN:

Args:
- X_train: Datos de entrenamiento (ya transformados).
- X_test: Datos de prueba (ya transformados).
- y_train: Etiquetas de entrenamiento.
- y_test: Etiquetas de prueba.
- input_shape: Forma de los datos de entrada.
- dataset_type: Cadena que indica si el conjunto de datos es "original" o "pca".
- Imprime: métricas de evaluación y dibuja la curva ROC.

<div class="alert alert-block alert-info">
<strong>Implementación:</strong>
Crea la función para una CNN personalizada para los datos tabulares remodelados en pequeñas estructuras similares a imágenes en 2D.
</div>

<div class="alert alert-block alert-info">
<strong>Implementación:</strong>
Crea la función para entrenar y evaluar un modelo CNN personalizado para datos tabulares remodelados como imágenes.
</div>

- 5.6. Evaluación de los modelos

<div class="alert alert-block alert-info">
<strong>Implementación:</strong>
Evalúe el modelo con los datos originales utilizando exactitud, sensibilidad, especificidad, ROC-AUC y matriz de confusión.
</div>

<div class="alert alert-block alert-info">
<strong>Implementación:</strong>
Evalúe el modelo con los datos con PCA utilizando exactitud, sensibilidad, especificidad, ROC-AUC y matriz de confusión.
</div>

- 5.7. Análisis

<div class="alert alert-block alert-info">
<strong>Análisis:</strong> Analiza los resultados de las dos implementaciones del modelo CNN personalizado, una con datos originales y otra con datos transformados con PCA.
</div>

- 5.8. **Comparativa entre CNN personalizada y métodos de ensemble**

<div class="alert alert-block alert-info">
<strong>Análisis:</strong> Compara los resultados obtenidos con la CNN personalizada y los métodos de ensemble (Bagging, Boosting, Stacking y Cascading), tanto con los datos originales como con los datos transformados mediante PCA. Identifica qué métodos son más efectivos en función de las métricas clave: Accuracy, Sensitivity, Specificity y ROC-AUC.
</div>

5.9. **(Opcional) Transfer Learning (1 punto adicional)**

**¿Qué es el *Transfer Learning*?** 

El *Transfer Learning*, o aprendizaje por transferencia, es una técnica avanzada dentro del campo de la inteligencia artificial y el aprendizaje automático. La idea principal es sencilla pero muy poderosa: aprovechar el conocimiento adquirido por un modelo cuando ha sido entrenado en una tarea para aplicarlo a otra tarea diferente pero relacionada.

##### Metáfora para entenderlo
Imagina que aprendes a tocar el piano. Una vez has aprendido las bases, como leer partituras o coordinar las manos, aprender a tocar otro instrumento, como el violín, será más fácil porque muchas habilidades que has adquirido ya son aplicables. Esto es exactamente lo que hace el *Transfer Learning* en el ámbito de los modelos de aprendizaje profundo.

---

**¿Cómo funciona?**
1. **Modelo preentrenado**:
   - En el *Transfer Learning*, se comienza con un modelo ya entrenado en una gran cantidad de datos generales (como imágenes de miles de categorías diferentes).
   - Este modelo ha aprendido patrones generales (por ejemplo, identificar líneas, formas y texturas en imágenes).

2. **Transferencia de conocimiento**:
   - Se reutilizan las primeras capas del modelo preentrenado, que contienen este conocimiento general.
   - Solo es necesario ajustar (o añadir) las capas finales para que el modelo pueda especializarse en la nueva tarea específica.

3. **Entrenamiento con datos específicos**:
   - Con un conjunto más pequeño de datos específicos de la tarea (como imágenes de pacientes con o sin diabetes), el modelo se entrena para refinar el conocimiento y adaptarse.

---

**¿Por qué utilizar el *Transfer Learning*?**
1. **Ahorro de tiempo y recursos**:
   - No es necesario entrenar un modelo desde cero, ya que el modelo preentrenado ya ha realizado gran parte del trabajo de aprendizaje.
   - Esto reduce significativamente el tiempo y los costos computacionales.

2. **Mayor rendimiento con datos limitados**:
   - Si solo disponemos de un conjunto pequeño de datos específicos, el *Transfer Learning* ayuda a evitar problemas como el sobreajuste (*overfitting*), aprovechando el conocimiento previo.

3. **Resultados robustos**:
   - Los modelos preentrenados ya han sido probados con grandes conjuntos de datos, lo que garantiza una base sólida y generalizable para trabajar.

---

##### Ejemplo práctico
Supongamos que queremos clasificar si una imagen muestra a un paciente con diabetes o no. Podemos utilizar un modelo preentrenado como ResNet50 (que ha aprendido a reconocer patrones generales de imágenes) y adaptarlo a nuestra tarea, sin necesidad de entrenarlo desde cero.

El *Transfer Learning* permite enfocarnos en nuestra tarea específica sin perder tiempo construyendo y entrenando un modelo completamente nuevo. Es como subirse a los hombros de un gigante para llegar más lejos.

---

Con este conocimiento básico, ya podemos entrar en detalle sobre cómo implementar el *Transfer Learning* y aprovecharlo para mejorar nuestros resultados. Los pasos serán los siguientes:

- Adaptar un modelo de red neuronal preentrenado (ResNet50) para datos tabulares.
- Entrenar el modelo utilizando los datos preprocesados y comparar el rendimiento con los métodos de ensemble.
- Evaluar el modelo utilizando exactitud, sensibilidad, especificidad, ROC-AUC y matriz de confusión.
---

## **6. Optimización del Modelo y Ajuste de Hiperparámetros (2 puntos)**

- 6.1. Ajuste de hiperparámetros con GridSearchCV para el mejor modelo de ensemble

<div class="alert alert-block alert-info">
<strong>Implementación:</strong>
Seleccione el modelo de ensemble con mejor rendimiento (por ejemplo, Stacking o Bagging). Defina una cuadrícula de hiperparámetros relevantes. Por ejemplo: Para Bagging: Número de estimadores (n_estimators), tamaño máximo de muestras (max_samples); Para Stacking: Modelos base y parámetros asociados a los clasificadores meta. Utilice GridSearchCV para explorar las combinaciones posibles de los hiperparámetros y seleccionar la mejor configuración.
</div>

- 6.2. Evaluación:

<div class="alert alert-block alert-info">
<strong>Implementación:</strong>
Aplique el modelo con los mejores hiperparámetros al conjunto de test. Compare las métricas del modelo optimizado con el modelo inicial.
</div>

**Consideraciones finales**
- La sintonización de hiperparámetros a menudo proporciona mejoras significativas, pero puede ser computacionalmente costosa. Priorice los parámetros más influyentes.
- Las métricas de evaluación del conjunto de test son clave para determinar si la optimización ha mejorado el modelo de manera generalizada.
- Documente los hiperparámetros seleccionados, los cambios en las métricas y cualquier observación relevante para justificar sus decisiones.

- 6.4. Análisis de los modelos optimizados

<div class="alert alert-block alert-info">
<strong>Análisis:</strong> Valore el impacto de los hiperparámetros optimizados en el conjunto de test comparando con los resultados obtenidos antes de la optimización.
</div>

Adicionalmente es importante remarcar:

**Importancia de la Sensibilidad y la Especificidad en Datos Médicos:**

En el contexto médico, la **sensibilidad** y la **especificidad** son métricas cruciales que miden la capacidad de una prueba diagnóstica para identificar correctamente los casos positivos y negativos, respectivamente. Estas métricas son especialmente importantes porque ayudan a prevenir errores diagnósticos que podrían llevar a tratamientos incorrectos o falta de tratamiento.

- **Sensibilidad** (también conocida como tasa de verdadero positivo): Mide la proporción de positivos reales que son correctamente identificados por el modelo. Una alta sensibilidad es crucial en condiciones médicas donde no detectar una enfermedad (un falso negativo) podría tener consecuencias graves para el paciente. Por ejemplo, en el diagnóstico de cáncer, una alta sensibilidad es esencial para asegurar que casi todos los pacientes con la enfermedad sean identificados para un tratamiento precoz.

- **Especificidad** (también conocida como tasa de verdadero negativo): Mide la proporción de negativos reales que son correctamente identificados. Una alta especificidad es importante para evitar falsos positivos, que podrían llevar a pacientes sin la enfermedad a someterse a procedimientos invasivos o estresantes innecesarios. Por ejemplo, en el cribado de enfermedades cardíacas, una alta especificidad reduce el número de pacientes que recibirán diagnósticos erróneos de condiciones que no tienen.

**Relación entre Sensibilidad y Especificidad:**

La relación entre sensibilidad y especificidad a menudo involucra un **compromiso**; optimizar un modelo para mejorar la sensibilidad generalmente reducirá su especificidad y viceversa. Esto se debe a que el aumento de la sensibilidad implica bajar el umbral para clasificar un resultado como positivo, lo que incrementa el número de falsos positivos y disminuye la especificidad. A la inversa, aumentar la especificidad solo aumenta el umbral, lo que puede llevar a más falsos negativos y disminuir la sensibilidad.

**Aplicaciones en el Mundo Real:**

La selección de un modelo en un entorno médico depende de la enfermedad específica y del contexto del cribado o diagnóstico. En enfermedades donde las consecuencias de no detectar un caso positivo son graves, como en el cáncer o infecciones graves, se puede preferir un modelo con alta sensibilidad. En cambio, en condiciones donde un diagnóstico falso positivo podría llevar a tratamientos innecesarios o perjudiciales, se preferirá un modelo con alta especificidad.

La comprensión de este equilibrio y su correcta aplicación son esenciales para desarrollar herramientas diagnósticas que no solo sean técnicamente competentes sino también éticamente responsables, asegurando que los pacientes reciban el diagnóstico más preciso posible con las mínimas repercusiones negativas.

In [None]:
!pip install nbconvert
from google.colab import files
!jupyter nbconvert --to html "/content/YourNotebookName.ipynb"
files.download("/content/YourNotebookName.html")
