# TEL354 - Minería de Datos

# Tarea 2: Regresión y Clasificación con Modelos de Aprendizaje Supervisado

En esta tarea aplicarás técnicas de aprendizaje supervisado para resolver problemas de clasificación y regresión utilizando un dataset de enfermedades cardíacas de UCI.

**Objetivos de Aprendizaje**
* Aplicar distintos algoritmos de regresión y clasificación a un conjunto de datos real.
* Comparar el rendimiento de los modelos mediante métricas apropiadas.
* Interpretar y analizar los resultados de forma crítica.
* Comprender los aspectos prácticos de la selección y evaluación de modelos.

Nombre:

# Dataset: Heart Disease UCI dataset

Este dataset contiene información clínica y demográfica de pacientes, utilizada para analizar la presencia de enfermedad cardíaca y predecir niveles de colesterol.

## Variables Predictoras

- **Age**: Edad del paciente (en años)
- **Sex**: Sexo del paciente (`M` = masculino, `F` = femenino)
- **ChestPainType**: Tipo de dolor torácico (`TA`, `ATA`, `NAP`, `ASY`)
- **RestingBP**: Presión arterial en reposo (mm Hg)
- **Cholesterol**: Nivel de colesterol sérico (mg/dl)
- **FastingBS**: Azúcar en sangre en ayunas (`1` si > 120 mg/dl, `0` si ≤ 120 mg/dl)
- **RestingECG**: Resultados del electrocardiograma en reposo (`Normal`, `ST`, `LVH`)
- **MaxHR**: Frecuencia cardíaca máxima alcanzada
- **ExerciseAngina**: Angina inducida por el ejercicio (`Y` = sí, `N` = no)
- **Oldpeak**: Depresión del ST inducida por el ejercicio (comparado con el reposo)
- **ST_Slope**: Pendiente del segmento ST (`Up`, `Flat`, `Down`)

## Variables Objetivo

### Clasificación
- **HeartDisease**:  
  - `1` = Presencia de enfermedad cardíaca  
  - `0` = Ausencia de enfermedad cardíaca

### Regresión
- **Cholesterol**: Nivel de colesterol sérico (mg/dl)

> Nota: Algunas variables categóricas requerirán codificación (por ejemplo, one-hot encoding) antes de ser utilizadas en modelos predictivos. También se recomienda escalar variables numéricas para ciertos modelos.


# PARTE 1: CARGA Y EXPLORACIÓN AVANZADA DE DATOS

## 1.1 Exploración Básica

**Objetivo:** Comprender la estructura general del dataset.

**Tareas:**

- Cargar el dataset `heart.csv`
- Mostrar las primeras 5-10 filas usando `df.head()`
- Obtener información general con `df.info()` y `df.describe()`
- Interpretar las estadísticas básicas de cada variable con comentarios claros

**Entregable:**  
Código y comentarios interpretativos sobre la estructura y contenido general del dataset.

In [None]:
# Escriba aquí su código

## 1.2 Análisis de Valores Faltantes

**Objetivo:** Detectar y planificar el tratamiento de datos faltantes.

**Tareas:**

- Verificar la presencia de valores nulos con `df.isnull().sum()`
- Visualizar patrones de valores faltantes (si existen)
- Proponer estrategia de manejo en caso de encontrar valores nulos

**Entregable:**  
Resultados del análisis, visualización (si aplica) y estrategia documentada para manejar valores faltantes.


In [None]:
# Escriba aquí su código

## 1.3 Balance de Clases

**Objetivo:** Evaluar la distribución de la variable objetivo para clasificación.

**Tareas:**

- Visualizar la distribución de la variable `target` usando `countplot`
- Calcular y mostrar porcentajes de cada clase
- Analizar implicaciones del balance/desbalance para el modelado

**Entregable:**  
Visualización clara, cálculos de distribución y análisis de las implicaciones.


In [None]:
# Escriba aquí su código

## 1.4 Análisis de Distribuciones

**Objetivo:** Comprender la distribución de variables numéricas y su relación con la variable objetivo.

**Tareas:**

- Crear histogramas para variables numéricas, separados por clase
- Generar `boxplots` para detectar outliers y diferencias entre clases
- Interpretar los patrones observados

**Entregable:**  
Múltiples visualizaciones con interpretaciones claras de los patrones observados por variable.


In [None]:
# Escriba aquí su código

## 1.5 Análisis de Correlaciones

**Objetivo:** Identificar relaciones lineales entre variables.

**Tareas:**

- Generar matriz de correlación
- Visualizar usando `heatmap` con anotaciones
- Identificar las correlaciones más fuertes, especialmente con la variable objetivo

**Entregable:**  
`Heatmap` de correlaciones con análisis detallado de las relaciones más significativas.


In [None]:
# Escriba aquí su código

## 1.6 Relaciones entre Variables Clave

**Objetivo:** Examinar relaciones bivariadas entre variables importantes.

**Tareas:**

- Crear `pairplots` para un subconjunto de variables relevantes
- Analizar patrones visibles en los `scatterplots`
- Identificar posibles relaciones no lineales

**Entregable:**  
`Pairplots` con análisis de las relaciones más interesantes o significativas.

In [None]:
# Escriba aquí su código

## 1.7 Análisis de Outliers

**Objetivo:** Detectar y analizar valores atípicos.

**Tareas:**

- Aplicar método `Z-score` para detectar outliers.
> Nota: Por convención, un valor con Z-score mayor a 3 o menor a -3 suele considerarse un outlier.
- Cuantificar outliers por variable
- Evaluar el impacto potencial en el modelado
- Proponer estrategia de manejo (mantener, transformar o eliminar)

**Entregable:**  
Análisis cuantitativo de outliers con justificación clara de la estrategia a seguir.

In [None]:
# Escriba aquí su código

# PARTE 2: PREPROCESAMIENTO Y FEATURE ENGINEERING

## 2.1 Separación de Variables Categóricas y Numéricas

**Objetivo:** Organizar el dataset para aplicar transformaciones apropiadas.

**Tareas:**

- Identificar variables categóricas (binarias y multi-clase)
- Identificar variables numéricas
- Crear listas separadas para cada tipo

**Entregable:**  
Listas claramente definidas de variables por tipo con justificación.


In [None]:
# Escriba aquí su código

## 2.2 Tratamiento de Valores Faltantes

**Objetivo:** Implementar la estrategia definida en el punto 1.2.

**Tareas:**

- Aplicar método seleccionado (imputación, eliminación, etc.)
- Verificar que no queden valores nulos
- Justificar la elección del método

**Entregable:**  
Código implementando la estrategia con verificación de resultados.

In [None]:
# Escriba aquí su código

## 2.3 Codificación de Variables Categóricas

**Objetivo:** Transformar variables categóricas en formato numérico.

**Tareas:**

- Aplicar técnicas de codificación (`One-Hot`, `Label Encoding`, etc.)
- Justificar la elección de la técnica según el tipo de variable
- Verificar el resultado de la transformación

**Entregable:**  
Código implementando las técnicas de codificación con justificación y resultados.


In [None]:
# Escriba aquí su código

## 2.4 Feature Engineering

**Objetivo:** Crear nuevas variables que puedan mejorar el poder predictivo.

**Tareas:**

- Crear al menos 2 nuevas variables derivadas (ej: productos, ratios, transformaciones)
- Justificar la creación de cada variable derivada
- Analizar la relación de las nuevas variables con los objetivos

**Entregable:**  
Código de creación de nuevas variables con análisis de su relevancia potencial.

In [None]:
# Escriba aquí su código

## 2.5 Detección de Multicolinealidad

**Objetivo:** Identificar y manejar redundancia entre predictores.

**Tareas:**

- Calcular `VIF` (Factor de Inflación de Varianza)
> Nota: Si una variable tiene un VIF alto, indica que está altamente correlacionada con otras y puede generar problemas en el modelo.
| VIF        | Interpretación                                 |
|------------|------------------------------------------------|
| 1          | Sin correlación                                |
| 1 - 5      | Correlación moderada (aceptable)          |
| > 5 o 10   | Alta multicolinealidad (problema)              |

- Identificar variables con alta multicolinealidad
- Proponer estrategia (eliminación, combinación, regularización, etc.)

**Entregable:**  
Análisis de multicolinealidad con valores cuantitativos y estrategia justificada.

In [None]:
# Escriba aquí su código

## 2.6 Preparación para Modelos de Clasificación

**Objetivo:** Definir conjuntos de variables para clasificación.

**Tareas:**

- Definir variable objetivo (`target`)
- Separar dataset en características (`X`) y objetivo (`y`)

**Entregable:**  
Variables `X` e `y` definidas correctamente para el problema de clasificación.

In [None]:
# Escriba aquí su código

## 2.7 División en Conjuntos de Entrenamiento y Prueba

**Objetivo:** Crear conjuntos para entrenamiento y evaluación de modelos.

**Tareas:**

- Implementar `train_test_split` con proporción 70/30
- Usar `random_state=42` para reproducibilidad
- Implementar estratificación para mantener distribución de clases

**Entregable:**  
Conjuntos de datos divididos con informe sobre sus dimensiones.

In [None]:
# Escriba aquí su código

## 2.8 Estandarización de Características

**Objetivo:** Normalizar la escala de las variables numéricas.

**Tareas:**

- Implementar `StandardScaler` de `sklearn`
- Aplicar transformación a conjuntos de entrenamiento y prueba
- Verificar resultado de la estandarización

**Entregable:**  
Datos escalados con verificación visual o estadística del resultado.

In [None]:
# Escriba aquí su código

## 2.9 Configuración para Validación Cruzada

**Objetivo:** Preparar marco para evaluación robusta de modelos.

**Tareas:**

- Configurar validación cruzada `k-fold` (`k=5`)
- Establecer estratificación para mantener distribución de clases
- Establecer semilla aleatoria para reproducibilidad

**Entregable:**  
Objeto de validación cruzada configurado correctamente.

In [None]:
# Escriba aquí su código

# PARTE 3: MODELOS DE CLASIFICACIÓN

## 3.1 Regresión Logística

**Objetivo:** Implementar modelo de clasificación lineal básico.

**Tareas:**

- Crear modelo de Regresión Logística
- Optimizar hiperparámetros con `GridSearchCV` (al menos parámetro `C` y `penalty`)
- Entrenar con datos de entrenamiento
- Evaluar con datos de prueba usando métricas múltiples
- Visualizar matriz de confusión y curva ROC
- Analizar coeficientes del modelo

**Entregable:**  
Modelo entrenado, resultados de evaluación, visualizaciones e interpretación de coeficientes.


In [None]:
# Escriba aquí su código

## 3.2 K-Nearest Neighbors (KNN)

**Objetivo:** Implementar modelo de clasificación basado en instancias.

**Tareas:**

- Crear modelo KNN
- Optimizar hiperparámetros (al menos `n_neighbors` y `metric`)
- Entrenar y evaluar con métricas múltiples
- Visualizar matriz de confusión y curva ROC
- Analizar efecto de diferentes valores de `k`

**Entregable:**  
Modelo entrenado, resultados de evaluación, visualizaciones y análisis de la influencia de `k`.


In [None]:
# Escriba aquí su código

## 3.3 Random Forest

**Objetivo:** Implementar modelo de clasificación de ensamble.

**Tareas:**

- Crear modelo Random Forest
- Optimizar hiperparámetros (al menos `n_estimators`, `max_depth`)
- Entrenar y evaluar con métricas múltiples
- Visualizar matriz de confusión y curva ROC
- Analizar importancia de características

**Entregable:**  
Modelo entrenado, resultados de evaluación, visualizaciones y análisis de importancia de variables.


In [None]:
# Escriba aquí su código

## 3.4 Modelo Adicional

**Objetivo:** Expandir análisis con modelo complementario.

**Tareas:**

- Elegir e implementar un cuarto modelo (`SVM`, `XGBoost`, etc.)
- Justificar la elección del modelo adicional
- Optimizar hiperparámetros específicos del modelo
- Entrenar y evaluar con métricas múltiples
- Visualizar matriz de confusión y curva ROC

**Entregable:**  
Modelo entrenado, resultados de evaluación, visualizaciones y justificación de la elección.


In [None]:
# Escriba aquí su código

## 3.5 Comparación de Modelos

**Objetivo:** Evaluar rendimiento relativo de los modelos.

**Tareas:**

- Crear tabla comparativa con todas las métricas clave
- Visualizar comparaciones (`barplots`, curvas ROC múltiples, etc.)
- Identificar fortalezas y debilidades de cada modelo
- Seleccionar el mejor modelo con justificación clara

**Entregable:**  
Tabla comparativa, visualizaciones y análisis crítico de los resultados.

In [None]:
# Escriba aquí su código

## 3.6 Análisis de Importancia de Características

**Objetivo:** Identificar variables más influyentes en la predicción.

**Tareas:**

- Extraer y visualizar importancia de características del mejor modelo
- Si el mejor modelo no proporciona importancia directamente, implementar `permutation importance`
> Nota: La Permutation Importance (importancia por permutación) es una técnica para evaluar la relevancia de cada predictor en un modelo ya entrenado. Se basa en medir cuánto empeora el rendimiento del modelo cuando se desordena aleatoriamente una variable.
- Analizar qué variables son más relevantes para la predicción
- Comparar con el análisis exploratorio inicial

**Entregable:**  
Visualización de importancia de características con análisis interpretativo.

In [None]:
# Escriba aquí su código

# PARTE 4: MODELOS DE REGRESIÓN

## 4.1 Regresión Lineal

**Objetivo:** Implementar modelo básico de regresión.

**Tareas:**

- Redefinir el problema para predecir colesterol (`chol`)
- Implementar Regresión Lineal Múltiple
- Entrenar con datos de entrenamiento
- Evaluar con MAE, MSE, RMSE y R²
- Analizar coeficientes del modelo
- Implementar análisis de residuos

**Entregable:**  
Modelo entrenado, métricas de evaluación, análisis de coeficientes y diagnóstico de residuos.


In [None]:
# Escriba aquí su código

## 4.2 Ridge y/o Lasso Regression

**Objetivo:** Implementar regresión con regularización.

**Tareas:**

- Implementar Ridge o Lasso Regression (o ambos)
- Optimizar hiperparámetros (especialmente `alpha`)
- Evaluar con métricas estándar
- Comparar coeficientes con la regresión lineal simple
- Analizar efecto de la regularización

**Entregable:**  
Modelo entrenado, métricas, comparación de coeficientes y análisis del impacto de la regularización.


In [None]:
# Escriba aquí su código

## 4.3 Árbol de Regresión

**Objetivo:** Implementar modelo no lineal de regresión.

**Tareas:**

- Implementar `DecisionTreeRegressor`
- Optimizar hiperparámetros (especialmente `max_depth`)
- Evaluar con métricas estándar
- Visualizar estructura del árbol (opcional)
- Analizar importancia de características

**Entregable:**  
Modelo entrenado, métricas, visualización opcional del árbol y análisis de variables importantes.


In [None]:
# Escriba aquí su código

## 4.4 Modelo Adicional

**Objetivo:** Expandir análisis con modelo complementario.

**Tareas:**

- Elegir e implementar un cuarto modelo (`RandomForestRegressor`, `SVR`, etc.)
- Justificar la elección
- Optimizar hiperparámetros específicos del modelo
- Evaluar con métricas estándar

**Entregable:**  
Modelo entrenado, métricas y justificación de la elección del modelo.

In [None]:
# Escriba aquí su código

## 4.5 Comparación de Modelos

**Objetivo:** Evaluar rendimiento relativo de los modelos de regresión.

**Tareas:**

- Crear tabla comparativa con todas las métricas clave
- Visualizar predicciones vs valores reales para cada modelo
- Identificar fortalezas y debilidades de cada enfoque
- Seleccionar el mejor modelo con justificación clara

**Entregable:**  
Tabla comparativa, visualizaciones y análisis crítico de los resultados.

In [None]:
# Escriba aquí su código

# PARTE 5: INTERPRETABILIDAD Y APLICACIÓN PRÁCTICA

## 5.1 Análisis de Interpretabilidad

**Objetivo:** Profundizar en la comprensión del comportamiento del modelo.

**Tareas:**

- Implementar análisis con SHAP para el mejor modelo de clasificación
> Nota: SHAP (SHapley Additive exPlanations), es una poderosa herramienta de interpretabilidad que asigna a cada feature una contribución al resultado de una predicción.
- Visualizar e interpretar los resultados
- Identificar variables y valores específicos que más influyen en las predicciones
- Conectar hallazgos con conocimiento del dominio (salud cardiovascular)

**Entregable:**  
Visualizaciones con SHAP acompañadas de una interpretación detallada.

In [None]:
# Escriba aquí su código

## 5.2 Guardado del Mejor Modelo

**Objetivo:** Persistir el modelo para uso futuro.

**Tareas:**

- Guardar el mejor modelo de clasificación utilizando `joblib` o `pickle`
- Guardar también el `scaler` u otras transformaciones necesarias
- Verificar que el modelo se pueda cargar correctamente y funcione

**Entregable:**  
Código funcional para guardar y cargar el modelo con verificación incluida.

In [None]:
# Escriba aquí su código

## 5.3 Función para Predicción

**Objetivo:** Crear interfaz para uso práctico del modelo.

**Tareas:**

- Implementar función `predict_heart_disease()` que acepte los datos de un nuevo paciente
- Aplicar las mismas transformaciones usadas durante el entrenamiento
- Devolver predicción binaria y probabilidad asociada
- Añadir categorización de riesgo basada en la probabilidad (ej. bajo, medio, alto)
- Documentar el uso de la función con un ejemplo

**Entregable:**  
Función implementada, correctamente documentada, y ejemplo práctico de uso.

In [None]:
# Escriba aquí su código

## 5.4 Consideraciones Éticas

**Objetivo:** Reflexionar sobre implicaciones del uso del modelo.

**Tareas:**

- Discutir limitaciones del modelo en contexto médico
- Analizar posibles sesgos en los datos o en las predicciones
- Proponer una estrategia para garantizar un uso responsable de los datos
- Reflexionar sobre consideraciones éticas específicas del dominio de aplicación

**Entregable:**  
Análisis crítico y reflexivo sobre limitaciones, sesgos y consideraciones éticas del modelo.

In [None]:
# Escriba aquí su código

# PARTE 6: CONCLUSIONES Y REFLEXIÓN

## 6.1 Resumen Comparativo

**Objetivo:** Sintetizar hallazgos principales del análisis completo.

**Tareas:**

- Crear tabla o visualización final que compare todos los modelos evaluados (clasificación y regresión)
- Destacar los modelos con mejor rendimiento en cada tipo de tarea
- Sintetizar los hallazgos clave sobre la importancia de las variables predictoras

**Entregable:**  
Tabla o visualización comparativa acompañada de una breve interpretación con las conclusiones más relevantes.


## 6.2 Recomendaciones y Limitaciones

**Objetivo:** Proveer orientación basada en el análisis realizado.

**Tareas:**

- Formular recomendaciones claras sobre qué modelos son más adecuados para problemas similares
- Identificar limitaciones del análisis realizado (como tamaño del dataset, posibles sesgos, etc.)
- Proponer mejoras concretas para investigaciones o aplicaciones futuras
- Discutir en qué medida los resultados son aplicables a contextos reales del ámbito de la salud cardiovascular

**Entregable:**  
Lista estructurada de recomendaciones, limitaciones identificadas y propuestas de mejora.