<a href="https://colab.research.google.com/github/dtoralg/IE_Calidad_ML/blob/main/Ejercicios/Modulo%203/Modulo_3_Ejercicio_3_Resuelto.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Ejercicio 3: Clasificación Supervisada en Equipos Médicos

## Objetivo
En este ejercicio construirás un modelo de clasificación supervisada para predecir si un equipo médico pasa el control de calidad. Utilizarás el dataset **control_calidad_equipos_medicos.csv** y seguirás los siguientes pasos:

- Cargar el dataset y explorar sus características básicas.
- Preprocesar los datos, incluyendo la codificación de variables categóricas (por ejemplo, "TipoEquipo").
- Definir la variable objetivo **Aprobado** (binaria: 1 si pasa el control, 0 si no).
- Dividir el conjunto en entrenamiento y prueba.
- Entrenar un modelo de clasificación (utilizaremos un árbol de decisión).
- Evaluar el modelo con métricas como exactitud, precisión, recall y F1-score.

¡Comencemos!

## 1. Importación de Librerías y Carga del Dataset

En esta sección, importarás las librerías necesarias y cargarás el archivo **control_calidad_equipos_medicos.csv** en un DataFrame. Se asume que el archivo se encuentra en el mismo directorio que este notebook.

In [None]:
# Importar librerías necesarias
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Cargar el dataset de calidad de equipos médicos
df_medicos = pd.read_csv('control_calidad_equipos_medicos.csv')

# Mostrar las primeras filas para verificar la carga
print("Primeras filas del dataset de equipos médicos:")
display(df_medicos.head())

# Mostrar información general del DataFrame
print("Información del dataset de equipos médicos:")
display(df_medicos.info())

# Mostrar estadísticas descriptivas
print("Estadísticas descriptivas del dataset de equipos médicos:")
display(df_medicos.describe())

## 2. Preprocesamiento y Definición de Variables

Para este ejercicio se asume que el dataset contiene, entre otras, las siguientes columnas:
- **ID**: Identificador del registro
- **TipoEquipo**: Tipo o categoría del equipo médico
- **Calidad**: Puntuación numérica de calidad
- **Defectos**: Cantidad de defectos detectados
- **Aprobado**: Variable binaria que indica si el equipo pasó el control de calidad (1 = aprobado, 0 = no aprobado)

Primero, revisa la existencia de valores nulos en las columnas de interés y, de ser necesario, aplica una imputación (en este ejemplo se asume que no hay valores nulos críticos). Luego, se codificará la variable **TipoEquipo** y se definirán las variables predictoras y la variable objetivo.

In [None]:
# Revisar valores nulos en columnas relevantes
print(df_medicos[['TipoEquipo', 'Calidad', 'Defectos', 'Aprobado']].isnull().sum())

# Codificar la variable categórica 'TipoEquipo' usando One-Hot Encoding
df_tipo = pd.get_dummies(df_medicos['TipoEquipo'], prefix='Tipo', drop_first=True)

# Integrar la codificación al DataFrame original
df_medicos = pd.concat([df_medicos, df_tipo], axis=1)

# Definir variables predictoras y la variable objetivo
# Usaremos 'Calidad' y 'Defectos' junto con las columnas dummy generadas a partir de 'TipoEquipo'
columnas_dummy = list(df_tipo.columns)
X = df_medicos[['Calidad', 'Defectos'] + columnas_dummy]
y = df_medicos['Aprobado']

print("Resumen de las variables predictoras:")
display(X.describe())
print("Resumen de la variable objetivo (Aprobado):")
display(y.value_counts())

## 3. División de Datos y Entrenamiento del Modelo

Dividiremos el conjunto de datos en entrenamiento y prueba (80% / 20%) y entrenaremos un modelo de clasificación. En este caso, usaremos un Árbol de Decisión para predecir la variable **Aprobado**.

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier

# Dividir los datos
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print("Tamaño de X_train:", X_train.shape)
print("Tamaño de X_test:", X_test.shape)

# Entrenar el modelo: Árbol de Decisión
modelo = DecisionTreeClassifier(random_state=42)
modelo.fit(X_train, y_train)

print("Modelo entrenado exitosamente.")

## 4. Evaluación del Modelo

Evaluaremos el desempeño del modelo usando métricas de clasificación: exactitud, matriz de confusión, y el reporte de clasificación (precisión, recall y F1-score).

In [None]:
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

# Realizar predicciones en el conjunto de prueba
y_pred = modelo.predict(X_test)

# Calcular exactitud
exactitud = accuracy_score(y_test, y_pred)
print("Exactitud del modelo:", exactitud)

# Calcular matriz de confusión
cm = confusion_matrix(y_test, y_pred)
print("Matriz de confusión:")
print(cm)

# Reporte de clasificación
print("Reporte de clasificación:")
print(classification_report(y_test, y_pred))

## 5. Sistema de Testeo Automático

Este bloque de código verificará que:

- El DataFrame no esté vacío.
- Existan las columnas clave: `Calidad`, `Defectos`, `Aprobado` y las columnas generadas a partir de `TipoEquipo`.
- El modelo entrene y tenga una exactitud razonable (por ejemplo, mayor al 60%).

In [None]:
# Test 1: Verificar que el DataFrame no está vacío
assert df_medicos.shape[0] > 0, "Test fallido: El DataFrame está vacío."

# Test 2: Verificar que existen las columnas clave
columnas_requeridas = ['Calidad', 'Defectos', 'Aprobado'] + columnas_dummy
for col in columnas_requeridas:
    assert col in df_medicos.columns, f"Test fallido: La columna {col} no se encontró en el DataFrame."

# Test 3: Verificar que la exactitud del modelo sea razonable (>= 0.6)
assert exactitud >= 0.6, f"Test fallido: La exactitud del modelo es demasiado baja ({exactitud})."

print("Todos los tests se han pasado correctamente.")

## 6. Reflexión Final

1. ¿Qué variables consideraste más importantes para predecir si un equipo médico es aprobado y por qué?
2. ¿Cómo influye la codificación de la variable **TipoEquipo** en el desempeño del modelo?
3. ¿Qué métricas de evaluación te resultaron más útiles para analizar el rendimiento del modelo y por qué?
4. ¿Qué mejoras propondrías para optimizar el modelo?

_Responde estas preguntas en una celda Markdown adicional o en un comentario._