<a href="https://colab.research.google.com/github/dtoralg/IE_Calidad_ML/blob/main/Ejercicios/Modulo%203/Modulo_3_Ejercicio_6_Resuelto_txt_txt.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Ejercicio 6: Comparativa de Modelos Supervisados en Bebidas

## Objetivo
En este ejercicio, trabajarás con el dataset **control_calidad_bebidas.csv** para resolver un problema de clasificación supervisada: predecir si una bebida cumple con los estándares de calidad (variable `Aprobado`).

Para ello, implementarás dos modelos diferentes:

- **Regresión Logística:** un modelo lineal que te permitirá obtener probabilidades y clasificar en función de un umbral.
- **k-Nearest Neighbors (k-NN):** un modelo basado en la similitud de las observaciones.

Se dividirá el dataset en conjuntos de entrenamiento y prueba, se entrenarán ambos modelos y se evaluará su desempeño mediante métricas como exactitud, matriz de confusión y reporte de clasificación.

Finalmente, compararás los resultados y reflexionarás sobre cuál modelo se adapta mejor a este problema y por qué.

¡Manos a la obra!

## 1. Importación de Librerías y Carga del Dataset

Importa las librerías necesarias y carga el dataset **control_calidad_bebidas.csv**. Se asume que el archivo se encuentra en el mismo directorio que este notebook.

El dataset se espera que contenga al menos las siguientes columnas:
- **ID**: Identificador del registro
- **Calidad**: Puntuación numérica de calidad
- **Defectos**: Cantidad de defectos detectados
- **Sensacion**: Puntuación de la evaluación sensorial
- **Aprobado**: Variable binaria (1 = aprobado, 0 = no aprobado)

In [None]:
# Importar librerías necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Cargar el dataset de calidad de bebidas
df_bebidas = pd.read_csv('control_calidad_bebidas.csv')

# Mostrar las primeras filas para verificar la carga
print("Primeras filas del dataset de bebidas:")
display(df_bebidas.head())

# Información general del DataFrame
print("Información del dataset de bebidas:")
display(df_bebidas.info())

# Estadísticas descriptivas
print("Estadísticas descriptivas del dataset de bebidas:")
display(df_bebidas.describe())

## 2. Preprocesamiento y Selección de Variables

Define las variables predictoras y la variable objetivo.

Para este ejercicio, usaremos las siguientes columnas:
- Variables predictoras: **Calidad**, **Defectos** y **Sensacion**.
- Variable objetivo: **Aprobado** (1 si la bebida cumple con el estándar, 0 si no).

Verifica la existencia de valores nulos en estas columnas y realiza las imputaciones necesarias (si es necesario).

In [None]:
# Revisar valores nulos en las columnas de interés
print(df_bebidas[['Calidad', 'Defectos', 'Sensacion', 'Aprobado']].isnull().sum())

# En este ejemplo, asumiremos que los datos están completos o ya han sido preprocesados.

# Definir las variables predictoras y la variable objetivo
X = df_bebidas[['Calidad', 'Defectos', 'Sensacion']]
y = df_bebidas['Aprobado']

print("Resumen de las variables predictoras:")
display(X.describe())
print("Distribución de la variable objetivo (Aprobado):")
print(y.value_counts())

## 3. División de Datos y Entrenamiento de Modelos

Dividiremos el conjunto en entrenamiento y prueba (80% / 20%) y entrenaremos dos modelos:

- **Modelo 1:** Regresión Logística
- **Modelo 2:** k-Nearest Neighbors (k-NN)

Utilizaremos la función `train_test_split` para dividir los datos y luego entrenaremos ambos modelos.

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier

# Dividir el conjunto de datos en entrenamiento (80%) y prueba (20%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print("Tamaño de X_train:", X_train.shape)
print("Tamaño de X_test:", X_test.shape)

# Modelo 1: Regresión Logística
modelo_log = LogisticRegression(solver='liblinear')
modelo_log.fit(X_train, y_train)

# Modelo 2: k-Nearest Neighbors
modelo_knn = KNeighborsClassifier(n_neighbors=5)
modelo_knn.fit(X_train, y_train)

print("Ambos modelos han sido entrenados exitosamente.")

## 4. Evaluación de Modelos

Evalúa ambos modelos en el conjunto de prueba utilizando métricas de clasificación.

Calcula la exactitud, la matriz de confusión y el reporte de clasificación (precisión, recall y F1-score) para cada modelo.

In [None]:
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

# Evaluación del Modelo 1: Regresión Logística
y_pred_log = modelo_log.predict(X_test)
exactitud_log = accuracy_score(y_test, y_pred_log)
print("Regresión Logística - Exactitud:", exactitud_log)
print("Regresión Logística - Matriz de Confusión:")
print(confusion_matrix(y_test, y_pred_log))
print("Regresión Logística - Reporte de Clasificación:")
print(classification_report(y_test, y_pred_log))

# Evaluación del Modelo 2: k-Nearest Neighbors
y_pred_knn = modelo_knn.predict(X_test)
exactitud_knn = accuracy_score(y_test, y_pred_knn)
print("k-NN - Exactitud:", exactitud_knn)
print("k-NN - Matriz de Confusión:")
print(confusion_matrix(y_test, y_pred_knn))
print("k-NN - Reporte de Clasificación:")
print(classification_report(y_test, y_pred_knn))

## 5. Sistema de Testeo Automático

Este bloque verificará que:

- El DataFrame no esté vacío.
- Existan las columnas requeridas: `Calidad`, `Defectos`, `Sensacion` y `Aprobado`.
- El modelo entrenado tenga una exactitud razonable (por ejemplo, mayor a 0.6) para ambos modelos.

In [None]:
# Test 1: Verificar que el DataFrame no está vacío
assert df_bebidas.shape[0] > 0, "Test fallido: El DataFrame está vacío."

# Test 2: Verificar que existen las columnas requeridas
columnas_requeridas = ['Calidad', 'Defectos', 'Sensacion', 'Aprobado']
for col in columnas_requeridas:
    assert col in df_bebidas.columns, f"Test fallido: La columna {col} no se encontró en el DataFrame."

# Test 3: Verificar que la exactitud de ambos modelos sea razonable (>= 0.6)
assert exactitud_log >= 0.6, f"Test fallido: La exactitud de Regresión Logística es demasiado baja ({exactitud_log})."
assert exactitud_knn >= 0.6, f"Test fallido: La exactitud de k-NN es demasiado baja ({exactitud_knn})."

print("Todos los tests se han pasado correctamente.")

## 6. Reflexión Final

1. ¿Qué diferencias observas en el desempeño de los dos modelos?
2. ¿En qué situaciones crees que un modelo podría ser más adecuado que el otro?
3. ¿Qué variables crees que tienen mayor influencia en la predicción de la calidad de las bebidas?
4. ¿Qué mejoras o ajustes implementarías para optimizar el desempeño de los modelos?

_Responde estas preguntas en una celda Markdown adicional o en un comentario._