<a href="https://colab.research.google.com/github/dtoralg/IE_Calidad_ML/blob/main/Ejercicios/Modulo%203/Modulo_3_Ejercicio_2_Resuelto.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Ejercicio 2: Regresión Supervisada en Cosméticos

## Objetivo
En este ejercicio construirás un modelo de regresión supervisada para predecir el **Costo** (un indicador continuo) en el contexto del control de calidad en cosméticos. Utilizarás el dataset **control_calidad_cosmeticos.csv** y realizarás los siguientes pasos:

- Cargar el dataset y explorar su contenido.
- Preprocesar los datos y seleccionar las variables relevantes.
- Dividir el conjunto de datos en entrenamiento y prueba.
- Entrenar un modelo de Regresión Lineal.
- Evaluar el modelo utilizando métricas como el Error Cuadrático Medio (MSE) y el coeficiente de determinación (R²).

¡Comencemos a construir tu primer modelo de regresión!

## 1. Importación de Librerías y Carga del Dataset

En esta sección importarás las librerías necesarias y cargarás el archivo **control_calidad_cosmeticos.csv** en un DataFrame. Se asume que el archivo se encuentra en el mismo directorio que este notebook.

El dataset contiene las siguientes columnas reales:
- **ID**: identificador del registro
- **Fecha**: fecha de la medición
- **Calidad**: puntuación numérica de calidad
- **Defectos**: cantidad de defectos detectados
- **Costo**: costo asociado a la producción o inspección (variable a predecir)

In [None]:
# Importar librerías necesarias
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Cargar el dataset de calidad de cosméticos
df_cosmeticos = pd.read_csv('control_calidad_cosmeticos.csv')

# Mostrar las primeras filas para verificar la carga
print("Primeras filas del dataset de cosméticos:")
display(df_cosmeticos.head())

# Mostrar información general del DataFrame
print("Información del dataset de cosméticos:")
display(df_cosmeticos.info())

# Mostrar estadísticas descriptivas
print("Estadísticas descriptivas del dataset de cosméticos:")
display(df_cosmeticos.describe())

## 2. Preprocesamiento y Selección de Variables

En este paso definirás la variable objetivo y las características que usarás para predecirla.

En este ejercicio, predeciremos el **Costo**. Utilizaremos como variables predictoras **Calidad** y **Defectos**.

Asegúrate de que no existan valores nulos en estas columnas o, de ser necesario, aplica una imputación (por ejemplo, con la mediana).

In [None]:
# Revisar si hay valores nulos en las columnas de interés
print(df_cosmeticos[['Calidad', 'Defectos', 'Costo']].isnull().sum())

# En este ejemplo, suponemos que no hay muchos nulos o que ya han sido tratados.

# Definir las variables: X (características) e y (variable objetivo)
X = df_cosmeticos[['Calidad', 'Defectos']]
y = df_cosmeticos['Costo']

# Mostrar un resumen de X y y
print("Resumen de las variables predictoras:")
display(X.describe())
print("Resumen de la variable objetivo (Costo):")
display(y.describe())

## 3. División de Datos y Entrenamiento del Modelo

Dividiremos el conjunto de datos en entrenamiento y prueba (80% y 20%, respectivamente) y entrenaremos un modelo de regresión lineal para predecir el **Costo**.

Utilizaremos el solver 'auto' o 'lbfgs' (puedes ajustar si lo consideras necesario).

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression

# Dividir los datos en entrenamiento y prueba (80% / 20%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print("Tamaño de X_train:", X_train.shape)
print("Tamaño de X_test:", X_test.shape)

# Entrenar el modelo de regresión lineal
modelo = LinearRegression()
modelo.fit(X_train, y_train)

print("Modelo entrenado exitosamente.")

## 4. Evaluación del Modelo

En este paso evaluaremos el rendimiento del modelo utilizando el Error Cuadrático Medio (MSE) y el coeficiente de determinación (R²). Además, se graficará una comparación entre los valores reales y los predichos.

In [None]:
from sklearn.metrics import mean_squared_error, r2_score

# Realizar predicciones en el conjunto de prueba
y_pred = modelo.predict(X_test)

# Calcular métricas
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print("Error Cuadrático Medio (MSE):", mse)
print("Coeficiente de determinación (R²):", r2)

# Gráfico de comparación: valores reales vs. predichos
plt.figure(figsize=(8, 6))
plt.scatter(y_test, y_pred, color='blue', alpha=0.6)
plt.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 'r--', lw=2)
plt.xlabel('Valores Reales')
plt.ylabel('Valores Predichos')
plt.title('Comparación: Valores Reales vs. Predichos')
plt.show()

## 5. Sistema de Testeo Automático

Este bloque verificará algunos aspectos clave:

- Que el DataFrame tenga registros.
- Que existan las columnas requeridas: `Calidad`, `Defectos` y `Costo`.
- Que el modelo entrenado devuelva una métrica R² razonable (por ejemplo, mayor a 0.2, dependiendo de la dispersión de los datos).

In [None]:
# Test 1: Verificar que el DataFrame no está vacío
assert df_cosmeticos.shape[0] > 0, "Test fallido: El DataFrame está vacío."

# Test 2: Verificar que existen las columnas 'Calidad', 'Defectos' y 'Costo'
columnas_requeridas = ['Calidad', 'Defectos', 'Costo']
for col in columnas_requeridas:
    assert col in df_cosmeticos.columns, f"Test fallido: La columna {col} no se encontró en el DataFrame."

# Test 3: Verificar que el modelo tiene un R² razonable (>= 0.2, por ejemplo)
assert r2 >= 0.2, f"Test fallido: El R² del modelo es demasiado bajo ({r2})."

print("Todos los tests se han pasado correctamente.")

## 6. Reflexión Final

1. ¿Qué variables consideraste más relevantes para predecir el costo y por qué?
2. ¿Cómo crees que el preprocesamiento (por ejemplo, el manejo de valores faltantes) influye en el rendimiento del modelo?
3. ¿Qué otras métricas de evaluación te parecerían útiles para este problema?
4. ¿Qué mejoras podrías introducir en el proceso para optimizar el rendimiento del modelo?

_Responde estas preguntas en una celda Markdown adicional o en un comentario._