<a href="https://colab.research.google.com/github/dtoralg/IE_Calidad_ML/blob/main/Ejercicios/Modulo%203/Modulo_3_Ejercicio_1_Resuelto.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Ejercicio 1: Clasificación Supervisada en Juguetes

## Objetivo
En este ejercicio, aprenderás a construir un modelo de clasificación supervisada para predecir si un juguete pasa el control de calidad o no. Utilizaremos el dataset **control_calidad_juguetes.csv**. Para ello, realizarás lo siguiente:

- Cargar el dataset y revisar sus características.
- Definir una variable binaria (por ejemplo, "Defectuoso": 1 si la calidad es inferior a un umbral y 0 si es igual o superior).
- Dividir los datos en conjuntos de entrenamiento y prueba.
- Entrenar un modelo de clasificación (por ejemplo, regresión logística).
- Evaluar el rendimiento del modelo utilizando métricas como exactitud, matriz de confusión y ROC.

¡Vamos a construir tu primer modelo de ML!


In [None]:
# Importar librerías necesarias
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import confusion_matrix, accuracy_score, roc_curve, auc
import matplotlib.pyplot as plt
import seaborn as sns

# Cargar el dataset de calidad de juguetes
df_juguetes = pd.read_csv('control_calidad_juguetes.csv')

# Mostrar las primeras filas para verificar la carga
print("Primeras filas del dataset de juguetes:")
display(df_juguetes.head())

# Mostrar información general del DataFrame
print("Información del dataset de juguetes:")
display(df_juguetes.info())

# Mostrar estadísticas descriptivas
print("Estadísticas descriptivas del dataset de juguetes:")
display(df_juguetes.describe())


In [None]:
# Preprocesamiento: Crear una variable binaria para clasificar juguetes defectuosos
# Supongamos que la columna 'Calidad' es una puntuación numérica y que consideramos defectuoso
# un juguete si su calidad es inferior a un umbral (por ejemplo, 60).

umbral = 60  # Puedes ajustar este valor según la distribución de 'Calidad'
df_juguetes['Defectuoso'] = (df_juguetes['Calidad'] < umbral).astype(int)

# Visualizar la distribución de la variable objetivo
print("Distribución de la variable 'Defectuoso':")
print(df_juguetes['Defectuoso'].value_counts())


In [None]:
# Dividir los datos en conjunto de entrenamiento y prueba.
# Seleccionamos algunas variables que consideremos relevantes para la predicción.
# Por ejemplo, usaremos 'Calidad', 'Defectos' y 'Costo' (si están disponibles).

X = df_juguetes[['Calidad', 'Defectos', 'Costo']]
y = df_juguetes['Defectuoso']

# Dividir en entrenamiento (80%) y prueba (20%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print("Tamaño de X_train:", X_train.shape)
print("Tamaño de X_test:", X_test.shape)

# Entrenar un modelo de regresión logística
modelo = LogisticRegression(solver='liblinear')
modelo.fit(X_train, y_train)


In [None]:
# Realizar predicciones en el conjunto de prueba
y_pred = modelo.predict(X_test)
y_proba = modelo.predict_proba(X_test)[:, 1]

# Calcular métricas de evaluación
exactitud = accuracy_score(y_test, y_pred)
cm = confusion_matrix(y_test, y_pred)
fpr, tpr, _ = roc_curve(y_test, y_proba)
roc_auc = auc(fpr, tpr)

print("Exactitud del modelo:", exactitud)
print("Matriz de confusión:")
print(cm)

# Visualizar la curva ROC
plt.figure(figsize=(8,6))
plt.plot(fpr, tpr, label=f'ROC curve (AUC = {roc_auc:.2f})')
plt.plot([0, 1], [0, 1], 'k--')
plt.xlabel('Tasa de Falsos Positivos')
plt.ylabel('Tasa de Verdaderos Positivos')
plt.title('Curva ROC del Modelo')
plt.legend(loc='lower right')
plt.show()


In [None]:
# Sistema de testeo: comprobaciones básicas

# Test 1: Verificar que el DataFrame tiene registros
assert df_juguetes.shape[0] > 0, "Test fallido: El DataFrame está vacío."

# Test 2: Verificar que las columnas 'Calidad', 'Defectos' y 'Costo' existen
columnas_requeridas = ['Calidad', 'Defectos', 'Costo']
for col in columnas_requeridas:
    assert col in df_juguetes.columns, f"Test fallido: La columna {col} no se encontró."

# Test 3: Verificar que la variable 'Defectuoso' se creó correctamente
assert 'Defectuoso' in df_juguetes.columns, "Test fallido: La variable 'Defectuoso' no se creó."

# Test 4: Verificar que el modelo tiene una exactitud razonable (por ejemplo, mayor al 60%)
assert exactitud >= 0.6, f"Test fallido: La exactitud del modelo es demasiado baja ({exactitud})."

print("Todos los tests se han pasado correctamente.")


## Reflexión Final

1. ¿Qué variables consideraste más relevantes para predecir si un juguete es defectuoso y por qué?
2. ¿Cómo afecta la elección del umbral en la creación de la variable 'Defectuoso' a la distribución de clases?
3. ¿Qué métricas de evaluación te parecen más importantes para este problema y por qué?
4. ¿Qué mejoras podrías introducir en el preprocesamiento o en el modelo para aumentar la exactitud?

_Responde estas preguntas en una celda Markdown adicional o en un comentario._
