<a href="https://colab.research.google.com/github/dtoralg/IE_Calidad_ML/blob/main/Ejercicios/Modulo%203/Ejercicio_2_Regresion_Logistica_Clasificacion_Resuelto.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### **Ejercicio 2: Regresión Logística para la Clasificación de Defectos (Nivel: Intermedio)**
#### Aplicación de Regresión Logística para clasificar si un circuito electrónico fallará o no

### **Introducción**
En este ejercicio, aplicaremos un modelo de Regresión Logística para predecir si un circuito electrónico fallará en una línea de producción. El objetivo es entrenar un modelo de clasificación basado en datos de calidad industrial y evaluar su desempeño utilizando métricas de clasificación.

In [None]:
# Celda 1
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix

# Configuración de gráficos
sns.set(style='whitegrid')

### **Descripción del dataset**
Se utilizará el dataset "Control de calidad en circuitos electrónicos", que contiene información sobre diversos parámetros que pueden influir en el fallo de un circuito.

In [None]:
# Celda 2
dataset_path = 'https://github.com/dtoralg/IE_Calidad_ML/raw/main/Data/control_calidad_circuitos.csv'
data = pd.read_csv(dataset_path)

# Mostrar las primeras filas del dataset
data.head()

In [None]:
# Celda 3
# Información general del dataset
data.info()

In [None]:
# Celda 4
# Resumen estadístico
data.describe()

In [None]:
# Celda 5
# Distribución de la variable objetivo
sns.countplot(x='Fallo_circuito', data=data)
plt.title('Distribución de circuitos defectuosos y no defectuosos')
plt.show()

### **Preparación de los datos**
Se seleccionan las variables predictoras y la variable objetivo, y se dividen los datos en entrenamiento y prueba.

In [None]:
# Celda 6
# Definir variables predictoras y objetivo
X = data.drop(columns=['Fallo_circuito'])
y = data['Fallo_circuito']

# División en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

### **Entrenamiento del modelo**
Se entrena un modelo de Regresión Logística con los datos de entrenamiento.

In [None]:
# Celda 7
# Crear y entrenar el modelo
modelo = LogisticRegression(max_iter=1000)
modelo.fit(X_train, y_train)

### **Evaluación del modelo**
Se evalúa el modelo con métricas de clasificación como precisión, recall y F1-score.

In [None]:
# Celda 8
y_pred = modelo.predict(X_test)

accuracy = accuracy_score(y_test, y_pred)
precision = precision_score(y_test, y_pred)
recall = recall_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred)

print(f'Precisión: {accuracy:.2f}')
print(f'Precision: {precision:.2f}')
print(f'Recall: {recall:.2f}')
print(f'F1-score: {f1:.2f}')

### **Visualización de la matriz de confusión**
Se muestra la matriz de confusión para analizar el desempeño del modelo en cada categoría.

In [None]:
# Celda 9
cm = confusion_matrix(y_test, y_pred)
plt.figure(figsize=(6,5))
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', xticklabels=['No Falla', 'Falla'], yticklabels=['No Falla', 'Falla'])
plt.xlabel('Predicción')
plt.ylabel('Real')
plt.title('Matriz de Confusión')
plt.show()

### **Conclusiones**
En este ejercicio, hemos aplicado un modelo de Regresión Logística para predecir fallos en circuitos electrónicos. Se exploraron los datos, se entrenó el modelo y se evaluaron métricas de clasificación.

Se podrían considerar mejoras como la selección de características más relevantes, el balanceo de datos o la aplicación de modelos más avanzados como Random Forest o SVM.