In [None]:
# =============================================================================
# CURSO: APRENDIZAJE AUTOMÁTICO EN PROCESOS INDUSTRIALES
# NOTEBOOK 2: ANÁLISIS EXPLORATORIO DE DATOS (EDA)
# Dataset: Steel Plates Faults (UCI Machine Learning Repository)
# =============================================================================

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# 1. CARGA DE DATOS Y PREPROCESAMIENTO
# -----------------------------------------------------------------------------
# El dataset original no tiene nombres de columnas, los definimos según la documentación técnica
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/00198/Faults.Nofaults"

column_names = [
    'X_Minimum', 'X_Maximum', 'Y_Minimum', 'Y_Maximum', 'Pixels_Areas', 'X_Perimeter',
    'Y_Perimeter', 'Sum_of_Luminosity', 'Minimum_of_Luminosity', 'Maximum_of_Luminosity',
    'Length_of_Conveyor', 'TypeOfSteel_A300', 'TypeOfSteel_A400', 'Steel_Plate_Thickness',
    'Edges_Index', 'Empty_Index', 'Square_Index', 'Outside_X_Index', 'Edges_X_Index',
    'Edges_Y_Index', 'Outside_Global_Index', 'LogOfAreas', 'Log_X_Index', 'Log_Y_Index',
    'Orientation_Index', 'Luminosity_Index', 'SigmoidOfAreas', 'Pastry', 'Z_Scratch',
    'K_Scatch', 'Stains', 'Dirtiness', 'Bumps', 'Other_Faults'
]

# Leemos el archivo (separado por tabulaciones en este caso)
df = pd.read_csv(url, sep='\t', names=column_names)

print("--- Primeras 5 filas del Dataset Industrial ---")
print(df.head())

In [None]:
# 2. ESTADÍSTICA DESCRIPTIVA (TEMA 2.3 y 2.4)
# -----------------------------------------------------------------------------
print("\n--- Resumen Estadístico de Sensores ---")
# Analizamos solo variables físicas relevantes para simplificar la vista
physical_vars = ['Pixels_Areas', 'X_Perimeter', 'Steel_Plate_Thickness', 'Luminosity_Index']
print(df[physical_vars].describe())

In [None]:
# 3. DETECCIÓN DE VALORES ATÍPICOS - OUTLIERS (TEMA 2.5)
# -----------------------------------------------------------------------------
plt.figure(figsize=(12, 5))

# Boxplot para Pixels_Areas
plt.subplot(1, 2, 1)
sns.boxplot(y=df['Pixels_Areas'], color='skyblue')
plt.title('Distribución de Áreas (Detección de Outliers)')
plt.ylabel('Píxeles del defecto')

# Boxplot para Espesor de la lámina
plt.subplot(1, 2, 2)
sns.boxplot(y=df['Steel_Plate_Thickness'], color='salmon')
plt.title('Distribución de Espesor de Acero')
plt.ylabel('Espesor (mm)')

plt.tight_layout()
plt.show()


In [None]:
# 4. CORRELACIÓN ENTRE VARIABLES (TEMA 2.7)
# -----------------------------------------------------------------------------
# Calculamos la correlación de Pearson entre las dimensiones físicas
corr_matrix = df[physical_vars].corr()

plt.figure(figsize=(8, 6))
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm', fmt=".2f", linewidths=0.5)
plt.title('Matriz de Correlación: Variables Físicas de la Lámina')
plt.show()


In [None]:
#5. DIAGRAMAS DE DISPERSIÓN - SCATTER PLOTS (TEMA 2.6)
# -----------------------------------------------------------------------------
# Analizamos la relación entre el perímetro en X y el área total
plt.figure(figsize=(10, 6))
sns.scatterplot(data=df, x='X_Perimeter', y='Pixels_Areas', hue='TypeOfSteel_A300', alpha=0.6)
plt.title('Relación Perímetro vs Área (Segmentado por Tipo de Acero)')
plt.xlabel('Perímetro en el eje X')
plt.ylabel('Área total del fallo')
plt.grid(True, linestyle='--', alpha=0.5)
plt.show()

In [None]:
# 6. ANÁLISIS DE LA VARIABLE OBJETIVO (CLASIFICACIÓN)
# -----------------------------------------------------------------------------
# Las últimas 7 columnas son los tipos de fallos (One-Hot Encoded)
fault_types = df.columns[-7:]
fault_counts = df[fault_types].sum().sort_values(ascending=False)

plt.figure(figsize=(10, 5))
fault_counts.plot(kind='bar', color='teal')
plt.title('Frecuencia de Tipos de Fallos en la Línea de Producción')
plt.ylabel('Número de casos')
plt.xticks(rotation=45)
plt.show()

print("\n--- Análisis Finalizado ---")
print(f"Total de muestras analizadas: {df.shape[0]}")
print(f"Variables técnicas registradas: {df.shape[1]}")