In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from matplotlib.colors import ListedColormap
import seaborn as sns
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, confusion_matrix, mean_squared_error, r2_score, mean_absolute_error
from sklearn.tree import DecisionTreeClassifier
from sklearn.svm import SVC

df = pd.read_csv("../data/machine_failure_prediction_using_sensor_data.csv")

# Descripci√≥n de las columnas
# footfall: N√∫mero de personas u objetos que pasan por delante de la m√°quina.
# tempMode: Modo o ajuste de temperatura de la m√°quina.
# AQ: √çndice de calidad del aire cerca de la m√°quina.
# USS: Datos del sensor ultras√≥nico, que indican mediciones de proximidad.
# CS: Lecturas actuales del sensor, que indican el consumo el√©ctrico de la m√°quina.
# VOC: Nivel de compuestos org√°nicos vol√°tiles detectado cerca de la m√°quina.
# RP: Posici√≥n rotacional o RPM (revoluciones por minuto) de las piezas de la m√°quina.
# IP: Presi√≥n de entrada a la m√°quina.
# Temperatura: Temperatura de funcionamiento de la m√°quina.
# Fallo: Indicador binario de fallo de la m√°quina (1 para fallo, 0 para sin fallo).

In [None]:
# ========================================================
# Visualizar datos
# ========================================================
print("Primeras filas:")
display(df.head())
print("\nInformaci√≥n general:")
df.info()

In [None]:
# ========================================================
# Limpieza de datos
# ========================================================
# Se elimina columnas que no vamos a utilizar
if 'Machine_ID' in df.columns:
    df.drop('Machine_ID', axis=1, inplace=True)

# Manejo de valores nulos (NaN)
print(df.isnull().sum())
df.dropna(inplace=True)

# Se hace el cast de los valores a numericos
cols_to_plot = df.select_dtypes(include=['float64', 'int64']).columns[:9]

In [None]:
# ========================================================
# Analisis exploratorio de datos (EDA)
# ========================================================
print("\n" + "="*80)
print("AN√ÅLISIS EXPLORATORIO DE DATOS (EDA)")
print("="*80)

print("\n--- RESUMEN ESTAD√çSTICO ---")
print(df.describe().round(3))

print("\n Matriz de Correlaci√≥n:")
correlation = df.corr().round(3)
print(correlation)

plt.figure(figsize=(8, 6))
sns.heatmap(correlation, annot=True, cmap='coolwarm', center=0,
            vmin=-1, vmax=1, square=True, linewidths=1, fmt=".3f")
plt.title('Matriz de Correlaci√≥n - Problema de Regresi√≥n', fontsize=14, fontweight='bold')
plt.tight_layout()

plt.show()

print("\n INTERPRETACI√ìN:")
print(f"   ‚Ä¢ Correlaci√≥n VOC-Fail: {correlation.loc['VOC', 'fail']:.3f}")
print(f"   ‚Ä¢ Correlaci√≥n AQ-VOC: {correlation.loc['AQ', 'VOC']:.3f}")
print(f"   ‚Ä¢ Correlaci√≥n AQ-Fail: {correlation.loc['AQ', 'fail']:.3f}")
print(f"   ‚Üí Al aumentar el nivel de compuestos org√°nicos vol√°tiles detectado cerca de la m√°quina y aumentan los indice de calidad del aire cerca de la m√°quina es cuando tiende a fallar")

In [None]:
# ========================================================
# Visualizaciones
# ========================================================
fig, axes = plt.subplots(1, 9, figsize=(22, 5))

for i, col in enumerate(cols_to_plot):
    sns.histplot(df[col], kde=True, ax=axes[i], color='skyblue')
    axes[i].set_title(col, fontsize=10)
    axes[i].set_xlabel('')
    axes[i].set_ylabel('')

plt.tight_layout()
plt.show()

fig, axes = plt.subplots(1, 3, figsize=(20, 6))

# Gr√°fico 1: VOC vs AQ (Dispersi√≥n)
# Agregamos comillas a 'VOC', 'AQ' y 'fail'
axes[0].scatter(df['VOC'], df['AQ'], alpha=0.6, c=df['fail'],
                cmap='coolwarm', s=50, edgecolors='k', linewidth=0.5)
axes[0].set_xlabel('Compuestos Org√°nicos (VOC)', fontsize=12, fontweight='bold')
axes[0].set_ylabel('Calidad de Aire (AQ)', fontsize=12, fontweight='bold')
axes[0].set_title('Calidad de Aire vs Compuestos Org√°nicos\n(Color: Fallo)', fontsize=13, fontweight='bold')
axes[0].grid(True, alpha=0.3)

# Gr√°fico 2: Distribuci√≥n de VOC
# Agregamos comillas a 'VOC'
axes[1].hist(df['VOC'], bins=30, color='indianred', edgecolor='black', alpha=0.7)
axes[1].axvline(df['VOC'].mean(), color='blue', linestyle='--',
                linewidth=2, label=f'Media: {df["VOC"].mean():.2f}')
axes[1].set_xlabel('Compuestos Org√°nicos (VOC)', fontsize=12, fontweight='bold')
axes[1].set_ylabel('Frecuencia', fontsize=12, fontweight='bold')
axes[1].set_title('Distribuci√≥n de Compuestos Org√°nicos\n(M√°xima Correlaci√≥n)', fontsize=13, fontweight='bold')
axes[1].legend()
axes[1].grid(True, alpha=0.3)

# Gr√°fico 3: Boxplot de VOC por Estado de Fallo
# Agregamos comillas a 'fail' y 'VOC'
axes[2].boxplot([df[df['fail']==0]['VOC'],
                 df[df['fail']==1]['VOC']],
                labels=['Operaci√≥n Normal', 'Incidencia (Fail)'],
                patch_artist=True,
                boxprops=dict(facecolor='lightcoral', alpha=0.6))
axes[2].set_ylabel('Compuestos Org√°nicos (VOC)', fontsize=12, fontweight='bold')
axes[2].set_title('Compuestos Org√°nicos por Estado\nSeparaci√≥n de Clases', fontsize=13, fontweight='bold')
axes[2].grid(True, alpha=0.3, axis='y')

plt.tight_layout()
plt.show()

In [None]:
# ========================================================
# Preparaci√≥n de datos
# ========================================================
print("\n" + "="*80)
print("PREPARACI√ìN DE DATOS")
print("="*80)

# Separar features y target
X = df[['VOC', 'AQ']].values
y = df['fail'].values

# Escalar features
scaler_X = StandardScaler()
X_scaled = scaler_X.fit_transform(X)

# Divisi√≥n train-test
X_train, X_test, y_train, y_test = train_test_split(
    X_scaled, y, test_size=0.2, random_state=42
)

print(f"\n Divisi√≥n completada:")
print(f"   ‚Ä¢ Entrenamiento: {len(X_train)} muestras")
print(f"   ‚Ä¢ Prueba: {len(X_test)} muestras")

In [None]:
# ========================================================
# Implementaci√≥n de Regresi√≥n Log√≠stica
# ========================================================
print("\n" + "="*50)
print("MODELO: REGRESI√ìN LOG√çSTICA")
print("="*50)

# Entrenamiento del modelo con datos escalados
lr = LogisticRegression(random_state=42)
lr.fit(X_train, y_train)

# Predicciones
y_pred_lr = lr.predict(X_test)

# Evaluaci√≥n
print("\nMatriz de Confusi√≥n (Regresi√≥n Log√≠stica):")
conf_matrix_lr = confusion_matrix(y_test, y_pred_lr)
print(conf_matrix_lr)

# Visualizaci√≥n de la matriz de confusi√≥n adaptada al dataset de fallos
plt.figure(figsize=(8, 6))
sns.heatmap(conf_matrix_lr, annot=True, fmt='d', cmap='Blues',
            xticklabels=['No Fallo', 'Fallo'],
            yticklabels=['No Fallo', 'Fallo'])
plt.xlabel('Predicci√≥n del Modelo')
plt.ylabel('Estado Real de la M√°quina')
plt.title('Matriz de Confusi√≥n - Diagn√≥stico de Incidencias')
plt.show()

# M√©tricas
mse_lr = mean_squared_error(y_test, y_pred_lr)
rmse_lr = np.sqrt(mse_lr)
mae_lr = mean_absolute_error(y_test, y_pred_lr)
r2_lr = r2_score(y_test, y_pred_lr)

print(f"\n RESULTADOS:")
print(f"   ‚Ä¢ MSE (Error Cuadr√°tico Medio): {mse_lr:,.2f}")
print(f"   ‚Ä¢ RMSE (Ra√≠z del MSE): {rmse_lr:,.2f}")
print(f"   ‚Ä¢ MAE (Error Absoluto Medio): {mae_lr:,.2f}")
print(f"   ‚Ä¢ R¬≤ Score: {r2_lr:.4f} ({r2_lr*100:.2f}% de varianza explicada)")

print("\nReporte de Clasificaci√≥n:")
print(classification_report(y_test, y_pred_lr))

# Coeficientes del modelo asociados a los sensores
print("\nInterpretaci√≥n de Sensores (Coeficientes):")
intercept = lr.intercept_[0]
print(f"Intercepto (Sesgo): {intercept:.4f}")

In [None]:
# ========================================================
# Implementaci√≥n de √Årbol de Decisi√≥n
# ========================================================
print("\n" + "="*50)
print("MODELO: √ÅRBOL DE DECISI√ìN")
print("="*50)

# Entrenamiento del modelo
tree_model = DecisionTreeClassifier(max_depth=4, random_state=42)
tree_model.fit(X_train, y_train)

# Predicciones
y_pred_tree = tree_model.predict(X_test)

# Evaluaci√≥n
print("\nMatriz de Confusi√≥n (√Årbol de Decisi√≥n):")
conf_matrix_tree = confusion_matrix(y_test, y_pred_tree)
print(conf_matrix_tree)

# Visualizaci√≥n de la matriz de confusi√≥n
plt.figure(figsize=(8, 6))
sns.heatmap(conf_matrix_tree, annot=True, fmt='d', cmap='Blues',
            xticklabels=['No Falla', 'Falla'],
            yticklabels=['No Falla', 'Falla'])
plt.xlabel('Predicci√≥n')
plt.ylabel('Valor Real')
plt.title('Matriz de Confusi√≥n - √Årbol de Decisi√≥n')
plt.savefig('confusion_matrix_tree.png')
plt.show()

# M√©tricas
mse_tree = mean_squared_error(y_test, y_pred_tree)
rmse_tree = np.sqrt(mse_tree)
mae_tree = mean_absolute_error(y_test, y_pred_tree)
r2_tree = r2_score(y_test, y_pred_tree)

print(f"\n RESULTADOS:")
print(f"   ‚Ä¢ MSE (Error Cuadr√°tico Medio): {mse_tree:,.2f}")
print(f"   ‚Ä¢ RMSE (Ra√≠z del MSE): {rmse_tree:,.2f}")
print(f"   ‚Ä¢ MAE (Error Absoluto Medio): {mae_tree:,.2f}")
print(f"   ‚Ä¢ R¬≤ Score: {r2_tree:.4f} ({r2_tree*100:.2f}% de varianza explicada)")

print("\nReporte de Clasificaci√≥n:")
print(classification_report(y_test, y_pred_tree))

In [None]:
# ========================================================
# Implementaci√≥n de SVM (Support Vector Machine)
# ========================================================
print("\n" + "="*50)
print("MODELO SUPPORT VECTOR MACHINE (SVM)")
print("="*50)

# Entrenamiento del modelo
svm = SVC(kernel='rbf', C=1.0, gamma='scale', random_state=42)
svm.fit(X_train, y_train)

# Predicciones
y_pred_svm = svm.predict(X_test)

# Evaluaci√≥n
print("\nMatriz de Confusi√≥n (SVM):")
conf_matrix_svm = confusion_matrix(y_test, y_pred_svm)
print(conf_matrix_svm)

# Visualizaci√≥n de la matriz de confusi√≥n
plt.figure(figsize=(8, 6))
sns.heatmap(conf_matrix_svm, annot=True, fmt='d', cmap='Blues',
            xticklabels=['No Falla', 'Falla'],
            yticklabels=['No Falla', 'Falla'])
plt.xlabel('Predicci√≥n')
plt.ylabel('Valor Real')
plt.title('Matriz de Confusi√≥n - SVM')
plt.savefig('confusion_matrix_svm.png')
plt.show()

# M√©tricas
mse_svm = mean_squared_error(y_test, y_pred_svm)
rmse_svm = np.sqrt(mse_svm)
mae_svm = mean_absolute_error(y_test, y_pred_svm)
r2_svm = r2_score(y_test, y_pred_svm)

print(f"\n RESULTADOS:")
print(f"   ‚Ä¢ MSE (Error Cuadr√°tico Medio): {mse_svm:,.2f}")
print(f"   ‚Ä¢ RMSE (Ra√≠z del MSE): {rmse_svm:,.2f}")
print(f"   ‚Ä¢ MAE (Error Absoluto Medio): {mae_svm:,.2f}")
print(f"   ‚Ä¢ R¬≤ Score: {r2_svm:.4f} ({r2_svm*100:.2f}% de varianza explicada)")

print("\nReporte de Clasificaci√≥n (SVM):")
print(classification_report(y_test, y_pred_svm))

In [None]:
# ========================================================
# Creamos la tabla comparativa
# ========================================================
results = pd.DataFrame({
    'Modelo': ['Regresi√≥n Log√≠stica', '√Årbol de Decisi√≥n', 'Support Vector Machine'],
    'RMSE': [rmse_lr, rmse_tree, rmse_svm],
    'MAE': [mae_lr, mae_tree, mae_svm],
    'R¬≤': [r2_lr, r2_tree, r2_svm]
})

# Ordenar por R¬≤ (descendente)
results = results.sort_values('R¬≤', ascending=False)

print("\n" + " COMPARATIVA DE MODELOS ".center(50, "="))
print(results.to_string(index=False))

# Identificar mejor modelo
best_model = results.iloc[0]['Modelo']
best_r2 = results.iloc[0]['R¬≤']

print(f"\n GANADOR: {best_model}")
print(f"   ‚Ä¢ Capacidad de Explicaci√≥n (R¬≤): {best_r2*100:.2f}%")
print(f"   ‚Ä¢ Error Medio (RMSE): {results.iloc[0]['RMSE']:.4f}")

In [None]:
# ========================================================
# Comparaci√≥n de modelos con validaci√≥n cruzada
# ========================================================
print("\n" + "="*50)
print("COMPARACI√ìN DE MODELOS CON VALIDACI√ìN CRUZADA")
print("="*50)

models = {
    'Regresi√≥n Log√≠stica': LogisticRegression(random_state=42),
    'SVM': SVC(kernel='rbf', C=1.0, gamma='scale', random_state=42),
    '√Årbol de Decisi√≥n': DecisionTreeClassifier(max_depth=4, random_state=42)
}

# Lista para almacenar resultados
cv_results = []

for name, model in models.items():
    scores = cross_val_score(model, X_scaled, y, cv=5, scoring='accuracy')
    cv_results.append({
        'Modelo': name,
        'Accuracy Promedio': scores.mean(),
        'Desviaci√≥n Est√°ndar': scores.std(),
        'Scores': scores
    })
    print(f"{name}: Accuracy promedio = {scores.mean():.3f}, Desviaci√≥n Est√°ndar = {scores.std():.3f}")

# Visualizaci√≥n de resultados de validaci√≥n cruzada
cv_df = pd.DataFrame(cv_results)[['Modelo', 'Accuracy Promedio', 'Desviaci√≥n Est√°ndar']]
print("\nResumen de validaci√≥n cruzada:")
print(cv_df)

plt.figure(figsize=(10, 6))
sns.barplot(x='Modelo', y='Accuracy Promedio', data=cv_df, palette='viridis')
plt.errorbar(x=range(len(cv_df)), y=cv_df['Accuracy Promedio'],
             yerr=cv_df['Desviaci√≥n Est√°ndar'], fmt='none', color='black', capsize=5)
plt.title('Comparaci√≥n de Modelos - Validaci√≥n Cruzada (5-fold)')
plt.ylim(0.7, 1.0)  # Ajustar seg√∫n los resultados
plt.grid(axis='y', linestyle='--', alpha=0.7)
plt.savefig('cross_validation_comparison.png')
plt.show()

In [None]:
# ========================================================
# Visualizaci√≥n de fronteras de decisi√≥n
# ========================================================
print("\n" + "="*50)
print("VISUALIZACI√ìN DE FRONTERAS DE DECISI√ìN")
print("="*50)

# Para visualizar las fronteras de decisi√≥n, usaremos solo Age y EstimatedSalary
print("Preparando visualizaci√≥n con 2 dimensiones (Age y EstimatedSalary)...")

# Entrenamos nuevos modelos con solo 2 caracter√≠sticas pero usando los mismos datos de entrenamiento
# Seleccionamos solo Age y EstimatedSalary del conjunto de entrenamiento
X_train_2d = X_train[:, -2:] if X_train.shape[1] > 2 else X_train

# Entrenamos modelos con solo 2 dimensiones para la visualizaci√≥n
lr_2d = LogisticRegression(random_state=42)
svm_2d = SVC(kernel='rbf', C=1.0, gamma='scale', random_state=42)
tree_2d = DecisionTreeClassifier(max_depth=4, random_state=42)

# Entrenamos estos modelos simplificados
lr_2d.fit(X_train_2d, y_train)
svm_2d.fit(X_train_2d, y_train)
tree_2d.fit(X_train_2d, y_train)

def plot_decision_boundary(model, X, y, title):
    h = 0.02  # Tama√±o del paso en la malla
    x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
    y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
    xx, yy = np.meshgrid(np.arange(x_min, x_max, h), np.arange(y_min, y_max, h))

    # Predecir con el modelo
    Z = model.predict(np.c_[xx.ravel(), yy.ravel()])
    Z = Z.reshape(xx.shape)

    plt.figure(figsize=(10, 8))
    plt.contourf(xx, yy, Z, alpha=0.8, cmap=ListedColormap(['#FFAAAA', '#AAFFAA']))

    # Graficar los puntos de entrenamiento
    scatter = plt.scatter(X[:, 0], X[:, 1], c=y,
                         edgecolors='k', cmap=ListedColormap(['#FF0000', '#00FF00']))

    plt.xlim(xx.min(), xx.max())
    plt.ylim(yy.min(), yy.max())
    plt.title(title)
    plt.xlabel('Edad (estandarizada)')
    plt.ylabel('Salario estimado (estandarizado)')
    plt.legend(*scatter.legend_elements(), title="Compra")
    plt.savefig(f'decision_boundary_{title.replace(" ", "_").lower()}.png')
    plt.show()

# Obtenemos datos de X_scaled pero solo las √∫ltimas 2 columnas (Age y EstimatedSalary)
X_2d_vis = X_scaled[:, -2:] if X_scaled.shape[1] > 2 else X_scaled

# Visualizar fronteras de decisi√≥n para cada modelo (usando solo 2 dimensiones)
print("Generando visualizaciones de fronteras de decisi√≥n...")
plot_decision_boundary(lr_2d, X_2d_vis, y, "Regresi√≥n Log√≠stica")
plot_decision_boundary(svm_2d, X_2d_vis, y, "SVM")
plot_decision_boundary(tree_2d, X_2d_vis, y, "√Årbol de Decisi√≥n")


In [None]:
# ========================================================
# INTERPRETACI√ìN DE RESULTADOS
# ========================================================
print("\n" + "="*50)
print("üìä INTERPRETACI√ìN DE RESULTADOS üìä")
print("="*50)

print("Existe una fuerte relaci√≥n entre los niveles elevados de compuestos org√°nicos vol√°tiles (VOC) detectados cerca de la m√°quina y la probabilidad de fallo.")
print("Adem√°s, se observa que cuando aumentan simult√°neamente los √≠ndices de calidad del aire (AQ) y los niveles de VOC cerca de la m√°quina, es cuando mayor")
print("probabilidad de fallo se presenta. Esto sugiere que la acumulaci√≥n de contaminantes en el entorno inmediato de la m√°quina es un indicador temprano de posibles fallos.")
print()

# --- Correlaciones Clave ---
print("CORRELACIONES CLAVE IDENTIFICADAS:")
print("-" * 70)
print(" ‚Ä¢ Compuestos Org√°nicos (VOC) ‚Üî Fallas:                  Correlaci√≥n = 0.797 (MUY ALTA)")
print(" ‚Ä¢ Calidad del Aire (AQ)  ‚Üî Compuestos Org√°nicos (VOC):  Correlaci√≥n = 0.619 (ALTA)")
print(" ‚Ä¢ Calidad del Aire (AQ)  ‚Üî Fallas:                      Correlaci√≥n = 0.583 (ALTA)")
print()

# M√©tricas comparativas
print("METRICAS COMPARATIVAS:")
print("   ‚Ä¢ Los modelos muestran alto desempe√±o (>88% accuracy) por lo que se puede usar cualquier modelo")
print("   ‚Ä¢ El R¬≤ de 55.27% sugiere que existen otros factores no considerados en el modelo que tambi√©n influyen en los fallos y que se deberian tomar en cuenta para el proximo planteamiento")
print("   ‚Ä¢ Error absoluto medio (MAE) muy bajo: 0.11-0.12 por lo que se puede confiar en los modelos")
print("   ‚Ä¢ El modelo SVM tiene una ligera ventaja en la identificaci√≥n de casos positivos (fallos) por lo que se elegira para la implementacion")
print()

# Conclusi√≥n
print("CONCLUSI√ìN FINAL:")
print("Comparando los modelos de clasificaci√≥n (SVM, √Årbol de Decisi√≥n y Regresi√≥n Log√≠stica) demostr√≥ que todos los algoritmos alcanzaron un desempe√±o similar y s√≥lido, con una precisi√≥n")
print("promedio cercana al 90%, lo que confirma la robustez del enfoque predictivo para la detecci√≥n de fallas. La fuerte correlaci√≥n identificada entre los compuestos org√°nicos vol√°tiles")
print("(VOC) y el √≠ndice de calidad del aire (AQ) con las fallas de la m√°quina evidencia que estos sensores son indicadores cr√≠ticos del estado operativo del equipo.")

print("Se recomienda implementar un sistema de monitoreo en tiempo real que integre estos dos sensores como variables predictoras principales y aunque se puede implementar cualquiera de ")
print("los 3 modelos es preferible SVM por su ligera ventaja en la especificidad.")

