
# Mantenimiento Predictivo con Machine Learning
**Autor:** Januario Tapiero Tique  
**Objetivo:** Proyecto profesional y didáctico para predecir fallas de equipos (clasificación) y vida útil restante (regresión), con *clustering + PCA* para análisis exploratorio.

> Este notebook es pedagógico y a la vez profesional. Evita *data leakage* usando `Pipeline`, incluye métricas correctas, validación cruzada y visualizaciones claras.


In [None]:

# Instalaciones mínimas (ejecutar si hace falta)
# !pip install -U pip numpy pandas scikit-learn matplotlib joblib

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

from sklearn.model_selection import train_test_split, StratifiedKFold, cross_val_score, GridSearchCV
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import (confusion_matrix, classification_report, roc_auc_score, roc_curve,
                             accuracy_score, precision_score, recall_score, f1_score,
                             mean_squared_error, r2_score)
from sklearn.decomposition import PCA
from sklearn.manifold import TSNE
from sklearn.cluster import KMeans, DBSCAN
from sklearn.linear_model import LogisticRegression, Ridge, Lasso
from sklearn.ensemble import RandomForestClassifier, RandomForestRegressor
from joblib import dump, load

import os, sys
sys.path.append('../src')
from utils import make_synthetic_maint_data

RANDOM_STATE = 42
np.random.seed(RANDOM_STATE)



## 1. Generar / Cargar datos
Usaremos un **dataset sintético reproducible** que simula sensores, condiciones de operación y la **RUL** (vida útil restante).  
También creamos una etiqueta de **clasificación** `fail_in_H` (fallará en los próximos 10 ciclos).


In [None]:

df = make_synthetic_maint_data(n_units=220, cycles=130, random_state=RANDOM_STATE)
print(df.shape)
df.head()



## 2. EDA rápido (exploración)
Revisamos distribución del target, correlaciones aproximadas, y ejemplos temporales por unidad.


In [None]:

# Distribución de la etiqueta de clasificación
class_counts = df['fail_in_H'].value_counts().sort_index()
print(class_counts)

fig = plt.figure()
class_counts.plot(kind='bar')
plt.title('Distribución de la etiqueta: fail_in_H')
plt.xlabel('Clase')
plt.ylabel('Frecuencia')
plt.show()

# Correlación con RUL (regresión)
corr = df[['s1','s2','s3','vibration','temp','pressure','load','RUL']].corr()['RUL'].sort_values(ascending=False)
print('Correlación con RUL:\n', corr)

# Ejemplo de serie temporal de una unidad
sample_unit = df[df['unit']==0]
fig = plt.figure()
plt.plot(sample_unit['time'], sample_unit['vibration'])
plt.title('Vibración vs tiempo (unidad 0)')
plt.xlabel('Tiempo')
plt.ylabel('Vibración')
plt.show()



## 3. Split train/test sin fuga de datos
Dividimos por **muestras** (no por tiempo) para simplificar este ejemplo sintético.
En casos reales por serie temporal, conviene usar **split por tiempo**.


In [None]:

feature_cols = ['load','ambient','s1','s2','s3','vibration','temp','pressure']

# Clasificación
X_cls = df[feature_cols].values
y_cls = df['fail_in_H'].values

Xc_train, Xc_test, yc_train, yc_test = train_test_split(
    X_cls, y_cls, test_size=0.2, random_state=RANDOM_STATE, stratify=y_cls
)

# Regresión
X_reg = df[feature_cols].values
y_reg = df['RUL'].values
Xr_train, Xr_test, yr_train, yr_test = train_test_split(
    X_reg, y_reg, test_size=0.2, random_state=RANDOM_STATE
)

Xc_train.shape, Xr_train.shape



## 4. Clasificación (¿fallará pronto?)
Entrenamos dos modelos: **LogisticRegression** (lineal, interpretable) y **RandomForestClassifier** (no lineal, robusto).  
Usamos `Pipeline` con `StandardScaler` donde aplica y validación cruzada estratificada.


In [None]:

skf = StratifiedKFold(n_splits=5, shuffle=True, random_state=RANDOM_STATE)

# Modelo 1: Regresión Logística
pipe_lr = Pipeline([('scaler', StandardScaler()), ('clf', LogisticRegression(max_iter=200, class_weight='balanced', random_state=RANDOM_STATE))])
scores_lr = cross_val_score(pipe_lr, Xc_train, yc_train, cv=skf, scoring='f1')
print('LogReg CV F1:', scores_lr.mean().round(3), '+/-', scores_lr.std().round(3))
pipe_lr.fit(Xc_train, yc_train)
yc_pred_lr = pipe_lr.predict(Xc_test)
yc_prob_lr = pipe_lr.predict_proba(Xc_test)[:,1]

# Métricas
print('=== Logistic Regression Test ===')
print('Accuracy:', accuracy_score(yc_test, yc_pred_lr).round(3))
print('F1:', f1_score(yc_test, yc_pred_lr).round(3))
print('Precision:', precision_score(yc_test, yc_pred_lr).round(3))
print('Recall:', recall_score(yc_test, yc_pred_lr).round(3))
print('\nMatriz de confusión:\n', confusion_matrix(yc_test, yc_pred_lr))
print('\nReporte:\n', classification_report(yc_test, yc_pred_lr))

# Curva ROC
fpr, tpr, _ = roc_curve(yc_test, yc_prob_lr)
auc_lr = roc_auc_score(yc_test, yc_prob_lr)
fig = plt.figure()
plt.plot(fpr, tpr, label=f'ROC AUC = {auc_lr:.3f}')
plt.plot([0,1],[0,1],'--')
plt.title('Curva ROC - Logistic Regression')
plt.xlabel('FPR')
plt.ylabel('TPR')
plt.legend()
plt.show()

# Modelo 2: RandomForestClassifier (tuning pequeño)
pipe_rf = Pipeline([('clf', RandomForestClassifier(random_state=RANDOM_STATE))])
param_grid = {'clf__n_estimators':[150,250], 'clf__max_depth':[None,12]}
gs = GridSearchCV(pipe_rf, param_grid, cv=skf, scoring='f1', n_jobs=-1)
gs.fit(Xc_train, yc_train)
best_rf = gs.best_estimator_
print('Mejor RF:', gs.best_params_, 'CV F1:', gs.best_score_.round(3))

yc_pred_rf = best_rf.predict(Xc_test)
yc_prob_rf = best_rf.predict_proba(Xc_test)[:,1]
print('=== Random Forest Test ===')
print('Accuracy:', accuracy_score(yc_test, yc_pred_rf).round(3))
print('F1:', f1_score(yc_test, yc_pred_rf).round(3))
print('\nMatriz de confusión:\n', confusion_matrix(yc_test, yc_pred_rf))

# Guardar mejor modelo
import os
os.makedirs('../models', exist_ok=True)
from joblib import dump
dump(best_rf, '../models/classifier_random_forest.joblib')



## 5. Regresión (RUL)
Comparamos **Ridge**, **Lasso** y **RandomForestRegressor** usando RMSE y R².  
Usamos `Pipeline` con escalado para modelos lineales.


In [None]:

def eval_reg(y_true, y_pred, name='Model'):
    rmse = mean_squared_error(y_true, y_pred, squared=False)
    r2 = r2_score(y_true, y_pred)
    print(f'{name} -> RMSE: {rmse:.2f} | R2: {r2:.3f}')
    return rmse, r2

# Ridge
pipe_ridge = Pipeline([('scaler', StandardScaler()), ('reg', Ridge())])
param_ridge = {'reg__alpha':[0.1,1.0,5.0,10.0]}
gs_ridge = GridSearchCV(pipe_ridge, param_ridge, cv=5, scoring='neg_root_mean_squared_error', n_jobs=-1)
gs_ridge.fit(Xr_train, yr_train)
yr_pred_ridge = gs_ridge.predict(Xr_test)
eval_reg(yr_test, yr_pred_ridge, 'Ridge')

# Lasso
pipe_lasso = Pipeline([('scaler', StandardScaler()), ('reg', Lasso(max_iter=5000))])
param_lasso = {'reg__alpha':[0.001,0.01,0.1,1.0]}
gs_lasso = GridSearchCV(pipe_lasso, param_lasso, cv=5, scoring='neg_root_mean_squared_error', n_jobs=-1)
gs_lasso.fit(Xr_train, yr_train)
yr_pred_lasso = gs_lasso.predict(Xr_test)
eval_reg(yr_test, yr_pred_lasso, 'Lasso')

# RandomForestRegressor
rf_reg = RandomForestRegressor(n_estimators=300, random_state=RANDOM_STATE)
rf_reg.fit(Xr_train, yr_train)
yr_pred_rfr = rf_reg.predict(Xr_test)
eval_reg(yr_test, yr_pred_rfr, 'RandomForestRegressor')

# Importancias (RF)
importances = rf_reg.feature_importances_
fig = plt.figure()
plt.bar(range(len(importances)), importances)
plt.xticks(range(len(importances)), feature_cols, rotation=45, ha='right')
plt.title('Importancia de características (Regresión - RF)')
plt.tight_layout()
plt.show()

from joblib import dump
dump(rf_reg, '../models/regressor_random_forest.joblib')



## 6. Clustering + PCA (patrones operativos y anomalías)
Usamos **PCA** para reducción de dimensionalidad y **K-Means** / **DBSCAN** para agrupamiento.


In [None]:

from sklearn.metrics import silhouette_score

X_for_cluster = df[feature_cols].sample(n=5000, random_state=RANDOM_STATE).values

# PCA a 2D
pca = PCA(n_components=2, random_state=RANDOM_STATE)
X_pca = pca.fit_transform(X_for_cluster)
print('Varianza explicada (2D):', pca.explained_variance_ratio_.sum().round(3))

# K-Means
kmeans = KMeans(n_clusters=3, n_init=10, random_state=RANDOM_STATE)
km_labels = kmeans.fit_predict(X_pca)
sil_km = silhouette_score(X_pca, km_labels)
print('Silhouette KMeans:', round(sil_km,3))

fig = plt.figure()
plt.scatter(X_pca[:,0], X_pca[:,1], c=km_labels, s=8)
plt.title('PCA 2D + KMeans (k=3)')
plt.xlabel('PC1')
plt.ylabel('PC2')
plt.show()

# DBSCAN (detección de densidad y ruido)
db = DBSCAN(eps=0.6, min_samples=10)
db_labels = db.fit_predict(X_pca)
valid = db_labels!=-1
sil_db = silhouette_score(X_pca[valid], db_labels[valid]) if valid.sum()>1 and len(set(db_labels))>1 else None
print('Silhouette DBSCAN:', sil_db)

fig = plt.figure()
plt.scatter(X_pca[:,0], X_pca[:,1], c=db_labels, s=8)
plt.title('PCA 2D + DBSCAN')
plt.xlabel('PC1')
plt.ylabel('PC2')
plt.show()



## 7. Exportar resultados y resumen ejecutivo
Guardamos modelos y un **resumen ejecutivo** para stakeholders no técnicos.


In [None]:

summary = []
summary.append('Proyecto: Mantenimiento Predictivo con ML')
summary.append('Objetivo: Clasificación de fallo inminente y Regresión de RUL')
summary.append('Modelos: LogisticRegression, RandomForest (clasificación); Ridge/Lasso/RF (regresión)')
summary.append('Métricas clave: F1 y ROC-AUC (clasificación); RMSE y R2 (regresión)')
summary.append('Buenas prácticas: Pipeline, escalado, CV estratificada, tuning con GridSearch, prevención de data leakage')
summary_txt = "\n".join(summary)

import os
os.makedirs('../reports', exist_ok=True)
with open('../reports/resumen_ejecutivo.txt', 'w', encoding='utf-8') as f:
    f.write(summary_txt)

print(summary_txt)



## 8. Conclusiones y siguientes pasos
- En datos reales con series temporales, usar **TimeSeriesSplit** o split por tiempo.
- Añadir **curvas PR** si hay desbalance fuerte.
- Probar **umbrales de decisión** optimizados por métrica de negocio (ej: maximizar recall).  
- Integrar un **dashboard** (Streamlit/Gradio) para stakeholders.
