# Aprendizaje No Supervisado con K-Means
## An√°lisis de Clustering en Datos Industriales IoT

Este notebook demuestra t√©cnicas de **aprendizaje no supervisado** aplicadas a datos reales de sensores industriales.
Aprenderemos a:

1. **Preparar y normalizar datos** de sensores
2. **Determinar el n√∫mero √≥ptimo de clusters** usando el m√©todo del codo y coeficiente de silueta
3. **Visualizar clusters** en 2D y 3D mediante PCA
4. **Interpretar resultados** y realizar an√°lisis estad√≠stico
5. **Guardar y usar modelos** para predicciones en tiempo real

### üìä Dataset
**Fuente:** [Mendeley Data - Sensor Signals](https://data.mendeley.com/datasets/7rjn2xj7bc/1)  
**Publicado:** 30 Mayo 2020 | Versi√≥n 1

**Descripci√≥n:**  
Se√±ales de sensores de una aplicaci√≥n real de IoT industrial. Los datos provienen de sensores de la planta de concentraci√≥n de mineral de hierro "Fakoor Sanat". El molino de bolas es un equipo cr√≠tico y costoso que requiere monitoreo continuo. Los sensores recopilan temperaturas y las env√≠an a la nube Fakoor para prevenci√≥n de fallas.


## 1. Preparaci√≥n de Datos y Determinaci√≥n del N√∫mero √ìptimo de Clusters

En esta secci√≥n:
- Cargaremos y prepararemos los datos de sensores
- Normalizaremos los datos usando `StandardScaler` (importante para K-Means)
- Aplicaremos el **M√©todo del Codo** para visualizar la inercia
- Calcularemos el **Coeficiente de Silueta** para evaluar la calidad del clustering
- Determinaremos el n√∫mero √≥ptimo de clusters (k)


In [None]:
# Montar Google Drive (descomentar si usas Google Colab)
# from google.colab import drive
# drive.mount('/content/drive')

## 2. An√°lisis Estad√≠stico de Clusters

Ahora analizaremos las caracter√≠sticas de cada cluster para entender qu√© representan en t√©rminos de temperatura de los sensores. Esto nos ayudar√° a:

- Identificar patrones operacionales
- Detectar estados an√≥malos
- Tomar decisiones de mantenimiento predictivo


In [None]:
# ============================================
# üì¶ IMPORTACI√ìN DE BIBLIOTECAS
# ============================================
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import joblib
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA

# Suprimir advertencias para visualizaci√≥n limpia
import warnings
warnings.filterwarnings('ignore')

# Configuraci√≥n de gr√°ficos
plt.rcParams['figure.figsize'] = (12, 6)
plt.rcParams['font.size'] = 10

In [None]:
# https://data.mendeley.com/datasets/7rjn2xj7bc/1
# Mendeley Data: Sensor Signals. Published: 30 May 2020| Version 1
# Description:
# The data set contains sensor signals from a real application in industrial IoT.
# Our sample data contains data sensors from ‚ÄúFakoor Sanat Iron Ore Concentrate Plant‚Äù that is IoT enabled.
# Ball mill is a piece of important and expensive equipment in the Iron Ore Concentrate industry.
# Sensors collect temperature and send them to the Fakoor cloud. Events gathered from the ball mill are used for failure prevention.

# --- Cargar los datos ---
columnas = ['Sensor1', 'Sensor2', 'Sensor3', 'Sensor4', 'Sensor5', 'Sensor6', 'Sensor7', 'Sensor8']
df = pd.read_csv("ballmill_temp.csv", header=None)
df.columns = columnas

# --- Opcional: Usar muestra menor para acelerar ---
df = df.sample(n=20000, random_state=42)

# # Verificar si hay valores 0 en cualquier columna
# mask = (df == 0).any(axis=1)
# # Mantener solo las filas sin valores 0
# df = df[~mask]

In [None]:
df.describe().round(2)

In [None]:
# --- Escalar los datos ---
scaler = StandardScaler()
datos_normalizados = scaler.fit_transform(df)

In [None]:
pd.DataFrame(datos_normalizados, columns=columnas).describe().round(2)

In [None]:
# --- M√©todo del codo e √≠ndice de silueta ---
inertias = []
silhouette_scores = []
k_values = range(2, 11)

for k in k_values:
    # print('k= ', k)
    kmeans = KMeans(n_clusters=k, random_state=42, n_init=10)
    etiquetas = kmeans.fit_predict(datos_normalizados)

    inertias.append(kmeans.inertia_)
    sil_score = silhouette_score(datos_normalizados, etiquetas, sample_size=1000, random_state=42)
    silhouette_scores.append(sil_score)

# --- Gr√°fico del M√©todo del Codo ---
plt.figure(figsize=(10, 4))
plt.subplot(1, 2, 1)
plt.plot(k_values, inertias, marker='o')
plt.title('M√©todo del Codo')
plt.xlabel('N√∫mero de Clusters (k)')
plt.ylabel('Inercia')
plt.grid(True)

# --- Gr√°fico del Coeficiente de Silueta ---
plt.subplot(1, 2, 2)
plt.plot(k_values, silhouette_scores, marker='o', color='green')
plt.title('Coeficiente de Silueta')
plt.xlabel('N√∫mero de Clusters (k)')
plt.ylabel('Silhouette Score')
plt.grid(True)

plt.tight_layout()
plt.show()

In [None]:
# ================================
# üéØ Visualizaci√≥n 3D de clusters
# ================================

# --- Definir k final (con base en los gr√°ficos anteriores) ---
k_final = 4  # üëà Ajusta este valor seg√∫n el mejor k encontrado

colores = [
    '#1f77b4',  # Cluster 0 - Azul
    '#2ca02c',  # Cluster 1 - Verde
    '#ff00ff',  # Cluster 2 - Violeta
    '#ff7f0e',  # Cluster 3 - Naranja
    # '#d62728'   # Cluster 3 - Rojo
]

# --- Recalcular KMeans con k_final ---
kmeans_final = KMeans(n_clusters=k_final, random_state=42, n_init=10)
etiquetas_finales = kmeans_final.fit_predict(datos_normalizados)

# Crear lista de colores por punto
colores_por_punto = [colores[cluster_id] for cluster_id in etiquetas_finales]

# --- Reducci√≥n de dimensionalidad con PCA para 3D ---
pca = PCA(n_components=3)
datos_pca = pca.fit_transform(datos_normalizados)

# --- Gr√°fico 3D de los clusters ---
fig = plt.figure(figsize=(10, 7))
ax = fig.add_subplot(111, projection='3d')

scatter = ax.scatter(
    datos_pca[:, 0], datos_pca[:, 1], datos_pca[:, 2],
    c=colores_por_punto, s=10, alpha=0.7
)

ax.set_title(f'Clusters visualizados en 3D (k={k_final})')
ax.set_xlabel('PCA 1')
ax.set_ylabel('PCA 2')
ax.set_zlabel('PCA 3')
#plt.colorbar(scatter, ax=ax, label='Cluster')
plt.show()

In [None]:
# ================================
# üìä Visualizaci√≥n 2D de clusters
# ================================

# --- Reducir a 2 dimensiones con PCA ---
pca = PCA(n_components=2)
datos_pca = pca.fit_transform(datos_normalizados)

# --- Graficar clusters en 2D ---
plt.figure(figsize=(6, 5))
scatter = plt.scatter(
    datos_pca[:, 0], datos_pca[:, 1],
    c=colores_por_punto, s=10, alpha=0.7
)

plt.title(f'Clusters visualizados en 2D con PCA (k={k_final})')
plt.xlabel('Componente Principal 1')
plt.ylabel('Componente Principal 2')
#plt.colorbar(scatter, label='Cluster')
plt.grid(True)
plt.tight_layout()
plt.show()

## 3. Visualizaci√≥n Detallada de Estad√≠sticas

Vamos a crear visualizaciones m√°s detalladas para entender mejor la distribuci√≥n de temperaturas en cada cluster.


In [None]:
# ============================================
# üìà AN√ÅLISIS ESTAD√çSTICO POR CLUSTER
# ============================================

# Agregar las etiquetas de cluster al DataFrame original
df['Cluster'] = etiquetas_finales

# Contar muestras por cluster
conteo_clusters = df['Cluster'].value_counts().sort_index()
print("üî¢ Cantidad de muestras por cluster:")
print(conteo_clusters)
print(f"\nüìä Porcentaje por cluster:")
print((conteo_clusters / len(df) * 100).round(2))

In [None]:
# Calcular estad√≠sticas por cluster
print("\nüìä Medias de temperatura por cluster:")
medias_por_cluster = df.groupby('Cluster')[columnas].mean()
medias_por_cluster.round(2)

In [None]:
print("\nüìâ Desviaciones est√°ndar por cluster:")
desvios_por_cluster = df.groupby('Cluster')[columnas].std()
desvios_por_cluster.round(2)

In [None]:
# ============================================
# üìä VISUALIZACI√ìN DE MEDIAS POR CLUSTER
# ============================================
plt.figure(figsize=(12, 6))

for cluster_id in medias_por_cluster.index:
    plt.plot(columnas,
             medias_por_cluster.loc[cluster_id],
             marker='o',
             linewidth=2,
             markersize=8,
             label=f'Cluster {cluster_id}',
             color=colores[cluster_id] if cluster_id < len(colores) else None)

plt.title('üå°Ô∏è Temperatura Media de Sensores por Cluster', fontsize=14, fontweight='bold')
plt.xlabel('Sensores', fontsize=12)
# plt.ylabel('Temperatura Media (¬∞C)', fontsze=12)
plt.grid(True, alpha=0.3)
plt.legend(fontsize=11)
plt.tight_layout()
plt.show()

In [None]:
# ============================================
# üí° INTERPRETACI√ìN DE CLUSTERS
# ============================================
print("\nüí° INTERPRETACI√ìN DE CLUSTERS:")
print("="*60)
for cluster_id in range(len(conteo_clusters)):
    temp_media = medias_por_cluster.loc[cluster_id].mean()
    num_muestras = conteo_clusters[cluster_id]
    porcentaje = (num_muestras / len(df) * 100)

    print(f"\nCluster {cluster_id}:")
    print(f"  - Temperatura media: {temp_media:.2f}¬∞C")
    print(f"  - Muestras: {num_muestras} ({porcentaje:.2f}%)")

    if temp_media < 10:
        print(f"  - Estado: ‚ö†Ô∏è ALERTA - Sensores inactivos o error")
    elif temp_media < 40:
        print(f"  - Estado: ‚úÖ Operaci√≥n normal - Temperatura baja")
    elif temp_media < 55:
        print(f"  - Estado: ‚ö° Operaci√≥n normal - Temperatura media")
    else:
        print(f"  - Estado: üî• ATENCI√ìN - Temperatura elevada")

# ============================================
# üíæ GUARDAR MODELOS ENTRENADOS
# ============================================
print("\nüíæ Guardando modelos...")

# Guardar scaler (normalizaci√≥n)
joblib.dump(scaler, 'scaler.pkl')
print("  ‚úÖ Scaler guardado como 'scaler.pkl'")

# Guardar PCA (opcional, para visualizaci√≥n)
joblib.dump(pca, 'pca.pkl')
print("  ‚úÖ PCA guardado como 'pca.pkl'")

# Guardar modelo K-Means
joblib.dump(kmeans_final, 'kmeans.pkl')
print("  ‚úÖ K-Means guardado como 'kmeans.pkl'")

print("\n‚úÖ Todos los modelos guardados con √©xito!")
print("üìù Estos archivos se pueden usar para hacer predicciones en nuevos datos")


## 4. Predicci√≥n en Tiempo Real

Ahora simularemos c√≥mo usar los modelos guardados para predecir el cluster de nuevas lecturas de sensores. Esto es √∫til para:
- Sistemas de monitoreo en tiempo real
- Detecci√≥n de anomal√≠as
- Alertas autom√°ticas


In [None]:
# ============================================
# üìä AN√ÅLISIS DETALLADO CON BOXPLOT
# ============================================

# Preparar datos en formato largo para visualizaci√≥n
df_largo = df.melt(id_vars=['Cluster'],
                   value_vars=columnas,
                   var_name='Sensor',
                   value_name='Temperatura')

# Crear boxplot por cluster
plt.figure(figsize=(14, 6))
sns.boxplot(x='Cluster', y='Temperatura', data=df_largo,
            palette=colores, showfliers=False)
plt.title('üìä Distribuci√≥n de Temperaturas por Cluster',
         fontsize=14, fontweight='bold')
plt.xlabel('Cluster', fontsize=12)
plt.ylabel('Temperatura (¬∞C)', fontsize=12)
plt.grid(True, alpha=0.3, axis='y')
plt.tight_layout()
plt.show()

# ============================================
# üéª VIOLINPLOT PARA VER DISTRIBUCIONES
# ============================================
plt.figure(figsize=(14, 6))
sns.violinplot(x='Cluster', y='Temperatura', data=df_largo,
               palette=colores[:len(conteo_clusters)])
plt.title('üéª Distribuci√≥n Detallada de Temperaturas por Cluster',
         fontsize=14, fontweight='bold')
plt.xlabel('Cluster', fontsize=12)
plt.ylabel('Temperatura (¬∞C)', fontsize=12)
plt.grid(True, alpha=0.3, axis='y')
plt.tight_layout()
plt.show()

# ============================================
# üî• HEATMAP DE TEMPERATURAS MEDIAS
# ============================================
plt.figure(figsize=(10, 6))
sns.heatmap(medias_por_cluster, annot=True, fmt='.1f', cmap='YlOrRd',
           cbar_kws={'label': 'Temperatura (¬∞C)'})
plt.title('üî• Mapa de Calor: Temperatura Media por Cluster y Sensor',
         fontsize=14, fontweight='bold')
plt.xlabel('Sensor', fontsize=12)
plt.ylabel('Cluster', fontsize=12)
plt.tight_layout()
plt.show()

print("\n‚úÖ Visualizaciones detalladas completadas")


## 5. Conclusiones y Recomendaciones

### üéì Conceptos Aprendidos

En este notebook hemos explorado el **aprendizaje no supervisado** aplicado a datos industriales reales. Los conceptos clave incluyen:

#### 1. **K-Means Clustering**
- Algoritmo particional que agrupa datos similares
- Requiere especificar el n√∫mero de clusters (k)
- Sensible a la escala de los datos (requiere normalizaci√≥n)
- Iterativo: asigna puntos ‚Üí calcula centroides ‚Üí repite

#### 2. **Determinaci√≥n del N√∫mero √ìptimo de Clusters**
- **M√©todo del Codo**: Busca el punto donde la inercia deja de disminuir significativamente
- **Coeficiente de Silueta**: Mide qu√© tan bien cada punto est√° asignado a su cluster (rango: -1 a 1)
- Valores de silueta > 0.5 indican buen clustering

#### 3. **PCA (An√°lisis de Componentes Principales)**
- T√©cnica de reducci√≥n de dimensionalidad
- Encuentra direcciones de m√°xima varianza
- Permite visualizar datos de alta dimensi√≥n en 2D/3D
- Preserva la mayor informaci√≥n posible

### üè≠ Aplicaciones Industriales

Los resultados de este an√°lisis tienen aplicaciones pr√°cticas importantes:

#### **Mantenimiento Predictivo**
- Detectar patrones que preceden a fallos
- Identificar estados operacionales an√≥malos
- Programar mantenimiento basado en condici√≥n

#### **Optimizaci√≥n de Procesos**
- Identificar estados operacionales √≥ptimos
- Reducir consumo energ√©tico
- Maximizar eficiencia del equipo

#### **Monitoreo en Tiempo Real**
- Sistema de alertas autom√°ticas
- Detecci√≥n temprana de anomal√≠as
- Respuesta r√°pida a condiciones cr√≠ticas

#### **Optimizaci√≥n de Sensores**
- Identificar sensores redundantes
- Reducir costos de instrumentaci√≥n
- Mantener cobertura de monitoreo adecuada

### üìä Resultados Clave de este An√°lisis

1. **Clusters Identificados**: Se encontraron 4 grupos principales de estados operacionales
2. **Interpretaci√≥n**:
   - **Cluster 0**: Operaci√≥n normal con temperaturas medias (~45¬∞C)
   - **Cluster 1**: Operaci√≥n con temperaturas elevadas (~61¬∞C) - requiere atenci√≥n
   - **Cluster 2**: Sensores inactivos (0¬∞C) - posible falla
   - **Cluster 3**: Operaci√≥n con temperaturas bajas (~30¬∞C)

3. **Correlaci√≥n de Sensores**: An√°lisis jer√°rquico muestra qu√© sensores tienen comportamiento similar

### üöÄ Pr√≥ximos Pasos Recomendados

#### **A Corto Plazo**
1. Implementar sistema de alertas autom√°ticas en producci√≥n
2. Validar clusters con expertos del dominio
3. Establecer umbrales de temperatura para cada cluster

#### **A Mediano Plazo**
1. An√°lisis temporal: estudiar evoluci√≥n de clusters en el tiempo
2. Implementar modelos adicionales:
   - **DBSCAN**: Para detectar clusters de forma arbitraria
   - **Isolation Forest**: Para detecci√≥n de anomal√≠as
   - **One-Class SVM**: Para identificar outliers
3. Integrar con sistemas SCADA/MES existentes

#### **A Largo Plazo**
1. Desarrollo de gemelo digital del proceso
2. Optimizaci√≥n autom√°tica de par√°metros operacionales
3. Predicci√≥n de vida √∫til del equipo
4. Integraci√≥n con mantenimiento preventivo programado

### üìö Recursos Adicionales

**Librer√≠as Utilizadas:**
- `scikit-learn`: Machine Learning
- `pandas`: Manipulaci√≥n de datos
- `matplotlib/seaborn`: Visualizaci√≥n
- `scipy`: An√°lisis cient√≠fico
- `joblib`: Persistencia de modelos

**Para Profundizar:**
- [Documentaci√≥n de scikit-learn](https://scikit-learn.org/)
- [Clustering en Machine Learning](https://scikit-learn.org/stable/modules/clustering.html)
- [PCA Explicado](https://scikit-learn.org/stable/modules/decomposition.html#pca)

### üí° Consejos Finales

1. **Siempre normaliza** los datos antes de aplicar K-Means
2. **No conf√≠es ciegamente** en m√©tricas autom√°ticas - valida con expertos
3. **Visualiza** los resultados desde m√∫ltiples perspectivas
4. **Documenta** las decisiones y par√°metros utilizados
5. **Itera** - el an√°lisis de datos es un proceso iterativo

---

## ‚úÖ Notebook Completado

Has aprendido a aplicar t√©cnicas de aprendizaje no supervisado a datos industriales reales. Estos m√©todos son fundamentales para:
- Descubrir patrones ocultos en los datos
- Tomar decisiones basadas en datos
- Optimizar procesos industriales
- Implementar mantenimiento predictivo

**¬°Felicidades por completar este an√°lisis!** üéâ
