In [16]:
%%writefile data/README_data.md
# Informaci√≥n del Dataset AI4I
Dataset utilizado para clustering.
Link oficial: https://archive.ics.uci.edu/dataset/601/ai4i+2020+predictive+maintenance+dataset

Overwriting data/README_data.md


In [17]:
%%writefile requirements.txt
pandas
numpy
scikit-learn
matplotlib
seaborn

Overwriting requirements.txt


In [18]:
%%writefile src/preprocessing.py
import pandas as pd
from sklearn.preprocessing import StandardScaler

def load_and_scale(df):
    scaler = StandardScaler()
    X_scaled = scaler.fit_transform(df)
    return X_scaled

Overwriting src/preprocessing.py


In [19]:
%%writefile src/kmeans_model.py
from sklearn.cluster import KMeans

def apply_kmeans(X, n_clusters=4):
    km = KMeans(n_clusters=n_clusters, random_state=42)
    labels = km.fit_predict(X)
    return labels, km


Overwriting src/kmeans_model.py


In [20]:
%%writefile src/dbscan_model.py
from sklearn.cluster import DBSCAN

def apply_dbscan(X, eps=0.6, min_samples=5):
    db = DBSCAN(eps=eps, min_samples=min_samples)
    labels = db.fit_predict(X)
    return labels, db

Overwriting src/dbscan_model.py


In [21]:
%%writefile src/dimensionality_reduction.py
from sklearn.decomposition import PCA
from sklearn.manifold import TSNE

def apply_pca(X, n_components=2):
    return PCA(n_components=n_components).fit_transform(X)

def apply_tsne(X, n_components=2):
    return TSNE(n_components=n_components, random_state=42).fit_transform(X)

Overwriting src/dimensionality_reduction.py


In [24]:
%%writefile README.md
# Proyecto de Clustering con Dataset AI4I

# Proyecto: Segmentaci√≥n de M√°quinas Industriales con M√©todos No Supervisados (AI4I 2020)

## üéØ Objetivo
Implementar y analizar modelos de aprendizaje no supervisado (K-Means, DBSCAN, PCA y t-SNE) para segmentar perfiles operativos en un entorno tecnol√≥gico industrial.
El prop√≥sito es identificar patrones, detectar anomal√≠as y visualizar los resultados de forma clara y t√©cnica.

---

## üìÇ 1. Preparaci√≥n del entorno
El proyecto fue desarrollado en **Python 3.9+** usando Google Colab.

**Librer√≠as utilizadas:**
- pandas
- numpy
- matplotlib
- seaborn
- scikit-learn

---

## üìä 2. Dataset

Se us√≥ el dataset **AI4I 2020 Predictive Maintenance**, validado por el docente.

Link oficial:
https://archive.ics.uci.edu/dataset/601/ai4i+2020+predictive+maintenance+dataset

Variables utilizadas:
- Air temperature \[K\]
- Process temperature \[K\]
- Rotational speed \[rpm\]
- Torque \[Nm\]
- Tool wear \[min\]

Estas variables representan el comportamiento f√≠sico de las m√°quinas y permiten construir perfiles operativos.

---

## üîç 3. An√°lisis Exploratorio (EDA)

Incluye:

- Estad√≠sticos descriptivos
- Distribuciones y pairplots
- Heatmap de correlaciones
- Eliminaci√≥n de columnas irrelevantes (UDI, Product ID, Type)
- Escalado con StandardScaler

Hallazgos:
- Fuerte correlaci√≥n entre temperaturas del aire y del proceso
- Alta dispersi√≥n en torque y velocidad ‚Üí ideal para clustering
- Diferencias operativas claras en desgaste de herramienta

---

## ü§ñ 4. Implementaci√≥n de Modelos

### üîπ 4.1 K-Means
- Se evalu√≥ k entre 2 y 10 (m√©todo del codo + √≠ndice silhouette).
- El mejor valor fue **k = 4**.
- Los clusters representan diferentes perfiles de operaci√≥n industrial.

### üîπ 4.2 DBSCAN
- Ajuste mediante eps y min_samples
- Detect√≥:
  - 1 cluster principal
  - varios grupos peque√±os
  - outliers catalogados como -1
- √ötil para identificar m√°quinas con comportamiento an√≥malo.

### üîπ 4.3 PCA
- Reducci√≥n a 2 componentes principales
- Permite visualizaci√≥n global de los grupos

### üîπ 4.4 t-SNE
- Proyecci√≥n no lineal
- Identifica microgrupos y estructura interna compleja

---

## üìà 5. Visualizaci√≥n de Resultados

Incluye:

- Comparaci√≥n entre K-Means y DBSCAN
- PCA 2D coloreado por cluster
- t-SNE coloreado
- Tabla resumen de perfiles
- Identificaci√≥n de centroides

---

## üß© 6. Perfiles Detectados (K-Means)

### **Cluster 0 ‚Äì Operaci√≥n Estable**
- Alta velocidad
- Torque medio
- Desgaste moderado

### **Cluster 1 ‚Äì Operaci√≥n Ligera**
- Torque bajo
- Velocidad baja
- M√≠nimo desgaste

### **Cluster 2 ‚Äì Operaci√≥n Mixta**
- Velocidad media
- Torque variable

### **Cluster 3 ‚Äì Uso Extremo**
- Alto torque
- Alto desgaste
- Riesgo potencial de falla

---

## üîÑ 7. Comparaci√≥n entre M√©todos

### ‚úî K-Means
- Grupos muy definidos
- Representaci√≥n consistente
- √ötil para clustering general

### ‚úî DBSCAN
- Detecta outliers naturalmente
- M√°s sensible a par√°metros
- Adecuado para identificar anomal√≠as

---

## ‚ö†Ô∏è Limitaciones

- PCA pierde estructura no lineal
- t-SNE requiere ajuste fino
- DBSCAN depende de eps y min_samples
- K-Means requiere elegir k previamente

---

## üìÅ Estructura del repositorio
Proyecto-Clustering-AI4I/
‚îÇ
‚îú‚îÄ‚îÄ data/
‚îú‚îÄ‚îÄ notebooks/
‚îú‚îÄ‚îÄ src/
‚îú‚îÄ‚îÄ figures/
‚îú‚îÄ‚îÄ results/
‚îú‚îÄ‚îÄ README.md
‚îî‚îÄ‚îÄ requirements.txt

## üöÄ Instrucciones de uso

Instalar dependencias:

pip install -r requirements.txt

## üë§ Autor
Angel Yambay M

Overwriting README.md
