# An√°lisis de Clustering en Datos preprocesados con FFT
### Objetivo
Implementar an√°lisis de clustering en el dominio de frecuencia para verificar si existe separaci√≥n evidente entre las clases de da√±o (N1, N2, N3) usando pares sincronizados de se√±ales (S2, S1).

### Contexto del Proyecto
#### Estado Actual
- Datos raw: 34 espec√≠menes, cada uno con 1-3 mediciones (pares S1/S2)
- Etiquetas: nivel_damage.csv mapea espec√≠menes ‚Üí {N1: 18, N2: 12, N3: 4}

#### Concepto Clave
- **1 datapoint = 1 par (S2, S1)** de una medici√≥n sincronizada
- El da√±o se manifiesta en la **relaci√≥n entre S2 y S1**, no en se√±ales individuales
- S2 = excitaci√≥n basal, S1 = respuesta estructural filtrada por el aislador

In [1]:
import sys
import os

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')


# Configuraci√≥n de plots
plt.style.use('seaborn-v0_8')
plt.rcParams['figure.figsize'] = [12, 8]
plt.rcParams['font.size'] = 12

print("üì¶ Librer√≠as cargadas correctamente")

üì¶ Librer√≠as cargadas correctamente


## üìä Paso 1: Cargar Pares de Se√±ales (S2, S1)

En este paso cargamos las se√±ales raw de vibraci√≥n de cada esp√©cimen como **pares sincronizados** (S2, S1).

### ¬øPor qu√© emparejar S2 y S1?

En Structural Health Monitoring (SHM), un aislador s√≠smico funciona como un **sistema din√°mico input-output**:

```
S2 (base) ‚Üí [AISLADOR] ‚Üí S1 (superior)
```

- **S2 (S√≥tano 2)**: Mide la vibraci√≥n en la base del aislador (excitaci√≥n)
- **S1 (S√≥tano 1)**: Mide la vibraci√≥n sobre el aislador (respuesta filtrada)

**El da√±o NO se detecta mirando S1 o S2 por separado**, sino en **c√≥mo cambia la relaci√≥n entre ellos**:
- **Aislador sano**: Aten√∫a ciertas frecuencias (S1 < S2 en bandas espec√≠ficas)
- **Aislador da√±ado**: Amplifica an√≥malamente, cambian frecuencias dominantes, aparecen arm√≥nicos

Por eso tratamos cada medici√≥n como **UN solo datapoint** = par (S2, S1).

In [2]:
# Importar funci√≥n de utilidades
sys.path.append('../utils')
from clustering_utils import load_paired_signals_for_clustering

# Configurar rutas
SIGNALS_DIR = '../../data/Signals_Raw/'
LABELS_CSV = '../../data/nivel_damage.csv'

print("üîß Configuraci√≥n:")
print(f"   üìÇ Directorio de se√±ales: {SIGNALS_DIR}")
print(f"   üìã Archivo de etiquetas: {LABELS_CSV}")
print(f"   üéØ Espec√≠menes a cargar: Solo base (A1, A2, ... sin -2, -3)")

üîß Configuraci√≥n:
   üìÇ Directorio de se√±ales: ../../data/Signals_Raw/
   üìã Archivo de etiquetas: ../../data/nivel_damage.csv
   üéØ Espec√≠menes a cargar: Solo base (A1, A2, ... sin -2, -3)


In [3]:
# Cargar pares de se√±ales (S2, S1)
paired_data = load_paired_signals_for_clustering(
    signals_dir=SIGNALS_DIR,
    labels_csv=LABELS_CSV,
    base_specimens_only=True,  # Solo espec√≠menes base (1 medici√≥n por aislador)
    target_length=60000,       # Estandarizar a 60,000 muestras (10 min @ 100Hz)
    verbose=True               # Mostrar progreso detallado
)

print(f"\n‚úÖ Pares cargados exitosamente: {len(paired_data)}")

üìã PASO 1: Cargando etiquetas...
   ‚úì Cargadas etiquetas para 34 espec√≠menes

üìÇ PASO 2: Escaneando directorio ../../data/Signals_Raw/...
   ‚úì Filtrado a 14 espec√≠menes base (sin variantes -2, -3)

üîÑ PASO 3: Cargando pares (S2, S1)...
   ‚úì A1: 60,000 muestras ‚Üí 60,000 (sin cambios) | N1 | Tipo B
   ‚úì A10: 60,000 muestras ‚Üí 60,000 (sin cambios) | N2 | Tipo C
   ‚úì A11: 60,000 muestras ‚Üí 60,000 (sin cambios) | N2 | Tipo C
   ‚úì A12: 60,000 muestras ‚Üí 60,000 (sin cambios) | N1 | Tipo C
   ‚úì A13: 60,000 muestras ‚Üí 60,000 (sin cambios) | N1 | Tipo C
   ‚úì A14: 60,000 muestras ‚Üí 60,000 (sin cambios) | N1 | Tipo B
   ‚úì A2: 60,000 muestras ‚Üí 60,000 (sin cambios) | N1 | Tipo B
   ‚úì A3: 58,699 muestras ‚Üí 60,000 (padded) | N1 | Tipo C
   ‚úì A4: 60,000 muestras ‚Üí 60,000 (sin cambios) | N1 | Tipo B
   ‚úì A5: 59,899 muestras ‚Üí 60,000 (padded) | N3 | Tipo A
   ‚úì A6: 60,000 muestras ‚Üí 60,000 (sin cambios) | N3 | Tipo A
   ‚úì A7: 60,000 muestras ‚Üí 

### üîç Inspecci√≥n de los Datos Cargados

Verifiquemos la estructura de los datos cargados y confirmemos que todo est√° correcto.

In [None]:
# Inspeccionar el primer par cargado
print("üìã ESTRUCTURA DE UN PAR (ejemplo con el primer esp√©cimen):")
print("=" * 60)

first_pair = paired_data[0]

print(f"üÜî Specimen ID: {first_pair['specimen_id']}")
print(f"üè∑Ô∏è  Nivel de da√±o: {first_pair['nivel_dano']}")
print(f"üîß Tipo de aislador: {first_pair['tipo']}")
print(f"üìè Longitud original: {first_pair['original_length']:,} muestras")
print(f"\nüìä Se√±al S2 (S√≥tano 2 - Base):")
print(f"   Shape: {first_pair['signal_S2'].shape}")
print(f"   Ejes: [N-S, E-W, U-D]")
print(f"   Min: [{first_pair['signal_S2'][:, 0].min():.6f}, {first_pair['signal_S2'][:, 1].min():.6f}, {first_pair['signal_S2'][:, 2].min():.6f}]")
print(f"   Max: [{first_pair['signal_S2'][:, 0].max():.6f}, {first_pair['signal_S2'][:, 1].max():.6f}, {first_pair['signal_S2'][:, 2].max():.6f}]")

print(f"\nüìä Se√±al S1 (S√≥tano 1 - Superior):")
print(f"   Shape: {first_pair['signal_S1'].shape}")
print(f"   Ejes: [N-S, E-W, U-D]")
print(f"   Min: [{first_pair['signal_S1'][:, 0].min():.6f}, {first_pair['signal_S1'][:, 1].min():.6f}, {first_pair['signal_S1'][:, 2].min():.6f}]")
print(f"   Max: [{first_pair['signal_S1'][:, 0].max():.6f}, {first_pair['signal_S1'][:, 1].max():.6f}, {first_pair['signal_S1'][:, 2].max():.6f}]")

print("=" * 60)

In [None]:
# Crear DataFrame resumen de todos los pares cargados
summary_df = pd.DataFrame([
    {
        'Specimen_ID': pair['specimen_id'],
        'Nivel_Dano': pair['nivel_dano'],
        'Tipo': pair['tipo'],
        'Long_Original': pair['original_length'],
        'Long_Estandarizada': pair['signal_S2'].shape[0],
        'S2_RMS_NS': np.sqrt(np.mean(pair['signal_S2'][:, 0]**2)),
        'S1_RMS_NS': np.sqrt(np.mean(pair['signal_S1'][:, 0]**2))
    }
    for pair in paired_data
])

print("\nüìä RESUMEN DE TODOS LOS PARES CARGADOS:")
print(summary_df.to_string(index=False))

print(f"\n‚úÖ PASO 1 COMPLETADO")
print(f"   ‚Ä¢ {len(paired_data)} pares (S2, S1) cargados y estandarizados")
print(f"   ‚Ä¢ Distribuci√≥n: {summary_df['Nivel_Dano'].value_counts().to_dict()}")
print(f"   ‚Ä¢ Todas las se√±ales estandarizadas a 60,000 muestras")