# Cargando Datos Consolidados del Dataset CoSiBD

Este notebook demuestra c√≥mo cargar y utilizar los archivos consolidados del dataset de se√±ales.

**Estructura del Dataset:**
- `signals_high_resolution_5000.[npz|txt|json]` - 2500 se√±ales de 5000 muestras
- `signals_subsampled_simple_{size}.[npz|txt|json]` - Versiones submuestreadas (150, 250, 500, 1000)
- `signals_subsampled_filtered_{size}.[npz|txt|json]` - Versiones con filtro anti-aliasing
- `signals_metadata.json` - Metadata de todas las se√±ales
- `dataset_summary.json` - Resumen del dataset
- `filtering_info.json` - Informaci√≥n sobre filtros aplicados

In [None]:
# Importar librer√≠as necesarias
import numpy as np
import json
import matplotlib.pyplot as plt
from pathlib import Path
from collections import Counter

# Configurar visualizaci√≥n
plt.style.use('seaborn-v0_8-darkgrid')
%matplotlib inline

## 1Ô∏è‚É£ Cargar Se√±ales de Alta Resoluci√≥n (5000 muestras)

Vamos a cargar el archivo NPZ que contiene todas las 2500 se√±ales de alta resoluci√≥n.

In [None]:
# Ruta base del dataset
base_path = Path("SignalBuilderC/data")

# Cargar se√±ales de alta resoluci√≥n
data_hr = np.load(base_path / "signals_high_resolution_5000.npz")

# Extraer arrays
signals_hr = data_hr['signals']  # Se√±ales con ruido
t_hr = data_hr['t']              # Array de tiempo
clean_signals_hr = data_hr['clean_signals']  # Se√±ales sin ruido

print(f"üìä Dataset de Alta Resoluci√≥n:")
print(f"  ‚Ä¢ Forma de signals: {signals_hr.shape}")
print(f"  ‚Ä¢ Forma de tiempo: {t_hr.shape}")
print(f"  ‚Ä¢ N√∫mero de se√±ales: {signals_hr.shape[0]}")
print(f"  ‚Ä¢ Muestras por se√±al: {signals_hr.shape[1]}")
print(f"  ‚Ä¢ Se√±ales limpias disponibles: {clean_signals_hr is not None}")
print(f"\nüìà Estad√≠sticas:")
print(f"  ‚Ä¢ Media: {np.mean(signals_hr):.6f}")
print(f"  ‚Ä¢ Desviaci√≥n est√°ndar: {np.std(signals_hr):.6f}")
print(f"  ‚Ä¢ Min: {np.min(signals_hr):.6f}")
print(f"  ‚Ä¢ Max: {np.max(signals_hr):.6f}")

### Visualizar una se√±al individual

Accedemos a una se√±al espec√≠fica por su √≠ndice (fila en el array).

In [None]:
# Seleccionar se√±al por √≠ndice
signal_idx = 42
signal = signals_hr[signal_idx]
clean_signal = clean_signals_hr[signal_idx]

# Visualizar
fig, (ax1, ax2) = plt.subplots(2, 1, figsize=(14, 8))

# Se√±al con ruido
ax1.plot(t_hr, signal, 'b-', linewidth=0.8, alpha=0.8)
ax1.set_title(f'Se√±al {signal_idx} - Con Ruido', fontsize=14, fontweight='bold')
ax1.set_xlabel('Tiempo')
ax1.set_ylabel('Amplitud')
ax1.grid(True, alpha=0.3)

# Se√±al limpia
ax2.plot(t_hr, clean_signal, 'g-', linewidth=0.8)
ax2.set_title(f'Se√±al {signal_idx} - Sin Ruido (Clean)', fontsize=14, fontweight='bold')
ax2.set_xlabel('Tiempo')
ax2.set_ylabel('Amplitud')
ax2.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print(f"‚úÖ Se√±al {signal_idx} visualizada (5000 muestras)")

## 2Ô∏è‚É£ Cargar Metadata de las Se√±ales

El archivo `signals_metadata.json` contiene todos los par√°metros de generaci√≥n para cada se√±al.

In [None]:
# Cargar metadata
with open(base_path / "signals_metadata.json", 'r') as f:
    metadata = json.load(f)

print(f"üìã Metadata cargada:")
print(f"  ‚Ä¢ Total de entradas: {len(metadata)}")
print(f"\nüîç Metadata de la se√±al {signal_idx}:")

meta = metadata[signal_idx]
print(f"  ‚Ä¢ Signal ID: {meta['signal_id']}")
print(f"  ‚Ä¢ Seed: {meta['seed']}")
print(f"  ‚Ä¢ √çndice: {meta['index']}")
print(f"  ‚Ä¢ Tipo de ruido: {meta['noise_profile']['noise_type']}")
print(f"  ‚Ä¢ Tipo de spline (amplitud): {meta['amplitude_spline_type']}")
print(f"  ‚Ä¢ Tau frecuencia: {meta['tau_frequency']:.4f}")
print(f"  ‚Ä¢ Tau amplitud: {meta['tau_amplitude']}")
print(f"  ‚Ä¢ Offset vertical: {meta['vertical_offset']:.4f}")

### Estad√≠sticas del Dataset

Analicemos la distribuci√≥n de tipos de ruido y splines en el dataset.

In [None]:
# Contar distribuci√≥n de tipos
noise_types = [m['noise_profile']['noise_type'] for m in metadata]
spline_types = [m['amplitude_spline_type'] for m in metadata]

noise_counts = Counter(noise_types)
spline_counts = Counter(spline_types)

# Visualizar
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(14, 5))

# Distribuci√≥n de ruido
noise_labels = list(noise_counts.keys())
noise_values = list(noise_counts.values())
ax1.bar(noise_labels, noise_values, color=['#1f77b4', '#ff7f0e', '#2ca02c'])
ax1.set_title('Distribuci√≥n de Tipos de Ruido', fontsize=14, fontweight='bold')
ax1.set_ylabel('N√∫mero de Se√±ales')
for i, v in enumerate(noise_values):
    ax1.text(i, v + 20, f'{v}\n({100*v/len(metadata):.1f}%)', 
             ha='center', va='bottom', fontweight='bold')

# Distribuci√≥n de splines
spline_labels = list(spline_counts.keys())
spline_values = list(spline_counts.values())
ax2.bar(spline_labels, spline_values, color=['#d62728', '#9467bd'])
ax2.set_title('Distribuci√≥n de Tipos de Spline (Amplitud)', fontsize=14, fontweight='bold')
ax2.set_ylabel('N√∫mero de Se√±ales')
for i, v in enumerate(spline_values):
    ax2.text(i, v + 20, f'{v}\n({100*v/len(metadata):.1f}%)', 
             ha='center', va='bottom', fontweight='bold')

plt.tight_layout()
plt.show()

print("üìä Distribuciones calculadas")

## 3Ô∏è‚É£ Cargar Se√±ales para Super-Resoluci√≥n

Cargamos pares de se√±ales de baja y alta resoluci√≥n para tareas de super-resoluci√≥n.

In [None]:
# Cargar se√±ales de baja resoluci√≥n (1000 muestras) y alta resoluci√≥n (5000 muestras)
data_lr = np.load(base_path / "signals_subsampled_simple_1000.npz")
signals_lr = data_lr['signals']
t_lr = data_lr['t']

print(f"üéØ Pares para Super-Resoluci√≥n:")
print(f"  ‚Ä¢ Baja resoluci√≥n (LR): {signals_lr.shape}")
print(f"  ‚Ä¢ Alta resoluci√≥n (HR): {signals_hr.shape}")
print(f"  ‚Ä¢ Factor de upsampling: {signals_hr.shape[1] // signals_lr.shape[1]}x")
print(f"\n‚úÖ Cada se√±al LR corresponde a la misma se√±al HR en el mismo √≠ndice")

### Visualizar comparaci√≥n LR vs HR

In [None]:
# Comparar la misma se√±al en ambas resoluciones
idx = 100

plt.figure(figsize=(14, 6))
plt.plot(t_lr, signals_lr[idx], 'ro-', linewidth=1.5, markersize=3, 
         label=f'Baja Resoluci√≥n (1000 muestras)', alpha=0.7)
plt.plot(t_hr, signals_hr[idx], 'b-', linewidth=0.8, 
         label=f'Alta Resoluci√≥n (5000 muestras)', alpha=0.6)
plt.title(f'Comparaci√≥n LR vs HR - Se√±al {idx}', fontsize=14, fontweight='bold')
plt.xlabel('Tiempo')
plt.ylabel('Amplitud')
plt.legend(fontsize=11)
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

print(f"‚úÖ Se√±al {idx} comparada: {signals_lr.shape[1]} ‚Üí {signals_hr.shape[1]} muestras")

## 4Ô∏è‚É£ Crear Divisi√≥n Train/Validation

Dividimos el dataset en conjuntos de entrenamiento y validaci√≥n.

In [None]:
# Funci√≥n para crear split
def create_train_val_split(signals, train_ratio=0.8, random_seed=42):
    np.random.seed(random_seed)
    num_signals = signals.shape[0]
    indices = np.arange(num_signals)
    np.random.shuffle(indices)
    
    split_idx = int(num_signals * train_ratio)
    train_indices = indices[:split_idx]
    val_indices = indices[split_idx:]
    
    return signals[train_indices], signals[val_indices], train_indices, val_indices

# Crear splits (80% train, 20% validation)
train_hr, val_hr, train_idx, val_idx = create_train_val_split(signals_hr, 0.8, 42)
train_lr, val_lr, _, _ = create_train_val_split(signals_lr, 0.8, 42)

print(f"üìö Divisi√≥n Train/Validation:")
print(f"\n  Entrenamiento:")
print(f"    ‚Ä¢ LR: {train_lr.shape}")
print(f"    ‚Ä¢ HR: {train_hr.shape}")
print(f"\n  Validaci√≥n:")
print(f"    ‚Ä¢ LR: {val_lr.shape}")
print(f"    ‚Ä¢ HR: {val_hr.shape}")
print(f"\n  Proporci√≥n: {len(train_idx)}/{len(val_idx)} ({100*len(train_idx)/len(signals_hr):.0f}%/{100*len(val_idx)/len(signals_hr):.0f}%)")

## 5Ô∏è‚É£ Comparar Submuestreo Simple vs Filtrado

Comparamos las dos estrategias de submuestreo: re-evaluaci√≥n simple vs filtro anti-aliasing.

In [None]:
# Cargar ambas versiones (500 muestras)
data_simple = np.load(base_path / "signals_subsampled_simple_500.npz")
data_filtered = np.load(base_path / "signals_subsampled_filtered_500.npz")

signals_simple = data_simple['signals']
signals_filtered = data_filtered['signals']
t_500 = data_simple['t']

print(f"üî¨ Comparaci√≥n de m√©todos de submuestreo:")
print(f"  ‚Ä¢ Simple (re-evaluaci√≥n): {signals_simple.shape}")
print(f"  ‚Ä¢ Filtrado (anti-aliasing): {signals_filtered.shape}")

In [None]:
# Comparar se√±al espec√≠fica
idx = 50

fig, axes = plt.subplots(3, 1, figsize=(14, 10))

# Alta resoluci√≥n (referencia)
axes[0].plot(t_hr, signals_hr[idx], 'k-', linewidth=0.8, alpha=0.6)
axes[0].set_title(f'Se√±al {idx} - Alta Resoluci√≥n (5000 muestras)', fontsize=12, fontweight='bold')
axes[0].set_ylabel('Amplitud')
axes[0].grid(True, alpha=0.3)

# Submuestreo simple
axes[1].plot(t_500, signals_simple[idx], 'ro-', linewidth=1.2, markersize=2.5)
axes[1].set_title('Submuestreo Simple - Re-evaluaci√≥n (500 muestras)', fontsize=12, fontweight='bold')
axes[1].set_ylabel('Amplitud')
axes[1].grid(True, alpha=0.3)

# Submuestreo filtrado
axes[2].plot(t_500, signals_filtered[idx], 'go-', linewidth=1.2, markersize=2.5)
axes[2].set_title('Submuestreo Filtrado - Anti-aliasing (500 muestras)', fontsize=12, fontweight='bold')
axes[2].set_xlabel('Tiempo')
axes[2].set_ylabel('Amplitud')
axes[2].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

# Calcular diferencias
diff = np.abs(signals_simple[idx] - signals_filtered[idx])
print(f"\nüìä Diferencia entre m√©todos (se√±al {idx}):")
print(f"  ‚Ä¢ Diferencia media: {np.mean(diff):.6f}")
print(f"  ‚Ä¢ Diferencia m√°xima: {np.max(diff):.6f}")
print(f"  ‚Ä¢ Diferencia m√≠nima: {np.min(diff):.6f}")

## 6Ô∏è‚É£ Cargar M√∫ltiples Resoluciones

El dataset incluye 4 niveles de submuestreo. Carguemos todos para ver las diferencias.

In [None]:
# Cargar todas las resoluciones
resolutions = [150, 250, 500, 1000, 5000]
all_signals = {}
all_times = {}

for res in resolutions:
    if res == 5000:
        all_signals[res] = signals_hr
        all_times[res] = t_hr
    else:
        data = np.load(base_path / f"signals_subsampled_simple_{res}.npz")
        all_signals[res] = data['signals']
        all_times[res] = data['t']

print(f"üì¶ Resoluciones cargadas:")
for res in resolutions:
    upsampling = 5000 // res
    print(f"  ‚Ä¢ {res} muestras: {all_signals[res].shape} (factor {upsampling}x)")

In [None]:
# Visualizar todas las resoluciones de una misma se√±al
idx = 75

fig, axes = plt.subplots(5, 1, figsize=(14, 14))

for i, res in enumerate(resolutions):
    axes[i].plot(all_times[res], all_signals[res][idx], 
                 'o-' if res < 5000 else '-', 
                 linewidth=1.2 if res < 5000 else 0.8,
                 markersize=3 if res < 5000 else 0,
                 alpha=0.7)
    upsampling = 5000 // res
    axes[i].set_title(f'{res} muestras (factor {upsampling}√ó)', 
                      fontsize=11, fontweight='bold')
    axes[i].set_ylabel('Amplitud')
    axes[i].grid(True, alpha=0.3)
    
axes[-1].set_xlabel('Tiempo')
plt.suptitle(f'Se√±al {idx} en Diferentes Resoluciones', fontsize=14, fontweight='bold', y=0.995)
plt.tight_layout()
plt.show()

print(f"‚úÖ Se√±al {idx} visualizada en todas las resoluciones")

## 7Ô∏è‚É£ Resumen del Dataset

Informaci√≥n consolidada sobre el dataset completo.

In [None]:
# Cargar resumen del dataset
with open(base_path / "dataset_summary.json", 'r') as f:
    summary = json.load(f)

print("=" * 80)
print("üìä RESUMEN DEL DATASET CoSiBD")
print("=" * 80)
print(f"\nüéØ Informaci√≥n General:")
print(f"  ‚Ä¢ Total de se√±ales: {summary['num_signals']}")
print(f"  ‚Ä¢ Dominio temporal: [{summary['high_resolution']['t_start']}, {summary['high_resolution']['t_end']:.4f}]")
print(f"  ‚Ä¢ Frecuencia de muestreo alta: {summary['high_resolution']['fs']:.2f} Hz")
print(f"  ‚Ä¢ Muestras de alta resoluci√≥n: {summary['high_resolution']['num_samples']}")

print(f"\nüì¶ Tama√±os de submuestreo disponibles:")
for size in summary['subsample_sizes']:
    upsampling = 5000 // size
    print(f"  ‚Ä¢ {size} muestras (factor {upsampling}√ó)")

print(f"\nüîä Configuraci√≥n de ruido:")
print(f"  ‚Ä¢ Probabilidad: {summary['noise_config']['probability']*100:.0f}%")
print(f"  ‚Ä¢ Tipo: {summary['noise_config']['type']}")
print(f"  ‚Ä¢ STD relativa (Gaussiano): {summary['noise_config']['gaussian_std_relative']}")

print(f"\nüå± Semillas:")
print(f"  ‚Ä¢ Semilla base: {summary['base_seed']}")
print(f"  ‚Ä¢ Rango: {summary['base_seed']} - {summary['base_seed'] + summary['num_signals'] - 1}")

print(f"\nüìÅ Estructura de archivos:")
print(f"  ‚Ä¢ Alta resoluci√≥n: {summary['file_structure']['high_resolution']}")
print(f"  ‚Ä¢ Submuestreo simple: {summary['file_structure']['simple_subsampled']}")
print(f"  ‚Ä¢ Submuestreo filtrado: {summary['file_structure']['filtered_subsampled']}")
print(f"  ‚Ä¢ Metadata: {summary['file_structure']['metadata']}")

print(f"\nüíæ Formatos de datos:")
for fmt, desc in summary['data_format'].items():
    print(f"  ‚Ä¢ {fmt}: {desc}")

print("=" * 80)

## ‚úÖ Conclusi√≥n

Este notebook ha demostrado c√≥mo:
1. ‚úÖ Cargar se√±ales de alta resoluci√≥n desde archivos NPZ consolidados
2. ‚úÖ Acceder a metadata de todas las se√±ales
3. ‚úÖ Cargar pares LR/HR para tareas de super-resoluci√≥n
4. ‚úÖ Crear divisiones train/validation
5. ‚úÖ Comparar submuestreo simple vs filtrado
6. ‚úÖ Trabajar con m√∫ltiples resoluciones simult√°neamente
7. ‚úÖ Entender la estructura completa del dataset

**Ventajas del formato consolidado:**
- üì¶ Menos archivos (30 archivos vs ~67,500)
- ‚ö° Carga m√°s r√°pida (`np.load()` una sola vez)
- üéØ Acceso directo por √≠ndice
- üíæ Mejor organizaci√≥n y transferencia