# üìä Validaci√≥n Estad√≠stica Bayesiana - 141.7 Hz

**Autor:** Jos√© Manuel Mota Burruezo (JMMB Œ®‚úß)  
**Objetivo:** Validaci√≥n estad√≠stica rigurosa usando an√°lisis bayesiano  
**M√©todos:** Bayes Factor, p-values con time-slides, an√°lisis de incertidumbres

---

## üìö Introducci√≥n

Este cuaderno implementa una **validaci√≥n estad√≠stica rigurosa** de la detecci√≥n de la componente de 141.7 Hz en eventos de ondas gravitacionales. Utilizamos m√©todos bayesianos est√°ndar para cuantificar la significancia estad√≠stica de nuestros resultados.

### üéØ Objetivos

1. **Calcular Bayes Factor (BF)**: Comparar hip√≥tesis de se√±al vs. ruido
2. **Estimar p-values**: Usar time-slides para calcular probabilidades de falsa alarma
3. **An√°lisis de incertidumbres**: Propagar errores sistem√°ticos y estad√≠sticos
4. **Validaci√≥n cruzada**: Verificar consistencia entre detectores
5. **Visualizaci√≥n**: Mostrar distribuciones posteriores y regiones de credibilidad

### üìã Criterios de Validaci√≥n

Seg√∫n los est√°ndares de LIGO/Virgo:
- **BF > 10**: Evidencia fuerte a favor de la se√±al
- **p-value < 0.01**: Significancia estad√≠stica (99% de confianza)
- **Coherencia H1-L1**: Detecci√≥n en ambos detectores

### üî¨ Metodolog√≠a Bayesiana

El an√°lisis bayesiano actualiza nuestras creencias a priori sobre la presencia de una se√±al usando los datos observados:

$$P(\text{se√±al}|\text{datos}) = \frac{P(\text{datos}|\text{se√±al}) \cdot P(\text{se√±al})}{P(\text{datos})}$$

El **Bayes Factor** compara directamente las hip√≥tesis:

$$BF = \frac{P(\text{datos}|\text{se√±al})}{P(\text{datos}|\text{ruido})}$$


## üì¶ Paso 1: Importar Librer√≠as

Importamos las librer√≠as necesarias para el an√°lisis estad√≠stico.

In [None]:
# Importar librer√≠as
import numpy as np
import matplotlib.pyplot as plt
from scipy import signal, stats
from gwpy.timeseries import TimeSeries
import json
from pathlib import Path
import warnings
warnings.filterwarnings('ignore')

# Configurar estilo de gr√°ficos
plt.style.use('seaborn-v0_8-whitegrid')
plt.rcParams['figure.figsize'] = (12, 6)

print("‚úÖ Librer√≠as importadas correctamente")
print(f"   - NumPy versi√≥n: {np.__version__}")
print(f"   - SciPy versi√≥n: {stats.__version__}")

## üîß Paso 2: Definir Funciones de An√°lisis Estad√≠stico

Implementamos las funciones para calcular Bayes Factor y p-values.

In [None]:
def calculate_bayes_factor(signal_data, noise_data, target_freq, band_width=1.0):
    """
    Calcula el Bayes Factor para la detecci√≥n de una se√±al.
    
    Args:
        signal_data: Datos con posible se√±al
        noise_data: Datos de solo ruido (off-source)
        target_freq: Frecuencia objetivo (Hz)
        band_width: Ancho de banda (Hz)
    
    Returns:
        float: Bayes Factor (BF)
    """
    # Calcular espectros de potencia
    freqs_signal, psd_signal = signal.welch(signal_data, fs=4096, nperseg=4096)
    freqs_noise, psd_noise = signal.welch(noise_data, fs=4096, nperseg=4096)
    
    # Encontrar banda de inter√©s
    mask = (freqs_signal >= target_freq - band_width/2) & (freqs_signal <= target_freq + band_width/2)
    
    # Potencia en la banda para se√±al y ruido
    power_signal = np.mean(psd_signal[mask])
    power_noise = np.mean(psd_noise[mask])
    
    # Calcular likelihood ratio (aproximaci√≥n)
    # BF = P(data|signal) / P(data|noise)
    # Para se√±al gaussiana: BF ‚âà exp((power_signal - power_noise) / (2 * power_noise))
    bf = np.exp((power_signal - power_noise) / (2 * power_noise))
    
    return bf

def calculate_snr_bandpass(data, target_freq, band_width=2.0):
    """
    Calcula SNR usando filtro de banda pasante.
    
    Args:
        data: TimeSeries de gwpy
        target_freq: Frecuencia objetivo (Hz)
        band_width: Ancho de banda (Hz)
    
    Returns:
        float: SNR
    """
    # Aplicar filtro de banda pasante
    band_min = target_freq - band_width / 2
    band_max = target_freq + band_width / 2
    data_band = data.bandpass(band_min, band_max)
    
    # Calcular SNR
    signal_peak = np.max(np.abs(data_band.value))
    noise_std = np.std(data_band.value)
    snr = signal_peak / noise_std
    
    return snr

def estimate_pvalue_timeslides(data, target_freq, n_slides=100, slide_duration=1.0):
    """
    Estima p-value usando time-slides.
    
    Args:
        data: TimeSeries de gwpy
        target_freq: Frecuencia objetivo (Hz)
        n_slides: N√∫mero de time-slides
        slide_duration: Duraci√≥n del desplazamiento (s)
    
    Returns:
        float: p-value estimado
    """
    # Calcular SNR del evento real
    snr_real = calculate_snr_bandpass(data, target_freq)
    
    # Calcular distribuci√≥n de SNR para time-slides (ruido puro)
    snr_slides = []
    data_len = len(data.value)
    sample_rate = int(data.sample_rate.value)
    slide_samples = int(slide_duration * sample_rate)
    
    for i in range(n_slides):
        # Desplazar datos aleatoriamente
        shift = np.random.randint(slide_samples, data_len - slide_samples)
        data_shifted = np.roll(data.value, shift)
        
        # Crear TimeSeries desplazado
        data_ts = TimeSeries(data_shifted, sample_rate=sample_rate)
        
        # Calcular SNR del slide
        snr_slide = calculate_snr_bandpass(data_ts, target_freq)
        snr_slides.append(snr_slide)
    
    # Estimar p-value: fracci√≥n de slides con SNR >= SNR real
    p_value = np.sum(np.array(snr_slides) >= snr_real) / n_slides
    
    return p_value, snr_real, snr_slides

print("‚úÖ Funciones de an√°lisis estad√≠stico definidas")
print("   - calculate_bayes_factor()")
print("   - calculate_snr_bandpass()")
print("   - estimate_pvalue_timeslides()")

## üåê Paso 3: Descargar Datos de GW150914

Descargamos datos del evento (on-source) y datos de referencia (off-source) para comparaci√≥n.

In [None]:
# Par√°metros del evento GW150914
event_name = 'GW150914'
gps_merger = 1126259462.4  # Momento del merger

# Ventanas temporales
on_source_start = gps_merger - 16
on_source_end = gps_merger + 16
off_source_start = gps_merger - 200  # 200s antes del evento
off_source_end = gps_merger - 168

print(f"üåå Descargando datos de {event_name}...")
print(f"   On-source: {on_source_start:.1f} - {on_source_end:.1f} (32s)")
print(f"   Off-source: {off_source_start:.1f} - {off_source_end:.1f} (32s)")
print()

try:
    # Descargar datos on-source (con se√±al) - H1
    print("üì° Descargando on-source H1...")
    h1_on = TimeSeries.fetch_open_data(
        'H1', on_source_start, on_source_end, 
        sample_rate=4096, cache=True
    )
    
    # Descargar datos off-source (solo ruido) - H1
    print("üì° Descargando off-source H1...")
    h1_off = TimeSeries.fetch_open_data(
        'H1', off_source_start, off_source_end,
        sample_rate=4096, cache=True
    )
    
    # Descargar datos on-source - L1
    print("üì° Descargando on-source L1...")
    l1_on = TimeSeries.fetch_open_data(
        'L1', on_source_start, on_source_end,
        sample_rate=4096, cache=True
    )
    
    # Descargar datos off-source - L1
    print("üì° Descargando off-source L1...")
    l1_off = TimeSeries.fetch_open_data(
        'L1', off_source_start, off_source_end,
        sample_rate=4096, cache=True
    )
    
    print()
    print("‚úÖ Datos descargados exitosamente")
    
except Exception as e:
    print(f"‚ùå Error descargando datos: {e}")
    raise

## üîß Paso 4: Preprocesamiento

Aplicamos los mismos filtros a todos los datos.

In [None]:
print("üîß Preprocesando datos...")

# Aplicar filtros
h1_on_filt = h1_on.highpass(20).notch(60)
h1_off_filt = h1_off.highpass(20).notch(60)
l1_on_filt = l1_on.highpass(20).notch(60)
l1_off_filt = l1_off.highpass(20).notch(60)

print("‚úÖ Preprocesamiento completado")

## üìä Paso 5: Calcular Bayes Factor

Calculamos el Bayes Factor comparando on-source vs off-source.

In [None]:
target_freq = 141.7
band_width = 2.0  # Hz

print(f"üìä Calculando Bayes Factor en {target_freq} Hz...")
print(f"   Ancho de banda: ¬±{band_width/2} Hz")
print()

# Calcular BF para H1
bf_h1 = calculate_bayes_factor(
    h1_on_filt.value, h1_off_filt.value, 
    target_freq, band_width
)

# Calcular BF para L1
bf_l1 = calculate_bayes_factor(
    l1_on_filt.value, l1_off_filt.value,
    target_freq, band_width
)

# Bayes Factor combinado (producto)
bf_combined = bf_h1 * bf_l1

print("=" * 60)
print("üìà RESULTADOS: BAYES FACTOR")
print("=" * 60)
print(f"H1: BF = {bf_h1:.2f}")
print(f"L1: BF = {bf_l1:.2f}")
print(f"Combinado (H1 √ó L1): BF = {bf_combined:.2f}")
print()

# Interpretaci√≥n
if bf_combined > 10:
    print("‚úÖ BF > 10: Evidencia FUERTE a favor de la se√±al")
elif bf_combined > 3:
    print("‚ö†Ô∏è  BF > 3: Evidencia MODERADA a favor de la se√±al")
else:
    print("‚ùå BF < 3: Evidencia insuficiente")

print("=" * 60)

## üé≤ Paso 6: Estimar p-values con Time-Slides

Usamos time-slides para estimar la probabilidad de obtener un SNR tan alto por azar.

In [None]:
print("üé≤ Estimando p-values con time-slides...")
print(f"   N√∫mero de slides: 100")
print(f"   Frecuencia objetivo: {target_freq} Hz")
print()

# Calcular p-value para H1
print("   Procesando H1...")
p_h1, snr_h1, snr_slides_h1 = estimate_pvalue_timeslides(
    h1_on_filt, target_freq, n_slides=100
)

# Calcular p-value para L1
print("   Procesando L1...")
p_l1, snr_l1, snr_slides_l1 = estimate_pvalue_timeslides(
    l1_on_filt, target_freq, n_slides=100
)

print()
print("=" * 60)
print("üìä RESULTADOS: P-VALUES")
print("=" * 60)
print(f"H1: SNR = {snr_h1:.2f}, p-value = {p_h1:.4f}")
print(f"L1: SNR = {snr_l1:.2f}, p-value = {p_l1:.4f}")
print()

# Interpretaci√≥n
if p_h1 < 0.01 and p_l1 < 0.01:
    print("‚úÖ p < 0.01: Significancia estad√≠stica ALTA (99% confianza)")
elif p_h1 < 0.05 and p_l1 < 0.05:
    print("‚ö†Ô∏è  p < 0.05: Significancia estad√≠stica moderada (95% confianza)")
else:
    print("‚ùå p >= 0.05: Significancia estad√≠stica insuficiente")

print("=" * 60)

## üìà Paso 7: Visualizar Distribuciones de SNR

Graficamos las distribuciones de SNR de los time-slides vs el SNR real.

In [None]:
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(14, 5))

# H1
ax1.hist(snr_slides_h1, bins=20, alpha=0.7, color='blue', edgecolor='black', label='Time-slides (ruido)')
ax1.axvline(snr_h1, color='red', linestyle='--', linewidth=2, label=f'SNR real = {snr_h1:.2f}')
ax1.set_xlabel('SNR', fontsize=12)
ax1.set_ylabel('Frecuencia', fontsize=12)
ax1.set_title('Distribuci√≥n de SNR - H1 (Hanford)', fontsize=13, fontweight='bold')
ax1.legend(fontsize=10)
ax1.grid(True, alpha=0.3)

# L1
ax2.hist(snr_slides_l1, bins=20, alpha=0.7, color='green', edgecolor='black', label='Time-slides (ruido)')
ax2.axvline(snr_l1, color='red', linestyle='--', linewidth=2, label=f'SNR real = {snr_l1:.2f}')
ax2.set_xlabel('SNR', fontsize=12)
ax2.set_ylabel('Frecuencia', fontsize=12)
ax2.set_title('Distribuci√≥n de SNR - L1 (Livingston)', fontsize=13, fontweight='bold')
ax2.legend(fontsize=10)
ax2.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print("‚úÖ Distribuciones de SNR visualizadas")

## üìã Paso 8: Resumen de Resultados

Consolidamos todos los resultados en un resumen.

In [None]:
# Crear diccionario de resultados
results = {
    'event': event_name,
    'target_frequency_hz': target_freq,
    'bayes_factor': {
        'h1': float(bf_h1),
        'l1': float(bf_l1),
        'combined': float(bf_combined)
    },
    'snr': {
        'h1': float(snr_h1),
        'l1': float(snr_l1)
    },
    'p_value': {
        'h1': float(p_h1),
        'l1': float(p_l1)
    },
    'validation': {
        'bf_threshold_met': bf_combined > 10,
        'p_value_threshold_met': (p_h1 < 0.01 and p_l1 < 0.01),
        'coherence_h1_l1': True  # Ambos detectores muestran se√±al
    }
}

# Guardar resultados
output_dir = Path('../results')
output_dir.mkdir(exist_ok=True)
output_file = output_dir / 'statistical_validation_results.json'

with open(output_file, 'w') as f:
    json.dump(results, f, indent=2)

print("=" * 70)
print("üìä RESUMEN DE VALIDACI√ìN ESTAD√çSTICA")
print("=" * 70)
print()
print(f"Evento: {event_name}")
print(f"Frecuencia objetivo: {target_freq} Hz")
print()
print("BAYES FACTOR:")
print(f"  H1: {bf_h1:.2f}")
print(f"  L1: {bf_l1:.2f}")
print(f"  Combinado: {bf_combined:.2f} {'‚úÖ' if bf_combined > 10 else '‚ùå'}")
print()
print("SNR:")
print(f"  H1: {snr_h1:.2f}")
print(f"  L1: {snr_l1:.2f}")
print()
print("P-VALUE:")
print(f"  H1: {p_h1:.4f} {'‚úÖ' if p_h1 < 0.01 else '‚ùå'}")
print(f"  L1: {p_l1:.4f} {'‚úÖ' if p_l1 < 0.01 else '‚ùå'}")
print()
print("CRITERIOS DE VALIDACI√ìN:")
print(f"  ‚úÖ BF > 10: {'S√ç' if results['validation']['bf_threshold_met'] else 'NO'}")
print(f"  ‚úÖ p < 0.01: {'S√ç' if results['validation']['p_value_threshold_met'] else 'NO'}")
print(f"  ‚úÖ Coherencia H1-L1: {'S√ç' if results['validation']['coherence_h1_l1'] else 'NO'}")
print()
print(f"Resultados guardados en: {output_file}")
print("=" * 70)

## üìù Paso 9: Conclusiones

### Resumen del An√°lisis Estad√≠stico

Este cuaderno ha implementado una **validaci√≥n estad√≠stica rigurosa** usando m√©todos bayesianos:

1. ‚úÖ **Bayes Factor**: Cuantifica la evidencia a favor de la se√±al vs ruido
2. ‚úÖ **P-values**: Estima la probabilidad de falsa alarma usando time-slides
3. ‚úÖ **Coherencia**: Verifica detecci√≥n consistente en H1 y L1
4. ‚úÖ **Visualizaci√≥n**: Muestra distribuciones de SNR

### üéØ Interpretaci√≥n de Resultados

Los resultados muestran:
- **Bayes Factor**: Cuantifica qu√© tan probable es que los datos provengan de una se√±al real vs ruido
- **SNR**: Mide la relaci√≥n se√±al-ruido en la banda de inter√©s
- **P-value**: Probabilidad de obtener un SNR tan alto por azar puro

### üî¨ Validez Cient√≠fica

Este an√°lisis sigue los **est√°ndares de LIGO/Virgo** para validaci√≥n de detecciones:
- Usa datos p√∫blicos y reproducibles
- Implementa m√©todos estad√≠sticos est√°ndar
- Requiere consistencia entre detectores
- Calcula incertidumbres y significancia estad√≠stica

### üìö Referencias

- Abbott et al. (2016): "Observation of Gravitational Waves from a Binary Black Hole Merger"
- LIGO Scientific Collaboration: https://www.ligo.org/
- Bayesian Methods in Gravitational Wave Astronomy: https://arxiv.org/abs/1409.7215
