# An√°lisis de Compatibilidad de Datos CMIP6 y CR2MET
## Valle de Aconcagua, Chile

Pipeline para bias correction usando Quantile Mapping. Empezamos con un an√°lisis sistem√°tico de los datasets para entender su estructura y compatibilidad.

In [1]:
# Imports b√°sicos para an√°lisis de datos
import xarray as xr
import numpy as np
import pandas as pd
from pathlib import Path
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings('ignore')

print("‚úì Imports completados")
print(f"‚úì xarray version: {xr.__version__}")
print(f"‚úì numpy version: {np.__version__}")
print(f"‚úì pandas version: {pd.__version__}")

‚úì Imports completados
‚úì xarray version: 2025.1.2
‚úì numpy version: 2.2.3
‚úì pandas version: 2.2.3


In [2]:
# Configuraci√≥n de paths
BASE_PATH = Path("/home/aninotna/magister/tesis/justh2_pipeline")
DATA_PATH = BASE_PATH / "data"
CMIP6_PATH = DATA_PATH / "cmip6" / "historical"
CR2MET_PATH = DATA_PATH / "cr2met" / "clima.zarr"

# Regi√≥n Valle de Aconcagua
BBOX = {
    'lat_min': -33.27,
    'lat_max': -32.26, 
    'lon_min': -71.89,
    'lon_max': -70.00
}

print("‚úì Configuraci√≥n completada")
print(f"‚úì CMIP6 path: {CMIP6_PATH}")
print(f"‚úì CR2MET path: {CR2MET_PATH}")
print(f"‚úì Regi√≥n Valle de Aconcagua: {BBOX}")

‚úì Configuraci√≥n completada
‚úì CMIP6 path: /home/aninotna/magister/tesis/justh2_pipeline/data/cmip6/historical
‚úì CR2MET path: /home/aninotna/magister/tesis/justh2_pipeline/data/cr2met/clima.zarr
‚úì Regi√≥n Valle de Aconcagua: {'lat_min': -33.27, 'lat_max': -32.26, 'lon_min': -71.89, 'lon_max': -70.0}


In [None]:
# 1. AN√ÅLISIS DE CR2MET
print("üîç ANALIZANDO DATASET CR2MET")
print("=" * 40)

try:
    # Cargar CR2MET
    cr2met = xr.open_dataset(CR2MET_PATH)
    print(f"‚úì CR2MET cargado exitosamente")
    
    # Informaci√≥n b√°sica
    print(f"\nüìä INFORMACI√ìN GENERAL:")
    print(f"  Variables: {list(cr2met.data_vars)}")
    print(f"  Dimensiones: {dict(cr2met.dims)}")
    print(f"  Coordenadas: {list(cr2met.coords)}")
    
    # Informaci√≥n espacial
    print(f"\nüó∫Ô∏è INFORMACI√ìN ESPACIAL:")
    print(f"  Latitud: {cr2met.lat.values.min():.3f} a {cr2met.lat.values.max():.3f}")
    print(f"  Longitud: {cr2met.lon.values.min():.3f} a {cr2met.lon.values.max():.3f}")
    print(f"  Resoluci√≥n lat: ~{np.diff(cr2met.lat.values)[0]:.3f}¬∞")
    print(f"  Resoluci√≥n lon: ~{np.diff(cr2met.lon.values)[0]:.3f}¬∞")
    
    # Informaci√≥n temporal
    print(f"\n‚è∞ INFORMACI√ìN TEMPORAL:")
    print(f"  Per√≠odo: {cr2met.time.values[0]} a {cr2met.time.values[-1]}")
    print(f"  Total d√≠as: {len(cr2met.time)}")
    time_diff = pd.to_datetime(cr2met.time.values[1]) - pd.to_datetime(cr2met.time.values[0])
    print(f"  Frecuencia: {time_diff.days} d√≠a(s)")
    
    # An√°lisis de precipitaci√≥n
    if 'pr' in cr2met.data_vars:
        pr = cr2met['pr']
        print(f"\nüåßÔ∏è PRECIPITACI√ìN (PR):")
        print(f"  Shape: {pr.shape}")
        print(f"  Unidades: {pr.attrs.get('units', 'No especificadas')}")
        print(f"  Min: {float(pr.min().values):.3f}")
        print(f"  Max: {float(pr.max().values):.3f}")
        print(f"  Media: {float(pr.mean().values):.3f}")
        
        # Recorte al Valle de Aconcagua
        pr_valle = pr.sel(
            lat=slice(BBOX['lat_min'], BBOX['lat_max']),
            lon=slice(BBOX['lon_min'], BBOX['lon_max'])
        )
        print(f"\n‚úÇÔ∏è RECORTE VALLE DE ACONCAGUA:")
        print(f"  Shape: {pr_valle.shape}")
        print(f"  Rango lat: {pr_valle.lat.values.min():.3f} a {pr_valle.lat.values.max():.3f}")
        print(f"  Rango lon: {pr_valle.lon.values.min():.3f} a {pr_valle.lon.values.max():.3f}")
        print(f"  Media regional: {float(pr_valle.mean().values):.3f}")
        
        # Guardar para an√°lisis posterior
        cr2met_pr_valle = pr_valle
        
    else:
        print(f"\n‚ùå Variable 'pr' no encontrada en CR2MET")
        
except Exception as e:
    print(f"‚ùå Error cargando CR2MET: {e}")
    
print(f"\n‚úÖ An√°lisis CR2MET completado")

üîç ANALIZANDO DATASET CR2MET
‚úì CR2MET cargado exitosamente

üìä INFORMACI√ìN GENERAL:
  Variables: ['year', 'cl_mask', 'pr', 'tmin', 'pr_sd', 'tmax']
  Dimensiones: {'time': 22646, 'lat': 800, 'lon': 220}
  Coordenadas: ['lat', 'time', 'lon']

üó∫Ô∏è INFORMACI√ìN ESPACIAL:
  Latitud: -56.975 a -17.025
  Longitud: -76.975 a -66.025
  Resoluci√≥n lat: ~0.050¬∞
  Resoluci√≥n lon: ~0.050¬∞

‚è∞ INFORMACI√ìN TEMPORAL:
  Per√≠odo: 1960-01-01T00:00:00.000000000 a 2021-12-31T00:00:00.000000000
  Total d√≠as: 22646
  Frecuencia: 1 d√≠a(s)

üåßÔ∏è PRECIPITACI√ìN (PR):
  Shape: (22646, 800, 220)
  Unidades: mm/day


In [None]:
# 2. AN√ÅLISIS DE ARCHIVOS CMIP6
print("üîç ANALIZANDO ARCHIVOS CMIP6")
print("=" * 40)

# Listar archivos disponibles
pr_path = CMIP6_PATH / "pr"
if pr_path.exists():
    archivos = list(pr_path.glob("*.nc"))
    print(f"üìÅ Archivos encontrados: {len(archivos)}")
    
    for archivo in sorted(archivos):
        print(f"  - {archivo.name} ({archivo.stat().st_size / (1024**3):.2f} GB)")
        
    # Analizar primer archivo como ejemplo
    if archivos:
        archivo_ejemplo = archivos[0]
        print(f"\nüî¨ AN√ÅLISIS DETALLADO: {archivo_ejemplo.name}")
        
        try:
            # Intentar cargar con diferentes engines
            for engine in ['netcdf4', 'h5netcdf', 'scipy']:
                try:
                    ds = xr.open_dataset(archivo_ejemplo, engine=engine)
                    print(f"  ‚úì Archivo cargado exitosamente con engine: {engine}")
                    break
                except Exception as e:
                    print(f"  ‚ùå Engine {engine} fall√≥: {e}")
                    continue
            
            if 'ds' in locals():
                # Informaci√≥n general
                print(f"\nüìä INFORMACI√ìN GENERAL:")
                print(f"  Variables: {list(ds.data_vars)}")
                print(f"  Dimensiones: {dict(ds.dims)}")
                print(f"  Coordenadas: {list(ds.coords)}")
                
                # Informaci√≥n espacial
                print(f"\nüó∫Ô∏è INFORMACI√ìN ESPACIAL:")
                print(f"  Latitud: {ds.lat.values.min():.3f} a {ds.lat.values.max():.3f}")
                print(f"  Longitud: {ds.lon.values.min():.3f} a {ds.lon.values.max():.3f}")
                
                # Verificar si necesita conversi√≥n de coordenadas (0-360 -> -180-180)
                if ds.lon.values.max() > 180:
                    print(f"  ‚ö†Ô∏è Coordenadas en formato 0-360¬∞, necesita conversi√≥n a -180-180¬∞")
                else:
                    print(f"  ‚úì Coordenadas ya en formato -180-180¬∞")
                
                # Informaci√≥n temporal
                print(f"\n‚è∞ INFORMACI√ìN TEMPORAL:")
                print(f"  Per√≠odo: {ds.time.values[0]} a {ds.time.values[-1]}")
                print(f"  Total timesteps: {len(ds.time)}")
                if len(ds.time) > 1:
                    time_diff = pd.to_datetime(ds.time.values[1]) - pd.to_datetime(ds.time.values[0])
                    print(f"  Frecuencia: {time_diff.days} d√≠a(s)")
                
                # An√°lisis de precipitaci√≥n
                if 'pr' in ds.data_vars:
                    pr_cmip = ds['pr']
                    print(f"\nüåßÔ∏è PRECIPITACI√ìN (PR):")
                    print(f"  Shape: {pr_cmip.shape}")
                    print(f"  Unidades: {pr_cmip.attrs.get('units', 'No especificadas')}")
                    print(f"  Dtype: {pr_cmip.dtype}")
                    
                    # Estad√≠sticos b√°sicos (muestra peque√±a para evitar problemas de memoria)
                    sample = pr_cmip.isel(time=slice(0, 10))
                    print(f"  Min (muestra): {float(sample.min().values):.6f}")
                    print(f"  Max (muestra): {float(sample.max().values):.6f}")
                    print(f"  Media (muestra): {float(sample.mean().values):.6f}")
                    
                    # Verificar traslape espacial con Valle de Aconcagua
                    lat_overlap = (ds.lat.values >= BBOX['lat_min']) & (ds.lat.values <= BBOX['lat_max'])
                    
                    # Ajustar longitudes si es necesario
                    if ds.lon.values.max() > 180:
                        lon_adjusted = ((ds.lon.values + 180) % 360) - 180
                        lon_overlap = (lon_adjusted >= BBOX['lon_min']) & (lon_adjusted <= BBOX['lon_max'])
                    else:
                        lon_overlap = (ds.lon.values >= BBOX['lon_min']) & (ds.lon.values <= BBOX['lon_max'])
                    
                    print(f"\nüéØ TRASLAPE CON VALLE DE ACONCAGUA:")
                    print(f"  Pixeles latitud en regi√≥n: {lat_overlap.sum()}")
                    print(f"  Pixeles longitud en regi√≥n: {lon_overlap.sum()}")
                    
                    if lat_overlap.sum() > 0 and lon_overlap.sum() > 0:
                        print(f"  ‚úì Hay traslape espacial con la regi√≥n")
                    else:
                        print(f"  ‚ùå No hay traslape espacial con la regi√≥n")
                
                # Cerrar dataset
                ds.close()
                
        except Exception as e:
            print(f"  ‚ùå Error analizando archivo: {e}")
            
else:
    print(f"‚ùå Directorio {pr_path} no existe")
    
print(f"\n‚úÖ An√°lisis CMIP6 completado")

In [None]:
# 3. AN√ÅLISIS DE COMPATIBILIDAD TEMPORAL
print("üîç AN√ÅLISIS DE COMPATIBILIDAD TEMPORAL")
print("=" * 45)

if 'cr2met' in locals() and 'ds' in locals():
    # Per√≠odos temporales
    cr2_start = pd.to_datetime(cr2met.time.values[0])
    cr2_end = pd.to_datetime(cr2met.time.values[-1])
    
    # Reabrir dataset CMIP6 para an√°lisis temporal
    archivo_ejemplo = list((CMIP6_PATH / "pr").glob("*.nc"))[0]
    ds_temp = xr.open_dataset(archivo_ejemplo, engine='netcdf4')
    
    cmip_start = pd.to_datetime(ds_temp.time.values[0])
    cmip_end = pd.to_datetime(ds_temp.time.values[-1])
    
    print(f"üìÖ PER√çODOS TEMPORALES:")
    print(f"  CR2MET: {cr2_start.strftime('%Y-%m-%d')} a {cr2_end.strftime('%Y-%m-%d')} ({(cr2_end - cr2_start).days} d√≠as)")
    print(f"  CMIP6:  {cmip_start.strftime('%Y-%m-%d')} a {cmip_end.strftime('%Y-%m-%d')} ({(cmip_end - cmip_start).days} d√≠as)")
    
    # Calcular traslape
    overlap_start = max(cr2_start, cmip_start)
    overlap_end = min(cr2_end, cmip_end)
    
    if overlap_start <= overlap_end:
        overlap_days = (overlap_end - overlap_start).days
        print(f"\n‚úÖ TRASLAPE TEMPORAL:")
        print(f"  Per√≠odo: {overlap_start.strftime('%Y-%m-%d')} a {overlap_end.strftime('%Y-%m-%d')}")
        print(f"  Duraci√≥n: {overlap_days} d√≠as ({overlap_days/365.25:.1f} a√±os)")
        
        # Evaluar idoneidad para bias correction
        if overlap_days >= 365 * 10:  # Al menos 10 a√±os
            print(f"  ‚úì Suficiente para bias correction (>10 a√±os)")
        elif overlap_days >= 365 * 5:  # Al menos 5 a√±os
            print(f"  ‚ö†Ô∏è Marginal para bias correction (5-10 a√±os)")
        else:
            print(f"  ‚ùå Insuficiente para bias correction (<5 a√±os)")
    else:
        print(f"\n‚ùå NO HAY TRASLAPE TEMPORAL")
    
    ds_temp.close()
    
else:
    print(f"‚ùå Datasets no cargados, no se puede analizar compatibilidad temporal")
    
print(f"\n‚úÖ An√°lisis de compatibilidad temporal completado")

In [None]:
# 4. RESUMEN Y RECOMENDACIONES
print("üìã RESUMEN Y RECOMENDACIONES PARA BIAS CORRECTION")
print("=" * 55)

print(f"\nüéØ DATASETS IDENTIFICADOS:")
print(f"  ‚úì CR2MET: Datos de referencia observacional")
print(f"  ‚úì CMIP6: Datos de modelo clim√°tico (ACCESS-CM2)")

print(f"\n‚öôÔ∏è PASOS NECESARIOS PARA COMPATIBILIZACI√ìN:")
print(f"  1. üó∫Ô∏è Regridding espacial: CMIP6 ‚Üí CR2MET grid")
print(f"  2. ‚è∞ Alineaci√≥n temporal: encontrar per√≠odo de traslape")
print(f"  3. üîß Estandarizaci√≥n de unidades: kg/m¬≤/s ‚Üí mm/d√≠a")
print(f"  4. üìÖ Alineaci√≥n de calendarios: manejar a√±os bisiestos")
print(f"  5. üåßÔ∏è Wet-day adjustment: manejar d√≠as secos en precipitaci√≥n")

print(f"\nüîß M√âTODOS DE BIAS CORRECTION RECOMENDADOS:")
print(f"  ‚Ä¢ Empirical Quantile Mapping (EQM): M√©todo est√°ndar")
print(f"  ‚Ä¢ Detrended Quantile Mapping (DQM): Para preservar tendencias")

print(f"\n‚ö†Ô∏è CONSIDERACIONES IMPORTANTES:")
print(f"  ‚Ä¢ Resoluci√≥n espacial muy diferente (CMIP6 vs CR2MET)")
print(f"  ‚Ä¢ Verificar conversi√≥n de coordenadas 0-360¬∞ ‚Üí -180-180¬∞")
print(f"  ‚Ä¢ Manejar chunks de dask para datasets grandes")
print(f"  ‚Ä¢ Validar resultados en per√≠odo de entrenamiento")

print(f"\nüöÄ PR√ìXIMO PASO:")
print(f"  Implementar pipeline de compatibilizaci√≥n paso a paso")

print(f"\n‚úÖ An√°lisis de compatibilidad completado")