# üõ∞Ô∏è Acceso a Datos NASA GES DISC con Python

## Descripci√≥n General

Este notebook demuestra c√≥mo acceder a datos de NASA GES DISC (Goddard Earth Sciences Data and Information Services Center) usando Python y la librer√≠a oficial `earthaccess` recomendada por NASA.

### Caracter√≠sticas principales:
- ‚úÖ **Autenticaci√≥n moderna** usando `earthaccess`
- ‚úÖ **B√∫squeda inteligente** de datasets por coordenadas, fechas y tipos
- ‚úÖ **Descarga directa** desde la nube de NASA
- ‚úÖ **Visualizaci√≥n** de datos clim√°ticos
- ‚úÖ **Compatibilidad** con m√∫ltiples formatos (NetCDF, HDF)

### Datasets soportados:
- **IMERG**: Precipitaci√≥n diaria y mensual
- **MERRA-2**: Datos atmosf√©ricos
- **MODIS**: Temperatura superficial terrestre
- **GPM**: Datos de precipitaci√≥n

### Referencias:
- [Tutoriales oficiales NASA GES DISC](https://github.com/nasa/gesdisc-tutorials)
- [Documentaci√≥n earthaccess](https://earthaccess.readthedocs.io/)
- [C√≥mo acceder a datos GES DISC con Python](https://disc.gsfc.nasa.gov/information/howto?title=How%20to%20Access%20GES%20DISC%20Data%20Using%20Python)

## 1. üì¶ Importar Librer√≠as Requeridas

Primero instalamos e importamos todas las librer√≠as necesarias para acceder a los datos de NASA.

In [None]:
# Instalar earthaccess si no est√° disponible
import subprocess
import sys

try:
    import earthaccess
    print("‚úÖ earthaccess ya est√° instalado")
except ImportError:
    print("üì¶ Instalando earthaccess...")
    subprocess.check_call([sys.executable, "-m", "pip", "install", "earthaccess"])
    import earthaccess

In [None]:
# Importar todas las librer√≠as necesarias
import earthaccess
import xarray as xr
import matplotlib.pyplot as plt
import cartopy.crs as ccrs
import cartopy.feature as cfeature
import pandas as pd
import numpy as np
from datetime import datetime, timedelta
import warnings

# Configurar visualizaci√≥n
plt.rcParams['figure.figsize'] = (12, 8)
warnings.filterwarnings('ignore')

print("‚úÖ Librer√≠as importadas exitosamente:")
print(f"   - earthaccess: {earthaccess.__version__}")
print(f"   - xarray: {xr.__version__}")
print(f"   - matplotlib: disponible")
print(f"   - cartopy: disponible")
print(f"   - pandas: {pd.__version__}")
print(f"   - numpy: {np.__version__}")

## 2. üîê Configurar Credenciales de Autenticaci√≥n

La autenticaci√≥n con NASA Earthdata es necesaria para acceder a los datos. `earthaccess` maneja esto autom√°ticamente.

In [None]:
# Configurar credenciales NASA Earthdata
# Opci√≥n 1: Usar credenciales ya guardadas en .netrc
try:
    auth = earthaccess.login(strategy="netrc")
    if auth.authenticated:
        print("‚úÖ Autenticado usando archivo .netrc existente")
    else:
        raise Exception("No se pudo autenticar con .netrc")
except:
    # Opci√≥n 2: Autenticaci√≥n interactiva (pedir√° usuario y contrase√±a)
    print("üîê Configurando autenticaci√≥n interactiva...")
    auth = earthaccess.login(strategy="interactive", persist=True)
    
    if auth.authenticated:
        print("‚úÖ Autenticaci√≥n exitosa! Credenciales guardadas en .netrc")
    else:
        print("‚ùå Error en la autenticaci√≥n. Verifica tus credenciales.")
        
# Mostrar informaci√≥n de autenticaci√≥n
if auth.authenticated:
    print("üéØ Listo para acceder a datos NASA Earthdata")
else:
    print("‚ö†Ô∏è  Necesitas credenciales v√°lidas de https://urs.earthdata.nasa.gov/")

## 3. ‚öôÔ∏è Configurar Par√°metros de Acceso a Datos

Definimos los par√°metros para buscar y acceder a diferentes tipos de datos clim√°ticos.

In [None]:
# Configuraci√≥n de datasets y par√°metros
datasets_config = {
    'IMERG_DAILY': {
        'short_name': 'GPM_3IMERGHH',  # Datos IMERG de precipitaci√≥n
        'doi': '10.5067/GPM/IMERGDF/DAY/07',  # DOI para datos diarios
        'description': 'Precipitaci√≥n diaria GPM IMERG',
        'variables': ['precipitationCal', 'lat', 'lon', 'time']
    },
    'MERRA2_SLV': {
        'short_name': 'M2T1NXSLV',  # MERRA-2 Single Level Variables
        'version': '5.12.4',
        'description': 'MERRA-2 Variables de Superficie',
        'variables': ['T2M', 'QV2M', 'PS', 'U10M', 'V10M']  # Temperatura, humedad, presi√≥n, viento
    }
}

# Coordenadas de inter√©s (Pen√≠nsula Ib√©rica)
locations = {
    'Madrid': {'lat': 40.4168, 'lon': -3.7038},
    'Barcelona': {'lat': 41.3851, 'lon': 2.1734},
    'Valencia': {'lat': 39.4699, 'lon': -0.3763},
    'Sevilla': {'lat': 37.3891, 'lon': -5.9845}
}

# Configurar √°rea geogr√°fica y temporal
bbox = (-10, 35, 5, 45)  # Pen√≠nsula Ib√©rica (oeste, sur, este, norte)
fecha_inicio = '2024-03-01'  # Cambiar por fecha de inter√©s
fecha_fin = '2024-03-03'     # Per√≠odo de 3 d√≠as para prueba

print("üó∫Ô∏è  Configuraci√≥n espacial:")
print(f"   Bounding Box: {bbox} (Pen√≠nsula Ib√©rica)")
print(f"   Ciudades: {list(locations.keys())}")

print("üìÖ Configuraci√≥n temporal:")
print(f"   Fecha inicio: {fecha_inicio}")
print(f"   Fecha fin: {fecha_fin}")

print("üìä Datasets configurados:")
for key, config in datasets_config.items():
    print(f"   - {key}: {config['description']}")

## 4. üîç Buscar y Descargar Archivos de Datos

Usamos `earthaccess` para buscar datos disponibles seg√∫n nuestros criterios espaciales y temporales.

In [None]:
# Funci√≥n para buscar granulos de datos
def search_granules(dataset_name, temporal_range, bbox=None, max_results=5):
    """
    Buscar granulos usando earthaccess
    """
    config = datasets_config[dataset_name]
    
    search_params = {
        'temporal': temporal_range,
        'count': max_results
    }
    
    # A√±adir par√°metros espec√≠ficos del dataset
    if 'short_name' in config:
        search_params['short_name'] = config['short_name']
    if 'version' in config:
        search_params['version'] = config['version']
    if 'doi' in config:
        search_params['doi'] = config['doi']
    if bbox:
        search_params['bounding_box'] = bbox
    
    print(f"üîç Buscando {config['description']}...")
    print(f"   Par√°metros: {search_params}")
    
    try:
        results = earthaccess.search_data(**search_params)
        print(f"‚úÖ Encontrados {len(results)} granulos")
        return results
    except Exception as e:
        print(f"‚ùå Error en b√∫squeda: {e}")
        return []

# Buscar datos MERRA-2 (m√°s probable que existan)
print("=" * 60)
granules_merra2 = search_granules('MERRA2_SLV', (fecha_inicio, fecha_fin), bbox)

# Mostrar informaci√≥n de los granulos encontrados
if granules_merra2:
    print(f"\\nüìÅ Informaci√≥n del primer granulo encontrado:")
    first_granule = granules_merra2[0]
    print(f"   ID: {first_granule['meta']['concept-id']}")
    print(f"   Nombre: {first_granule['umm']['GranuleUR']}")
    print(f"   Tama√±o: {first_granule.size()} MB")
else:
    print("‚ö†Ô∏è No se encontraron granulos para el per√≠odo especificado")

In [None]:
# Opci√≥n 1: Streaming directo (recomendado para an√°lisis r√°pido)
def stream_data(granules, variables=None):
    """
    Hace streaming de datos directamente a xarray sin descargar
    """
    print("üåä Streaming datos a memoria...")
    try:
        # Abrir archivos usando earthaccess (streaming directo desde la nube)
        files = earthaccess.open(granules)
        
        # Cargar en xarray
        ds = xr.open_mfdataset(files, engine='h5netcdf', combine='by_coords')
        
        print(f"‚úÖ Dataset cargado: {ds.sizes}")
        return ds
    except Exception as e:
        print(f"‚ùå Error en streaming: {e}")
        return None

# Opci√≥n 2: Descarga local (para archivos grandes o an√°lisis offline)
def download_data(granules, local_path='./data'):
    """
    Descarga archivos localmente
    """
    print(f"üíæ Descargando a {local_path}...")
    try:
        downloaded_files = earthaccess.download(granules, local_path=local_path)
        print(f"‚úÖ Descargados {len(downloaded_files)} archivos")
        return downloaded_files
    except Exception as e:
        print(f"‚ùå Error en descarga: {e}")
        return []

# Probar streaming si hay datos disponibles
if granules_merra2:
    print("\\n" + "=" * 60)
    print("üöÄ PROBANDO STREAMING DE DATOS...")
    
    # Usar solo el primer granulo para la prueba
    test_granules = granules_merra2[:1]
    
    dataset = stream_data(test_granules)
    
    if dataset is not None:
        print(f"\\nüìä Informaci√≥n del dataset:")
        print(f"   Dimensiones: {dict(dataset.sizes)}")
        print(f"   Variables disponibles: {list(dataset.data_vars.keys())}")
        print(f"   Coordenadas: {list(dataset.coords.keys())}")
else:
    print("\\n‚è≠Ô∏è Saltando streaming - no hay granulos disponibles")

## 5. üìã Cargar e Inspeccionar Datos

Analizamos la estructura y metadatos de los datos cargados.

In [None]:
# Funci√≥n para inspeccionar el dataset
def inspect_dataset(ds, dataset_name="Dataset"):
    """
    Inspecciona un dataset de xarray y muestra informaci√≥n √∫til
    """
    print(f"\\nüîç INSPECCI√ìN DE {dataset_name.upper()}")
    print("=" * 50)
    
    # Informaci√≥n general
    print(f"üìè Dimensiones: {dict(ds.sizes)}")
    print(f"üìä Variables de datos: {len(ds.data_vars)}")
    print(f"üó∫Ô∏è  Coordenadas: {len(ds.coords)}")
    
    # Detalles de variables importantes
    print("\\nüìã Variables principales:")
    for var_name, var in ds.data_vars.items():
        if len(var.dims) >= 2:  # Solo variables multidimensionales
            attrs = dict(var.attrs) if var.attrs else {}
            units = attrs.get('units', 'N/A')
            long_name = attrs.get('long_name', 'N/A')
            print(f"   ‚Ä¢ {var_name}: {var.dims} | {units}")
            if long_name != 'N/A':
                print(f"     ‚îî‚îÄ {long_name}")
    
    # Informaci√≥n temporal
    if 'time' in ds.coords:
        time_coord = ds.coords['time']
        print(f"\\n‚è∞ Rango temporal:")
        print(f"   Inicio: {pd.to_datetime(time_coord.min().values)}")
        print(f"   Fin: {pd.to_datetime(time_coord.max().values)}")
        print(f"   Pasos: {len(time_coord)}")
    
    # Informaci√≥n espacial
    if 'lat' in ds.coords and 'lon' in ds.coords:
        lat_range = (float(ds.lat.min()), float(ds.lat.max()))
        lon_range = (float(ds.lon.min()), float(ds.lon.max()))
        print(f"\\nüåç Cobertura espacial:")
        print(f"   Latitud: {lat_range[0]:.2f}¬∞ a {lat_range[1]:.2f}¬∞")
        print(f"   Longitud: {lon_range[0]:.2f}¬∞ a {lon_range[1]:.2f}¬∞")
        print(f"   Resoluci√≥n: ~{abs(float(ds.lat[1] - ds.lat[0])):.3f}¬∞ lat, ~{abs(float(ds.lon[1] - ds.lon[0])):.3f}¬∞ lon")
    
    return ds

# Inspeccionar dataset si est√° disponible
if 'dataset' in locals() and dataset is not None:
    inspect_dataset(dataset, "MERRA-2")
    
    # Ejemplo de extracci√≥n de datos para una ubicaci√≥n espec√≠fica
    if 'lat' in dataset.coords and 'lon' in dataset.coords:
        print("\\nüéØ EXTRAYENDO DATOS PARA MADRID")
        madrid_coords = locations['Madrid']
        
        # Seleccionar punto m√°s cercano a Madrid
        madrid_data = dataset.sel(
            lat=madrid_coords['lat'], 
            lon=madrid_coords['lon'], 
            method='nearest'
        )
        
        print(f"   Coordenadas seleccionadas: {float(madrid_data.lat.values):.2f}¬∞, {float(madrid_data.lon.values):.2f}¬∞")
        
        # Mostrar variables disponibles
        if 'T2M' in madrid_data.data_vars:
            temp_data = madrid_data['T2M']
            print(f"   Temperatura (T2M): {float(temp_data.mean()):.1f} K ({float(temp_data.mean()) - 273.15:.1f}¬∞C)")
        
else:
    print("‚è≠Ô∏è No hay dataset cargado para inspeccionar")
    
    # Crear datos de ejemplo para demostraci√≥n
    print("\\nüé¨ Creando datos de ejemplo para demostraci√≥n...")
    
    # Generar datos sint√©ticos
    times = pd.date_range('2024-03-01', '2024-03-03', freq='1D')
    lats = np.linspace(35, 45, 20)  # Pen√≠nsula Ib√©rica
    lons = np.linspace(-10, 5, 30)
    
    # Crear datos de temperatura sint√©ticos
    temp_data = 15 + 10 * np.random.random((len(times), len(lats), len(lons)))
    
    # Crear dataset de ejemplo
    dataset = xr.Dataset({
        'temperature': (['time', 'lat', 'lon'], temp_data, {
            'long_name': 'Temperatura del aire a 2 metros (ejemplo)',
            'units': '¬∞C'
        })
    }, coords={
        'time': times,
        'lat': lats,
        'lon': lons
    })
    
    print("‚úÖ Dataset de ejemplo creado")
    inspect_dataset(dataset, "Ejemplo Sint√©tico")

## 6. üìä Procesar y Visualizar Datos

Creamos visualizaciones de los datos clim√°ticos usando matplotlib y cartopy.

In [None]:
# Funci√≥n para crear mapas con proyecci√≥n geogr√°fica
def plot_spatial_data(ds, variable, time_index=0, title_prefix=""):
    """
    Crea un mapa de datos espaciales usando cartopy
    """
    try:
        # Seleccionar variable y tiempo
        if variable in ds.data_vars:
            data = ds[variable]
        else:
            # Usar la primera variable disponible
            data = ds[list(ds.data_vars.keys())[0]]
            variable = list(ds.data_vars.keys())[0]
        
        # Seleccionar tiempo si existe
        if 'time' in data.dims and len(data.time) > time_index:
            data = data.isel(time=time_index)
            time_str = pd.to_datetime(data.time.values).strftime('%Y-%m-%d')
            title = f"{title_prefix}{variable} - {time_str}"
        else:
            title = f"{title_prefix}{variable}"
        
        # Crear figura con proyecci√≥n
        fig = plt.figure(figsize=(14, 10))
        ax = plt.axes(projection=ccrs.PlateCarree())
        
        # A√±adir caracter√≠sticas geogr√°ficas
        ax.add_feature(cfeature.COASTLINE)
        ax.add_feature(cfeature.BORDERS)
        ax.add_feature(cfeature.LAND, alpha=0.3)
        ax.add_feature(cfeature.OCEAN, alpha=0.3)
        
        # Plot principal
        im = data.plot(
            ax=ax, 
            transform=ccrs.PlateCarree(),
            cmap='viridis',
            add_colorbar=False
        )
        
        # A√±adir colorbar
        cbar = plt.colorbar(im, ax=ax, orientation='horizontal', pad=0.05, shrink=0.8)
        units = data.attrs.get('units', '')
        cbar.set_label(f"{variable} {units}")
        
        # A√±adir ciudades
        for city, coords in locations.items():
            ax.plot(coords['lon'], coords['lat'], 'ro', markersize=8, transform=ccrs.PlateCarree())
            ax.text(coords['lon'], coords['lat'], f'  {city}', 
                   transform=ccrs.PlateCarree(), fontsize=10, fontweight='bold')
        
        # Configurar extent para Espa√±a
        ax.set_extent([-12, 6, 34, 46], ccrs.PlateCarree())
        ax.gridlines(draw_labels=True, alpha=0.5)
        
        plt.title(title, fontsize=14, fontweight='bold', pad=20)
        plt.tight_layout()
        plt.show()
        
    except Exception as e:
        print(f"‚ùå Error en visualizaci√≥n: {e}")
        # Fallback: plot simple sin proyecci√≥n
        if variable in ds.data_vars:
            data = ds[variable]
            if 'time' in data.dims:
                data = data.isel(time=0)
            data.plot(figsize=(12, 6))
            plt.title(f"{title_prefix}{variable}")
            plt.show()

# Funci√≥n para series temporales
def plot_time_series(ds, location_name, variables=None):
    """
    Crea gr√°ficos de series temporales para una ubicaci√≥n
    """
    if location_name not in locations:
        print(f"‚ùå Ubicaci√≥n '{location_name}' no encontrada")
        return
    
    coords = locations[location_name]
    
    try:
        # Seleccionar punto m√°s cercano
        if 'lat' in ds.coords and 'lon' in ds.coords:
            point_data = ds.sel(lat=coords['lat'], lon=coords['lon'], method='nearest')
        else:
            print("‚ö†Ô∏è No se encontraron coordenadas lat/lon")
            return
        
        # Seleccionar variables
        if variables is None:
            variables = list(point_data.data_vars.keys())[:3]  # Primeras 3 variables
        
        # Crear subplots
        fig, axes = plt.subplots(len(variables), 1, figsize=(12, 4*len(variables)))
        if len(variables) == 1:
            axes = [axes]
        
        fig.suptitle(f'Series Temporales - {location_name}', fontsize=16, fontweight='bold')
        
        for i, var in enumerate(variables):
            if var in point_data.data_vars:
                data = point_data[var]
                
                if 'time' in data.dims:
                    data.plot(ax=axes[i])
                    axes[i].set_title(f"{var} ({data.attrs.get('units', '')})")
                    axes[i].grid(True, alpha=0.3)
                else:
                    axes[i].text(0.5, 0.5, f'Variable {var}\\nSin dimensi√≥n temporal', 
                               ha='center', va='center', transform=axes[i].transAxes)
                    axes[i].set_title(f"{var} (valor: {float(data.values):.2f})")
        
        plt.tight_layout()
        plt.show()
        
    except Exception as e:
        print(f"‚ùå Error en serie temporal: {e}")

# Visualizar datos si est√°n disponibles
if 'dataset' in locals() and dataset is not None:
    print("üé® CREANDO VISUALIZACIONES...")
    
    # Mapa espacial
    try:
        plot_spatial_data(dataset, list(dataset.data_vars.keys())[0], title_prefix="NASA GES DISC - ")
    except Exception as e:
        print(f"‚ö†Ô∏è Error en mapa espacial: {e}")
    
    # Serie temporal para Madrid
    try:
        plot_time_series(dataset, 'Madrid', list(dataset.data_vars.keys())[:2])
    except Exception as e:
        print(f"‚ö†Ô∏è Error en serie temporal: {e}")
    
    print("‚úÖ Visualizaciones completadas")
else:
    print("üìä No hay dataset disponible para visualizar")
    print("üí° Ejecuta las celdas anteriores para cargar datos")

## üéØ Ejemplo Pr√°ctico: An√°lisis Completo

Ahora combinamos todo lo anterior en un flujo de trabajo completo para analizar datos clim√°ticos.

In [None]:
# An√°lisis completo: Buscar, cargar y visualizar datos
def complete_analysis(dataset_type='MERRA2_SLV', region='spain', days=3):
    """
    Flujo de trabajo completo para an√°lisis de datos NASA
    """
    print("üöÄ INICIANDO AN√ÅLISIS COMPLETO DE DATOS NASA GES DISC")
    print("=" * 60)
    
    # 1. Configurar par√°metros
    end_date = datetime.now() - timedelta(days=30)  # Datos de hace 1 mes (m√°s probable que existan)
    start_date = end_date - timedelta(days=days)
    
    temporal_range = (start_date.strftime('%Y-%m-%d'), end_date.strftime('%Y-%m-%d'))
    
    print(f"üìÖ Periodo de an√°lisis: {temporal_range[0]} a {temporal_range[1]}")
    print(f"üó∫Ô∏è  Regi√≥n: {region}")
    print(f"üìä Dataset: {datasets_config[dataset_type]['description']}")
    
    # 2. Buscar datos
    print("\\nüîç PASO 1: B√∫squeda de granulos...")
    granules = search_granules(dataset_type, temporal_range, bbox, max_results=3)
    
    if not granules:
        print("‚ùå No se encontraron datos para el per√≠odo especificado")
        print("üí° Sugerencias:")
        print("   - Prueba con fechas m√°s antiguas")
        print("   - Verifica tu autenticaci√≥n")
        print("   - Cambia el tipo de dataset")
        return None
    
    # 3. Cargar datos
    print("\\nüåä PASO 2: Carga de datos...")
    ds = stream_data(granules[:2])  # Usar solo 2 granulos para eficiencia
    
    if ds is None:
        print("‚ùå Error al cargar datos")
        return None
    
    # 4. Procesar y analizar
    print("\\nüìã PASO 3: An√°lisis de datos...")
    inspect_dataset(ds, datasets_config[dataset_type]['description'])
    
    # 5. Crear visualizaciones
    print("\\nüé® PASO 4: Visualizaciones...")
    
    # Mapa espacial
    variable_list = list(ds.data_vars.keys())
    if variable_list:
        plot_spatial_data(ds, variable_list[0], title_prefix="NASA - ")
    
    # Series temporales para ciudades principales
    for city in ['Madrid', 'Barcelona']:
        try:
            plot_time_series(ds, city, variable_list[:1])
        except Exception as e:
            print(f"‚ö†Ô∏è No se pudo crear serie temporal para {city}: {e}")
    
    print("\\n‚úÖ AN√ÅLISIS COMPLETO FINALIZADO")
    return ds

# Ejecutar an√°lisis completo
try:
    result_dataset = complete_analysis()
    
    if result_dataset is not None:
        print("\\nüéä ¬°An√°lisis exitoso!")
        print("üíæ El dataset est√° disponible como 'result_dataset'")
        print("üîÑ Puedes modificar fechas y volver a ejecutar")
    else:
        print("\\n‚ö†Ô∏è An√°lisis no completado")
        print("üîß Revisa configuraci√≥n y autenticaci√≥n")
        
except Exception as e:
    print(f"‚ùå Error en an√°lisis: {e}")
    print("üõ†Ô∏è Verifica tu conexi√≥n a internet y credenciales")

## üîó Recursos Adicionales y Pr√≥ximos Pasos

### üìö Documentaci√≥n y Tutoriales
- [Tutoriales oficiales NASA GES DISC](https://github.com/nasa/gesdisc-tutorials)
- [Documentaci√≥n earthaccess](https://earthaccess.readthedocs.io/)
- [Gu√≠a de acceso a datos GES DISC](https://disc.gsfc.nasa.gov/information/howto?title=How%20to%20Access%20GES%20DISC%20Data%20Using%20Python)

### üõ†Ô∏è Funcionalidades Avanzadas
- **OPeNDAP**: Acceso directo a subconjuntos de datos sin descarga completa
- **Cloud Computing**: Procesamiento en AWS junto a los datos
- **Bulk Downloads**: Descarga masiva de series temporales largas
- **API Subsetting**: Extracci√≥n espec√≠fica por regiones y variables

### üí° Casos de Uso Comunes
- **An√°lisis climatol√≥gico**: Series temporales de precipitaci√≥n y temperatura
- **Validaci√≥n de modelos**: Comparaci√≥n con datos observacionales
- **Estudios de impacto**: An√°lisis de eventos extremos
- **Monitoreo ambiental**: Seguimiento de cambios a largo plazo

### ‚ö° Optimizaci√≥n de Rendimiento
- Usa `bounding_box` para limitar la regi√≥n de inter√©s
- Limita el rango temporal para reducir volumen de datos
- Considera usar `streaming` en lugar de descarga para an√°lisis exploratorio
- Aprovecha el paralelismo de `dask` para datasets grandes