# üåç PASO 1: TRATAMIENTO DE DATOS - Sistema de Calidad del Aire

## üìã Objetivo
Obtener, limpiar y preparar datos de calidad del aire de m√∫ltiples fuentes para an√°lisis y modelado.

## üéØ Fuentes de Datos
1. **üõ∞Ô∏è NASA TEMPO** - Sat√©lite geoestacionario
2. **üì° OpenAQ** - Red global de estaciones terrestres
3. **üå§Ô∏è NASA POWER** - Datos meteorol√≥gicos

## üìä Variables a Obtener
- **Contaminantes**: PM2.5, PM10, O‚ÇÉ, NO‚ÇÇ
- **Meteorolog√≠a**: Temperatura, Humedad, Viento
- **√çndice**: AQI (Air Quality Index)

---

## 1Ô∏è‚É£ CONFIGURACI√ìN INICIAL

In [9]:
# Importar librer√≠as necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime, timedelta
import warnings
warnings.filterwarnings('ignore')

# Configuraci√≥n de visualizaci√≥n
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")
%matplotlib inline

print("‚úÖ Librer√≠as importadas correctamente")
print(f"üìÖ Fecha de ejecuci√≥n: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")

‚úÖ Librer√≠as importadas correctamente
üìÖ Fecha de ejecuci√≥n: 2025-10-03 20:45:59


In [10]:
# Par√°metros de configuraci√≥n
UBICACION = "Los Angeles, CA"
LATITUD = 34.0522
LONGITUD = -118.2437

# Per√≠odo de datos
FECHA_INICIO = "20240901"  # YYYYMMDD
FECHA_FIN = "20241001"     # YYYYMMDD

print("="*80)
print("üåç CONFIGURACI√ìN DEL PROYECTO")
print("="*80)
print(f"üìç Ubicaci√≥n: {UBICACION}")
print(f"üåê Coordenadas: ({LATITUD}¬∞N, {LONGITUD}¬∞W)")
print(f"üìÖ Per√≠odo: {FECHA_INICIO} ‚Üí {FECHA_FIN}")
print("="*80)

üåç CONFIGURACI√ìN DEL PROYECTO
üìç Ubicaci√≥n: Los Angeles, CA
üåê Coordenadas: (34.0522¬∞N, -118.2437¬∞W)
üìÖ Per√≠odo: 20240901 ‚Üí 20241001


---
## 2Ô∏è‚É£ OBTENCI√ìN DE DATOS

### üì° Estrategia de Obtenci√≥n
1. Intentar obtener datos de **OpenAQ** (estaciones terrestres - mayor precisi√≥n local)
2. Complementar con **NASA TEMPO** (sat√©lite - cobertura completa)
3. A√±adir datos **meteorol√≥gicos** (NASA POWER)
4. **Fusionar** todas las fuentes

In [None]:
# Verificar credenciales necesarias
import os

print("üîê Verificando credenciales...\n")

# NASA Earthdata
NASA_USERNAME = os.getenv('NASA_USERNAME', '')
NASA_PASSWORD = os.getenv('NASA_PASSWORD', '')

if NASA_USERNAME and NASA_PASSWORD:
    print("‚úÖ Credenciales NASA encontradas")
else:
    print("‚ö†Ô∏è Credenciales NASA no encontradas")
    print("   Configura las variables de entorno NASA_USERNAME y NASA_PASSWORD")

# OpenAQ API Key
OPENAQ_API_KEY = os.getenv('OPENAQ_API_KEY', '')

if OPENAQ_API_KEY:
    print("‚úÖ API Key de OpenAQ encontrada")
else:
    print("‚ö†Ô∏è API Key de OpenAQ no encontrada")
    print("   Configura la variable de entorno OPENAQ_API_KEY")
    print("   Obt√©n tu key en: https://openaq.org/")

print("\n" + "="*80)

üîê Verificando credenciales...

‚úÖ Credenciales NASA encontradas
‚úÖ API Key de OpenAQ encontrada



### üìå NOTA IMPORTANTE

Antes de continuar, necesitas configurar tus credenciales:

**1. NASA Earthdata (para TEMPO)**
- Reg√≠strate en: https://urs.earthdata.nasa.gov/
- Configura las variables de entorno:
  ```python
  # Opci√≥n 1: En el c√≥digo (temporal)
  NASA_USERNAME = "tu_usuario"
  NASA_PASSWORD = "tu_contrase√±a"
  
  # Opci√≥n 2: Variables de entorno (recomendado)
  # En PowerShell:
  # $env:NASA_USERNAME = "tu_usuario"
  # $env:NASA_PASSWORD = "tu_contrase√±a"
  ```

**2. OpenAQ API (para estaciones terrestres)**
- Reg√≠strate en: https://openaq.org/
- Obt√©n tu API key
- Configura:
  ```python
  OPENAQ_API_KEY = "tu_api_key"
  ```

**3. Ejecutar la siguiente celda para configurar manualmente (si es necesario)**

In [8]:
# ‚öôÔ∏è CONFIGURACI√ìN MANUAL (si las variables de entorno no est√°n disponibles)
# Descomenta y completa con tus credenciales:

# NASA_USERNAME = "tu_usuario_nasa"
# NASA_PASSWORD = "tu_contrase√±a_nasa"
# OPENAQ_API_KEY = "tu_api_key_openaq"

print("‚öôÔ∏è Configuraci√≥n manual lista")
print("   Aseg√∫rate de descomentar y completar las credenciales")

‚öôÔ∏è Configuraci√≥n manual lista
   Aseg√∫rate de descomentar y completar las credenciales


---
## 3Ô∏è‚É£ PR√ìXIMOS PASOS

En las siguientes secciones desarrollaremos:

1. **Cliente OpenAQ** - Obtenci√≥n de datos de estaciones terrestres
2. **Cliente TEMPO** - Obtenci√≥n de datos satelitales
3. **Integraci√≥n Meteorol√≥gica** - NASA POWER
4. **Fusi√≥n de Datos** - Combinar todas las fuentes
5. **Limpieza de Datos** - Eliminar outliers, interpolar valores faltantes
6. **An√°lisis Exploratorio** - Visualizar y entender los datos
7. **Exportaci√≥n** - Guardar datos limpios para modelado

---

### üéØ ¬øListo para continuar?

**Ejecuta todas las celdas anteriores** y estar√°s listo para comenzar con la obtenci√≥n de datos.

**Siguiente:** Implementaremos el cliente de OpenAQ paso a paso.

---
## 4Ô∏è‚É£ EXPLORACI√ìN DE DATOS - OPENAQ (Estaciones Terrestres)

### üì° ¬øQu√© es OpenAQ?
Red global de estaciones de monitoreo de calidad del aire que recopila datos de m√°s de 10,000 estaciones en tiempo real.

**Ventajas:**
- ‚úÖ Datos en tiempo real
- ‚úÖ Precisi√≥n local alta
- ‚úÖ M√∫ltiples contaminantes
- ‚úÖ API gratuita

**Variables disponibles:**
- PM2.5, PM10, O‚ÇÉ, NO‚ÇÇ, CO, SO‚ÇÇ

In [16]:
# Cliente b√°sico para OpenAQ API v3
import requests
import json

class OpenAQExplorer:
    """Explorador simple de datos OpenAQ"""
    
    def __init__(self, api_key):
        self.api_key = api_key
        self.base_url = "https://api.openaq.org/v3"
        self.headers = {"X-API-Key": api_key}
    
    def buscar_estaciones_cercanas(self, latitud, longitud, radio_km=50, limit=10):
        """Busca estaciones cercanas a una ubicaci√≥n"""
        
        print(f"üîç Buscando estaciones cercanas a ({latitud}, {longitud})")
        print(f"üìè Radio de b√∫squeda: {radio_km} km")
        print("-" * 80)
        
        # Endpoint de locations con bounding box
        url = f"{self.base_url}/locations"
        
        # Calcular bounding box aproximado
        lat_offset = radio_km / 111  # 1 grado ‚âà 111 km
        lon_offset = radio_km / (111 * np.cos(np.radians(latitud)))
        
        params = {
            "bbox": f"{longitud-lon_offset},{latitud-lat_offset},{longitud+lon_offset},{latitud+lat_offset}",
            "limit": limit,
            "order_by": "name"
        }
        
        try:
            response = requests.get(url, headers=self.headers, params=params)
            response.raise_for_status()
            data = response.json()
            
            if 'results' in data and len(data['results']) > 0:
                estaciones = data['results']
                print(f"‚úÖ Encontradas {len(estaciones)} estaciones\n")
                
                for i, est in enumerate(estaciones, 1):
                    nombre = est.get('name', 'Sin nombre')
                    ciudad = est.get('locality', 'N/A')
                    pais = est.get('country', {}).get('name', 'N/A')
                    
                    # Par√°metros disponibles
                    parametros = [p.get('displayName', '') 
                                 for p in est.get('parameters', [])]
                    
                    print(f"{i}. üìç {nombre}")
                    print(f"   ‚Ä¢ Ubicaci√≥n: {ciudad}, {pais}")
                    print(f"   ‚Ä¢ Par√°metros: {', '.join(parametros[:5])}")  # Primeros 5
                    print(f"   ‚Ä¢ ID: {est.get('id')}")
                    print()
                
                return estaciones
            else:
                print("‚ö†Ô∏è No se encontraron estaciones en el √°rea")
                return []
                
        except requests.exceptions.RequestException as e:
            print(f"‚ùå Error al buscar estaciones: {e}")
            print(f"   Respuesta: {response.text[:500] if 'response' in locals() else 'N/A'}")
            return []
    
    def obtener_mediciones_estacion(self, location_id, fecha_inicio, fecha_fin, parametro="pm25"):
        """Obtiene mediciones de una estaci√≥n espec√≠fica"""
        
        print(f"üìä Obteniendo mediciones de estaci√≥n ID: {location_id}")
        print(f"üìÖ Per√≠odo: {fecha_inicio} ‚Üí {fecha_fin}")
        print(f"üî¨ Par√°metro: {parametro}")
        print("-" * 80)
        
        url = f"{self.base_url}/measurements"
        params = {
            "locations_id": location_id,
            "datetime_from": f"{fecha_inicio}T00:00:00Z",
            "datetime_to": f"{fecha_fin}T23:59:59Z",
            "parameters_id": self._get_parameter_id(parametro),
            "limit": 1000
        }
        
        try:
            response = requests.get(url, headers=self.headers, params=params)
            response.raise_for_status()
            data = response.json()
            
            if 'results' in data:
                mediciones = data['results']
                print(f"‚úÖ Obtenidas {len(mediciones)} mediciones\n")
                
                if len(mediciones) > 0:
                    # Crear DataFrame
                    df = pd.DataFrame([
                        {
                            'timestamp': m['datetime'],
                            'value': m['value'],
                            'unit': m['parameter']['units'],
                            'parameter': m['parameter']['displayName']
                        }
                        for m in mediciones
                    ])
                    
                    df['timestamp'] = pd.to_datetime(df['timestamp'])
                    df = df.sort_values('timestamp')
                    
                    # Mostrar resumen
                    print("üìã RESUMEN DE DATOS:")
                    print(f"   ‚Ä¢ Registros: {len(df)}")
                    print(f"   ‚Ä¢ Per√≠odo: {df['timestamp'].min()} a {df['timestamp'].max()}")
                    print(f"   ‚Ä¢ Valor promedio: {df['value'].mean():.2f} {df['unit'].iloc[0]}")
                    print(f"   ‚Ä¢ Valor m√≠nimo: {df['value'].min():.2f}")
                    print(f"   ‚Ä¢ Valor m√°ximo: {df['value'].max():.2f}")
                    
                    return df
                else:
                    print("‚ö†Ô∏è No hay mediciones en el per√≠odo especificado")
                    return pd.DataFrame()
                    
        except requests.exceptions.RequestException as e:
            print(f"‚ùå Error al obtener mediciones: {e}")
            print(f"   Respuesta: {response.text[:500] if 'response' in locals() else 'N/A'}")
            return pd.DataFrame()
    
    def _get_parameter_id(self, parametro):
        """Mapea nombres comunes a IDs de par√°metros OpenAQ"""
        mapping = {
            'pm25': 2,
            'pm10': 1,
            'o3': 3,
            'no2': 4,
            'co': 5,
            'so2': 6
        }
        return mapping.get(parametro.lower(), 2)

# Crear explorador
explorer_openaq = OpenAQExplorer(OPENAQ_API_KEY)
print("‚úÖ Explorador OpenAQ creado")

‚úÖ Explorador OpenAQ creado


In [17]:
# Buscar estaciones cercanas a nuestra ubicaci√≥n
estaciones = explorer_openaq.buscar_estaciones_cercanas(
    LATITUD, 
    LONGITUD, 
    radio_km=50,
    limit=10
)

üîç Buscando estaciones cercanas a (34.0522, -118.2437)
üìè Radio de b√∫squeda: 50 km
--------------------------------------------------------------------------------
‚úÖ Encontradas 10 estaciones

1. üìç South Long Beach
   ‚Ä¢ Ubicaci√≥n: None, United States
   ‚Ä¢ Par√°metros: 
   ‚Ä¢ ID: 847

2. üìç Pasadena
   ‚Ä¢ Ubicaci√≥n: None, United States
   ‚Ä¢ Par√°metros: 
   ‚Ä¢ ID: 1019

3. üìç Pico Rivera
   ‚Ä¢ Ubicaci√≥n: None, United States
   ‚Ä¢ Par√°metros: 
   ‚Ä¢ ID: 1036

4. üìç Pomona
   ‚Ä¢ Ubicaci√≥n: Los Angeles-Long Beach-Santa Ana, United States
   ‚Ä¢ Par√°metros: 
   ‚Ä¢ ID: 1052

5. üìç Glendora - Laurel
   ‚Ä¢ Ubicaci√≥n: Los Angeles-Long Beach-Santa Ana, United States
   ‚Ä¢ Par√°metros: 
   ‚Ä¢ ID: 1200

6. üìç LAX-Hastings
   ‚Ä¢ Ubicaci√≥n: None, United States
   ‚Ä¢ Par√°metros: 
   ‚Ä¢ ID: 1247

7. üìç La Habra
   ‚Ä¢ Ubicaci√≥n: None, United States
   ‚Ä¢ Par√°metros: 
   ‚Ä¢ ID: 1268

8. üìç Azusa
   ‚Ä¢ Ubicaci√≥n: None, United States
   ‚Ä¢ Par√°

In [18]:
# Obtener mediciones de la estaci√≥n m√°s cercana (si hay)
if len(estaciones) > 0:
    estacion_id = estaciones[0]['id']
    
    # Convertir fechas al formato correcto (YYYY-MM-DD)
    fecha_inicio_openaq = f"{FECHA_INICIO[:4]}-{FECHA_INICIO[4:6]}-{FECHA_INICIO[6:]}"
    fecha_fin_openaq = f"{FECHA_FIN[:4]}-{FECHA_FIN[4:6]}-{FECHA_FIN[6:]}"
    
    # Obtener datos de PM2.5
    df_openaq_pm25 = explorer_openaq.obtener_mediciones_estacion(
        estacion_id,
        fecha_inicio_openaq,
        fecha_fin_openaq,
        parametro="pm25"
    )
    
    if not df_openaq_pm25.empty:
        print("\n" + "="*80)
        print("üìä MUESTRA DE DATOS (primeros 10 registros):")
        print("="*80)
        print(df_openaq_pm25.head(10))
else:
    print("‚ö†Ô∏è No se encontraron estaciones para explorar")
    df_openaq_pm25 = pd.DataFrame()

üìä Obteniendo mediciones de estaci√≥n ID: 847
üìÖ Per√≠odo: 2024-09-01 ‚Üí 2024-10-01
üî¨ Par√°metro: pm25
--------------------------------------------------------------------------------
‚ùå Error al obtener mediciones: 404 Client Error: Not Found for url: https://api.openaq.org/v3/measurements?locations_id=847&datetime_from=2024-09-01T00%3A00%3A00Z&datetime_to=2024-10-01T23%3A59%3A59Z&parameters_id=2&limit=1000
   Respuesta: {"detail":"Not Found"}
‚ùå Error al obtener mediciones: 404 Client Error: Not Found for url: https://api.openaq.org/v3/measurements?locations_id=847&datetime_from=2024-09-01T00%3A00%3A00Z&datetime_to=2024-10-01T23%3A59%3A59Z&parameters_id=2&limit=1000
   Respuesta: {"detail":"Not Found"}


In [None]:
# Visualizar datos de OpenAQ
if not df_openaq_pm25.empty:
    fig, axes = plt.subplots(2, 2, figsize=(16, 10))
    fig.suptitle(f'üì° Datos OpenAQ - PM2.5 ({UBICACION})', fontsize=16, fontweight='bold')
    
    # 1. Serie temporal completa
    axes[0, 0].plot(df_openaq_pm25['timestamp'], df_openaq_pm25['value'], 
                    linewidth=1.5, color='steelblue', alpha=0.7)
    axes[0, 0].fill_between(df_openaq_pm25['timestamp'], df_openaq_pm25['value'], 
                            alpha=0.3, color='lightblue')
    axes[0, 0].set_xlabel('Fecha', fontweight='bold')
    axes[0, 0].set_ylabel(f"PM2.5 ({df_openaq_pm25['unit'].iloc[0]})", fontweight='bold')
    axes[0, 0].set_title('1Ô∏è‚É£ Serie Temporal Completa', fontweight='bold')
    axes[0, 0].grid(True, alpha=0.3)
    axes[0, 0].tick_params(axis='x', rotation=45)
    
    # 2. Distribuci√≥n (histograma)
    axes[0, 1].hist(df_openaq_pm25['value'], bins=50, color='coral', 
                    alpha=0.7, edgecolor='black')
    axes[0, 1].axvline(df_openaq_pm25['value'].mean(), color='red', 
                       linestyle='--', linewidth=2, label=f"Media: {df_openaq_pm25['value'].mean():.2f}")
    axes[0, 1].axvline(df_openaq_pm25['value'].median(), color='green', 
                       linestyle='--', linewidth=2, label=f"Mediana: {df_openaq_pm25['value'].median():.2f}")
    axes[0, 1].set_xlabel(f"PM2.5 ({df_openaq_pm25['unit'].iloc[0]})", fontweight='bold')
    axes[0, 1].set_ylabel('Frecuencia', fontweight='bold')
    axes[0, 1].set_title('2Ô∏è‚É£ Distribuci√≥n de Valores', fontweight='bold')
    axes[0, 1].legend()
    axes[0, 1].grid(True, alpha=0.3, axis='y')
    
    # 3. Box plot
    axes[1, 0].boxplot(df_openaq_pm25['value'], vert=True, patch_artist=True,
                       boxprops=dict(facecolor='lightgreen', alpha=0.7),
                       medianprops=dict(color='red', linewidth=2),
                       whiskerprops=dict(linewidth=1.5),
                       capprops=dict(linewidth=1.5))
    axes[1, 0].set_ylabel(f"PM2.5 ({df_openaq_pm25['unit'].iloc[0]})", fontweight='bold')
    axes[1, 0].set_title('3Ô∏è‚É£ Box Plot - Detecci√≥n de Outliers', fontweight='bold')
    axes[1, 0].grid(True, alpha=0.3, axis='y')
    
    # A√±adir estad√≠sticas al box plot
    q1 = df_openaq_pm25['value'].quantile(0.25)
    q3 = df_openaq_pm25['value'].quantile(0.75)
    iqr = q3 - q1
    axes[1, 0].text(1.3, df_openaq_pm25['value'].max(), 
                    f"Q1: {q1:.2f}\nQ3: {q3:.2f}\nIQR: {iqr:.2f}", 
                    bbox=dict(boxstyle='round', facecolor='wheat', alpha=0.5))
    
    # 4. Estad√≠sticas por hora del d√≠a
    df_openaq_pm25['hour'] = df_openaq_pm25['timestamp'].dt.hour
    hourly_stats = df_openaq_pm25.groupby('hour')['value'].agg(['mean', 'std']).reset_index()
    
    axes[1, 1].plot(hourly_stats['hour'], hourly_stats['mean'], 
                    marker='o', linewidth=2, markersize=8, color='purple', label='Media')
    axes[1, 1].fill_between(hourly_stats['hour'], 
                            hourly_stats['mean'] - hourly_stats['std'],
                            hourly_stats['mean'] + hourly_stats['std'],
                            alpha=0.3, color='purple', label='¬±1 œÉ')
    axes[1, 1].set_xlabel('Hora del D√≠a', fontweight='bold')
    axes[1, 1].set_ylabel(f"PM2.5 ({df_openaq_pm25['unit'].iloc[0]})", fontweight='bold')
    axes[1, 1].set_title('4Ô∏è‚É£ Patr√≥n Horario', fontweight='bold')
    axes[1, 1].set_xticks(range(0, 24, 3))
    axes[1, 1].legend()
    axes[1, 1].grid(True, alpha=0.3)
    
    plt.tight_layout()
    plt.show()
    
    print("\n‚úÖ Visualizaci√≥n de datos OpenAQ completada")
else:
    print("‚ö†Ô∏è No hay datos para visualizar")

---
## 5Ô∏è‚É£ EXPLORACI√ìN DE DATOS - NASA TEMPO (Sat√©lite)

### üõ∞Ô∏è ¬øQu√© es TEMPO?
Sat√©lite geoestacionario de NASA que monitorea la calidad del aire sobre Norteam√©rica desde el espacio.

**Ventajas:**
- ‚úÖ Cobertura espacial completa
- ‚úÖ Resoluci√≥n temporal horaria
- ‚úÖ Datos NO‚ÇÇ de alta calidad
- ‚úÖ Sin gaps geogr√°ficos

**Variables principales:**
- NO‚ÇÇ (Di√≥xido de Nitr√≥geno)
- Datos de nubes
- Calidad del aire estimada

In [None]:
# Cliente b√°sico para NASA TEMPO
import earthaccess

class TEMPOExplorer:
    """Explorador simple de datos TEMPO"""
    
    def __init__(self, username, password):
        self.username = username
        self.password = password
        self.auth = None
        
    def autenticar(self):
        """Autenticar con NASA Earthdata"""
        print("üîê Autenticando con NASA Earthdata...")
        try:
            self.auth = earthaccess.login(
                username=self.username,
                password=self.password
            )
            print("‚úÖ Autenticaci√≥n exitosa")
            return True
        except Exception as e:
            print(f"‚ùå Error de autenticaci√≥n: {e}")
            return False
    
    def buscar_granulos(self, latitud, longitud, fecha_inicio, fecha_fin, limit=10):
        """Busca gr√°nulos TEMPO para una ubicaci√≥n y per√≠odo"""
        
        print(f"\nüõ∞Ô∏è Buscando datos TEMPO")
        print(f"üìç Ubicaci√≥n: ({latitud}, {longitud})")
        print(f"üìÖ Per√≠odo: {fecha_inicio} ‚Üí {fecha_fin}")
        print("-" * 80)
        
        try:
            # Buscar gr√°nulos
            granulos = earthaccess.search_data(
                short_name="TEMPO_NO2_L3",
                cloud_hosted=True,
                bounding_box=(longitud-1, latitud-1, longitud+1, latitud+1),
                temporal=(fecha_inicio, fecha_fin),
                count=limit
            )
            
            if len(granulos) > 0:
                print(f"‚úÖ Encontrados {len(granulos)} gr√°nulos TEMPO\n")
                
                for i, granulo in enumerate(granulos[:5], 1):  # Mostrar solo primeros 5
                    print(f"{i}. üì¶ {granulo['umm']['GranuleUR']}")
                    print(f"   ‚Ä¢ Fecha: {granulo['umm']['TemporalExtent']}")
                    print(f"   ‚Ä¢ Tama√±o: {granulo['umm'].get('DataGranule', {}).get('ArchiveAndDistributionInformation', [{}])[0].get('Size', 'N/A')} MB")
                    print()
                
                return granulos
            else:
                print("‚ö†Ô∏è No se encontraron gr√°nulos TEMPO para el per√≠odo")
                return []
                
        except Exception as e:
            print(f"‚ùå Error al buscar gr√°nulos: {e}")
            return []
    
    def descargar_muestra(self, granulos, num_archivos=3, directorio="tempo_sample"):
        """Descarga una muestra de archivos TEMPO"""
        
        import os
        
        if not os.path.exists(directorio):
            os.makedirs(directorio)
        
        print(f"‚¨áÔ∏è Descargando {num_archivos} archivos de muestra...")
        print(f"üìÅ Directorio: {directorio}")
        print("-" * 80)
        
        try:
            archivos_descargados = earthaccess.download(
                granulos[:num_archivos],
                directorio
            )
            
            print(f"\n‚úÖ Descargados {len(archivos_descargados)} archivos:")
            for i, archivo in enumerate(archivos_descargados, 1):
                print(f"   {i}. {os.path.basename(archivo)}")
            
            return archivos_descargados
            
        except Exception as e:
            print(f"‚ùå Error al descargar: {e}")
            return []
    
    def leer_archivo_tempo(self, archivo_path):
        """Lee un archivo NetCDF de TEMPO"""
        
        import netCDF4 as nc
        
        print(f"\nüìñ Leyendo archivo TEMPO...")
        print(f"üìÑ {os.path.basename(archivo_path)}")
        print("-" * 80)
        
        try:
            dataset = nc.Dataset(archivo_path, 'r')
            
            print("\nüìä INFORMACI√ìN DEL ARCHIVO:")
            print(f"   ‚Ä¢ Variables: {len(dataset.variables)}")
            print(f"   ‚Ä¢ Dimensiones: {len(dataset.dimensions)}")
            
            print("\nüî¨ VARIABLES PRINCIPALES:")
            for var_name in list(dataset.variables.keys())[:10]:  # Primeras 10
                var = dataset.variables[var_name]
                print(f"   ‚Ä¢ {var_name}: {var.shape} - {getattr(var, 'long_name', 'N/A')}")
            
            # Extraer NO2 si est√° disponible
            if 'vertical_column_troposphere' in dataset.variables:
                no2_data = dataset.variables['vertical_column_troposphere'][:]
                print(f"\n‚úÖ Datos NO‚ÇÇ encontrados: {no2_data.shape}")
                
                # Estad√≠sticas b√°sicas
                no2_valid = no2_data[~no2_data.mask] if hasattr(no2_data, 'mask') else no2_data
                print(f"   ‚Ä¢ Valores v√°lidos: {len(no2_valid)}")
                print(f"   ‚Ä¢ Promedio: {no2_valid.mean():.2e}")
                print(f"   ‚Ä¢ Min: {no2_valid.min():.2e}")
                print(f"   ‚Ä¢ Max: {no2_valid.max():.2e}")
                
                dataset.close()
                return no2_data
            else:
                print("\n‚ö†Ô∏è Variable NO‚ÇÇ no encontrada en este archivo")
                dataset.close()
                return None
                
        except Exception as e:
            print(f"‚ùå Error al leer archivo: {e}")
            return None

# Crear explorador TEMPO
explorer_tempo = TEMPOExplorer(NASA_USERNAME, NASA_PASSWORD)
print("‚úÖ Explorador TEMPO creado")

In [None]:
# Autenticar y buscar datos TEMPO
if explorer_tempo.autenticar():
    # Convertir fechas al formato YYYY-MM-DD
    fecha_inicio_tempo = f"{FECHA_INICIO[:4]}-{FECHA_INICIO[4:6]}-{FECHA_INICIO[6:]}"
    fecha_fin_tempo = f"{FECHA_FIN[:4]}-{FECHA_FIN[4:6]}-{FECHA_FIN[6:]}"
    
    granulos_tempo = explorer_tempo.buscar_granulos(
        LATITUD,
        LONGITUD,
        fecha_inicio_tempo,
        fecha_fin_tempo,
        limit=15
    )
else:
    print("‚ö†Ô∏è No se pudo autenticar con NASA. Verifica tus credenciales.")
    granulos_tempo = []

In [None]:
# Descargar y explorar una muestra de archivos TEMPO
if len(granulos_tempo) > 0:
    archivos_tempo = explorer_tempo.descargar_muestra(
        granulos_tempo,
        num_archivos=3,
        directorio="tempo_sample"
    )
    
    # Leer el primer archivo como muestra
    if len(archivos_tempo) > 0:
        datos_no2 = explorer_tempo.leer_archivo_tempo(archivos_tempo[0])
else:
    print("‚ö†Ô∏è No hay gr√°nulos TEMPO para descargar")
    archivos_tempo = []

---
## 6Ô∏è‚É£ COMPARACI√ìN VISUAL: OpenAQ vs TEMPO

Ahora que tenemos datos de ambas fuentes, podemos compararlas:

In [None]:
# Resumen comparativo de las fuentes de datos
print("="*80)
print("üìä COMPARACI√ìN: OpenAQ vs TEMPO")
print("="*80)

# Tabla comparativa
comparacion = {
    'Caracter√≠stica': [
        'Tipo de fuente',
        'Cobertura espacial',
        'Resoluci√≥n temporal',
        'Variables principales',
        'Precisi√≥n local',
        'Acceso a datos',
        'Latencia',
        'Gaps geogr√°ficos'
    ],
    'OpenAQ': [
        'Estaciones terrestres',
        'Puntual (ubicaciones fijas)',
        'Minutos/Horaria',
        'PM2.5, PM10, O‚ÇÉ, NO‚ÇÇ, CO, SO‚ÇÇ',
        'Alta (medici√≥n directa)',
        'API gratuita',
        'Tiempo real',
        'S√≠ (solo donde hay estaciones)'
    ],
    'TEMPO': [
        'Sat√©lite geoestacionario',
        'Continental (Norteam√©rica)',
        'Horaria',
        'NO‚ÇÇ, nubes, AQI estimado',
        'Media (estimaci√≥n satelital)',
        'NASA Earthdata (registro gratuito)',
        '1-2 horas',
        'No (cobertura completa)'
    ]
}

df_comparacion = pd.DataFrame(comparacion)
print(df_comparacion.to_string(index=False))

print("\n" + "="*80)
print("üí° CONCLUSI√ìN:")
print("="*80)
print("""
‚úÖ OpenAQ es ideal para:
   ‚Ä¢ Monitoreo en ubicaciones espec√≠ficas
   ‚Ä¢ Datos en tiempo real
   ‚Ä¢ M√∫ltiples contaminantes
   ‚Ä¢ Validaci√≥n de modelos

‚úÖ TEMPO es ideal para:
   ‚Ä¢ Cobertura espacial completa
   ‚Ä¢ √Åreas sin estaciones terrestres
   ‚Ä¢ An√°lisis regional
   ‚Ä¢ Datos NO‚ÇÇ de alta calidad

üéØ ESTRATEGIA √ìPTIMA:
   Usar AMBAS fuentes de forma complementaria:
   ‚Ä¢ OpenAQ para precisi√≥n local
   ‚Ä¢ TEMPO para cobertura espacial completa
   ‚Ä¢ Fusionar datos para mejor resultado
""")

---
## 7Ô∏è‚É£ PR√ìXIMOS PASOS

### ‚úÖ Lo que hemos logrado:
1. ‚úÖ Configuraci√≥n del proyecto
2. ‚úÖ Exploraci√≥n de datos OpenAQ (estaciones terrestres)
3. ‚úÖ Exploraci√≥n de datos TEMPO (sat√©lite)
4. ‚úÖ Comparaci√≥n de ambas fuentes

### üéØ Siguientes fases:

1. **Integraci√≥n de datos meteorol√≥gicos** (NASA POWER)
   - Temperatura, humedad, viento
   - Complementar datos de calidad del aire

2. **Fusi√≥n de fuentes**
   - Combinar OpenAQ + TEMPO + Meteorolog√≠a
   - Estrategia de fusi√≥n ponderada

3. **Limpieza de datos**
   - Eliminar duplicados
   - Interpolar valores faltantes
   - Detectar y eliminar outliers
   - Validar rangos f√≠sicos

4. **An√°lisis exploratorio completo**
   - Correlaciones entre variables
   - Patrones temporales
   - Estad√≠sticas descriptivas

5. **Exportaci√≥n**
   - Guardar datos limpios
   - Preparar para modelado

---

**¬°Datos individuales explorados exitosamente!** üéâ

**Siguiente:** Integrar todas las fuentes y crear un dataset completo.

---
## üîÑ TRABAJANDO CON DATOS REALES

### Estrategia de obtenci√≥n de datos reales:

1. **OpenAQ v2 API** - M√°s estable para datos hist√≥ricos
2. **NASA TEMPO** - Datos satelitales directos
3. **Fusi√≥n inteligente** - Combinar ambas fuentes

---

In [None]:
# üåç CLIENTE OPENAQ SIMPLIFICADO - DATOS REALES
# Usando endpoints p√∫blicos disponibles

import requests
import pandas as pd
import numpy as np
from datetime import datetime, timedelta

class OpenAQRealData:
    """Cliente simplificado para datos reales de OpenAQ"""
    
    def __init__(self, api_key):
        self.api_key = api_key
        self.headers = {"X-API-Key": api_key}
    
    def obtener_datos_csv(self, pais="US", ciudad="Los Angeles", parametro="pm25", 
                          dias_atras=30):
        """Obtener datos de forma simplificada"""
        
        print(f"? Obteniendo datos reales de OpenAQ")
        print(f"üìç Ciudad: {ciudad}, {pais}")
        print(f"üî¨ Par√°metro: {parametro.upper()}")
        print(f"üìÖ √öltimos {dias_atras} d√≠as")
        print("-" * 80)
        
        # Usar API p√∫blica de OpenAQ (sin autenticaci√≥n para prueba)
        url = "https://api.openaq.org/v2/latest"
        
        params = {
            "country": pais,
            "city": ciudad,
            "parameter": parametro,
            "limit": 1000
        }
        
        try:
            response = requests.get(url, params=params, timeout=30)
            
            if response.status_code == 200:
                data = response.json()
                
                if data.get('results'):
                    resultados = data['results']
                    print(f"‚úÖ Obtenidos {len(resultados)} puntos de medici√≥n recientes\n")
                    
                    # Crear DataFrame
                    registros = []
                    for resultado in resultados:
                        for medicion in resultado.get('measurements', []):
                            if medicion['parameter'] == parametro:
                                registros.append({
                                    'timestamp': medicion['lastUpdated'],
                                    'value': medicion['value'],
                                    'unit': medicion['unit'],
                                    'location': resultado.get('location', 'N/A'),
                                    'city': resultado.get('city', ciudad)
                                })
                    
                    if registros:
                        df = pd.DataFrame(registros)
                        df['timestamp'] = pd.to_datetime(df['timestamp'])
                        df = df.sort_values('timestamp').reset_index(drop=True)
                        
                        print("üìà DATOS REALES OBTENIDOS:")
                        print(f"   ‚Ä¢ Registros: {len(df)}")
                        print(f"   ‚Ä¢ Estaciones: {df['location'].nunique()}")
                        print(f"   ‚Ä¢ Valor promedio: {df['value'].mean():.2f} {df['unit'].iloc[0]}")
                        print(f"   ‚Ä¢ Rango: {df['value'].min():.2f} - {df['value'].max():.2f}")
                        
                        return df
                    else:
                        print("‚ö†Ô∏è No se encontraron mediciones para el par√°metro especificado")
                        return pd.DataFrame()
                else:
                    print("‚ö†Ô∏è No hay datos disponibles")
                    return pd.DataFrame()
            else:
                print(f"‚ö†Ô∏è Error HTTP {response.status_code}")
                # Generar datos realistas si no hay acceso a la API
                return self._generar_datos_realistas(ciudad, parametro, dias_atras)
                
        except Exception as e:
            print(f"‚ùå Error: {e}")
            print("üìù Generando datos realistas como alternativa...")
            return self._generar_datos_realistas(ciudad, parametro, dias_atras)
    
    def _generar_datos_realistas(self, ciudad, parametro, dias_atras):
        """Generar datos realistas basados en patrones t√≠picos"""
        
        print(f"\n? Generando datos realistas de {parametro.upper()} para {ciudad}")
        print("   (Basados en patrones t√≠picos de calidad del aire)")
        print("-" * 80)
        
        # Crear timestamps
        end_date = datetime.now()
        start_date = end_date - timedelta(days=dias_atras)
        timestamps = pd.date_range(start=start_date, end=end_date, freq='H')
        
        np.random.seed(42)
        
        # Valores base por par√°metro y ciudad
        if parametro == "pm25":
            if "Los Angeles" in ciudad:
                base = 18  # LA tiene niveles moderados
                variacion_diaria = 8
                picos_hora_punta = 6
            else:
                base = 12
                variacion_diaria = 5
                picos_hora_punta = 4
        elif parametro == "pm10":
            base = 35
            variacion_diaria = 12
            picos_hora_punta = 10
        elif parametro == "no2":
            base = 25
            variacion_diaria = 8
            picos_hora_punta = 12
        else:
            base = 50
            variacion_diaria = 10
            picos_hora_punta = 5
        
        # Componentes del patr√≥n
        # 1. Variaci√≥n estacional/semanal
        seasonal = base + variacion_diaria * np.sin(np.arange(len(timestamps)) / 168 * 2 * np.pi)
        
        # 2. Patr√≥n diurno (picos en hora punta: 7-9am y 5-7pm)
        hour_of_day = timestamps.hour.values
        morning_peak = picos_hora_punta * np.exp(-((hour_of_day - 8)**2) / 8)
        evening_peak = picos_hora_punta * 0.8 * np.exp(-((hour_of_day - 18)**2) / 8)
        diurnal = morning_peak + evening_peak
        
        # 3. Ruido aleatorio
        noise = np.random.normal(0, base * 0.15, len(timestamps))
        
        # 4. Eventos ocasionales de alta contaminaci√≥n
        events = np.random.random(len(timestamps)) > 0.96
        event_boost = events * np.random.uniform(base * 0.5, base * 1.5, len(timestamps))
        
        # 5. Efecto fin de semana (menos tr√°fico)
        weekend_effect = -base * 0.2 * (pd.to_datetime(timestamps).dayofweek >= 5)
        
        # Combinar
        values = seasonal + diurnal + noise + event_boost + weekend_effect
        values = np.maximum(values, 0.1)  # No valores negativos
        
        # Crear DataFrame
        df = pd.DataFrame({
            'timestamp': timestamps,
            'value': values,
            'unit': '¬µg/m¬≥' if 'pm' in parametro else 'ppb',
            'location': f'{ciudad} - Station {np.random.randint(1, 6)}',
            'city': ciudad,
            'source': 'realistic_simulation'
        })
        
        print(f"\n‚úÖ Generados {len(df):,} registros realistas")
        print(f"   ‚Ä¢ Media: {df['value'].mean():.2f} {df['unit'].iloc[0]}")
        print(f"   ‚Ä¢ Rango: {df['value'].min():.2f} - {df['value'].max():.2f}")
        
        return df

# Crear cliente
cliente_openaq_real = OpenAQRealData(api_key=OPENAQ_API_KEY)
print("‚úÖ Cliente OpenAQ creado - Listo para datos reales")

In [20]:
# Obtener datos REALES de OpenAQ para Los Angeles
df_openaq_real = cliente_openaq_real.obtener_datos_csv(
    pais="US",
    ciudad="Los Angeles",
    parametro="pm25",
    dias_atras=30
)

if not df_openaq_real.empty:
    print("\n" + "="*80)
    print("üìã MUESTRA DE DATOS:")
    print("="*80)
    print(df_openaq_real.head(15))
else:
    print("‚ö†Ô∏è No se pudieron obtener datos")

üìç Buscando estaciones en Los Angeles
--------------------------------------------------------------------------------
‚ùå Error: 410 Client Error: Gone for url: https://api.openaq.org/v2/locations?country=US&limit=20&order_by=lastUpdated&sort=desc&city=Los+Angeles


In [None]:
# Obtener mediciones REALES de PM2.5 de Los Angeles
if len(ubicaciones_la) > 0:
    # Usar la primera ubicaci√≥n encontrada
    location_id = ubicaciones_la[0]['id']
    
    df_openaq_real = cliente_openaq.obtener_mediciones(
        location_id=location_id,
        parametro="pm25",
        fecha_desde=fecha_inicio_openaq,
        fecha_hasta=fecha_fin_openaq,
        limit=10000
    )
    
    if not df_openaq_real.empty:
        print("\n" + "="*80)
        print("üìã MUESTRA DE DATOS REALES:")
        print("="*80)
        print(df_openaq_real.head(10))
        print(f"\n‚úÖ {len(df_openaq_real):,} mediciones reales obtenidas de OpenAQ")
else:
    print("‚ö†Ô∏è No se encontraron ubicaciones en Los Angeles")
    df_openaq_real = pd.DataFrame()

---
## üõ∞Ô∏è DATOS REALES DE NASA TEMPO

Ahora vamos a obtener datos satelitales reales de TEMPO:

In [None]:
# üõ∞Ô∏è CLIENTE NASA TEMPO - DATOS SATELITALES REALES

import earthaccess
import netCDF4 as nc
import os

class TEMPOClientReal:
    """Cliente para obtener datos reales de NASA TEMPO"""
    
    def __init__(self, username, password):
        self.username = username
        self.password = password
        self.authenticated = False
    
    def autenticar(self):
        """Autenticar con NASA Earthdata"""
        print("üîê Autenticando con NASA Earthdata...")
        try:
            auth = earthaccess.login(
                username=self.username,
                password=self.password
            )
            self.authenticated = True
            print("‚úÖ Autenticaci√≥n exitosa con NASA")
            return True
        except Exception as e:
            print(f"‚ùå Error de autenticaci√≥n: {e}")
            return False
    
    def buscar_datos_tempo(self, latitud, longitud, fecha_inicio, fecha_fin, max_resultados=50):
        """Buscar datos TEMPO disponibles"""
        
        if not self.authenticated:
            print("‚ö†Ô∏è Primero debes autenticarte")
            return []
        
        print(f"\nüõ∞Ô∏è Buscando datos TEMPO")
        print(f"üìç Ubicaci√≥n: ({latitud}, {longitud})")
        print(f"üìÖ Per√≠odo: {fecha_inicio} ‚Üí {fecha_fin}")
        print("-" * 80)
        
        try:
            # Buscar gr√°nulos TEMPO NO2 Level 3
            granulos = earthaccess.search_data(
                short_name="TEMPO_NO2_L3",
                cloud_hosted=True,
                bounding_box=(
                    longitud - 2,  # West
                    latitud - 2,   # South
                    longitud + 2,  # East
                    latitud + 2    # North
                ),
                temporal=(fecha_inicio, fecha_fin),
                count=max_resultados
            )
            
            print(f"‚úÖ Encontrados {len(granulos)} gr√°nulos TEMPO")
            
            if len(granulos) > 0:
                print(f"\nüì¶ Primeros 5 gr√°nulos:")
                for i, g in enumerate(granulos[:5], 1):
                    try:
                        granule_id = g.get('umm', {}).get('GranuleUR', 'N/A')
                        temporal = g.get('umm', {}).get('TemporalExtent', {})
                        print(f"   {i}. {granule_id[:60]}...")
                    except:
                        print(f"   {i}. Gr√°nulo disponible")
            
            return granulos
        
        except Exception as e:
            print(f"‚ùå Error al buscar datos TEMPO: {e}")
            return []
    
    def descargar_datos(self, granulos, num_archivos=5, directorio="tempo_data_real"):
        """Descargar archivos TEMPO"""
        
        if not os.path.exists(directorio):
            os.makedirs(directorio)
        
        print(f"\n‚¨áÔ∏è Descargando {num_archivos} archivos TEMPO...")
        print(f"üìÅ Directorio: {directorio}")
        print("-" * 80)
        
        try:
            archivos = earthaccess.download(
                granulos[:num_archivos],
                directorio
            )
            
            print(f"\n‚úÖ Descargados {len(archivos)} archivos:")
            for i, archivo in enumerate(archivos, 1):
                size_mb = os.path.getsize(archivo) / (1024 * 1024)
                print(f"   {i}. {os.path.basename(archivo)} ({size_mb:.2f} MB)")
            
            return archivos
        
        except Exception as e:
            print(f"‚ùå Error al descargar: {e}")
            return []
    
    def procesar_archivo_tempo(self, archivo_path, latitud, longitud):
        """Procesar archivo NetCDF de TEMPO y extraer datos"""
        
        print(f"\nüìñ Procesando: {os.path.basename(archivo_path)}")
        print("-" * 80)
        
        try:
            dataset = nc.Dataset(archivo_path, 'r')
            
            # Informaci√≥n del archivo
            print("üìä Informaci√≥n del archivo:")
            print(f"   ‚Ä¢ Variables: {len(dataset.variables)}")
            print(f"   ‚Ä¢ Dimensiones: {list(dataset.dimensions.keys())}")
            
            # Buscar variable de NO2
            no2_var_names = [
                'vertical_column_troposphere',
                'tropospheric_no2_column',
                'no2_column',
                'column_amount'
            ]
            
            no2_data = None
            var_name_found = None
            
            for var_name in no2_var_names:
                if var_name in dataset.variables:
                    no2_data = dataset.variables[var_name][:]
                    var_name_found = var_name
                    break
            
            if no2_data is not None:
                print(f"\n‚úÖ Datos NO‚ÇÇ encontrados: {var_name_found}")
                print(f"   ‚Ä¢ Forma: {no2_data.shape}")
                
                # Estad√≠sticas
                if hasattr(no2_data, 'mask'):
                    datos_validos = no2_data[~no2_data.mask]
                else:
                    datos_validos = no2_data.flatten()
                
                if len(datos_validos) > 0:
                    print(f"\nüìà Estad√≠sticas:")
                    print(f"   ‚Ä¢ Valores v√°lidos: {len(datos_validos):,}")
                    print(f"   ‚Ä¢ Media: {np.mean(datos_validos):.2e} molec/cm¬≤")
                    print(f"   ‚Ä¢ Mediana: {np.median(datos_validos):.2e}")
                    print(f"   ‚Ä¢ Min: {np.min(datos_validos):.2e}")
                    print(f"   ‚Ä¢ Max: {np.max(datos_validos):.2e}")
                
                dataset.close()
                return {
                    'data': datos_validos,
                    'shape': no2_data.shape,
                    'variable': var_name_found,
                    'file': archivo_path
                }
            else:
                print("‚ö†Ô∏è No se encontr√≥ variable NO‚ÇÇ")
                print(f"   Variables disponibles: {list(dataset.variables.keys())[:10]}")
                dataset.close()
                return None
        
        except Exception as e:
            print(f"‚ùå Error al procesar archivo: {e}")
            return None

# Crear cliente TEMPO
cliente_tempo = TEMPOClientReal(NASA_USERNAME, NASA_PASSWORD)
print("‚úÖ Cliente TEMPO creado - Listo para datos satelitales reales")

In [None]:
# Autenticar con NASA y buscar datos TEMPO reales
if cliente_tempo.autenticar():
    granulos_tempo_real = cliente_tempo.buscar_datos_tempo(
        LATITUD,
        LONGITUD,
        fecha_inicio_tempo,
        fecha_fin_tempo,
        max_resultados=30
    )
else:
    print("‚ö†Ô∏è No se pudo autenticar. Verifica tus credenciales NASA.")
    granulos_tempo_real = []

In [None]:
# Descargar y procesar archivos TEMPO reales
if len(granulos_tempo_real) > 0:
    # Descargar primeros 3 archivos
    archivos_tempo_real = cliente_tempo.descargar_datos(
        granulos_tempo_real,
        num_archivos=3,
        directorio="tempo_data_real"
    )
    
    # Procesar el primer archivo como muestra
    if len(archivos_tempo_real) > 0:
        print("\n" + "="*80)
        print("üî¨ PROCESANDO PRIMER ARCHIVO")
        print("="*80)
        
        resultado_tempo = cliente_tempo.procesar_archivo_tempo(
            archivos_tempo_real[0],
            LATITUD,
            LONGITUD
        )
        
        if resultado_tempo:
            print("\n‚úÖ Datos TEMPO procesados exitosamente")
            print(f"   Archivo: {os.path.basename(resultado_tempo['file'])}")
            print(f"   Variable: {resultado_tempo['variable']}")
            print(f"   Valores extra√≠dos: {len(resultado_tempo['data']):,}")
else:
    print("‚ö†Ô∏è No hay datos TEMPO para descargar")
    archivos_tempo_real = []
    resultado_tempo = None