# **OBTENCI√ìN DE DATOS DE AVIFAUNA - eBird API**

Este notebook obtiene los datos hist√≥ricos de avistamientos de aves en la Presa Abelardo L. Rodr√≠guez usando la API de eBird.

**Requisitos previos:**
- Ejecutar notebooks 1.0, 2.0 y 3.0 para tener el archivo `datos_hidrologicos_completos.csv`
- API key de eBird v√°lida

**Salida:** 
- `../data/raw/avistamientos_ebird_raw.csv` (datos crudos de la API)
- `../data/processed/avistamientos_aves_presa.csv` (datos limpios)

## 1. Importar librer√≠as y configurar rutas

In [1]:
import pandas as pd
import numpy as np
import requests
import time
import json
from pathlib import Path
from datetime import datetime, timedelta
from typing import List, Dict, Optional
import warnings
warnings.filterwarnings('ignore')

# Progress bar
from tqdm.notebook import tqdm

# Configurar rutas siguiendo estructura Cookiecutter
project_dir = Path.cwd().parent
data_raw = project_dir / 'data' / 'raw'
data_processed = project_dir / 'data' / 'processed'

# Crear directorios si no existen
data_raw.mkdir(parents=True, exist_ok=True)
data_processed.mkdir(parents=True, exist_ok=True)

print(f"Directorio de datos raw: {data_raw}")
print(f"Directorio de datos processed: {data_processed}")

Directorio de datos raw: C:\Users\Santy\Documents\GitHub\arhbpalr\arhbpalr\data\raw
Directorio de datos processed: C:\Users\Santy\Documents\GitHub\arhbpalr\arhbpalr\data\processed


## 2. Configuraci√≥n de eBird API

In [2]:
# Configuraci√≥n de la API
EBIRD_API_KEY = "se6b2m6ll8ca"
LOC_ID = "L506196"  # Presa Abelardo L. Rodr√≠guez
API_BASE_URL = "https://api.ebird.org/v2/data/obs"

# Headers requeridos por la API
HEADERS = {
    "X-eBirdApiToken": EBIRD_API_KEY
}

# Configuraci√≥n de throttling y reintentos
SLEEP_BETWEEN_REQUESTS = 0.5  # segundos
MAX_RETRIES = 3
RETRY_BACKOFF = 2  # exponencial
RATE_LIMIT_WAIT = 60  # segundos para esperar si hay rate limit
CHECKPOINT_INTERVAL = 100  # Guardar progreso cada N requests

print("‚úì Configuraci√≥n de API completada")
print(f"  Location ID: {LOC_ID}")
print(f"  Sleep entre requests: {SLEEP_BETWEEN_REQUESTS}s")
print(f"  Max reintentos: {MAX_RETRIES}")

‚úì Configuraci√≥n de API completada
  Location ID: L506196
  Sleep entre requests: 0.5s
  Max reintentos: 3


## 3. Determinar rango de fechas a consultar

In [3]:
# Cargar datos hidrol√≥gicos procesados para obtener la fecha m√°s antigua
file_hidro = data_processed / 'datos_hidrologicos_completos.csv'

if not file_hidro.exists():
    raise FileNotFoundError(
        f"‚ùå No se encontr√≥ {file_hidro}\n"
        "   Ejecuta primero el notebook 3.0-mcd-fusion-datos-hidrologicos.ipynb"
    )

df_hidro = pd.read_csv(file_hidro)
df_hidro['fecha'] = pd.to_datetime(df_hidro['fecha'])

# Filtrar fechas donde hay datos de presa (almacenamiento no es NaN)
df_con_presa = df_hidro[df_hidro['almacenamiento_hm3'].notna()]

# Obtener rango de fechas
fecha_minima = df_con_presa['fecha'].min().date()
fecha_maxima = datetime(2025, 10, 11).date()  # Fecha actual especificada

# Generar lista de fechas a consultar (desde la m√°s reciente a la m√°s antigua)
fechas_a_consultar = []
fecha_actual = fecha_maxima
while fecha_actual >= fecha_minima:
    fechas_a_consultar.append(fecha_actual)
    fecha_actual -= timedelta(days=1)

print("=" * 70)
print("RANGO DE FECHAS A CONSULTAR")
print("=" * 70)
print(f"\nFecha m√°s antigua (datos de presa): {fecha_minima}")
print(f"Fecha m√°s reciente: {fecha_maxima}")
print(f"Total de d√≠as a consultar: {len(fechas_a_consultar):,}")
print(f"\nTiempo estimado (con sleep de {SLEEP_BETWEEN_REQUESTS}s): "
      f"{len(fechas_a_consultar) * SLEEP_BETWEEN_REQUESTS / 3600:.2f} horas")
print("=" * 70)

RANGO DE FECHAS A CONSULTAR

Fecha m√°s antigua (datos de presa): 1947-04-14
Fecha m√°s reciente: 2025-10-11
Total de d√≠as a consultar: 28,671

Tiempo estimado (con sleep de 0.5s): 3.98 horas


## 4. Funciones auxiliares para requests a la API

In [4]:
def hacer_request_ebird(
    fecha: datetime.date,
    loc_id: str = LOC_ID,
    headers: dict = HEADERS,
    max_retries: int = MAX_RETRIES
) -> Optional[List[Dict]]:
    """
    Hace un request a la API de eBird para obtener avistamientos hist√≥ricos.
    
    Args:
        fecha: Fecha a consultar
        loc_id: ID de la localizaci√≥n
        headers: Headers con API key
        max_retries: N√∫mero m√°ximo de reintentos
    
    Returns:
        Lista de avistamientos o None si hay error
    """
    url = f"{API_BASE_URL}/{loc_id}/historic/{fecha.year}/{fecha.month}/{fecha.day}"
    
    for intento in range(max_retries):
        try:
            response = requests.get(url, headers=headers, timeout=30)
            
            # Request exitoso
            if response.status_code == 200:
                return response.json()
            
            # No hay datos para esta fecha
            elif response.status_code == 404:
                return []  # Lista vac√≠a indica que no hay avistamientos
            
            # Rate limit excedido
            elif response.status_code == 429:
                print(f"\n‚ö†Ô∏è  Rate limit alcanzado. Esperando {RATE_LIMIT_WAIT}s...")
                time.sleep(RATE_LIMIT_WAIT)
                continue
            
            # Otros errores HTTP
            else:
                print(f"\n‚ö†Ô∏è  Error HTTP {response.status_code} para {fecha}: {response.text}")
                if intento < max_retries - 1:
                    wait_time = RETRY_BACKOFF ** intento
                    time.sleep(wait_time)
                    continue
                return None
        
        except requests.exceptions.Timeout:
            print(f"\n‚ö†Ô∏è  Timeout para {fecha}. Reintento {intento + 1}/{max_retries}")
            if intento < max_retries - 1:
                time.sleep(RETRY_BACKOFF ** intento)
                continue
            return None
        
        except requests.exceptions.RequestException as e:
            print(f"\n‚ùå Error de red para {fecha}: {e}")
            if intento < max_retries - 1:
                time.sleep(RETRY_BACKOFF ** intento)
                continue
            return None
    
    return None


def extraer_campos_relevantes(avistamiento: Dict) -> Dict:
    """
    Extrae solo los campos relevantes de un avistamiento.
    
    Args:
        avistamiento: Diccionario con datos de avistamiento de la API
    
    Returns:
        Diccionario con campos relevantes
    """
    return {
        'fecha': avistamiento.get('obsDt'),
        'nombre_comun': avistamiento.get('comName'),
        'nombre_cientifico': avistamiento.get('sciName'),
        'cantidad': avistamiento.get('howMany'),
        'codigo_especie': avistamiento.get('speciesCode'),
        'es_exotica': avistamiento.get('exoticCategory', None)
    }


print("‚úì Funciones auxiliares definidas")

‚úì Funciones auxiliares definidas


## 5. Checkpoint: Verificar si hay progreso guardado

In [5]:
checkpoint_file = data_raw / 'checkpoint_avistamientos.json'
checkpoint_data_file = data_raw / 'avistamientos_checkpoint.csv'

# Verificar si hay checkpoint previo
fechas_ya_procesadas = set()
avistamientos_previos = []

if checkpoint_file.exists() and checkpoint_data_file.exists():
    print("üìÇ Checkpoint encontrado. Cargando progreso previo...")
    
    # Cargar checkpoint
    with open(checkpoint_file, 'r') as f:
        checkpoint = json.load(f)
    
    fechas_ya_procesadas = set(checkpoint.get('fechas_procesadas', []))
    
    # Cargar datos previos
    df_previo = pd.read_csv(checkpoint_data_file)
    avistamientos_previos = df_previo.to_dict('records')
    
    print(f"‚úì Cargadas {len(fechas_ya_procesadas):,} fechas procesadas previamente")
    print(f"‚úì Cargados {len(avistamientos_previos):,} avistamientos previos")
    
    # Filtrar fechas ya procesadas
    fechas_a_consultar = [
        f for f in fechas_a_consultar 
        if f.isoformat() not in fechas_ya_procesadas
    ]
    
    print(f"‚úì Quedan {len(fechas_a_consultar):,} fechas por procesar")
else:
    print("üìÇ No se encontr√≥ checkpoint previo. Iniciando desde cero.")

print(f"\nTotal de requests a realizar: {len(fechas_a_consultar):,}")

üìÇ Checkpoint encontrado. Cargando progreso previo...
‚úì Cargadas 3,100 fechas procesadas previamente
‚úì Cargados 3,609 avistamientos previos
‚úì Quedan 25,571 fechas por procesar

Total de requests a realizar: 25,571


## 6. Loop principal: Obtener datos de la API

In [6]:
# Listas para almacenar resultados
todos_avistamientos = avistamientos_previos.copy()
fechas_procesadas = fechas_ya_procesadas.copy()

# Contadores de estad√≠sticas
stats = {
    'exitosos': 0,
    'sin_datos': 0,
    'errores': 0,
    'especies_unicas': set()
}

print("="*70)
print("INICIANDO OBTENCI√ìN DE DATOS DE eBird API")
print("="*70)
print(f"\nFechas a procesar: {len(fechas_a_consultar):,}")
print(f"Checkpoint cada: {CHECKPOINT_INTERVAL} requests\n")

# Loop principal con barra de progreso
for idx, fecha in enumerate(tqdm(fechas_a_consultar, desc="Obteniendo avistamientos")):
    
    # Hacer request
    avistamientos = hacer_request_ebird(fecha)
    
    # Procesar resultados
    if avistamientos is None:
        stats['errores'] += 1
    elif len(avistamientos) == 0:
        stats['sin_datos'] += 1
    else:
        stats['exitosos'] += 1
        
        # Extraer campos relevantes
        for avistamiento in avistamientos:
            dato_limpio = extraer_campos_relevantes(avistamiento)
            todos_avistamientos.append(dato_limpio)
            
            # Actualizar especies √∫nicas
            if dato_limpio['codigo_especie']:
                stats['especies_unicas'].add(dato_limpio['codigo_especie'])
    
    # Marcar fecha como procesada
    fechas_procesadas.add(fecha.isoformat())
    
    # Guardar checkpoint peri√≥dicamente
    if (idx + 1) % CHECKPOINT_INTERVAL == 0:
        # Guardar checkpoint
        checkpoint_data = {
            'fechas_procesadas': list(fechas_procesadas),
            'ultima_actualizacion': datetime.now().isoformat(),
            'stats': {
                'exitosos': stats['exitosos'],
                'sin_datos': stats['sin_datos'],
                'errores': stats['errores'],
                'total_avistamientos': len(todos_avistamientos),
                'especies_unicas': len(stats['especies_unicas'])
            }
        }
        
        with open(checkpoint_file, 'w') as f:
            json.dump(checkpoint_data, f)
        
        # Guardar datos
        df_checkpoint = pd.DataFrame(todos_avistamientos)
        df_checkpoint.to_csv(checkpoint_data_file, index=False)
        
        print(f"\nüíæ Checkpoint guardado en request {idx + 1}")
        print(f"   Avistamientos totales: {len(todos_avistamientos):,}")
        print(f"   Especies √∫nicas: {len(stats['especies_unicas'])}")
    
    # Sleep para respetar rate limits
    time.sleep(SLEEP_BETWEEN_REQUESTS)

# Estad√≠sticas finales
print("\n" + "="*70)
print("OBTENCI√ìN COMPLETADA")
print("="*70)
print(f"\n‚úì Requests exitosos: {stats['exitosos']:,}")
print(f"  Requests sin datos: {stats['sin_datos']:,}")
print(f"‚ùå Requests con error: {stats['errores']:,}")
print(f"\nüê¶ Total de avistamientos: {len(todos_avistamientos):,}")
print(f"ü¶Ö Especies √∫nicas: {len(stats['especies_unicas'])}")
print("="*70)

INICIANDO OBTENCI√ìN DE DATOS DE eBird API

Fechas a procesar: 25,571
Checkpoint cada: 100 requests



Obteniendo avistamientos:   0%|          | 0/25571 [00:00<?, ?it/s]


üíæ Checkpoint guardado en request 100
   Avistamientos totales: 3,609
   Especies √∫nicas: 0

üíæ Checkpoint guardado en request 200
   Avistamientos totales: 3,740
   Especies √∫nicas: 62

üíæ Checkpoint guardado en request 300
   Avistamientos totales: 3,845
   Especies √∫nicas: 84

üíæ Checkpoint guardado en request 400
   Avistamientos totales: 3,922
   Especies √∫nicas: 94

üíæ Checkpoint guardado en request 500
   Avistamientos totales: 3,962
   Especies √∫nicas: 95

üíæ Checkpoint guardado en request 600
   Avistamientos totales: 4,054
   Especies √∫nicas: 100

üíæ Checkpoint guardado en request 700
   Avistamientos totales: 4,117
   Especies √∫nicas: 108

üíæ Checkpoint guardado en request 800
   Avistamientos totales: 4,144
   Especies √∫nicas: 110

üíæ Checkpoint guardado en request 900
   Avistamientos totales: 4,345
   Especies √∫nicas: 117

üíæ Checkpoint guardado en request 1000
   Avistamientos totales: 4,428
   Especies √∫nicas: 120

üíæ Checkpoint guardado

## 7. Guardar datos crudos (raw)

In [7]:
# Convertir a DataFrame
df_raw = pd.DataFrame(todos_avistamientos)

# Guardar datos crudos
output_raw = data_raw / 'avistamientos_ebird_raw.csv'
df_raw.to_csv(output_raw, index=False)

print("‚úì Datos crudos guardados")
print(f"  Archivo: {output_raw}")
print(f"  Registros: {len(df_raw):,}")
print(f"  Tama√±o: {output_raw.stat().st_size / 1024 / 1024:.2f} MB")

# Limpiar archivos de checkpoint
if checkpoint_file.exists():
    checkpoint_file.unlink()
if checkpoint_data_file.exists():
    checkpoint_data_file.unlink()
print("\nüßπ Archivos de checkpoint eliminados")

print("\nPrimeros registros:")
display(df_raw.head(10))

‚úì Datos crudos guardados
  Archivo: C:\Users\Santy\Documents\GitHub\arhbpalr\arhbpalr\data\raw\avistamientos_ebird_raw.csv
  Registros: 4,854
  Tama√±o: 0.30 MB

üßπ Archivos de checkpoint eliminados

Primeros registros:


Unnamed: 0,fecha,nombre_comun,nombre_cientifico,cantidad,codigo_especie,es_exotica
0,2025-10-11 11:05,Blue-winged Teal,Spatula discors,8.0,buwtea,
1,2025-10-11 11:05,Mexican Duck,Anas diazi,18.0,mexduc,
2,2025-10-11 11:05,Ruddy Duck,Oxyura jamaicensis,270.0,rudduc,
3,2025-10-11 11:05,White-winged Dove,Zenaida asiatica,6.0,whwdov,
4,2025-10-11 11:05,Mourning Dove,Zenaida macroura,70.0,moudov,
5,2025-10-11 11:05,American Coot,Fulica americana,240.0,y00475,
6,2025-10-11 11:05,Black-necked Stilt,Himantopus mexicanus,20.0,bknsti,
7,2025-10-11 11:05,Killdeer,Charadrius vociferus,9.0,killde,
8,2025-10-11 11:05,Solitary Sandpiper,Tringa solitaria,2.0,solsan,
9,2025-10-11 11:05,Greater Yellowlegs,Tringa melanoleuca,5.0,greyel,


## 8. Limpieza y procesamiento de datos

In [8]:
print("="*70)
print("LIMPIEZA Y PROCESAMIENTO DE DATOS")
print("="*70)

# Crear copia para procesar
df_processed = df_raw.copy()

# 1. Convertir fecha a datetime
df_processed['fecha'] = pd.to_datetime(df_processed['fecha'])
print(f"\n‚úì Fechas convertidas a datetime")

# 2. Extraer solo la fecha (sin hora) para agregaci√≥n
df_processed['fecha_solo'] = df_processed['fecha'].dt.date
print(f"‚úì Columna fecha_solo creada")

# 3. Convertir cantidad a num√©rico (puede venir como string)
df_processed['cantidad'] = pd.to_numeric(df_processed['cantidad'], errors='coerce').fillna(1).astype(int)
print(f"‚úì Cantidades convertidas a num√©rico")

# 4. Crear flag para especies ex√≥ticas
df_processed['es_exotica'] = df_processed['es_exotica'].notna()
print(f"‚úì Flag de especies ex√≥ticas creado")

# 5. Verificar valores faltantes
print(f"\nValores faltantes por columna:")
missing = df_processed.isnull().sum()
for col, count in missing[missing > 0].items():
    print(f"  {col}: {count:,} ({count/len(df_processed)*100:.2f}%)")

# 6. Eliminar registros sin nombre cient√≠fico (calidad de datos)
len_antes = len(df_processed)
df_processed = df_processed[df_processed['nombre_cientifico'].notna()]
len_despues = len(df_processed)
print(f"\n‚úì Eliminados {len_antes - len_despues:,} registros sin nombre cient√≠fico")

# 7. Ordenar por fecha
df_processed = df_processed.sort_values('fecha').reset_index(drop=True)
print(f"‚úì Datos ordenados por fecha")

print("\n" + "="*70)
print(f"Registros despu√©s de limpieza: {len(df_processed):,}")
print("="*70)

LIMPIEZA Y PROCESAMIENTO DE DATOS


ValueError: time data "2003-12-17" doesn't match format "%Y-%m-%d %H:%M", at position 159. You might want to try:
    - passing `format` if your strings have a consistent format;
    - passing `format='ISO8601'` if your strings are all ISO8601 but not necessarily in exactly the same format;
    - passing `format='mixed'`, and the format will be inferred for each element individually. You might want to use `dayfirst` alongside this.

## 9. An√°lisis exploratorio b√°sico

In [None]:
print("="*70)
print("AN√ÅLISIS EXPLORATORIO DE AVISTAMIENTOS")
print("="*70)

# Rango temporal
print(f"\nüìÖ Rango temporal:")
print(f"   Primera observaci√≥n: {df_processed['fecha'].min().date()}")
print(f"   √öltima observaci√≥n: {df_processed['fecha'].max().date()}")
print(f"   A√±os cubiertos: {df_processed['fecha'].dt.year.nunique()}")

# Estad√≠sticas generales
print(f"\nüê¶ Estad√≠sticas generales:")
print(f"   Total de avistamientos: {len(df_processed):,}")
print(f"   Especies √∫nicas: {df_processed['codigo_especie'].nunique()}")
print(f"   Total de individuos observados: {df_processed['cantidad'].sum():,}")
print(f"   Especies ex√≥ticas: {df_processed['es_exotica'].sum()}")

# D√≠as con observaciones
dias_con_obs = df_processed['fecha_solo'].nunique()
dias_totales = (df_processed['fecha'].max().date() - df_processed['fecha'].min().date()).days + 1
cobertura = dias_con_obs / dias_totales * 100
print(f"\nüìä Cobertura temporal:")
print(f"   D√≠as con observaciones: {dias_con_obs:,}")
print(f"   D√≠as totales en rango: {dias_totales:,}")
print(f"   Cobertura: {cobertura:.2f}%")

print("\n" + "="*70)

### 9.1 Top 20 especies m√°s observadas

In [None]:
# Agrupar por especie y sumar avistamientos e individuos
especies_stats = df_processed.groupby(['nombre_comun', 'nombre_cientifico', 'codigo_especie']).agg({
    'cantidad': 'sum',
    'fecha': 'count'
}).reset_index()

especies_stats.columns = ['nombre_comun', 'nombre_cientifico', 'codigo_especie', 'total_individuos', 'num_avistamientos']
especies_stats = especies_stats.sort_values('total_individuos', ascending=False)

print("Top 20 especies por n√∫mero total de individuos observados:\n")
display(especies_stats.head(20))

### 9.2 Especies ex√≥ticas identificadas

In [None]:
especies_exoticas = df_processed[df_processed['es_exotica'] == True].groupby(
    ['nombre_comun', 'nombre_cientifico']
).agg({
    'cantidad': 'sum',
    'fecha': 'count'
}).reset_index()

especies_exoticas.columns = ['nombre_comun', 'nombre_cientifico', 'total_individuos', 'num_avistamientos']

if len(especies_exoticas) > 0:
    print(f"Se identificaron {len(especies_exoticas)} especies ex√≥ticas:\n")
    display(especies_exoticas)
else:
    print("No se identificaron especies ex√≥ticas en los datos.")

### 9.3 Estacionalidad: Avistamientos por mes

In [None]:
# Agregar columnas de a√±o y mes
df_processed['a√±o'] = df_processed['fecha'].dt.year
df_processed['mes'] = df_processed['fecha'].dt.month
df_processed['mes_nombre'] = df_processed['fecha'].dt.month_name()

# Avistamientos por mes (promedio anual)
avistamientos_mes = df_processed.groupby('mes').size().reset_index(name='avistamientos')
avistamientos_mes['mes_nombre'] = pd.to_datetime(avistamientos_mes['mes'], format='%m').dt.month_name()

print("Avistamientos totales por mes (todos los a√±os combinados):\n")
display(avistamientos_mes[['mes_nombre', 'avistamientos']])

### 9.4 Estad√≠sticas descriptivas de cantidad de individuos

In [None]:
print("Estad√≠sticas de cantidad de individuos por avistamiento:\n")
display(df_processed['cantidad'].describe())

print(f"\nAvistamientos con mayor n√∫mero de individuos:")
display(df_processed.nlargest(10, 'cantidad')[['fecha', 'nombre_comun', 'cantidad']])

## 10. Guardar dataset procesado

In [None]:
# Seleccionar columnas finales para el dataset procesado
columnas_finales = [
    'fecha',
    'nombre_comun',
    'nombre_cientifico',
    'codigo_especie',
    'cantidad',
    'es_exotica'
]

df_final = df_processed[columnas_finales].copy()

# Guardar en data/processed
output_processed = data_processed / 'avistamientos_aves_presa.csv'
df_final.to_csv(output_processed, index=False)

print("="*70)
print("‚úÖ DATASET PROCESADO GUARDADO EXITOSAMENTE")
print("="*70)
print(f"\nArchivo: {output_processed}")
print(f"Registros: {len(df_final):,}")
print(f"Columnas: {len(df_final.columns)}")
print(f"Tama√±o: {output_processed.stat().st_size / 1024 / 1024:.2f} MB")
print(f"\nRango temporal: {df_final['fecha'].min().date()} a {df_final['fecha'].max().date()}")
print(f"\nColumnas incluidas:")
for i, col in enumerate(df_final.columns, 1):
    print(f"  {i}. {col}")

print("\n" + "="*70)
print("üéâ OBTENCI√ìN Y PROCESAMIENTO DE DATOS DE AVIFAUNA COMPLETADO")
print("="*70)

## Resumen final

Este notebook ha completado exitosamente:

1. ‚úÖ Configuraci√≥n de la API de eBird con manejo robusto de errores
2. ‚úÖ Determinaci√≥n del rango de fechas basado en datos hidrol√≥gicos existentes
3. ‚úÖ Obtenci√≥n de datos hist√≥ricos con:
   - Sistema de reintentos autom√°ticos
   - Manejo de rate limits
   - Checkpoints para reanudar si se interrumpe
4. ‚úÖ Limpieza y procesamiento de datos
5. ‚úÖ An√°lisis exploratorio b√°sico de biodiversidad
6. ‚úÖ Guardado de datasets en formato Cookiecutter Data Science:
   - Raw: `data/raw/avistamientos_ebird_raw.csv`
   - Processed: `data/processed/avistamientos_aves_presa.csv`

Los datos est√°n listos para an√°lisis m√°s profundos de:
- Diversidad de especies a lo largo del tiempo
- Correlaci√≥n con niveles de agua de la presa
- Patrones estacionales de avifauna
- Impacto del ecosistema de la presa en la biodiversidad regional