In [None]:
pip install pygbif

In [None]:
# Paginar con pygbif (o requests). Ejemplo con pygbif:
# pip install pygbif

from pygbif import occurrences
import pandas as pd
import time
import math

# Par√°metros de b√∫squeda (ajusta seg√∫n tu consulta)
taxon = "Dasypus novemcinctus"    # ejemplo
limit = 300                       # l√≠mite m√°ximo por petici√≥n
max_records = 3000                # cu√°ntos registros quieres en total (ajusta)
sleep_seconds = 1.0               # espera entre peticiones (s√© amable)

# 1) obtener taxonKey (opcional, si filtras por especie)
from pygbif import species
sp = species.name_backbone(name=taxon)
taxonKey = sp.get("usageKey")
print("taxonKey:", taxonKey)

# 2) calcular el n√∫mero de iteraciones
total_to_fetch = max_records
n_pages = math.ceil(total_to_fetch / limit)

# 3) paginar y acumular resultados
rows = []
for i in range(n_pages):
    start = i * limit
    print(f"Request {i+1}/{n_pages} ‚Äî offset={start}")
    try:
        res = occurrences.search(taxonKey=taxonKey, limit=limit, offset=start)
        results = res.get("results", [])
        if not results:
            print("No more results.")
            break
        rows.extend(results)
        # guarda parcial en disco por si interrumpes
        pd.json_normalize(rows).to_csv("gbif_paginado_partial.csv", index=False)
    except Exception as e:
        print("Error en petici√≥n:", e)
        # espera y reintenta
        time.sleep(5)
    time.sleep(sleep_seconds)

# 4) convertir a DataFrame final
df = pd.json_normalize(rows)
print("Registros descargados:", len(df))
df.to_csv("gbif_paginado_final.csv", index=False)


| Par√°metro                 | Descripci√≥n                                  | Ejemplo                                                |
| ------------------------- | -------------------------------------------- | ------------------------------------------------------ |
| `scientificName`          | Nombre cient√≠fico completo                   | `"Dasypus novemcinctus"`                               |
| `taxonKey`                | Clave taxon√≥mica GBIF (preferible al nombre) | `2435099`                                              |
| `country` o `countryCode` | Pa√≠s (ISO-2)                                 | `"MX"`, `"BR"`, `"US"`                                 |
| `basisOfRecord`           | Tipo de registro                             | `"HUMAN_OBSERVATION"`, `"PRESERVED_SPECIMEN"`          |
| `year`                    | A√±o o rango de a√±os                          | `"2000,2024"`                                          |
| `month`                   | Mes o rango                                  | `"5,9"`                                                |
| `hasCoordinate`           | Solo registros con coordenadas               | `True`                                                 |
| `hasGeospatialIssue`      | Excluir errores espaciales                   | `False`                                                |
| `decimalLatitude`         | Rango latitudinal                            | `"15,33"`                                              |
| `decimalLongitude`        | Rango longitudinal                           | `"-115,-90"`                                           |
| `geometry`                | Pol√≠gono o bounding box WKT                  | `"POLYGON((-105 20,-105 25,-100 25,-100 20,-105 20))"` |
| `depth`                   | Rango de profundidad marina                  | `"0,1000"`                                             |
| `elevation`               | Rango de elevaci√≥n                           | `"0,3000"`                                             |
| `datasetKey`              | Filtrar por dataset espec√≠fico (UUID GBIF)   | `"c6dd232e-5bdf-4f8f-91b0-9f715b6e5d00"`               |
| `eventDate`               | Fecha completa (ISO o rango)                 | `"2010-01-01,2020-12-31"`                              |
| `continent`               | Continente                                   | `"NORTH_AMERICA"`                                      |
| `projectId`               | ID de proyecto de observaci√≥n                | `"BIOMEXICO_2020"`                                     |
| `occurrenceStatus`        | `"PRESENT"` o `"ABSENT"`                     | `"PRESENT"`                                            |


In [None]:
# üì¶ Instalaci√≥n (solo una vez)
# !pip install pygbif

from pygbif import occurrences, species
import pandas as pd
import time
import math

# ============================
# ‚öôÔ∏è CONFIGURACI√ìN DE LA B√öSQUEDA
# ============================

# Especie o grupo de inter√©s
taxon_name = "Dasypus novemcinctus"   # Armadillo
sp = species.name_backbone(name=taxon_name)
taxonKey = sp.get("usageKey")
print(f"üîç TaxonKey de {taxon_name}: {taxonKey}")

# Par√°metros principales
params = {
    "taxonKey": taxonKey,          # ID √∫nico de especie
    "country": "MX",               # C√≥digo ISO del pa√≠s (ej: 'MX' para M√©xico)
    "hasCoordinate": True,         # Solo registros con coordenadas v√°lidas
    "hasGeospatialIssue": False,   # Excluir registros con errores de georreferenciaci√≥n
    "year": "2010,2025",           # Rango de a√±os
    "basisOfRecord": "HUMAN_OBSERVATION",  # Tipo de registro
    "limit": 300,                  # M√°ximo permitido por solicitud
}

# üó∫Ô∏è Opcional: filtros espaciales
# Bounding box = √°rea geogr√°fica [minLon, minLat, maxLon, maxLat]
# Ejemplo: norte de M√©xico
params["decimalLatitude"] = "23,32"
params["decimalLongitude"] = "-110,-100"

# ============================
# üîÅ PAGINACI√ìN AUTOM√ÅTICA
# ============================

max_records = 3000      # Cu√°ntos registros totales deseas
sleep_seconds = 1.5     # Pausa entre peticiones (respetar API)
rows = []

n_pages = math.ceil(max_records / params["limit"])
print(f"üì¶ Descargando hasta {max_records} registros (~{n_pages} p√°ginas)")

for i in range(n_pages):
    offset = i * params["limit"]
    print(f"‚û°Ô∏è  P√°gina {i+1}/{n_pages} ‚Äî offset={offset}")
    try:
        res = occurrences.search(**params, offset=offset)
        results = res.get("results", [])
        if not results:
            print("‚õî No se encontraron m√°s resultados.")
            break
        rows.extend(results)
    except Exception as e:
        print("‚ö†Ô∏è Error en la petici√≥n:", e)
        time.sleep(3)
    time.sleep(sleep_seconds)

# ============================
# üìä CONVERTIR A DATAFRAME
# ============================

df = pd.json_normalize(rows)
print(f"‚úÖ Registros descargados: {len(df)}")
print("üìã Columnas disponibles:")
print(df.columns.tolist()[:15])  # Muestra las primeras columnas

# Guardar CSV
df.to_csv("GBIF_ocurrencias_Dasypus.csv", index=False)
df.head()
