# Bloque 5: Accediendo a Datos de Biodiversidad v√≠a APIs

En este bloque aprender√°s a:
‚úÖ Comprender qu√© es una API y c√≥mo acceder a datos desde Python.  
‚úÖ Usar la API p√∫blica de GBIF (Global Biodiversity Information Facility).  
‚úÖ Descargar registros biol√≥gicos sin necesidad de hacerlo manualmente.  

üí° *Ventaja:* automatizar el acceso a datos permite actualizar, filtrar y reproducir an√°lisis f√°cilmente.

2. ¬øQu√© es una API?

Una **API (Application Programming Interface)** es una interfaz que permite que una aplicaci√≥n o script
se comunique con un servidor de datos.

En el caso de **GBIF**, su API nos permite:
- Buscar especies por nombre cient√≠fico.
- Descargar registros de ocurrencia (puntos de presencia).
- Consultar metadatos, taxonom√≠a y cobertura temporal o geogr√°fica.

Usaremos dos herramientas:
1. `requests` ‚Äî para hacer llamadas b√°sicas a la API.
2. `pygbif` ‚Äî una librer√≠a de Python creada para interactuar f√°cilmente con GBIF.


3. Instalaci√≥n de librer√≠as necesarias

In [1]:
! pip install pygbif pandas requests

Collecting pygbif
  Downloading pygbif-0.6.5-py3-none-any.whl.metadata (12 kB)
Collecting requests-cache (from pygbif)
  Downloading requests_cache-1.2.1-py3-none-any.whl.metadata (9.9 kB)
Collecting geojson_rewind (from pygbif)
  Downloading geojson_rewind-1.2.1-py3-none-any.whl.metadata (4.5 kB)
Collecting geomet (from pygbif)
  Downloading geomet-1.1.0-py3-none-any.whl.metadata (11 kB)
Collecting appdirs>=1.4.3 (from pygbif)
  Downloading appdirs-1.4.4-py2.py3-none-any.whl.metadata (9.0 kB)
Collecting cattrs>=22.2 (from requests-cache->pygbif)
  Downloading cattrs-25.3.0-py3-none-any.whl.metadata (8.4 kB)
Collecting url-normalize>=1.4 (from requests-cache->pygbif)
  Downloading url_normalize-2.2.1-py3-none-any.whl.metadata (5.6 kB)
Downloading pygbif-0.6.5-py3-none-any.whl (70 kB)
[2K   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m70.2/70.2 kB[0m [31m2.7 MB/s[0m eta [36m0:00:00[0m
[?25hD

4. Importar librer√≠as

In [2]:
from pygbif import species, occurrences
import pandas as pd
import requests

5. Buscar informaci√≥n taxon√≥mica con la API

In [3]:
# Buscar informaci√≥n taxon√≥mica del armadillo de nueve bandas
result = species.name_backbone(name='Dasypus novemcinctus')
result

{'usageKey': 2440779,
 'scientificName': 'Dasypus novemcinctus Linnaeus, 1758',
 'canonicalName': 'Dasypus novemcinctus',
 'rank': 'SPECIES',
 'status': 'ACCEPTED',
 'confidence': 99,
 'matchType': 'EXACT',
 'kingdom': 'Animalia',
 'phylum': 'Chordata',
 'order': 'Cingulata',
 'family': 'Dasypodidae',
 'genus': 'Dasypus',
 'species': 'Dasypus novemcinctus',
 'kingdomKey': 1,
 'phylumKey': 44,
 'classKey': 359,
 'orderKey': 735,
 'familyKey': 9369,
 'genusKey': 2440775,
 'speciesKey': 2440779,
 'class': 'Mammalia'}

Preguntas gu√≠a:

¬øQu√© informaci√≥n devuelve GBIF (rank, kingdom, family, key, etc.)?

¬øCu√°l es el identificador num√©rico (key) de la especie?

6. Descargar registros de ocurrencia

In [4]:
# Guardar el taxonKey de la especie (extra√≠do de la b√∫squeda anterior)
taxon_key = result['usageKey']

# Descargar registros de ocurrencia (m√°x. 300 por defecto)
occ = occurrences.search(taxonKey=taxon_key, limit=300)

# Ver estructura del resultado
type(occ), occ.keys()

(dict,
 dict_keys(['offset', 'limit', 'endOfRecords', 'count', 'results', 'facets']))

7. Convertir los registros a DataFram

In [5]:
# Crear un DataFrame con los resultados
df = pd.DataFrame(occ['results'])

# Mostrar las primeras filas
df.head()

Unnamed: 0,key,datasetKey,publishingOrgKey,installationKey,hostingOrganizationKey,publishingCountry,protocol,lastCrawled,lastParsed,crawlId,...,verbatimCoordinateSystem,language,type,verbatimElevation,eventID,samplingEffort,eventRemarks,locationID,identificationRemarks,parentEventID
0,5006691839,50c9509d-22c7-4a22-a47d-8c48425ef4a7,28eb1a3f-1c15-4a95-931a-4af90ecb574d,997448a8-f762-11e1-a439-00145eb45e9a,28eb1a3f-1c15-4a95-931a-4af90ecb574d,US,DWC_ARCHIVE,2025-10-20T07:29:08.672+00:00,2025-10-20T22:30:14.584+00:00,564,...,,,,,,,,,,
1,5006714841,50c9509d-22c7-4a22-a47d-8c48425ef4a7,28eb1a3f-1c15-4a95-931a-4af90ecb574d,997448a8-f762-11e1-a439-00145eb45e9a,28eb1a3f-1c15-4a95-931a-4af90ecb574d,US,DWC_ARCHIVE,2025-10-20T07:29:08.672+00:00,2025-10-20T20:39:16.804+00:00,564,...,,,,,,,,,,
2,5006738518,50c9509d-22c7-4a22-a47d-8c48425ef4a7,28eb1a3f-1c15-4a95-931a-4af90ecb574d,997448a8-f762-11e1-a439-00145eb45e9a,28eb1a3f-1c15-4a95-931a-4af90ecb574d,US,DWC_ARCHIVE,2025-10-20T07:29:08.672+00:00,2025-10-20T20:25:06.480+00:00,564,...,,,,,,,,,,
3,5006811850,50c9509d-22c7-4a22-a47d-8c48425ef4a7,28eb1a3f-1c15-4a95-931a-4af90ecb574d,997448a8-f762-11e1-a439-00145eb45e9a,28eb1a3f-1c15-4a95-931a-4af90ecb574d,US,DWC_ARCHIVE,2025-10-20T07:29:08.672+00:00,2025-10-20T20:26:06.739+00:00,564,...,,,,,,,,,,
4,5006817279,50c9509d-22c7-4a22-a47d-8c48425ef4a7,28eb1a3f-1c15-4a95-931a-4af90ecb574d,997448a8-f762-11e1-a439-00145eb45e9a,28eb1a3f-1c15-4a95-931a-4af90ecb574d,US,DWC_ARCHIVE,2025-10-20T07:29:08.672+00:00,2025-10-20T20:25:09.984+00:00,564,...,,,,,,,,,,


*Ejercicio:
Identifica las columnas m√°s relevantes para un an√°lisis geogr√°fico (por ejemplo, decimalLatitude, decimalLongitude, year, country, basisOfRecord).*

8. Filtrado y limpieza r√°pida

In [6]:
# Seleccionar columnas principales
columnas = ['scientificName', 'country', 'stateProvince', 'decimalLatitude', 'decimalLongitude', 'year', 'basisOfRecord']
df_filtrado = df[columnas]

# Eliminar registros sin coordenadas
df_filtrado = df_filtrado.dropna(subset=['decimalLatitude', 'decimalLongitude'])

df_filtrado.head()

Unnamed: 0,scientificName,country,stateProvince,decimalLatitude,decimalLongitude,year,basisOfRecord
0,"Dasypus novemcinctus Linnaeus, 1758",United States of America,Florida,28.741026,-82.170624,2025,HUMAN_OBSERVATION
1,"Dasypus novemcinctus Linnaeus, 1758",United States of America,Texas,30.430571,-99.799998,2025,HUMAN_OBSERVATION
2,"Dasypus novemcinctus Linnaeus, 1758",United States of America,South Carolina,33.481421,-81.772443,2025,HUMAN_OBSERVATION
3,"Dasypus novemcinctus Linnaeus, 1758",Costa Rica,Guanacaste,10.52933,-85.748597,2025,HUMAN_OBSERVATION
4,"Dasypus novemcinctus Linnaeus, 1758",United States of America,Florida,28.112761,-82.346833,2025,HUMAN_OBSERVATION


9. Exportar los resultados

In [7]:
# Guardar en un archivo CSV
df_filtrado.to_csv('gbif_dasypus_novemcinctus.csv', index=False)
print("Archivo guardado: gbif_dasypus_novemcinctus.csv")

Archivo guardado: gbif_dasypus_novemcinctus.csv


*Actividad breve:
Guarda tu archivo, desc√°rgalo y abre en Excel o Pandas.
¬øCu√°ntos registros obtuviste? ¬øDe qu√© pa√≠ses provienen?*

## 10. Ejercicio pr√°ctico con otra especie

In [None]:
# Reemplaza el nombre por la especie de inter√©s
especie = "-----"

# Buscar el identificador taxon√≥mico
res = species.name_backbone(name=especie)
taxon_key = res['usageKey']

# Descargar registros
occ2 = occurrences.search(taxonKey=taxon_key, limit=500)

# Convertir a DataFrame
df_especie = pd.DataFrame(occ2['results'])

# Filtrar columnas clave
df_especie = df_especie[['scientificName', 'country', 'decimalLatitude', 'decimalLongitude', 'year', 'basisOfRecord']].dropna()

# Exportar CSV
df_especie.to_csv(f"gbif_{especie.replace(' ', '_')}.csv", index=False)
print(f"Archivo guardado: gbif_{especie.replace(' ', '_')}.csv")


Preguntas gu√≠a:

¬øCu√°ntos registros obtuviste?

¬øEn qu√© a√±os hay m√°s observaciones?

¬øQu√© tipo de registros predominan (observaciones humanas, de museo, etc.)?

C√≥mo reportar la descarga de datos de GBIF realizada mediante la API:
Ejemplo: "Los datos fueron obtenidos de GBIF v√≠a API el 23 de octubre de 2025, usando los siguientes par√°metros:
scientificName: Dasypus novemcinctus.
Codigo base de Kevin Galvan, 2025 disponible en http://github.com/kevin/repositorio..."

# **Reto final del bloque:**
1. Elige dos especies distintas (por ejemplo, *Dasypus novemcinctus* y *Leopardus pardalis*).
2. Descarga los registros de cada una.
3. Calcula y compara:
   - N√∫mero total de registros.
   - Rango temporal de observaciones.
   - Pa√≠ses con mayor n√∫mero de registros.
4. Exporta ambas tablas y gr√°ficas.


Ejemplo de comparar registros

```
df_filtrado['country'].value_counts().head(10).plot(kind='bar', title='Top 10 pa√≠ses - Dasypus novemcinctus')

```



En este bloque aprendiste a:
‚úÖ Comprender qu√© es una API y c√≥mo usarla para acceder a datos de biodiversidad.  
‚úÖ Consultar y descargar registros desde GBIF con `pygbif`.  
‚úÖ Filtrar y exportar los datos en formato tabular para an√°lisis posterior.

üöÄ En el siguiente bloque (Bloque 6) aprender√°s t√©cnicas de **limpieza y validaci√≥n de datos biol√≥gicos**, detectando errores comunes en coordenadas, fechas y taxonom√≠a.


# CODIGO ALTERNATIVO PARA API

In [None]:
import requests
import pandas as pd

# Par√°metros de la consulta
scientific_name = "Panthera onca"
country = "MX"  # C√≥digo ISO de M√©xico
year_start = 1990
year_end = 2024
limit = 300  # N√∫mero de registros por p√°gina (m√°ximo permitido: 300)
offset = 0
all_records = []

print("Obteniendo registros de Panthera onca en M√©xico...")

while True:
    url = "https://api.gbif.org/v1/occurrence/search"
    params = {
        "scientificName": scientific_name,
        "country": country,
        "year": f"{year_start},{year_end}",
        "limit": limit,
        "offset": offset
    }

    response = requests.get(url, params=params)
    if response.status_code != 200:
        print(f"Error en la solicitud: {response.status_code}")
        break

    data = response.json()
    results = data.get("results", [])
    if not results:
        break

    all_records.extend(results)
    print(f"Recuperados {len(results)} registros (offset: {offset})")

    # Si hay menos resultados que el l√≠mite, es la √∫ltima p√°gina
    if len(results) < limit:
        break
    offset += limit

# Convertir a DataFrame
df = pd.json_normalize(all_records)

# Seleccionar columnas √∫tiles (puedes ajustar seg√∫n tus necesidades)
columnas_interes = [
    'key', 'species', 'decimalLatitude', 'decimalLongitude',
    'eventDate', 'year', 'basisOfRecord', 'institutionCode',
    'countryCode', 'locality'
]
df_filtrado = df.reindex(columns=[col for col in columnas_interes if col in df.columns])

# Guardar a CSV (opcional)
df_filtrado.to_csv("panthera_onca_mexico_1990_2024.csv", index=False)

print(f"\nTotal de registros obtenidos: {len(df_filtrado)}")
print("Datos guardados en 'panthera_onca_mexico_1990_2024.csv'")