In [1]:
# import libraries 
import pandas as pd
import seaborn as sns
%matplotlib inline
sns.set(color_codes=True)
from pygbif import occurrences

## Listado oficial de las especies silvestres amenazadas de la diversidad biológica colombiana continental y marino costera - Resolución 0126 de 2024
El listado oficial de las especies silvestres amenazadas de la diversidad biológica colombiana, tanto continental como marino-costera, es una recopilación elaborada por autoridades competentes en Colombia para identificar y proteger a las especies en riesgo de extinción o aquellas cuyas poblaciones se encuentran en declive significativo.

**Fuente:**
Departamento Administrativo Nacional de Estadística. (2023). _Listado oficial de las especies silvestres amenazadas de la biodiversidad colombiana_. Datos.gov.co. https://www.datos.gov.co/Ambiente-y-Desarrollo-Sostenible/Listado-oficial-de-las-especies-silvestres-amenaza/wizt-zh64/about_data

In [37]:
endangeredSpecies = pd.read_csv("especies_silvestres_amenazadas.csv")

In [3]:
endangeredSpecies.head()

Unnamed: 0,IDENTIFICACION,IDENTIFICACION TAXONOMICA,NOMBRE CIENTIFICO,CLASIFICACION SUPERIOR,REINO,FILO,CLASE,ORDEN,FAMILIA,GENERO,EPITETO ESPECIFICO,EPITETO INFRAESPECIFICO,RANGO DE TAXON,NOMBRE CIENTIFICO 1,NOMBRE VERNACULO,CODIGO NOMENCLATURA,ESTADO TAXONOMICO,TAXON OBSERVACIONES,LENGUAJE,ESTADO DE AMENAZA
0,gbif.org/species/3548724,gbif.org/species/3548724,Arthonia obscurella,Fungi | Ascomycota | Arthoniomycetes | Arthoni...,Fungi,Ascomycota,Arthoniomycetes,Arthoniales,Arthoniaceae,Arthonia,obscurella,,Especie,Müll.Arg.,,ICN,Aceptado,Nombre original validado: Arthonia obscurella ...,es,CR
1,gbif.org/species/3548779,gbif.org/species/3548779,Arthonia septemlocularis,Fungi | Ascomycota | Arthoniomycetes | Arthoni...,Fungi,Ascomycota,Arthoniomycetes,Arthoniales,Arthoniaceae,Arthonia,septemlocularis,,Especie,Müll.Arg.,,ICN,Aceptado,Nombre original validado: Arthonia septemlocul...,es,CR
2,gbif.org/species/10800176,gbif.org/species/10800176,Ancistrosporella leucophila,Fungi | Ascomycota | Arthoniomycetes | Arthoni...,Fungi,Ascomycota,Arthoniomycetes,Arthoniales,Roccellaceae,Ancistrosporella,leucophila,,Especie,(Nyl.) Ertz,,ICN,Aceptado,Nombre original validado: Ancistrosporella leu...,es,CR
3,gbif.org/species/10874088,gbif.org/species/10874088,Byssoloma permutans,Fungi | Ascomycota | Arthoniomycetes | Arthoni...,Fungi,Ascomycota,Lecanoromycetes,Lecanorales,Byssolomataceae,Byssoloma,permutans,,Especie,(Nyl.) Lücking,,ICN,Aceptado,Nombre original validado: Byssoloma permutans ...,es,CR
4,gbif.org/species/5516240,gbif.org/species/5516240,Lecanactis proximans,Fungi | Ascomycota | Arthoniomycetes | Arthoni...,Fungi,Ascomycota,Arthoniomycetes,Arthoniales,Roccellaceae,Lecanactis,proximans,,Especie,(Nyl.) Zahlbr.,,ICN,Aceptado,Nombre original validado: Lecanactis proximans...,es,CR


In [47]:
# obtener únicamente la parte numérica de la columna Identificación
endangeredSpecies['IDENTIFICACION'] = endangeredSpecies['IDENTIFICACION'].str.extract(r'(\d+)$', expand=False)
endangeredSpecies['IDENTIFICACION']

0        3548724
1        3548779
2       10800176
3       10874088
4        5516240
          ...   
2096    11219159
2097     6156842
2098     6179762
2099     6175177
2100     4262310
Name: IDENTIFICACION, Length: 2101, dtype: object

In [39]:
# eliminar columnas que no considero importantes para mi análisis 
endangeredSpecies = endangeredSpecies.drop(
    ['IDENTIFICACION TAXONOMICA', 'CLASIFICACION SUPERIOR', 'EPITETO INFRAESPECIFICO', 'RANGO DE TAXON',
     'NOMBRE CIENTIFICO 1', 'NOMBRE VERNACULO', 'CODIGO NOMENCLATURA', 'TAXON OBSERVACIONES', 'LENGUAJE'], axis=1)
endangeredSpecies

Unnamed: 0,IDENTIFICACION,NOMBRE CIENTIFICO,REINO,FILO,CLASE,ORDEN,FAMILIA,GENERO,EPITETO ESPECIFICO,ESTADO TAXONOMICO,ESTADO DE AMENAZA
0,3548724,Arthonia obscurella,Fungi,Ascomycota,Arthoniomycetes,Arthoniales,Arthoniaceae,Arthonia,obscurella,Aceptado,CR
1,3548779,Arthonia septemlocularis,Fungi,Ascomycota,Arthoniomycetes,Arthoniales,Arthoniaceae,Arthonia,septemlocularis,Aceptado,CR
2,10800176,Ancistrosporella leucophila,Fungi,Ascomycota,Arthoniomycetes,Arthoniales,Roccellaceae,Ancistrosporella,leucophila,Aceptado,CR
3,10874088,Byssoloma permutans,Fungi,Ascomycota,Lecanoromycetes,Lecanorales,Byssolomataceae,Byssoloma,permutans,Aceptado,CR
4,5516240,Lecanactis proximans,Fungi,Ascomycota,Arthoniomycetes,Arthoniales,Roccellaceae,Lecanactis,proximans,Aceptado,CR
...,...,...,...,...,...,...,...,...,...,...,...
2098,11219159,Trachemys venusta callirostris,Animalia,Chordata,Reptilia,Testudines,Emydidae,Trachemys,venusta,Válido,VU
2099,6156842,Kinosternon scorpioides albogulare,Animalia,Chordata,Reptilia,Testudines,Kinosternidae,Kinosternon,scorpioides,Válido,VU
2100,6179762,Crypturellus obsoletus castaneus,Animalia,Chordata,Aves,Tinamiformes,Tinamidae,Crypturellus,obsoletus,Válido,CR
2101,6175177,Molothrus aeneus armenti,Animalia,Chordata,Aves,Passeriformes,Icteridae,Molothrus,aeneus,Válido,VU


In [12]:
# función para obtener las coordenas desde la API de GBIF
def get_species_occurrences(species_key):
    occurrences_data = occurrences.search(taxonKey=species_key)

    locations = []
    for occ in occurrences_data['results']:
        if 'decimalLatitude' in occ and 'decimalLongitude' in occ:
            locations.append((occ['decimalLatitude'], occ['decimalLongitude']))

    return locations

In [14]:
occurrences_list = []

# iteración para cada fila del dataframe 
for _, row in endangeredSpecies.iterrows():
    scientific_name = row["NOMBRE CIENTIFICO"]
    gbif_id = row["IDENTIFICACION"]

    try:
        locations = get_species_occurrences(gbif_id)
        occurrences_list.append({"NOMBRE CIENTIFICO": scientific_name, "COORDENADAS": locations})
    except Exception as e:
        print(f"Error fetching occurrences for {scientific_name}: {e}")

Error fetching occurrences for Nymphargus megistus: 400 Client Error: Bad Request for url: https://api.gbif.org/v1/occurrence/search?taxonKey=nan&limit=300&offset=0
Error fetching occurrences for Andinobates tolimense: 400 Client Error: Bad Request for url: https://api.gbif.org/v1/occurrence/search?taxonKey=nan&limit=300&offset=0


In [15]:
# convertir la lista a dataframe y guardar la información en formato .csv
occurrences_df = pd.DataFrame(occurrences_list)
occurrences_df.to_csv("endangeredSpeciesOcurrences.csv")

In [48]:
occurrences_df.head()

Unnamed: 0,NOMBRE CIENTIFICO,COORDENADAS
0,Arthonia obscurella,"[(4.59806, -74.07583)]"
1,Arthonia septemlocularis,"[(4.59806, -74.07583)]"
2,Ancistrosporella leucophila,"[(6.98931, -73.04892), (4.0, -72.0), (6.98701,..."
3,Byssoloma permutans,[]
4,Lecanactis proximans,"[(4.0, -72.0), (4.0, -72.0), (4.645293, -74.06..."


In [40]:
# join con la base de datos principal usando el nombre científico como key
endangeredSpecies = pd.merge(endangeredSpecies, occurrences_df, on='NOMBRE CIENTIFICO', how='inner')

In [41]:
# coordenadas que indican el territorio colombiano
min_lat, max_lat = 4.0, 13.5
min_lon, max_lon = -79.0, -66.0

In [42]:
# función para filtrar las coordenadas y obtener únicamente las del territorio colombiano
def en_colombia(coordenada):
    lat, lon = coordenada
    return min_lat <= lat <= max_lat and min_lon <= lon <= max_lon

In [44]:
endangeredSpecies['COORDENADAS'] = endangeredSpecies['COORDENADAS'].apply(
    lambda coords: [coord for coord in coords if en_colombia(coord)])

In [51]:
# renombrar las columnas para que se ajuste mejor al formato de SQL
nuevos_nombres = {
    'IDENTIFICACION': 'identificacion',
    'NOMBRE CIENTIFICO': 'nombre_cientifico',
    'REINO': 'reino',
    'FILO': 'filo',
    'CLASE': 'clase',
    'ORDEN': 'orden',
    'FAMILIA': 'familia',
    'GENERO': 'genero',
    'EPITETO ESPECIFICO': 'epiteto_especifico',
    'ESTADO TAXONOMICO': 'estado_taxonomico',
    'ESTADO DE AMENAZA': 'estado_de_amenaza',
    'COORDENADAS': 'coordenadas'
}

In [52]:
endangeredSpecies.rename(columns=nuevos_nombres, inplace=True)

In [7]:
# guardar en formato .csv el dataframe completo
endangeredSpecies.to_csv("endangeredSpecies.csv", index=False)

In [2]:
endangeredSpecies = pd.read_csv("endangeredSpecies.csv")
endangeredSpecies.columns

Index(['Unnamed: 0', 'identificacion', 'nombre_cientifico', 'reino', 'filo',
       'clase', 'orden', 'familia', 'genero', 'epiteto_especifico',
       'estado_taxonomico', 'estado_de_amenaza', 'coordenadas'],
      dtype='object')

In [6]:
endangeredSpecies.drop(columns='Unnamed: 0', inplace=True)

# Conexión a PostgreSQL - SQLAlchemy

In [None]:
%%sql
CREATE TABLE species (
    identificacion INTEGER,
    nombre_cientifico VARCHAR(255),
    reino VARCHAR(255),
    filo VARCHAR(255),
    clase VARCHAR(255),
    orden VARCHAR(255),
    familia VARCHAR(255),
    genero VARCHAR(255),
    epiteto_especifico VARCHAR(255),
    estado_taxonomico VARCHAR(255),
    estado_de_amenaza VARCHAR(255),
    coordenadas TEXT
);


In [None]:
%%sql
SELECT * 
FROM species 
WHERE reino = 'Animalia' 
  AND estado_de_amenaza = 'CR';

In [1]:
pwd

'C:\\Users\\USER\\OneDrive - Universidad Distrital Francisco José de Caldas\\Documentos\\Bootcamp-DS-2024-I\\repoDS\\Actividad 4'

In [2]:
with open('password.txt', 'r') as f:
    pwd = f.read()

In [3]:
len(pwd)

4

In [4]:
import pandas as pd
from sqlalchemy import create_engine

hostname = 'localhost'
database = 'endangeredSpecies'
username = 'postgres'
pwd = pwd
port_id = '5432'

In [5]:
engine = create_engine(f'postgresql://{username}:{pwd}@{hostname}/{database}')
engine

Engine(postgresql://postgres:***@localhost/endangeredSpecies)

In [6]:
from sqlalchemy import text


def runQuery(sql):
    result = engine.connect().execute((text(sql)))
    return pd.DataFrame(result.fetchall(), columns=result.keys())

In [8]:
query = """
SELECT * FROM species
"""

In [11]:
query = """
SELECT * 
FROM species 
WHERE reino = 'Animalia' 
  AND estado_de_amenaza = 'CR';
"""

In [12]:
runQuery(query)

Unnamed: 0,identificacion,nombre_cientifico,reino,filo,clase,orden,familia,genero,epiteto_especifico,estado_taxonomico,estado_de_amenaza,coordenadas
0,5184681,Acropora cervicornis,Animalia,Cnidaria,Anthozoa,Scleractinia,Acroporidae,Acropora,cervicornis,Válido,CR,"[(12.103732, -68.377697), (12.217702, -68.3001..."
1,2223870,Penaeus occidentalis,Animalia,Arthropoda,Malacostraca,Decapoda,Penaeidae,Penaeus,occidentalis,Válido,CR,"[(8.05, -78.35), (8.7, -78.65), (8.7, -78.65),..."
2,1339288,Eufriesea dressleri,Animalia,Arthropoda,Insecta,Hymenoptera,Apidae,Eufriesea,dressleri,Válido,CR,[]
3,1339681,Exaerete dentata,Animalia,Arthropoda,Insecta,Hymenoptera,Apidae,Exaerete,dentata,Válido,CR,"[(4.007528, -74.739278)]"
4,1339678,Exaerete frontalis,Animalia,Arthropoda,Insecta,Hymenoptera,Apidae,Exaerete,frontalis,Válido,CR,"[(6.033363, -74.721966), (8.963886, -78.470492..."
...,...,...,...,...,...,...,...,...,...,...,...,...
120,9438354,Plecturocebus caquetensis,Animalia,Chordata,Mammalia,Primates,Pitheciidae,Plecturocebus,caquetensis,Válido,CR,[]
121,182959016,Santamartamys rufodorsalis,Animalia,Chordata,Mammalia,Rodentia,Echimyidae,Santamartamys,rufodorsalis,Válido,CR,[]
122,182958947,Ateles fusciceps,Animalia,Chordata,Mammalia,Primates,Atelidae,Ateles,fusciceps,Válido,CR,[]
123,6179762,Crypturellus obsoletus castaneus,Animalia,Chordata,Aves,Tinamiformes,Tinamidae,Crypturellus,obsoletus,Válido,CR,"[(4.6149, -74.3106), (4.599483, -74.075833)]"


In [13]:
del engine

# Using the Nominatim API

In [2]:
endangeredSpecies = pd.read_csv("endangeredSpecies.csv")
endangeredSpecies

Unnamed: 0,identificacion,nombre_cientifico,reino,filo,clase,orden,familia,genero,epiteto_especifico,estado_taxonomico,estado_de_amenaza,coordenadas
0,3548724,Arthonia obscurella,Fungi,Ascomycota,Arthoniomycetes,Arthoniales,Arthoniaceae,Arthonia,obscurella,Aceptado,CR,"[(4.59806, -74.07583)]"
1,3548779,Arthonia septemlocularis,Fungi,Ascomycota,Arthoniomycetes,Arthoniales,Arthoniaceae,Arthonia,septemlocularis,Aceptado,CR,"[(4.59806, -74.07583)]"
2,10800176,Ancistrosporella leucophila,Fungi,Ascomycota,Arthoniomycetes,Arthoniales,Roccellaceae,Ancistrosporella,leucophila,Aceptado,CR,"[(6.98931, -73.04892), (4.0, -72.0), (6.98701,..."
3,10874088,Byssoloma permutans,Fungi,Ascomycota,Lecanoromycetes,Lecanorales,Byssolomataceae,Byssoloma,permutans,Aceptado,CR,[]
4,5516240,Lecanactis proximans,Fungi,Ascomycota,Arthoniomycetes,Arthoniales,Roccellaceae,Lecanactis,proximans,Aceptado,CR,"[(4.0, -72.0), (4.0, -72.0), (4.645293, -74.06..."
...,...,...,...,...,...,...,...,...,...,...,...,...
2096,11219159,Trachemys venusta callirostris,Animalia,Chordata,Reptilia,Testudines,Emydidae,Trachemys,venusta,Válido,VU,"[(9.858498, -74.529009), (9.704414, -73.436938..."
2097,6156842,Kinosternon scorpioides albogulare,Animalia,Chordata,Reptilia,Testudines,Kinosternidae,Kinosternon,scorpioides,Válido,VU,[]
2098,6179762,Crypturellus obsoletus castaneus,Animalia,Chordata,Aves,Tinamiformes,Tinamidae,Crypturellus,obsoletus,Válido,CR,"[(4.6149, -74.3106), (4.599483, -74.075833)]"
2099,6175177,Molothrus aeneus armenti,Animalia,Chordata,Aves,Passeriformes,Icteridae,Molothrus,aeneus,Válido,VU,"[(11.075015, -74.64815), (11.026366, -74.86596..."


In [3]:
import requests
from json import JSONDecodeError
import ast


def get_location_info(lat, lon):
    url = f'https://nominatim.openstreetmap.org/reverse?format=json&lat={lat}&lon={lon}'
    headers = {
        'User-Agent': 'Mozilla/5.0 (compatible; your_app_name/0.1; +http://yourwebsite.com/bot)'
    }
    response = requests.get(url, headers=headers)

    # Check if the response status code is OK
    if response.status_code != 200:
        return None

    # Try to decode the JSON response
    try:
        return response.json()
    except JSONDecodeError:
        return None

In [4]:
# Function to extract the first coordinate and get location info
def extract_first_coordinate(coord_str):
    try:
        # Convert string representation of list to actual list
        coords = ast.literal_eval(coord_str)
        if coords:
            first_coord = coords[0]
            lat, lon = first_coord
            location_info = get_location_info(lat, lon)
            return location_info
        return None
    except (ValueError, SyntaxError):
        return None

In [5]:
endangeredSpecies['location_info'] = endangeredSpecies['coordenadas'].apply(extract_first_coordinate)
endangeredSpecies['location_info']

0       {'place_id': 268546227, 'licence': 'Data © Ope...
1       {'place_id': 268546227, 'licence': 'Data © Ope...
2       {'place_id': 269412343, 'licence': 'Data © Ope...
3                                                    None
4       {'place_id': 269683442, 'licence': 'Data © Ope...
                              ...                        
2096    {'place_id': 297039874, 'licence': 'Data © Ope...
2097                                                 None
2098    {'place_id': 298298566, 'licence': 'Data © Ope...
2099    {'place_id': 297810851, 'licence': 'Data © Ope...
2100                                                 None
Name: location_info, Length: 2101, dtype: object

In [10]:
# guardar en formato .csv el dataframe completo
endangeredSpecies.to_csv("endangeredSpecies.csv", index=False)

In [9]:
endangeredSpecies

Unnamed: 0,identificacion,nombre_cientifico,reino,filo,clase,orden,familia,genero,epiteto_especifico,estado_taxonomico,estado_de_amenaza,coordenadas,location_info,display_name,town,state_district,country
0,3548724,Arthonia obscurella,Fungi,Ascomycota,Arthoniomycetes,Arthoniales,Arthoniaceae,Arthonia,obscurella,Aceptado,CR,"[(4.59806, -74.07583)]","{'place_id': 268546227, 'licence': 'Data © Ope...","Vía Bogotá - Choachí, San Francisco Rural, Loc...",,,Colombia
1,3548779,Arthonia septemlocularis,Fungi,Ascomycota,Arthoniomycetes,Arthoniales,Arthoniaceae,Arthonia,septemlocularis,Aceptado,CR,"[(4.59806, -74.07583)]","{'place_id': 268546227, 'licence': 'Data © Ope...","Vía Bogotá - Choachí, San Francisco Rural, Loc...",,,Colombia
2,10800176,Ancistrosporella leucophila,Fungi,Ascomycota,Arthoniomycetes,Arthoniales,Roccellaceae,Ancistrosporella,leucophila,Aceptado,CR,"[(6.98931, -73.04892), (4.0, -72.0), (6.98701,...","{'place_id': 269412343, 'licence': 'Data © Ope...","Carrera 10, La Candelaria, Comuna del Trapiche...",Piedecuesta,,Colombia
3,10874088,Byssoloma permutans,Fungi,Ascomycota,Lecanoromycetes,Lecanorales,Byssolomataceae,Byssoloma,permutans,Aceptado,CR,[],,,,,
4,5516240,Lecanactis proximans,Fungi,Ascomycota,Arthoniomycetes,Arthoniales,Roccellaceae,Lecanactis,proximans,Aceptado,CR,"[(4.0, -72.0), (4.0, -72.0), (4.645293, -74.06...","{'place_id': 269683442, 'licence': 'Data © Ope...","Puerto Gaitán, Rio Meta, Meta, RAP (Especial) ...",Puerto Gaitán,Rio Meta,Colombia
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2096,11219159,Trachemys venusta callirostris,Animalia,Chordata,Reptilia,Testudines,Emydidae,Trachemys,venusta,Válido,VU,"[(9.858498, -74.529009), (9.704414, -73.436938...","{'place_id': 297039874, 'licence': 'Data © Ope...","Ruta del Sol III, Apuré, Plato, Magdalena, RAP...",,,Colombia
2097,6156842,Kinosternon scorpioides albogulare,Animalia,Chordata,Reptilia,Testudines,Kinosternidae,Kinosternon,scorpioides,Válido,VU,[],,,,,
2098,6179762,Crypturellus obsoletus castaneus,Animalia,Chordata,Aves,Tinamiformes,Tinamidae,Crypturellus,obsoletus,Válido,CR,"[(4.6149, -74.3106), (4.599483, -74.075833)]","{'place_id': 298298566, 'licence': 'Data © Ope...","Baño ecológico, Camino a la Cascada, Chicaque,...",,Tequendama,Colombia
2099,6175177,Molothrus aeneus armenti,Animalia,Chordata,Aves,Passeriformes,Icteridae,Molothrus,aeneus,Válido,VU,"[(11.075015, -74.64815), (11.026366, -74.86596...","{'place_id': 297810851, 'licence': 'Data © Ope...",Colombia,,,Colombia


In [8]:
# Function to extract specific keys from the location_info dictionary
def extract_location_info(info, key):
    if info and key in info:
        return info[key]
    return None


def extract_address_info(info, key):
    if info and 'address' in info and key in info['address']:
        return info['address'][key]
    return None


# Create new columns for display_name, town, state_district, and country
endangeredSpecies['display_name'] = endangeredSpecies['location_info'].apply(
    lambda x: extract_location_info(x, 'display_name'))
endangeredSpecies['town'] = endangeredSpecies['location_info'].apply(
    lambda x: extract_address_info(x, 'town'))
endangeredSpecies['state_district'] = endangeredSpecies['location_info'].apply(
    lambda x: extract_address_info(x, 'state_district'))
endangeredSpecies['country'] = endangeredSpecies['location_info'].apply(
    lambda x: extract_address_info(x, 'country'))

In [13]:
endangeredSpecies.country.value_counts()

Colombia     1300
Venezuela      32
Panamá         22
Nederland      17
Aruba           9
Curaçao         7
Name: country, dtype: int64

In [14]:
endangeredSpecies.state_district.value_counts()

Oriente           129
Norte              85
Suroeste           64
Centro             60
Occidente          53
                 ... 
Bajo Occidente      1
Costanera           1
Nororiente          1
Almeidas            1
Sur                 1
Name: state_district, Length: 73, dtype: int64