# Estudio de la distribución geográfica de las especies de anfibios en Colombia 

## 1. Objetivo 
Brindar una herramienta grafica que permita identificar y graficar en un mapa interactivo la distribución geográfica de las especies de anfibios en Colombia a través del uso de la colección biológica de anfibios del Museo de Historia Natural C.J. Marinkelle. Esta información incluirá la taxonomía de los especímenes, y características morfológicas, como el tamaño, el peso, el color, entre otros, así como información sobre su distribución geográfica en el territorio nacional.  

## 2. Métodos 
Mediante un desarrollo en Python, utilizando librerías como Geoviews y una base de datos como referencia, vamos a graficar la distribución geográfica de las especies de anfibios en un mapa del país, usando principalmente la latitud y longitud en la que las diferentes especies fueron encontradas, haciendo uso de una herramienta no solo útil y accesible para la comunidad científica, sino para cualquiera que desee aprender sobre la distribución y taxonomía de las diferentes especies de anfibios en el país. 

## 3.  Resultados 
Como resultados, presentaremos la visualización de la distribución geográfica de las especies de anfibios en un mapa interactivo permitirá identificar patrones y tendencias en la distribución de estas especies en Colombia. Este mapa permite identificar fácilmente las áreas de mayor importancia para la conservación y establecer estrategias para proteger y preservar las especies de anfibios y su hábitat. Todo en una herramienta interactiva fácil de utilizar

## Los datos

Se trabaja con un conjunto de datos que contiene información sobre las especies de anfibios en ANDES-A.

In [18]:
import numpy as np
import pandas as pd

import matplotlib.pyplot as plt
import seaborn as sns


In [19]:
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 50)

## 1. Carga de los datos

In [20]:
df_anfibios = pd.read_csv('./data/ANDES_A_ANFIBIOS_Lat_Long.csv', sep=',', encoding = 'utf-8', index_col=0)

In [21]:
df_anfibios.shape

(3582, 10)

In [22]:
df_anfibios.sample(5)

Unnamed: 0_level_0,Order,Family,Genus,Species,Unnamed: 5,Latitude1,Longitude1,State,Unnamed: 9,Unnamed: 10
ANDES-A,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
2817,Anura,Aromobatidae,Rheobates,palmatus,Rheobates palmatus,6.79388,-73.47529,Santander,,
1141,Anura,Hylidae,Osteocephalus,planiceps,Osteocephalus planiceps,-4.116667,-69.95,Amazonas,,
4818,Anura,Craugastoridae,Pristimantis,medemi,Pristimantis medemi,4.21611,-73.81321,Cundinamarca,,
2973,Anura,Aromobatidae,Rheobates,palmatus,Rheobates palmatus,4.87327,-74.44341,Cundinamarca,,
4120,Anura,Craugastoridae,Pristimantis,savagei,Pristimantis savagei,4.502778,-73.460277,Cundinamarca,,


In [23]:
# Remove 2 last columns of the df_anfibios dataset
df_anfibios = df_anfibios.iloc[:, :-2]

# Rename the fifth column (Unnamed: 5) to "Genus_species"
df_anfibios.rename(columns={'Unnamed: 5': 'Genus_species'}, inplace=True)

In [24]:
df_anfibios.sample(5)

Unnamed: 0_level_0,Order,Family,Genus,Species,Genus_species,Latitude1,Longitude1,State
ANDES-A,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
2085,Anura,Bufonidae,Rhinella,marina,Rhinella marina,-3.86421,-70.20396,Amazonas
1698,Anura,Leptodactylidae,Hydrolaetare,schmidti,Hydrolaetare schmidti,-4.04232,-70.1002,Amazonas
4996,Anura,Leptodactylidae,Leptodactylus,fuscus,Leptodactylus fuscus,5.583548,-72.229968,Casanare
681,Anura,Hylidae,Dendropsophus,parviceps,Dendropsophus parviceps,-4.119444,-69.95,Amazonas
1625,Anura,Hemiphractidae,Hemiphractus,scutatus,Hemiphractus scutatus,-4.136,-69.924004,Amazonas


## 2. Descripción de los datos

In [25]:
df_anfibios.dtypes

Order             object
Family            object
Genus             object
Species           object
Genus_species     object
Latitude1        float64
Longitude1       float64
State             object
dtype: object

#### 2.1 Datos númericos

In [26]:
df_anfibios.describe()

Unnamed: 0,Latitude1,Longitude1
count,3582.0,3582.0
mean,3.761464,-71.450382
std,4.329698,15.565765
min,-4.214222,-78.74924
25%,1.49,-74.569945
50%,4.73978,-73.61441
75%,6.34536,-70.58034
max,11.314,76.885444


In [27]:
df_anfibios

Unnamed: 0_level_0,Order,Family,Genus,Species,Genus_species,Latitude1,Longitude1,State
ANDES-A,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
885,Anura,Aromobatidae,Allobates,femoralis,Allobates femoralis,-4.124103,-69.941286,Amazonas
1728,Anura,Aromobatidae,Allobates,femoralis,Allobates femoralis,-4.119490,-69.951040,Amazonas
659,Anura,Aromobatidae,Allobates,femoralis,Allobates femoralis,-4.119444,-69.950000,Amazonas
1960,Anura,Aromobatidae,Allobates,femoralis,Allobates femoralis,-4.116667,-69.950000,Amazonas
1471,Anura,Aromobatidae,Allobates,femoralis,Allobates femoralis,-4.116667,-69.950000,Amazonas
...,...,...,...,...,...,...,...,...
4458,Gymnophiona,Caeciliidae,Caecilia,thompsoni,Caecilia thompsoni,5.608480,-74.855700,Caldas
4462,Gymnophiona,Caeciliidae,Caecilia,thompsoni,Caecilia thompsoni,4.099944,-74.783395,Tolima
4449,Gymnophiona,Caeciliidae,Caecilia,thompsoni,Caecilia thompsoni,4.111314,-74.572949,Tolima
4448,Gymnophiona,Caeciliidae,Caecilia,thompsoni,Caecilia thompsoni,4.113408,-74.578124,Tolima


#### 2.2 Datos categóricos

In [28]:
# Es posible obligar a tener en cuenta valores nulos así como retornar la frecuencia relativa en lugar de la absoluta
df_anfibios['Order'].value_counts(dropna = False, normalize = True)

Anura          0.986879
Caudata        0.011167
Gymnophiona    0.001954
Name: Order, dtype: float64

In [29]:
# Es posible obligar a tener en cuenta valores nulos así como retornar la frecuencia relativa en lugar de la absoluta
df_anfibios['Family'].value_counts(dropna = False, normalize = True)

Hylidae                0.324958
Leptodactylidae        0.202680
Craugastoridae         0.150754
Aromobatidae           0.121999
Bufonidae              0.100223
Dendrobatidae          0.043272
Microhylidae           0.016471
Centrolenidae          0.012284
Plethodontidae         0.011167
Strabomantidae         0.003629
Ranidae                0.003350
Pipidae                0.002233
Eleutherodactylidae    0.001954
Caeciliidae            0.001675
Ceratophryidae         0.001117
Phyllomedusidae        0.001117
Hemiphractidae         0.000558
Typhlonectidae         0.000279
Siphonopidae           0.000279
Name: Family, dtype: float64

In [30]:
# Es posible obligar a tener en cuenta valores nulos así como retornar la frecuencia relativa en lugar de la absoluta
df_anfibios['Genus'].value_counts(dropna = False, normalize = True)

Pristimantis     0.133724
Leptodactylus    0.113345
Rheobates        0.111949
Dendropsophus    0.101061
Rhinella         0.095757
                   ...   
Incilius         0.000279
Hiloscirtus      0.000279
Otophryne        0.000279
Vitreorana       0.000279
Microcaecilia    0.000279
Name: Genus, Length: 75, dtype: float64

In [31]:
# Es posible obligar a tener en cuenta valores nulos así como retornar la frecuencia relativa en lugar de la absoluta
df_anfibios['Species'].value_counts(dropna = False, normalize = True)

palmatus          0.111949
fuscus            0.046343
pustulosus        0.043551
microcephalus     0.034338
marina            0.033501
                    ...   
susatami          0.000279
ritae             0.000279
adercus           0.000279
carranguerorum    0.000279
pricei            0.000279
Name: Species, Length: 247, dtype: float64

In [32]:
# Es posible obligar a tener en cuenta valores nulos así como retornar la frecuencia relativa en lugar de la absoluta
df_anfibios['Genus_species'].value_counts(dropna = False, normalize = True)

Rheobates palmatus             0.111949
Leptodactylus fuscus           0.046343
Engystomops pustulosus         0.042714
Dendropsophus microcephalus    0.034338
Rhinella marina                0.033501
                                 ...   
Espadarana buckleyi            0.000279
Boana alfaroi                  0.000279
Agalychnis terranova           0.000279
Rhinella proboscidea           0.000279
Microcaecilia pricei           0.000279
Name: Genus_species, Length: 280, dtype: float64

In [33]:
# Es posible obligar a tener en cuenta valores nulos así como retornar la frecuencia relativa en lugar de la absoluta
df_anfibios['State'].value_counts(dropna = False, normalize = True)

Amazonas              0.179509
Cundinamarca          0.118649
Santander             0.099665
Tolima                0.095757
Meta                  0.082077
Casanare              0.060022
Vaupés                0.052764
Antioquia             0.049972
Boyacá                0.039643
Magdalena             0.037130
Atlántico             0.032663
Chocó                 0.022892
La Guajira            0.018984
Huila                 0.016471
Caquetá               0.015913
Guainía               0.012563
Córdoba               0.012004
Valle del Cauca       0.008375
Norte de Santander    0.008096
Vichada               0.007538
Nariño                0.007259
Sucre                 0.004746
Caldas                0.004467
Cesar                 0.003350
Quindío               0.002513
Cauca                 0.002233
Bolívar               0.002233
Guajira               0.000838
NaN                   0.000558
Leticia               0.000558
Risaralda             0.000558
Name: State, dtype: float64

In [34]:
# Change state "Guajira" for "La Guajira"
df_anfibios['State'] = df_anfibios['State'].replace('Guajira', 'La Guajira') 

# 3. Limpieza de datos

#### 3.1 Completitud

In [35]:
# Ver el porcentaje de atributos vacios
df_porcentajes = (100*df_anfibios.isna().sum()/len(df_anfibios)).to_frame()
df_porcentajes.sort_values(0, ascending = False)

Unnamed: 0,0
State,0.055835
Order,0.0
Family,0.0
Genus,0.0
Species,0.0
Genus_species,0.0
Latitude1,0.0
Longitude1,0.0


In [36]:
# Print the rows with NaN values
df_anfibios[df_anfibios.isna().any(axis=1)]


Unnamed: 0_level_0,Order,Family,Genus,Species,Genus_species,Latitude1,Longitude1,State
ANDES-A,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1390,Anura,Bufonidae,Rhinella,humboldti,Rhinella humboldti,6.98,-7.93,
1095,Anura,Dendrobatidae,Andinobates,cassidyhornae,Andinobates cassidyhornae,5.516667,-75.883333,


#### 3.2 Duplicidad

In [37]:
# Revisamos cada columna para ver cuantos valores repetidos tiene
# el comando duplicated() no dice que filas tinen valores duplicados.
non_number_cols = df_anfibios.dtypes[(df_anfibios.dtypes != np.int64) & (df_anfibios.dtypes != np.float64)].index 
for col in non_number_cols:
    num_duplicated = df_anfibios.duplicated(subset = col).sum()
    print(f"{col}: {num_duplicated}")

Order: 3579
Family: 3563
Genus: 3507
Species: 3335
Genus_species: 3302
State: 3552


# 4. Comparar el departamento con el obtenido de Google Maps

In [38]:
# import the google maps library
import googlemaps

# create a google maps client with your API key
gmaps = googlemaps.Client(key='GOOGLE_API_KEY')

departamentos_colombia = ['Amazonas', 'Antioquia', 'Arauca', 'Atlántico', 'Bolívar', 'Boyacá', 'Caldas', 'Caquetá', 'Casanare', 'Cauca', 'Cesar', 'Chocó', 'Córdoba', 'Cundinamarca', 'Guainía', 'Guaviare', 'Huila', 'La Guajira', 'Magdalena', 'Meta', 'Nariño', 'Norte de Santander', 'Putumayo', 'Quindío', 'Risaralda', 'San Andrés y Providencia', 'Santander', 'Sucre', 'Tolima', 'Valle del Cauca', 'Vaupés', 'Vichada']



def get_state(coord):
    # Use the reverse geocode method to get the address from the coordinates
    result = gmaps.reverse_geocode(coord, language='es')

    state = None

    # Iterate through the length of the result, for each check if it contains any of the departments of Colombia and return the found department
    for i in range(len(result)):
        for departamento in departamentos_colombia:
            if departamento in result[i]['formatted_address']:
                state = departamento
                break

    # Iterate through the length of the result, for each check if it Bogotá and return Cundinamarca
    for i in range(len(result)):
        if 'Bogotá' in result[i]['formatted_address']:
            state = 'Cundinamarca'
            break

    if state is None:
        print(result)
        return result
    else:
        return state
    


# create a new column with the state name from the coordinates
df_anfibios['State_from_coord'] = df_anfibios.apply(
    lambda row: get_state((row['Latitude1'], row['Longitude1'])), axis=1)


[{'address_components': [{'long_name': '6JQHV4XP+F9', 'short_name': '6JQHV4XP+F9', 'types': ['plus_code']}], 'formatted_address': '6JQHV4XP+F9', 'geometry': {'bounds': {'northeast': {'lat': 5.89875, 'lng': 71.136}, 'southwest': {'lat': 5.898625, 'lng': 71.135875}}, 'location': {'lat': 5.89863, 'lng': 71.13598}, 'location_type': 'GEOMETRIC_CENTER', 'viewport': {'northeast': {'lat': 5.900036480291502, 'lng': 71.13728648029151}, 'southwest': {'lat': 5.897338519708498, 'lng': 71.1345885197085}}}, 'place_id': 'GhIJY9F0djKYF0ARPzp15bPIUUA', 'plus_code': {'global_code': '6JQHV4XP+F9'}, 'types': ['plus_code']}]
[{'address_components': [{'long_name': '6JQHV4XP+F9', 'short_name': '6JQHV4XP+F9', 'types': ['plus_code']}], 'formatted_address': '6JQHV4XP+F9', 'geometry': {'bounds': {'northeast': {'lat': 5.89875, 'lng': 71.136}, 'southwest': {'lat': 5.898625, 'lng': 71.135875}}, 'location': {'lat': 5.89863, 'lng': 71.13598}, 'location_type': 'GEOMETRIC_CENTER', 'viewport': {'northeast': {'lat': 5.900

In [39]:
df_anfibios.sample(5)

Unnamed: 0_level_0,Order,Family,Genus,Species,Genus_species,Latitude1,Longitude1,State,State_from_coord
ANDES-A,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
4869,Anura,Leptodactylidae,Engystomops,pustulosus,Engystomops pustulosus,11.2328,-74.1315,Magdalena,Magdalena
3998,Anura,Leptodactylidae,Pleurodema,brachyops,Pleurodema brachyops,10.714,-74.941,Atlántico,Atlántico
3595,Anura,Hylidae,Dendropsophus,microcephalus,Dendropsophus microcephalus,4.73978,-73.76873,Tolima,Cundinamarca
2176,Anura,Hylidae,Scinax,ruber,Scinax ruber,1.317,-70.389,Vaupés,Vaupés
1723,Anura,Bufonidae,Rhinella,roqueana,Rhinella roqueana,-4.11949,-69.95104,Amazonas,Amazonas


In [40]:
df_anfibios['Is_correct'] = df_anfibios['State'] == df_anfibios['State_from_coord']

df_anfibios[df_anfibios['Is_correct'] == False].to_csv(
    './data/ANDES_A_ANFIBIOS_Lat_Long_Wrong_Department.csv', sep=',', encoding='utf-8')

In [45]:
# Save the rows with NaN values to a new csv file

df_anfibios[df_anfibios.isna().any(axis=1)].to_csv('./data/ANDES_A_ANFIBIOS_Lat_Long_NaN_Values.csv', sep=',', encoding = 'utf-8')

# Print the rows with NaN values

print(df_anfibios[df_anfibios.isna().any(axis=1)])

# Fill the NaN values of the State column with the values of the State_from_coord column

df_anfibios['State'].fillna(df_anfibios['State_from_coord'], inplace=True)

# Print the rows with NaN values

print(df_anfibios[df_anfibios.isna().any(axis=1)])

Empty DataFrame
Columns: [Order, Family, Genus, Species, Genus_species, Latitude1, Longitude1, State, State_from_coord, Is_correct]
Index: []
Empty DataFrame
Columns: [Order, Family, Genus, Species, Genus_species, Latitude1, Longitude1, State, State_from_coord, Is_correct]
Index: []


Unnamed: 0_level_0,Order,Family,Genus,Species,Genus_species,Latitude1,Longitude1,State,State_Google,State_Match
ANDES-A,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
