## 1. Problem Statement
The objective of this notebook is to perform an initial exploratory data analysis (EDA)
and data cleaning process on a global species distribution dataset.
The goal is to identify data quality issues and prepare a clean dataset
for downstream geospatial and comparative analysis.

## 2. Data Loading
The dataset used in this analysis was obtained from the World Spider Catalog.
It contains taxonomic and distribution-related information for spider species
at a global level.

In [77]:
# library import
import pandas as pd

In [78]:
# uploading a CSV File
df = pd.read_csv('/Users/yayo/Documents/GitHub/jumping_spider_salticidae/data/raw/salticidae_mexico_conabio.csv')

  df = pd.read_csv('/Users/yayo/Documents/GitHub/jumping_spider_salticidae/data/raw/salticidae_mexico_conabio.csv')


## 3. Exploratory Data Analysis (EDA)

### 3.1 Structure and data types

In [79]:
# dataframe dimensions (rows and columns)
print(f"Number of rows: {df.shape[0]}")
print(f"Number of columns: {df.shape[1]}")

Number of rows: 11751
Number of columns: 102


In [80]:
# columns of the dataframe
df.columns

Index(['idejemplar', 'numcatalogo', 'numcolecta', 'coleccion', 'institucion',
       'paiscoleccion', 'colector', 'fechacolecta', 'diacolecta', 'mescolecta',
       ...
       'usvserieV', 'usvserieVI', 'usvserieVII', 'vegetacionserenanalcms',
       'mt24claveestadomapa', 'mt24nombreestadomapa', 'mt24clavemunicipiomapa',
       'mt24nombremunicipiomapa', 'incertidumbreXY', 'geoportal'],
      dtype='object', length=102)

In [81]:
# data loaded
# display the first few rows of the dataframe
df.head(3)

Unnamed: 0,idejemplar,numcatalogo,numcolecta,coleccion,institucion,paiscoleccion,colector,fechacolecta,diacolecta,mescolecta,...,usvserieV,usvserieVI,usvserieVII,vegetacionserenanalcms,mt24claveestadomapa,mt24nombreestadomapa,mt24clavemunicipiomapa,mt24nombremunicipiomapa,incertidumbreXY,geoportal
0,2b8c370d2d52f42f8b330f461ac4d614,CARCIB-Ar-4298,AGP-48,CARCIB Colección Aracnológica,CIBNOR Centro de Investigaciones Biológicas de...,MEXICO,Alejandro García-Palacios,2017-08-28,28.0,8.0,...,SIN VEGETACIÓN APARENTE,SIN VEGETACIÓN APARENTE,SIN VEGETACIÓN APARENTE,,,,,,,1
1,72ad37ee59849904ebd0896a7ea23909,,,Naturalista Naturalista,CONABIO Comisión Nacional para el Conocimiento...,MEXICO,,2019-08-13,13.0,8.0,...,AGRICULTURA DE TEMPORAL PERMANENTE,AGRICULTURA DE TEMPORAL PERMANENTE,AGRICULTURA DE TEMPORAL PERMANENTE,,30.0,VERACRUZ DE IGNACIO DE LA LLAVE,30151.0,TAMIAHUA,4.0,1
2,1a48cb5bb51b1655e305e7d0f5d9dcab,CARCIB-Ar-4297,AGP-56,CARCIB Colección Aracnológica,CIBNOR Centro de Investigaciones Biológicas de...,MEXICO,Alejandro García-Palacios,2017-08-28,28.0,8.0,...,SIN VEGETACIÓN APARENTE,SIN VEGETACIÓN APARENTE,SIN VEGETACIÓN APARENTE,,,,,,,1


In [82]:
# identify the data type of each variable
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11751 entries, 0 to 11750
Columns: 102 entries, idejemplar to geoportal
dtypes: float64(26), int64(1), object(75)
memory usage: 9.1+ MB


### 3.2 Missing Data Analysis

In [83]:
df.isna().sum().sort_values(ascending=False)

categoriainfraespecie2valida    11751
prioritaria                     11751
categoriaresidenciaaves         11751
formadecrecimiento              11751
vegetacionserenanalcms          11751
                                ...  
grupobio                            0
subgrupobio                         0
taxonvalidado                       0
longitud                            0
geoportal                           0
Length: 102, dtype: int64

In [84]:
(df.isna().mean() * 100).sort_values(ascending=False)

categoriainfraespecie2valida    100.0
prioritaria                     100.0
categoriaresidenciaaves         100.0
formadecrecimiento              100.0
vegetacionserenanalcms          100.0
                                ...  
grupobio                          0.0
subgrupobio                       0.0
taxonvalidado                     0.0
longitud                          0.0
geoportal                         0.0
Length: 102, dtype: float64

In [85]:
# Count missing values per variable
missing_values = df.isnull().sum()

# Calculate completeness percentage
completeness = pd.DataFrame(
    100 - (missing_values / len(df) * 100),
    columns=["completeness"]
)

# Reset index and rename columns
completeness = (
    completeness
    .reset_index()
    .rename(columns={"index": "variable"})
)

# Sort variables by completeness (ascending)
completeness = completeness.sort_values(
    by="completeness",
    ascending=True
)

completeness

Unnamed: 0,variable,completeness
65,nom059,0.0
38,categoriainfraespecie2,0.0
51,categoriainfraespecie2valida,0.0
69,endemismo,0.0
56,categoriaresidenciaaves,0.0
...,...,...
59,subgrupobio,100.0
61,taxonvalidado,100.0
70,longitud,100.0
73,paismapa,100.0


### 3.3 Duplicate Inspection

In [86]:
df.duplicated().sum()

np.int64(0)

In [87]:
df[df.duplicated(keep=False)]

Unnamed: 0,idejemplar,numcatalogo,numcolecta,coleccion,institucion,paiscoleccion,colector,fechacolecta,diacolecta,mescolecta,...,usvserieV,usvserieVI,usvserieVII,vegetacionserenanalcms,mt24claveestadomapa,mt24nombreestadomapa,mt24clavemunicipiomapa,mt24nombremunicipiomapa,incertidumbreXY,geoportal


### 3.4 Data Completeness Assessment

In [88]:
# se verifica la completitud de las variables (valores nulos existentes)
# se utiliza la función .sum() para sumar los elementos que están vacíos (.isnull())
nulos = df.isnull().sum()

# calculo del porcentaje de completitud
completitud = pd.DataFrame(100 - (nulos / len(df) * 100))

# reset_index se utiliza para resetear los índices
# inplace = True sirve para evitar la repetición
completitud.reset_index(inplace = True)
# se coloan encebezados
completitud = completitud.rename(columns = {"index":"variable",0:"completitud"})

# ordenamos las columnas con mayot completitud en adelante
completitud.sort_values(by='completitud', ascending=True).head(10)

Unnamed: 0,variable,completitud
65,nom059,0.0
38,categoriainfraespecie2,0.0
51,categoriainfraespecie2valida,0.0
69,endemismo,0.0
56,categoriaresidenciaaves,0.0
57,formadecrecimiento,0.0
67,nivelprioridad,0.0
66,prioritaria,0.0
64,iucn,0.0
63,cites,0.0


## 4. Data Cleaning

### 4.1 Duplicate Removal

In [89]:
df = df.drop_duplicates(keep='first')

In [90]:
df.duplicated().sum()

np.int64(0)

### 4.2 Column Removal

In [91]:
df = df.drop(columns=['idejemplar', 'numcatalogo', 'coleccion','institucion', 'colector', 'determinador', 'fechadeterminacion', 'diadeterminacion',
                      'mesdeterminacion', 'aniodeterminacion', 'calificadordeterminacion', 'tipo', 'ejemplarfosil', 'obsusoinfo', 'formadecitar',
                      'licenciauso', 'proyecto', 'fuente', 'ultimafechaactualizacion', 'version', 'reino', 'phylumdivision', 'categoriainfraespecie',
                      'categoriainfraespecie2', 'estatustax', 'idnombrecat', 'reinovalido', 'phylumdivisionvalido', 'clasevalida', 'ordenvalido',
                      'categoriainfraespecievalida', 'categoriainfraespecie2valida', 'idnombrecatvalido', 'categoriaresidenciaaves', 'formadecrecimiento',
                      'grupobio', 'subgrupobio', 'nombrecomun', 'taxonextinto', 'cites', 'iucn', 'localidad', 'usvserieI', 'usvserieII', 'usvserieIII', 'usvserieIV',
                      'usvserieV', 'usvserieVI', 'usvserieVII', 'vegetacionserenanalcms', 'mt24claveestadomapa', 'mt24nombreestadomapa', 'mt24clavemunicipiomapa',
                      'mt24nombremunicipiomapa', 'incertidumbreXY', 'geoportal', 'numcolecta', 'urlproyecto', 'urlorigen', 'ambiente', 'nom059', 'prioritaria',
                      'nivelprioridad', 'endemismo', 'datum', 'paiscoleccion', 'fechacolecta', 'diacolecta', 'mescolecta', 'clase', 'regionmarinamapa', 'geovalidacion',
                      'validacionambiente'
                      ])

### 4.5 Post-cleaning Validation

In [92]:
# dimensión del dataframe con eliminacion de datos duplicados
print(f"Número de filas: {df.shape[0]}")
print(f"Número de columnas: {df.shape[1]}")

Número de filas: 11751
Número de columnas: 29


In [93]:
df.columns

Index(['aniocolecta', 'procedenciaejemplar', 'urlejemplar', 'orden', 'familia',
       'genero', 'especie', 'reftax', 'autor', 'familiavalida', 'generovalido',
       'especievalida', 'reftaxvalido', 'autorvalido', 'taxonvalidado',
       'exoticainvasora', 'longitud', 'latitud', 'paisoriginal', 'paismapa',
       'claveestadomapa', 'estadooriginal', 'estadomapa', 'clavemunicipiomapa',
       'municipiooriginal', 'municipiomapa', 'region', 'anp', 'altitudmapa'],
      dtype='object')

In [94]:
print("Duplicados restantes:", df.duplicated().sum())
print("Total valores nulos restantes:", df.isnull().sum().sum())

Duplicados restantes: 0
Total valores nulos restantes: 24993


In [95]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11751 entries, 0 to 11750
Data columns (total 29 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   aniocolecta          11666 non-null  float64
 1   procedenciaejemplar  11751 non-null  object 
 2   urlejemplar          11751 non-null  object 
 3   orden                11751 non-null  object 
 4   familia              11751 non-null  object 
 5   genero               11400 non-null  object 
 6   especie              10203 non-null  object 
 7   reftax               11681 non-null  object 
 8   autor                10133 non-null  object 
 9   familiavalida        11675 non-null  object 
 10  generovalido         11324 non-null  object 
 11  especievalida        10127 non-null  object 
 12  reftaxvalido         11675 non-null  object 
 13  autorvalido          11308 non-null  object 
 14  taxonvalidado        11751 non-null  object 
 15  exoticainvasora      391 non-null   

## 5. Export

In [96]:
# Guardar el dataframe en un archivo CSV
df.to_csv('/Users/yayo/Documents/GitHub/jumping_spider_salticidae/data/processed/conabio_cleaned.csv', index=False)

print("DataFrame guardado en conabio_cleaned.csv")

DataFrame guardado en conabio_cleaned.csv
