## Importación de librerias 

In [11]:
# importamos las librerias necesarias
import pandas as pd
import warnings
warnings.filterwarnings("ignore")

## Carga del archivo CSV

In [12]:
# cargar el documento csv con pd.read_csv, creando el dataframe
df = pd.read_csv('/Users/stam/Documents/Documents_MacBook_Eduardo/GitHub/jumping_spider_salticidae/datasets/salticidae_mexico_conabio.csv')

## Limpieza de datos

In [13]:
# se verifica la completitud de las variables (valores nulos existentes)
# se utiliza la función .sum() para sumar los elementos que están vacíos (.isnull())
nulos = df.isnull().sum()

# calculo del porcentaje de completitud
completitud = pd.DataFrame(100 - (nulos / len(df) * 100))

# reset_index se utiliza para resetear los índices
# inplace = True sirve para evitar la repetición
completitud.reset_index(inplace = True)
# se coloan encebezados
completitud = completitud.rename(columns = {"index":"variable",0:"completitud"})

# ordenamos las columnas con mayot completitud en adelante
completitud.sort_values(by='completitud', ascending=True).head(10)

Unnamed: 0,variable,completitud
65,nom059,0.0
38,categoriainfraespecie2,0.0
51,categoriainfraespecie2valida,0.0
69,endemismo,0.0
56,categoriaresidenciaaves,0.0
57,formadecrecimiento,0.0
67,nivelprioridad,0.0
66,prioritaria,0.0
64,iucn,0.0
63,cites,0.0


In [14]:
# filtrar  arañas encontradas en México
df = df[df['paisoriginal'].str.contains('Mexico', na=False, case=False)]

In [15]:
# eliminacion de los datos duplicados
df.drop_duplicates(inplace=True)

# eliminacion de los datos faltantes
df = df.dropna(subset=[ 'paiscoleccion','familiavalida','generovalido','estadooriginal'])

# .fillna reemplazará todos los valores NaN (vacíos) en la columna "especievalida" con "sp."
# .replace reemplazará las celdas vacías ("") con ".sp" en la columna "especievalida"
df['especievalida'] = df['especievalida'].fillna('sp.').replace('', 'sp.')

In [16]:
# las columnas con menos del 80% de completitud son eliminadas
# define una serie de pandas  con el nombre de las columnas
cols_incompletas = completitud['variable'][completitud['completitud']<80]
# se eliminan esas columnas
df = df.drop(cols_incompletas, axis=1) # 1 columnas 0 filas
df.head(2)

Unnamed: 0,idejemplar,coleccion,institucion,paiscoleccion,fechacolecta,diacolecta,mescolecta,aniocolecta,fechadeterminacion,diadeterminacion,...,geovalidacion,validacionambiente,usvserieI,usvserieII,usvserieIII,usvserieIV,usvserieV,usvserieVI,usvserieVII,geoportal
0,2b8c370d2d52f42f8b330f461ac4d614,CARCIB Colección Aracnológica,CIBNOR Centro de Investigaciones Biológicas de...,MEXICO,2017-08-28,28.0,8.0,2017.0,2017-09-30,30.0,...,Válido municipio 2022,Válido,DESPROVISTO DE VEGETACIÓN,SIN VEGETACIÓN APARENTE,SIN VEGETACIÓN APARENTE,SIN VEGETACIÓN APARENTE,SIN VEGETACIÓN APARENTE,SIN VEGETACIÓN APARENTE,SIN VEGETACIÓN APARENTE,1
1,72ad37ee59849904ebd0896a7ea23909,Naturalista Naturalista,CONABIO Comisión Nacional para el Conocimiento...,MEXICO,2019-08-13,13.0,8.0,2019.0,2019-08-16,16.0,...,Válido país 2022. No aplica validación de esta...,Válido,,AGRICULTURA DE TEMPORAL PLANTACION AGRICOLA PE...,AGRICULTURA DE TEMPORAL PLANTACION AGRICOLA PE...,AGRICULTURA DE TEMPORAL PLANTACION AGRICOLA PE...,AGRICULTURA DE TEMPORAL PERMANENTE,AGRICULTURA DE TEMPORAL PERMANENTE,AGRICULTURA DE TEMPORAL PERMANENTE,1


In [17]:
# se verifica la completitud de las variables (valores nulos existentes)
# se utiliza la función .sum() para sumar los elementos que están vacíos (.isnull())
nulos = df.isnull().sum()

# calculo del porcentaje de completitud
completitud = pd.DataFrame(100 - (nulos / len(df) * 100))

# reset_index se utiliza para resetear los índices
# inplace = True sirve para evitar la repetición
completitud.reset_index(inplace = True)
# se coloan encebezados
completitud = completitud.rename(columns = {"index":"variable",0:"completitud"})

In [18]:
completitud.sort_values(by='completitud', ascending=True).head(60)

Unnamed: 0,variable,completitud
26,especie,89.439617
27,estatustax,89.439617
30,autor,89.439617
8,fechadeterminacion,92.995212
9,diadeterminacion,92.995212
10,mesdeterminacion,93.607023
11,aniodeterminacion,94.183366
41,ambiente,94.218833
53,municipiooriginal,94.777443
17,urlorigen,95.238517


In [19]:
# dimensión del dataframe con eliminacion de datos duplicados
print(f"Número de filas: {df.shape[0]}")
print(f"Número de columnas: {df.shape[1]}")

Número de filas: 11278
Número de columnas: 69


### Guardar dataframe en archivo CSV

In [20]:
# Guardar el dataframe en un archivo CSV
df.to_csv('salticidae_mexico_conabio.csv', index=False)

print("DataFrame guardado en salticidae_mexico_conabio.csv")

DataFrame guardado en salticidae_mexico_conabio.csv
