## Importación de librerias 

In [1]:
# importamos las librerias necesarias
import pandas as pd

## Carga del archivo CSV

In [2]:
# cargar el documento csv con pd.read_csv, creando el dataframe
df = pd.read_csv('/Users/stam/Documents/Documents_MacBook_Eduardo/GitHub/jumping_spider_salticidae/datasets/world_spider_catalog_v25_5.csv')

## Limpieza de datos

In [3]:
# se verifica la completitud de las variables (valores nulos existentes)
# se utiliza la función .sum() para sumar los elementos que están vacíos (.isnull())
nulos = df.isnull().sum()

# calculo del porcentaje de completitud
completitud = pd.DataFrame(100 - (nulos / len(df) * 100))

# reset_index se utiliza para resetear los índices
# inplace = True sirve para evitar la repetición
completitud.reset_index(inplace = True)
# se coloan encebezados
completitud = completitud.rename(columns = {"index":"variable",0:"completitud"})

# ordenamos las columnas con menor completitud en adelante
completitud.sort_values(by ='completitud', ascending = True)
completitud

Unnamed: 0,variable,completitud
0,speciesId,100.0
1,species_lsid,100.0
2,family,100.0
3,genus,100.0
4,species,100.0
5,subspecies,0.838435
6,author,100.0
7,year,100.0
8,parentheses,100.0
9,distribution,99.998099


In [4]:
# eliminacion de los datos duplicados
df.drop_duplicates(inplace=True)
df = df.dropna(subset=['distribution'])

In [5]:
# se verifica la completitud de las variables (valores nulos existentes)
# se utiliza la función .sum() para sumar los elementos que están vacíos (.isnull())
nulos = df.isnull().sum()

# calculo del porcentaje de completitud
completitud = pd.DataFrame(100 - (nulos / len(df) * 100))

# reset_index se utiliza para resetear los índices
# inplace = True sirve para evitar la repetición
completitud.reset_index(inplace = True)
# se coloan encebezados
completitud = completitud.rename(columns = {"index":"variable",0:"completitud"})

# ordenamos las columnas con menor completitud en adelante
completitud.sort_values(by ='completitud', ascending = True)
completitud

Unnamed: 0,variable,completitud
0,speciesId,100.0
1,species_lsid,100.0
2,family,100.0
3,genus,100.0
4,species,100.0
5,subspecies,0.838451
6,author,100.0
7,year,100.0
8,parentheses,100.0
9,distribution,100.0


In [6]:
# dimensión del dataframe con eliminacion de datos duplicados
print(f"Número de filas: {df.shape[0]}")
print(f"Número de columnas: {df.shape[1]}")

Número de filas: 52597
Número de columnas: 10


## Filtrado de registros

### Arañas salticidae en México y otros paÍses

In [7]:
# Filtrar las filas donde 'distribution' sea 'Mexico' y 'family' sea 'Salticidae'
df_salticidae_mexico_world = df[
    (df['distribution'].str.contains('Mexico', na=False, case=False)) & 
    (df['family'] == 'Salticidae')
]

# Verificar cuántos registros hay en el nuevo DataFrame
print(f"Total de registros donde 'distribution' es 'Mexico' y 'family' es 'Salticidae': {len(df_salticidae_mexico_world)}")

Total de registros donde 'distribution' es 'Mexico' y 'family' es 'Salticidae': 255


### Arañas salticidae en México

In [8]:
# Filtrar las filas donde 'distribution' sea 'Mexico' y 'family' sea 'Salticidae'
df_salticidae_mexico = df[
    (df['distribution']== 'Mexico') & 
    (df['family'] == 'Salticidae')
]

# Verificar cuántos registros hay en el nuevo DataFrame
print(f"Total de registros donde 'distribution' es 'Mexico' y 'family' es 'Salticidae': {len(df_salticidae_mexico)}")

Total de registros donde 'distribution' es 'Mexico' y 'family' es 'Salticidae': 105


### Guardar dataframes en archivos CSV

In [9]:
# Guardar el dataframe en un archivo CSV
df_salticidae_mexico_world.to_csv('salticidae_mexico_world_wsc.csv', index=False)

print("DataFrame guardado en salticidae_mexico_world_wsc.csv")

DataFrame guardado en salticidae_mexico_world_wsc.csv


In [10]:
# Guardar el dataframe en un archivo CSV
df_salticidae_mexico.to_csv('salticidae_mexico_wsc.csv', index=False)

print("DataFrame guardado en salticidae_mexico_wsc.csv")

DataFrame guardado en salticidae_mexico_wsc.csv
