In [29]:
#imports
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

#mostrar graficos dentro del notebook
%matplotlib inline
#no mostrar warnings
import warnings
warnings.filterwarnings("ignore")

In [30]:
#leer csv
data = pd.read_csv('/Users/rod/Desktop/materias/machineLearning/finalProj/data/humanEvo.csv')

## Exploración de los datos

In [31]:
#shape del dataframe
data.shape

(12000, 28)

In [32]:
#mirar 3 muestras
data.head(3)

Unnamed: 0,Genus_&_Specie,Time,Location,Zone,Current_Country,Habitat,Cranial_Capacity,Height,Incisor_Size,Jaw_Shape,...,biped,Arms,Foots,Diet,Sexual_Dimorphism,Hip,Vertical_Front,Anatomy,Migrated,Skeleton
0,hominino Orrorin tugenencin,6.041124,Africa,oriental,Kenya,forest,144.5141,110.24323,small,conical,...,low probability,climbing,climbing,dry fruits,high,wide,no,old,no,light
1,hominino Ardipithecus ramidus / kabadda,4.38391,Africa,oriental,Ethiopia,mixed,293.96021,107.69018,small,conical,...,high probability,climbing,climbing,soft fruits,medium-high,wide,no,old,no,light
2,Australopithecus Afarensis,3.749413,Africa,oriental,Kenya,mixed,264.79849,123.76644,big,U shape,...,yes,climbing,walk,dry fruits,high,slim,no,old,no,refined


In [33]:
# ahora vemos si hay valores faltantes y cuántos
print(f"valores faltantes: {data.isna().sum()}")

valores faltantes: Genus_&_Specie             0
Time                       0
Location                   0
Zone                       0
Current_Country            0
Habitat                    0
Cranial_Capacity           0
Height                     0
Incisor_Size               0
Jaw_Shape                  0
Torus_Supraorbital         0
Prognathism                0
Foramen_Mágnum_Position    0
Canine Size                0
Canines_Shape              0
Tooth_Enamel               0
Tecno                      0
Tecno_type                 0
biped                      0
Arms                       0
Foots                      0
Diet                       0
Sexual_Dimorphism          0
Hip                        0
Vertical_Front             0
Anatomy                    0
Migrated                   0
Skeleton                   0
dtype: int64


In [34]:
#miremos los valores unicos de nuestra variable dependiente 
print(f'valores únicos de Genus_&_Specie: {data["Genus_&_Specie"].unique()}')

valores únicos de Genus_&_Specie: ['hominino Orrorin tugenencin' 'hominino Ardipithecus ramidus / kabadda'
 'Australopithecus Afarensis' 'Australopithecus Anamensis'
 'Australopithecus Africanus' 'Homo Rodhesiensis'
 'hominino Sahelanthropus tchadensis' 'Homo Neanderthalensis\n'
 'Paranthropus Aethiopicus' 'Homo Erectus' 'Homo Naledi'
 'Homo Floresiensis' 'Paranthropus Boisei' 'Homo Rudolfensis'
 'Homo Habilis' 'Homo Sapiens' 'Homo Antecesor' 'Homo Ergaster'
 'Australopithecus Sediba' 'Homo Georgicus'
 'Australopithecus Bahrelghazali' 'Australopithecus Garhi'
 'Paranthropus Robustus' 'Homo Heidelbergensis']


# Preprocesamiento

#### Notemos que tenemos dos valores que toma Genus_&_Specie no cumplen el formato genero-especie que tienen todos los demás:
 - 'hominino Ardipithecus ramidus / kabadda'
 - 'Homo Neanderthalensis\n'
#### así que al primero le quitaremos la alternativa que tiene de especie después de la diagonal.
#### y al segundo le quitaremos el '\n' que no hace sentido

In [35]:
# Eliminar la especie después de la barra inclinada '/'
data['Genus_&_Specie'] = data['Genus_&_Specie'].apply(lambda x: x.split('/')[0].strip() if '/' in x else x)

# Eliminar el carácter de salto de línea '\n'
data['Genus_&_Specie'] = data['Genus_&_Specie'].str.replace('\n', '')

In [36]:
#verificamos los cambios
print(f'valores únicos de Genus_&_Specie: {data["Genus_&_Specie"].unique()}')

valores únicos de Genus_&_Specie: ['hominino Orrorin tugenencin' 'hominino Ardipithecus ramidus'
 'Australopithecus Afarensis' 'Australopithecus Anamensis'
 'Australopithecus Africanus' 'Homo Rodhesiensis'
 'hominino Sahelanthropus tchadensis' 'Homo Neanderthalensis'
 'Paranthropus Aethiopicus' 'Homo Erectus' 'Homo Naledi'
 'Homo Floresiensis' 'Paranthropus Boisei' 'Homo Rudolfensis'
 'Homo Habilis' 'Homo Sapiens' 'Homo Antecesor' 'Homo Ergaster'
 'Australopithecus Sediba' 'Homo Georgicus'
 'Australopithecus Bahrelghazali' 'Australopithecus Garhi'
 'Paranthropus Robustus' 'Homo Heidelbergensis']


### Analizaremos  la varianza de las variables categóricas. Aquellas variables con mayor variabilidad pueden ser más informativas.



In [37]:
categorical_variables = data.select_dtypes(include=['object']).drop(columns=["Genus_&_Specie"]).columns
# Crear un DataFrame vacío para almacenar los resultados
resultsVariance = pd.DataFrame(columns=['Variable', 'Varianza'])

# Calcular la varianza de las categorías en cada variable categórica
for variable in categorical_variables:
    category_variance = data.groupby(variable).size().var()
    # Agregar los resultados al DataFrame
    resultsVariance.loc[len(resultsVariance)] = [variable, category_variance]

# Mostrar la tabla de resultados
print(resultsVariance)




                   Variable      Varianza
0                  Location  1.875000e+07
1                      Zone  5.500000e+06
2           Current_Country  1.142857e+06
3                   Habitat  1.642857e+06
4              Incisor_Size  2.675000e+06
5                 Jaw_Shape  4.166667e+06
6        Torus_Supraorbital  4.300000e+06
7               Prognathism  1.400000e+06
8   Foramen_Mágnum_Position  3.166667e+06
9               Canine Size  5.000000e+05
10            Canines_Shape  2.000000e+06
11             Tooth_Enamel  2.238095e+06
12                    Tecno  9.750000e+06
13               Tecno_type  5.500000e+06
14                    biped  6.833333e+06
15                     Arms  9.250000e+06
16                    Foots  4.500000e+06
17                     Diet  1.925000e+06
18        Sexual_Dimorphism  9.250000e+06
19                      Hip  2.166667e+06
20           Vertical_Front  7.750000e+06
21                  Anatomy  3.166667e+06
22                 Migrated  1.800

### Filtremos variables por encima de un umbral 

In [38]:

umbral= 5000000.0  

# Filtrar las variables con varianza mayor que el umbral
variables_categoricas_importantes = resultsVariance[resultsVariance['Varianza'] > umbral]['Variable'].tolist()

print("Variables con varianza importante:")
print(variables_categoricas_importantes)


Variables con varianza importante:
['Location', 'Zone', 'Tecno', 'Tecno_type', 'biped', 'Arms', 'Sexual_Dimorphism', 'Vertical_Front', 'Migrated']


### Ahora actualizaremos el data frame con nuestras variables ya filtradas

In [44]:
variables_continuas = ['Time', 'Cranial_Capacity', 'Height']
data_filtrado = data[['Genus_&_Specie'] + variables_categoricas_importantes + variables_continuas]
print(f"número de columnas:{len(data.columns)}")

número de columnas:13
