In [1]:
import pandas as pd

### Funcion: tipifica_variables

Esta función debe recibir como argumento un dataframe, un entero (`umbral_categoria`) y un float (`umbral_continua`). La función debe devolver un dataframe con dos columnas "nombre_variable", "tipo_sugerido" que tendrá tantas filas como columnas el dataframe. En cada fila irá el nombre de una de las columnas y una sugerencia del tipo de variable. Esta sugerencia se hará siguiendo las siguientes pautas:
+ Si la cardinalidad es 2, asignara "Binaria"
+ Si la cardinalidad es menor que `umbral_categoria` asignara "Categórica"
+ Si la cardinalidad es mayor o igual que `umbral_categoria`, entonces entra en juego el tercer argumento:
    * Si además el porcentaje de cardinalidad es superior o igual a `umbral_continua`, asigna "Numerica Continua"
    * En caso contrario, asigna "Numerica Discreta"


In [2]:
def tipifica_variables(dataframe, umbral_categoria, umbral_continua):
    # Inicializar una lista para almacenar los resultados
    resultados = []
    
    # Iterar sobre cada columna del dataframe
    for columna in dataframe.columns:
        # Calcular la cardinalidad de la columna
        cardinalidad = dataframe[columna].nunique()
        
        # Calcular el porcentaje de cardinalidad
        porcentaje_cardinalidad = cardinalidad / len(dataframe)
        
        # Determinar el tipo de variable
        if cardinalidad == 2:
            tipo_sugerido = "Binaria"
        elif cardinalidad < umbral_categoria:
            tipo_sugerido = "Categórica"
        else:
            if porcentaje_cardinalidad >= umbral_continua:
                tipo_sugerido = "Numerica Continua"
            else:
                tipo_sugerido = "Numerica Discreta"
        
        # Agregar el resultado a la lista
        resultados.append({'nombre_variable': columna, 'tipo_sugerido': tipo_sugerido})
    
    # Convertir la lista de resultados en un DataFrame y devolverlo
    return pd.DataFrame(resultados)

In [3]:
# Ejemplo de uso:
df_pkmn = pd.read_csv('./data/pokemon.csv')

pkmn = tipifica_variables(df_pkmn, umbral_categoria=10, umbral_continua=0.8)
print(pkmn)

      nombre_variable      tipo_sugerido
0           abilities  Numerica Discreta
1         against_bug         Categórica
2        against_dark         Categórica
3      against_dragon         Categórica
4    against_electric         Categórica
5       against_fairy         Categórica
6       against_fight         Categórica
7        against_fire         Categórica
8      against_flying         Categórica
9       against_ghost         Categórica
10      against_grass         Categórica
11     against_ground         Categórica
12        against_ice         Categórica
13     against_normal         Categórica
14     against_poison         Categórica
15    against_psychic         Categórica
16       against_rock         Categórica
17      against_steel         Categórica
18      against_water         Categórica
19             attack  Numerica Discreta
20     base_egg_steps  Numerica Discreta
21     base_happiness         Categórica
22         base_total  Numerica Discreta
23       capture

In [4]:
# Ejemplo de uso:
df_titanic = pd.read_csv('./data/titanic.csv')

titanic = tipifica_variables(df_titanic, umbral_categoria=10, umbral_continua=0.8)
print(titanic)

   nombre_variable      tipo_sugerido
0         survived            Binaria
1           pclass         Categórica
2              sex            Binaria
3              age  Numerica Discreta
4            sibsp         Categórica
5            parch         Categórica
6             fare  Numerica Discreta
7         embarked         Categórica
8            class         Categórica
9              who         Categórica
10      adult_male            Binaria
11            deck         Categórica
12     embark_town         Categórica
13           alive            Binaria
14           alone            Binaria


In [7]:
# Ejemplo de uso:
df_cities = pd.read_csv('./data/california_cities.csv')

cities = tipifica_variables(df_cities, umbral_categoria=10, umbral_continua=0.8)
print(cities)

       nombre_variable      tipo_sugerido
0           Unnamed: 0  Numerica Continua
1                 city  Numerica Continua
2                 latd  Numerica Continua
3                longd  Numerica Continua
4          elevation_m  Numerica Discreta
5         elevation_ft  Numerica Discreta
6     population_total  Numerica Continua
7     area_total_sq_mi  Numerica Continua
8      area_land_sq_mi  Numerica Continua
9     area_water_sq_mi  Numerica Discreta
10      area_total_km2  Numerica Continua
11       area_land_km2  Numerica Continua
12      area_water_km2  Numerica Discreta
13  area_water_percent  Numerica Discreta
