### Funcion: tipifica_variables

Esta función debe recibir como argumento un dataframe, un entero (`umbral_categoria`) y un float (`umbral_continua`). La función debe devolver un dataframe con dos columnas "nombre_variable", "tipo_sugerido" que tendrá tantas filas como columnas el dataframe. En cada fila irá el nombre de una de las columnas y una sugerencia del tipo de variable. Esta sugerencia se hará siguiendo las siguientes pautas:
+ Si la cardinalidad es 2, asignara "Binaria"
+ Si la cardinalidad es menor que `umbral_categoria` asignara "Categórica"
+ Si la cardinalidad es mayor o igual que `umbral_categoria`, entonces entra en juego el tercer argumento:
    * Si además el porcentaje de cardinalidad es superior o igual a `umbral_continua`, asigna "Numerica Continua"
    * En caso contrario, asigna "Numerica Discreta"


In [1]:
import pandas as pd 
import numpy as np 

In [2]:
def tipifica_variables(df, umbral_categoria, umbral_continua):
    """
    Asigna un tipo a las variables de un dataframe en base a su cardinalidad y porcentaje de cardinalidad.

        df: el dataframe a analizar
        umbral_categoria (int): Límite de veces que tiene que aparecer una variable para ser categórica
        umbral_continua (float): Porcentaje mínimo de cardinalidad que tiene que tener una variable para ser numérica continua
    
    """

    resultados = [] #se crea una lista vacía para meter los resultados

    for columna in df.columns: #coge cada columna en el dataframe
        cardinalidad = df[columna].nunique() #calcula la cardinalidad 
        porcentaje_cardinalidad = cardinalidad / len(df) #calcula el porcentaje 

        if cardinalidad == 2:
            tipo = "Binaria"
        elif (cardinalidad < umbral_categoria) and (cardinalidad != 2):
            tipo = "Categórica"
        elif porcentaje_cardinalidad >= umbral_continua:
            tipo = "Numérica Continua"
        else:
            tipo = "Numérica Discreta"

        resultados.append({"variable": columna, "tipo": tipo}) #mete en la lista de resultados la columna y el tipo que se le asigna 

    return pd.DataFrame(resultados) #crea un dataframe con la lista de resultados 


In [3]:
df_titanic = pd.read_csv(r"C:\Users\patri\REPO_PRUEBA\Team-Challenge---Team-Lasso\titanic.csv")

In [4]:
df_titanic.head(2)

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False


In [6]:
tipifica_variables(df_titanic,15, 0.2)

#umbral_categoria=10: Las columnas con menos de 10 valores únicos = categórica
#umbral_continua=0.2: Las columnas con más de 20% de valores únicos = numérica continua

Unnamed: 0,variable,tipo
0,survived,Binaria
1,pclass,Categórica
2,sex,Binaria
3,age,Numérica Discreta
4,sibsp,Categórica
5,parch,Categórica
6,fare,Numérica Continua
7,embarked,Categórica
8,class,Categórica
9,who,Categórica
