In [5]:
import pandas as pd

# Función describe_df
def describe_df(df):
    """
    Genera un resumen descriptivo de un DataFrame.
    """
    summary = {
        "type": df.dtypes,
        "null_percentage": df.isnull().mean() * 100,
        "unique_values": df.nunique(),
        "cardinality_percentage": (df.nunique() / len(df)) * 100
    }
    return pd.DataFrame(summary)

# Función tipifica_variables
def tipifica_variables(df, umbral_categoria, umbral_continua):
    """
    Clasifica las columnas de un DataFrame según su tipo sugerido.
    """
    unique_counts = df.nunique()
    cardinality_percentage = (unique_counts / len(df)) * 100

    resultados = []
    for col in df.columns:
        cardinalidad = unique_counts[col]
        porcentaje_cardinalidad = cardinality_percentage[col]
        if cardinalidad == 2:
            tipo_sugerido = "Binaria"
        elif cardinalidad < umbral_categoria:
            tipo_sugerido = "Categórica"
        else:
            if porcentaje_cardinalidad >= umbral_continua:
                tipo_sugerido = "Numerica Continua"
            else:
                tipo_sugerido = "Numerica Discreta"
        resultados.append({"nombre_variable": col, "tipo_sugerido": tipo_sugerido})
    return pd.DataFrame(resultados)

# Ruta al archivo subido
ruta_archivo = r'C:\Users\alber\OneDrive\Documentos\GitHub\DS_ONLINE_THEBRIDGE_ATC\04_Machine_Learning\Sprint_09\Unidad_01\Ejercicios_Workout\data\titanic.csv'
# Cargar el archivo CSV en un DataFrame
df_titanic = pd.read_csv(ruta_archivo)

# Mostrar las primeras filas del dataset
print("Dataset dftitanic cargado:")
print(df_titanic.head())

# Aplicar describe_df
resumen_dftitanic = describe_df(df_titanic)
print("\nResumen descriptivo de dftitanic:")
print(resumen_dftitanic)

# Aplicar tipifica_variables
umbral_categoria = 5
umbral_continua = 70.0
clasificacion_dftitanic = tipifica_variables(df_titanic, umbral_categoria, umbral_continua)
print("\nClasificación de las variables de vgsales:")
print(clasificacion_dftitanic)



Dataset dftitanic cargado:
      sex   age  sibsp  parch     fare  class    who  adult_male  embark_town  \
0    male  22.0      1      0   7.2500  Third    man        True  Southampton   
1  female  38.0      1      0  71.2833  First  woman       False    Cherbourg   
2  female  26.0      0      0   7.9250  Third  woman       False  Southampton   
3  female  35.0      1      0  53.1000  First  woman       False  Southampton   
4    male  35.0      0      0   8.0500  Third    man        True  Southampton   

  alive  alone  
0    no  False  
1   yes  False  
2   yes   True  
3   yes  False  
4    no   True  

Resumen descriptivo de dftitanic:
                type  null_percentage  unique_values  cardinality_percentage
sex           object              0.0              2                0.224467
age          float64              0.0             89                9.988777
sibsp          int64              0.0              7                0.785634
parch          int64              0.0    