In [10]:
import pandas as pd

# Función describe_df
def describe_df(df):
    """
    Genera un resumen descriptivo de un DataFrame.
    """
    summary = {
        "type": df.dtypes,
        "null_percentage": df.isnull().mean() * 100,
        "unique_values": df.nunique(),
        "cardinality_percentage": (df.nunique() / len(df)) * 100
    }
    return pd.DataFrame(summary)

# Función tipifica_variables
def tipifica_variables(df, umbral_categoria, umbral_continua):
    """
    Clasifica las columnas de un DataFrame según su tipo sugerido.
    """
    unique_counts = df.nunique()
    cardinality_percentage = (unique_counts / len(df)) * 100

    resultados = []
    for col in df.columns:
        cardinalidad = unique_counts[col]
        porcentaje_cardinalidad = cardinality_percentage[col]
        if cardinalidad == 2:
            tipo_sugerido = "Binaria"
        elif cardinalidad < umbral_categoria:
            tipo_sugerido = "Categórica"
        else:
            if porcentaje_cardinalidad >= umbral_continua:
                tipo_sugerido = "Numerica Continua"
            else:
                tipo_sugerido = "Numerica Discreta"
        resultados.append({"nombre_variable": col, "tipo_sugerido": tipo_sugerido})
    return pd.DataFrame(resultados)

# Ruta al archivo subido
ruta_archivo = r'C:\Users\alber\Downloads\vgsales.csv'

# Cargar el archivo CSV en un DataFrame
df_vgsales = pd.read_csv(ruta_archivo)

# Mostrar las primeras filas del dataset
print("Dataset vgsales cargado:")
print(df_vgsales.head())

# Aplicar describe_df
resumen_vgsales = describe_df(df_vgsales)
print("\nResumen descriptivo de vgsales:")
print(resumen_vgsales)

# Aplicar tipifica_variables
umbral_categoria = 5
umbral_continua = 70.0
clasificacion_vgsales = tipifica_variables(df_vgsales, umbral_categoria, umbral_continua)
print("\nClasificación de las variables de vgsales:")
print(clasificacion_vgsales)

# Guardar resultados
resumen_vgsales.to_csv(r'C:\Users\alber\Downloads\vgsales1.csv', index=True)
clasificacion_vgsales.to_csv(r'C:\Users\alber\Downloads\vgsales2.csv', index=False)

print("\nResultados guardados: resumen_vgsales.csv y clasificacion_vgsales.csv")


Dataset vgsales cargado:
   Rank                      Name Platform    Year         Genre Publisher  \
0     1                Wii Sports      Wii  2006.0        Sports  Nintendo   
1     2         Super Mario Bros.      NES  1985.0      Platform  Nintendo   
2     3            Mario Kart Wii      Wii  2008.0        Racing  Nintendo   
3     4         Wii Sports Resort      Wii  2009.0        Sports  Nintendo   
4     5  Pokemon Red/Pokemon Blue       GB  1996.0  Role-Playing  Nintendo   

   NA_Sales  EU_Sales  JP_Sales  Other_Sales  Global_Sales  
0     41.49     29.02      3.77         8.46         82.74  
1     29.08      3.58      6.81         0.77         40.24  
2     15.85     12.88      3.79         3.31         35.82  
3     15.75     11.01      3.28         2.96         33.00  
4     11.27      8.89     10.22         1.00         31.37  

Resumen descriptivo de vgsales:
                 type  null_percentage  unique_values  cardinality_percentage
Rank            int64        