# 📊 Pre entrega

In [None]:
import pandas as pd
import numpy as np

# **Etapa 1: Recopilación y preparación de Datos**

## 🔹 1. Crear un documento en Google Colaboratory y cargar los sets de datos como DataFrames.


In [None]:
from google.colab import drive
drive.mount("/content/drive")

Mounted at /content/drive


In [None]:
#Verificamos que los archivos se encuentren la carperta datasets
import os
os.listdir("/content/drive/MyDrive/datasets")

['ventas.csv', 'clientes.csv', 'marketing.csv']

In [None]:
# Definimos las rutas de los datasets.
ruta_ventas = "/content/drive/MyDrive/Python_withData/PreEntrega-VickyCruces/Datasets/ventas.csv"
ruta_clientes = "/content/drive/MyDrive/Python_withData/PreEntrega-VickyCruces/Datasets/clientes.csv"
ruta_marketing = "/content/drive/MyDrive/Python_withData/PreEntrega-VickyCruces/Datasets/marketing.csv"

# Cargamos los CSV como DataFrames.
ventas = pd.read_csv(ruta_ventas)
clientes = pd.read_csv(ruta_clientes)
marketing = pd.read_csv(ruta_marketing)

In [None]:
#Validamos formas para comprobar que se cargaron correctamnete
print("Ventas.shape -->", ventas.shape)
print("Clientes.shape -->", clientes.shape)
print("Marketing.shape -->", marketing.shape)
print("\n")

#Mostramos las primeras filas de cada dataset para corroborar la estructura de columnas
display(ventas.head())
print("\n")
display(clientes.head())
print("\n")
display(marketing.head())

Ventas.shape --> (3035, 6)
Clientes.shape --> (567, 5)
Marketing.shape --> (90, 6)




Unnamed: 0,id_venta,producto,precio,cantidad,fecha_venta,categoria
0,792,Cuadro decorativo,$69.94,5.0,02/01/2024,Decoración
1,811,Lámpara de mesa,$105.10,5.0,02/01/2024,Decoración
2,1156,Secadora,$97.96,3.0,02/01/2024,Electrodomésticos
3,1372,Heladera,$114.35,8.0,02/01/2024,Electrodomésticos
4,1546,Secadora,$106.21,4.0,02/01/2024,Electrodomésticos






Unnamed: 0,id_cliente,nombre,edad,ciudad,ingresos
0,1,Aloysia Screase,44,Mar del Plata,42294.68
1,2,Kristina Scaplehorn,25,Posadas,24735.04
2,3,Filip Castagne,50,Resistencia,35744.85
3,4,Liuka Luard,39,Bahía Blanca,27647.96
4,5,Dore Cockshtt,28,Rosario,28245.65






Unnamed: 0,id_campanha,producto,canal,costo,fecha_inicio,fecha_fin
0,74,Adorno de pared,TV,4.81,20/03/2024,03/05/2024
1,12,Tablet,RRSS,3.4,26/03/2024,13/05/2024
2,32,Lámpara de mesa,Email,5.54,28/03/2024,20/04/2024
3,21,Smartphone,RRSS,6.37,29/03/2024,16/05/2024
4,58,Alfombra,Email,4.25,31/03/2024,05/05/2024


## 🔹 4. Análisis Exploratorio inicial de los DataFrames con pandas (EDA)

In [None]:
def exploracion(df, nombre):
  print(f"=== {nombre} ===")
  print("\nShape:", df.shape)
  print("\nColumnas:", list(df.columns))
  print("\nTipos de datos:")
  print(df.dtypes)
  print("\nNulos por columna:")
  print(df.isna().sum())
  print("\nPrimeras filas:")
  display(df.head(5))
  print("\nÚltimas filas:")
  display(df.tail(5))
  print("\nDescribe (numérico):")
  display(df.describe(include="number"))
  print("-"*100)


In [None]:
exploracion(ventas, "VENTAS (Análisis Exploratorio)")

=== VENTAS (Análisis Exploratorio) ===

Shape: (3035, 6)

Columnas: ['id_venta', 'producto', 'precio', 'cantidad', 'fecha_venta', 'categoria']

Tipos de datos:
id_venta         int64
producto        object
precio          object
cantidad       float64
fecha_venta     object
categoria       object
dtype: object

Nulos por columna:
id_venta       0
producto       0
precio         2
cantidad       2
fecha_venta    0
categoria      0
dtype: int64

Primeras filas:


Unnamed: 0,id_venta,producto,precio,cantidad,fecha_venta,categoria
0,792,Cuadro decorativo,$69.94,5.0,02/01/2024,Decoración
1,811,Lámpara de mesa,$105.10,5.0,02/01/2024,Decoración
2,1156,Secadora,$97.96,3.0,02/01/2024,Electrodomésticos
3,1372,Heladera,$114.35,8.0,02/01/2024,Electrodomésticos
4,1546,Secadora,$106.21,4.0,02/01/2024,Electrodomésticos



Últimas filas:


Unnamed: 0,id_venta,producto,precio,cantidad,fecha_venta,categoria
3030,1837,Horno eléctrico,$104.12,9.0,30/12/2024,Electrodomésticos
3031,2276,Laptop,$85.27,9.0,30/12/2024,Electrónica
3032,2696,Laptop,$107.81,4.0,30/12/2024,Electrónica
3033,2913,Smartphone,$99.85,7.0,30/12/2024,Electrónica
3034,2930,Consola de videojuegos,$55.47,6.0,30/12/2024,Electrónica



Describe (numérico):


Unnamed: 0,id_venta,cantidad
count,3035.0,3033.0
mean,1499.8514,6.496538
std,866.465379,3.45725
min,1.0,1.0
25%,748.5,3.0
50%,1502.0,7.0
75%,2249.5,9.0
max,3000.0,12.0


----------------------------------------------------------------------------------------------------


In [None]:
exploracion(clientes, "Clientes (Análisis Exploratorio)")

=== Clientes (Análisis Exploratorio) ===

Shape: (567, 5)

Columnas: ['id_cliente', 'nombre', 'edad', 'ciudad', 'ingresos']

Tipos de datos:
id_cliente      int64
nombre         object
edad            int64
ciudad         object
ingresos      float64
dtype: object

Nulos por columna:
id_cliente    0
nombre        0
edad          0
ciudad        0
ingresos      0
dtype: int64

Primeras filas:


Unnamed: 0,id_cliente,nombre,edad,ciudad,ingresos
0,1,Aloysia Screase,44,Mar del Plata,42294.68
1,2,Kristina Scaplehorn,25,Posadas,24735.04
2,3,Filip Castagne,50,Resistencia,35744.85
3,4,Liuka Luard,39,Bahía Blanca,27647.96
4,5,Dore Cockshtt,28,Rosario,28245.65



Últimas filas:


Unnamed: 0,id_cliente,nombre,edad,ciudad,ingresos
562,563,Dione Forsyde,29,Posadas,26757.73
563,564,Fleming Gow,39,Santa Fe,43674.96
564,565,Jewelle Mabbett,33,Córdoba,30522.64
565,566,Lauri Munns,23,Resistencia,31259.14
566,567,Micah Matis,31,Corrientes,42927.86



Describe (numérico):


Unnamed: 0,id_cliente,edad,ingresos
count,567.0,567.0,567.0
mean,284.0,37.940035,34668.739012
std,163.823075,10.202885,12974.531446
min,1.0,20.0,170.29
25%,142.5,30.0,26015.24
50%,284.0,37.0,35066.83
75%,425.5,43.0,42457.1
max,567.0,81.0,88053.01


----------------------------------------------------------------------------------------------------


In [None]:
exploracion(marketing, "MARKETING (Análisis Exploratorio)")

=== MARKETING (Análisis Exploratorio) ===

Shape: (90, 6)

Columnas: ['id_campanha', 'producto', 'canal', 'costo', 'fecha_inicio', 'fecha_fin']

Tipos de datos:
id_campanha       int64
producto         object
canal            object
costo           float64
fecha_inicio     object
fecha_fin        object
dtype: object

Nulos por columna:
id_campanha     0
producto        0
canal           0
costo           0
fecha_inicio    0
fecha_fin       0
dtype: int64

Primeras filas:


Unnamed: 0,id_campanha,producto,canal,costo,fecha_inicio,fecha_fin
0,74,Adorno de pared,TV,4.81,20/03/2024,03/05/2024
1,12,Tablet,RRSS,3.4,26/03/2024,13/05/2024
2,32,Lámpara de mesa,Email,5.54,28/03/2024,20/04/2024
3,21,Smartphone,RRSS,6.37,29/03/2024,16/05/2024
4,58,Alfombra,Email,4.25,31/03/2024,05/05/2024



Últimas filas:


Unnamed: 0,id_campanha,producto,canal,costo,fecha_inicio,fecha_fin
85,70,Aspiradora,TV,3.06,13/12/2024,29/12/2024
86,89,Televisor,TV,4.98,13/12/2024,8/2/2025
87,68,Rincón de plantas,TV,5.81,17/12/2024,14/2/2025
88,33,Secadora,Email,3.8,20/12/2024,7/1/2025
89,11,Freidora eléctrica,RRSS,5.27,29/12/2024,21/1/2025



Describe (numérico):


Unnamed: 0,id_campanha,costo
count,90.0,90.0
mean,45.5,4.928667
std,26.124701,0.94775
min,1.0,2.95
25%,23.25,4.3725
50%,45.5,4.9
75%,67.75,5.5625
max,90.0,7.39


----------------------------------------------------------------------------------------------------


## 🔹5. Calidad de Datos: Identificar valores nulos y duplicados

In [None]:
# ======== FUNCION DE CONTROL DE CALIDAD DE LOS DATOS ========

#analizaremos los dataframes: ventas, clientes y marketing mediante una función, estableciendo como Clave los id de cada df
#mostraremos: 1. Cantidad de valores nulos por columna

def calidad(df, nombre, clave=None):
  print(f"=== {nombre} ===")
  display(df.isna().sum().to_frame("nulos"))  #to_frame(): convierte el resultado en un dataframe de dos columna: clave, nulos


#Contar filas completas duplicadas
#mostraremos: 2. Total de filas completas duplicadas

  filas_duplicadas = df.duplicated(keep=False).sum()
  print("Filas Duplicadas (Exactas)", filas_duplicadas)


# mostraremos: 3. Valores repetidos por columna clave
  if clave and clave in df.columns:
    clave_duplicados = df[clave].duplicated(keep=False).sum()
    print(f"Duplicados por clave '{clave}':", clave_duplicados)

    if clave_duplicados > 0:
        duplicados_ordenados = (df[df[clave].duplicated(keep=False)][clave].value_counts().sort_values(ascending=False))
        print("?\nTop valores duplicados más frecuentes:")
        display(duplicados_ordenados.head(10))
    else:
      print(f"No se encontraron duplicados en la clave '{clave}'.")
  else:
    if clave:
      print(f"la clave '{clave}' no existe en el DataFrame")
    else:
      print("No se indicó una clave para analizar duplicados por columna.")

  print("-"*100)


In [None]:
#Analizamos los datos del DataFrame Ventas
calidad(ventas, "VENTAS", clave="id_venta")

=== VENTAS ===


Unnamed: 0,nulos
id_venta,0
producto,0
precio,2
cantidad,2
fecha_venta,0
categoria,0


Filas Duplicadas (Exactas) 70
Duplicados por clave 'id_venta': 70
?
Top valores duplicados más frecuentes:


Unnamed: 0_level_0,count
id_venta,Unnamed: 1_level_1
56,2
421,2
424,2
1868,2
2545,2
2778,2
145,2
300,2
439,2
906,2


----------------------------------------------------------------------------------------------------


In [None]:
#Analizamos los datos del DataFrame Clientes
calidad(clientes, "CLIENTES", clave="id_cliente")

=== CLIENTES ===


Unnamed: 0,nulos
id_cliente,0
nombre,0
edad,0
ciudad,0
ingresos,0


Filas Duplicadas (Exactas) 0
Duplicados por clave 'id_cliente': 0
No se encontraron duplicados en la clave 'id_cliente'.
----------------------------------------------------------------------------------------------------


In [None]:
#Analizamos los datos del DataFrame Marketing
calidad(marketing, "MARKETING", clave="id_campanha")

=== MARKETING ===


Unnamed: 0,nulos
id_campanha,0
producto,0
canal,0
costo,0
fecha_inicio,0
fecha_fin,0


Filas Duplicadas (Exactas) 0
Duplicados por clave 'id_campanha': 0
No se encontraron duplicados en la clave 'id_campanha'.
----------------------------------------------------------------------------------------------------


# **Etapa 2: Procesamiento y Limpieza de Datos**

## 🔹6. Limpieza de los Datasets


*   Eliminar filas duplicadas completas
*   Normalizar Tipos de datos: Fechas, String y valores numéricos



In [None]:
# 1️⃣ Se crean copias de los datasets: Ventas, clientes y Marketing. A fin de no modificar los originales
ventas_clean = ventas.copy()
clientes_clean = clientes.copy()
marketing_clean = marketing.copy()

print(ventas_clean.shape)
print(clientes_clean.shape)
print(marketing_clean.shape)

(3035, 6)
(567, 5)
(90, 6)


In [None]:
# 2️⃣ Se eliminar filas completamente duplicadas

"""
La instrucción inplace=True dentro del método .drop_duplicates() de Pandas:
le indica a la función que modifique el DataFrame original directamente,
en lugar de devolver una copia con las filas duplicadas eliminadas.
Ventaja: es más eficiente en términos de uso de memoria y tiempo de ejecución.
"""

ventas_clean.drop_duplicates(inplace=True)
clientes_clean.drop_duplicates(inplace=True)
marketing_clean.drop_duplicates(inplace=True)

print(ventas_clean.shape)
print(clientes_clean.shape)
print(marketing_clean.shape)

(3000, 6)
(567, 5)
(90, 6)


In [None]:
#Analizamos los datos del DataFrame Ventas
calidad(ventas_clean, "VENTAS CLEAN", clave="id_venta")

#Los dataframe clientes y marketing no tenian duplicados según la clave seleccionada

=== VENTAS CLEAN ===


Unnamed: 0,nulos
id_venta,0
producto,0
precio,2
cantidad,2
fecha_venta,0
categoria,0


Filas Duplicadas (Exactas) 0
Duplicados por clave 'id_venta': 0
No se encontraron duplicados en la clave 'id_venta'.
----------------------------------------------------------------------------------------------------


In [None]:
#mostramos los tipos de datos en las copias de los DataFrame: Ventas, Clientes, Marketing
print("DataFrame: Ventas_Clean (tipo de datos)")
print(ventas_clean.dtypes)
print("\nDataFrame: Clientes_Clean(tipo de datos)")
print(clientes_clean.dtypes)
print("\nDataFrame: Marketing_Clean (tipo de datos)")
print(marketing_clean.dtypes)

DataFrame: Ventas_Clean (tipo de datos)
id_venta         int64
producto        object
precio          object
cantidad       float64
fecha_venta     object
categoria       object
dtype: object

DataFrame: Clientes_Clean(tipo de datos)
id_cliente      int64
nombre         object
edad            int64
ciudad         object
ingresos      float64
dtype: object

DataFrame: Marketing_Clean (tipo de datos)
id_campanha       int64
producto         object
canal            object
costo           float64
fecha_inicio     object
fecha_fin        object
dtype: object


In [None]:
# 3️⃣ normalización de Fechas del dataframe Ventas y marketing
#Clientes no contiene la columna fecha, por lo tanto no se normaliza

ventas_clean["fecha_venta"] = pd.to_datetime(ventas_clean["fecha_venta"], errors="coerce", dayfirst=True)

marketing_clean["fecha_inicio"] = pd.to_datetime(marketing_clean["fecha_inicio"], errors="coerce", dayfirst=True)
marketing_clean["fecha_fin"] = pd.to_datetime(marketing_clean["fecha_fin"], errors="coerce", dayfirst=True)

In [None]:
print("DataFrame: Ventas_Clean (tipo de dato: Fecha normalizada)")
print(ventas_clean.dtypes)

print("\nDataFrame: Marketing_Clean (tipo de dato: Fecha normalizada")
print(marketing_clean.dtypes)

DataFrame: Ventas_Clean (tipo de dato: Fecha normalizada)
id_venta                int64
producto               object
precio                 object
cantidad              float64
fecha_venta    datetime64[ns]
categoria              object
dtype: object

DataFrame: Marketing_Clean (tipo de dato: Fecha normalizada
id_campanha              int64
producto                object
canal                   object
costo                  float64
fecha_inicio    datetime64[ns]
fecha_fin       datetime64[ns]
dtype: object


In [None]:
# ======== 4️⃣ Función para limpiar texto en columnas tipo string ========

def normalizar_texto(df):
    for col in df.select_dtypes(include="object").columns:
      df[col] = (df[col].astype(str).str.strip().str.replace(r"[\u200b\t\r\n]","", regex=True).str.title())
    return df

#  Aplicar la función de normalización de texto
ventas_clean = normalizar_texto(ventas_clean)
clientes_clean = normalizar_texto(clientes_clean)
marketing_clean = normalizar_texto(marketing_clean)

#Una vez realizada la normalización de texto, se imprime los df para verificar los cambios

print("DataFrame: Ventas_Clean (tipo de dato: Textos Normalizados)")
print(ventas_clean.head(10))
print("\nDataFrame: Clientes_Clean (tipo de dato: Textos Normalizados)")
print(clientes_clean.head(10))
print("\nDataFrame: Marketing_Clean (tipo de dato: Textos Normalizados)")
print(marketing_clean.head(10))


DataFrame: Ventas_Clean (tipo de dato: Textos Normalizados)
   id_venta           producto   precio  cantidad fecha_venta  \
0       792  Cuadro Decorativo   $69.94       5.0  2024-01-02   
1       811    Lámpara De Mesa  $105.10       5.0  2024-01-02   
2      1156           Secadora   $97.96       3.0  2024-01-02   
3      1372           Heladera  $114.35       8.0  2024-01-02   
4      1546           Secadora  $106.21       4.0  2024-01-02   
5      1697    Horno Eléctrico   $35.35       9.0  2024-01-02   
6      1710   Plancha De Vapor   $65.43       2.0  2024-01-02   
7      2959          Proyector   $88.17       9.0  2024-01-02   
8       318  Rincón De Plantas   $79.86      11.0  2024-01-03   
9       419         Candelabro   $66.11       8.0  2024-01-03   

           categoria  
0         Decoración  
1         Decoración  
2  Electrodomésticos  
3  Electrodomésticos  
4  Electrodomésticos  
5  Electrodomésticos  
6  Electrodomésticos  
7        Electrónica  
8         Decorac

In [None]:
# 5️⃣ Normalizar valores numéricos

#Columna: PRECIO
if "precio" in ventas_clean.columns:
  ventas_clean["precio"] = (
      ventas_clean["precio"].astype(str).str.replace("$", "", regex=False).str.replace(",", ".").str.strip()
      )
  ventas_clean["precio"] = pd.to_numeric(ventas_clean["precio"], errors="coerce")




In [None]:
print(ventas_clean.dtypes)

id_venta                int64
producto               object
precio                float64
cantidad              float64
fecha_venta    datetime64[ns]
categoria              object
dtype: object


In [None]:
print(ventas_clean.columns)

Index(['id_venta', 'producto', 'precio', 'cantidad', 'fecha_venta',
       'categoria'],
      dtype='object')


In [None]:
# Columna: CANTIDAD
if "cantidad" in ventas_clean.columns:
    ventas_clean["cantidad"] = pd.to_numeric(
        ventas_clean["cantidad"], errors="coerce"
    ).astype("Int64")

# .astype("Int64") usa el tipo entero de pandas que permite valores nulos (NaN)

In [None]:
print(ventas_clean.dtypes)

id_venta                int64
producto               object
precio                float64
cantidad                Int64
fecha_venta    datetime64[ns]
categoria              object
dtype: object


In [None]:
# 6️⃣ Guardar los DataFrames limpios como csv

ventas_clean.to_csv("/content/drive/MyDrive/datasets/ventas_clean.csv", index=False)
clientes_clean.to_csv("/content/drive/MyDrive/datasets/clientes_clean.csv", index=False)
marketing_clean.to_csv("/content/drive/MyDrive/datasets/marketing_clean.csv", index=False)

print("✅ Archivos guardados: ventas_clean.csv, clientes_clean.csv, marketing_clean.csv")

✅ Archivos guardados: ventas_clean.csv, clientes_clean.csv, marketing_clean.csv


# 🗒️ Reporte Global de la calidad de datos luego de la limpieza

In [None]:
# =======================================
# 📊 REPORTE GLOBAL DE CALIDAD DE DATOS
# =======================================

def reporte_calidad(dfs, nombres):
  resumen =[]
  #siendo zip una función que une elementos de dos o más iterables
  for df, nombre in zip(dfs, nombres):
    nulos = df.isna().sum().sum()                     # Total de valores nulos
    duplicados = df.duplicated(keep=False).sum()      # Total de filas duplicadas
    columnas = len(df.columns)                        # Cantidad de columna
    filas = len(df)                                   # Cantidad de registros

    resumen.append({
        "Dataset": nombre,
        "Filas": filas,
        "Columnas": columnas,
        "Nulos totales": nulos,
        "Duplicados": duplicados,
    })

  reporte = pd.DataFrame(resumen)
  #display(reporte)
  return reporte



In [None]:
# 7️⃣ Resumen comparativo de nulos, duplicados y tipos de datos de los DataFrames originales y las limpios

print(reporte_calidad([ventas, clientes, marketing], ["VENTAS Original", "CLIENTES Original", "MARKETING Original"]))
print("\n")
print(reporte_calidad([ventas_clean, clientes_clean, marketing_clean],["VENTAS Copia   ", "CLIENTES Copia   ", "MARKETING Copia   "]))

              Dataset  Filas  Columnas  Nulos totales  Duplicados
0     VENTAS Original   3035         6              4          70
1   CLIENTES Original    567         5              0           0
2  MARKETING Original     90         6              0           0


              Dataset  Filas  Columnas  Nulos totales  Duplicados
0     VENTAS Copia      3000         6              4           0
1   CLIENTES Copia       567         5              0           0
2  MARKETING Copia        90         6              0           0


#**🔹7. Tranformación de Datos**


*   Filtrar Producto de Alto rendimiento -
Pasos:
      1. Detectar la columna producto
      2. Calcular ingreso por registro = precio * cantidad
      3. Obtener métricas por producto (ingreso_total, unidades, precio_promedio, registros).
      4. Calcular P80 con quantile (q = 0.80)
      5. Filtrar productos con ingreso_total >= P80, Ordenar de mayor a menor.
      6. Mostrar resultados


In [None]:
#PASO 1️⃣
#Busca la primera columna cuyo nombre contenga alguno de los patrones dados
#Candidatos: lista de patrones (en minúsculas)

def encontrar(df, candidatos):
  for c in df.columns:
    nombre = c.lower()
    if any(p in nombre for p in candidatos):
      return c
  return None


# Detectar la columna de producto
product = encontrar(ventas_clean, ["producto", "id_producto", "articulo", "artículo", "sku"])
if product is None:
  raise ValueError("No se encontró la columna de producto")

print(product)

producto


In [None]:
#PASO 2️⃣  Calcular ingreso por registro = precio * cantidad
ventas_altas=(
    ventas_clean.assign(ingreso = ventas_clean["precio"]*ventas_clean["cantidad"])
)

# PASO 3️⃣ Agregar métricas por producto

resumen_product = (
    ventas_altas
    .groupby(
        by = product,
        dropna = False,
        as_index = False,
        observed = False
        )
    .agg(
        ingreso_total = ("ingreso", "sum"),
        unidades = ("cantidad", "sum"),
        precio_promedio = ("precio", "mean"),
        registros = ("ingreso", "size")
    )

)

print(resumen_product.head(31))

                  producto  ingreso_total  unidades  precio_promedio  \
0          Adorno De Pared       48093.49       633        76.097800   
1                 Alfombra       44773.06       615        74.098300   
2               Aspiradora       50085.86       651        77.447400   
3              Auriculares       74175.58       958        76.302727   
4                 Batidora        50979.2       672        77.537200   
5                 Cafetera       59607.31       765        79.046581   
6               Candelabro        11128.8       160        74.595417   
7   Consola De Videojuegos       46174.41       623        76.346869   
8                 Cortinas       44865.03       610        73.649900   
9        Cuadro Decorativo        54297.6       726        74.578000   
10          Cámara Digital       45217.96       638        72.010700   
11   Elementos De Cerámica       45411.09       636        71.611515   
12       Espejo Decorativo       46783.31       635        75.66

In [62]:
# PASO 4️⃣ Calcular percentil 80 de ingreso_total

p80_ingreso = resumen_product["ingreso_total"].quantile(
    q=0.80,
    interpolation="linear")


# PASO 5️⃣ Filtrar los productos "de alto rendimiento" y ordenarlos
ventas_top = (
    resumen_product.query("ingreso_total >= @p80_ingreso",engine="python")
    .sort_values(by=["ingreso_total", "unidades"],
                 ascending=[False, False],
                 na_position="last",
                 ignore_index=False
                 )

    )


# 6️⃣ Mostrar resultados
print(f"Columna de producto detectada: {product}")
print(f"Umbral (percentil 80) de ingreso_total: {float(p80_ingreso):,.2f}")
print("✅ Productos de ALTO RENDIMIENTO (top 20% por ingreso):")
display(ventas_top.head(60))

Columna de producto detectada: producto
Umbral (percentil 80) de ingreso_total: 52,518.85
✅ Productos de ALTO RENDIMIENTO (top 20% por ingreso):


Unnamed: 0,producto,ingreso_total,unidades,precio_promedio,registros
19,Lámpara De Mesa,82276.38,1112,72.720625,176
3,Auriculares,74175.58,958,76.302727,143
20,Microondas,72562.89,912,79.176,135
5,Cafetera,59607.31,765,79.046581,117
9,Cuadro Decorativo,54297.6,726,74.578,100
26,Smartphone,54132.44,665,81.398416,101
