# 📘 Pre-entrega

**Nombre del alumno:** Jennifer Franco

# 1.Configuración y Carga de Datos

En esta sección, preparamos el entorno de Colab, importamos las librerías necesarias y cargamos los tres conjuntos de datos desde Google Drive.

### 1.1. Librerías y Montaje de Drive

In [1]:
#Importar librerías principales
import pandas as pd
import numpy as np

In [2]:
# Montar la unidad de Google Drive
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


### 1.2. Verificación y Carga de Archivos

In [3]:
# Verificar que los archivos csv se encuentren en la carpeta datasets
import os
os.listdir("/content/drive/MyDrive/datasets")

['ventas.csv', 'ventas.gsheet', 'clientes.csv', 'marketing.csv']

In [28]:
# Definimos las rutas de los datasets.
# Rutas relativas
ruta_ventas = "/content/drive/MyDrive/datasets/ventas.csv"
ruta_clientes = "/content/drive/MyDrive/datasets/clientes.csv"
ruta_marketing = "/content/drive/MyDrive/datasets/marketing.csv"

# Cargamos los CSV como DataFrames.
df_ventas = pd.read_csv(ruta_ventas)
df_clientes = pd.read_csv(ruta_clientes)
df_marketing = pd.read_csv(ruta_marketing)

# Corroborar carga correcta y estructura de columnas.
print("--- VENTAS  ---")
display(df_ventas.head(3))
print("\n--- CLIENTES ---")
display(df_clientes.head(3))
print("\n--- MARKETING ---")
display(df_marketing.head(3))

--- VENTAS  ---


Unnamed: 0,id_venta,producto,precio,cantidad,fecha_venta,categoria
0,792,Cuadro decorativo,$69.94,5.0,02/01/2024,Decoración
1,811,Lámpara de mesa,$105.10,5.0,02/01/2024,Decoración
2,1156,Secadora,$97.96,3.0,02/01/2024,Electrodomésticos



--- CLIENTES ---


Unnamed: 0,id_cliente,nombre,edad,ciudad,ingresos
0,1,Aloysia Screase,44,Mar del Plata,42294.68
1,2,Kristina Scaplehorn,25,Posadas,24735.04
2,3,Filip Castagne,50,Resistencia,35744.85



--- MARKETING ---


Unnamed: 0,id_campanha,producto,canal,costo,fecha_inicio,fecha_fin
0,74,Adorno de pared,TV,4.81,20/03/2024,03/05/2024
1,12,Tablet,RRSS,3.4,26/03/2024,13/05/2024
2,32,Lámpara de mesa,Email,5.54,28/03/2024,20/04/2024


## 2. Análisis Exploratorio de Datos (EDA)
Realizamos un análisis inicial para entender la estructura, tipos de datos y contenido de cada DataFrame antes de la limpieza.

### 2.1. Función Auxiliar de EDA

In [29]:
def eda(df, nombre):
    """
    Realiza un análisis exploratorio básico de un DataFrame.
    Muestra: shape, columnas, dtypes, nulos, describe numérico y head.
    """
    print(f"=== EDA:{nombre} ===")
    print("dimensiones (Shape):", df.shape)
    print("columnas:", list(df.columns))
    print("tipos de Datos (dtypes):")
    print(df.dtypes)
    print("\nNulos por columna:")
    print(df.isna().sum())
    print("\nPrimeras filas:")
    display(df.head())
    print("\nDescribe (numérico):")
    display(df.describe(include='number'))
    print("-"*100)

### 2.2. Exploración de DataFrames Originales

In [30]:
eda(df_ventas, "VENTAS")

=== VENTAS ===
shape: (3035, 6)
columnas: ['id_venta', 'producto', 'precio', 'cantidad', 'fecha_venta', 'categoria']
dtypes:
id_venta         int64
producto        object
precio          object
cantidad       float64
fecha_venta     object
categoria       object
dtype: object

Nulos por columna:
id_venta       0
producto       0
precio         2
cantidad       2
fecha_venta    0
categoria      0
dtype: int64

Primeras filas:


Unnamed: 0,id_venta,producto,precio,cantidad,fecha_venta,categoria
0,792,Cuadro decorativo,$69.94,5.0,02/01/2024,Decoración
1,811,Lámpara de mesa,$105.10,5.0,02/01/2024,Decoración
2,1156,Secadora,$97.96,3.0,02/01/2024,Electrodomésticos
3,1372,Heladera,$114.35,8.0,02/01/2024,Electrodomésticos
4,1546,Secadora,$106.21,4.0,02/01/2024,Electrodomésticos



Describe (numérico):


Unnamed: 0,id_venta,cantidad
count,3035.0,3033.0
mean,1499.8514,6.496538
std,866.465379,3.45725
min,1.0,1.0
25%,748.5,3.0
50%,1502.0,7.0
75%,2249.5,9.0
max,3000.0,12.0


----------------------------------------------------------------------------------------------------


In [31]:
eda(df_clientes, "CLIENTES")

=== CLIENTES ===
shape: (567, 5)
columnas: ['id_cliente', 'nombre', 'edad', 'ciudad', 'ingresos']
dtypes:
id_cliente      int64
nombre         object
edad            int64
ciudad         object
ingresos      float64
dtype: object

Nulos por columna:
id_cliente    0
nombre        0
edad          0
ciudad        0
ingresos      0
dtype: int64

Primeras filas:


Unnamed: 0,id_cliente,nombre,edad,ciudad,ingresos
0,1,Aloysia Screase,44,Mar del Plata,42294.68
1,2,Kristina Scaplehorn,25,Posadas,24735.04
2,3,Filip Castagne,50,Resistencia,35744.85
3,4,Liuka Luard,39,Bahía Blanca,27647.96
4,5,Dore Cockshtt,28,Rosario,28245.65



Describe (numérico):


Unnamed: 0,id_cliente,edad,ingresos
count,567.0,567.0,567.0
mean,284.0,37.940035,34668.739012
std,163.823075,10.202885,12974.531446
min,1.0,20.0,170.29
25%,142.5,30.0,26015.24
50%,284.0,37.0,35066.83
75%,425.5,43.0,42457.1
max,567.0,81.0,88053.01


----------------------------------------------------------------------------------------------------


In [32]:
eda(df_marketing, "MARKETING")

=== MARKETING ===
shape: (90, 6)
columnas: ['id_campanha', 'producto', 'canal', 'costo', 'fecha_inicio', 'fecha_fin']
dtypes:
id_campanha       int64
producto         object
canal            object
costo           float64
fecha_inicio     object
fecha_fin        object
dtype: object

Nulos por columna:
id_campanha     0
producto        0
canal           0
costo           0
fecha_inicio    0
fecha_fin       0
dtype: int64

Primeras filas:


Unnamed: 0,id_campanha,producto,canal,costo,fecha_inicio,fecha_fin
0,74,Adorno de pared,TV,4.81,20/03/2024,03/05/2024
1,12,Tablet,RRSS,3.4,26/03/2024,13/05/2024
2,32,Lámpara de mesa,Email,5.54,28/03/2024,20/04/2024
3,21,Smartphone,RRSS,6.37,29/03/2024,16/05/2024
4,58,Alfombra,Email,4.25,31/03/2024,05/05/2024



Describe (numérico):


Unnamed: 0,id_campanha,costo
count,90.0,90.0
mean,45.5,4.928667
std,26.124701,0.94775
min,1.0,2.95
25%,23.25,4.3725
50%,45.5,4.9
75%,67.75,5.5625
max,90.0,7.39


----------------------------------------------------------------------------------------------------


## 3. Calidad y Limpieza de Datos
En esta etapa, diagnosticamos problemas de calidad (nulos, duplicados) y luego preprocesamos los datos para dejarlos listos para el análisis.

### 3.1. Función Auxiliar de Calidad

In [33]:
def calidad(df, nombre, clave=None):
    """
    Reporta nulos por columna, duplicados exactos y duplicados por clave.
    """
    # Mostrar título descriptivo con el nombre del DF
    print(f"### {nombre}")
    # Mostrar cantidad de valores nulos por columna
    display(df.isna().sum().to_frame("nulos"))

    # Contar filas duplicadas completas
    dup_rows = df.duplicated(keep=False).sum()
    print("Filas duplicadas (exactas):", dup_rows)

    # Analizar duplicados por clave si se proporciona
    if clave and clave in df.columns:
        dup_key = df[clave].duplicated(keep=False).sum() # Solo contamos las ocurrencias extras
        print(f"Duplicados por clave '{clave}':", dup_key)
        if dup_key > 0:
            duplicados_ordenados = (
                df[df[clave].duplicated(keep=False)][clave]
                .value_counts()
                .sort_values(ascending=False)
            )

            print("\n🔁 Top valores duplicados más frecuentes:")
            display(duplicados_ordenados.head(10))
        else:
            print(f"No se encontraron duplicados en la clave '{clave}'.")
    else:
        if clave:
            print(f"La clave '{clave}' no existe en el DataFrame.")
        else:
            print("No se indicó una clave para analizar duplicados por columna.")


###3.2. Diagnóstico de Calidad (Datos Crudos)
Ejecutamos la función de calidad sobre los datos originales para saber qué debemos limpiar.

In [34]:
calidad(df_ventas, "VENTAS (Crudo)", clave="id_venta")

### VENTAS (Crudo)


Unnamed: 0,nulos
id_venta,0
producto,0
precio,2
cantidad,2
fecha_venta,0
categoria,0


Filas duplicadas (exactas): 70
Duplicados por clave 'id_venta': 70

🔁 Top valores duplicados más frecuentes:


Unnamed: 0_level_0,count
id_venta,Unnamed: 1_level_1
56,2
421,2
424,2
1868,2
2545,2
2778,2
145,2
300,2
439,2
906,2


In [35]:
calidad(df_clientes, "CLIENTES (Crudo)", clave="id_cliente")

### CLIENTES (Crudo)


Unnamed: 0,nulos
id_cliente,0
nombre,0
edad,0
ciudad,0
ingresos,0


Filas duplicadas (exactas): 0
Duplicados por clave 'id_cliente': 0
No se encontraron duplicados en la clave 'id_cliente'.


In [36]:
calidad(df_marketing, "MARKETING (Crudo)", clave="id_campanha")

### MARKETING (Crudo)


Unnamed: 0,nulos
id_campanha,0
producto,0
canal,0
costo,0
fecha_inicio,0
fecha_fin,0


Filas duplicadas (exactas): 0
Duplicados por clave 'id_campanha': 0
No se encontraron duplicados en la clave 'id_campanha'.


### Observaciones de Calidad:

**Ventas**: Tiene 2 nulos en precio y 2 en cantidad. Hay 70 filas duplicadas (35 duplicados exactos, que también son duplicados por id_venta).

**Clientes**: No presenta nulos ni duplicados. Está limpio.

**Marketing**: No presenta nulos ni duplicados. Está limpio.

### 3.3. Preprocesamiento y Limpieza
Aplicamos las correcciones basadas en las observaciones.

In [13]:
# Crear copias independientes para no modificar los originales
df_ventas_clean = df_ventas.copy()
df_clientes_clean = df_clientes.copy()
df_marketing_clean = df_marketing.copy()

### 3.3.1. Eliminación de Duplicados

In [14]:
#Eliminar filas completamente duplicadas
df_ventas_clean = df_ventas_clean.drop_duplicates()
df_clientes_clean = df_clientes_clean.drop_duplicates()
df_marketing_clean = df_marketing_clean.drop_duplicates()

In [15]:
calidad(df_ventas_clean, "VENTAS CLEAN", clave="id_venta")

### VENTAS CLEAN


Unnamed: 0,nulos
id_venta,0
producto,0
precio,2
cantidad,2
fecha_venta,0
categoria,0


Filas duplicadas (exactas): 0
Duplicados por clave 'id_venta': 0
No se encontraron duplicados en la clave 'id_venta'.


In [16]:
calidad(df_clientes_clean, "CLIENTES CLLEAN", clave="id_cliente")

### CLIENTES CLLEAN


Unnamed: 0,nulos
id_cliente,0
nombre,0
edad,0
ciudad,0
ingresos,0


Filas duplicadas (exactas): 0
Duplicados por clave 'id_cliente': 0
No se encontraron duplicados en la clave 'id_cliente'.


In [17]:
calidad(df_marketing_clean, "MARKETING CLLEAN", clave="id_campanha")

### MARKETING CLLEAN


Unnamed: 0,nulos
id_campanha,0
producto,0
canal,0
costo,0
fecha_inicio,0
fecha_fin,0


Filas duplicadas (exactas): 0
Duplicados por clave 'id_campanha': 0
No se encontraron duplicados en la clave 'id_campanha'.


### 3.3.2. Normalización de Texto
Limpiamos espacios extra, caracteres invisibles y estandarizamos a formato Título.

In [18]:
def normalizar_texto(df):
    """
    Limpia espacios extra, caracteres invisibles y estandariza a formato Título
    en todas las columnas de tipo 'object'.
    """
    for col in df.select_dtypes(include="object").columns:
        df_transformado=df[col].astype(str) # Convierte cualquier tipo a string
        df_transformado=df_transformado.str.strip() #borra espacios en blanco por defecto.
        df_transformado=df_transformado.str.replace(r"[\u200b\t\r\n]", "", regex=True)  #patron: expresión regular que busca caracteres invisibles (\u200b, tabulaciones, saltos)
                                                                                         # reemplazo: ""  → los elimina
        df_transformado=df_transformado.str.replace(" +", " ", regex=True) # reemplaza "uno o más espacios consecutivos" por un solo espacio
        df_transformado=df_transformado.str.title() # Convierte a Título
        df[col]=df_transformado
    return df

### 3.3.3. Corrección de Tipos de Datos (Fechas y Números)
Convertimos las columnas de fecha y numéricas que se cargaron como texto.

In [37]:
# --- VENTAS ---

# Precio: Quitar '$', ',', convertir a numérico
df_ventas_clean["precio"] = (
    df_ventas_clean["precio"]
    .astype(str)# Asegurar que es string
    .str.replace("$", "", regex=False)
    .str.replace(",", "", regex=False)
    .str.strip()
)
df_ventas_clean["precio"] = pd.to_numeric(df_ventas_clean["precio"], errors="coerce")

# Cantidad: Convertir a numérico (entero nullable)
df_ventas_clean["cantidad"] = pd.to_numeric(
    df_ventas_clean["cantidad"], errors="coerce"
).astype("Int64") # Int64 soporta nulos (NaN)

# Fecha Venta: Convertir a datetime especificando formato DD/MM/AAAA
df_ventas_clean['fecha_venta'] = pd.to_datetime(
    df_ventas_clean['fecha_venta'], format='%d/%m/%Y', errors='coerce'
)



In [38]:
# --- MARKETING ---

# Fechas Campaña: Convertir a datetime especificando formato DD/MM/AAAA
df_marketing_clean["fecha_inicio"] = pd.to_datetime(
    df_marketing_clean["fecha_inicio"], format='%d/%m/%Y', errors='coerce'
)
df_marketing_clean["fecha_fin"] = pd.to_datetime(
    df_marketing_clean["fecha_fin"], format='%d/%m/%Y', errors='coerce'
)

### 3.3.4. Manejo de Nulos
Las filas con nulos en precio o cantidad no son útiles para el análisis de ingresos. Decidimos eliminarlas.

In [42]:
# Verificamos nulos después de las conversiones (pueden aparecer si un formato falló)
print("Nulos en Ventas (después de conversión):")
print(df_ventas_clean.isna().sum())

# Eliminamos filas donde 'precio' o 'cantidad' sean nulos
filas_antes_dropna = len(df_ventas_clean)
df_ventas_clean = df_ventas_clean.dropna(subset=['precio', 'cantidad'])
filas_despues_dropna = len(df_ventas_clean)
print(f"\nFilas eliminadas por nulos en 'precio' o 'cantidad': {filas_antes_dropna - filas_despues_dropna}")
print(f"Filas restantes en Ventas: {filas_despues_dropna}")


Nulos en Ventas (después de conversión):
id_venta       0
producto       0
precio         0
cantidad       0
fecha_venta    0
categoria      0
dtype: int64

Filas eliminadas por nulos en 'precio' o 'cantidad': 0
Filas restantes en Ventas: 2998


In [43]:
#  Aplicar la normalización de texto
ventas_clean = normalizar_texto(df_ventas_clean)
clientes_clean = normalizar_texto(df_clientes_clean)
marketing_clean = normalizar_texto(df_marketing_clean)

### 3.4. Verificación Post-Limpieza y Reporte Global
Volvemos a ejecutar calidad() e info() para confirmar que los DataFrames estén listos.

In [46]:
# Ejecutamos 'calidad' de nuevo para confirmar
print("--- VENTAS CLEAN ---")
display(df_ventas_clean.sample(3))
print("\n--- CLIENTES CLEAN ---")
display(df_clientes_clean.sample(3))
print("\n--- MARKETING CLEAN ---")
display(df_marketing_clean.sample(3))

--- VENTAS CLEAN ---


Unnamed: 0,id_venta,producto,precio,cantidad,fecha_venta,categoria
1117,819,Lámpara De Mesa,122.57,6,2024-05-03,Decoración
1831,2488,Smartwatch,71.56,5,2024-07-31,Electrónica
2619,2908,Smartwatch,78.63,4,2024-11-09,Electrónica



--- CLIENTES CLEAN ---


Unnamed: 0,id_cliente,nombre,edad,ciudad,ingresos
221,222,Bary Tanner,37,Córdoba,37626.61
334,335,Fin Arthan,25,Merlo,41383.85
461,462,Cherilynn Inch,29,Salta,19754.23



--- MARKETING CLEAN ---


Unnamed: 0,id_campanha,producto,canal,costo,fecha_inicio,fecha_fin
77,75,Jarrón Decorativo,Tv,4.1,2024-11-03,2024-12-25
44,78,Cámara Digital,Tv,4.1,2024-08-02,2024-09-20
59,52,Elementos De Cerámica,Email,5.74,2024-09-09,2024-09-30


In [50]:
# Función para reporte global
def reporte_calidad_global(dfs, nombres):
    """Crea un resumen de calidad
    (filas, cols, nulos, duplicados) de varios DataFrames.
    """
    resumen = []
    for df, nombre in zip(dfs, nombres):
        nulos = df.isna().sum().sum()
        duplicados = df.duplicated(keep=False).sum()  # Duplicados extra
        columnas = len(df.columns)
        filas = len(df)
        resumen.append({
            "Dataset": nombre,
            "Filas": filas,
            "Columnas": columnas,
            "Nulos totales": nulos,
            "Duplicados": duplicados, # Muestra duplicados extras
        })
    return pd.DataFrame(resumen).set_index("Dataset")


In [54]:
# Comparativa Antes y Después
print("\n--- REPORTE DE CALIDAD GLOBAL ---")
reporte_antes = reporte_calidad_global(
    [df_ventas, df_clientes, df_marketing],
    ["VENTAS (Original)", "CLIENTES (Original)", "MARKETING (Original)"]
)
reporte_despues = reporte_calidad_global(
    [df_ventas_clean, df_clientes_clean, df_marketing_clean],
    ["VENTAS (Limpio)", "CLIENTES (Limpio)", "MARKETING (Limpio)"]
)

print("Antes de la limpieza:")
display(reporte_antes)
print("\nDespués de la limpieza:")
display(reporte_despues)


--- REPORTE DE CALIDAD GLOBAL ---
Antes de la limpieza:


Unnamed: 0_level_0,Filas,Columnas,Nulos totales,Duplicados
Dataset,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
VENTAS (Original),3035,6,4,70
CLIENTES (Original),567,5,0,0
MARKETING (Original),90,6,0,0



Después de la limpieza:


Unnamed: 0_level_0,Filas,Columnas,Nulos totales,Duplicados
Dataset,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
VENTAS (Limpio),2998,6,0,0
CLIENTES (Limpio),567,5,0,0
MARKETING (Limpio),90,6,0,0


## 4. Análisis y Transformación de Datos
Con los datos limpios, ahora podemos responder las preguntas de negocio.

### 4.1. Transformación: Productos de Alto Rendimiento

### Objetivo: construir una tabla de rendimiento por producto y quedarnos sólo con los productos de alto rendimiento.

Conceptos clave:

<h3>Transformación de datos:</h3> son operaciones que crean/derivan nuevas columnas (por ejemplo ingreso = precio * cantidad), normalizan formatos (texto/fechas/números) o filtran filas según un criterio.

<h3>Métrica de ingreso:</h3> para ventas, una métrica típica es ingreso por registro = precio * cantidad. Luego podemos agregar por producto (sumar ingresos y unidades) para medir rendimiento total por producto.

<h3>Agregación:</h3> es resumir muchas filas en pocas, aplicando funciones como sum(), mean(), count() agrupando por una clave (ej., producto).
Ej.: “ingreso total por producto” = suma de todos los ingresos de ese producto.

<h3>Percentil:</h3> el percentil 80 (P80) es un valor tal que el 80% de los datos están por debajo o igual a ese valor y el 20% restante por encima.

Si ingreso_total P80 = 120.000, significa que el 80% de los productos tienen ingreso_total ≤ 120.000 y el 20% ≥ 120.000.

<h3>Alto rendimiento:</h3> aquí lo definimos como top 20% de productos según ingreso_total (>= P80). Es un criterio común cuando no hay umbrales de negocio explícitos.
Alternativas válidas: top-K (p. ej. top 50 productos), percentil 75 (P75) o un umbral fijo de negocio (p. ej., “>= $100.000/mes”), o score estandarizado (z-score).

<h3>Plan paso a paso:</h3>

Detectar la columna de producto (tolerando distintos nombres: producto, id_producto, sku, articulo…).

Calcular ingreso por registro = precio * cantidad.

Agregar por producto para obtener métricas (ingreso_total, unidades, precio_promedio, registros).

Calcular P80 con quantile(q=0.80).

Filtrar productos con ingreso_total >= P80.

Ordenar de mayor a menor.

In [56]:
# Función auxiliar para encontrar columna (más robusta)
def encontrar_columna(df, candidatos):
    """Busca la primera columna cuyo nombre contenga
    (case-insensitive) alguno de los patrones dados.
    """
    for c in df.columns:
        nombre = c.lower()
        # Verificamos si alguna palabra (patrón) de la lista 'candidatos' está contenida dentro del nombre de la columna
        if any(p in nombre for p in candidatos):
            return c  # Devuelve el nombre original
    return None

In [57]:
# Detectar la columna de producto
prod_col = encontrar_columna(ventas_clean, ["producto", "id_producto", "sku", "articulo", "artículo"])
if prod_col is None:
    raise ValueError("No se encontró columna de producto. Renombrá una columna a 'producto' o similar.")
print(f"Columna de producto detectada: '{prod_col}'")

Columna de producto detectada: 'producto'


In [58]:
# Calcular ingreso por registro
ventas_con_ingreso = ventas_clean.assign(ingreso = ventas_clean["precio"] * ventas_clean["cantidad"] )
print("\nDataFrame de ventas con columna 'ingreso' calculada:")
display(ventas_con_ingreso.head(3))


DataFrame de ventas con columna 'ingreso' calculada:


Unnamed: 0,id_venta,producto,precio,cantidad,fecha_venta,categoria,ingreso
0,792,Cuadro Decorativo,69.94,5,2024-01-02,Decoración,349.7
1,811,Lámpara De Mesa,105.1,5,2024-01-02,Decoración,525.5
2,1156,Secadora,97.96,3,2024-01-02,Electrodomésticos,293.88


In [60]:
# Agregar métricas por producto
resumen_prod = (ventas_con_ingreso.groupby(by=prod_col, dropna=False, as_index=False, observed=False)# Agrupar por la columna de producto encontrada
    .agg(
        ingreso_total=('ingreso', 'sum'),
        unidades_vendidas=('cantidad', 'sum'),
        precio_promedio=('precio', 'mean'),
        registros=('ingreso', 'size')
    )
)

print("Resumen de métricas por producto:")
# Redondear precio promedio para mejor visualización
resumen_prod['precio_promedio'] = resumen_prod['precio_promedio'].round(2)
display(resumen_prod.head())

Resumen de métricas por producto:


Unnamed: 0,producto,ingreso_total,unidades_vendidas,precio_promedio,registros
0,Adorno De Pared,48093.49,633,76.1,100
1,Alfombra,44773.06,615,74.1,100
2,Aspiradora,50085.86,651,77.45,100
3,Auriculares,74175.58,958,76.3,143
4,Batidora,50979.2,672,77.54,100


In [62]:
# Calcular percentil 80 de ingreso_total
p80_ingreso = resumen_prod["ingreso_total"].quantile(q=0.80, interpolation="linear")

#Filtrar los productos "de alto rendimiento" (>= P80) y ordenarlos
ventas_top = (
    resumen_prod
    .query("ingreso_total >= @p80_ingreso",   engine="python" ) # Usar @ para referenciar la variable p80_ingreso
    .sort_values(
        by=["ingreso_total", "unidades_vendidas"],  # Ordenar por ingreso, desempatar por unidades
        ascending=[False, False],          # Ambos descendentes
        na_position="last",                # coloca NaN al final (útil si alguna métrica quedó en NaN)
        ignore_index=True                  # Resetear índice
    )
)

# Mostrar resultados
print(f"Columna de producto detectada: {prod_col}")
print(f"Umbral (percentil 80) de ingreso_total: {float(p80_ingreso):,.2f}")
print("✅ Productos de ALTO RENDIMIENTO (top 20% por ingreso):")
display(ventas_top.head(20))

Columna de producto detectada: producto
Umbral (percentil 80) de ingreso_total: 52,518.85
✅ Productos de ALTO RENDIMIENTO (top 20% por ingreso):


Unnamed: 0,producto,ingreso_total,unidades_vendidas,precio_promedio,registros
0,Lámpara De Mesa,82276.38,1112,72.72,176
1,Auriculares,74175.58,958,76.3,143
2,Microondas,72562.89,912,79.18,135
3,Cafetera,59607.31,765,79.05,117
4,Cuadro Decorativo,54297.6,726,74.58,100
5,Smartphone,54132.44,665,81.4,101


### 4.2. Agregación: Ingresos por Categoría
Resumir las ventas totales, promedio y cantidad por categoría de producto.

### 7️⃣ Integración de datos, opcional, NO OBLIGATORIO

In [None]:
# TODO: Combinar los sets de datos de ventas y marketing para obtener una visión más amplia de las tendencias.
# Sugerencia: usar pd.merge() especificando la clave común entre ambos DataFrames.
# Documentar cualquier observación relevante sobre la combinación de datos.
