In [93]:
from google.colab import drive

drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [94]:
#importar herramientas

import pandas as pd
import numpy as np
import os

os.listdir("/content/drive/MyDrive/datasets")

['ventas.csv',
 'clientes.csv',
 'marketing.csv',
 'hotels.csv',
 'reviews.csv',
 'users.csv']

In [95]:
#csv -> dataframes

ventas = pd.read_csv("/content/drive/MyDrive/datasets/ventas.csv")
clientes = pd.read_csv("/content/drive/MyDrive/datasets/clientes.csv")
marketing = pd.read_csv("/content/drive/MyDrive/datasets/marketing.csv")

Los primeros 3 bloques se encargan de establecer el entorno de trabajo y los dataframes que se van a utilizar:

1:

from google.colab import drive -> Permite acceder a los archivos de drive que son IMPORTADOS desde (from) google colab.

drive.mount = monta la unidad, osea, conecta el drive con colab.

2:

importamos librerías y herramientas y les asignamos nombres para que sea mas facil. (Por estandar, pandas como pd y numpy como np)

os es un módulo que permite interactuar con el sistema operativo. os.listdir lista el contenido de la ruta que le brindamos (lo que hay en la carpeta datasets en este caso).

3:

le pedimos a pandas que lea cada .csv y los guarde en memoria como un dataframe.

In [96]:
#df shape/head

def diagnostico_preliminar(dataset):
  print("shape:", dataset.shape)
  print(dataset.head(3))

! IMPORTANTE: A lo largo de este trabajo utilizo el parametro "dataset" para referirme a los csv de la preentrega. Tecnicamente la buena práctica sería utilizar "df" (dataframe) ya que no son más datasets, pandas los transforma a dataframes que pueden ser manipulados y los guarda en memoria. (tambien sería facilmente cambiarlos pero personalmente por esta vez decido continuar el resto del trabajo de esta forma)

Decido utilizar funciones porque es buena práctica, y además no quiero escribir lo mismo 3 veces. En mi caso separo en "diagnostico preliminar" el .shape y .head de cada df.

.shape regresa una TUPLA que representa la dimensionalidad del df (osea, columnas y filas)

.head devuelve las primeras filas de un df.

In [97]:
diagnostico_preliminar(ventas)
diagnostico_preliminar(clientes)
diagnostico_preliminar(marketing)

shape: (3035, 6)
   id_venta           producto   precio  cantidad fecha_venta  \
0       792  Cuadro decorativo   $69.94       5.0  02/01/2024   
1       811    Lámpara de mesa  $105.10       5.0  02/01/2024   
2      1156           Secadora   $97.96       3.0  02/01/2024   

           categoria  
0         Decoración  
1         Decoración  
2  Electrodomésticos  
shape: (567, 5)
   id_cliente               nombre  edad         ciudad  ingresos
0           1      Aloysia Screase    44  Mar del Plata  42294.68
1           2  Kristina Scaplehorn    25        Posadas  24735.04
2           3       Filip Castagne    50    Resistencia  35744.85
shape: (90, 6)
   id_campanha         producto  canal  costo fecha_inicio   fecha_fin
0           74  Adorno de pared     TV   4.81   20/03/2024  03/05/2024
1           12           Tablet   RRSS   3.40   26/03/2024  13/05/2024
2           32  Lámpara de mesa  Email   5.54   28/03/2024  20/04/2024


In [98]:
#df diagnostico

def diagnostico_inicial(dataset):
  print(dataset.info())
  print(dataset.describe(include='number'))
  print(dataset.columns)
  print(dataset.dtypes)

Diagnostico inicial continua el análisis de los df.

.info: informacion sobre el df index, dtype, columns, non-null y uso de memoria.

.describe:  Estadisticas descriptivas, tendencias (min,max, 50%, etc), distribucion y shape. excluye NaN.

.columns: devuelve una tupla con el nombre de las columnas del df.

.dtypes: devuelve el datatype de cada columna.

In [99]:
#diagnostico dataset ventas

diagnostico_inicial(ventas)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3035 entries, 0 to 3034
Data columns (total 6 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   id_venta     3035 non-null   int64  
 1   producto     3035 non-null   object 
 2   precio       3033 non-null   object 
 3   cantidad     3033 non-null   float64
 4   fecha_venta  3035 non-null   object 
 5   categoria    3035 non-null   object 
dtypes: float64(1), int64(1), object(4)
memory usage: 142.4+ KB
None
          id_venta     cantidad
count  3035.000000  3033.000000
mean   1499.851400     6.496538
std     866.465379     3.457250
min       1.000000     1.000000
25%     748.500000     3.000000
50%    1502.000000     7.000000
75%    2249.500000     9.000000
max    3000.000000    12.000000
Index(['id_venta', 'producto', 'precio', 'cantidad', 'fecha_venta',
       'categoria'],
      dtype='object')
id_venta         int64
producto        object
precio          object
cantidad       float6

Analisis de ventas:


*   fecha_venta aparece como object en lugar de datetime.

*   precio aparece como object en lugar de float o num



In [100]:
#diagnostico dataset clientes

diagnostico_inicial(clientes)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 567 entries, 0 to 566
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   id_cliente  567 non-null    int64  
 1   nombre      567 non-null    object 
 2   edad        567 non-null    int64  
 3   ciudad      567 non-null    object 
 4   ingresos    567 non-null    float64
dtypes: float64(1), int64(2), object(2)
memory usage: 22.3+ KB
None
       id_cliente        edad      ingresos
count  567.000000  567.000000    567.000000
mean   284.000000   37.940035  34668.739012
std    163.823075   10.202885  12974.531446
min      1.000000   20.000000    170.290000
25%    142.500000   30.000000  26015.240000
50%    284.000000   37.000000  35066.830000
75%    425.500000   43.000000  42457.100000
max    567.000000   81.000000  88053.010000
Index(['id_cliente', 'nombre', 'edad', 'ciudad', 'ingresos'], dtype='object')
id_cliente      int64
nombre         object
edad            int64
c

In [101]:
#diagnostico dataset marketing

diagnostico_inicial(marketing)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 90 entries, 0 to 89
Data columns (total 6 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   id_campanha   90 non-null     int64  
 1   producto      90 non-null     object 
 2   canal         90 non-null     object 
 3   costo         90 non-null     float64
 4   fecha_inicio  90 non-null     object 
 5   fecha_fin     90 non-null     object 
dtypes: float64(1), int64(1), object(4)
memory usage: 4.3+ KB
None
       id_campanha      costo
count    90.000000  90.000000
mean     45.500000   4.928667
std      26.124701   0.947750
min       1.000000   2.950000
25%      23.250000   4.372500
50%      45.500000   4.900000
75%      67.750000   5.562500
max      90.000000   7.390000
Index(['id_campanha', 'producto', 'canal', 'costo', 'fecha_inicio',
       'fecha_fin'],
      dtype='object')
id_campanha       int64
producto         object
canal            object
costo           float64
fecha_inic

Analisis de marketing: Fechas aparecen como object en lugar de datetime.

In [102]:
# EDA exploratory data analysis (metodo default)
# Se incluyen nulos, shape está expresado en listas

# def eda(dataset, nombre):
#     print(f"=== {nombre} ===")
#     print("shape:", dataset.shape)
#     print("columnas:", list(dataset.columns))
#     print("dtypes:")
#     print(dataset.dtypes)
#     print("\nNulos por columna:")
#     print(dataset.isna().sum())
#     print("\nPrimeras filas:")
#     display(dataset.head(5))
#     print("\nDescribe (numérico):")
#     display(dataset.describe(include='number'))
#     print("-"*100)




EDA es la forma estandarizada de realizar un analisis exploratorio de datos, decidí incluirlo para comparar con mi proceso.

In [103]:
def calidad_dataframe(dataset, clave=None):
  display(dataset.isna().sum().to_frame("NaN"))
  filas_dup = dataset.duplicated(keep=False).sum()
  print("Filas duplicadas: ", filas_dup)
  if clave and clave in dataset.columns: #doble condicional, "clave" no puede ser None y "clave" debe estar en las columnas del df
    dup_clave = dataset.duplicated(subset=[clave],keep=False).sum() # o dataset[clave].duplicated(keep=False).sum()
    print("Filas duplicadas por clave: ", dup_clave)
    if dup_clave > 0:
      dup_ordenados = (dataset[dataset[clave].duplicated(keep=False)][clave].value_counts().sort_values(ascending=False))
      print("Valores duplicados de mayor a menor:")
      display(dup_ordenados.head(10))
    else:
        print("No existen duplicados") #si dup_clave no detecta duplicados
  else:
    if clave==None:
      print("La clave no existe.") #si "clave" no se encuentra en las columnas (hardcodear que clave sea igual a None está bien? (preguntar más tarde))

Esta sección es similar a lo que aparece en la solución. Con un par de cambios

Basicamente: Devuelve una tabla donde recopila los columns y muestra cuantos valores nulos hay en cada uno.

Luego hace un print de filas duplicadas totales.

Luego lo mismo pero mostrando cual dato se repite mas veces y ordenandolo de mayor a menor (En este ejemplo todos los valores duplicados se repiten en la misma cantidad por lo que no hay una jerarquía clara creo)


In [104]:
calidad_dataframe(ventas, clave="id_venta")

Unnamed: 0,NaN
id_venta,0
producto,0
precio,2
cantidad,2
fecha_venta,0
categoria,0


Filas duplicadas:  70
Filas duplicadas por clave:  70
Valores duplicados de mayor a menor:


Unnamed: 0_level_0,count
id_venta,Unnamed: 1_level_1
56,2
421,2
424,2
1868,2
2545,2
2778,2
145,2
300,2
439,2
906,2


Ventas contiene filas duplicadas y valores nulos.

In [105]:
calidad_dataframe(clientes, clave="id_cliente")

Unnamed: 0,NaN
id_cliente,0
nombre,0
edad,0
ciudad,0
ingresos,0


Filas duplicadas:  0
Filas duplicadas por clave:  0
No existen duplicados


In [106]:
calidad_dataframe(marketing, clave ="id_campanha")

Unnamed: 0,NaN
id_campanha,0
producto,0
canal,0
costo,0
fecha_inicio,0
fecha_fin,0


Filas duplicadas:  0
Filas duplicadas por clave:  0
No existen duplicados


Ni Clientes ni marketing tienen valores duplicados o nulos.

# Limpieza de datos

In [107]:
# Evitamos sobrescribir los dataframes creando copias y borramos duplicados:
# Dejo "dataset_clean" como nombre ya que no se me ocurre otro mejor.

ventas_clean = ventas.copy()
clientes_clean = clientes.copy()
marketing_clean = marketing.copy()

ventas_clean = ventas_clean.drop_duplicates() #keep=first por defecto
clientes_clean = clientes_clean.drop_duplicates()
marketing_clean = marketing_clean.drop_duplicates()

In [108]:
#comprobamos como queda el dataframe ventas:

calidad_dataframe(ventas_clean, clave="id_venta")

Unnamed: 0,NaN
id_venta,0
producto,0
precio,2
cantidad,2
fecha_venta,0
categoria,0


Filas duplicadas:  0
Filas duplicadas por clave:  0
No existen duplicados


In [109]:
def normalizar_str(dataset):
  for columna in dataset.select_dtypes(include="object").columns: #seleccionar los tipos de datos que incluya unicamente "object" de las columnas.
    dataset[columna] = dataset[columna].astype(str).str.strip().str.replace(r"[\u200b\t\r\n]", "", regex=True).str.replace(" +", " ", regex=True).str.title()
    return dataset

In [110]:
# esto solo es posible porque sabemos como se llaman las columnas de las fechas, caso contrario, hacer función:

ventas_clean["fecha_venta"] = pd.to_datetime(ventas_clean["fecha_venta"], errors="coerce", dayfirst=True)

marketing_clean["fecha_inicio"] = pd.to_datetime(marketing_clean["fecha_inicio"], errors="coerce", dayfirst=True)
marketing_clean["fecha_fin"] = pd.to_datetime(marketing_clean["fecha_fin"], errors="coerce", dayfirst=True)

In [111]:
print(ventas_clean.dtypes)
print(clientes_clean.dtypes)
print(marketing_clean.dtypes)

id_venta                int64
producto               object
precio                 object
cantidad              float64
fecha_venta    datetime64[ns]
categoria              object
dtype: object
id_cliente      int64
nombre         object
edad            int64
ciudad         object
ingresos      float64
dtype: object
id_campanha              int64
producto                object
canal                   object
costo                  float64
fecha_inicio    datetime64[ns]
fecha_fin       datetime64[ns]
dtype: object


In [112]:
#la aplicacion de normalizar_str se hace despues de normalizar los datetimes ya que las mismas aparecen como object también.

ventas_clean = normalizar_str(ventas_clean)
clientes_clean = normalizar_str(clientes_clean)
marketing_clean = normalizar_str(marketing_clean)

In [113]:
print(ventas_clean.head(5))
print(clientes_clean.head(5))
print(marketing_clean.head(5))

   id_venta           producto   precio  cantidad fecha_venta  \
0       792  Cuadro Decorativo   $69.94       5.0  2024-01-02   
1       811    Lámpara De Mesa  $105.10       5.0  2024-01-02   
2      1156           Secadora   $97.96       3.0  2024-01-02   
3      1372           Heladera  $114.35       8.0  2024-01-02   
4      1546           Secadora  $106.21       4.0  2024-01-02   

           categoria  
0         Decoración  
1         Decoración  
2  Electrodomésticos  
3  Electrodomésticos  
4  Electrodomésticos  
   id_cliente               nombre  edad         ciudad  ingresos
0           1      Aloysia Screase    44  Mar del Plata  42294.68
1           2  Kristina Scaplehorn    25        Posadas  24735.04
2           3       Filip Castagne    50    Resistencia  35744.85
3           4          Liuka Luard    39   Bahía Blanca  27647.96
4           5        Dore Cockshtt    28        Rosario  28245.65
   id_campanha         producto  canal  costo fecha_inicio  fecha_fin
0    

In [114]:
# normalizacion de precio

if "precio" in ventas_clean.columns:
  ventas_clean["precio"] = (ventas_clean["precio"].astype(str).str.replace("$", "", regex=False).str.replace(",", "", regex=False).str.strip())


ventas_clean["precio"] = pd.to_numeric(ventas_clean["precio"], errors="coerce")

In [115]:
print(ventas_clean.dtypes)

id_venta                int64
producto               object
precio                float64
cantidad              float64
fecha_venta    datetime64[ns]
categoria              object
dtype: object


In [116]:
# normalizacion de cantidad

if "cantidad" in ventas_clean.columns:
  ventas_clean["cantidad"] = pd.to_numeric(ventas_clean["cantidad"], errors="coerce").fillna(0).astype("int64")

In [117]:
print(ventas_clean.dtypes)

id_venta                int64
producto               object
precio                float64
cantidad                int64
fecha_venta    datetime64[ns]
categoria              object
dtype: object


!! Por alguna razón, al no incluir .fillna(0) al transformar los datos de "cantidad" en numérico el código tiraba error (la solución la completó gemini porque en realidad no sabía que hacer).

Es extraño porque coerce debería encargarse de eso.

!!! Lo descubrí: int64 e Int64 (con mayúscula) son tipos distintos de datos. Al código ya lo ejecuté y los valores nulos fueron cambiados por 0.

Alternativamente se podría hacer un promedio de los valores de la columna y cambiar el valor nulo por el promedio. Sin embargo ventas tiene 3000 filas de datos, dudo que 2 valores cambiados por 0 hagan mucha diferencia en el resultado final del análisis.

In [118]:
ventas_clean["cantidad"] = ventas_clean["cantidad"].astype(str)

if "cantidad" in ventas_clean.columns:
  ventas_clean["cantidad"] = pd.to_numeric(ventas_clean["cantidad"], errors="coerce").astype("Int64")

In [119]:
print(ventas_clean.dtypes)

id_venta                int64
producto               object
precio                float64
cantidad                Int64
fecha_venta    datetime64[ns]
categoria              object
dtype: object


Lo que hice acá es transformar de vuelta "cantidad" a strings y despues rehacerlo como Int64. Tecnicamente los valores NaN que pasé a 0 van a seguir igual pero si surgieran nuevos NaN, Int64 los puede leer.

In [120]:
#Y así quedó ventas_clean:

print(ventas_clean.head(5))


   id_venta           producto  precio  cantidad fecha_venta  \
0       792  Cuadro Decorativo   69.94         5  2024-01-02   
1       811    Lámpara De Mesa  105.10         5  2024-01-02   
2      1156           Secadora   97.96         3  2024-01-02   
3      1372           Heladera  114.35         8  2024-01-02   
4      1546           Secadora  106.21         4  2024-01-02   

           categoria  
0         Decoración  
1         Decoración  
2  Electrodomésticos  
3  Electrodomésticos  
4  Electrodomésticos  


# TRANSFORMACIÓN DE DATOS

In [121]:
def columna_relevante(dataset, opciones):
  for o in dataset.columns: # por cada coincidencia en las columnas de "dataset"
    nombre = o.lower() #transformamos los nombres de las columnas a minúsculas para que no haya problemas de tipografía
    if any(c in nombre for c in opciones): #si hay cualquier c (coincidencia) entre nuestras opciones
      return o #devolveme esa opción

  return None

In [122]:
buscar_producto = columna_relevante(ventas_clean, ["producto", "id_producto", "sku", "articulo", "artículo", "item", "ítem"]) #que nombre que podría llegar a tener la columna aunque ya sabemos que es producto
if buscar_producto is None: #lanzar error si no se encuentra ninguna coincidencia
  raise ValueError("No se encontró ningún valor") #utilizar raise para evitar que el programa se siga ejecutando y mandar un error

print(buscar_producto) #si encuentra una coincidencia se debería mostrar en el print.

producto


Este método es utilizado por la profesora ya que quizás no recibamos un dataset simple o limpio en el cual podamos saber a simple vista que la columna que buscamos para la transformación de datos es, por ejemplo, "producto". Entonces esto nos permite buscar cual opcion es entre una lista de nombres (yo personalmente agregué item).

Tambien se podría agregar los plurales como medidas preventivas, ej: "productoS", "articuloS", etc

In [123]:
#calculo de ingreso

ventas_calc = ventas_clean.assign(ingreso = ventas_clean["precio"] * ventas_clean["cantidad"]) #assign crea nuevas columnas y devuelve una copia del df

In [124]:
#metricas de producto e ingresos

ventas_metricas = ventas_calc.groupby(by=buscar_producto, dropna=False, as_index=False).agg(total=("ingreso", "sum"), unidades=("cantidad", "sum",), promedio=("precio", "mean"), registros=("ingreso", "size")) #Observed está en False por default así que no lo agrego, dropna e index aseguro que sean False.
ventas_metricas['promedio'] = round(ventas_metricas['promedio'], 2)

Ventas_metricas es UN NUEVO DATAFRAME que se va a encargar de resumirme los datos y darme info como el total de la venta de un producto.

groupby se hace por la columna relevante que buscamos en buscar_producto. (el producto) Pero podría hacerse por más

groupby filtra, agg resume (por eso agg tiene el nombre de la columna y un sum o mean)

Ordenado con un sort values en el print de abajo (para no afectar al dataframe)

Los float fueron cambiados para tener solo 2 decimales luego de la coma.

In [125]:
print(ventas_metricas.head(15).sort_values(by="total", ascending=False, ignore_index=True))

                  producto     total  unidades  promedio  registros
0              Auriculares  74175.58       958     76.30        143
1                 Cafetera  59607.31       765     79.05        117
2        Cuadro Decorativo   54297.6       726     74.58        100
3                 Batidora   50979.2       672     77.54        100
4       Freidora Eléctrica  50155.15       630     78.25        100
5               Aspiradora  50085.86       651     77.45        100
6          Adorno De Pared  48093.49       633     76.10        100
7        Espejo Decorativo  46783.31       635     75.66        100
8   Consola De Videojuegos  46174.41       623     76.35         99
9    Elementos De Cerámica  45411.09       636     71.61        100
10          Cámara Digital  45217.96       638     72.01        100
11                Cortinas  44865.03       610     73.65        100
12                Alfombra  44773.06       615     74.10        100
13                Heladera   25736.8       330  

In [126]:
# Percentil 80

p80_ingreso = ventas_metricas["total"].quantile(q=0.80, interpolation="linear")

top_venta = (ventas_metricas.query("total >= @p80_ingreso", engine="python").sort_values(by=["total", "unidades"], ascending=[False, False], na_position="last", ignore_index=True))

print(f"Columna de producto detectada: {buscar_producto}") #la columna detectada es producto
print(f"P80 de total: {float(p80_ingreso):,.2f}") #tratamiento de numeros despues de la coma en un float
print("Productos de alto rendimiento:")
display(top_venta.head(10))

Columna de producto detectada: producto
P80 de total: 52,518.85
Productos de alto rendimiento:


Unnamed: 0,producto,total,unidades,promedio,registros
0,Lámpara De Mesa,82276.38,1112,72.72,176
1,Auriculares,74175.58,958,76.3,143
2,Microondas,72562.89,912,79.18,135
3,Cafetera,59607.31,765,79.05,117
4,Cuadro Decorativo,54297.6,726,74.58,100
5,Smartphone,54132.44,665,81.4,101


percentil y quantile los utilizamos para saber que productos son de "alto rendimiento" (top 20% de productos basados en el total de venta), los que más vendieron basicamente

quantile: limite del percentil e interpolation es el tratamiento que se le da a los números que no coinciden con los datos.

.query (query de base de datos básicamente, es un filtro)

En este caso "lámpara de mesa" fue el producto más vendido, por ejemplo.

sort values en este caso primero ordena por el total de la venta, y luego "desempata" por la cantidad de unidades (en caso de que coincidentemente el valor sea el mismo). De la misma forma ascending debe mantener la misma lógica (por eso expresado en corchetes).

na_position es el tratamiento de valores nulos (toma first o last, y en base a eso es donde los muestra)

!!! Si hiciera un display de top_venta.tail() y hubiera nulos me los debería mostrar no? (borrar antes de entregar)

# AGREGACIÓN

In [127]:
#agregación: basicamente un resumen con información importante por categoría y que permite métricas útiles.
#similar a lo que tuvimos que hacer para encontrar la columna producto durante la transformación.


def columna_relevante_agg(dataset, opciones):
  for columna in dataset.columns: #por cada columna de dataset.columns
    if any (c in columna.lower() for c in opciones): # si cualquier coincidencia en las columnas de dataset (en minusculas), evaluar si hay una coincidencia entre las opciones
      return columna #devolvé el nombre original de la columna
  return None #O no hagas nada.

In [128]:
categoria_columna = columna_relevante_agg(ventas_clean, ["categoria", "categoría", "cat", "tipo", "categoríaproducto", "categoriaproducto", "categoria_producto", "categoría_producto", "cat_prod", "rubro", "tipo"])
if categoria_columna is None:
  raise ValueError("Sin coincidencias")

if "ingreso_categoria" not in ventas_clean.columns: #si no existe "ingreso_categoria" en las columnas de ventas_clean crearla de la siguiente forma:
  ventas_categoria = ventas_clean.assign(ingreso_categoria = ventas_clean["precio"] * ventas_clean["cantidad"]) #asignas a ventas_clean "ingreso_categoria" que sea precio*cantidad.
else:
    ventas_categoria = ventas_clean.copy() #sino hacer una copia.

resumen_categoria = (ventas_categoria.groupby(by=categoria_columna, dropna=False, as_index=False).agg(ingreso_cat_total=("ingreso_categoria", "sum"), unidades=("cantidad", "sum"), ventas=("ingreso_categoria", "size"), precio_promedio=("precio", "mean")).sort_values(by="ingreso_cat_total", ascending=False, na_position="last", ignore_index=True))

resumen_categoria = resumen_categoria.assign(ticket_promedio_venta_cat = resumen_categoria["ingreso_cat_total"] / resumen_categoria["ventas"])

print(f"Columna de producto detectada: {categoria_columna}") #la columna detectada es categoria
print("Ingresos por categoria total:")
display(resumen_categoria.head(10))

Columna de producto detectada: categoria
Ingresos por categoria total:


Unnamed: 0,categoria,ingreso_cat_total,unidades,ventas,precio_promedio,ticket_promedio_venta_cat
0,Electrodomésticos,505299.63,6592,1000,76.52096,505.29963
1,Electrónica,482577.8,6413,999,75.25492,483.060861
2,Decoración,479216.09,6490,1001,74.098,478.737353


Al igual que ventas_metricas, resumen_categoria es un nuevo dataframe con el cual usamos .groupby.

Agrupado por la columna categoria del df original, las columnas son:

ingreso_cat_total = la sumatoria de los ingresos de una categoria.

unidades = sumatoria de cantidad de unidades que se vendieron.

ventas = cantidad de veces que se vendió una categoría (no es lo mismo que cantidad de unidades que se vendieron)

precio promedio = promedio del total de ventas entre todas las ventas.

Ticket promedio = valor promedio de ventas por CLIENTE (no es lo mismo que por venta).