# 📘 Pre-entrega

**Nombre del alumno:** **Martín Federico Fernández Gamen**

## 🧩 Etapa 1: Recopilación y Preparación de Datos
**Objetivo:** Demostrar habilidades en Python, familiaridad con el entorno de trabajo y conocimientos básicos sobre manipulación de datos.

In [1]:
## Configuro el entorno para poder realizar la carga de datos
# importo las librerías necesarias para el entorno
import pandas as pd
import numpy as np
import os
# Monto mi unidad drive donde está ubicada la carpeta datasets con los csv dentro (fuentes de datos a utilizar)
from google.colab import drive
drive.mount('/content/drive')
# Verificar que los archivos csv se encuentren en la carpeta datasets
os.listdir("/content/drive/MyDrive/datasets")

Mounted at /content/drive


['ventas.csv',
 'clientes.csv',
 'marketing.csv',
 'ventas_clean.csv',
 'marketing_clean.csv',
 'clientes_clean.csv']

### 1️⃣ Carga de datos

In [2]:
# Defino las rutas relativas de los datasets para facilitar los cambios de ubicación.
path_archivo_ventas = "/content/drive/MyDrive/datasets/ventas.csv"
path_archivo_clientes = "/content/drive/MyDrive/datasets/clientes.csv"
path_archivo_marketing = "/content/drive/MyDrive/datasets/marketing.csv"

# Cargo los datasets (archivos CSV) como DataFrames usando Pandas [Por ejemplo: usando pd.read_csv()].
df_ventas = pd.read_csv(path_archivo_ventas)
df_clientes = pd.read_csv(path_archivo_clientes)
df_marketing = pd.read_csv(path_archivo_marketing)

# Validamos su correcta carga comprobando sus formas.
print("df_ventas.shape ->", df_ventas.shape)
print("df_clientes.shape ->", df_clientes.shape)
print("df_marketing.shape ->", df_marketing.shape)

# Valido las rutas y correcta carga de los dataframes mostrando las 3 primeras y 3 últimas filas de cada dataset
# Veo las primeras 3 filas y su estructura de columnas con .head()
display(df_ventas.head(3))
display(df_clientes.head(3))
display(df_marketing.head(3))

# Veo las últimas 3 filas con .tail()
display(df_ventas.tail(3))
display(df_clientes.tail(3))
display(df_marketing.tail(3))

df_ventas.shape -> (3035, 6)
df_clientes.shape -> (567, 5)
df_marketing.shape -> (90, 6)


Unnamed: 0,id_venta,producto,precio,cantidad,fecha_venta,categoria
0,792,Cuadro decorativo,$69.94,5.0,02/01/2024,Decoración
1,811,Lámpara de mesa,$105.10,5.0,02/01/2024,Decoración
2,1156,Secadora,$97.96,3.0,02/01/2024,Electrodomésticos


Unnamed: 0,id_cliente,nombre,edad,ciudad,ingresos
0,1,Aloysia Screase,44,Mar del Plata,42294.68
1,2,Kristina Scaplehorn,25,Posadas,24735.04
2,3,Filip Castagne,50,Resistencia,35744.85


Unnamed: 0,id_campanha,producto,canal,costo,fecha_inicio,fecha_fin
0,74,Adorno de pared,TV,4.81,20/03/2024,03/05/2024
1,12,Tablet,RRSS,3.4,26/03/2024,13/05/2024
2,32,Lámpara de mesa,Email,5.54,28/03/2024,20/04/2024


Unnamed: 0,id_venta,producto,precio,cantidad,fecha_venta,categoria
3032,2696,Laptop,$107.81,4.0,30/12/2024,Electrónica
3033,2913,Smartphone,$99.85,7.0,30/12/2024,Electrónica
3034,2930,Consola de videojuegos,$55.47,6.0,30/12/2024,Electrónica


Unnamed: 0,id_cliente,nombre,edad,ciudad,ingresos
564,565,Jewelle Mabbett,33,Córdoba,30522.64
565,566,Lauri Munns,23,Resistencia,31259.14
566,567,Micah Matis,31,Corrientes,42927.86


Unnamed: 0,id_campanha,producto,canal,costo,fecha_inicio,fecha_fin
87,68,Rincón de plantas,TV,5.81,17/12/2024,14/2/2025
88,33,Secadora,Email,3.8,20/12/2024,7/1/2025
89,11,Freidora eléctrica,RRSS,5.27,29/12/2024,21/1/2025


### 2️⃣ Análisis exploratorio inicial

In [3]:
## Declaro la función  "analisis_exploratorio_datos" (EDA customizada a gusto) para poder realizar el análisis solicitado de los tres Dataframes.
# Incluyo además la función info() que suma un resumen conciso del dataframe (que incluye el número de columnas, sus etiquetas, el tipo de datos de cada columna, el número de valores no nulos y la cantidad de memoria utilizada).
# También sumé las últimas filas a la par del head para tener dimesión muchas veces de valores máximos y mínimos en columnas ordenadas.
# Anexé también separadores en guiones para facilitar la lectura

def analisis_exploratorio_datos(df, nombre):
    print(f"=== {nombre} ===")
    print("\nresumen_info: ", df.info())
    print("-"*30)
    print("\nshape:", df.shape)
    print("-"*30)
    print("\ncolumnas:", list(df.columns))
    print("-"*30)
    print("\ndtypes:")
    print(df.dtypes)
    print("-"*30)
    print("\nNulos por columna:")
    print(df.isna().sum())
    print("-"*30)
    print("\nPrimeras filas:")
    display(df.head(5))
    print("-"*30)
    print("\nÚltimas filas:")
    display(df.tail(5))
    print("-"*30)
    print("\nDescribe (numérico):")
    display(df.describe(include='number'))
    print("-"*120)


In [4]:
# Realizo el análisis del Dataframe de Ventas
analisis_exploratorio_datos(df_ventas, "Reporte de VENTAS")

=== Reporte de VENTAS ===
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3035 entries, 0 to 3034
Data columns (total 6 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   id_venta     3035 non-null   int64  
 1   producto     3035 non-null   object 
 2   precio       3033 non-null   object 
 3   cantidad     3033 non-null   float64
 4   fecha_venta  3035 non-null   object 
 5   categoria    3035 non-null   object 
dtypes: float64(1), int64(1), object(4)
memory usage: 142.4+ KB

resumen_info:  None
------------------------------

shape: (3035, 6)
------------------------------

columnas: ['id_venta', 'producto', 'precio', 'cantidad', 'fecha_venta', 'categoria']
------------------------------

dtypes:
id_venta         int64
producto        object
precio          object
cantidad       float64
fecha_venta     object
categoria       object
dtype: object
------------------------------

Nulos por columna:
id_venta       0
producto       0
prec

Unnamed: 0,id_venta,producto,precio,cantidad,fecha_venta,categoria
0,792,Cuadro decorativo,$69.94,5.0,02/01/2024,Decoración
1,811,Lámpara de mesa,$105.10,5.0,02/01/2024,Decoración
2,1156,Secadora,$97.96,3.0,02/01/2024,Electrodomésticos
3,1372,Heladera,$114.35,8.0,02/01/2024,Electrodomésticos
4,1546,Secadora,$106.21,4.0,02/01/2024,Electrodomésticos


------------------------------

Últimas filas:


Unnamed: 0,id_venta,producto,precio,cantidad,fecha_venta,categoria
3030,1837,Horno eléctrico,$104.12,9.0,30/12/2024,Electrodomésticos
3031,2276,Laptop,$85.27,9.0,30/12/2024,Electrónica
3032,2696,Laptop,$107.81,4.0,30/12/2024,Electrónica
3033,2913,Smartphone,$99.85,7.0,30/12/2024,Electrónica
3034,2930,Consola de videojuegos,$55.47,6.0,30/12/2024,Electrónica


------------------------------

Describe (numérico):


Unnamed: 0,id_venta,cantidad
count,3035.0,3033.0
mean,1499.8514,6.496538
std,866.465379,3.45725
min,1.0,1.0
25%,748.5,3.0
50%,1502.0,7.0
75%,2249.5,9.0
max,3000.0,12.0


------------------------------------------------------------------------------------------------------------------------


In [5]:
# Realizo el análisis del Dataframe de Clientes
analisis_exploratorio_datos(df_clientes, "Reporte de CLIENTES")

=== Reporte de CLIENTES ===
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 567 entries, 0 to 566
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   id_cliente  567 non-null    int64  
 1   nombre      567 non-null    object 
 2   edad        567 non-null    int64  
 3   ciudad      567 non-null    object 
 4   ingresos    567 non-null    float64
dtypes: float64(1), int64(2), object(2)
memory usage: 22.3+ KB

resumen_info:  None
------------------------------

shape: (567, 5)
------------------------------

columnas: ['id_cliente', 'nombre', 'edad', 'ciudad', 'ingresos']
------------------------------

dtypes:
id_cliente      int64
nombre         object
edad            int64
ciudad         object
ingresos      float64
dtype: object
------------------------------

Nulos por columna:
id_cliente    0
nombre        0
edad          0
ciudad        0
ingresos      0
dtype: int64
------------------------------

Primeras fil

Unnamed: 0,id_cliente,nombre,edad,ciudad,ingresos
0,1,Aloysia Screase,44,Mar del Plata,42294.68
1,2,Kristina Scaplehorn,25,Posadas,24735.04
2,3,Filip Castagne,50,Resistencia,35744.85
3,4,Liuka Luard,39,Bahía Blanca,27647.96
4,5,Dore Cockshtt,28,Rosario,28245.65


------------------------------

Últimas filas:


Unnamed: 0,id_cliente,nombre,edad,ciudad,ingresos
562,563,Dione Forsyde,29,Posadas,26757.73
563,564,Fleming Gow,39,Santa Fe,43674.96
564,565,Jewelle Mabbett,33,Córdoba,30522.64
565,566,Lauri Munns,23,Resistencia,31259.14
566,567,Micah Matis,31,Corrientes,42927.86


------------------------------

Describe (numérico):


Unnamed: 0,id_cliente,edad,ingresos
count,567.0,567.0,567.0
mean,284.0,37.940035,34668.739012
std,163.823075,10.202885,12974.531446
min,1.0,20.0,170.29
25%,142.5,30.0,26015.24
50%,284.0,37.0,35066.83
75%,425.5,43.0,42457.1
max,567.0,81.0,88053.01


------------------------------------------------------------------------------------------------------------------------


In [6]:
# Realizo el análisis del Dataframe de Marketing
analisis_exploratorio_datos(df_marketing, "Reporte de MARKETING")

=== Reporte de MARKETING ===
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 90 entries, 0 to 89
Data columns (total 6 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   id_campanha   90 non-null     int64  
 1   producto      90 non-null     object 
 2   canal         90 non-null     object 
 3   costo         90 non-null     float64
 4   fecha_inicio  90 non-null     object 
 5   fecha_fin     90 non-null     object 
dtypes: float64(1), int64(1), object(4)
memory usage: 4.3+ KB

resumen_info:  None
------------------------------

shape: (90, 6)
------------------------------

columnas: ['id_campanha', 'producto', 'canal', 'costo', 'fecha_inicio', 'fecha_fin']
------------------------------

dtypes:
id_campanha       int64
producto         object
canal            object
costo           float64
fecha_inicio     object
fecha_fin        object
dtype: object
------------------------------

Nulos por columna:
id_campanha     0
producto   

Unnamed: 0,id_campanha,producto,canal,costo,fecha_inicio,fecha_fin
0,74,Adorno de pared,TV,4.81,20/03/2024,03/05/2024
1,12,Tablet,RRSS,3.4,26/03/2024,13/05/2024
2,32,Lámpara de mesa,Email,5.54,28/03/2024,20/04/2024
3,21,Smartphone,RRSS,6.37,29/03/2024,16/05/2024
4,58,Alfombra,Email,4.25,31/03/2024,05/05/2024


------------------------------

Últimas filas:


Unnamed: 0,id_campanha,producto,canal,costo,fecha_inicio,fecha_fin
85,70,Aspiradora,TV,3.06,13/12/2024,29/12/2024
86,89,Televisor,TV,4.98,13/12/2024,8/2/2025
87,68,Rincón de plantas,TV,5.81,17/12/2024,14/2/2025
88,33,Secadora,Email,3.8,20/12/2024,7/1/2025
89,11,Freidora eléctrica,RRSS,5.27,29/12/2024,21/1/2025


------------------------------

Describe (numérico):


Unnamed: 0,id_campanha,costo
count,90.0,90.0
mean,45.5,4.928667
std,26.124701,0.94775
min,1.0,2.95
25%,23.25,4.3725
50%,45.5,4.9
75%,67.75,5.5625
max,90.0,7.39


------------------------------------------------------------------------------------------------------------------------


### 3️⃣ Calidad de los datos

In [7]:
# Para analizar la Calidad de los Dataframes df_ventas, df_clientes y df_marketing los someteremos a la Función de Control de Calidad de Datos Customizada por mí:

def calidad_dataframe(df, etiqueta_nombre, clave=None):
    """
    Analiza la calidad del DataFrame:
      - Muestra cantidad de nulos por columna.
      - Cuenta filas duplicadas completas.
      - Si se indica una columna clave, muestra los valores duplicados más frecuentes.
    Parámetros:
      df: DataFrame de pandas que se analizará, pasado por parámetro.
      etiqueta_nombre: texto descriptivo del DataFrame (ejemplo: 'Reporte de VENTAS').
      clave: (opcional) nombre de la columna para buscar duplicados específicos.
    """

    # -------------------------------------------------
    # Muestro el título descriptivo celegido para reporte de Calidad del DF que utilizará el valor de la etiqueta_nombre ingresado.
    # -------------------------------------------------
    print(f"### {etiqueta_nombre}")
    print("-"*80)

    # -------------------------------------------------
    # Muestro la cantidad de valores nulos por columna
    # -------------------------------------------------
    # df.isna() devuelve un DataFrame booleano con True donde hay NaN.
    # .sum() cuenta los True (o sea, los nulos) por columna.
    # .to_frame("nulos") convierte el resultado en un DataFrame con una columna llamada 'nulos'.
    display(df.isna().sum().to_frame("nulos"))
    print("-"*60)

    # -------------------------------------------------
    # Cuento las filas duplicadas completas
    # -------------------------------------------------
    # df.duplicated(keep=False) marca como True todas las filas que tienen otra igual.
    # keep=False significa que marca todas las copias, no solo una.
    # .sum() cuenta cuántas filas están repetidas.
    dup_rows = df.duplicated(keep=False).sum()
    print("Filas duplicadas (exactas):", dup_rows)
    print("-"*60)

    # -------------------------------------------------
    # Si la clave ingresada es el nombre de una columna válida, busca los duplicados por esa columna.
    # -------------------------------------------------

    # si la clave es distinta de None y la clave está en la lista de columnas del dataframe (columna existente)
    # si no le paso ninguna columna no va a querer encontrar duplicados por columna

    if clave and clave in df.columns:
        # Cuenta cuántas filas tienen valores repetidos en esa columna
        dup_key = df[clave].duplicated(keep=False).sum()
        print(f"Duplicados por clave '{clave}':", dup_key)

        # Si existen duplicados, muestra cuáles son los valores más repetidos
        if dup_key > 0:
            # Filtra filas donde esa clave esté duplicada
            # df[clave].duplicated(keep=False) devuelve True donde el valor se repite
            duplicados_ordenados = (
                df[df[clave].duplicated(keep=False)][clave]
                .value_counts()                # Cuenta cuántas veces aparece cada valor
                .sort_values(ascending=False)   # Ordena de mayor a menor (más duplicados arriba)
            )

            print("\n🔁 Top valores duplicados más frecuentes:")
            # Muestra solo los primeros 10 (los más repetidos)
            display(duplicados_ordenados.head(10))
        else:
            print(f"No se encontraron duplicados en la clave '{clave}'.")
    else:
        # Si la clave no fue pasada o no existe en el DataFrame
        if clave:
            print(f"La clave '{clave}' no existe en el DataFrame.")
        else:
            print("No se indicó una clave para analizar duplicados por columna.")

    print("-"*60)
#fin de la función calidad_dataframe

In [8]:
# ============================================
# ✅ CALIDAD DE DATOS DATAFRAME VENTAS
# ============================================

# Para ver los nulos y duplicados del dataframe de Ventas
calidad_dataframe(df_ventas, "Reporte de VENTAS")


# Ejemplo: Para ver los nulos y duplicados del dataframe de Ventas con la clave categoria
calidad_dataframe(df_ventas, "Reporte de VENTAS", clave="categoria")

### Reporte de VENTAS
--------------------------------------------------------------------------------


Unnamed: 0,nulos
id_venta,0
producto,0
precio,2
cantidad,2
fecha_venta,0
categoria,0


------------------------------------------------------------
Filas duplicadas (exactas): 70
------------------------------------------------------------
No se indicó una clave para analizar duplicados por columna.
------------------------------------------------------------
### Reporte de VENTAS
--------------------------------------------------------------------------------


Unnamed: 0,nulos
id_venta,0
producto,0
precio,2
cantidad,2
fecha_venta,0
categoria,0


------------------------------------------------------------
Filas duplicadas (exactas): 70
------------------------------------------------------------
Duplicados por clave 'categoria': 3035

🔁 Top valores duplicados más frecuentes:


Unnamed: 0_level_0,count
categoria,Unnamed: 1_level_1
Decoración,1015
Electrónica,1012
Electrodomésticos,1008


------------------------------------------------------------


In [9]:
# ============================================
# ✅ CALIDAD DE DATOS DATAFRAME CLIENTES
# ============================================

# Para ver los nulos y duplicados del dataframe de Clientes
calidad_dataframe(df_clientes, "Reporte de CLIENTES")


# Ejemplo: Para ver los nulos y duplicados del dataframe de Clientes con la clave ciudad
calidad_dataframe(df_clientes, "Reporte de CLIENTES", clave="ciudad")

### Reporte de CLIENTES
--------------------------------------------------------------------------------


Unnamed: 0,nulos
id_cliente,0
nombre,0
edad,0
ciudad,0
ingresos,0


------------------------------------------------------------
Filas duplicadas (exactas): 0
------------------------------------------------------------
No se indicó una clave para analizar duplicados por columna.
------------------------------------------------------------
### Reporte de CLIENTES
--------------------------------------------------------------------------------


Unnamed: 0,nulos
id_cliente,0
nombre,0
edad,0
ciudad,0
ingresos,0


------------------------------------------------------------
Filas duplicadas (exactas): 0
------------------------------------------------------------
Duplicados por clave 'ciudad': 567

🔁 Top valores duplicados más frecuentes:


Unnamed: 0_level_0,count
ciudad,Unnamed: 1_level_1
Mar del Plata,63
Rosario,55
Posadas,52
Resistencia,50
Córdoba,49
Corrientes,47
Santa Fe,46
Bahía Blanca,44
Salta,43
Merlo,43


------------------------------------------------------------


In [10]:
# ============================================
# ✅ CALIDAD DE DATOS DATAFRAME MARKETING
# ============================================

# Para ver los nulos y duplicados del dataframe de Marketing
calidad_dataframe(df_marketing, "Reporte de MARKETING")


# Ejemplo: Para ver los nulos y duplicados del dataframe de Marketing con la clave canal
calidad_dataframe(df_marketing, "Reporte de MARKETING", clave="canal")

### Reporte de MARKETING
--------------------------------------------------------------------------------


Unnamed: 0,nulos
id_campanha,0
producto,0
canal,0
costo,0
fecha_inicio,0
fecha_fin,0


------------------------------------------------------------
Filas duplicadas (exactas): 0
------------------------------------------------------------
No se indicó una clave para analizar duplicados por columna.
------------------------------------------------------------
### Reporte de MARKETING
--------------------------------------------------------------------------------


Unnamed: 0,nulos
id_campanha,0
producto,0
canal,0
costo,0
fecha_inicio,0
fecha_fin,0


------------------------------------------------------------
Filas duplicadas (exactas): 0
------------------------------------------------------------
Duplicados por clave 'canal': 90

🔁 Top valores duplicados más frecuentes:


Unnamed: 0_level_0,count
canal,Unnamed: 1_level_1
TV,30
RRSS,30
Email,30


------------------------------------------------------------


## 🧹 Etapa 2: Preprocesamiento y Limpieza de Datos
**Objetivo:** Demostrar conocimiento de las técnicas de limpieza y transformación de datos.

### 4️⃣ Limpieza de datos

El proceso de Limpieza de los datasets que aplicaré consiste en:

* Eliminar duplicados.
* Normalizar texto en columnas object (trim + capitalización simple).
* Convertir fechas a fechas reales
* Normalizar valores numéricos: Convertir "precio" y "cantidad" a numéricos (si existen).
* Guardar CSV limpios.

In [11]:
# ============================================
# 🧹 LIMPIEZA DE DUPLICADOS DE LOS DataFrames: ventas, clientes, marketing
# ============================================
# -------------------------------------------------
# 1️⃣ Creo copias de los df para no modificar los originales
# -------------------------------------------------
df_ventas_clean = df_ventas.copy()
df_clientes_clean = df_clientes.copy()
df_marketing_clean = df_marketing.copy()

# -------------------------------------------------
# 2️⃣ Eliminar filas completamente duplicadas
# -------------------------------------------------
df_ventas_clean = df_ventas_clean.drop_duplicates()
df_clientes_clean = df_clientes_clean.drop_duplicates()
df_marketing_clean = df_marketing_clean.drop_duplicates()

In [12]:
# Para ver los nulos y que no quedan duplicados en los dataframes limpios:
calidad_dataframe(df_ventas_clean, "Reporte de VENTAS LIMPIO")
print("-"*120)
calidad_dataframe(df_clientes_clean, "Reporte de CLIENTES LIMPIO")
print("-"*120)
calidad_dataframe(df_marketing_clean, "Reporte de MARKETING LIMPIO")
print("-"*120)

### Reporte de VENTAS LIMPIO
--------------------------------------------------------------------------------


Unnamed: 0,nulos
id_venta,0
producto,0
precio,2
cantidad,2
fecha_venta,0
categoria,0


------------------------------------------------------------
Filas duplicadas (exactas): 0
------------------------------------------------------------
No se indicó una clave para analizar duplicados por columna.
------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------
### Reporte de CLIENTES LIMPIO
--------------------------------------------------------------------------------


Unnamed: 0,nulos
id_cliente,0
nombre,0
edad,0
ciudad,0
ingresos,0


------------------------------------------------------------
Filas duplicadas (exactas): 0
------------------------------------------------------------
No se indicó una clave para analizar duplicados por columna.
------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------
### Reporte de MARKETING LIMPIO
--------------------------------------------------------------------------------


Unnamed: 0,nulos
id_campanha,0
producto,0
canal,0
costo,0
fecha_inicio,0
fecha_fin,0


------------------------------------------------------------
Filas duplicadas (exactas): 0
------------------------------------------------------------
No se indicó una clave para analizar duplicados por columna.
------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------


In [13]:
#  Para Normalizar texto en columnas object (trim + capitalización simple) existe la:

# -------------------------------------------------
# 3️⃣ Función para limpiar texto en columnas tipo string
# -------------------------------------------------
def normalizar_texto(df):
    for col in df.select_dtypes(include="object").columns:
        # Se agrupan las operaciones entre paréntesis () para escribirlas en varias líneas
        # Python evalúa todo el bloque como una única expresión.
        df[col] = (
            df[col]
            .astype(str)                              # Convierte cualquier tipo a string
            # .astype(str)  → convierte todo a texto; no tiene parámetros adicionales.
            .str.strip()                               # Elimina espacios al inicio y final
            # .str.strip() no necesita argumentos; borra espacios en blanco por defecto.
            .str.replace(r"[\u200b\t\r\n]", "", regex=True)
            # .str.replace(patron, reemplazo, regex=True)
            #   patron: expresión regular que busca caracteres invisibles (\u200b, tabulaciones, saltos)
            #   reemplazo: ""  → los elimina
            #   regex=True indica que 'patron' es una expresión regular.
            .str.replace(" +", " ", regex=True)
            # reemplaza "uno o más espacios consecutivos" por un solo espacio
            .str.title()                               # Convierte a Título: "juan pérez" → "Juan Pérez"
        )
        #df_transformado=df[col].astype(str)
        #df_transformado=df_transformado.str.strip()
        #df_transformado=df_transformado.str.replace(r"[\u200b\t\r\n]", "", regex=True)
        #df_transformado=df_transformado.str.replace(" +", " ", regex=True)
        #df_transformado=df_transformado.str.title()
        #df[col]=df_transformado

        #df[col] = df[col].astype(str).str.strip().str.replace(r"[\u200b\t\r\n]", "", regex=True).str.replace(" +", " ", regex=True).str.title()
    return df

In [14]:
# -------------------------------------------------
# Normalización de las Fechas - algoritmo general
# -------------------------------------------------
# Si alguna columna contiene fechas (por ejemplo "fecha" o "fechanotificacion"), se intenta convertir a formato datetime de pandas.
# to_datetime intenta interpretar el formato y transforma valores inválidos en NaT (Not a Time).

for df in [df_ventas_clean, df_clientes_clean, df_marketing_clean]: #aqui se debe poner la lista de datasets
    for col in df.columns:
        if "fecha" in col.lower():  # detecta columnas con la palabra "fecha"
            df[col] = pd.to_datetime(df[col], errors="coerce", dayfirst=True)
                                    # Parámetros:
                                    #   errors="coerce" → convierte valores no válidos en NaT (evita error)
                                    #   dayfirst=True   → interpreta formatos tipo "DD/MM/YYYY" (formato latino)


In [15]:
## De manera más específica sin iterar por todas las columnas se puede hacer la normalización apuntando directamente a las columnas de fecha directamente y normalizando de la siguiente forma:

#NORMALIZO FECHAS DE DF DE VENTAS(ESTO TAMBIEN ESTA PERFECTO!!, es lo mismo de arriba, pero sabiendo los nombres de las fechas)
df_ventas_clean["fecha_venta"] = pd.to_datetime(df_ventas_clean["fecha_venta"], errors="coerce", dayfirst=True)

#NORMALIZO FECHAS DE DF DE MARKETING
df_marketing_clean["fecha_inicio"] = pd.to_datetime(df_marketing_clean["fecha_inicio"], errors="coerce", dayfirst=True)
df_marketing_clean["fecha_fin"] = pd.to_datetime(df_marketing_clean["fecha_fin"], errors="coerce", dayfirst=True)

In [16]:
# Con las siguientes líneas validaré que la normalización de las columnas de fecha hecha con el bloque anterior de código, funcionó correctamente.  Limito con .head() la salida y se ve en formato YYYY-MM-DD la fecha.

print(df_ventas_clean["fecha_venta"].head())
print(df_marketing_clean["fecha_inicio"].head())
print(df_marketing_clean["fecha_fin"].head())

0   2024-01-02
1   2024-01-02
2   2024-01-02
3   2024-01-02
4   2024-01-02
Name: fecha_venta, dtype: datetime64[ns]
0   2024-03-20
1   2024-03-26
2   2024-03-28
3   2024-03-29
4   2024-03-31
Name: fecha_inicio, dtype: datetime64[ns]
0   2024-05-03
1   2024-05-13
2   2024-04-20
3   2024-05-16
4   2024-05-05
Name: fecha_fin, dtype: datetime64[ns]


In [17]:
# Valido los tipos de datos de las columnas de los dataframes
print("Tipos de datos de las columnas por Dataframe\n")
print("-"*60)
print(df_ventas_clean.dtypes)
print("-"*60)
print(df_clientes_clean.dtypes)
print("-"*60)
print(df_marketing_clean.dtypes)
print("-"*60)

Tipos de datos de las columnas por Dataframe

------------------------------------------------------------
id_venta                int64
producto               object
precio                 object
cantidad              float64
fecha_venta    datetime64[ns]
categoria              object
dtype: object
------------------------------------------------------------
id_cliente      int64
nombre         object
edad            int64
ciudad         object
ingresos      float64
dtype: object
------------------------------------------------------------
id_campanha              int64
producto                object
canal                   object
costo                  float64
fecha_inicio    datetime64[ns]
fecha_fin       datetime64[ns]
dtype: object
------------------------------------------------------------


In [18]:
# -------------------------------------------------
#  Aplico a los datasets limpios la normalización de texto
# -------------------------------------------------
df_ventas_clean = normalizar_texto(df_ventas_clean)
df_clientes_clean = normalizar_texto(df_clientes_clean)
df_marketing_clean = normalizar_texto(df_marketing_clean)

In [19]:
# Muestro los encabezados de los dataframes limpios y con los textos ya normalizados para validar los resultados positivos:
print("Datasets limpios y con textos normalizados:\n")
print("-"*80)
print(df_ventas_clean.head(8))
print("-"*80)
print(df_clientes_clean.head(8))
print("-"*80)
print(df_marketing_clean.head(8))
print("-"*80)

Datasets limpios y con textos normalizados:

--------------------------------------------------------------------------------
   id_venta           producto   precio  cantidad fecha_venta  \
0       792  Cuadro Decorativo   $69.94       5.0  2024-01-02   
1       811    Lámpara De Mesa  $105.10       5.0  2024-01-02   
2      1156           Secadora   $97.96       3.0  2024-01-02   
3      1372           Heladera  $114.35       8.0  2024-01-02   
4      1546           Secadora  $106.21       4.0  2024-01-02   
5      1697    Horno Eléctrico   $35.35       9.0  2024-01-02   
6      1710   Plancha De Vapor   $65.43       2.0  2024-01-02   
7      2959          Proyector   $88.17       9.0  2024-01-02   

           categoria  
0         Decoración  
1         Decoración  
2  Electrodomésticos  
3  Electrodomésticos  
4  Electrodomésticos  
5  Electrodomésticos  
6  Electrodomésticos  
7        Electrónica  
--------------------------------------------------------------------------------


In [20]:
# -------------------------------------------------
# 6️⃣ Normalizo valores numéricos que tengan mal definidos sus tipos en las columnas de los datasets.
# -------------------------------------------------
# Para los tres datasets analizados, se detecta que el df_ventas_clean es el único que tiene dos columnas con sus tipos cambiados, el "precio" y "cantidad" que deben ser nonrmalizados.

# 🏷️ Normalizo el Campo "precio":
if "precio" in df_ventas_clean.columns:
    # Se usa agrupación con () para encadenar métodos y mantener la legibilidad del código
    df_ventas_clean["precio"] = (
        df_ventas_clean["precio"]
        .astype(str)                        # Convierte todo a texto
        .str.replace("$", "", regex=False)  # Elimina el símbolo $
        #   "$" → texto literal a reemplazar
        #   ""  → nuevo valor (vacío)
        #   regex=False → interpreta "$" literalmente, no como expresión regular
        .str.replace(",", "", regex=False)  # Elimina comas de miles 1,000  1000
        .str.strip()                        # Quita espacios sobrantes
    )
    df_ventas_clean["precio"] = pd.to_numeric(df_ventas_clean["precio"], errors="coerce")
                                # pd.to_numeric convierte texto a número (float o int)
                                # Parámetros:
                                # errors="coerce" → reemplaza valores no convertibles con NaN

# 🧮 Normalizo el Campo "cantidad"
if "cantidad" in df_ventas_clean.columns:
    df_ventas_clean["cantidad"] = pd.to_numeric(
        df_ventas_clean["cantidad"], errors="coerce"
    ).astype("Int64")           # .astype("Int64") usa el tipo entero de pandas que permite valores nulos (NaN)

In [21]:
# Verifico que la normalización numérica de ambos campos haya funcionado correctamente sobre el dataset de ventas.

print("Datasets de Ventas limpio con campos 'precio' y 'cantidad'  normalizados:\n")
print("-"*80)
print("Lista de columnas del DF de Ventas: \n", df_ventas_clean.columns)
print("-"*80)
print("Lista de columnas y sus tipos del DF de Ventas: \n", df_ventas_clean.dtypes)
print("-"*80)




Datasets de Ventas limpio con campos 'precio' y 'cantidad'  normalizados:

--------------------------------------------------------------------------------
Lista de columnas del DF de Ventas: 
 Index(['id_venta', 'producto', 'precio', 'cantidad', 'fecha_venta',
       'categoria'],
      dtype='object')
--------------------------------------------------------------------------------
Lista de columnas y sus tipos del DF de Ventas: 
 id_venta                int64
producto               object
precio                float64
cantidad                Int64
fecha_venta    datetime64[ns]
categoria              object
dtype: object
--------------------------------------------------------------------------------


In [22]:
# -------------------------------------------------
# 7️⃣ Guardar los DataFrames limpios como CSV
# -------------------------------------------------

print("Información sobre los Datasets Limpios y Normalizados:\n")
print("-"*100)

print(df_ventas_clean.info())
print("-"*60)
print(df_ventas_clean.head())
print("-"*100)

print(df_clientes_clean.info())
print("-"*60)
print(df_clientes_clean.head())
print("-"*100)

print(df_marketing_clean.info())
print("-"*60)
print(df_marketing_clean.head())
print("-"*100)

print("\nRealizando guardado de los Datasets Limpios y Normalizados. \n")

df_ventas_clean.to_csv("/content/drive/MyDrive/datasets/ventas_clean.csv", index=False)
df_clientes_clean.to_csv("/content/drive/MyDrive/datasets/clientes_clean.csv", index=False)
df_marketing_clean.to_csv("/content/drive/MyDrive/datasets/marketing_clean.csv", index=False)
print("✅ Archivos guardados: ventas_clean.csv, clientes_clean.csv, marketing_clean.csv")
print("-"*100)

Información sobre los Datasets Limpios y Normalizados:

----------------------------------------------------------------------------------------------------
<class 'pandas.core.frame.DataFrame'>
Index: 3000 entries, 0 to 3034
Data columns (total 6 columns):
 #   Column       Non-Null Count  Dtype         
---  ------       --------------  -----         
 0   id_venta     3000 non-null   int64         
 1   producto     3000 non-null   object        
 2   precio       2998 non-null   float64       
 3   cantidad     2998 non-null   Int64         
 4   fecha_venta  3000 non-null   datetime64[ns]
 5   categoria    3000 non-null   object        
dtypes: Int64(1), datetime64[ns](1), float64(1), int64(1), object(2)
memory usage: 167.0+ KB
None
------------------------------------------------------------
   id_venta           producto  precio  cantidad fecha_venta  \
0       792  Cuadro Decorativo   69.94         5  2024-01-02   
1       811    Lámpara De Mesa  105.10         5  2024-01-02   

In [23]:
# ============================================
# 📊 REPORTE GLOBAL DE CALIDAD DE DATOS
# ============================================
# Esta función lee los tres DataFrames limpios (o los recibe en memoria) y muestra un resumen comparativo de nulos, duplicados y tipos de datos.
# ============================================

def reporte_calidad_global(dfs, nombres):
    """
    Crea un resumen de calidad de varios DataFrames.

    Parámetros:
      dfs: lista de DataFrames (por ejemplo [ventas_clean, clientes_clean, marketing_clean])
      nombres: lista de nombres correspondientes (["VENTAS", "CLIENTES", "MARKETING"])
    """
    resumen = []
    #zip-->es una función incorporada de Python que une elementos de dos (o más) iterables
    # —por ejemplo, listas, tuplas o cualquier objeto iterable— en pares ordenados.
    for df, nombre in zip(dfs, nombres):
        nulos = df.isna().sum().sum()                    # Total de valores nulos, no por columnas sino total, por eso el doble sum
        duplicados = df.duplicated(keep=False).sum()     # Total de filas duplicadas
        columnas = len(df.columns)                       # Cantidad de columnas
        filas = len(df)                                  # Cantidad de registros

        resumen.append({
            "Dataset": nombre,
            "Filas": filas,
            "Columnas": columnas,
            "Nulos totales": nulos,
            "Duplicados": duplicados,
        })

    reporte = pd.DataFrame(resumen)
    #display(reporte)
    return reporte

# ============================================
# ✅ Ejemplo de uso
# ============================================

In [24]:
# REPORTE GLOBAL DE CALIDAD DE DATOS DE LOS DATASETS ORIGINALES
print("-"*70)
print("\nREPORTE GLOBAL DE CALIDAD DE DATOS DE LOS DATASETS ORIGINALES\n")
print(reporte_calidad_global([df_ventas, df_clientes, df_marketing], ["VENTAS Original", "CLIENTES Original", "MARKETING Original"]))
print("-"*100)
# REPORTE GLOBAL DE CALIDAD DE DATOS DE LOS DATASETS COPIADOS QUE FUERON LIMPIADOS
print("\nREPORTE GLOBAL DE CALIDAD DE DATOS DE LOS DATASETS COPIADOS QUE FUERON LIMPIADOS\n")
print(reporte_calidad_global([df_ventas_clean, df_clientes_clean, df_marketing_clean],["VENTAS Copia Limpia", "CLIENTES Copia Limpia", "MARKETING Copia Limpia"]))
print("-"*100)

----------------------------------------------------------------------

REPORTE GLOBAL DE CALIDAD DE DATOS DE LOS DATASETS ORIGINALES

              Dataset  Filas  Columnas  Nulos totales  Duplicados
0     VENTAS Original   3035         6              4          70
1   CLIENTES Original    567         5              0           0
2  MARKETING Original     90         6              0           0
----------------------------------------------------------------------------------------------------

REPORTE GLOBAL DE CALIDAD DE DATOS DE LOS DATASETS COPIADOS QUE FUERON LIMPIADOS

                  Dataset  Filas  Columnas  Nulos totales  Duplicados
0     VENTAS Copia Limpia   3000         6              4           0
1   CLIENTES Copia Limpia    567         5              0           0
2  MARKETING Copia Limpia     90         6              0           0
----------------------------------------------------------------------------------------------------


### 5️⃣ Transformación de datos

<h3>¿Cuál es el objetivo?</h3> Construir una tabla de rendimiento por producto y quedarnos sólo con los productos de alto rendimiento (filtrar “alto rendimiento”).

<h2>Conceptos clave:</h2>

<h3>Transformación de datos:</h3> son operaciones que crean/derivan nuevas columnas (por ejemplo ingreso = precio * cantidad), normalizan formatos (texto/fechas/números) o filtran filas según un criterio.

<h3>Métrica de ingreso:</h3> para ventas, una métrica típica es ingreso por registro = precio * cantidad. Luego podemos agregar por producto (sumar ingresos y unidades) para medir rendimiento total por producto.

<h3>Agregación:</h3> es resumir muchas filas en pocas, aplicando funciones como sum(), mean(), count() agrupando por una clave (ej., producto).
Ej.: “ingreso total por producto” = suma de todos los ingresos de ese producto.

<h3>Percentil:</h3> el percentil 80 (P80) es un valor tal que el 80% de los datos están por debajo o igual a ese valor y el 20% restante por encima.

Si ingreso_total P80 = 120.000, significa que el 80% de los productos tienen ingreso_total ≤ 120.000 y el 20% ≥ 120.000.

<h3>Alto rendimiento:</h3> definimos así al top 20% de productos según ingreso_total (>= P80). Es un criterio común cuando no hay umbrales de negocio explícitos.
Alternativas válidas: top-K (p. ej. top 50 productos), percentil 75 (P75) o un umbral fijo de negocio (p. ej., “>= $100.000/mes”), o score estandarizado (z-score).

<h3>Plan paso a paso:</h3>

* Detectar la columna de producto (tolerando distintos nombres: producto, id_producto, sku, articulo…).

* Calcular ingreso por registro = precio * cantidad.

* Agregar por producto para obtener métricas (ingreso_total, unidades, precio_promedio, registros).

* Calcular P80 con quantile(q=0.80).

* Filtrar productos con ingreso_total >= P80.

* Ordenar de mayor a menor.

In [25]:
# ============================================
# TRANSFORMACIÓN: productos de alto rendimiento
# ============================================
# Objetivo:
# - Detectar los productos con mejor desempeño económico (top 20% por ingreso total).
# - Aplicar transformación: calcular ingreso, agregar por producto y filtrar.
# ============================================

def encontrar_columna(df, candidatos):
    """
    Busca la primera columna cuyo nombre contenga alguno de los patrones dados en "candidatos".
    - df: DataFrame de pandas.
    - candidatos: lista de patrones (minúsculas).
    """
    # Recorro todas las columnas del DataFrame
    for c in df.columns:
        # Convertimos el nombre de la columna a minúsculas para estandarizar las comparaciones
        nombre = c.lower()
        # Verificamos si alguna palabra (patrón) de la lista 'candidatos'
        # está contenida dentro del nombre de la columna
        # 'any()' devuelve True apenas encuentra una coincidencia
        if any(p in nombre for p in candidatos):
            # Si encontramos una coincidencia, devolvemos el nombre original de la columna
            return c
    # Si termina el bucle y no se encontró ninguna coincidencia, devolvemos None
    return None

In [26]:
# Trato de detectar la columna de producto
producto_columna = encontrar_columna(df_ventas_clean, ["producto", "id_producto", "sku", "articulo", "artículo"])
if producto_columna is None:
    raise ValueError("No se encontró columna de producto. Renombrá una columna a 'producto' o similar.")
print(producto_columna)

producto


In [27]:
# Intento Calcular ingreso por registro = precio * cantidad
# () es para escribir en varias filas
ventas_perf = (
    df_ventas_clean
    .assign(
        ingreso = df_ventas_clean["precio"] * df_ventas_clean["cantidad"]
        # assign(**nuevas_col): crea nuevas columnas y devuelve una copia del DF.
        # Alternativa: df_ventas_clean["ingreso"] = df_ventas_clean["precio"] * df_ventas_clean["cantidad"]
    )
)
#esta linea comentada es igual que la linea multiple de arriba
#ventas_perf = df_ventas_clean.assign(ingreso = df_ventas_clean["precio"] * df_ventas_clean["cantidad"])
#esta otra linea agrega a df_ventas_clean una columna nueva ingreso y le asigna precio*cantidad
#df_ventas_clean["ingreso"] = df_ventas_clean["precio"] * df_ventas_clean["cantidad"]

In [34]:
# Agrego las métricas por producto (ingresos x producto)
resumen_prod = (
    ventas_perf
    # 1) Agrupamos el DataFrame por una o varias columnas clave
    .groupby(
        by=producto_columna,    # Columna (str) o lista de columnas (list[str]) que define los grupos.
        dropna=False,   # False → NO descarta filas donde la clave de grupo tenga NaN; crea un grupo para NaN.
        as_index=False, # False → las columnas de agrupación quedan como columnas normales (no pasan al índice).
        observed=False  # Solo aplica si 'prod_col' es Categorical:
                        #   False → incluye categorías NO observadas (posibles pero sin filas);
                        #   True  → solo categorías que aparecen en los datos (más rápido y “compacto”).
    )
    # 2) Agregamos (resumimos) columnas numéricas por cada grupo
    .agg(
        ingreso_total=('ingreso', 'sum'),   # Suma de 'ingreso' por grupo (skipna=True por defecto).
        unidades=('cantidad', 'sum'),       # Suma de 'cantidad' por grupo.
        precio_promedio=('precio', 'mean'), # Promedio simple de 'precio' por grupo (ignora NaN).
        registros=('ingreso', 'size')       # Número de filas en el grupo (cuenta TODO, incluso NaN).
    )
)
#se puede escribir asi:
resumen_prod = ventas_perf.groupby(by=producto_columna).agg(ingreso_total=('ingreso', 'sum'), unidades=('cantidad', 'sum'), precio_promedio=('precio', 'mean'), registros=('ingreso', 'size'))



In [60]:
print("-"*100)
# SALIDA DE RESUMEN INGRESOS POR PRODUCTOS
print("Resumen de Ingresos por Productos:")
print("-"*70)
resumen_prod["ingreso_total"] = pd.to_numeric(resumen_prod["ingreso_total"], errors="coerce")
#resumen_prod["ingreso_total"] = round(resumen_prod["ingreso_total"],2)
resumen_prod["precio_promedio"] = round(resumen_prod["precio_promedio"],2)
# ordeno resumen_prod por el mayor ingreso_total y redondeo precio_promedio a 2 decimales
print(resumen_prod.sort_values(by=["ingreso_total", "unidades"], ascending=[False, False], na_position="last", ignore_index=True).head(10))
print("-"*100)


----------------------------------------------------------------------------------------------------
Resumen de Ingresos por Productos:
----------------------------------------------------------------------
   ingreso_total  unidades  precio_promedio  registros
0       82276.38      1112            72.72        176
1       74175.58       958            76.30        143
2       72562.89       912            79.18        135
3       59607.31       765            79.05        117
4        54297.6       726            74.58        100
5       54132.44       665            81.40        101
6       52115.45       696            73.34        100
7       51130.88       672            74.53        100
8        50979.2       672            77.54        100
9       50456.45       691            74.82        101
----------------------------------------------------------------------------------------------------


In [62]:
# --------------------------------------------------------

###########################################################
# Cómo calcular el percentil 80 de ingreso_total?
###########################################################

# La función quantile() nos permite obtener el valor de un percentil, por ejemplo P80.
# Buscar P80 implica saber qué ingreso divide al "80% de los productos con menores ingresos" del "20% con mayores ingresos".

p80_ingreso = resumen_prod["ingreso_total"].quantile(
    q=0.80,                # "q" indica el percentil deseado (0.80 = 80% de los datos por debajo).
    interpolation="linear" # Si el percentil no coincide exactamente con un valor real del dataset,
                           #  - 'linear': interpola entre los dos valores vecinos.
                           # Ejemplo: si el 80% cae entre 4000 y 5000, calcula un valor proporcional, por ejemplo 4200.
                           # Otros métodos posibles:
                           #  - 'lower': toma el menor de los dos valores (4000)
                           #  - 'higher': toma el mayor (5000)
                           #  - 'nearest': el más cercano al percentil
                           #  - 'midpoint': el punto medio exacto (4500)
)

# En resumen:
# - "quantile": calcula el valor límite de un percentil.
# - "q": define qué percentil queremos.
# - "interpolation": define cómo se calcula cuando el valor no está exactamente en los datos.
# - El resultado (p80_ingreso): es el ingreso total que marca el límite superior del 80% de los productos.

# -------------------------------------------------------------------

##################################################################
# Cómo Filtrar los productos "de alto rendimiento" y ordenarlos?
##################################################################

# Contexto: `resumen_prod` es un DataFrame con métricas por producto, y `p80_ingreso` es el percentil 80 de la columna "ingreso_total".
# Objetivo: quedarnos con los productos cuyo ingreso_total está en el 20% superior
#           (ingreso_total >= p80_ingreso) y luego ordenarlos de mayor a menor por ingreso y unidades.
# En una sola fila, el código se escribe de la siguiente forma:
# ventas_top = resumen_prod.query("ingreso_total >= @p80_ingreso",engine="python").sort_values(by=["ingreso_total", "unidades"], ascending=[False, False], na_position="last", ignore_index=True
# Para facilitar su lectura se escribe en varios renglones encerrados por los ()

ventas_top = (
    resumen_prod
    # ---------------------------------------------------------------
    # .query(expr, *, inplace=False, engine='python'|'numexpr')
    #   - Aplica un filtro usando una expresión estilo SQL-simple.
    #   - `expr` es un string que se evalúa sobre los nombres de las columnas.
    #   - Para usar variables de Python (no columnas), se antepone '@' (ej.: @p80_ingreso).
    #   - NaN en comparaciones (>, >=, ==, etc.) se comportan como False → esas filas no pasan el filtro.
    #   - engine='python': interpreta la expresión con Python puro (compatible siempre).
    #   - engine='numexpr': si está instalado, acelera operaciones numéricas vectorizadas.
    #   - inplace: False (por defecto) devuelve un DF nuevo; True modifica el DF original (menos recomendado en cadenas).
    .query(
        "ingreso_total >= @p80_ingreso",  # expr: filtra filas donde ingreso_total es al menos el umbral del P80
        engine="python"                   # motor de evaluación (usar 'numexpr' si lo tenés y querés performance)
        # Notas de sintaxis de `expr`:
        #   • Operadores lógicos: and / or / not   (también valen &, |, ~ con paréntesis).
        #   • Strings deben ir entre comillas: canal == 'Online'
        #   • Columnas con espacios o caracteres raros: usar `backticks`, ej.: `nombre producto` == 'X'
        #   • Ejemplos:
        #       "ingreso_total >= @p80_ingreso and unidades >= 10"
        #       "`nombre producto`.str.contains('Promo')"
        #       "precio_promedio.between(1000, 3000, inclusive='both')"
    )
    # ---------------------------------------------------------------
    # .sort_values(by, axis=0, ascending=True|[...], inplace=False, kind='quicksort'|'mergesort'|'heapsort'|'stable', na_position='last'|'first', ignore_index=False, key=None)
    #   - Ordena por una o varias columnas.
    #   - `by`: str o lista de str con las columnas a ordenar.
    #   - `ascending`: bool o lista de bool (una por cada columna en `by`).
    #   - `na_position`: dónde ubicar NaN ('last' o 'first').
    #   - `ignore_index`: si True, reasigna el índice 0..n-1 en el resultado.
    #   - `kind`: algoritmo de ordenamiento (mergesort es estable si necesitás preservar empates).
    #   - `key`: función que transforma los valores antes de ordenar (p. ej., key=lambda s: s.str.normalize(...)).
    .sort_values(
        by=["ingreso_total", "unidades"],  # primero ordena por ingreso_total, luego desempata por unidades
        ascending=[False, False],          # ambos en orden descendente (mayor → menor)
        na_position="last",                # coloca NaN al final (útil si alguna métrica quedó en NaN)
        ignore_index=True                  # reindexa el resultado secuencialmente (0..n-1)
        # Variantes útiles:
        #   • ascending=True                 # orden ascendente
        #   • ascending=[False, True]        # primero desc, luego asc para el segundo criterio
        #   • kind='mergesort'               # orden estable (respeta el orden de aparición en empates)
        #   • key=lambda s: s.str.lower()    # ordenar texto sin distinción de mayúsculas/minúsculas
    )
)

# Resultado:
# `ventas_top` contiene solo los productos cuyo ingreso_total >= p80_ingreso,
# ordenados de mayor a menor por ingreso_total y, ante empates, por unidades.

##################################################################
# Mostrar resultados
##################################################################
print(f"Columna de producto detectada: {producto_columna}")
print(f"Umbral (percentil 80) de ingreso_total: {float(p80_ingreso):,.2f}")
print("✅ Productos de ALTO RENDIMIENTO (top 20% por ingreso):")
display(ventas_top.head(20))

Columna de producto detectada: producto
Umbral (percentil 80) de ingreso_total: 52,518.85
✅ Productos de ALTO RENDIMIENTO (top 20% por ingreso):


Unnamed: 0,ingreso_total,unidades,precio_promedio,registros
0,82276.38,1112,72.72,176
1,74175.58,958,76.3,143
2,72562.89,912,79.18,135
3,59607.31,765,79.05,117
4,54297.6,726,74.58,100
5,54132.44,665,81.4,101


### 6️⃣ Agregación

<h3>Objetivo:</h3>
Poder construir un resumen por categoría de producto, analizando los ingresos con métricas útiles (ingreso total, unidades, cantidad de ventas, ticket promedio).

<h3>Conceptos clave:</h3>

**Agregación:** operación que resume muchas filas en menos filas, aplicando funciones (sum, mean, count, etc.) después de agrupar por una clave (la categoría).

**Categoría de producto:** atributo que agrupa productos similares (ej., “Electrónica”, “Hogar”). Puede llamarse categoria, rubro, etc.

**Ticket promedio por venta:** ingreso_total / ventas (dónde ventas es el conteo de filas en esa categoría). Indica el importe medio facturado por cada transacción/registro en la categoría.

**Nota:** esto no es el “precio promedio” del producto; ese ya se calcula con mean sobre precio.

**Consideraciones:** Los valores atípicos pueden distorsionar los promedios, por eso también conviene mirar la mediana (median) en esos casos.

<h3>Plan paso a paso:</h3>

* Detectar la columna de categoría.

* Asegurar columna ingreso (si no existe, crearla).

* groupby(categoría).agg(...) para obtener métricas.

* Ordenar por ingreso_total.

* Calcular ticket_promedio_por_venta.

In [63]:
# ==================================================================================================
# Algoritmo de AGREGACIÓN para Generar Resumen Por Categoría de Producto
# ==================================================================================================
# Requisitos previos:
# - 'df_ventas_clean' tiene columnas 'precio', 'cantidad' y alguna columna "categoría".
# ==================================================================================================

# -- Funcion Helper para detectar la columna de categoría --
def encontrar_columna(df, candidatos):
    """
    df: DataFrame de pandas que queremos inspeccionar.
    candidatos: iterable de strings con patrones posibles para el nombre de la columna (por ejemplo: ["categoria", "cat", "segmento"]).
    Devuelve:
      - El nombre de la PRIMERA columna cuyo nombre contenga alguno de los patrones (búsqueda por subcadena, sin distinguir mayúsculas/minúsculas).
      - None si no encuentra coincidencias.
    """
    # Recorremos todos los nombres de columnas del DataFrame (df.columns es un Index con esos nombres).
    for c in df.columns:

        # any(...) devuelve True si AL MENOS UNO de los elementos del generador interno es True.
        # Generador: (p in c.lower() for p in candidatos)
        #   - c.lower(): pasamos el nombre de la columna a minúsculas para comparar sin importar mayúsculas/minúsculas.
        #   - p in c.lower(): chequea si el patrón 'p' aparece como SUBCADENA dentro del nombre de la columna.
        #   - Se evalúa para cada 'p' en 'candidatos'.
        if any(p in c.lower() for p in candidatos):
           # Si encontramos una coincidencia, devolvemos inmediatamente el nombre ORIGINAL de la columna.
            return c
    # Si terminamos el bucle sin encontrar coincidencias, devolvemos None para indicar "no encontrada".
    return None

# Nota adicionales:
# - Esto hace coincidencia por SUBCADENA (ej.: "prod" matchea "producto_sku").
# - Si querés coincidencia EXACTA, usá igualdad (c.lower() == p) o expresiones regulares.
# - Si tus datos pueden tener acentos/espacios raros, podés normalizar:
#     import unicodedata, re
#     def norm(s): return re.sub(r'\s+', ' ', ''.join(ch for ch in unicodedata.normalize('NFKD', s)
#                                    if not unicodedata.combining(ch))).strip().lower()
##########################################################################################################################
#### COMIENZO A GENERAR EL REPORTE DE RESUMEN POR CATEGORÍA DE PRODUCTO
##########################################################################################################################
# 1) Tengo que detectar la columna de categoría (acepta variantes)
cat_col = encontrar_columna(df_ventas_clean, ["categoria", "categoría", "categoria_producto", "rubro"])
if cat_col is None:
    raise ValueError("No se encontró columna de categoría (por ej. 'categoria' o 'rubro').")

# 2) Me aseguro que exista la columna 'ingreso' (si no existe, debo crearla)
if "ingreso" not in df_ventas_clean.columns:
    ventas_cat = df_ventas_clean.assign(ingreso = df_ventas_clean["precio"] * df_ventas_clean["cantidad"])
else:
    ventas_cat = df_ventas_clean.copy()

# 3) Realizo la agregación por categoría con groupby + agg (funciones de agregación varias)
resumen_cat = (
    ventas_cat
    .groupby(
        by=cat_col,      # Puede ser string o lista de strings si quisiéramos agrupar por varias columnas.
        dropna=False,    # Mantener grupo NaN (si hay filas sin categoría).
        as_index=False   # Dejar la categoría como columna normal (y no como índice).
        # observed: si cat_col es 'category' y queremos mostrar solo categorías presentes → True.
    )
    .agg(
        ingreso_total=('ingreso', 'sum'),   # Suma total de ingresos por categoría.
        unidades=('cantidad', 'sum'),       # Unidades totales vendidas en la categoría.
        ventas=('ingreso', 'size'),         # Cantidad de registros/filas (ventas) en la categoría.
        precio_promedio=('precio', 'mean')  # Precio promedio observado en la categoría.
        # Otras funciones útiles: 'median','max','min','std','var','nunique'...
    )
    .sort_values(
        by='ingreso_total', # Ordenar por ingreso total
        ascending=False,    # Descendente: mayores arriba
        na_position='last', # NaN al final
        ignore_index=True   # Reindexar desde 0
    )
)

# 4) Asigno la columna nueva "Ticket promedio por venta" que se calcula así:
#    Ticket promedio por venta = ingreso_total / ventas
resumen_cat = resumen_cat.assign(
    ticket_promedio_por_venta = resumen_cat['ingreso_total'] / resumen_cat['ventas']
    # assign: crea/reescribe columnas. Alternativa: resumen_cat['ticket_promedio_por_venta'] = ...
)
##########################################################################################################################
#### PRESENTO POR PANTALLA EL REPORTE DE RESUMEN POR CATEGORÍA DE PRODUCTO
##########################################################################################################################
print("#"*100)
print("REPORTE DE RESUMEN POR CATEGORÍA DE PRODUCTO")
print("#"*100)
print("Columna de categoría detectada:", cat_col)
print("-"*100)
print("Resumen por categoría (ordenado por ingreso_total):")
print("-"*100)
display(resumen_cat.head(20))
print("#"*100)

####################################################################################################
REPORTE DE RESUMEN POR CATEGORÍA DE PRODUCTO
####################################################################################################
Columna de categoría detectada: categoria
----------------------------------------------------------------------------------------------------
Resumen por categoría (ordenado por ingreso_total):
----------------------------------------------------------------------------------------------------


Unnamed: 0,categoria,ingreso_total,unidades,ventas,precio_promedio,ticket_promedio_por_venta
0,Electrodomésticos,505299.63,6592,1000,76.52096,505.29963
1,Electrónica,482577.8,6413,999,75.25492,483.060861
2,Decoración,479216.09,6490,1001,74.098,478.737353


####################################################################################################



Passing `palette` without assigning `hue` is deprecated and will be removed in v0.14.0. Assign the `y` variable to `hue` and set `legend=False` for the same effect.




Passing `palette` without assigning `hue` is deprecated and will be removed in v0.14.0. Assign the `y` variable to `hue` and set `legend=False` for the same effect.




Passing `palette` without assigning `hue` is deprecated and will be removed in v0.14.0. Assign the `y` variable to `hue` and set `legend=False` for the same effect.




Passing `palette` without assigning `hue` is deprecated and will be removed in v0.14.0. Assign the `y` variable to `hue` and set `legend=False` for the same effect.



### 7️⃣ Integración de datos, opcional, NO OBLIGATORIO

In [32]:
# TODO: Combinar los sets de datos de ventas y marketing para obtener una visión más amplia de las tendencias.
# Sugerencia: usar pd.merge() especificando la clave común entre ambos DataFrames.
# Documentar cualquier observación relevante sobre la combinación de datos.
