## 1) Entorno y **carga de datos**

In [9]:
import pandas as pd
import numpy as np

In [10]:
# Montar la unidad
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [11]:
# Verificar que los archivos csv se encuentren en la carpeta datasets
import os
os.listdir("/content/drive/MyDrive/TT-Data_Python/Pre_entrega/datasets")

['clientes.csv', 'marketing.csv', 'ventas.csv']

In [12]:
# Definimos las rutas de los datasets.
# En Google Colab, si subís archivos, podés usar la carpeta /content o montar Drive.
# Aquí dejamos rutas relativas para que sea fácil reemplazarlas si cambia la ubicación.
ruta_ventas = "/content/drive/MyDrive/TT-Data_Python/Pre_entrega/datasets/ventas.csv"
ruta_clientes = "/content/drive/MyDrive/TT-Data_Python/Pre_entrega/datasets/clientes.csv"
ruta_marketing = "/content/drive/MyDrive/TT-Data_Python/Pre_entrega/datasets/marketing.csv"

# Cargamos los CSV como DataFrames.
ventas = pd.read_csv(ruta_ventas)
clientes = pd.read_csv(ruta_clientes)
marketing = pd.read_csv(ruta_marketing)

# Validamos formas para comprobar que se cargaron correctamente.
print("ventas.shape ->", ventas.shape)
print("clientes.shape ->", clientes.shape)
print("marketing.shape ->", marketing.shape)

# Mostramos las primeras filas de cada dataset para corroborar estructura de columnas.
display(ventas.head(3))
display(clientes.head(3))
display(marketing.head(3))

ventas.shape -> (3035, 6)
clientes.shape -> (567, 5)
marketing.shape -> (90, 6)


Unnamed: 0,id_venta,producto,precio,cantidad,fecha_venta,categoria
0,792,Cuadro decorativo,$69.94,5.0,02/01/2024,Decoración
1,811,Lámpara de mesa,$105.10,5.0,02/01/2024,Decoración
2,1156,Secadora,$97.96,3.0,02/01/2024,Electrodomésticos


Unnamed: 0,id_cliente,nombre,edad,ciudad,ingresos
0,1,Aloysia Screase,44,Mar del Plata,42294.68
1,2,Kristina Scaplehorn,25,Posadas,24735.04
2,3,Filip Castagne,50,Resistencia,35744.85


Unnamed: 0,id_campanha,producto,canal,costo,fecha_inicio,fecha_fin
0,74,Adorno de pared,TV,4.81,20/03/2024,03/05/2024
1,12,Tablet,RRSS,3.4,26/03/2024,13/05/2024
2,32,Lámpara de mesa,Email,5.54,28/03/2024,20/04/2024


## 4) **Exploración inicial con pandas** (EDA)

In [13]:

def eda(df, nombre):
    print(f"=== {nombre} ===")
    print("shape:", df.shape)
    print("columnas:", list(df.columns))
    print("dtypes:")
    print(df.dtypes)
    print("\nNulos por columna:")
    print(df.isna().sum())
    print("\nPrimeras filas:")
    display(df.head(5))
    print("\nDescribe (numérico):")
    display(df.describe(include='number'))
    print("-"*100)

In [14]:
eda(ventas, "VENTAS (inicial)")

=== VENTAS (inicial) ===
shape: (3035, 6)
columnas: ['id_venta', 'producto', 'precio', 'cantidad', 'fecha_venta', 'categoria']
dtypes:
id_venta         int64
producto        object
precio          object
cantidad       float64
fecha_venta     object
categoria       object
dtype: object

Nulos por columna:
id_venta       0
producto       0
precio         2
cantidad       2
fecha_venta    0
categoria      0
dtype: int64

Primeras filas:


Unnamed: 0,id_venta,producto,precio,cantidad,fecha_venta,categoria
0,792,Cuadro decorativo,$69.94,5.0,02/01/2024,Decoración
1,811,Lámpara de mesa,$105.10,5.0,02/01/2024,Decoración
2,1156,Secadora,$97.96,3.0,02/01/2024,Electrodomésticos
3,1372,Heladera,$114.35,8.0,02/01/2024,Electrodomésticos
4,1546,Secadora,$106.21,4.0,02/01/2024,Electrodomésticos



Describe (numérico):


Unnamed: 0,id_venta,cantidad
count,3035.0,3033.0
mean,1499.8514,6.496538
std,866.465379,3.45725
min,1.0,1.0
25%,748.5,3.0
50%,1502.0,7.0
75%,2249.5,9.0
max,3000.0,12.0


----------------------------------------------------------------------------------------------------


In [15]:
eda(clientes, "CLIENTES (inicial)")

=== CLIENTES (inicial) ===
shape: (567, 5)
columnas: ['id_cliente', 'nombre', 'edad', 'ciudad', 'ingresos']
dtypes:
id_cliente      int64
nombre         object
edad            int64
ciudad         object
ingresos      float64
dtype: object

Nulos por columna:
id_cliente    0
nombre        0
edad          0
ciudad        0
ingresos      0
dtype: int64

Primeras filas:


Unnamed: 0,id_cliente,nombre,edad,ciudad,ingresos
0,1,Aloysia Screase,44,Mar del Plata,42294.68
1,2,Kristina Scaplehorn,25,Posadas,24735.04
2,3,Filip Castagne,50,Resistencia,35744.85
3,4,Liuka Luard,39,Bahía Blanca,27647.96
4,5,Dore Cockshtt,28,Rosario,28245.65



Describe (numérico):


Unnamed: 0,id_cliente,edad,ingresos
count,567.0,567.0,567.0
mean,284.0,37.940035,34668.739012
std,163.823075,10.202885,12974.531446
min,1.0,20.0,170.29
25%,142.5,30.0,26015.24
50%,284.0,37.0,35066.83
75%,425.5,43.0,42457.1
max,567.0,81.0,88053.01


----------------------------------------------------------------------------------------------------


In [16]:
eda(marketing, "MARKETING (inicial)")

=== MARKETING (inicial) ===
shape: (90, 6)
columnas: ['id_campanha', 'producto', 'canal', 'costo', 'fecha_inicio', 'fecha_fin']
dtypes:
id_campanha       int64
producto         object
canal            object
costo           float64
fecha_inicio     object
fecha_fin        object
dtype: object

Nulos por columna:
id_campanha     0
producto        0
canal           0
costo           0
fecha_inicio    0
fecha_fin       0
dtype: int64

Primeras filas:


Unnamed: 0,id_campanha,producto,canal,costo,fecha_inicio,fecha_fin
0,74,Adorno de pared,TV,4.81,20/03/2024,03/05/2024
1,12,Tablet,RRSS,3.4,26/03/2024,13/05/2024
2,32,Lámpara de mesa,Email,5.54,28/03/2024,20/04/2024
3,21,Smartphone,RRSS,6.37,29/03/2024,16/05/2024
4,58,Alfombra,Email,4.25,31/03/2024,05/05/2024



Describe (numérico):


Unnamed: 0,id_campanha,costo
count,90.0,90.0
mean,45.5,4.928667
std,26.124701,0.94775
min,1.0,2.95
25%,23.25,4.3725
50%,45.5,4.9
75%,67.75,5.5625
max,90.0,7.39


----------------------------------------------------------------------------------------------------


## 5) **Calidad de datos** (nulos y duplicados)

In [17]:

# ============================================
# 🔍 FUNCIÓN DE CONTROL DE CALIDAD DE DATOS
# ============================================
# Esta función analiza un DataFrame existente (df) y muestra:
# 1️⃣ La cantidad de valores nulos por columna.
# 2️⃣ El total de filas completamente duplicadas.
# 3️⃣ Si se especifica una columna clave, los valores más repetidos de esa clave.

def calidad(df, nombre, clave=None):
    """
    Analiza la calidad del DataFrame:
      - Muestra cantidad de nulos por columna.
      - Cuenta filas duplicadas completas.
      - Si se indica una clave, muestra los valores duplicados más frecuentes.
    Parámetros:
      df: DataFrame de pandas que se analizará.
      nombre: texto descriptivo del DataFrame (ejemplo: 'VENTAS').
      clave: (opcional) nombre de la columna para buscar duplicados específicos.
    """

    # -------------------------------------------------
    # Mostrar título descriptivo con el nombre del DF
    # -------------------------------------------------
    print(f"### {nombre}")

    # -------------------------------------------------
    # Mostrar cantidad de valores nulos por columna
    # -------------------------------------------------
    # df.isna() devuelve un DataFrame booleano con True donde hay NaN.
    # .sum() cuenta los True (o sea, los nulos) por columna.
    # .to_frame("nulos") convierte el resultado en un DataFrame con una columna llamada 'nulos'.
    display(df.isna().sum().to_frame("nulos"))

    # -------------------------------------------------
    # Contar filas duplicadas completas
    # -------------------------------------------------
    # df.duplicated(keep=False) marca como True todas las filas que tienen otra igual.
    # keep=False significa que marca todas las copias, no solo una.
    # .sum() cuenta cuántas filas están repetidas.
    dup_rows = df.duplicated(keep=False).sum()
    print("Filas duplicadas (exactas):", dup_rows)

    # -------------------------------------------------
    # Si se especificó una columna clave válida, analizar duplicados por esa columna
    # -------------------------------------------------
    # if clave analiza que clave no sea None
    # and (y)
    if clave and clave in df.columns:
    # clave in df.columns-- >que clave sea una columna existente dentro de las columnas del dataframe
    # si no le paso ninguna columna no va a querer encontrar duplicados por columna
    # y si me equivoco y le paso una columna que no existe en el dataframe, tampoco ingresara al if.
        # Contar cuántas filas tienen valores repetidos en esa columna
        dup_key = df[clave].duplicated(keep=False).sum()
        print(f"Duplicados por clave '{clave}':", dup_key)

        # Si existen duplicados, mostrar cuáles son los valores más repetidos
        if dup_key > 0:
            # Filtrar filas donde esa clave esté duplicada
            # df[clave].duplicated(keep=False) devuelve True donde el valor se repite
            duplicados_ordenados = (
                df[df[clave].duplicated(keep=False)][clave]
                .value_counts()                # Cuenta cuántas veces aparece cada valor
                .sort_values(ascending=False)   # Ordena de mayor a menor (más duplicados arriba)
            )

            print("\n🔁 Top valores duplicados más frecuentes:")
            # Mostrar solo los primeros 10 (los más repetidos)
            display(duplicados_ordenados.head(10))
        else:
            print(f"No se encontraron duplicados en la clave '{clave}'.")
    else:
        # Si la clave no fue pasada o no existe en el DataFrame
        if clave:
            print(f"La clave '{clave}' no existe en el DataFrame.")
        else:
            print("No se indicó una clave para analizar duplicados por columna.")
#fin de def calidad


In [18]:
# ============================================
# ✅ EJEMPLO DE USO (usa tu propio DataFrame existente)
# ============================================

# Ejemplo: si ya tenés un DataFrame llamado 'ventas' con una columna 'id_venta'
# ejecutá así:
# calidad(ventas, "VENTAS", clave="id_venta")

# Si solo querés ver los nulos y duplicados generales (sin clave):
# calidad(ventas, "VENTAS")


# Si tus claves se llaman distinto, ajustá estos nombres:
calidad(ventas, "VENTAS", clave="id_venta")



### VENTAS


Unnamed: 0,nulos
id_venta,0
producto,0
precio,2
cantidad,2
fecha_venta,0
categoria,0


Filas duplicadas (exactas): 70
Duplicados por clave 'id_venta': 70

🔁 Top valores duplicados más frecuentes:


Unnamed: 0_level_0,count
id_venta,Unnamed: 1_level_1
56,2
421,2
424,2
1868,2
2545,2
2778,2
145,2
300,2
439,2
906,2


In [19]:
calidad(clientes, "CLIENTES", clave="id_cliente")

### CLIENTES


Unnamed: 0,nulos
id_cliente,0
nombre,0
edad,0
ciudad,0
ingresos,0


Filas duplicadas (exactas): 0
Duplicados por clave 'id_cliente': 0
No se encontraron duplicados en la clave 'id_cliente'.


In [20]:
calidad(marketing, "MARKETING", clave="id_campanha")

### MARKETING


Unnamed: 0,nulos
id_campanha,0
producto,0
canal,0
costo,0
fecha_inicio,0
fecha_fin,0


Filas duplicadas (exactas): 0
Duplicados por clave 'id_campanha': 0
No se encontraron duplicados en la clave 'id_campanha'.



## 6) **Limpieza del dataset**
- Eliminamos duplicados.
- Normalizamos **texto** en columnas `object` (trim + capitalización simple).
- Convertimos fechas a fechas reales
- Convertimos `precio` y `cantidad` a numéricos si existen.
- Guardamos CSV limpios.


In [21]:

# ============================================
# 🧹 LIMPIEZA Y NORMALIZACIÓN DE LOS DATASETS
# ============================================
# Se limpian y normalizan los DataFrames:
#   ventas, clientes, marketing
# ============================================

# -------------------------------------------------
# 1️⃣ Crear copias independientes para no modificar los originales
# -------------------------------------------------
ventas_clean = ventas.copy()
clientes_clean = clientes.copy()
marketing_clean = marketing.copy()

# -------------------------------------------------
# 2️⃣ Eliminar filas completamente duplicadas
# -------------------------------------------------
ventas_clean = ventas_clean.drop_duplicates()
clientes_clean = clientes_clean.drop_duplicates()
marketing_clean = marketing_clean.drop_duplicates()

In [22]:
calidad(ventas_clean, "VENTAS CLEAN", clave="id_venta")

### VENTAS CLEAN


Unnamed: 0,nulos
id_venta,0
producto,0
precio,2
cantidad,2
fecha_venta,0
categoria,0


Filas duplicadas (exactas): 0
Duplicados por clave 'id_venta': 0
No se encontraron duplicados en la clave 'id_venta'.


In [23]:
# -------------------------------------------------
# 3️⃣ Función para limpiar texto en columnas tipo string
# -------------------------------------------------
def normalizar_texto(df):
    for col in df.select_dtypes(include="object").columns:
        # Se agrupan las operaciones entre paréntesis () para escribirlas en varias líneas
        # Python evalúa todo el bloque como una única expresión.
        df[col] = (
            df[col]
            .astype(str)                              # Convierte cualquier tipo a string
            # .astype(str)  → convierte todo a texto; no tiene parámetros adicionales.
            .str.strip()                               # Elimina espacios al inicio y final
            # .str.strip() no necesita argumentos; borra espacios en blanco por defecto.
            .str.replace(r"[\u200b\t\r\n]", "", regex=True)
            # .str.replace(patron, reemplazo, regex=True)
            #   patron: expresión regular que busca caracteres invisibles (\u200b, tabulaciones, saltos)
            #   reemplazo: ""  → los elimina
            #   regex=True indica que 'patron' es una expresión regular.
            .str.replace(" +", " ", regex=True)
            # reemplaza "uno o más espacios consecutivos" por un solo espacio
            .str.title()                               # Convierte a Título: "juan pérez" → "Juan Pérez"
        )
        #df_transformado=df[col].astype(str)
        #df_transformado=df_transformado.str.strip()
        #df_transformado=df_transformado.str.replace(r"[\u200b\t\r\n]", "", regex=True)
        #df_transformado=df_transformado.str.replace(" +", " ", regex=True)
        #df_transformado=df_transformado.str.title()
        #df[col]=df_transformado

        #df[col] = df[col].astype(str).str.strip().str.replace(r"[\u200b\t\r\n]", "", regex=True).str.replace(" +", " ", regex=True).str.title()
    return df


In [24]:
# -------------------------------------------------
# Normalizar fechas
# -------------------------------------------------
# Si alguna columna contiene fechas (por ejemplo "fecha" o "fechanotificacion"),
# se intenta convertir a formato datetime de pandas.
# to_datetime intenta interpretar el formato y transforma valores inválidos en NaT (Not a Time).

for df in [ventas_clean, clientes_clean, marketing_clean]:
    for col in df.columns:
        if "fecha" in col.lower():  # detecta columnas con la palabra "fecha"
            df[col] = pd.to_datetime(df[col], errors="coerce", dayfirst=True)
            # Parámetros:
            #   errors="coerce" → convierte valores no válidos en NaT (evita error)
            #   dayfirst=True   → interpreta formatos tipo "DD/MM/YYYY" (formato latino)
#n


In [25]:
#NORMALIZO FECHAS DE DF DE VENTAS(ESTO TAMBIEN ESTA PERFECTO!!, es lo mismo de arriba, pero sabiendo los nombres de las fechas)

ventas_clean["fecha_venta"] = pd.to_datetime(ventas_clean["fecha_venta"], errors="coerce", dayfirst=True)

In [26]:
#NORMALIZO FECHAS DE DF DE MARKETING

marketing_clean["fecha_inicio"] = pd.to_datetime(marketing_clean["fecha_inicio"], errors="coerce", dayfirst=True)
marketing_clean["fecha_fin"] = pd.to_datetime(marketing_clean["fecha_fin"], errors="coerce", dayfirst=True)

In [27]:
print(ventas_clean.dtypes)
print(clientes_clean.dtypes)
print(marketing_clean.dtypes)

id_venta                int64
producto               object
precio                 object
cantidad              float64
fecha_venta    datetime64[ns]
categoria              object
dtype: object
id_cliente      int64
nombre         object
edad            int64
ciudad         object
ingresos      float64
dtype: object
id_campanha              int64
producto                object
canal                   object
costo                  float64
fecha_inicio    datetime64[ns]
fecha_fin       datetime64[ns]
dtype: object


In [28]:
# -------------------------------------------------
#  Aplicar la normalización de texto
# -------------------------------------------------
ventas_clean = normalizar_texto(ventas_clean)
clientes_clean = normalizar_texto(clientes_clean)
marketing_clean = normalizar_texto(marketing_clean)

In [29]:
#mostramos los df luego de normalizar los textos para revisar que queden bien
print(ventas_clean.head(10))
print(clientes_clean.head(10))
print(marketing_clean.head(10))

   id_venta           producto   precio  cantidad fecha_venta  \
0       792  Cuadro Decorativo   $69.94       5.0  2024-01-02   
1       811    Lámpara De Mesa  $105.10       5.0  2024-01-02   
2      1156           Secadora   $97.96       3.0  2024-01-02   
3      1372           Heladera  $114.35       8.0  2024-01-02   
4      1546           Secadora  $106.21       4.0  2024-01-02   
5      1697    Horno Eléctrico   $35.35       9.0  2024-01-02   
6      1710   Plancha De Vapor   $65.43       2.0  2024-01-02   
7      2959          Proyector   $88.17       9.0  2024-01-02   
8       318  Rincón De Plantas   $79.86      11.0  2024-01-03   
9       419         Candelabro   $66.11       8.0  2024-01-03   

           categoria  
0         Decoración  
1         Decoración  
2  Electrodomésticos  
3  Electrodomésticos  
4  Electrodomésticos  
5  Electrodomésticos  
6  Electrodomésticos  
7        Electrónica  
8         Decoración  
9         Decoración  
   id_cliente               nom

In [30]:
# -------------------------------------------------
# 6️⃣ Normalizar valores numéricos
# -------------------------------------------------
# 🏷️ Campo "precio"
if "precio" in ventas_clean.columns:
    # Se usa nuevamente agrupación con () para encadenar métodos y mantener legibilidad
    ventas_clean["precio"] = (
        ventas_clean["precio"]
        .astype(str)                        # Convierte todo a texto
        .str.replace("$", "", regex=False)  # Elimina el símbolo $
        #   "$" → texto literal a reemplazar
        #   ""  → nuevo valor (vacío)
        #   regex=False → interpreta "$" literalmente, no como expresión regular
        .str.replace(",", "", regex=False)  # Elimina comas de miles 1,000  1000
        .str.strip()                        # Quita espacios sobrantes
    )
    ventas_clean["precio"] = pd.to_numeric(ventas_clean["precio"], errors="coerce")
    # pd.to_numeric convierte texto a número (float o int)
    # Parámetros:
    #   errors="coerce" → reemplaza valores no convertibles con NaN


In [31]:
print(ventas_clean.dtypes)

id_venta                int64
producto               object
precio                float64
cantidad              float64
fecha_venta    datetime64[ns]
categoria              object
dtype: object


In [32]:
print(ventas_clean.columns)

Index(['id_venta', 'producto', 'precio', 'cantidad', 'fecha_venta',
       'categoria'],
      dtype='object')


In [33]:
# 🧮 Campo "cantidad"
if "cantidad" in ventas_clean.columns:
    ventas_clean["cantidad"] = pd.to_numeric(
        ventas_clean["cantidad"], errors="coerce"
    ).astype("Int64")
    # .astype("Int64") usa el tipo entero de pandas que permite valores nulos (NaN)

In [34]:
print(ventas_clean.dtypes)

id_venta                int64
producto               object
precio                float64
cantidad                Int64
fecha_venta    datetime64[ns]
categoria              object
dtype: object


In [36]:
# -------------------------------------------------
# 7️⃣ Guardar los DataFrames limpios como CSV
# -------------------------------------------------
#print(ventas_clean.head())
#print(clientes_clean.head())
#print(marketing_clean.head())
ventas_clean.info()

# Create the directory if it doesn't exist
import os
output_dir = "/content/drive/MyDrive/TT-Data_Python/Pre_entrega/datasets_clean" # Changed the output directory name
os.makedirs(output_dir, exist_ok=True)

# Save the cleaned dataframes to CSV files in the created directory
ventas_clean.to_csv(os.path.join(output_dir, "ventas_clean.csv"), index=False)
clientes_clean.to_csv(os.path.join(output_dir, "clientes_clean.csv"), index=False)
marketing_clean.to_csv(os.path.join(output_dir, "marketing_clean.csv"), index=False)


print("✅ Archivos guardados: ventas_clean.csv, clientes_clean.csv, marketing_clean.csv")

<class 'pandas.core.frame.DataFrame'>
Index: 3000 entries, 0 to 3034
Data columns (total 6 columns):
 #   Column       Non-Null Count  Dtype         
---  ------       --------------  -----         
 0   id_venta     3000 non-null   int64         
 1   producto     3000 non-null   object        
 2   precio       2998 non-null   float64       
 3   cantidad     2998 non-null   Int64         
 4   fecha_venta  3000 non-null   datetime64[ns]
 5   categoria    3000 non-null   object        
dtypes: Int64(1), datetime64[ns](1), float64(1), int64(1), object(2)
memory usage: 167.0+ KB
✅ Archivos guardados: ventas_clean.csv, clientes_clean.csv, marketing_clean.csv


In [None]:
print(ventas_clean.select_dtypes(include="object").columns)

Index(['producto', 'categoria'], dtype='object')


### Reporte Global luego de la limpieza de datos

In [37]:
# ============================================
# 📊 REPORTE GLOBAL DE CALIDAD DE DATOS
# ============================================
# Esta función lee los tres DataFrames limpios (o los recibe en memoria)
# y muestra un resumen comparativo de nulos, duplicados y tipos de datos.
# ============================================

def reporte_calidad_global(dfs, nombres):
    """
    Crea un resumen de calidad de varios DataFrames.

    Parámetros:
      dfs: lista de DataFrames (por ejemplo [ventas_clean, clientes_clean, marketing_clean])
      nombres: lista de nombres correspondientes (["VENTAS", "CLIENTES", "MARKETING"])
    """
    resumen = []
    #zip-->es una función incorporada de Python que une elementos de dos (o más) iterables
    # —por ejemplo, listas, tuplas o cualquier objeto iterable— en pares ordenados.
    for df, nombre in zip(dfs, nombres):
        nulos = df.isna().sum().sum()                    # Total de valores nulos, no por columnas sino total, por eso el doble sum
        duplicados = df.duplicated(keep=False).sum()     # Total de filas duplicadas
        columnas = len(df.columns)                       # Cantidad de columnas
        filas = len(df)                                  # Cantidad de registros

        resumen.append({
            "Dataset": nombre,
            "Filas": filas,
            "Columnas": columnas,
            "Nulos totales": nulos,
            "Duplicados": duplicados,
        })

    reporte = pd.DataFrame(resumen)
    #display(reporte)
    return reporte

# ============================================
# ✅ Ejemplo de uso
# ============================================




In [38]:
print(reporte_calidad_global([ventas, clientes, marketing], ["VENTAS Original", "CLIENTES Original", "MARKETING Original"]))
print(reporte_calidad_global([ventas_clean, clientes_clean, marketing_clean],["VENTAS Copia   ", "CLIENTES Copia   ", "MARKETING Copia   "]))

              Dataset  Filas  Columnas  Nulos totales  Duplicados
0     VENTAS Original   3035         6              4          70
1   CLIENTES Original    567         5              0           0
2  MARKETING Original     90         6              0           0
              Dataset  Filas  Columnas  Nulos totales  Duplicados
0     VENTAS Copia      3000         6              4           0
1   CLIENTES Copia       567         5              0           0
2  MARKETING Copia        90         6              0           0


##🟦 Punto 7 — Transformación de datos (filtrar “alto rendimiento”)


### Objetivo: construir una tabla de rendimiento por producto y quedarnos sólo con los productos de alto rendimiento.

Conceptos clave:

<h3>Transformación de datos:</h3> son operaciones que crean/derivan nuevas columnas (por ejemplo ingreso = precio * cantidad), normalizan formatos (texto/fechas/números) o filtran filas según un criterio.

<h3>Métrica de ingreso:</h3> para ventas, una métrica típica es ingreso por registro = precio * cantidad. Luego podemos agregar por producto (sumar ingresos y unidades) para medir rendimiento total por producto.

<h3>Agregación:</h3> es resumir muchas filas en pocas, aplicando funciones como sum(), mean(), count() agrupando por una clave (ej., producto).
Ej.: “ingreso total por producto” = suma de todos los ingresos de ese producto.

<h3>Percentil:</h3> el percentil 80 (P80) es un valor tal que el 80% de los datos están por debajo o igual a ese valor y el 20% restante por encima.

Si ingreso_total P80 = 120.000, significa que el 80% de los productos tienen ingreso_total ≤ 120.000 y el 20% ≥ 120.000.

<h3>Alto rendimiento:</h3> aquí lo definimos como top 20% de productos según ingreso_total (>= P80). Es un criterio común cuando no hay umbrales de negocio explícitos.
Alternativas válidas: top-K (p. ej. top 50 productos), percentil 75 (P75) o un umbral fijo de negocio (p. ej., “>= $100.000/mes”), o score estandarizado (z-score).

<h3>Plan paso a paso:</h3>

Detectar la columna de producto (tolerando distintos nombres: producto, id_producto, sku, articulo…).

Calcular ingreso por registro = precio * cantidad.

Agregar por producto para obtener métricas (ingreso_total, unidades, precio_promedio, registros).

Calcular P80 con quantile(q=0.80).

Filtrar productos con ingreso_total >= P80.

Ordenar de mayor a menor.

In [39]:
# ============================================
# 7) TRANSFORMACIÓN: productos de alto rendimiento
# ============================================
# Objetivo:
# - Detectar los productos con mejor desempeño económico (top 20% por ingreso total).
# - Aplicar transformación: calcular ingreso, agregar por producto y filtrar.
# ============================================

def encontrar_columna(df, candidatos):
    """
    Busca la primera columna cuyo nombre contenga alguno de los patrones dados.
    - df: DataFrame de pandas.
    - candidatos: lista de patrones (minúsculas).
    """
    # Recorremos todas las columnas del DataFrame
    for c in df.columns:

        # Convertimos el nombre de la columna a minúsculas
        # Esto se hace para comparar sin importar si está escrito con mayúsculas o minúsculas
        nombre = c.lower()

        # Verificamos si alguna palabra (patrón) de la lista 'candidatos'
        # está contenida dentro del nombre de la columna
        # 'any()' devuelve True apenas encuentra una coincidencia
        if any(p in nombre for p in candidatos):
            # Si encontramos una coincidencia, devolvemos el nombre original de la columna
            return c

    # Si termina el bucle y no se encontró ninguna coincidencia, devolvemos None
    return None


In [40]:


# 1️⃣ Detectar la columna de producto
prod_col = encontrar_columna(ventas_clean, ["producto", "id_producto", "sku", "articulo", "artículo"])
if prod_col is None:
    raise ValueError("No se encontró columna de producto. Renombrá una columna a 'producto' o similar.")

print(prod_col)



producto


In [41]:
# 2️⃣ Calcular ingreso por registro = precio * cantidad
#() es para escribir en varias filas
ventas_perf = (
    ventas_clean
    .assign(
        ingreso = ventas_clean["precio"] * ventas_clean["cantidad"]
        # assign(**nuevas_col): crea nuevas columnas y devuelve una copia del DF.
        # Alternativa: ventas_clean["ingreso"] = ventas_clean["precio"] * ventas_clean["cantidad"]
    )
)
#esta linea comentada es igual que la linea multiple de arriba
#ventas_perf = ventas_clean.assign(ingreso = ventas_clean["precio"] * ventas_clean["cantidad"])
#esta otra linea agrega a ventas_clean una columna nueva ingreso y le asigna precio*cantidad
#ventas_clean["ingreso"] = ventas_clean["precio"] * ventas_clean["cantidad"]


In [42]:

# 3️⃣ Agregar métricas por producto
resumen_prod = (
    ventas_perf
    # 1) Agrupamos el DataFrame por una o varias columnas clave
    .groupby(
        by=prod_col,    # Columna (str) o lista de columnas (list[str]) que define los grupos.
        dropna=False,   # False → NO descarta filas donde la clave de grupo tenga NaN; crea un grupo para NaN.
        as_index=False, # False → las columnas de agrupación quedan como columnas normales (no pasan al índice).
        observed=False  # Solo aplica si 'prod_col' es Categorical:
                        #   False → incluye categorías NO observadas (posibles pero sin filas);
                        #   True  → solo categorías que aparecen en los datos (más rápido y “compacto”).
    )
    # 2) Agregamos (resumimos) columnas numéricas por cada grupo
    .agg(
        ingreso_total=('ingreso', 'sum'),   # Suma de 'ingreso' por grupo (skipna=True por defecto).
        unidades=('cantidad', 'sum'),       # Suma de 'cantidad' por grupo.
        precio_promedio=('precio', 'mean'), # Promedio simple de 'precio' por grupo (ignora NaN).
        registros=('ingreso', 'size')       # Número de filas en el grupo (cuenta TODO, incluso NaN).
    )
)
#se puede escribir asi:
resumen_prod = ventas_perf.groupby(by=prod_col).agg(ingreso_total=('ingreso', 'sum'), unidades=('cantidad', 'sum'), precio_promedio=('precio', 'mean'), registros=('ingreso', 'size'))



In [43]:
print(resumen_prod.head(10))
#ordenar resumen_prod por el mayor ingreso_total, y redondear precio_promedio a 2 decimales redondeado

                        ingreso_total  unidades  precio_promedio  registros
producto                                                                   
Adorno De Pared              48093.49       633        76.097800        100
Alfombra                     44773.06       615        74.098300        100
Aspiradora                   50085.86       651        77.447400        100
Auriculares                  74175.58       958        76.302727        143
Batidora                      50979.2       672        77.537200        100
Cafetera                     59607.31       765        79.046581        117
Candelabro                    11128.8       160        74.595417         24
Consola De Videojuegos       46174.41       623        76.346869         99
Cortinas                     44865.03       610        73.649900        100
Cuadro Decorativo             54297.6       726        74.578000        100


In [45]:


# 4️⃣ Calcular percentil 80 de ingreso_total
# --------------------------------------------------------
# La función quantile() nos permite obtener el valor de un percentil.
# En este caso, queremos saber el ingreso que separa al 80% de los productos
# con menores ingresos del 20% con mayores ingresos.

p80_ingreso = resumen_prod["ingreso_total"].quantile(
    q=0.80,                # q indica el percentil deseado (0.80 = 80% de los datos por debajo)
    interpolation="linear" # si el percentil no coincide exactamente con un valor real del dataset,
                           # 'linear' interpola entre los dos valores vecinos.
                           # Ejemplo: si el 80% cae entre 4000 y 5000,
                           # calcula un valor proporcional, por ejemplo 4200.
                           # Otros métodos posibles:
                           #  - 'lower': toma el menor de los dos valores (4000)
                           #  - 'higher': toma el mayor (5000)
                           #  - 'nearest': el más cercano al percentil
                           #  - 'midpoint': el punto medio exacto (4500)
)

# En resumen:
# - quantile calcula el valor límite de un percentil.
# - q define qué percentil queremos.
# - interpolation define cómo se calcula cuando el valor no está exactamente en los datos.
# El resultado (p80_ingreso) es el ingreso total que marca el límite superior del 80% de los productos.


# 5️⃣ Filtrar los productos "de alto rendimiento" y ordenarlos
# -------------------------------------------------------------------
# Contexto: `resumen_prod` es un DataFrame con métricas por producto,
# y `p80_ingreso` es el percentil 80 de la columna "ingreso_total".
# Objetivo: quedarnos con los productos cuyo ingreso_total está en el 20% superior
# (ingreso_total >= p80_ingreso) y luego ordenarlos de mayor a menor por ingreso y unidades.
# en una sola fila
#ventas_top = resumen_prod.query("ingreso_total >= @p80_ingreso",engine="python").sort_values(by=["ingreso_total", "unidades"], ascending=[False, False], na_position="last", ignore_index=True
ventas_top = (
    resumen_prod
    # ---------------------------------------------------------------
    # .query(expr, *, inplace=False, engine='python'|'numexpr')
    #   - Aplica un filtro usando una expresión estilo SQL-simple.
    #   - `expr` es un string que se evalúa sobre los nombres de las columnas.
    #   - Para usar variables de Python (no columnas), se antepone '@' (ej.: @p80_ingreso).
    #   - NaN en comparaciones (>, >=, ==, etc.) se comportan como False → esas filas no pasan el filtro.
    #   - engine='python': interpreta la expresión con Python puro (compatible siempre).
    #   - engine='numexpr': si está instalado, acelera operaciones numéricas vectorizadas.
    #   - inplace: False (por defecto) devuelve un DF nuevo; True modifica el DF original (menos recomendado en cadenas).
    .query(
        "ingreso_total >= @p80_ingreso",  # expr: filtra filas donde ingreso_total es al menos el umbral del P80
        engine="python"                   # motor de evaluación (usar 'numexpr' si lo tenés y querés performance)
        # Notas de sintaxis de `expr`:
        #   • Operadores lógicos: and / or / not   (también valen &, |, ~ con paréntesis).
        #   • Strings deben ir entre comillas: canal == 'Online'
        #   • Columnas con espacios o caracteres raros: usar `backticks`, ej.: `nombre producto` == 'X'
        #   • Ejemplos:
        #       "ingreso_total >= @p80_ingreso and unidades >= 10"
        #       "`nombre producto`.str.contains('Promo')"
        #       "precio_promedio.between(1000, 3000, inclusive='both')"
    )
    # ---------------------------------------------------------------
    # .sort_values(by, axis=0, ascending=True|[...], inplace=False,
    #              kind='quicksort'|'mergesort'|'heapsort'|'stable',
    #              na_position='last'|'first', ignore_index=False, key=None)
    #   - Ordena por una o varias columnas.
    #   - `by`: str o lista de str con las columnas a ordenar.
    #   - `ascending`: bool o lista de bool (una por cada columna en `by`).
    #   - `na_position`: dónde ubicar NaN ('last' o 'first').
    #   - `ignore_index`: si True, reasigna el índice 0..n-1 en el resultado.
    #   - `kind`: algoritmo de ordenamiento (mergesort es estable si necesitás preservar empates).
    #   - `key`: función que transforma los valores antes de ordenar (p. ej., key=lambda s: s.str.normalize(...)).
    .sort_values(
        by=["ingreso_total", "unidades"],  # primero ordena por ingreso_total, luego desempata por unidades
        ascending=[False, False],          # ambos en orden descendente (mayor → menor)
        na_position="last",                # coloca NaN al final (útil si alguna métrica quedó en NaN)
        ignore_index=True                  # reindexa el resultado secuencialmente (0..n-1)
        # Variantes útiles:
        #   • ascending=True                 # orden ascendente
        #   • ascending=[False, True]        # primero desc, luego asc para el segundo criterio
        #   • kind='mergesort'               # orden estable (respeta el orden de aparición en empates)
        #   • key=lambda s: s.str.lower()    # ordenar texto sin distinción de mayúsculas/minúsculas
    )
)

# Resultado:
# `ventas_top` contiene solo los productos cuyo ingreso_total >= p80_ingreso,
# ordenados de mayor a menor por ingreso_total y, ante empates, por unidades.


# 6️⃣ Mostrar resultados
print(f"Columna de producto detectada: {prod_col}")
print(f"Umbral (percentil 80) de ingreso_total: {float(p80_ingreso):,.2f}")
print("✅ Productos de ALTO RENDIMIENTO (top 20% por ingreso):")
display(ventas_top.head(20))

Columna de producto detectada: producto
Umbral (percentil 80) de ingreso_total: 52,518.85
✅ Productos de ALTO RENDIMIENTO (top 20% por ingreso):


Unnamed: 0,ingreso_total,unidades,precio_promedio,registros
0,82276.38,1112,72.720625,176
1,74175.58,958,76.302727,143
2,72562.89,912,79.176,135
3,59607.31,765,79.046581,117
4,54297.6,726,74.578,100
5,54132.44,665,81.398416,101


In [46]:
#ESTO ES SOLO UN EJEMPLO PARA ENTENDER PERCENTIL Y NO TIENE NADA QUE VER CON LA ENTREGA!!!

# Lista de ingresos ordenados
ingresos = pd.Series([100, 200, 300, 400, 500])

# Calculamos el percentil 80 (P80)
# ---------------------------------------------------------
# Interpolar significa estimar un valor intermedio entre dos puntos conocidos.
# El percentil 80 no siempre coincide con un valor exacto del dataset,
# sino que puede "caer entre" dos posiciones.
#
# Fórmula de posición usada por pandas:
#   posición = (n - 1) * q
# En este caso: (5 - 1) * 0.8 = 3.2 → está entre los índices 3 (valor 400) y 4 (valor 500)
#
# Interpolación lineal:
#   400 + 0.2 * (500 - 400) = 420

p80_linear   = ingresos.quantile(0.8, interpolation='linear')
p80_lower    = ingresos.quantile(0.8, interpolation='lower')
p80_higher   = ingresos.quantile(0.8, interpolation='higher')
p80_nearest  = ingresos.quantile(0.8, interpolation='nearest')
p80_midpoint = ingresos.quantile(0.8, interpolation='midpoint')

print("Lista de ingresos:", list(ingresos))
print("\nPercentil 80 con diferentes métodos de interpolación:\n")
print(f"Linear   → {p80_linear}   (interpola → 420)")
print(f"Lower    → {p80_lower}    (toma el menor → 400)")
print(f"Higher   → {p80_higher}   (toma el mayor → 500)")
print(f"Nearest  → {p80_nearest}  (toma el más cercano → 400)")
print(f"Midpoint → {p80_midpoint} (punto medio → 450)")

# En resumen:
# - 'linear' estima el valor intermedio (420).
# - 'lower', 'higher', 'nearest', 'midpoint' eligen según criterio fijo.
# - Interpolar = estimar un valor entre los existentes según la posición que ocupa el percentil.



Lista de ingresos: [100, 200, 300, 400, 500]

Percentil 80 con diferentes métodos de interpolación:

Linear   → 420.0   (interpola → 420)
Lower    → 400    (toma el menor → 400)
Higher   → 500   (toma el mayor → 500)
Nearest  → 400  (toma el más cercano → 400)
Midpoint → 450.0 (punto medio → 450)


## 🟦 Punto 8 — Agregación (resumen por categoría y análisis de ingresos)
### Conceptos y plan

Objetivo: construir un resumen por categoría de producto con métricas útiles (ingreso total, unidades, cantidad de ventas, ticket promedio).

Conceptos clave:

Agregación: operación que resume muchas filas en menos filas, aplicando funciones (sum, mean, count, etc.) después de agrupar por una clave (aquí, la categoría).

Categoría de producto: atributo que agrupa productos similares (ej., “Electrónica”, “Hogar”). Puede llamarse categoria, rubro, etc.

Ticket promedio por venta: ingreso_total / ventas (dónde ventas es el conteo de filas en esa categoría). Indica el importe medio facturado por cada transacción/registro en la categoría.

Nota: esto no es el “precio promedio” del producto; ese ya se calcula con mean sobre precio.

Consideraciones: outliers pueden distorsionar promedios; a veces conviene mirar también la mediana (median).

Plan paso a paso:

Detectar la columna de categoría.

Asegurar columna ingreso (si no existe, crearla).

groupby(categoría).agg(...) para obtener métricas.

Ordenar por ingreso_total.

Calcular ticket_promedio_por_venta.

In [47]:
# ============================================
# 8) AGREGACIÓN: resumen por categoría
# ============================================
# Requisitos:
# - 'ventas_clean' tiene columnas 'precio', 'cantidad' y alguna columna "categoría".
# ============================================

# -- Helper para detectar la columna de categoría --
def encontrar_columna(df, candidatos):
    """
    df: DataFrame de pandas que queremos inspeccionar.
    candidatos: iterable de strings con patrones posibles para el nombre de la columna
                (por ejemplo: ["categoria", "cat", "segmento"]).
    Devuelve:
      - El nombre de la PRIMERA columna cuyo nombre contenga alguno de los patrones (búsqueda por subcadena,
        sin distinguir mayúsculas/minúsculas).
      - None si no encuentra coincidencias.
    """

    # Recorremos todos los nombres de columnas del DataFrame (df.columns es un Index con esos nombres).
    for c in df.columns:

        # any(...) devuelve True si AL MENOS UNO de los elementos del generador interno es True.
        # Generador: (p in c.lower() for p in candidatos)
        #   - c.lower(): pasamos el nombre de la columna a minúsculas para comparar sin importar mayúsculas/minúsculas.
        #   - p in c.lower(): chequea si el patrón 'p' aparece como SUBCADENA dentro del nombre de la columna.
        #   - Se evalúa para cada 'p' en 'candidatos'.
        if any(p in c.lower() for p in candidatos):
           # Si encontramos una coincidencia, devolvemos inmediatamente el nombre ORIGINAL de la columna.
            return c
    # Si terminamos el bucle sin encontrar coincidencias, devolvemos None para indicar "no encontrada".
    return None

# Nota didáctica:
# - Esto hace coincidencia por SUBCADENA (ej.: "prod" matchea "producto_sku").
# - Si querés coincidencia EXACTA, usá igualdad (c.lower() == p) o expresiones regulares.
# - Si tus datos pueden tener acentos/espacios raros, podés normalizar:
#     import unicodedata, re
#     def norm(s): return re.sub(r'\s+', ' ', ''.join(ch for ch in unicodedata.normalize('NFKD', s)
#                                    if not unicodedata.combining(ch))).strip().lower()


# 1) Detectar columna de categoría (acepta variantes)
cat_col = encontrar_columna(ventas_clean, ["categoria", "categoría", "categoria_producto", "rubro"])
if cat_col is None:
    raise ValueError("No se encontró columna de categoría (por ej. 'categoria' o 'rubro').")

# 2) Asegurar columna 'ingreso' (si no existe, crearla)
if "ingreso" not in ventas_clean.columns:
    ventas_cat = ventas_clean.assign(ingreso = ventas_clean["precio"] * ventas_clean["cantidad"])
else:
    ventas_cat = ventas_clean.copy()

# 3) Agregación por categoría con groupby + agg
resumen_cat = (
    ventas_cat
    .groupby(
        by=cat_col,      # Puede ser string o lista de strings si quisiéramos agrupar por varias columnas.
        dropna=False,    # Mantener grupo NaN (si hay filas sin categoría).
        as_index=False   # Dejar la categoría como columna normal (y no como índice).
        # observed: si cat_col es 'category' y queremos mostrar solo categorías presentes → True.
    )
    .agg(
        ingreso_total=('ingreso', 'sum'),   # Suma total de ingresos por categoría.
        unidades=('cantidad', 'sum'),       # Unidades totales vendidas en la categoría.
        ventas=('ingreso', 'size'),         # Cantidad de registros/filas (ventas) en la categoría.
        precio_promedio=('precio', 'mean')  # Precio promedio observado en la categoría.
        # Otras funciones útiles: 'median','max','min','std','var','nunique'...
    )
    .sort_values(
        by='ingreso_total', # Ordenar por ingreso total
        ascending=False,    # Descendente: mayores arriba
        na_position='last', # NaN al final
        ignore_index=True   # Reindexar desde 0
    )
)

# 4) Ticket promedio por venta = ingreso_total / ventas
resumen_cat = resumen_cat.assign(
    ticket_promedio_por_venta = resumen_cat['ingreso_total'] / resumen_cat['ventas']
    # assign: crea/reescribe columnas. Alternativa: resumen_cat['ticket_promedio_por_venta'] = ...
)

print("Columna de categoría detectada:", cat_col)
print("Resumen por categoría (ordenado por ingreso_total):")
display(resumen_cat.head(20))


Columna de categoría detectada: categoria
Resumen por categoría (ordenado por ingreso_total):


Unnamed: 0,categoria,ingreso_total,unidades,ventas,precio_promedio,ticket_promedio_por_venta
0,Electrodomésticos,505299.63,6592,1000,76.52096,505.29963
1,Electrónica,482577.8,6413,999,75.25492,483.060861
2,Decoración,479216.09,6490,1001,74.098,478.737353


## 🟦 Punto 9 — Integración de datos (ventas + marketing)
### Conceptos y plan

Qué haremos

Integración (merge/join): unimos filas de dos tablas usando una clave de unión (misma entidad en ambos).

Si los nombres de columnas no coinciden exactamente, los detectamos automáticamente:

Normalizamos nombres (minúsculas, sin tildes/espacios/símbolos) y buscamos intersección.

Si no hay intersección, usamos búsqueda difusa (fuzzy) para proponer el mejor par.

Si existen columnas de fecha en ambos, probamos clave compuesta (id_cliente + fecha).

Si nada aplica, usamos un mapa manual KEY_MAP (ej.: {"ventas": "cliente_id", "marketing": "id_cliente"}).

Hacemos merge con how='left' para no perder ventas aunque falte marketing.

Luego, si hay columnas de campaña/canal, agregamos ingresos por cada una.

Conceptos clave

Join/merge: combinación de tablas por clave(s) comunes.

Tipos (how):

left: conserva todas las filas de la izquierda; rellena marketing con NaN si no matchea.

inner: conserva solo coincidencias.

outer: unión completa (puede llenar NaN en ambos lados).

right: conserva todo de la derecha.

Cardinalidad (validate):

1:1, 1:m, m:1, m:m (nosotros usamos m:m porque puede haber múltiples por clave).

Conflictos de nombre (suffixes): si hay columnas con mismo nombre pero distinto significado, agregamos sufijos, p. ej. ('_ven','_mkt').

¿Qué es integrar (merge/join) dos tablas?
Es combinar filas de dos DataFrames usando una clave en común (columna que identifica la misma entidad en ambos). Es como un JOIN de SQL.

Tipos de join (how en pd.merge)

left: conserva todas las filas de la tabla izquierda; si no hay match en la derecha, rellena con NaN.

inner: devuelve solo las coincidencias (intersección).

outer: devuelve todo (unión completa) y rellena con NaN donde falte.

right: conserva todas las filas de la tabla derecha.

¿Qué es la cardinalidad?
Describe cuántas filas puede haber por cada valor de clave en cada tabla:

1:1 → cada clave aparece como máximo una vez en ventas y una vez en marketing.

1:m → ventas tiene la clave única (1) y marketing puede tener varias (m) filas por esa clave.

m:1 → ventas tiene varias por clave y marketing solo una.

m:m → ambos lados pueden tener varias filas por clave.
¿Por qué importa?

Si esperabas 1:1 pero en realidad había duplicados, el merge multiplica filas (efecto “cartesiano” por clave repetida), alterando totales.

pd.merge(..., validate='1:m') permite forzar la cardinalidad esperada y lanza error si no se cumple.

Plan de la celda:

Intentar detectar automáticamente una clave común con nombres típicos (id_cliente, cliente, email, id_campaña, sku, id_producto).

Si no se encuentra, te dejo dos variables para que indiques la clave a mano (clave_ventas, clave_marketing).

Detectar cardinalidad real (inspeccionando si hay duplicados en la/s clave/s) y configurar validate como 1:1, 1:m, m:1 o m:m.

Hacer merge con how='left' (no perder ventas).

Si existen columnas de campaña o canal, resumir ingresos por cada una.

In [48]:
# ============================================
# 9) INTEGRACIÓN SIMPLE: combinar ventas y marketing
# ============================================
# Qué hace:
# - Busca una clave común sencilla para unir (por nombre típico).
# - Si no la encuentra, te deja dos variables para definirla a mano.
# - Calcula la cardinalidad real (1:1, 1:m, m:1, m:m) y la valida en el merge.
# - Hace un LEFT JOIN (conserva todas las ventas).
# - Si hay 'campaña'/'canal', resume ingresos por esas columnas.
# ============================================


# ---------------------------
# 1) Intento SIMPLE de detectar una clave común
# ---------------------------
claves_tentativas = [
    "id_cliente", "cliente", "email",
    "id_campaña", "id_campana", "id_campanha",
    "sku", "id_producto", "producto"
]

# Busca la primera clave que exista con el mismo nombre en ambos DataFrames
clave_comun = next(
    (k for k in claves_tentativas if k in ventas_clean.columns and k in marketing_clean.columns),
    None
)

# ---------------------------
# 2) Si NO hay clave exactamente igual en ambos, pedimos definir a mano
#    (esto NO corta el flujo: imprime guía y sigue si las completas)
# ---------------------------
# 👇 Cambiá estos nombres si tus columnas se llaman distinto en cada DF:
clave_ventas = None   # ej.: "id_cliente" (en ventas_clean)
clave_marketing = None  # ej.: "cliente_id" (en marketing_clean)

# Si el usuario NO definió manualmente y TAMPOCO hay clave común, emitimos guía y salimos limpio
if clave_comun is None and (clave_ventas is None or clave_marketing is None):
    print("❌ No se encontró una clave común por nombre.")
    print("👉 Opciones:")
    print("   a) Renombrá una columna para que coincida en ambos DataFrames (ej.: 'id_cliente').")
    print("   b) Definí manualmente las variables 'clave_ventas' y 'clave_marketing' más arriba.")
    print("      Ejemplo: clave_ventas='id_cliente'  |  clave_marketing='cliente_id'")
    # Evitamos romper el notebook
else:
    # ---------------------------
    # 3) Determinar las columnas de unión y calcular cardinalidad REAL
    # ---------------------------
    if clave_comun is not None:
        # Caso simple: misma columna en ambos
        left_on = [clave_comun]
        right_on = [clave_comun]
        clave_label = clave_comun
    else:
        # Caso manual: columnas diferentes
        left_on = [clave_ventas]
        right_on = [clave_marketing]
        clave_label = f"{clave_ventas} (ventas) ↔ {clave_marketing} (marketing)"

    # Función de ayuda: ¿hay duplicados en la(s) clave(s)?
    def hay_duplicados(df, cols):
        # cols puede tener 1 o más columnas (clave compuesta)
        return df.duplicated(subset=cols, keep=False).any()

    # Detectar cardinalidad:
    # - Si ventas no duplica clave y marketing sí → 1:m
    # - Si ventas sí duplica y marketing no → m:1
    # - Si ninguno duplica → 1:1
    # - Si ambos duplican → m:m
    dup_left = hay_duplicados(ventas_clean, left_on)
    dup_right = hay_duplicados(marketing_clean, right_on)

    if not dup_left and not dup_right:
        validate_card = "1:1"
    elif not dup_left and dup_right:
        validate_card = "1:m"
    elif dup_left and not dup_right:
        validate_card = "m:1"
    else:
        validate_card = "m:m"

    print("🔑 Clave de unión:", clave_label)
    print("📐 Cardinalidad detectada:", validate_card)

    # ---------------------------
    # 4) Hacer el MERGE (LEFT JOIN)
    # ---------------------------
    ventas_marketing = pd.merge(
        left=ventas_clean,      # DataFrame izquierdo: base principal (ventas)
        right=marketing_clean,  # DataFrame derecho: datos de marketing a anexar
        how="left",             # how: 'left' (todas ventas), 'inner', 'outer', 'right'
        left_on=left_on,        # columnas de unión en 'left' (lista)
        right_on=right_on,      # columnas de unión en 'right' (lista)
        # on=...               # (alternativa si la columna tiene EXACTAMENTE el mismo nombre en ambos; excluyente con left_on/right_on)
        sort=False,             # sort: True ordena por clave tras el merge; False suele ser más rápido
        suffixes=("_ven", "_mkt"),  # sufijos para columnas con el mismo nombre en ambos DF
        copy=True,              # copy: True asegura copia (seguro); False puede ahorrar memoria
        indicator=True,         # indicator: agrega columna '_merge' con 'left_only'|'right_only'|'both'
        validate=validate_card  # validate: '1:1'|'1:m'|'m:1'|'m:m' → lanza error si no se cumple
    )

    # Diagnóstico básico del resultado
    print("\n📋 Origen de filas según '_merge':")
    display(ventas_marketing['_merge'].value_counts(dropna=False).to_frame('conteo'))

    print("\n👀 Primeras filas del DataFrame unificado:")
    display(ventas_marketing.head())

    # ---------------------------
    # 5) Resumen por CAMPAÑA / CANAL (si existen esas columnas)
    # ---------------------------
    # Asegurar 'ingreso' = precio * cantidad si no existe
    vm = ventas_marketing.copy()
    if "ingreso" not in vm.columns and {"precio", "cantidad"}.issubset(vm.columns):
        vm = vm.assign(ingreso = vm["precio"] * vm["cantidad"])

    # Detectar posibles columnas de campaña/canal por nombres comunes
    def hallar_col(df, patrones):
        for c in df.columns:
            if any(p in c.lower() for p in patrones):
                return c
        return None

    camp_col  = hallar_col(vm, ["campaña", "campana", "id_campaña", "id_campana", "id_campanha", "campaign"])
    canal_col = hallar_col(vm, ["canal", "utm_source", "fuente", "source"])

    if camp_col and "ingreso" in vm.columns:
        resumen_camp = (
            vm.groupby(by=camp_col, dropna=False, as_index=False)  # groupby: agrupa por campaña
              .agg(
                  ingreso_total=('ingreso', 'sum'),  # sum: suma de ingresos por campaña
                  ventas=('ingreso', 'size')         # size: cantidad de filas (ventas) por campaña
              )
              .sort_values(by='ingreso_total', ascending=False, na_position='last', ignore_index=True)
        )
        print(f"\n💡 Ingreso total por campaña ({camp_col}):")
        display(resumen_camp.head(20))
    else:
        print("\nℹ️ No se encontró columna de campaña o no está 'ingreso' para resumir.")

    if canal_col and "ingreso" in vm.columns:
        resumen_canal = (
            vm.groupby(by=canal_col, dropna=False, as_index=False)
              .agg(
                  ingreso_total=('ingreso', 'sum'),
                  ventas=('ingreso', 'size')
              )
              .sort_values(by='ingreso_total', ascending=False, na_position='last', ignore_index=True)
        )
        print(f"\n💡 Ingreso total por canal ({canal_col}):")
        display(resumen_canal.head(20))
    else:
        print("ℹ️ No se encontró columna de canal o no está 'ingreso' para resumir.")



🔑 Clave de unión: producto
📐 Cardinalidad detectada: m:m

📋 Origen de filas según '_merge':


Unnamed: 0_level_0,conteo
_merge,Unnamed: 1_level_1
both,9000
left_only,0
right_only,0



👀 Primeras filas del DataFrame unificado:


Unnamed: 0,id_venta,producto,precio,cantidad,fecha_venta,categoria,id_campanha,canal,costo,fecha_inicio,fecha_fin,_merge
0,792,Cuadro Decorativo,69.94,5,2024-01-02,Decoración,1,Rrss,5.27,2024-04-27,2024-06-04,both
1,792,Cuadro Decorativo,69.94,5,2024-01-02,Decoración,31,Email,5.28,2024-08-15,2024-09-12,both
2,792,Cuadro Decorativo,69.94,5,2024-01-02,Decoración,61,Tv,5.3,2024-11-05,2024-12-23,both
3,811,Lámpara De Mesa,105.1,5,2024-01-02,Decoración,32,Email,5.54,2024-03-28,2024-04-20,both
4,811,Lámpara De Mesa,105.1,5,2024-01-02,Decoración,2,Rrss,5.88,2024-05-30,2024-06-29,both



💡 Ingreso total por campaña (id_campanha):


Unnamed: 0,id_campanha,ingreso_total,ventas
0,2,82276.38,176
1,32,82276.38,176
2,62,82276.38,176
3,77,74175.58,143
4,47,74175.58,143
5,17,74175.58,143
6,26,72562.89,135
7,56,72562.89,135
8,86,72562.89,135
9,19,59607.31,117



💡 Ingreso total por canal (canal):


Unnamed: 0,canal,ingreso_total,ventas
0,Email,1467093.52,3000
1,Rrss,1467093.52,3000
2,Tv,1467093.52,3000
