# **Data Analytics con Python** - **Talento Tech** - **2025**


# **Pre-entrega**

**Nombre del alumno:** Laura Vivan

## **Etapa 1: Recopilación y Preparación de Datos**
**Objetivo:** Demostrar habilidades en Python, familiaridad con el entorno de trabajo y conocimientos básicos sobre manipulación de datos.

#### **1. Carga de datos** :
* Configurar el entorno : Google Colab.
* Instalar o importar librerías necesarias.
* Cargar el dataset.Leer el archivo de datos (CSV, Excel, JSON, etc.)
* Verificar la carga.



In [1]:
import pandas as pd
import numpy as np

#### Cargar con drive.mount

In [2]:
# Montar la unidad (Opción 1)
from google.colab import drive
drive.mount('/content/drive')

MessageError: Error: credential propagation was unsuccessful

In [None]:
# Verificar que los archivos csv se encuentren en la carpeta datasets
import os
os.listdir("/content/drive/MyDrive/datasets")

In [None]:
# Definimos las rutas de los datasets.
# En Google Colab, si subís archivos, podés usar la carpeta /content o montar Drive.
# Aquí dejamos rutas relativas para que sea fácil reemplazarlas si cambia la ubicación.
ruta_ventas = "/content/drive/MyDrive/datasets/ventas.csv"
ruta_clientes = "/content/drive/MyDrive/datasets/clientes.csv"
ruta_marketing = "/content/drive/MyDrive/datasets/marketing.csv"

# Cargamos los CSV como DataFrames.
ventas = pd.read_csv(ruta_ventas)
clientes = pd.read_csv(ruta_clientes)
marketing = pd.read_csv(ruta_marketing)

#### Cargar con files.upload (Opción 2) # usar en caso de no poder conectar con drive.mount

In [4]:
!rm -rf /content/*

In [7]:
from google.colab import files
uploaded = files.upload()


Saving ventas.csv to ventas.csv
Saving marketing.csv to marketing.csv
Saving clientes.csv to clientes.csv


In [8]:
# Carga de datasets
ventas = pd.read_csv('ventas.csv')
marketing = pd.read_csv('marketing.csv')
clientes = pd.read_csv('clientes.csv')

In [5]:
import os
os.listdir()


['.config']

In [9]:
import pandas as pd
import io

# leer 'ventas.csv', 'marketing.csv' y 'clientes.csv'
ventas = pd.read_csv(io.BytesIO(uploaded['ventas.csv']))
marketing = pd.read_csv(io.BytesIO(uploaded['marketing.csv']))
clientes = pd.read_csv(io.BytesIO(uploaded['clientes.csv']))

In [10]:
# Mostrar las primeras filas del dataset para corroborar estructura de columnas.
# También se puede ver con ventas.head(3)
ventas.head()
display(ventas.head(3))
display(clientes.head(3))
display(marketing.head(3))

Unnamed: 0,id_venta,producto,precio,cantidad,fecha_venta,categoria
0,792,Cuadro decorativo,$69.94,5.0,02/01/2024,Decoración
1,811,Lámpara de mesa,$105.10,5.0,02/01/2024,Decoración
2,1156,Secadora,$97.96,3.0,02/01/2024,Electrodomésticos


Unnamed: 0,id_cliente,nombre,edad,ciudad,ingresos
0,1,Aloysia Screase,44,Mar del Plata,42294.68
1,2,Kristina Scaplehorn,25,Posadas,24735.04
2,3,Filip Castagne,50,Resistencia,35744.85


Unnamed: 0,id_campanha,producto,canal,costo,fecha_inicio,fecha_fin
0,74,Adorno de pared,TV,4.81,20/03/2024,03/05/2024
1,12,Tablet,RRSS,3.4,26/03/2024,13/05/2024
2,32,Lámpara de mesa,Email,5.54,28/03/2024,20/04/2024


In [17]:
def mostrar_estructuras(**dataframes):
    """
    Muestra la cantidad de filas y columnas de uno o varios DataFrames.

    Parámetros:
    -----------
    **dataframes : diccionario de nombre=DataFrame
        Cada DataFrame se pasa como argumento nombrado.
    """
    for nombre, df in dataframes.items():
        print(f"Estructura de {nombre}: {df.shape}")

mostrar_estructuras(clientes=clientes, marketing=marketing, ventas=ventas)

Estructura de clientes: (567, 5)
Estructura de marketing: (90, 6)
Estructura de ventas: (3035, 6)


### **2. Análisis exploratorio inicial**

In [12]:
# TODO: Realizar un análisis exploratorio inicial de los DataFrames.
# Sugerencia: usar métodos como .info(), .describe(), .shape y .columns. dtypes.
# Esto te ayudará a entender la estructura y el contenido de los datos.
# Podés incluir comentarios sobre observaciones iniciales.

In [20]:
def eda(df, titulo):
    """
    Realiza un EDA básico sobre un DataFrame de Pandas.

    Parámetros:
    -----------
    df : pd.DataFrame
        El DataFrame sobre el que se hará el análisis.
    titulo : str
        El título del EDA.

    Retorna:
    --------
    None (imprime shape, tipos de datos, primeras 5 filas, estadisticas descriptivas y valores nulos)
    """
    print("-" * 60)
    print(f"INFORMACIÓN GENERAL - {titulo}")
    print("-" * 60)

    print(f"Filas: {df.shape[0]}, Columnas: {df.shape[1]}\n")
    print("Tipos de datos:")
    print(df.dtypes)
    print("\nPrimeras 5 filas:")
    print(df.head())

    print("-" * 60)
    print("ESTADÍSTICAS DESCRIPTIVAS")
    print("-" * 60)
    display(df.describe(include='all')) # muestra también aquellos que no son numericos

    print("-" * 60)
    print("VALORES NULOS")
    print("-" * 60)
    nulls = df.isnull().sum()
    print(nulls[nulls > 0] if nulls.sum() > 0 else "No hay valores nulos")


In [21]:
eda(ventas, "Ventas")

------------------------------------------------------------
INFORMACIÓN GENERAL - Ventas
------------------------------------------------------------
Filas: 3035, Columnas: 6

Tipos de datos:
id_venta         int64
producto        object
precio          object
cantidad       float64
fecha_venta     object
categoria       object
dtype: object

Primeras 5 filas:
   id_venta           producto   precio  cantidad fecha_venta  \
0       792  Cuadro decorativo   $69.94       5.0  02/01/2024   
1       811    Lámpara de mesa  $105.10       5.0  02/01/2024   
2      1156           Secadora   $97.96       3.0  02/01/2024   
3      1372           Heladera  $114.35       8.0  02/01/2024   
4      1546           Secadora  $106.21       4.0  02/01/2024   

           categoria  
0         Decoración  
1         Decoración  
2  Electrodomésticos  
3  Electrodomésticos  
4  Electrodomésticos  
------------------------------------------------------------
ESTADÍSTICAS DESCRIPTIVAS
--------------------

Unnamed: 0,id_venta,producto,precio,cantidad,fecha_venta,categoria
count,3035.0,3035,3033,3033.0,3035,3035
unique,,30,2590,,364,3
top,,Lámpara de mesa,$76.32,,06/04/2024,Decoración
freq,,181,5,,24,1015
mean,1499.8514,,,6.496538,,
std,866.465379,,,3.45725,,
min,1.0,,,1.0,,
25%,748.5,,,3.0,,
50%,1502.0,,,7.0,,
75%,2249.5,,,9.0,,


------------------------------------------------------------
VALORES NULOS
------------------------------------------------------------
precio      2
cantidad    2
dtype: int64


### **3. Calidad de los datos**

In [None]:
# TODO: Identificar valores nulos y duplicados en los conjuntos de datos.
# Sugerencia: usar .isna().sum() y .duplicated().sum().
# Documentar las observaciones con print() o comentarios.

In [22]:
def analisis_calidad(df, nombre, clave=None):
    """
    Analiza la calidad del DataFrame:
      - Muestra cantidad de nulos por columna.
      - Cuenta filas duplicadas completas.
      - Si se indica una clave, muestra los valores duplicados más frecuentes.

    Parámetros:
      df: DataFrame de pandas que se analizará.
      nombre: texto descriptivo del DataFrame (ejemplo: 'VENTAS').
      clave: (opcional) nombre de la columna para buscar duplicados específicos.
    """

    print("=" * 60)
    print(f"ANÁLISIS DE CALIDAD → {nombre.upper()}")
    print("=" * 60)


    # Cantidad de valores nulos por columna

    print("\nValores nulos por columna:")
    nulos = df.isna().sum()
    if nulos.sum() == 0:
        print("No se detectaron valores nulos.")
    else:
        # Mostrar solo columnas con nulos
        print(nulos[nulos > 0].to_string())


    # Filas duplicadas completas

    dup_rows = df.duplicated(keep=False).sum()
    print(f"\nFilas duplicadas (exactas): {dup_rows}")


    # Análisis de duplicados por columna clave

    if clave and clave in df.columns:
        dup_key = df[clave].duplicated(keep=False).sum()
        print(f"\nDuplicados por clave '{clave}': {dup_key}")

        if dup_key > 0:
            duplicados_ordenados = (
                df[df[clave].duplicated(keep=False)][clave]
                .value_counts()
                .sort_values(ascending=False)
            )
            print("\nTop valores duplicados más frecuentes:")
            print(duplicados_ordenados.head(10).to_string())
        else:
            print(f"No se encontraron duplicados en la clave '{clave}'.")
    elif clave:
        print(f"\nLa clave '{clave}' no existe en el DataFrame.")
        print("Columnas disponibles:")
        # Mostrar todas las columnas separadas por coma
        print(", ".join(df.columns))
    else:
        print("\n(No se indicó una clave para analizar duplicados por columna.)")

    print("-" * 60)
    print(f"Revisión completada para: {nombre}")
    print("-" * 60)


In [23]:
analisis_calidad(ventas, "Ventas", clave="ID_Cliente")
analisis_calidad(clientes, "Clientes", clave="dni")
analisis_calidad(marketing, "Campañas")

ANÁLISIS DE CALIDAD → VENTAS

Valores nulos por columna:
precio      2
cantidad    2

Filas duplicadas (exactas): 70

La clave 'ID_Cliente' no existe en el DataFrame.
Columnas disponibles:
id_venta, producto, precio, cantidad, fecha_venta, categoria
------------------------------------------------------------
Revisión completada para: Ventas
------------------------------------------------------------
ANÁLISIS DE CALIDAD → CLIENTES

Valores nulos por columna:
No se detectaron valores nulos.

Filas duplicadas (exactas): 0

La clave 'dni' no existe en el DataFrame.
Columnas disponibles:
id_cliente, nombre, edad, ciudad, ingresos
------------------------------------------------------------
Revisión completada para: Clientes
------------------------------------------------------------
ANÁLISIS DE CALIDAD → CAMPAÑAS

Valores nulos por columna:
No se detectaron valores nulos.

Filas duplicadas (exactas): 0

(No se indicó una clave para analizar duplicados por columna.)
----------------------

## **Etapa 2: Preprocesamiento y Limpieza de Datos**
**Objetivo:** Demostrar conocimiento de las técnicas de limpieza y transformación de datos.

### **4. Limpieza de datos**

In [None]:
# TODO: Limpiar el conjunto de datos eliminando duplicados y caracteres no deseados.
# Sugerencia: aplicar .drop_duplicates(), .str.strip(), .str.replace() según el caso.
# Documentar el proceso y los resultados.

In [None]:
# Limpiar y normalizar los DataFrames:  ventas, clientes, marketing
# 1. Crear copias independientes para no modificar los originales
# 2. Eliminar filas duplicadas

In [24]:
def copiar_dataframe(df, nombre="DataFrame"):
    """
    Devuelve una copia de un DataFrame.
    """
    copia = df.copy(deep=True)
    print(f"Copia creada: {nombre} (filas: {len(copia)}, columnas: {len(copia.columns)})")
    return copia


In [25]:
ventas_copy = copiar_dataframe(ventas, "Ventas")
clientes_copy = copiar_dataframe(clientes, "Clientes")
marketing_copy = copiar_dataframe(marketing, "Marketing")

Copia creada: Ventas (filas: 3035, columnas: 6)
Copia creada: Clientes (filas: 567, columnas: 5)
Copia creada: Marketing (filas: 90, columnas: 6)


In [26]:
def eliminar_duplicados(df, nombre="DataFrame", subset=None):
    """
    Elimina filas duplicadas de un DataFrame sin afectar columnas de fecha.

    Parámetros:
        df : pd.DataFrame
            DataFrame sobre el que se eliminarán duplicados.
        nombre : str, opcional
            Nombre descriptivo para mostrar en el print.
        subset : list o None
            Columnas a considerar para detectar duplicados.
            Si None, se considera todo el DataFrame.

    Retorna:
        pd.DataFrame : copia del DataFrame sin filas duplicadas.
    """
    antes = len(df)

    # Eliminar duplicados según subset si se indica, manteniendo datetime intacto
    df_sin_duplicados = df.drop_duplicates(subset=subset).copy()

    # Renumerar índice sin afectar los datos
    df_sin_duplicados.reset_index(drop=True, inplace=True)

    eliminadas = antes - len(df_sin_duplicados)
    print(f"Filas duplicadas eliminadas en {nombre}: {eliminadas} (total filas ahora/antes: {len(df_sin_duplicados)}/{antes})")

    return df_sin_duplicados


In [27]:
ventas_clean = eliminar_duplicados(ventas_copy, "Ventas")
clientes_clean = eliminar_duplicados(clientes_copy, "Clientes")
marketing_clean = eliminar_duplicados(marketing_copy, "Marketing")

Filas duplicadas eliminadas en Ventas: 35 (total filas ahora/antes: 3000/3035)
Filas duplicadas eliminadas en Clientes: 0 (total filas ahora/antes: 567/567)
Filas duplicadas eliminadas en Marketing: 0 (total filas ahora/antes: 90/90)


### **5. Transformación de datos**

In [None]:
# TODO: Aplicar filtros y transformaciones para crear una tabla de ventas
# que muestre solo los productos con alto rendimiento. calcular el percentil 80
# y filtrar los productos que superen ese umbral en ventas.
#quantile(0.8)
# Sugerencia: usar .query() o condiciones con operadores lógicos.

In [28]:
def normalizar_texto(df, exclude=[]):
    """
    Normaliza columnas tipo object en un DataFrame:
        - Quita espacios, caracteres invisibles, múltiples espacios
        - Convierte texto a título
    exclude: lista de columnas que no se deben tocar
    """
    for col in df.select_dtypes(include="object").columns:
        if col in exclude:
            continue
        df[col] = (
            df[col]
            .astype(str)
            .str.strip()
            .str.replace(r"[\u200b\t\r\n]", "", regex=True)
            .str.replace(" +", " ", regex=True)
            .str.title()
        )
    return df

In [29]:
# Normalizar fechas

def normalizar_fechas(df):
    """
    Convierte columnas que contienen 'fecha' a datetime.
    """
    for col in df.columns:
        if "fecha" in col.lower():
            df[col] = pd.to_datetime(df[col], errors="coerce", dayfirst=True)
            print(f"Columna convertida a fecha: {col}")
    return df

In [30]:
def normalizar_precio(df, columnas, simbolos_quitar=None):
    """
    Convierte columnas tipo precio a float64, quitando símbolos y caracteres no numéricos.
    """
    if simbolos_quitar is None:
        simbolos_quitar = []

    for col in columnas:
        if col not in df.columns:
            continue
        temp = df[col].astype(str).str.strip()
        temp = temp.str.replace(r"[\u200b\t\r\n]", "", regex=True)
        for s in simbolos_quitar:
            temp = temp.str.replace(s, "", regex=False)
        temp = temp.str.replace(",", ".", regex=False)
        df[col] = pd.to_numeric(temp, errors="coerce")
        print(f"Columna '{col}' convertida a float64, NaN: {df[col].isna().sum()}")
    return df

In [31]:
def normalizar_entero(df, columnas):
    """
    Convierte columnas a Int64, permitiendo NaN.
    """
    for col in columnas:
        if col not in df.columns:
            continue
        temp = df[col].astype(str).str.strip()
        temp = temp.str.replace(r"[\u200b\t\r\n]", "", regex=True)
        df[col] = pd.to_numeric(temp, errors="coerce").astype("Int64")
        print(f"Columna '{col}' convertida a Int64, NaN: {df[col].isna().sum()}")
    return df

In [32]:
#Normalizar texto (excluyendo columnas numéricas y fechas)
ventas_clean = normalizar_texto(ventas_clean, exclude=["precio", "cantidad"])
clientes_clean = normalizar_texto(clientes_clean)
marketing_clean = normalizar_texto(marketing_clean)

#Normalizar fechas
ventas_clean = normalizar_fechas(ventas_clean)
marketing_clean = normalizar_fechas(marketing_clean)

#Normalizar precios
ventas_clean = normalizar_precio(ventas_clean, columnas=["precio"], simbolos_quitar=["$"])

#Normalizar cantidades
ventas_clean = normalizar_entero(ventas_clean, columnas=["cantidad"])

#Eliminar duplicados completos
ventas_clean = eliminar_duplicados(ventas_clean, nombre="Ventas")
clientes_clean = eliminar_duplicados(clientes_clean, nombre="Clientes")
marketing_clean = eliminar_duplicados(marketing_clean, nombre="Marketing")

Columna convertida a fecha: fecha_venta
Columna convertida a fecha: fecha_inicio
Columna convertida a fecha: fecha_fin
Columna 'precio' convertida a float64, NaN: 2
Columna 'cantidad' convertida a Int64, NaN: 2
Filas duplicadas eliminadas en Ventas: 0 (total filas ahora/antes: 3000/3000)
Filas duplicadas eliminadas en Clientes: 0 (total filas ahora/antes: 567/567)
Filas duplicadas eliminadas en Marketing: 0 (total filas ahora/antes: 90/90)


In [None]:
display(normalizar_fechas(ventas_clean))
display(normalizar_fechas(marketing_clean))
display(normalizar_fechas(clientes_clean))

Columna convertida a fecha: fecha_venta


Unnamed: 0,id_venta,producto,precio,cantidad,fecha_venta,categoria
0,792,Cuadro Decorativo,$69.94,5.0,2024-01-02,Decoración
1,811,Lámpara De Mesa,$105.10,5.0,2024-01-02,Decoración
2,1156,Secadora,$97.96,3.0,2024-01-02,Electrodomésticos
3,1372,Heladera,$114.35,8.0,2024-01-02,Electrodomésticos
4,1546,Secadora,$106.21,4.0,2024-01-02,Electrodomésticos
...,...,...,...,...,...,...
2995,1837,Horno Eléctrico,$104.12,9.0,2024-12-30,Electrodomésticos
2996,2276,Laptop,$85.27,9.0,2024-12-30,Electrónica
2997,2696,Laptop,$107.81,4.0,2024-12-30,Electrónica
2998,2913,Smartphone,$99.85,7.0,2024-12-30,Electrónica


Columna convertida a fecha: fecha_inicio
Columna convertida a fecha: fecha_fin


Unnamed: 0,id_campanha,producto,canal,costo,fecha_inicio,fecha_fin
0,74,Adorno De Pared,Tv,4.81,2024-03-20,2024-05-03
1,12,Tablet,Rrss,3.40,2024-03-26,2024-05-13
2,32,Lámpara De Mesa,Email,5.54,2024-03-28,2024-04-20
3,21,Smartphone,Rrss,6.37,2024-03-29,2024-05-16
4,58,Alfombra,Email,4.25,2024-03-31,2024-05-05
...,...,...,...,...,...,...
85,70,Aspiradora,Tv,3.06,2024-12-13,2024-12-29
86,89,Televisor,Tv,4.98,2024-12-13,2025-02-08
87,68,Rincón De Plantas,Tv,5.81,2024-12-17,2025-02-14
88,33,Secadora,Email,3.80,2024-12-20,2025-01-07


Unnamed: 0,id_cliente,nombre,edad,ciudad,ingresos
0,1,Aloysia Screase,44,Mar Del Plata,42294.68
1,2,Kristina Scaplehorn,25,Posadas,24735.04
2,3,Filip Castagne,50,Resistencia,35744.85
3,4,Liuka Luard,39,Bahía Blanca,27647.96
4,5,Dore Cockshtt,28,Rosario,28245.65
...,...,...,...,...,...
562,563,Dione Forsyde,29,Posadas,26757.73
563,564,Fleming Gow,39,Santa Fe,43674.96
564,565,Jewelle Mabbett,33,Córdoba,30522.64
565,566,Lauri Munns,23,Resistencia,31259.14


### **6. Agregación**

In [None]:
# TODO: Resumir las ventas por categoría de producto y analizar los ingresos generados.
# Sugerencia: usar .groupby() y .agg() para generar métricas como suma y promedio.

In [None]:
ventas_clean.columns


Index(['id_venta', 'producto', 'precio', 'cantidad', 'fecha_venta',
       'categoria'],
      dtype='object')

In [None]:
# Resumen de ventas por categoría de producto

# Crear columna de ventas totales (precio * cantidad)
ventas_clean["ventas_totales"] = ventas_clean["precio"] * ventas_clean["cantidad"]

# Agrupar por categoría y calcular métricas
resumen_categoria = (
    ventas_clean
    .groupby("categoria", as_index=False)
    .agg({
        "ventas_totales": ["sum", "mean", "count"],  # suma, promedio y cantidad de ventas
        "precio": "mean"                             # precio promedio por categoría
    })
)

# Renombrar columnas para mayor legibilidad
resumen_categoria.columns = [
    "Categoria",
    "Ventas_Totales_Suma",
    "Ventas_Totales_Promedio",
    "Cantidad_Transacciones",
    "Precio_Promedio"
]

# Ordenar de mayor a menor según las ventas totales
resumen_categoria = resumen_categoria.sort_values(
    by="Ventas_Totales_Suma", ascending=False
)

display(resumen_categoria.head(10))



Unnamed: 0,Categoria,Ventas_Totales_Suma,Ventas_Totales_Promedio,Cantidad_Transacciones,Precio_Promedio
1,Electrodomésticos,505299.63,505.29963,1000,76.52096
2,Electrónica,482577.8,483.54489,998,75.25492
0,Decoración,479216.09,479.21609,1000,74.098


In [None]:
# Identificar productos de alto rendimiento

# Calcular el umbral del percentil 80 de las ventas totales
umbral_80 = ventas_clean["ventas_totales"].quantile(0.8)

print(f"Umbral del percentil 80: {umbral_80:.2f}")

# Filtrar productos con ventas por encima de ese valor
productos_alto_rendimiento = ventas_clean.query("ventas_totales > @umbral_80")

# Mostrar una vista resumida
display(productos_alto_rendimiento.head())
print(f"Productos seleccionados: {len(productos_alto_rendimiento)} de {len(ventas_clean)} registros totales")


Umbral del percentil 80: 787.34


  productos_alto_rendimiento = ventas_clean.query("ventas_totales > @umbral_80")


Unnamed: 0,id_venta,producto,precio,cantidad,fecha_venta,categoria,ventas_totales
3,1372,Heladera,114.35,8,2024-01-02,Electrodomésticos,914.8
7,2959,Proyector,88.17,9,2024-01-02,Electrónica,793.53
8,318,Rincón De Plantas,79.86,11,2024-01-03,Decoración,878.46
19,882,Cuadro Decorativo,101.92,9,2024-01-04,Decoración,917.28
20,969,Candelabro,90.7,12,2024-01-04,Decoración,1088.4


Productos seleccionados: 600 de 3000 registros totales


In [None]:
resumen_top = (
    productos_alto_rendimiento
    .groupby("categoria", as_index=False)
    .agg({
        "ventas_totales": ["sum", "mean", "count"],
        "precio": "mean"
    })
)
resumen_top.columns = [
    "Categoria",
    "Ventas_Totales_Suma",
    "Ventas_Totales_Promedio",
    "Cantidad_Transacciones",
    "Precio_Promedio"
]
display(resumen_top)


Unnamed: 0,Categoria,Ventas_Totales_Suma,Ventas_Totales_Promedio,Cantidad_Transacciones,Precio_Promedio
0,Decoración,198934.42,999.670452,199,100.182513
1,Electrodomésticos,226402.23,1038.542339,218,102.046239
2,Electrónica,187622.18,1025.257814,183,102.784208


### **7. Integración de datos**

In [None]:
# TODO: Combinar los sets de datos de ventas y marketing para obtener una visión más amplia de las tendencias.
# Sugerencia: usar pd.merge() especificando la clave común entre ambos DataFrames.
# Documentar cualquier observación relevante sobre la combinación de datos.


In [None]:
print(ventas_clean.columns)
print(marketing_clean.columns)

Index(['id_venta', 'producto', 'precio', 'cantidad', 'fecha_venta',
       'categoria'],
      dtype='object')
Index(['id_campanha', 'producto', 'canal', 'costo', 'fecha_inicio',
       'fecha_fin'],
      dtype='object')


In [None]:
# combinar ventas y marketing

ventas_marketing = pd.merge(
    ventas_clean,
    marketing_clean,
    on='producto',           # columna común
    how='left',              # mantener todas las ventas
    suffixes=('_venta', '_marketing')
)

# Revisar primeras filas
display(ventas_marketing.head())

# Revisar nulos y posibles observaciones
print("\nValores nulos por columna después del merge:")
print(ventas_marketing.isna().sum())
# Comparar tamaño antes y después del merge
print(f"\nFilas antes del merge: {len(ventas_clean)}")
print(f"Filas después del merge: {len(ventas_marketing)}")

# Cuántos productos sin información de marketing
sin_marketing = ventas_marketing["id_campanha"].isna().sum()
print(f"Filas sin información de marketing: {sin_marketing}")

# Observaciones:
# - Filas donde no hay información de marketing (NaN en columnas de marketing)
# - Productos de marketing que no tienen ventas no aparecerán (porque es left join)
# - Si un producto aparece varias veces en marketing, puede generar duplicados en ventas_marketing


Unnamed: 0,id_venta,producto,precio,cantidad,fecha_venta,categoria,id_campanha,canal,costo,fecha_inicio,fecha_fin
0,792,Cuadro Decorativo,69.94,5,2024-01-02,Decoración,1,Rrss,5.27,2024-04-27,2024-06-04
1,792,Cuadro Decorativo,69.94,5,2024-01-02,Decoración,31,Email,5.28,2024-08-15,2024-09-12
2,792,Cuadro Decorativo,69.94,5,2024-01-02,Decoración,61,Tv,5.3,2024-11-05,2024-12-23
3,811,Lámpara De Mesa,105.1,5,2024-01-02,Decoración,32,Email,5.54,2024-03-28,2024-04-20
4,811,Lámpara De Mesa,105.1,5,2024-01-02,Decoración,2,Rrss,5.88,2024-05-30,2024-06-29



Valores nulos por columna después del merge:
id_venta        0
producto        0
precio          6
cantidad        6
fecha_venta     0
categoria       0
id_campanha     0
canal           0
costo           0
fecha_inicio    0
fecha_fin       0
dtype: int64

Filas antes del merge: 3000
Filas después del merge: 9000
Filas sin información de marketing: 0
