# <div style="color:#5b2e91; font-weight:800;">Pre-entrega Proyecto: Data Analytics — SynthData 🧠</div>

**Autora:** Valeria Velasquez    
**Comisión:** 25262  
**Fecha de última edición:** 20/10/2025
___


## I) **Etapa 1: Recopilación y Preparación de Datos**🧩
🎯**Objetivo:**

 Demostrar habilidades en Python, familiaridad con el entorno de trabajo y conocimientos básicos sobre manipulación de datos.

---

### **1️⃣ Entorno y Carga de Datos**
🎯**Objetivo**: Carga de sets de datos en Google Colab como DataFrames.

**Datasets:** `ventas.csv`, `clientes.csv`, `marketing.csv`  

In [3]:
# Importar librerías
import pandas as pd
import numpy as np

In [4]:
# Montar la unidad de Google Drive
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [5]:
# Verificar que los archivos csv se encuentren en la carpeta Datasets
import os
os.listdir("/content/drive/MyDrive/Pre_Entrega_Data_Analytics/Datasets")

['Sets de datos.pdf',
 'clientes.csv',
 'marketing.csv',
 'ventas.csv',
 'ventas_clean.csv',
 'marketing_clean.csv',
 'clientes_clean.csv']

In [6]:
# Rutas a tus archivos en Drive
ruta_clientes = '/content/drive/MyDrive/Pre_Entrega_Data_Analytics/Datasets/clientes.csv'
ruta_marketing = '/content/drive/MyDrive/Pre_Entrega_Data_Analytics/Datasets/marketing.csv'
ruta_ventas = '/content/drive/MyDrive/Pre_Entrega_Data_Analytics/Datasets/ventas.csv'

# Leer los CSV como DataFrames
df_clientes = pd.read_csv(ruta_clientes)
df_marketing = pd.read_csv(ruta_marketing)
df_ventas = pd.read_csv(ruta_ventas)

# Validar las dimensiones para comprobar la carga correcta
print('\nDimensiones:')
print('Clientes:', df_clientes.shape)
print('Marketing:', df_marketing.shape)
print('Ventas:', df_ventas.shape)
print("-" * 50)

# Mostrar las primeras filas de cada dataset
print('--- Clientes ---')
display(df_clientes.head(3))
print('\n--- Marketing ---')
display(df_marketing.head(3))
print('\n--- Ventas ---')
display(df_ventas.head(3))


Dimensiones:
Clientes: (567, 5)
Marketing: (90, 6)
Ventas: (3035, 6)
--------------------------------------------------
--- Clientes ---


Unnamed: 0,id_cliente,nombre,edad,ciudad,ingresos
0,1,Aloysia Screase,44,Mar del Plata,42294.68
1,2,Kristina Scaplehorn,25,Posadas,24735.04
2,3,Filip Castagne,50,Resistencia,35744.85



--- Marketing ---


Unnamed: 0,id_campanha,producto,canal,costo,fecha_inicio,fecha_fin
0,74,Adorno de pared,TV,4.81,20/03/2024,03/05/2024
1,12,Tablet,RRSS,3.4,26/03/2024,13/05/2024
2,32,Lámpara de mesa,Email,5.54,28/03/2024,20/04/2024



--- Ventas ---


Unnamed: 0,id_venta,producto,precio,cantidad,fecha_venta,categoria
0,792,Cuadro decorativo,$69.94,5.0,02/01/2024,Decoración
1,811,Lámpara de mesa,$105.10,5.0,02/01/2024,Decoración
2,1156,Secadora,$97.96,3.0,02/01/2024,Electrodomésticos


###2️⃣ **Script básico: Cálculo de ventas mensuales**
🎯**Objetivo:**
Desarrollar un script básico que calcule las ventas mensuales utilizando variables y operadores.
Luego, aplicar el mismo concepto utilizando el dataset real `ventas.csv`.

🔸**El ejemplo básico con variables y operadores**

In [7]:
# Lista de ventas: [producto, precio, cantidad, fecha_venta]
ventas = [
    ["manzana", 100, 2, "2025-01-05"],
    ["banana", 50, 3, "2025-01-20"],
    ["naranja", 80, 1, "2025-02-10"],
    ["pera", 120, 2, "2025-02-15"]
]

# Diccionario para acumular ventas por mes
ventas_por_mes = {}

# Calcular ventas por mes
for venta in ventas:
    producto = venta[0]
    precio = venta[1]
    cantidad = venta[2]
    fecha = venta[3]

    # Extraer el mes de la fecha (YYYY-MM-DD)
    mes = int(fecha.split("-")[1])

    # Calcular total de la venta
    total_venta = precio * cantidad

    # Sumar al total del mes
    if mes in ventas_por_mes:
        ventas_por_mes[mes] += total_venta
    else:
        ventas_por_mes[mes] = total_venta

# Mostrar resultados
print("💵 Ventas mensuales (ejemplo básico):")
for mes, total in sorted(ventas_por_mes.items()):
    print(f"Mes {mes}: ${total:.2f}")


💵 Ventas mensuales (ejemplo básico):
Mes 1: $350.00
Mes 2: $320.00


🔸**El script aplicado al dataset real (df_ventas)**


In [8]:
# Observar cómo es el dataset VENTAS: identificar qué columna representa el monto de venta y cuál la fecha o mes.
df_ventas.head(3)

Unnamed: 0,id_venta,producto,precio,cantidad,fecha_venta,categoria
0,792,Cuadro decorativo,$69.94,5.0,02/01/2024,Decoración
1,811,Lámpara de mesa,$105.10,5.0,02/01/2024,Decoración
2,1156,Secadora,$97.96,3.0,02/01/2024,Electrodomésticos


In [9]:
# Crear copia para limpieza
ventas_copia = df_ventas.copy()

# Revisar tipos de datos (precio, cantidad y fecha_venta)
# precio y cantidad Lo ideal es int64 o float64. Si aparecen como object, hay que convertirlas.
# fecha_venta debe ser datetime
print("\nTipos de datos antes de la limpieza:")
ventas_copia.columns
ventas_copia.dtypes


Tipos de datos antes de la limpieza:


Unnamed: 0,0
id_venta,int64
producto,object
precio,object
cantidad,float64
fecha_venta,object
categoria,object


In [10]:
# 🧹 Limpieza y transformación

# Convertir fecha_venta a datetime y extraer mes
ventas_copia['fecha'] = pd.to_datetime(ventas_copia['fecha_venta'], errors='coerce')
ventas_copia['mes'] = ventas_copia['fecha'].dt.month

# Limpiar precio (quitar $ o comas) y convertir a float
ventas_copia['precio'] = ventas_copia['precio'].astype(str).str.replace(r'[\$,]', '', regex=True)
ventas_copia['precio'] = ventas_copia['precio'].str.replace(',', '.').astype(float)

# Calcular total de venta por fila
ventas_copia['total'] = ventas_copia['precio'] * ventas_copia['cantidad']

# Agrupar por mes y sumar totales
ventas_mensuales = ventas_copia.groupby('mes', as_index=False)['total'].sum()

# Mostrar tabla con nombres y formato
# Agregar nombre del mes y limitar decimales
ventas_mensuales['mes_nombre'] = ventas_mensuales['mes'].apply(
    lambda x: pd.to_datetime(str(int(x)), format='%m').strftime('%B')
)

# Ordenar meses correctamente
ventas_mensuales = ventas_mensuales.sort_values('mes')

print("\n📆 Ventas mensuales:")
display(
    ventas_mensuales[['mes_nombre', 'total']]
    .style.background_gradient(cmap='Purples')
    .format({'total': '{:,.1f}'})  # un solo decimal
)

# 📊 --- Análisis global de ventas ---
venta_total_global = ventas_copia['total'].sum()
promedio_venta = ventas_copia['total'].mean()

# Producto más vendido (por total de dinero)
producto_top = ventas_copia.groupby('producto')['total'].sum().sort_values(ascending=False).head(1)

print("\n📊 Resultados de análisis de ventas")
print(f"Total de ventas: ${venta_total_global:.2f}")
print(f"Promedio por venta: ${promedio_venta:.2f}")
print(f"Producto más vendido: {producto_top.index[0]} (${producto_top.values[0]:.2f})")




📆 Ventas mensuales:


Unnamed: 0,mes_nombre,total
0,January,35813.4
1,February,62419.5
2,March,41350.6
3,April,40841.2
4,May,49496.3
5,June,50875.3
6,July,58644.4
7,August,52239.9
8,September,42206.4
9,October,49905.1



📊 Resultados de análisis de ventas
Total de ventas: $1483042.93
Promedio por venta: $488.97
Producto más vendido: Lámpara de mesa ($84699.15)


### 3️⃣**Estructuras de Datos**
🎯**Objetivo:** Desarrollar un programa que almacene los datos de ventas (producto, precio, cantidad). Decidir si conviene utilizar diccionarios o listas.



🔍 **Análisis de opciones**

💡 **Opción 1: Listas**


**Ventajas:**

- Simple y rápido de recorrer.

- Útil si el dataset es pequeño y no necesitas nombres de columnas.

**Desventajas:**

- Hay que recordar qué índice corresponde a cada columna (0=producto, 1=precio, 2=cantidad).

- Menos legible y mantenible cuando los datos crecen.

**🧮 Ejemplo práctico usando listas**

In [11]:
ventas = [
    ["manzana", 100, 2],
    ["banana", 50, 3]
]

total_general = 0
for venta in ventas:
    total_venta = venta[1] * venta[2]  # precio * cantidad
    print(f"Producto: {venta[0]}, Total: {total_venta}")
    total_general += total_venta

print(f"Total general de ventas: {total_general}")


Producto: manzana, Total: 200
Producto: banana, Total: 150
Total general de ventas: 350



**💡 Opción 2: Diccionarios**

**Ventajas:**

- Muy legible: accedes por nombre (venta["precio"]).

- Fácil de filtrar o buscar por producto.

- Escalable si agregás más columnas en el futuro.

**Desventajas:**

- Usa un poco más de memoria que listas (pero insignificante en la práctica).

**🧮 Ejemplo práctico usando diccionarios**

In [12]:
ventas = []

# Agregar ventas
ventas.append({"producto": "manzana", "precio": 100, "cantidad": 2})
ventas.append({"producto": "banana", "precio": 50, "cantidad": 3})

# Calcular total de ventas
total_general = 0
for venta in ventas:
    total_venta = venta["precio"] * venta["cantidad"]
    print(f"Producto: {venta['producto']}, Total: {total_venta}")
    total_general += total_venta

print(f"Total general de ventas: {total_general}")


Producto: manzana, Total: 200
Producto: banana, Total: 150
Total general de ventas: 350


**✅ Conclusión**

👉 Si querés **claridad, legibilidad y escalabilidad,** los **diccionarios** son la mejor opción.

👉 Las **listas** pueden servir cuando el dataset es muy pequeño o no importa recordar los índices.

___


 **💻 Programa final usando diccionarios para almacenar los datos de ventas y calcular totales**

In [13]:
# Lista que almacenará todas las ventas
ventas = []

# Función para agregar una venta
def agregar_venta(producto, precio, cantidad):
    """Agrega una venta validando los datos ingresados."""
    try:
        precio = float(precio)
        cantidad = int(cantidad)
        venta = {"producto": producto, "precio": precio, "cantidad": cantidad}
        ventas.append(venta)
    except ValueError:
        print("⚠️ Error: precio o cantidad inválidos")

# Función para mostrar todas las ventas y calcular el total general
def mostrar_ventas():
    """Muestra las ventas individuales y el total general."""
    total_general = 0
    print("\n🧾 Listado de ventas:")
    for venta in ventas:
        total_venta = venta["precio"] * venta["cantidad"]
        print(f"- Producto: {venta['producto']}, Precio: {venta['precio']}, Cantidad: {venta['cantidad']}, Total: {total_venta}")
        total_general += total_venta
    print(f"\n💰 Total general de ventas: {total_general}")

# ======== EJEMPLO DE USO ========
agregar_venta("manzana", 100, 2)
agregar_venta("banana", 50, 3)
agregar_venta("pera", 120, 1)
mostrar_ventas()



🧾 Listado de ventas:
- Producto: manzana, Precio: 100.0, Cantidad: 2, Total: 200.0
- Producto: banana, Precio: 50.0, Cantidad: 3, Total: 150.0
- Producto: pera, Precio: 120.0, Cantidad: 1, Total: 120.0

💰 Total general de ventas: 470.0


### 4️⃣**Exploración inicial de los DataFrames con pandas (EDA)**
🎯**Objetivo:**

El propósito es comprender su estructura, tipos de datos, valores nulos y principales características estadísticas.
Para ello, se utilizarán métodos de pandas como `.info()`, `.describe()`, `.shape` y `.columns`. Este análisis permitirá detectar posibles problemas en los datos y orientar decisiones de limpieza o transformación.

In [14]:
# Función para realizar un análisis exploratorio inicial del DataFrame (EDA)
def eda(df, nombre):
    print(f"=== {nombre} ===")
    print("Shape:", df.shape)
    print("Columnas:", list(df.columns))
    print("\nTipos de datos (dtypes):")
    print(df.dtypes)
    print("\nNulos por columna:")
    print(df.isna().sum())
    print("\nPrimeras filas del DataFrame:")
    display(df.head())
    print("\nResumen estadístico de columnas numéricas:")
    display(df.describe(include='number'))
    print("*" * 100)

# Llamado a la función para analizar cada DataFrame
eda(df_clientes, "CLIENTES (inicial)")
eda(df_marketing, "MARKETING (inicial)")
eda(df_ventas, "VENTAS (inicial)")


=== CLIENTES (inicial) ===
Shape: (567, 5)
Columnas: ['id_cliente', 'nombre', 'edad', 'ciudad', 'ingresos']

Tipos de datos (dtypes):
id_cliente      int64
nombre         object
edad            int64
ciudad         object
ingresos      float64
dtype: object

Nulos por columna:
id_cliente    0
nombre        0
edad          0
ciudad        0
ingresos      0
dtype: int64

Primeras filas del DataFrame:


Unnamed: 0,id_cliente,nombre,edad,ciudad,ingresos
0,1,Aloysia Screase,44,Mar del Plata,42294.68
1,2,Kristina Scaplehorn,25,Posadas,24735.04
2,3,Filip Castagne,50,Resistencia,35744.85
3,4,Liuka Luard,39,Bahía Blanca,27647.96
4,5,Dore Cockshtt,28,Rosario,28245.65



Resumen estadístico de columnas numéricas:


Unnamed: 0,id_cliente,edad,ingresos
count,567.0,567.0,567.0
mean,284.0,37.940035,34668.739012
std,163.823075,10.202885,12974.531446
min,1.0,20.0,170.29
25%,142.5,30.0,26015.24
50%,284.0,37.0,35066.83
75%,425.5,43.0,42457.1
max,567.0,81.0,88053.01


****************************************************************************************************
=== MARKETING (inicial) ===
Shape: (90, 6)
Columnas: ['id_campanha', 'producto', 'canal', 'costo', 'fecha_inicio', 'fecha_fin']

Tipos de datos (dtypes):
id_campanha       int64
producto         object
canal            object
costo           float64
fecha_inicio     object
fecha_fin        object
dtype: object

Nulos por columna:
id_campanha     0
producto        0
canal           0
costo           0
fecha_inicio    0
fecha_fin       0
dtype: int64

Primeras filas del DataFrame:


Unnamed: 0,id_campanha,producto,canal,costo,fecha_inicio,fecha_fin
0,74,Adorno de pared,TV,4.81,20/03/2024,03/05/2024
1,12,Tablet,RRSS,3.4,26/03/2024,13/05/2024
2,32,Lámpara de mesa,Email,5.54,28/03/2024,20/04/2024
3,21,Smartphone,RRSS,6.37,29/03/2024,16/05/2024
4,58,Alfombra,Email,4.25,31/03/2024,05/05/2024



Resumen estadístico de columnas numéricas:


Unnamed: 0,id_campanha,costo
count,90.0,90.0
mean,45.5,4.928667
std,26.124701,0.94775
min,1.0,2.95
25%,23.25,4.3725
50%,45.5,4.9
75%,67.75,5.5625
max,90.0,7.39


****************************************************************************************************
=== VENTAS (inicial) ===
Shape: (3035, 6)
Columnas: ['id_venta', 'producto', 'precio', 'cantidad', 'fecha_venta', 'categoria']

Tipos de datos (dtypes):
id_venta         int64
producto        object
precio          object
cantidad       float64
fecha_venta     object
categoria       object
dtype: object

Nulos por columna:
id_venta       0
producto       0
precio         2
cantidad       2
fecha_venta    0
categoria      0
dtype: int64

Primeras filas del DataFrame:


Unnamed: 0,id_venta,producto,precio,cantidad,fecha_venta,categoria
0,792,Cuadro decorativo,$69.94,5.0,02/01/2024,Decoración
1,811,Lámpara de mesa,$105.10,5.0,02/01/2024,Decoración
2,1156,Secadora,$97.96,3.0,02/01/2024,Electrodomésticos
3,1372,Heladera,$114.35,8.0,02/01/2024,Electrodomésticos
4,1546,Secadora,$106.21,4.0,02/01/2024,Electrodomésticos



Resumen estadístico de columnas numéricas:


Unnamed: 0,id_venta,cantidad
count,3035.0,3033.0
mean,1499.8514,6.496538
std,866.465379,3.45725
min,1.0,1.0
25%,748.5,3.0
50%,1502.0,7.0
75%,2249.5,9.0
max,3000.0,12.0


****************************************************************************************************


### 5️⃣  **Calidad de datos**
🎯 **Objetivo:**

Identificar valores **nulos** y registros **duplicados** en los distintos conjuntos de datos.
Este análisis permite evaluar la calidad de la información antes de aplicar transformaciones o modelos, y documentar el estado inicial de los datos para futuras comparaciones.

Se utilizarán los métodos `.isna().sum()` y `.duplicated().sum()` de **pandas** para cuantificar la presencia de datos faltantes y duplicados, tanto de forma general como en columnas clave.

In [15]:
# Función para analizar la calidad de los datos
def calidad(df, nombre, clave=None):
    """Analiza valores nulos y duplicados en el DataFrame."""

    print(f"📊 Análisis de calidad de datos: {nombre}")
    print("-" * 50)

    # Nulos por columna
    print("\n🔍 Valores nulos por columna:")
    display(df.isna().sum().to_frame("nulos"))

    # Filas duplicadas completas
    dup_rows = df.duplicated(keep=False).sum()
    print(f"\n📋 Filas duplicadas (exactas): {dup_rows}")

    # Duplicados por clave (si se especifica)
    if clave and clave in df.columns:
        dup_key = df[clave].duplicated(keep=False).sum()
        print(f"🔑 Duplicados por clave '{clave}': {dup_key}")

        if dup_key > 0:
            duplicados = (
                df[df[clave].duplicated(keep=False)][clave]
                .value_counts()                              # Cuenta cuántas veces aparece cada valor
                .sort_values(ascending=False)                # Ordena de mayor a menor (más duplicados arriba)
                .head(10)                                    # Mostrar solo los primeros 10 (los más repetidos)
            )
            print("\n🔁 Top valores duplicados más frecuentes:")
            display(duplicados)
        else:
            print(f"✅ No hay duplicados en la clave '{clave}'.")
    elif clave:
        print(f"⚠️ La clave '{clave}' no existe en el DataFrame.")
    else:
        print("ℹ️ No se indicó clave para revisar duplicados específicos.")

    print("=" * 50, "\n")

# Análisis del DataFrame CLIENTES
calidad(df_clientes, "CLIENTES", clave="id_cliente")

# Análisis del DataFrame MARKETING
calidad(df_marketing, "MARKETING", clave="id_campanha")

# Análisis del DataFrame VENTAS
calidad(df_ventas, "VENTAS", clave="id_venta")


📊 Análisis de calidad de datos: CLIENTES
--------------------------------------------------

🔍 Valores nulos por columna:


Unnamed: 0,nulos
id_cliente,0
nombre,0
edad,0
ciudad,0
ingresos,0



📋 Filas duplicadas (exactas): 0
🔑 Duplicados por clave 'id_cliente': 0
✅ No hay duplicados en la clave 'id_cliente'.

📊 Análisis de calidad de datos: MARKETING
--------------------------------------------------

🔍 Valores nulos por columna:


Unnamed: 0,nulos
id_campanha,0
producto,0
canal,0
costo,0
fecha_inicio,0
fecha_fin,0



📋 Filas duplicadas (exactas): 0
🔑 Duplicados por clave 'id_campanha': 0
✅ No hay duplicados en la clave 'id_campanha'.

📊 Análisis de calidad de datos: VENTAS
--------------------------------------------------

🔍 Valores nulos por columna:


Unnamed: 0,nulos
id_venta,0
producto,0
precio,2
cantidad,2
fecha_venta,0
categoria,0



📋 Filas duplicadas (exactas): 70
🔑 Duplicados por clave 'id_venta': 70

🔁 Top valores duplicados más frecuentes:


Unnamed: 0_level_0,count
id_venta,Unnamed: 1_level_1
56,2
421,2
424,2
1868,2
2545,2
2778,2
145,2
300,2
439,2
906,2





---

## II) **Etapa 2: Preprocesamiento y Limpieza de Datos**🧩

🎯**Objetivo:** Demostrar conocimiento de las técnicas de limpieza y transformación de datos.

___

###1️⃣ **Limpieza de Datos**
🎯**Objetivo:**

Limpiar los conjuntos de datos eliminando duplicados, caracteres no deseados y valores inconsistentes.
El propósito de esta etapa es asegurar **la calidad, coherencia y homogeneidad** de los datos antes del análisis, aplicando técnicas de normalización en texto, fechas y valores numéricos.
Finalmente, se documenta el proceso mediante un reporte global de calidad y se guardan las versiones limpias de los archivos.

In [28]:
# ============================================
# 🧹 LIMPIEZA Y NORMALIZACIÓN DE LOS DATASETS
# ============================================

# 1️⃣ Copias para no modificar los originales
ventas_clean = df_ventas.copy()
clientes_clean = df_clientes.copy()
marketing_clean = df_marketing.copy()

# 2️⃣ Eliminación de duplicados
ventas_clean = ventas_clean.drop_duplicates()
clientes_clean = clientes_clean.drop_duplicates()
marketing_clean = marketing_clean.drop_duplicates()

# Verificación posterior
calidad(ventas_clean, "VENTAS CLEAN", clave="id_venta")

📊 Análisis de calidad de datos: VENTAS CLEAN
--------------------------------------------------

🔍 Valores nulos por columna:


Unnamed: 0,nulos
id_venta,0
producto,0
precio,2
cantidad,2
fecha_venta,0
categoria,0



📋 Filas duplicadas (exactas): 0
🔑 Duplicados por clave 'id_venta': 0
✅ No hay duplicados en la clave 'id_venta'.



In [29]:
# 3️⃣ Función para limpiar texto en columnas string
def normalizar_texto(df):
    for col in df.select_dtypes(include="object").columns:
        df[col] = (
            df[col]
            .astype(str)                                       # Convierte a texto
            .str.strip()                                       # Quita espacios al inicio y final
            .str.replace(r"[\u200b\t\r\n]", "", regex=True)    # Borra caracteres invisibles
            .str.replace(" +", " ", regex=True)                # Reemplaza dobles espacios
            .str.title()                                       # Pone mayúscula inicial a cada palabra
        )
    return df

# Aplicación de limpieza de texto a los tres datasets
ventas_clean = normalizar_texto(ventas_clean)
clientes_clean = normalizar_texto(clientes_clean)
marketing_clean = normalizar_texto(marketing_clean)

# 4️⃣ Revisión inicial de valores nulos (solo diagnóstico)
print("-" * 50)
print("Nulos en ventas:\n", ventas_clean.isnull().sum())
print("-" * 50)
print("Nulos en clientes:\n", clientes_clean.isnull().sum())
print("-" * 50)
print("Nulos en marketing:\n", marketing_clean.isnull().sum())
print("-" * 50)

--------------------------------------------------
Nulos en ventas:
 id_venta       0
producto       0
precio         0
cantidad       2
fecha_venta    0
categoria      0
dtype: int64
--------------------------------------------------
Nulos en clientes:
 id_cliente    0
nombre        0
edad          0
ciudad        0
ingresos      0
dtype: int64
--------------------------------------------------
Nulos en marketing:
 id_campanha     0
producto        0
canal           0
costo           0
fecha_inicio    0
fecha_fin       0
dtype: int64
--------------------------------------------------


In [30]:
# 5️⃣ Normalización de fechas (automática y específica)
# Bloque genérico por si aparece cualquier columna con "fecha" (automática)
for df in [ventas_clean, clientes_clean, marketing_clean]:
    for col in df.columns:
        if "fecha" in col.lower():
            df[col] = pd.to_datetime(df[col], errors="coerce", dayfirst=True)

# Normalización explícita de fechas conocidas (específica)
if "fecha_venta" in ventas_clean.columns:
    ventas_clean["fecha_venta"] = pd.to_datetime(ventas_clean["fecha_venta"], errors="coerce", dayfirst=True)

if "fecha_inicio" in marketing_clean.columns:
    marketing_clean["fecha_inicio"] = pd.to_datetime(marketing_clean["fecha_inicio"], errors="coerce", dayfirst=True)
if "fecha_fin" in marketing_clean.columns:
    marketing_clean["fecha_fin"] = pd.to_datetime(marketing_clean["fecha_fin"], errors="coerce", dayfirst=True)

# Verificar la normalización de fechas
print("📊 Tipos de datos intermedios:")
print("-" * 50)
print(ventas_clean.dtypes)
print("-" * 50)
print(clientes_clean.dtypes)
print("-" * 50)
print(marketing_clean.dtypes)
print("-" * 50)


📊 Tipos de datos intermedios:
--------------------------------------------------
id_venta                int64
producto               object
precio                 object
cantidad              float64
fecha_venta    datetime64[ns]
categoria              object
dtype: object
--------------------------------------------------
id_cliente      int64
nombre         object
edad            int64
ciudad         object
ingresos      float64
dtype: object
--------------------------------------------------
id_campanha              int64
producto                object
canal                   object
costo                  float64
fecha_inicio    datetime64[ns]
fecha_fin       datetime64[ns]
dtype: object
--------------------------------------------------


In [32]:
# 6️⃣ Normalizar valores numéricos
# Campo "precio"
if "precio" in ventas_clean.columns:
    ventas_clean["precio"] = (
        ventas_clean["precio"]
        .astype(str)                        # Convierte todo a texto
        .str.replace("$", "", regex=False)  # Elimina el símbolo $
        .str.replace(",", "", regex=False)  # Elimina comas de miles 1,000  1000
        .str.strip()                        # Quita espacios sobrantes
    )
    ventas_clean["precio"] = pd.to_numeric(ventas_clean["precio"], errors="coerce")
                                            # pd.to_numeric convierte texto a número (float o int)
                                            # errors="coerce" → reemplaza valores no convertibles con NaN

# Campo "cantidad"
if "cantidad" in ventas_clean.columns:
    ventas_clean["cantidad"] = pd.to_numeric(
        ventas_clean["cantidad"], errors="coerce"
    ).astype("Int64")
                        # .astype("Int64") usa el tipo entero de pandas que permite valores nulos (NaN)


In [33]:
# 7️⃣ Completar o eliminar nulos finales
# (después de convertir a numéricos)
if "precio" in ventas_clean.columns:
    ventas_clean["precio"] = ventas_clean["precio"].fillna(0)

if "cantidad" in ventas_clean.columns:
    ventas_clean["cantidad"] = ventas_clean["cantidad"].fillna(0)

if "id_cliente" in clientes_clean.columns:
    clientes_clean = clientes_clean.dropna(subset=["id_cliente"])

marketing_clean = marketing_clean.fillna("Sin dato")

In [35]:
# 8️⃣ Verificación final
print("-" * 50)
print("📊 Tipos de datos finales:")
print(ventas_clean.dtypes)
print("-" * 50)
print(ventas_clean.head(5))
print(clientes_clean.head(5))
print(marketing_clean.head(5))

--------------------------------------------------
📊 Tipos de datos finales:
id_venta                int64
producto               object
precio                float64
cantidad                Int64
fecha_venta    datetime64[ns]
categoria              object
dtype: object
--------------------------------------------------
   id_venta           producto  precio  cantidad fecha_venta  \
0       792  Cuadro Decorativo   69.94         5  2024-01-02   
1       811    Lámpara De Mesa  105.10         5  2024-01-02   
2      1156           Secadora   97.96         3  2024-01-02   
3      1372           Heladera  114.35         8  2024-01-02   
4      1546           Secadora  106.21         4  2024-01-02   

           categoria  
0         Decoración  
1         Decoración  
2  Electrodomésticos  
3  Electrodomésticos  
4  Electrodomésticos  
   id_cliente               nombre  edad         ciudad  ingresos
0           1      Aloysia Screase    44  Mar Del Plata  42294.68
1           2  Kristina

In [36]:
# 9️⃣ Guardar los datasets limpios como CSV
ventas_clean.to_csv("/content/drive/MyDrive/Pre_Entrega_Data_Analytics/Datasets/ventas_clean.csv", index=False)
clientes_clean.to_csv("/content/drive/MyDrive/Pre_Entrega_Data_Analytics/Datasets/clientes_clean.csv", index=False)
marketing_clean.to_csv("/content/drive/MyDrive/Pre_Entrega_Data_Analytics/Datasets/marketing_clean.csv", index=False)

# Confirmación
ventas_clean.info()
print("-" * 50)
print(ventas_clean.select_dtypes(include="object").columns)
print("-" * 100)
print("✅ Archivos guardados: ventas_clean.csv, clientes_clean.csv, marketing_clean.csv")


<class 'pandas.core.frame.DataFrame'>
Index: 3000 entries, 0 to 3034
Data columns (total 6 columns):
 #   Column       Non-Null Count  Dtype         
---  ------       --------------  -----         
 0   id_venta     3000 non-null   int64         
 1   producto     3000 non-null   object        
 2   precio       3000 non-null   float64       
 3   cantidad     3000 non-null   Int64         
 4   fecha_venta  3000 non-null   datetime64[ns]
 5   categoria    3000 non-null   object        
dtypes: Int64(1), datetime64[ns](1), float64(1), int64(1), object(2)
memory usage: 167.0+ KB
--------------------------------------------------
Index(['producto', 'categoria'], dtype='object')
----------------------------------------------------------------------------------------------------
✅ Archivos guardados: ventas_clean.csv, clientes_clean.csv, marketing_clean.csv


In [37]:
# ============================================
# 📊 REPORTE GLOBAL DE CALIDAD DE DATOS
# ============================================

def reporte_calidad_global(dfs, nombres):
    """
    Crea un resumen de calidad para varios DataFrames.
    """
    resumen = []
    for df, nombre in zip(dfs, nombres):
        resumen.append({
            "Dataset": nombre,
            "Filas": len(df),                                    # Cantidad de registros (filas)
            "Columnas": len(df.columns),                         # Cantidad de columnas
            "Nulos totales": df.isna().sum().sum(),              # Total de valores nulos, no por columnas sino total, por eso el doble sum
            "Duplicados": df.duplicated(keep=False).sum(),       # Total de filas duplicadas
        })
    return pd.DataFrame(resumen)

# Comparación antes y después de la limpieza
reporte_original = reporte_calidad_global(
    [df_ventas, df_clientes, df_marketing],
    ["VENTAS Original", "CLIENTES Original", "MARKETING Original"]
)
display(reporte_original)

reporte_copia = reporte_calidad_global(
    [ventas_clean, clientes_clean, marketing_clean],
    ["VENTAS Limpio", "CLIENTES Limpio", "MARKETING Limpio"]
)
display(reporte_copia)

Unnamed: 0,Dataset,Filas,Columnas,Nulos totales,Duplicados
0,VENTAS Original,3035,6,4,70
1,CLIENTES Original,567,5,0,0
2,MARKETING Original,90,6,0,0


Unnamed: 0,Dataset,Filas,Columnas,Nulos totales,Duplicados
0,VENTAS Limpio,3000,6,0,0
1,CLIENTES Limpio,567,5,0,0
2,MARKETING Limpio,90,6,0,0


###2️⃣ **Transformación de datos (filtrar “alto rendimiento”)**
🎯**Objetivo:** Construir una tabla de rendimiento por producto y quedarnos sólo con los productos de **alto rendimiento**.
Filtrar los productos con mejor desempeño económico, es decir, **el 20 % superior en ventas totales (ingreso)**.

In [22]:
# ============================================
# TRANSFORMACIÓN: productos de alto rendimiento
# ============================================

def rendimiento_productos(df):
    """Calcula los productos de alto rendimiento (top 20% por ingreso total)."""

    print("📈 Transformación de datos: Productos de alto rendimiento")
    print("-" * 50)

    # 1️⃣ Detectar columna de producto
    def encontrar_columna(df, candidatos):
        """
        Busca la primera columna cuyo nombre contenga alguno de los patrones dados.
        - df: DataFrame de pandas.
        - candidatos: lista de patrones (minúsculas).
        """
        for c in df.columns:
            nombre = c.lower()
            if any(p in nombre for p in candidatos):
                return c
        return None

    prod_col = encontrar_columna(df, ["producto", "id_producto", "sku", "articulo", "artículo"])
    if prod_col is None:
        raise ValueError("No se encontró columna de producto. Renombrá una columna a 'producto' o similar.")
    print(f"Columna de producto detectada: {prod_col}")

    # 2️⃣ Calcular ingreso por registro = precio * cantidad
    df = df.assign(ingreso=df["precio"] * df["cantidad"])

    # 3️⃣ Agregar métricas por producto
    resumen = (
        df.groupby(by=prod_col, as_index=False)
        .agg(
            ingreso_total=('ingreso', 'sum'),
            unidades=('cantidad', 'sum'),
            precio_promedio=('precio', 'mean'),
            registros=('ingreso', 'size')
        )
    )

    # Redondear y ordenar
    resumen["precio_promedio"] = resumen["precio_promedio"].round(2)
    resumen = resumen.sort_values(by="ingreso_total", ascending=False, ignore_index=True)

    # 4️⃣ Calcular percentil 80 de ingreso_total
    p80 = resumen["ingreso_total"].quantile(0.8)
    print(f"Umbral (percentil 80) de ingreso_total: {p80:,.2f}")

    # 5️⃣ Filtrar productos de alto rendimiento
    top = resumen.query("ingreso_total >= @p80", engine="python").sort_values(
        by=["ingreso_total", "unidades"], ascending=[False, False], ignore_index=True
    )

    # 6️⃣ Mostrar resultados
    print("\n✅ Productos de ALTO RENDIMIENTO (top 20% por ingreso):")
    display(top.head(20))

    print("=" * 50, "\n")

    return top


# LLAMADA A LA FUNCIÓN para analizar el dataset limpio de VENTAS
ventas_top = rendimiento_productos(ventas_clean)

📈 Transformación de datos: Productos de alto rendimiento
--------------------------------------------------
Columna de producto detectada: producto
Umbral (percentil 80) de ingreso_total: 52,518.85

✅ Productos de ALTO RENDIMIENTO (top 20% por ingreso):


Unnamed: 0,producto,ingreso_total,unidades,precio_promedio,registros
0,Lámpara De Mesa,82276.38,1112,72.72,176
1,Auriculares,74175.58,958,76.3,143
2,Microondas,72562.89,912,79.18,135
3,Cafetera,59607.31,765,79.05,117
4,Cuadro Decorativo,54297.6,726,74.58,100
5,Smartphone,54132.44,665,81.4,101





###3️⃣**Agregación (resumen por categoría y análisis de ingresos)**
**🎯 Objetivo:**
Construir un resumen por categoría de producto con métricas útiles (ingreso total, unidades, cantidad de ventas y ticket promedio).
El objetivo de esta etapa es **agrupar la información de ventas** para analizar el rendimiento por categoría, identificando cuáles generan mayores ingresos y cuál es el ticket promedio por venta.

In [23]:
# ============================================
# 📊 AGREGACIÓN: resumen por categoría
# ============================================

# Helper: detectar columna de categoría
# ------------------------------------
def encontrar_columna(df, candidatos):
    """
    df: DataFrame de pandas.
    candidatos: lista de posibles nombres de columna.
    Devuelve: el primer nombre que coincida o None.
    """
    for c in df.columns:
        if any(p in c.lower() for p in candidatos):
            return c
    return None


# 1️⃣ Detectar columna de categoría
cat_col = encontrar_columna(
    ventas_clean, ["categoria", "categoría", "categoria_producto", "rubro"]
)
if cat_col is None:
    raise ValueError("No se encontró columna de categoría (ej. 'categoria' o 'rubro').")
print(f"Columna de categoría detectada: {cat_col}")
print("-" * 100)


# 2️⃣ Asegurar columna 'ingreso' (precio * cantidad)
if "ingreso" not in ventas_clean.columns:
    ventas_cat = ventas_clean.assign(ingreso = ventas_clean["precio"] * ventas_clean["cantidad"])
else:
    ventas_cat = ventas_clean.copy()


# 3️⃣ Agregar métricas por categoría
resumen_cat = (
    ventas_cat
    .groupby(by=cat_col, dropna=False, as_index=False)
    .agg(
        ingreso_total=('ingreso', 'sum'),    # Total de ingresos por categoría
        unidades=('cantidad', 'sum'),        # Total de unidades vendidas
        ventas=('ingreso', 'size'),          # Cantidad de registros/ventas
        precio_promedio=('precio', 'mean')   # Precio promedio observado
    )
    .sort_values(by='ingreso_total', ascending=False, na_position='last', ignore_index=True)
)

# 4️⃣ Calcular ticket promedio por venta
resumen_cat = resumen_cat.assign(
    ticket_promedio_por_venta = resumen_cat['ingreso_total'] / resumen_cat['ventas']
)

# 5️⃣ Mostrar resultados
print("✅ Resumen por categoría de producto:")
display(resumen_cat.head(20))
print("=" * 50)


Columna de categoría detectada: categoria
----------------------------------------------------------------------------------------------------
✅ Resumen por categoría de producto:


Unnamed: 0,categoria,ingreso_total,unidades,ventas,precio_promedio,ticket_promedio_por_venta
0,Electrodomésticos,505299.63,6592,1000,76.52096,505.29963
1,Electrónica,482577.8,6413,999,75.25492,483.060861
2,Decoración,479216.09,6490,1001,74.098,478.737353




### 4️⃣**Integración de Datos (ventas + marketing)**
🎯**Objetivo:**

Combinar los conjuntos de datos de **ventas y marketing** para obtener una visión más completa de las **tendencias**. Esta etapa permite relacionar información de clientes, productos, campañas y canales de marketing con los datos de ventas, facilitando el análisis de qué **estrategias** impulsan **mayores ingresos**, cuáles canales son **más efectivos** y cómo se distribuyen las ventas por **campaña o fuente**.

El foco está en **unir los DataFrames por claves comunes** (cliente, producto o campaña) para hacer el **merge**, validar la consistencia de los datos con la **cardinalidad **de la unión **(1:1, 1:m, m:1, m:m)** y generar **resúmenes de ingresos por campaña y canal** para tomar decisiones informadas sobre **marketing y ventas.**


In [24]:
# ============================================
# 🔗 INTEGRACIÓN DE DATOS: ventas + marketing
# ============================================

# 1️⃣ Detectar clave común automáticamente 🔑
claves_tentativas = [
    "id_cliente", "cliente", "email",
    "id_campaña", "id_campana", "id_campanha",
    "sku", "id_producto", "producto"
]

# Busca la primera clave que exista con el mismo nombre en ambos DataFrames
clave_comun = next(
    (k for k in claves_tentativas if k in ventas_clean.columns and k in marketing_clean.columns),
    None
)

#  Definir clave manual si no hay intersección
clave_ventas = None    # Ej: "id_cliente" en ventas_clean
clave_marketing = None # Ej: "cliente_id" en marketing_clean

#2️⃣ Validación de clave 🔍
if clave_comun is None and (clave_ventas is None or clave_marketing is None):
    print("❌ No se encontró clave común ni se definieron claves manuales.\n")
    print("👉 Opciones para resolverlo:")
    print("   a) Renombrá una columna para que coincida en ambos DataFrames (ej.: 'id_cliente').")
    print("   b) Definí manualmente las variables 'clave_ventas' y 'clave_marketing' más arriba.")
    print("      Ejemplo: clave_ventas='id_cliente'  |  clave_marketing='cliente_id'\n")
    raise ValueError("🚫 Deteniendo ejecución por falta de clave de unión.")

# 3️⃣ Configurar columnas de merge 🔗
if clave_comun:
    left_on = right_on = [clave_comun]
    clave_label = clave_comun
else:
    left_on = [clave_ventas]
    right_on = [clave_marketing]
    clave_label = f"{clave_ventas} (ventas) ↔ {clave_marketing} (marketing)"

# 4️⃣ Función para detectar duplicados (cardinalidad) 📐
def hay_duplicados(df, cols):
    return df.duplicated(subset=cols, keep=False).any()

# Detectar cardinalidad
dup_left = hay_duplicados(ventas_clean, left_on)
dup_right = hay_duplicados(marketing_clean, right_on)

if not dup_left and not dup_right:
    validate_card = "1:1"
elif not dup_left and dup_right:
    validate_card = "1:m"
elif dup_left and not dup_right:
    validate_card = "m:1"
else:
    validate_card = "m:m"

print("🔑 Clave de unión:", clave_label)
print("📐 Cardinalidad detectada:", validate_card)

#5️⃣ Merge LEFT JOIN 🧩
ventas_marketing = pd.merge(
    left=ventas_clean,            # DataFrame izquierdo: base principal (ventas)
    right=marketing_clean,        # DataFrame derecho: datos de marketing a anexar
    how="left",                   # how: 'left' (todas ventas), 'inner', 'outer', 'right'
    left_on=left_on,              # columnas de unión en 'left' (lista)
    right_on=right_on,            # columnas de unión en 'right' (lista)
    suffixes=("_ven", "_mkt"),    # sufijos para columnas con el mismo nombre en ambos DF
    indicator=True,               # indicator: agrega columna '_merge' con 'left_only'|'right_only'|'both'
    validate=validate_card if validate_card != "m:m" else None  # validate: '1:1'|'1:m'|'m:1'|'m:m' → lanza error si no se cumple

)

# Diagnóstico rápido 🕵️‍♀️
print("\n📋 Filas según '_merge':")
display(ventas_marketing['_merge'].value_counts().to_frame('conteo'))

print("\n👀 Primeras filas del DataFrame unificado:")
display(ventas_marketing.head(4))

# 6️⃣ Asegurar columna 'ingreso' 💰
if "ingreso" not in ventas_marketing.columns and {"precio", "cantidad"}.issubset(ventas_marketing.columns):
    ventas_marketing["ingreso"] = ventas_marketing["precio"] * ventas_marketing["cantidad"]

# 7️⃣ Función para detectar columnas de campaña y canal 🎯📡
def encontrar_columna(df, patrones):
    for c in df.columns:
        if any(p in c.lower() for p in patrones):
            return c
    return None

camp_col  = encontrar_columna(ventas_marketing, ["campaña", "campana", "id_campaña", "id_campana", "id_campanha", "campaign"])
canal_col = encontrar_columna(ventas_marketing, ["canal","utm_source","fuente","source"])

# ---------------------------------------------
# 8️⃣ Resumen por campaña 📊
# ---------------------------------------------
if camp_col:
    resumen_camp = ventas_marketing.groupby(camp_col, dropna=False, as_index=False)\
                                   .agg(ingreso_total=('ingreso','sum'),
                                        ventas=('ingreso','size'))\
                                   .sort_values('ingreso_total', ascending=False, ignore_index=True)
    print(f"\n💡 Ingreso total por campaña ({camp_col}):")
    display(resumen_camp.head(10))
else:
    print("ℹ️ No se encontró columna de campaña.")

# ---------------------------------------------
# 9️⃣ Resumen por canal 📡
# ---------------------------------------------
if canal_col:
    resumen_canal = ventas_marketing.groupby(canal_col, dropna=False, as_index=False)\
                                    .agg(ingreso_total=('ingreso','sum'),
                                         ventas=('ingreso','size'))\
                                    .sort_values('ingreso_total', ascending=False, ignore_index=True)
    print(f"\n💡 Ingreso total por canal ({canal_col}):")
    display(resumen_canal.head(10))
else:
    print("ℹ️ No se encontró columna de canal.")


🔑 Clave de unión: producto
📐 Cardinalidad detectada: m:m

📋 Filas según '_merge':


Unnamed: 0_level_0,conteo
_merge,Unnamed: 1_level_1
both,9000
left_only,0
right_only,0



👀 Primeras filas del DataFrame unificado:


Unnamed: 0,id_venta,producto,precio,cantidad,fecha_venta,categoria,id_campanha,canal,costo,fecha_inicio,fecha_fin,_merge
0,792,Cuadro Decorativo,69.94,5,2024-01-02,Decoración,1,Rrss,5.27,2024-04-27,2024-06-04,both
1,792,Cuadro Decorativo,69.94,5,2024-01-02,Decoración,31,Email,5.28,2024-08-15,2024-09-12,both
2,792,Cuadro Decorativo,69.94,5,2024-01-02,Decoración,61,Tv,5.3,2024-11-05,2024-12-23,both
3,811,Lámpara De Mesa,105.1,5,2024-01-02,Decoración,32,Email,5.54,2024-03-28,2024-04-20,both



💡 Ingreso total por campaña (id_campanha):


Unnamed: 0,id_campanha,ingreso_total,ventas
0,2,82276.38,176
1,32,82276.38,176
2,62,82276.38,176
3,77,74175.58,143
4,47,74175.58,143
5,17,74175.58,143
6,26,72562.89,135
7,56,72562.89,135
8,86,72562.89,135
9,19,59607.31,117



💡 Ingreso total por canal (canal):


Unnamed: 0,canal,ingreso_total,ventas
0,Email,1467093.52,3000
1,Rrss,1467093.52,3000
2,Tv,1467093.52,3000


___
##📌 **Conclusión**
El análisis permitió detectar y corregir problemas de **calidad** en los datos, como **duplicados y valores nulos**, asegurando una base confiable para el estudio. La **limpieza y normalización** fueron claves para integrar los datasets y extraer **métricas relevantes**.

En la segunda etapa, se identificaron los **productos de mayor rendimiento** económico, se analizaron las **categorías más rentables** y se evaluó el impacto de las **campañas y canales de marketing** sobre las ventas. Estos **hallazgos** ofrecen una visión clara para orientar **decisiones comerciales y optimizar estrategias futuras**.

___


## 🧾**Plantilla de Conclusiones del análisis de ventas anual**:

- **Volumen total de ventas en el período analizado:** `$1.483.042,93`  
- **Mes con mayor facturación:** `📅 Febrero (💲62.419,50)`  
- **Top 3 productos por ventas:**

   - `1️⃣ Lámpara de mesa — $84.699,15`

   - ` 2️⃣ Auriculares — $74.175,58`

  - ` 3️⃣ Microondas — $72.562,89`  
- **Porcentaje de ventas generado por productos de alto rendimiento (top 20%)**:

  -  📈 Solo 6 productos (20%) generan cerca del **45% de la facturación total**.
  
  `(Lámpara de mesa, Auriculares, Microondas, Cafetera, Cuadro decorativo y Smartphone).`  

- **Las tres categorías principales:** `Electrodomésticos, Electrónica y Decoración`
tienen ingresos totales similares, pero:

  - `Electrodomésticos` muestra **mayor ticket promedio por venta**(≈ $505).

  - `Decoración y Electrónica` tienen **más volumen de unidades vendidas**, pero **menor valor por transacción**.
  - **Conclusión:** los **electrodomésticos**, aunque se vendan menos, **aportan más margen por unidad.**


- **Observaciones de calidad de datos importantes (nulos/duplicados eliminados, columnas problemáticas):**

  - Se **eliminaron valores nulos y duplicados.**
  - Las columnas **precio y fecha_venta requerían limpieza de formato** (símbolos y conversión a datetime).
  - Los **datos de campañas y clientes no presentaron inconsistencias relevantes**.

- **Recomendaciones breves de negocio basadas en los datos:**
  - Potenciar las campañas de marketing en **febrero**, mes con mejor rendimiento.

  - Reforzar el stock y la promoción de los productos top, especialmente los de **decoración y electrónica**.

  - **Analizar los productos fuera del top 20%** para decidir si conviene mejorar su posicionamiento o reemplazarlos.

  - Mantener el **control de calidad en los datos**, asegurando formatos consistentes y actualizaciones mensuales.
