<a href="https://colab.research.google.com/github/Cracko34/Cracko34/blob/main/Copia_de_Pre_Entrega_Ejemplo.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Pre-Entrega

* **Curso:** Data Analytics con Python
* **Comisión:** 25261
* **Alumno:**
* **Fecha:**


**Objetivo:** Explorar, limpiar, transformar e integrar datos de ventas, clientes y marketing para analizar desempeño de productos y efectividad de campañas.

### NOTA:
No se ha respetado el orden de las actividades, para conseguir un mejor resultado.


**Etapa 1: Recopilación y Preparación de Datos (Clases 1 a 4)**

**Etapa 2: Preprocesamiento y Limpieza de Datos (Clases 5 a 8)**

**Actividades (orden):**

* 1.1. Crear un documento en Google Colaboratory y cargar los sets de datos como DataFrames.
  * *1.4. Introducción a Pandas: realizar un análisis exploratorio inicial de los Dataframes.*
  * *1.5. Calidad de Datos: Identificar valores nulos y duplicados en los conjuntos de datos. Documentar el estado inicial de los datos.*
  * *2.1. Limpieza de Datos: Limpiar el conjunto de datos eliminando duplicados y caracteres no deseados. Documentar el proceso y los resultados.*
* 1.2. Realizar un script básico que calcule las ventas mensuales utilizando variables y operadores.
* 1.3. Estructuras de Datos: Desarrollar un programa que almacene los datos de ventas (producto, precio, cantidad). Decidir si conviene utilizar diccionarios o listas.
* 2.2. Transformación de Datos: Aplicar filtros y transformaciones para crear una tabla de ventas que muestre solo los productos con alto rendimiento.
* 2.3. Agregación: Resumir las ventas por categoría de producto y analizar los ingresos generados.
* 2.4. ~Integración de Datos: Combinar los sets de datos de ventas y marketing para obtener una visión más amplia de las tendencias.~

## Etapa 1 - Actividad 1:

***Crear un documento en Google Colaboratory y cargar los sets de datos como DataFrames.***

In [None]:
# ----------------------------------------------------
# Importamos módulos (Librerías basicas)
# ----------------------------------------------------
import pandas as pd
import numpy as np

# ----------------------------------------------------
# Cargamos los DataFrames
# ----------------------------------------------------
ventas    = pd.read_csv("ventas.csv")
clientes  = pd.read_csv("clientes.csv")
marketing = pd.read_csv("marketing.csv")

# ----------------------------------------------------
# Obtenemos una vista rápida
# ----------------------------------------------------
print("ventas:", ventas.shape)
print("clientes:", clientes.shape)
print("marketing:", marketing.shape)

ventas: (3035, 6)
clientes: (567, 5)
marketing: (90, 6)


Al leer los archivos, obtuvimos:

- **ventas:** `(3035, 6)`: **3035 filas** (transacciones registradas) y **6 columnas** (atributos por venta, p. ej., fecha, producto, precio, cantidad).
- **clientes:** `(567, 5)`: **567 filas** (clientes únicos) y **5 columnas** (características del cliente para segmentación/análisis).
- **marketing:** `(90, 6)` : **90 filas** (campañas o acciones de marketing) y **6 columnas** (atributos de la campaña, como canal, fechas, objetivos, etc.).

> Esta verificación confirma el **volumen** y la **estructura básica** de los datasets antes de explorar su contenido. A partir de aquí podremos planear el **preprocesamiento** (fechas, precios, duplicados, nulos).

---
# FUERA DE ORDEN

## Etapa 1 - Actividad 4 y 5

***Introducción a Pandas:** realizar un análisis exploratorio inicial de los
DataFrames.*

***Calidad de Datos:** Identificar valores nulos y duplicados en los conjuntos de
datos. Documentar el estado inicial de los datos.*

Realizaremos:
- `shape` y `info()` para revisar **dimensiones y tipos de datos**,
- `head()` para inspección **muestral**,
- `describe()` para un **resumen estadístico** inicial.

Con estos resultados vamos a decidir:
- Qué columnas necesitan **conversión de tipos** (fechas/numéricos),
- Cómo trataremos **caracteres no deseados** (p. ej., `$`, comas),
- Y si existen **duplicados o nulos** relevantes a documentar.

In [None]:
# ----------------------------------------------------
# Exploración inicial
# ----------------------------------------------------

# ----------------------------------------------------
# Dado que tenemos que "explorar" tres dataframes,
# escribo una función que haga lo necesario, y luego
# la uso con cada uno de los dataframes.
# ----------------------------------------------------
def explorar_simple(df, nombre):
    print()
    print("-"*40)
    print(f"{nombre.upper()} ")
    print("-"*40)

    # ------------------------------------------------
    # Tamaño y tipos de datos
    # ------------------------------------------------
    print("Shape (filas, columnas):", df.shape)
    print("\nTipos de datos:")
    print(df.dtypes)

    # ------------------------------------------------
    # "Calidad" del dataframe (nulos, duplicados, etc)
    # ------------------------------------------------
    print()
    print("-"*40)
    print("Nulos por columna")
    print("-"*40)
    print(df.isna().sum())
    print()
    print("-"*40)
    print("Duplicados (filas exactas):", df.duplicated().sum())
    print("-"*40)

    # ------------------------------------------------
    # Muestra rápida del contenido
    # ------------------------------------------------
    print()
    print("-"*40)
    print("Primeras 5 filas")
    print("-"*40)
    display(df.head(5))

    # ------------------------------------------------
    # Resumen numérico y categórico
    # por separado para evitar problemas de versión
    # ------------------------------------------------
    print()
    num = df.select_dtypes(include="number")
    if not num.empty:
        print("-"*40)
        print("Resumen numérico")
        print("-"*40)
        # .T es para transponer y ver cada columna como fila (más cómodo).
        display(num.describe().T)
    else:
        print("-"*40)
        print("Resumen numérico")
        print("No hay columnas numéricas)")
        print("-"*40)

    cat = df.select_dtypes(include="object")
    if not cat.empty:
        print("-"*40)
        print("Resumen categórico")
        print("-"*40)
        display(cat.describe().T)
    else:
        print("-"*40)
        print("Resumen categórico")
        print("No hay columnas categóricas)")
        print("-"*40)

# Ejecutar para cada dataset
explorar_simple(ventas, "ventas")


----------------------------------------
VENTAS 
----------------------------------------
Shape (filas, columnas): (3035, 6)

Tipos de datos:
id_venta         int64
producto        object
precio          object
cantidad       float64
fecha_venta     object
categoria       object
dtype: object

----------------------------------------
Nulos por columna
----------------------------------------
id_venta       0
producto       0
precio         2
cantidad       2
fecha_venta    0
categoria      0
dtype: int64

----------------------------------------
Duplicados (filas exactas): 35
----------------------------------------

----------------------------------------
Primeras 5 filas
----------------------------------------


Unnamed: 0,id_venta,producto,precio,cantidad,fecha_venta,categoria
0,792,Cuadro decorativo,$69.94,5.0,02/01/2024,Decoración
1,811,Lámpara de mesa,$105.10,5.0,02/01/2024,Decoración
2,1156,Secadora,$97.96,3.0,02/01/2024,Electrodomésticos
3,1372,Heladera,$114.35,8.0,02/01/2024,Electrodomésticos
4,1546,Secadora,$106.21,4.0,02/01/2024,Electrodomésticos



----------------------------------------
Resumen numérico
----------------------------------------


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
id_venta,3035.0,1499.8514,866.465379,1.0,748.5,1502.0,2249.5,3000.0
cantidad,3033.0,6.496538,3.45725,1.0,3.0,7.0,9.0,12.0


----------------------------------------
Resumen categórico
----------------------------------------


Unnamed: 0,count,unique,top,freq
producto,3035,30,Lámpara de mesa,181
precio,3033,2590,$76.32,5
fecha_venta,3035,364,06/04/2024,24
categoria,3035,3,Decoración,1015


In [None]:
# ----------------------------------------------------
# Lo hacemos con clientes
# ----------------------------------------------------
explorar_simple(clientes, "clientes")


----------------------------------------
CLIENTES 
----------------------------------------
Shape (filas, columnas): (567, 5)

Tipos de datos:
id_cliente      int64
nombre         object
edad            int64
ciudad         object
ingresos      float64
dtype: object

----------------------------------------
Nulos por columna
----------------------------------------
id_cliente    0
nombre        0
edad          0
ciudad        0
ingresos      0
dtype: int64

----------------------------------------
Duplicados (filas exactas): 0
----------------------------------------

----------------------------------------
Primeras 5 filas
----------------------------------------


Unnamed: 0,id_cliente,nombre,edad,ciudad,ingresos
0,1,Aloysia Screase,44,Mar del Plata,42294.68
1,2,Kristina Scaplehorn,25,Posadas,24735.04
2,3,Filip Castagne,50,Resistencia,35744.85
3,4,Liuka Luard,39,Bahía Blanca,27647.96
4,5,Dore Cockshtt,28,Rosario,28245.65



----------------------------------------
Resumen numérico
----------------------------------------


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
id_cliente,567.0,284.0,163.823075,1.0,142.5,284.0,425.5,567.0
edad,567.0,37.940035,10.202885,20.0,30.0,37.0,43.0,81.0
ingresos,567.0,34668.739012,12974.531446,170.29,26015.24,35066.83,42457.1,88053.01


----------------------------------------
Resumen categórico
----------------------------------------


Unnamed: 0,count,unique,top,freq
nombre,567,567,Micah Matis,1
ciudad,567,12,Mar del Plata,63


In [None]:
# ----------------------------------------------------
# Y con "marketing"
# ----------------------------------------------------
explorar_simple(marketing, "marketing")


----------------------------------------
MARKETING 
----------------------------------------
Shape (filas, columnas): (90, 6)

Tipos de datos:
id_campanha       int64
producto         object
canal            object
costo           float64
fecha_inicio     object
fecha_fin        object
dtype: object

----------------------------------------
Nulos por columna
----------------------------------------
id_campanha     0
producto        0
canal           0
costo           0
fecha_inicio    0
fecha_fin       0
dtype: int64

----------------------------------------
Duplicados (filas exactas): 0
----------------------------------------

----------------------------------------
Primeras 5 filas
----------------------------------------


Unnamed: 0,id_campanha,producto,canal,costo,fecha_inicio,fecha_fin
0,74,Adorno de pared,TV,4.81,20/03/2024,03/05/2024
1,12,Tablet,RRSS,3.4,26/03/2024,13/05/2024
2,32,Lámpara de mesa,Email,5.54,28/03/2024,20/04/2024
3,21,Smartphone,RRSS,6.37,29/03/2024,16/05/2024
4,58,Alfombra,Email,4.25,31/03/2024,05/05/2024



----------------------------------------
Resumen numérico
----------------------------------------


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
id_campanha,90.0,45.5,26.124701,1.0,23.25,45.5,67.75,90.0
costo,90.0,4.928667,0.94775,2.95,4.3725,4.9,5.5625,7.39


----------------------------------------
Resumen categórico
----------------------------------------


Unnamed: 0,count,unique,top,freq
producto,90,30,Adorno de pared,3
canal,90,3,TV,30
fecha_inicio,90,78,25/09/2024,2
fecha_fin,90,78,05/05/2024,3


# FUERA DE ORDEN
Hacemos este punto ahora, asi podemos avanzar con un dataset limpio...


## Etapa 2 - Actividad 1
***Limpieza de Datos:* Limpiar el conjunto de datos eliminando duplicados y caracteres no deseados. Documentar el proceso y los resultados**

**Hallazgos clave de la exploración:**
- `ventas.precio` está como **texto** con símbolo `$` : convertir a número.
- `ventas.fecha_venta` y `marketing.fecha_inicio/fecha_fin` están como **texto** (formato `dd/mm/aaaa`) : convertir a `datetime` con `dayfirst=True`.
- `ventas.cantidad` tiene **2 nulos** y `ventas.precio` **2 nulos** : estas filas no permiten calcular el importe.
- `ventas` tiene **35 filas duplicadas exactas**.

**Decisiones (documentadas):**
1. **Estandarizar precios**: quitar `$` y convertir a `float`.
2. **Parsear fechas** con `dayfirst=True` (formato local).
3. **Filtrar nulos críticos**: eliminar filas con `precio` o `cantidad` nulo (no se puede calcular el importe).
4. **Eliminar duplicados** exactos en `ventas`.
5. **Crear `importe = precio * cantidad`** para análisis posteriores.

> Nota: preferimos **eliminar** nulos críticos en esta primera entrega para mantener integridad de métricas. En una versión avanzada podríamos imputar, pero aquí priorizamos transparencia y reproducibilidad.


In [None]:
# ----------------------------------------------------
# 0) Controles previos
# Estos datos nos van a servir luego para escribir la
# bitácora o resúmen de nuestras acciones, justificar
# decisiones, etc.
# ----------------------------------------------------

prev_shape = ventas.shape
prev_nulos_precio   = ventas['precio'].isna().sum()
prev_nulos_cantidad = ventas['cantidad'].isna().sum()
prev_dup            = ventas.duplicated().sum()

print("-"*40)
print("Antes de limpiar")
print("-"*40)
print("shape:", prev_shape,
      "| nulos precio:", prev_nulos_precio,
      "| nulos cantidad:", prev_nulos_cantidad,
      "| duplicados:", prev_dup)

----------------------------------------
Antes de limpiar
----------------------------------------
shape: (3035, 6) | nulos precio: 2 | nulos cantidad: 2 | duplicados: 35


In [None]:
# ----------------------------------------------------
# 1) Normalizar 'precio' (string a float)
# ----------------------------------------------------
if 'precio' in ventas.columns:
    ventas['precio'] = (ventas['precio']
                        .astype(str)
                        .str.replace(r'[$,\s]', '', regex=True)
                        .replace({'nan': np.nan}))   # respeta nulos reales
    ventas['precio'] = pd.to_numeric(ventas['precio'], errors='coerce')

In [None]:
# ----------------------------------------------------
# 2) Parsear fechas en "ventas" y "marketing"
# ----------------------------------------------------
if 'fecha_venta' in ventas.columns:
    ventas['fecha_venta'] = pd.to_datetime(ventas['fecha_venta'], dayfirst=True, errors='coerce')

for col in ['fecha_inicio', 'fecha_fin']:
    if col in marketing.columns:
        marketing[col] = pd.to_datetime(marketing[col], dayfirst=True, errors='coerce')

In [None]:
# ----------------------------------------------------
# 3) Eliminar filas con nulos críticos en "ventas"
#    (columnas "precio" y "cantidad")
# ----------------------------------------------------
mask_validos = ventas['precio'].notna() & ventas['cantidad'].notna()
eliminados_nulos = (~mask_validos).sum()
ventas = ventas[mask_validos].copy()

In [None]:
# ----------------------------------------------------
# 4) Eliminar duplicados exactos en ventas
# ----------------------------------------------------
len_antes = len(ventas)
ventas = ventas.drop_duplicates().copy()
len_despues = len(ventas)
dup_eliminados = len_antes - len_despues
print("Duplicados eliminados:", dup_eliminados)

Duplicados eliminados: 0


In [None]:
# ----------------------------------------------------
# 5) Crear importe
# ----------------------------------------------------
ventas['importe'] = ventas['precio'] * ventas['cantidad']

In [None]:
# ----------------------------------------------------
# 6) Reporte post-limpieza
# ----------------------------------------------------
print("-"*40)
print("Después de limpiar")
print("-"*40)
print("shape:", ventas.shape)
print("Filas eliminadas por nulos críticos (precio/cantidad):", eliminados_nulos)
print("Duplicados eliminados:", dup_eliminados)

----------------------------------------
Después de limpiar
----------------------------------------
shape: (2998, 7)
Filas eliminadas por nulos críticos (precio/cantidad): 2
Duplicados eliminados: 0


In [None]:
# ----------------------------------------------------
# 7) Chequeo rápido
# ----------------------------------------------------
print("-"*40)
print("Chequeo rápido (post):")
print("-"*40)
print("nulos importe:", ventas['importe'].isna().sum())
print("rango fechas ventas:", ventas['fecha_venta'].min(), "a", ventas['fecha_venta'].max())

# Vista mínima
print()
display(ventas.head(3))

----------------------------------------
Chequeo rápido (post):
----------------------------------------
nulos importe: 0
rango fechas ventas: 2024-01-02 00:00:00 a 2024-12-30 00:00:00



Unnamed: 0,id_venta,producto,precio,cantidad,fecha_venta,categoria,importe
0,792,Cuadro decorativo,69.94,5.0,2024-01-02,Decoración,349.7
1,811,Lámpara de mesa,105.1,5.0,2024-01-02,Decoración,525.5
2,1156,Secadora,97.96,3.0,2024-01-02,Electrodomésticos,293.88


# VOLVEMOS AL ORDEN "NORMAL"

## Etapa 1 - Actividad 2

*Realizar un **script básico** que calcule las ventas mensuales utilizando variables y operadores.*


Vamos a sumar las ventas por mes usando **variables, operadores y un bucle**, evitando funciones de agregación como `groupby` o `pivot_table`.

**Pasos:**

1. **Preparación:** el DataFrame `ventas` ya tiene `fecha_venta` como `datetime64`

2. Creamos la columna `importe` (`precio * cantidad`).

3. **Acumulador:** creamos un diccionario llamado `totales`. La **clave** será una **tupla** `(año, mes)` y el **valor** el total acumulado de `importe`.

4. **Recorrido:** iteramos las filas con `itertuples()` y, para cada fila válida:

   * Obtenemos `año = fecha_venta.year` y `mes = fecha_venta.month`.
   * Hacemos `totales[(año, mes)] += importe`.
   * Si la fila tiene `fecha_venta` o `importe` nulos, la **omitimos**.
   
4. **Orden y salida:** ordenamos las claves `(año, mes)` y mostramos un listado tipo `YYYY-MM: $ total`. También reportamos cuántas filas **procesamos** y cuántas **omitimos**.

**Notas:**

* Si hay varios años mezclados, funciona igual (la clave `(año, mes)` los separa).
* Si hubiera importes negativos (devoluciones), se suman tal cual. Si queremos excluirlos, agregariamos algo como `if importe > 0:` antes de acumular.

In [None]:
# ----------------------------------------------------
# Configuración (opcional): nombres de meses para
# imprimir al final un reporte más legible.
# ----------------------------------------------------
MESES_NOMBRE = {
    1:"Enero", 2:"Febrero", 3:"Marzo", 4:"Abril",
    5:"Mayo", 6:"Junio", 7:"Julio", 8:"Agosto",
    9:"Septiembre", 10:"Octubre", 11:"Noviembre", 12:"Diciembre"
}

# ----------------------------------------------------
# Diccionario acumulador por (año, mes)
# ----------------------------------------------------
totales = {}

# ----------------------------------------------------
# Contadores de control (Siempre ayuda tener info
# extra para realizar una pequeña para auditoría
# simple al final)
# ----------------------------------------------------
filas_procesadas = 0
filas_omitidas = 0

# ----------------------------------------------------
# Validaciones: chequear que existan las columnas clave
# (Sabemos que están, pero lo hacemos como práctica)
# ----------------------------------------------------
if not {"fecha_venta", "importe"}.issubset(ventas.columns):
    print()
    print("-"*40)
    print("ERROR: Faltan columnas requeridas")
    print("-"*40)

# ----------------------------------------------------
# Recorrer el DataFrame fila por fila
# ----------------------------------------------------
for fila in ventas.itertuples(index=False):
    # Acceso por atributo, con el nombres exacto de las columnas
    # (Si no existe la columna, devuelve NaT/nan)
    fecha = getattr(fila, "fecha_venta", pd.NaT)
    importe = getattr(fila, "importe", np.nan)

    # Omitimos filas con fecha/importe inválidos
    if pd.isna(fecha) or pd.isna(importe):
        filas_omitidas += 1
        continue

    # Esto es por si queremos excluir importes <= 0:
    # if importe <= 0:
    #     filas_omitidas += 1
    #     continue

    # Clave (año, mes) y acumulación
    clave = (fecha.year, fecha.month)  # p.ej., (2024, 3)
    totales[clave] = totales.get(clave, 0.0) + float(importe)
    filas_procesadas += 1

# ----------------------------------------------------
# Ordenar resultados por año y mes
# ----------------------------------------------------
claves_ordenadas = sorted(totales.keys())

# Imprimir resultados
print()
print("-"*40)
print("Ventas mensuales")
print("-"*40)
for (anio, mes) in claves_ordenadas:
    total = totales[(anio, mes)]
    # Formato: YYYY-MM y nombre del mes
    etiqueta_mes = f"{anio}-{mes:02d} ({MESES_NOMBRE.get(mes, str(mes))})"
    print(f"{etiqueta_mes}: $ {total:.2f}")

print()
print("-"*40)
print("Resumen de control")
print(f"Filas procesadas: {filas_procesadas}")
print(f"Filas omitidas  : {filas_omitidas}")
print("-"*40)

# ----------------------------------------------------
# (Opcional) Si queremos un DataFrame de salida lo
# construimos "a mano" a partir del diccionario
# ----------------------------------------------------

resumen_rows = [
    {"anio": anio, "mes": mes, "mes_nombre": MESES_NOMBRE.get(mes, str(mes)), "total_ventas": totales[(anio, mes)]}
    for (anio, mes) in claves_ordenadas
]
resumen_df = pd.DataFrame(resumen_rows, columns=["anio", "mes", "mes_nombre", "total_ventas"])

# Orden amigable por (anio, mes)
resumen_df = resumen_df.sort_values(["anio", "mes"], ascending=[True, True]).reset_index(drop=True)

print()
print("-"*40)
print("Dataframe resumen")
print("-"*40)
display(resumen_df)


----------------------------------------
Ventas mensuales
----------------------------------------
2024-01 (Enero): $ 129604.99
2024-02 (Febrero): $ 118672.44
2024-03 (Marzo): $ 136779.15
2024-04 (Abril): $ 128430.69
2024-05 (Mayo): $ 143727.25
2024-06 (Junio): $ 108480.17
2024-07 (Julio): $ 116229.97
2024-08 (Agosto): $ 119680.15
2024-09 (Septiembre): $ 115787.85
2024-10 (Octubre): $ 112117.13
2024-11 (Noviembre): $ 119951.79
2024-12 (Diciembre): $ 117631.94

----------------------------------------
Resumen de control
Filas procesadas: 2998
Filas omitidas  : 0
----------------------------------------

----------------------------------------
Dataframe resumen
----------------------------------------


Unnamed: 0,anio,mes,mes_nombre,total_ventas
0,2024,1,Enero,129604.99
1,2024,2,Febrero,118672.44
2,2024,3,Marzo,136779.15
3,2024,4,Abril,128430.69
4,2024,5,Mayo,143727.25
5,2024,6,Junio,108480.17
6,2024,7,Julio,116229.97
7,2024,8,Agosto,119680.15
8,2024,9,Septiembre,115787.85
9,2024,10,Octubre,112117.13


## Etapa 1 - Actividad 3

***Estructuras de Datos:** Desarrollar un programa que almacene los datos de
ventas (producto, precio, cantidad).*

*Decidir si conviene utilizar diccionarios o listas*


**Solución posible:**
Elijo usar una lista de diccionarios. Es una estructura simple, que me sirve para iterar, filtrar o calcular totales con un bucle si es necesario. El código tambien es **muy sencillo**:




* `registros = []`
  Crea una **lista vacía** donde guardo cada venta como un diccionario.

* `for fila in ventas.itertuples(index=False):`
  Recorre el DataFrame **fila por fila** usando tuplas con **acceso por atributo** (`fila.precio`, `fila.cantidad`, etc.). `index=False` evita incluir el índice en la tupla.

* Dentro del bucle se **valida** que los tres campos obligatorios no sean nulos. Si falta alguno, se **salta** esa fila.

* `registros.append({...})`
  construye un **diccionario** con las 3 claves (`producto`, `precio`, `cantidad`) y lo agrega a la lista.
  Se usa `float(...)` para asegurar que `precio` y `cantidad` queden en **numérico** (útil para cálculos posteriores).

Resultado: `registros` queda como una **lista de diccionarios**.



In [None]:
# ----------------------------------------------------
# Iteramos por el dataset, armando una lista de
# diccionarios con el contenido pedido.
# ----------------------------------------------------
registros = []
for fila in ventas.itertuples(index=False):
    if pd.isna(fila.precio) or pd.isna(fila.cantidad) or pd.isna(fila.producto):
        continue
    registros.append({
        "producto": fila.producto,
        "precio": float(fila.precio),
        "cantidad": float(fila.cantidad),
    })

# ----------------------------------------------------
# No se pide mostrarlos, pero queremos "ver" que tiene
# la estructura que creamos...
# ----------------------------------------------------
display(registros)

[{'producto': 'Cuadro decorativo', 'precio': 69.94, 'cantidad': 5.0},
 {'producto': 'Lámpara de mesa', 'precio': 105.1, 'cantidad': 5.0},
 {'producto': 'Secadora', 'precio': 97.96, 'cantidad': 3.0},
 {'producto': 'Heladera', 'precio': 114.35, 'cantidad': 8.0},
 {'producto': 'Secadora', 'precio': 106.21, 'cantidad': 4.0},
 {'producto': 'Horno eléctrico', 'precio': 35.35, 'cantidad': 9.0},
 {'producto': 'Plancha de vapor', 'precio': 65.43, 'cantidad': 2.0},
 {'producto': 'Proyector', 'precio': 88.17, 'cantidad': 9.0},
 {'producto': 'Rincón de plantas', 'precio': 79.86, 'cantidad': 11.0},
 {'producto': 'Candelabro', 'precio': 66.11, 'cantidad': 8.0},
 {'producto': 'Aspiradora', 'precio': 95.9, 'cantidad': 5.0},
 {'producto': 'Freidora eléctrica', 'precio': 111.18, 'cantidad': 1.0},
 {'producto': 'Aspiradora', 'precio': 70.91, 'cantidad': 2.0},
 {'producto': 'Proyector', 'precio': 43.62, 'cantidad': 11.0},
 {'producto': 'Tablet', 'precio': 67.97, 'cantidad': 9.0},
 {'producto': 'Tablet', '

## Etapa 2 - Actividad 2

***Transformación de Datos:** Aplicar filtros y transformaciones para crear una tabla de ventas que muestre solo los productos con alto rendimiento.*

----

### Posible(s) respuesta(s):
Obviamente, hay muchas maneras de considerar una venta como "de alto rendimiento". Podemos pensar en dos muy sencillas:

* **Mínimo de ventas:** un producto es "de buen rendimiento" si aparece en al menos una determinada cantidad de operaciones (`ventas ≥ MIN_VENTAS`).

* **Top por ingresos:** los productos que más dinero generaron (`ingresos_totales = suma de importe`).


Vamos a implementar ambas:

In [None]:
# ----------------------------------------------------
# Transformación simple: productos con buen rendimiento
# ----------------------------------------------------
# Requisitos:
#   El DataFrame 'ventas' las con columnas:
#   - producto (str)
#   - cantidad (numérico)
#   - importe  (numérico)
# ----------------------------------------------------

# ----------------------------------------------------
# Parámetros
# ----------------------------------------------------
MIN_VENTAS = 120   # criterio 1
TOP_N      = 10   # criterio 2 (cantidad de productos)


# ----------------------------------------------------
# Validaciones mínimas: ¿Están las columnas?
# ----------------------------------------------------
requeridas = {"producto", "cantidad", "importe"}
faltan = requeridas - set(ventas.columns)
if faltan:
    raise ValueError(f"Faltan columnas requeridas en 'ventas': {faltan}")

# ----------------------------------------------------
# Agregación por producto
# ----------------------------------------------------
tabla_por_producto = (
    ventas.groupby("producto", as_index=False)
          .agg(
              ingresos_totales=("importe", "sum"),
              unidades_totales=("cantidad", "sum"),
              ventas=("producto", "size"),
          )
)

# ----------------------------------------------------
# Ordenamos por ingresos, descendente, sin indice
# ----------------------------------------------------
tabla_ordenada = tabla_por_producto.sort_values("ingresos_totales", ascending=False).reset_index(drop=True)

# ----------------------------------------------------
# Criterio 1: filtro "ventas ≥ MIN_VENTAS"
# ----------------------------------------------------
buen_rendimiento_min_ventas = (
    tabla_ordenada.loc[tabla_ordenada["ventas"] >= MIN_VENTAS]
)

# ----------------------------------------------------
# Criterio 2: Top-N por ingresos (con manejo de umbral)
# Para evitar posibles errores, verificamos cantidad de
# registros, etc. (no es indispensable, pero...suma)
# ----------------------------------------------------
if len(tabla_ordenada) > 0:
    if len(tabla_ordenada) >= TOP_N:
        umbral = float(tabla_ordenada.iloc[TOP_N - 1]["ingresos_totales"])
        top_por_ingresos = tabla_ordenada.loc[tabla_ordenada["ingresos_totales"] >= umbral]
    else:
        top_por_ingresos = tabla_ordenada.copy()
else:
    top_por_ingresos = tabla_ordenada.copy()


# ----------------------------------------------------
# Salida
# ----------------------------------------------------
print()
print("-"*40)
print("Criterio 1: productos con ventas ≥", MIN_VENTAS)
print("-"*40)
display(buen_rendimiento_min_ventas)

print()
print("-"*40)
print(f"Criterio 2: Top-{TOP_N} por ingresos")
print("-"*40)
display(top_por_ingresos)

# Mini resumen
print()
print("-"*40)
print("Resumen")
print("-"*40)

print("Total productos distintos...:", len(tabla_por_producto))
print("Cumplen ventas ≥ MIN_VENTAS :", len(buen_rendimiento_min_ventas))
print(f"En Top-{TOP_N} por ingresos......:", len(top_por_ingresos))



----------------------------------------
Criterio 1: productos con ventas ≥ 120
----------------------------------------


Unnamed: 0,producto,ingresos_totales,unidades_totales,ventas
0,Lámpara de mesa,82276.38,1112.0,176
1,Auriculares,74175.58,958.0,143
2,Microondas,72562.89,912.0,135



----------------------------------------
Criterio 2: Top-10 por ingresos
----------------------------------------


Unnamed: 0,producto,ingresos_totales,unidades_totales,ventas
0,Lámpara de mesa,82276.38,1112.0,176
1,Auriculares,74175.58,958.0,143
2,Microondas,72562.89,912.0,135
3,Cafetera,59607.31,765.0,117
4,Cuadro decorativo,54297.6,726.0,100
5,Smartphone,54132.44,665.0,101
6,Secadora,52115.45,696.0,100
7,Jarrón decorativo,51130.88,672.0,100
8,Batidora,50979.2,672.0,100
9,Rincón de plantas,50456.45,691.0,101



----------------------------------------
Resumen
----------------------------------------
Total productos distintos...: 30
Cumplen ventas ≥ MIN_VENTAS : 3
En Top-10 por ingresos......: 10


## Etapa 2 - Actividad 3:

***Agregación:** Resumir las ventas por categoría de producto y analizar los
ingresos generados.*

#### Opción A — Resumen clásico (ranking y participación)

Muestra ingresos por categoría, volumen y ticket, más % de participación del total.

Este "resumen clásico" es ideal para un **ranking** y para ver rápido **qué categorías traccionan más** (ingresos y %).

In [None]:
# OPCION A: Resumen "clásico" por categoría

# ----------------------------------------------------
# 1) Agrupar y resumir por categoría
# ----------------------------------------------------
resumen_cat = (
    ventas.groupby('categoria', as_index=False)
          .agg(ingresos=('importe','sum'),
               unidades=('cantidad','sum'),
               transacciones=('id_venta','count'))
          .sort_values('ingresos', ascending=False)
)

# ----------------------------------------------------
# 2) Participación de cada categoría sobre el total
# ----------------------------------------------------
total_ingresos = resumen_cat['ingresos'].sum()
resumen_cat['participacion_%'] = (resumen_cat['ingresos'] / total_ingresos * 100).round(2)

# ----------------------------------------------------
# 3) Ticket promedio por transacción
# ----------------------------------------------------
resumen_cat['ticket_promedio'] = (resumen_cat['ingresos'] / resumen_cat['transacciones']).round(2)

# ----------------------------------------------------
# Mostramos resultados
# ----------------------------------------------------
display(resumen_cat)

Unnamed: 0,categoria,ingresos,unidades,transacciones,participacion_%,ticket_promedio
1,Electrodomésticos,505299.63,6592.0,1000,34.44,505.3
2,Electrónica,482577.8,6413.0,998,32.89,483.54
0,Decoración,479216.09,6490.0,1000,32.66,479.22


Veamos "paso a paso" que hace el código anterior:

### 1) Agrupar y resumir por categoría

* `ventas.groupby('categoria', as_index=False)` junta todas las filas que tienen la **misma categoría** para poder calcular agregados por grupo.

* `as_index=False` hace que la columna `categoria` quede como **columna normal** (no como índice).

* `.agg(...)`calcula, para cada categoría:

  * `ingresos`: suma de `importe` (cuánta plata entró).
  * `unidades`: suma de `cantidad` (cuántas unidades se vendieron).
  * `transacciones`: conteo de `id_venta` (cuántas filas/ventas hubo).

* `.sort_values('ingresos', ascending=False)` ordena el resultado de mayor a menor **por ingresos** para ver primero las categorías que más facturan.

Al terminar este bloque, `resumen_cat` es una tabla con 4 columnas: `categoria`, `ingresos`, `unidades`, `transacciones`, ordenada por `ingresos`.



### 2) Participación de cada categoría sobre el total

* `total_ingresos` suma todos los ingresos de todas las categorías.
* `participacion_%` para cada fila, divide el ingreso de esa categoría por el total y lo pasa a **porcentaje**, redondeado a 2 decimales.

> Esto responde: *“¿qué porcentaje del total de ingresos aporta cada categoría?”*



### 3) Ticket promedio por transacción

* Calcula **ingreso promedio por venta** (no por unidad). Si una categoría tuvo $1000 de ingresos en 50 ventas, el ticket promedio es $20.


### 4) Mostrar el resultado

* Muestra la tabla final, con `categoria | ingresos | unidades | transacciones | participacion_% | ticket_promedio`.

#### Opción B — Tendencia temporal (matriz mes x categoría)

Muestra cómo evoluciona el **ingreso mensual** por **categoría**. Permite:

* Ver **estacionalidad** (meses fuertes/débiles por categoría).
* Detectar **picos** o **caídas** puntuales.
* Servir de base para **gráficos** rápidos:

In [None]:
# OPCION B: Ventas mensuales por categoría (matriz)

# ----------------------------------------------------
# 1) Generar la clave temporal "año-mes"
# ----------------------------------------------------
ventas['anio_mes'] = ventas['fecha_venta'].dt.to_period('M').astype(str)

# ----------------------------------------------------
# 2) Armar la matriz "mes x categoría" con los ingresos
# ----------------------------------------------------
tabla_mensual_cat = pd.pivot_table(
    ventas,
    values='importe',
    index='anio_mes',
    columns='categoria',
    aggfunc='sum',
    fill_value=0
).sort_index()

# ----------------------------------------------------
# Mostramos resultados
# ----------------------------------------------------
display(tabla_mensual_cat)

categoria,Decoración,Electrodomésticos,Electrónica
anio_mes,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2024-01,47328.61,40504.6,41771.78
2024-02,44907.81,34963.72,38800.91
2024-03,42796.48,44521.13,49461.54
2024-04,42363.49,47045.69,39021.51
2024-05,46195.78,55743.24,41788.23
2024-06,34997.37,36422.38,37060.42
2024-07,34287.87,41420.84,40521.26
2024-08,35519.57,41983.6,42176.98
2024-09,36128.46,39864.84,39794.55
2024-10,34280.27,36940.4,40896.46


Analicemos el código anterior....

### 1) Generar la clave temporal "año-mes"

* `ventas['fecha_venta']` es `datetime`.
* `.dt.to_period('M')` lo lleva a **periodos mensuales** (ej. `2024-03`).
* `.astype(str)` lo convierte a string para que sea una **columna común** y ordenable (formato `YYYY-MM`).

Como resultado, cada fila de venta queda etiquetada con su mes (`anio_mes`).



### 2) Armar la **matriz mes x categoría** (ingresos)

* `pd.pivot_table(...)` "reacomoda" la tabla:

  * **index='anio_mes'** hace que hay una fila por cada mes.
  * **columns='categoria'** crea una columna por cada categoría de producto.
  * **values='importe'** es cuánto **ingresó** en ese mes para esa categoría.
  * **aggfunc='sum'** suma los importes (si hay varias ventas en la misma celda).
  * **fill_value=0** evita el `NaN` si no hubo ventas en esa combinación mes-categoría. Pone **0** en lugar de `NaN`.
* `.sort_index()` nos asegura el orden cronológico, por `anio_mes`.

Esto da como resultado una **matriz** donde vemos, mes por mes, cuánto facturó cada categoría.


### 3) Mostramos resultados

* Vista de la tabla final, lista para **analizar estacionalidad** y comparar categorías.

## Etapa 2 - Actividad 4

***Integración de Datos:** Combinar los sets de datos de ventas y marketing
para obtener una visión más amplia de las tendencias.*

Para hacer este punto necesitamos transitar la clase nro 8 (semana próxima) donde veremos como llevar a cabo la combinación de diferentes fuentes de datos en Python, Numpy y Pandas mediante `merge()` y `join()`.