# 🐼 Taller de Pandas: Análisis de Datos de Ventas (Modificado)

In [1]:
import pandas as pd
import numpy as np
from datetime import datetime, timedelta
import random

# Nuevos productos y categorías
productos = ['Refrigerador', 'Lavadora', 'Microondas', 'Licuadora', 'Plancha', 'Aspiradora']
categorias = {
    'Refrigerador': 'Línea Blanca',
    'Lavadora': 'Línea Blanca',
    'Microondas': 'Electrodomésticos',
    'Licuadora': 'Electrodomésticos',
    'Plancha': 'Electrodomésticos',
    'Aspiradora': 'Electrodomésticos'
}
regiones = ['Norte', 'Sur', 'Este', 'Oeste']
clientes = [f'Cliente_{i}' for i in range(1, 21)]

# Generar datos
np.random.seed(42)
fechas = [datetime(2023, 1, 1) + timedelta(days=random.randint(0, 364)) for _ in range(500)]
productos_sample = [random.choice(productos) for _ in range(500)]
categorias_sample = [categorias[p] for p in productos_sample]
regiones_sample = [random.choice(regiones) for _ in range(500)]
clientes_sample = [random.choice(clients) for clients in clientes for _ in range(25)][:500]
cantidades = np.random.randint(1, 10, size=500)
precios_unitarios = [random.randint(100, 1000) for _ in range(500)]
total_venta = [c * p for c, p in zip(cantidades, precios_unitarios)]

# Crear DataFrame
df = pd.DataFrame({
    'Fecha': fechas,
    'Producto': productos_sample,
    'Categoría': categorias_sample,
    'Región': regiones_sample,
    'Cliente': clientes_sample,
    'Cantidad': cantidades,
    'Precio Unitario': precios_unitarios,
    'Total Venta': total_venta
})
df.head()

Unnamed: 0,Fecha,Producto,Categoría,Región,Cliente,Cantidad,Precio Unitario,Total Venta
0,2023-06-16,Microondas,Electrodomésticos,Este,e,7,317,2219
1,2023-08-11,Microondas,Electrodomésticos,Sur,e,4,798,3192
2,2023-02-26,Aspiradora,Electrodomésticos,Sur,e,8,965,7720
3,2023-08-25,Plancha,Electrodomésticos,Este,t,5,701,3505
4,2023-09-23,Refrigerador,Línea Blanca,Sur,t,7,305,2135


## 🔍 Análisis de datos

In [2]:
# Ventas por región
ventas_por_region = df['Región'].value_counts()
ventas_por_region

Región
Sur      136
Oeste    134
Este     116
Norte    114
Name: count, dtype: int64

In [3]:
# Ingreso total por categoría
ingreso_por_categoria = df.groupby('Categoría')['Total Venta'].sum()
ingreso_por_categoria

Categoría
Electrodomésticos    870528
Línea Blanca         472441
Name: Total Venta, dtype: int32

In [4]:
# Cliente que más compró
cliente_frecuente = df['Cliente'].value_counts().idxmax()
cliente_frecuente

'e'

In [5]:
# Contamos la cantidad de productos diferentes que compra cada cliente
productos_por_cliente = df.groupby('Cliente')['Producto'].nunique().reset_index(name='Cantidad de Productos')
# Filtramos los clientes que solo compran un producto
clientes_un_producto = productos_por_cliente[productos_por_cliente['Cantidad de Productos'] == 1]
print(clientes_un_producto)


Empty DataFrame
Columns: [Cliente, Cantidad de Productos]
Index: []
