# 🐼 Taller de Pandas: Análisis de Datos de Ventas

Bienvenido al taller interactivo de Pandas. En esta clase de 2 horas aprenderás a manipular, analizar y visualizar datos usando Python y Pandas.

---

## 🎯 Objetivos
- Explorar y limpiar datos con Pandas.
- Realizar análisis exploratorio de datos.
- Visualizar patrones y tendencias.
- Resolver desafíos en equipo.

---

## 📦 Dataset
Simularemos un conjunto de datos de ventas con las siguientes columnas:

- `Fecha`
- `Producto`
- `Categoría`
- `Región`
- `Cliente`
- `Cantidad`
- `Precio Unitario`
- `Total Venta`

¡Comencemos! 🚀


In [None]:

import pandas as pd
import numpy as np
from datetime import datetime, timedelta
import random

# Parámetros
productos = ['Laptop', 'Tablet', 'Smartphone', 'Monitor', 'Teclado', 'Mouse']
categorias = {'Laptop': 'Electrónica', 'Tablet': 'Electrónica', 'Smartphone': 'Electrónica',
              'Monitor': 'Accesorios', 'Teclado': 'Accesorios', 'Mouse': 'Accesorios'}
regiones = ['Norte', 'Sur', 'Este', 'Oeste']
clientes = [f'Cliente_{i}' for i in range(1, 21)]

# Generar datos
np.random.seed(42)
fechas = [datetime(2023, 1, 1) + timedelta(days=random.randint(0, 364)) for _ in range(500)]
productos_sample = [random.choice(productos) for _ in range(500)]
categorias_sample = [categorias[p] for p in productos_sample]
regiones_sample = [random.choice(regiones) for _ in range(500)]
clientes_sample = [random.choice(clientes) for _ in range(500)]
cantidades = np.random.randint(1, 10, size=500)
precios_unitarios = [random.randint(100, 1000) for _ in range(500)]
total_venta = [c * p for c, p in zip(cantidades, precios_unitarios)]

# Crear DataFrame
df = pd.DataFrame({
    'Fecha': fechas,
    'Producto': productos_sample,
    'Categoría': categorias_sample,
    'Región': regiones_sample,
    'Cliente': clientes_sample,
    'Cantidad': cantidades,
    'Precio Unitario': precios_unitarios,
    'Total Venta': total_venta
})

df.head()


## 🔍 Exploración Inicial

Veamos las primeras filas, tipos de datos y valores nulos.


In [None]:

df.info()
df.describe()
df.isnull().sum()


## 🧪 Ejercicios Guiados

1. ¿Cuántas ventas se realizaron por región?
2. ¿Cuál fue el ingreso total por categoría?
3. ¿Qué cliente compró más veces?


In [None]:

# 1. Ventas por región
print(df['Región'].value_counts())

# 2. Ingreso total por categoría
print(df.groupby('Categoría')['Total Venta'].sum())

# 3. Cliente con más compras
print(df['Cliente'].value_counts().head(1))


## 📊 Visualización de Datos

Vamos a crear algunos gráficos para entender mejor los datos.


In [None]:

import matplotlib.pyplot as plt
import seaborn as sns

# Ventas por región
df['Región'].value_counts().plot(kind='bar', title='Ventas por Región')
plt.show()

# Ingreso por categoría
df.groupby('Categoría')['Total Venta'].sum().plot(kind='pie', autopct='%1.1f%%', title='Ingresos por Categoría')
plt.ylabel('')
plt.show()

# Mapa de calor de correlación
sns.heatmap(df[['Cantidad', 'Precio Unitario', 'Total Venta']].corr(), annot=True, cmap='coolwarm')
plt.title('Correlación entre variables')
plt.show()


## 🤝 Desafíos por Equipos

Trabaja en grupo para resolver los siguientes desafíos:

1. ¿Cuál es el producto más vendido por región?
2. ¿Qué mes tuvo más ingresos?
3. ¿Qué cliente generó más ingresos?

Usa `groupby`, `agg`, `sort_values` y `dt.month` para resolverlos.


In [None]:
# 1. Producto más vendido por región
print("\nProducto más vendido por región:")
resultado1 = df.groupby(['Región', 'Producto'])['Cantidad'].sum().reset_index()
resultado1 = resultado1.loc[resultado1.groupby('Región')['Cantidad'].idxmax()]
print(resultado1[['Región', 'Producto', 'Cantidad']])

In [None]:
# 2. Mes con más ingresos
print("\nMes con más ingresos:")
df['Mes'] = df['Fecha'].dt.month
ingresos_por_mes = df.groupby('Mes')['Total Venta'].sum().reset_index()
mes_max_ingresos = ingresos_por_mes.loc[ingresos_por_mes['Total Venta'].idxmax()]
print(f"Mes {mes_max_ingresos['Mes']} con ${mes_max_ingresos['Total Venta']:,.2f} en ingresos")

In [None]:
# 3. Cliente que generó más ingresos
print("\nCliente que generó más ingresos:")
cliente_max_ingresos = df.groupby('Cliente')['Total Venta'].sum().nlargest(1)
print(cliente_max_ingresos)

## 🧩 Reto Final: Misterio de Datos

Encuentra una anomalía o patrón interesante en los datos. Algunas ideas:

- ¿Hay algún cliente que solo compra un producto?
- ¿Algún producto tiene un precio unitario inusualmente alto?
- ¿Hay días con ventas inusualmente altas?

¡Sé creativo y presenta tus hallazgos!


In [None]:
# Análisis de anomalías
print("\nAnálisis de anomalías:")

# 1. Clientes que solo compran un producto
clientes_un_producto = df.groupby('Cliente')['Producto'].nunique()
clientes_exclusivos = clientes_un_producto[clientes_un_producto == 1]
print(f"\nClientes que solo compran un producto ({len(clientes_exclusivos)}):")
print(clientes_exclusivos)

In [None]:
# 2. Productos con precios inusualmente altos
precio_umbral = df['Precio Unitario'].quantile(0.99)
productos_caros = df[df['Precio Unitario'] > precio_umbral]['Producto'].unique()
print(f"\nProductos con precios superiores al percentil 99 (${precio_umbral:.2f}):")
print(productos_caros)


In [None]:


# Visualización de días con altas ventas
plt.figure(figsize=(12, 6))
ventas_por_dia.plot(color='blue', alpha=0.7, label='Ventas diarias')
plt.axhline(y=venta_umbral, color='red', linestyle='--', label='Umbral de ventas altas')
plt.scatter(
    dias_altas_ventas.index,
    dias_altas_ventas.values,
    color='red',
    s=100,
    label='Días con ventas altas'
)
plt.title('Ventas Diarias y Días con Ventas Excepcionales', fontsize=14)
plt.xlabel('Fecha', fontsize=12)
plt.ylabel('Total de Ventas ($)', fontsize=12)
plt.legend()
plt.grid(True, linestyle='--', alpha=0.7)
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

## ✅ Cierre y Reflexión

- ¿Qué aprendiste hoy?
- ¿Qué fue lo más desafiante?
- ¿Cómo aplicarías Pandas en tu trabajo o estudios?

¡Gracias por participar! 🎉
