<a href="https://colab.research.google.com/github/fabiansep/TalentOps/blob/main/Filtrado%2C_Agrupaci%C3%B3n_y_Merge_de_Datos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
import pandas as pd
import numpy as np

# Dataset de ventas
ventas = pd.DataFrame({
    'id_venta': range(1, 11),
    'id_cliente': np.random.choice([1, 2, 3, 4, 5], 10),
    'id_producto': np.random.choice([101, 102, 103, 104], 10),
    'cantidad': np.random.randint(1, 5, 10),
    'fecha': pd.date_range('2024-01-01', periods=10, freq='D')
})

# Dataset de clientes
clientes = pd.DataFrame({
    'id_cliente': [1, 2, 3, 4, 5],
    'nombre': ['Ana', 'Carlos', 'María', 'Juan', 'Luis'],
    'ciudad': ['Madrid', 'Barcelona', 'Madrid', 'Valencia', 'Sevilla']
})

# Dataset de productos
productos = pd.DataFrame({
    'id_producto': [101, 102, 103, 104],
    'nombre': ['Laptop', 'Mouse', 'Teclado', 'Monitor'],
    'precio': [1200, 25, 80, 300],
    'categoria': ['Electrónica', 'Accesorios', 'Accesorios', 'Electrónica']
})

print("Datasets creados:")
print(f"Ventas: {ventas.shape}")
print(f"Clientes: {clientes.shape}")
print(f"Productos: {productos.shape}")

Datasets creados:
Ventas: (10, 5)
Clientes: (5, 3)
Productos: (4, 4)


In [2]:
# Ventas del mes actual con query
ventas_recientes = ventas.query('fecha >= "2024-01-05"')
print(f"\nVentas recientes: {len(ventas_recientes)}")

# Productos caros usando variable externa
precio_limite = 100
productos_caros = productos.query('precio >= @precio_limite')
print(f"Productos caros (>= {precio_limite}): {productos_caros['nombre'].tolist()}")


Ventas recientes: 6
Productos caros (>= 100): ['Laptop', 'Monitor']


In [3]:
# Ventas por producto
ventas_por_producto = ventas.groupby('id_producto')['cantidad'].sum()
print(f"\nVentas por producto:\n{ventas_por_producto}")

# Estadísticas por cliente
stats_por_cliente = ventas.groupby('id_cliente').agg({
    'cantidad': ['sum', 'mean'],
    'id_venta': 'count'
})
print(f"\nEstadísticas por cliente:\n{stats_por_cliente}")


Ventas por producto:
id_producto
101    12
103     9
104     2
Name: cantidad, dtype: int64

Estadísticas por cliente:
           cantidad      id_venta
                sum mean    count
id_cliente                       
1                 5  2.5        2
2                12  2.4        5
3                 2  2.0        1
5                 4  2.0        2


In [4]:
# Unir ventas con productos
ventas_productos = pd.merge(ventas, productos, on='id_producto')

# Calcular totales
ventas_productos['total'] = ventas_productos['cantidad'] * ventas_productos['precio']

# Unir con clientes
analisis_completo = pd.merge(ventas_productos, clientes, on='id_cliente')

print(f"\nAnálisis completo (primeras 5 filas):\n{analisis_completo.head()}")

# Análisis por ciudad
ventas_por_ciudad = analisis_completo.groupby('ciudad')['total'].sum()
print(f"\nVentas totales por ciudad:\n{ventas_por_ciudad}")


Análisis completo (primeras 5 filas):
   id_venta  id_cliente  id_producto  cantidad      fecha nombre_x  precio  \
0         1           5          101         3 2024-01-01   Laptop    1200   
1         2           3          101         2 2024-01-02   Laptop    1200   
2         3           2          104         1 2024-01-03  Monitor     300   
3         4           1          104         1 2024-01-04  Monitor     300   
4         5           2          101         3 2024-01-05   Laptop    1200   

     categoria  total nombre_y     ciudad  
0  Electrónica   3600     Luis    Sevilla  
1  Electrónica   2400    María     Madrid  
2  Electrónica    300   Carlos  Barcelona  
3  Electrónica    300      Ana     Madrid  
4  Electrónica   3600   Carlos  Barcelona  

Ventas totales por ciudad:
ciudad
Barcelona    7900
Madrid       3020
Sevilla      4800
Name: total, dtype: int64
