Ejemplo de join:

In [1]:
import pandas as pd

# Dataset de clientes
clientes = pd.DataFrame({
    'cliente_id': [1, 2, 3, 4],
    'nombre': ['Ana', 'Juan', 'María', 'Pedro']
})

# Dataset de pedidos
pedidos = pd.DataFrame({
    'cliente_id': [1, 1, 3, 5],
    'producto': ['A', 'B', 'C', 'D'],
    'cantidad': [2, 1, 3, 1]
})

# Join para combinar información
pedidos_clientes = pd.merge(
    pedidos, 
    clientes, 
    on='cliente_id', 
    how='left'
)

print(pedidos_clientes)

   cliente_id producto  cantidad nombre
0           1        A         2    Ana
1           1        B         1    Ana
2           3        C         3  María
3           5        D         1    NaN


Ejemplo de agregación:

In [2]:
# Agregaciones por cliente
resumen_cliente = pedidos_clientes.groupby('cliente_id').agg({
    'cantidad': 'sum',
    'producto': 'count'
}).rename(columns={
    'cantidad': 'total_cantidad',
    'producto': 'numero_pedidos'
})

print(resumen_cliente)

            total_cantidad  numero_pedidos
cliente_id                                
1                        3               2
3                        3               1
5                        1               1


Ejemplo de validación:

In [3]:
def validar_integridad(df):
    errores = []
    
    # Validar que clientes referenciados existen
    clientes_validos = set(clientes['cliente_id'])
    pedidos_invalidos = df[~df['cliente_id'].isin(clientes_validos)]
    
    if len(pedidos_invalidos) > 0:
        errores.append(f"Pedidos con clientes inexistentes: {len(pedidos_invalidos)}")
    
    # Validar cantidades positivas
    if (df['cantidad'] <= 0).any():
        errores.append("Cantidades no positivas encontradas")
    
    return errores

errores = validar_integridad(pedidos_clientes)
print("Errores de integridad:", errores)

Errores de integridad: ['Pedidos con clientes inexistentes: 1']
