In [25]:
import pandas as pd

# DataFrame de Clientes
clientes = pd.DataFrame({
    'cliente_id': [101, 102, 103, 104],
    'nombre': ['Alice Johnson', 'Bob Smith', 'Charlie Davis', 'Diana Prince'],
    'email': ['alice@example.com', 'bob@example.com', 'charlie@example.com', 'diana@example.com'],
    'región': ['Norte', 'Sur', 'Este', 'Oeste']
})
clientes.info()



<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   cliente_id  4 non-null      int64 
 1   nombre      4 non-null      object
 2   email       4 non-null      object
 3   región      4 non-null      object
dtypes: int64(1), object(3)
memory usage: 260.0+ bytes


In [34]:
import numpy as np
from numpy import NaN

# DataFrame de Pedidos
pedidos = pd.DataFrame({
    'pedido_id': ['P001', 'P002', 'P003', 'P004', 'P005', 'P006'],
    'cliente_id': [101, 103, 105, 104, 101, 102],  # Incluye IDs que no existen y repeticiones
    'total': [250, 150, 450, 300, 320, 110],
    'fecha': ['2021-01-10', '2021-02-15', '2021-03-20', '2021-04-22', '2021-05-25', '2021-06-15'],
    'categoría': ['Electrónica', 'Ropa', 'Electrónica', 'Libros', 'Alimentos', 'Ropa']
})
pedidos['cliente_id'].astype('Int64')
pedidos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   pedido_id   6 non-null      object
 1   cliente_id  6 non-null      int64 
 2   total       6 non-null      int64 
 3   fecha       6 non-null      object
 4   categoría   6 non-null      object
dtypes: int64(2), object(3)
memory usage: 372.0+ bytes


In [12]:
# Inner Join
df_inner = pd.merge(clientes, pedidos, on='cliente_id', how='inner')
df_inner.head(10)

Unnamed: 0,cliente_id,nombre,email,región,pedido_id,total,fecha,categoría
0,101,Alice Johnson,alice@example.com,Norte,P001,250,2021-01-10,Electrónica
1,101,Alice Johnson,alice@example.com,Norte,P005,320,2021-05-25,Alimentos
2,103,Charlie Davis,charlie@example.com,Este,P002,150,2021-02-15,Ropa
3,104,Diana Prince,diana@example.com,Oeste,P004,300,2021-04-22,Libros


In [13]:
# Left Join
df_left = pd.merge(clientes, pedidos, on='cliente_id', how='left')
df_left.head(10)

Unnamed: 0,cliente_id,nombre,email,región,pedido_id,total,fecha,categoría
0,101,Alice Johnson,alice@example.com,Norte,P001,250.0,2021-01-10,Electrónica
1,101,Alice Johnson,alice@example.com,Norte,P005,320.0,2021-05-25,Alimentos
2,102,Bob Smith,bob@example.com,Sur,,,,
3,103,Charlie Davis,charlie@example.com,Este,P002,150.0,2021-02-15,Ropa
4,104,Diana Prince,diana@example.com,Oeste,P004,300.0,2021-04-22,Libros


In [32]:
# Left Join
df_left = pd.merge(clientes, pedidos, on='cliente_id', how='right')
df_left.head(10)

Unnamed: 0,cliente_id,nombre,email,región,pedido_id,total,fecha,categoría
0,101.0,Alice Johnson,alice@example.com,Norte,P001,250,2021-01-10,Electrónica
1,103.0,Charlie Davis,charlie@example.com,Este,P002,150,2021-02-15,Ropa
2,105.0,,,,P003,450,2021-03-20,Electrónica
3,104.0,Diana Prince,diana@example.com,Oeste,P004,300,2021-04-22,Libros
4,101.0,Alice Johnson,alice@example.com,Norte,P005,320,2021-05-25,Alimentos
5,,,,,P006,110,2021-06-15,Ropa


In [36]:
#Ejemplos de uso de groupby:
df_merged = pd.merge(clientes, pedidos, on='cliente_id', how='left')
df_merged.head(10)



Unnamed: 0,cliente_id,nombre,email,región,pedido_id,total,fecha,categoría
0,101,Alice Johnson,alice@example.com,Norte,P001,250,2021-01-10,Electrónica
1,101,Alice Johnson,alice@example.com,Norte,P005,320,2021-05-25,Alimentos
2,102,Bob Smith,bob@example.com,Sur,P006,110,2021-06-15,Ropa
3,103,Charlie Davis,charlie@example.com,Este,P002,150,2021-02-15,Ropa
4,104,Diana Prince,diana@example.com,Oeste,P004,300,2021-04-22,Libros


In [41]:
total_por_región = (df_merged.groupby('región'))['total'].sum()
print(total_por_región)

región
Este     150
Norte    570
Oeste    300
Sur      110
Name: total, dtype: int64


In [43]:
conteo_pedidos_categoría = df_merged.groupby(['región', 'categoría'])['pedido_id'].count()
print(conteo_pedidos_categoría)

región  categoría  
Este    Ropa           1
Norte   Alimentos      1
        Electrónica    1
Oeste   Libros         1
Sur     Ropa           1
Name: pedido_id, dtype: int64


In [48]:
df_merged['fecha'] = pd.to_datetime(df_merged['fecha'])
df_merged['mes_año'] = df_merged['fecha'].dt.to_period('M')

# Calcular el promedio de ventas por mes
promedio_ventas_mes = df_merged.groupby('mes_año')['total'].mean()
print(promedio_ventas_mes)



mes_año
2021-01    250.0
2021-02    150.0
2021-04    300.0
2021-05    320.0
2021-06    110.0
Freq: M, Name: total, dtype: float64
