In [2]:

# Paso 1: Importar librerías
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt


In [3]:

# Paso 2: Cargar archivos CSV
ventas = pd.read_csv("sales_data_2023.csv")
clientes = pd.read_csv("customer_data_2023.csv")


In [4]:

# Paso 3: Inspección inicial
print("Ventas:")
print(ventas.head())
print("\nClientes:")
print(clientes.head())


Ventas:
   Sale_ID  Customer_ID  Sale_Amount   Sale_Date Geography
0        1           38        31.11  2023-05-03      West
1        2           18       191.54  2023-03-06     South
2        3          197       283.74  2023-06-23      East
3        4          185       367.13  2023-02-09     South
4        5          171       188.52  2023-12-25     South

Clientes:
   Customer_ID Customer_Name  Customer_Age Geography
0            1    Customer_1            20      West
1            2    Customer_2            69     North
2            3    Customer_3            57      West
3            4    Customer_4            66      East
4            5    Customer_5            59     South


In [5]:

# Paso 4: Verificar estructura de datos
print("\nColumnas de ventas:", ventas.columns)
print("Columnas de clientes:", clientes.columns)

print("\nTipos de datos de ventas:\n", ventas.dtypes)
print("\nTipos de datos de clientes:\n", clientes.dtypes)

print("\nValores nulos en ventas:\n", ventas.isnull().sum())
print("\nValores nulos en clientes:\n", clientes.isnull().sum())



Columnas de ventas: Index(['Sale_ID', 'Customer_ID', 'Sale_Amount', 'Sale_Date', 'Geography'], dtype='object')
Columnas de clientes: Index(['Customer_ID', 'Customer_Name', 'Customer_Age', 'Geography'], dtype='object')

Tipos de datos de ventas:
 Sale_ID          int64
Customer_ID      int64
Sale_Amount    float64
Sale_Date       object
Geography       object
dtype: object

Tipos de datos de clientes:
 Customer_ID       int64
Customer_Name    object
Customer_Age      int64
Geography        object
dtype: object

Valores nulos en ventas:
 Sale_ID        0
Customer_ID    0
Sale_Amount    0
Sale_Date      0
Geography      0
dtype: int64

Valores nulos en clientes:
 Customer_ID      0
Customer_Name    0
Customer_Age     0
Geography        0
dtype: int64


In [6]:

# Paso 5: Convertir fechas
ventas["Sale_Date"] = pd.to_datetime(ventas["Sale_Date"])


In [7]:

# Paso 6: Rellenar valores nulos si es necesario
ventas["Sale_Amount"] = ventas["Sale_Amount"].fillna(ventas["Sale_Amount"].mean())
clientes["Geography"] = clientes["Geography"].fillna("Desconocido")


In [8]:

# Paso 7: Unir las tablas
df_completo = pd.merge(ventas, clientes, on="Customer_ID", how="left")


In [9]:

# Paso 8: Crear columna de mes
df_completo["Mes"] = df_completo["Sale_Date"].dt.to_period("M")


In [10]:

# Paso 9: Agrupar ventas mensuales por región
ventas_por_region = df_completo.groupby(["Mes", "Geography"])["Sale_Amount"].sum().reset_index()

# Paso 10: Mostrar tabla resumen
print("\nVentas mensuales por región:")
print(ventas_por_region.head())


KeyError: 'Geography'

In [None]:

# Paso 11 (opcional): Visualizar con gráfico
plt.figure(figsize=(12,6))
sns.lineplot(data=ventas_por_region, x="Mes", y="Sale_Amount", hue="Geography", marker="o")
plt.title("Ventas Mensuales por Región Geográfica")
plt.ylabel("Monto de Venta")
plt.xlabel("Mes")
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()


NameError: name 'plt' is not defined