# Taller Práctico: Análisis de Ventas con Pandas - Parch & Posey

**Objetivo:** Aplicar las habilidades de manipulación y análisis de datos con la librería Pandas para resolver preguntas de negocio reales. En este taller, trabajaremos con un conjunto de datos de la empresa fiicticia Parch & Posey, que vende diferentes tipos de papel.

**Dataset:** El dataset consta de 5 archivos `.json`:
- `accounts.json`: Información de las cuentas de los clientes.
- `sales_reps.json`: Información de los representantes de ventas.
- `regions.json`: Las diferentes regiones geográficas.
- `orders.json`: Órdenes de compra realizadas por los clientes.
- `web_events.json`: Interacciones de los clientes con el sitio web.


## Etapa 1: Configuración y Carga de Datos

**Objetivo:** Importar las librerías necesarias y cargar todos los archivos JSON en DataFrames de Pandas. Esto nos permitirá tener todos los datos listos para el análisis.

In [None]:
import pandas as pd


accounts = pd.read_json('accounts.json')
sales_reps = pd.read_json('sales_rep.json')
regions = pd.read_json('region.json')
orders = pd.read_json('orders.json')
web_events = pd.read_json('web_events.json')

display(accounts)
display(sales_reps)
display(regions)
display(orders)
display(web_events)

Unnamed: 0,id,name,website,lat,long,primary_poc,sales_rep_id
0,1001,Walmart,www.walmart.com,40.238496,-75.103297,Tamara Tuma,321500
1,1011,Exxon Mobil,www.exxonmobil.com,41.169156,-73.849374,Sung Shields,321510
2,1021,Apple,www.apple.com,42.290495,-76.084009,Jodee Lupo,321520
3,1031,Berkshire Hathaway,www.berkshirehathaway.com,40.949021,-75.763898,Serafina Banda,321530
4,1041,McKesson,www.mckesson.com,42.217093,-75.284998,Angeles Crusoe,321540
...,...,...,...,...,...,...,...
346,4461,KKR,www.kkr.com,45.545353,-122.655247,Buffy Azure,321970
347,4471,Oneok,www.oneok.com,45.513513,-122.681500,Esta Engelhardt,321960
348,4481,Newmont Mining,www.newmont.com,45.494117,-122.669460,Khadijah Riemann,321970
349,4491,PPL,www.pplweb.com,45.491720,-122.671880,Deanne Hertlein,321960


Unnamed: 0,id,name,region_id
0,321500,Samuel Racine,1
1,321510,Eugena Esser,1
2,321520,Michel Averette,1
3,321530,Renetta Carew,1
4,321540,Cara Clarke,1
5,321550,Lavera Oles,1
6,321560,Elba Felder,1
7,321570,Shawanda Selke,1
8,321580,Sibyl Lauria,1
9,321590,Necole Victory,1


Unnamed: 0,id,name
0,1,Northeast
1,2,Midwest
2,3,Southeast
3,4,West


Unnamed: 0,id,account_id,occurred_at,standard_qty,gloss_qty,poster_qty,total,standard_amt_usd,gloss_amt_usd,poster_amt_usd,total_amt_usd
0,1,1001,2015-10-06 17:31:14,123,22,24,169,613.77,164.78,194.88,973.43
1,2,1001,2015-11-05 03:34:33,190,41,57,288,948.10,307.09,462.84,1718.03
2,3,1001,2015-12-04 04:21:55,85,47,0,132,424.15,352.03,0.00,776.18
3,4,1001,2016-01-02 01:18:24,144,32,0,176,718.56,239.68,0.00,958.24
4,5,1001,2016-02-01 19:27:27,108,29,28,165,538.92,217.21,227.36,983.49
...,...,...,...,...,...,...,...,...,...,...,...
6907,6908,4501,2016-06-29 04:03:39,11,199,59,269,54.89,1490.51,479.08,2024.48
6908,6909,4501,2016-07-29 19:58:32,5,91,96,192,24.95,681.59,779.52,1486.06
6909,6910,4501,2016-08-27 00:58:11,16,94,82,192,79.84,704.06,665.84,1449.74
6910,6911,4501,2016-11-22 06:52:22,63,67,81,211,314.37,501.83,657.72,1473.92


Unnamed: 0,id,account_id,occurred_at,channel
0,1,1001,2015-10-06 17:13:58,direct
1,2,1001,2015-11-05 03:08:26,direct
2,3,1001,2015-12-04 03:57:24,direct
3,4,1001,2016-01-02 00:55:03,direct
4,5,1001,2016-02-01 19:02:33,direct
...,...,...,...,...
9068,9069,4491,2016-10-04 15:43:29,facebook
9069,9070,4491,2016-10-04 23:42:41,twitter
9070,9071,4491,2016-11-06 07:23:45,organic
9071,9072,4491,2016-12-18 03:21:31,organic


## Etapa 2: Exploración y Limpieza Básica (Nivel Novato)

**Objetivo:** Entender la estructura y calidad de nuestros datos. Nos enfocaremos en los dataframes de `accounts` y `orders` para realizar una primera inspección.

In [None]:
print(accounts.info())
print(accounts.head())
print(accounts.describe(include='all'))

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 351 entries, 0 to 350
Data columns (total 7 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   id            351 non-null    int64  
 1   name          351 non-null    object 
 2   website       351 non-null    object 
 3   lat           351 non-null    float64
 4   long          351 non-null    float64
 5   primary_poc   351 non-null    object 
 6   sales_rep_id  351 non-null    int64  
dtypes: float64(2), int64(2), object(3)
memory usage: 19.3+ KB
None
     id                name                    website        lat       long  \
0  1001             Walmart            www.walmart.com  40.238496 -75.103297   
1  1011         Exxon Mobil         www.exxonmobil.com  41.169156 -73.849374   
2  1021               Apple              www.apple.com  42.290495 -76.084009   
3  1031  Berkshire Hathaway  www.berkshirehathaway.com  40.949021 -75.763898   
4  1041            McKesson           www

**Preguntas de Negocio:**

In [None]:
# Pregunta 1: ¿Cuántas cuentas de clientes hay en total?
total_cuentas = len(accounts)
print(f"1. Hay un total de {total_cuentas} cuentas de clientes.")

# Pregunta 2: ¿Cuántos representantes de ventas y regiones existen?
total_reps = len(sales_reps)
total_regiones = len(regions)
print(f"2. Hay {total_reps} representantes de ventas y {total_regiones} regiones.")

# Pregunta 3: En la tabla de órdenes (orders), ¿hay valores nulos en las cantidades de papel?
# estoy usando el método isnull() y no la inspección que hicimos en clase
nulos_en_ordenes = orders[['standard_qty', 'poster_qty', 'gloss_qty', 'total']].isnull().sum()
print("\n3. Conteo de valores nulos en columnas de cantidad de la tabla 'orders':")
print(nulos_en_ordenes)

1. Hay un total de 351 cuentas de clientes.
2. Hay 50 representantes de ventas y 4 regiones.

3. Conteo de valores nulos en columnas de cantidad de la tabla 'orders':
standard_qty    0
poster_qty      0
gloss_qty       0
total           0
dtype: int64


## Etapa 3: Transformación y Enriquecimiento de Datos

**Objetivo:** Preparar la tabla `orders` para un análisis más profundo. Esto implica convertir tipos de datos y crear nuevas columnas (limpieza y orden) que serán útiles para responder preguntas de negocio.

In [None]:
# 1. Convertir 'occurred_at' a formato de fecha y hora para poder analizar por tiempo porque puede que no haya sido convertido automáticamente al leer el archivo
orders['occurred_at'] = pd.to_datetime(orders['occurred_at'])

# 2. Crear una columna para el mes de la orden, útil para agrupar ventas mensualmente. Ojo, lo hacemos porque necesitamos desagregar el mes específico para responder la pregunta
orders['month'] = orders['occurred_at'].dt.to_period('M')

# 3. Rellenar valores nulos en las cantidades con 0. Asumimos que un nulo significa que no se ordenó ese tipo de papel. NO importa si en la anterior interacción no había, esta es una buena forma de garantizar los resultados.
qty_cols = ['standard_qty', 'poster_qty', 'gloss_qty']
orders[qty_cols] = orders[qty_cols].fillna(0)

# Verificar los cambios realizados en la tabla 'orders'
print("Tabla 'orders' después de la transformación")
orders.info()
print("\nPrimeras 5 filas de 'orders' con las nuevas columnas")
print(orders[['occurred_at', 'month', 'total', 'total_amt_usd']].head())

Tabla 'orders' después de la transformación
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6912 entries, 0 to 6911
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype         
---  ------            --------------  -----         
 0   id                6912 non-null   int64         
 1   account_id        6912 non-null   int64         
 2   occurred_at       6912 non-null   datetime64[ns]
 3   standard_qty      6912 non-null   int64         
 4   gloss_qty         6912 non-null   int64         
 5   poster_qty        6912 non-null   int64         
 6   total             6912 non-null   int64         
 7   standard_amt_usd  6912 non-null   float64       
 8   gloss_amt_usd     6912 non-null   float64       
 9   poster_amt_usd    6912 non-null   float64       
 10  total_amt_usd     6912 non-null   float64       
 11  month             6912 non-null   period[M]     
dtypes: datetime64[ns](1), float64(4), int64(6), period[M](1)
memory usage: 648.1 KB

Primera

**Preguntas de Negocio:**

In [None]:
# Pregunta 4: ¿Cuál es el ingreso total (revenue) registrado en todas las órdenes?
total_revenue = orders['total_amt_usd'].sum()
print(f"4. El ingreso total es de ${total_revenue:,.2f} USD.")

# Pregunta 5: ¿Cuál es el ticket promedio por orden? (Valor promedio de 'total_amt_usd')
ticket_promedio = orders['total_amt_usd'].mean()
print(f"5. El ticket promedio por orden es de ${ticket_promedio:,.2f} USD.")

# Pregunta 6: ¿Cuál es el mes con el mayor volumen de ventas en dólares?
ventas_por_mes = orders.groupby('month')['total_amt_usd'].sum()
mes_max_ventas = ventas_por_mes.idxmax()
valor_max_ventas = ventas_por_mes.max()
print(f"6. El mes con más ventas fue {mes_max_ventas}, con un total de ${valor_max_ventas:,.2f} USD.")

4. El ingreso total es de $23,141,511.83 USD.
5. El ticket promedio por orden es de $3,348.02 USD.
6. El mes con más ventas fue 2016-12, con un total de $1,770,282.62 USD.


## Etapa 4: Unificación de Datos y Análisis Agregado

**Objetivo:** Crear una vista (Otra forma de decir gran tabla) consolidada de los datos combinando todas las tablas. Esto nos permitirá realizar análisis jerárquicos (por región, por vendedor, por cliente) y responder preguntas mucho más complejas.

In [None]:
# Paso 1: Unir 'accounts' con 'sales_reps'
# Usamos sufijos para diferenciar las columnas 'id' y 'name' que se repiten
full_accounts = accounts.merge(sales_reps, left_on='sales_rep_id', right_on='id', suffixes=('_account', '_rep'))

# Paso 2: Unir el resultado con 'regions'
full_accounts = full_accounts.merge(regions, left_on='region_id', right_on='id', suffixes=('_rep', '_region'))

# Paso 3: Unir el resultado final con 'orders' para tener la vista completa de ventas
# Nota: La clave para unir es 'account_id' en 'orders' y 'id_account' en 'full_accounts'
sales_data = orders.merge(full_accounts, left_on='account_id', right_on='id_account')

# Limpiar y renombrar columnas (más fáci de manipular)
sales_data = sales_data.rename(columns={'name_account': 'account_name', 'name_rep': 'rep_name', 'name': 'region_name'})

# Seleccionar y reordenar las columnas más importantes para nuestro reporte. Esto se puede considerar limpiza de datos como hablamos ayer
final_cols = ['occurred_at', 'month', 'region_name', 'rep_name', 'account_name', 'total', 'total_amt_usd']
sales_data_clean = sales_data[final_cols]

print("Vista consolidada de ventas (primeras 5 filas)")
print(sales_data_clean.head())

Vista consolidada de ventas (primeras 5 filas)
          occurred_at    month region_name       rep_name account_name  total  \
0 2015-10-06 17:31:14  2015-10   Northeast  Samuel Racine      Walmart    169   
1 2015-11-05 03:34:33  2015-11   Northeast  Samuel Racine      Walmart    288   
2 2015-12-04 04:21:55  2015-12   Northeast  Samuel Racine      Walmart    132   
3 2016-01-02 01:18:24  2016-01   Northeast  Samuel Racine      Walmart    176   
4 2016-02-01 19:27:27  2016-02   Northeast  Samuel Racine      Walmart    165   

   total_amt_usd  
0         973.43  
1        1718.03  
2         776.18  
3         958.24  
4         983.49  


**Preguntas de Negocio:**

In [None]:
# Pregunta 7: ¿Qué región genera más ingresos?
ingresos_por_region = sales_data_clean.groupby('region_name')['total_amt_usd'].sum().sort_values(ascending=False)
print("7. Ingresos totales por Región:")
print(ingresos_por_region)

# Pregunta 8: ¿Quiénes son los 5 representantes de ventas con mayores ingresos generados?
ingresos_por_rep = sales_data_clean.groupby('rep_name')['total_amt_usd'].sum().sort_values(ascending=False)
print("\n8. Top 5 Representantes de Ventas por Ingresos:")
print(ingresos_por_rep.head(5))

# Pregunta 9: ¿Quiénes son los 10 clientes más valiosos (con mayor gasto total)?
gasto_por_cliente = sales_data_clean.groupby('account_name')['total_amt_usd'].sum().sort_values(ascending=False)
print("\n9. Top 10 Clientes por Gasto Total:")
print(gasto_por_cliente.head(10))

# Pregunta 10: ¿Cuál es el representante de ventas más exitoso en la región con más ventas (obtenida en la pregunta 7)?
region_lider = ingresos_por_region.index[0]
ventas_region_lider = sales_data_clean[sales_data_clean['region_name'] == region_lider]
rep_lider_en_region = ventas_region_lider.groupby('rep_name')['total_amt_usd'].sum().sort_values(ascending=False)
print(f"\n10. Top Representantes en la región líder ({region_lider}):")
print(rep_lider_en_region.head())

7. Ingresos totales por Región:
region_name
Northeast    7744405.36
Southeast    6458497.00
West         5925122.96
Midwest      3013486.51
Name: total_amt_usd, dtype: float64

8. Top 5 Representantes de Ventas por Ingresos:
rep_name
Earlie Schleusner      1098137.72
Tia Amato              1010690.60
Vernita Plump           934212.93
Georgianna Chisholm     886244.12
Arica Stoltzfus         810353.34
Name: total_amt_usd, dtype: float64

9. Top 10 Clientes por Gasto Total:
account_name
EOG Resources             382873.30
Mosaic                    345618.59
IBM                       326819.48
General Dynamics          300694.79
Republic Services         293861.14
Leucadia National         291047.25
Arrow Electronics         281018.36
Sysco                     278575.64
Supervalu                 275288.30
Archer Daniels Midland    272672.84
Name: total_amt_usd, dtype: float64

10. Top Representantes en la región líder (Northeast):
rep_name
Tia Amato          1010690.60
Sibyl Lauria       

## Etapa 5: Análisis de Canales de Marketing (Introduciendo la tabla `web_events`)

**Objetivo:** Integrar los datos de eventos web para entender cómo interactúan los clientes antes de comprar y qué canales son más efectivos.

In [None]:
# Unir la tabla de eventos web con la de cuentas para obtener el nombre del cliente
web_events_full = web_events.merge(accounts, left_on='account_id', right_on='id')
web_events_full = web_events_full.rename(columns={'name': 'account_name'})

print("--- Tabla de eventos web enriquecida ---")
print(web_events_full[['occurred_at', 'channel', 'account_name']].head())

--- Tabla de eventos web enriquecida ---
          occurred_at channel account_name
0 2015-10-06 17:13:58  direct      Walmart
1 2015-11-05 03:08:26  direct      Walmart
2 2015-12-04 03:57:24  direct      Walmart
3 2016-01-02 00:55:03  direct      Walmart
4 2016-02-01 19:02:33  direct      Walmart


**Preguntas de Negocio:**

In [None]:
# Pregunta 11: ¿Qué canal de marketing (channel) es el más utilizado por los clientes para visitar la web?
conteo_canales = web_events_full['channel'].value_counts()
print("11. Frecuencia de uso por canal de marketing:")
print(conteo_canales)

# Pregunta 12: ¿Cuántas interacciones web tiene en promedio cada cliente que ha realizado al menos una compra?
# Primero, conteo de interacciones por cuenta
interacciones_por_cuenta = web_events_full.groupby('account_name').size().reset_index(name='event_count')

#filtramos para quedarnos con solo los clientes que sí han comprado (los que están en nuestra tabla de gasto)
clientes_compradores = gasto_por_cliente.reset_index()
interacciones_compradores = interacciones_por_cuenta[interacciones_por_cuenta['account_name'].isin(clientes_compradores['account_name'])]

promedio_interacciones = interacciones_compradores['event_count'].mean()
print(f"\n12. En promedio, un cliente que compra tiene {promedio_interacciones:.2f} interacciones web.")

# Pregunta 13: ¿Qué canal está asociado con los clientes que más gastan?
# Agrupamos por cliente y canal para ver cuántas veces usó cada canal
canal_por_cliente = web_events_full.groupby(['account_name', 'channel']).size().unstack(fill_value=0)

# Unimos esta información con la de gasto total
gasto_canal_cliente = gasto_por_cliente.reset_index().merge(canal_por_cliente, on='account_name', how='left')

# Calculamos el gasto total por cada canal. Un cliente se asocia a un canal si lo usó al menos una vez.
canales = web_events_full['channel'].unique()
gasto_total_por_canal = {}
for canal in canales:
    # Sumamos el gasto de todos los clientes que usaron este canal
    gasto_total_por_canal[canal] = gasto_canal_cliente[gasto_canal_cliente[canal] > 0]['total_amt_usd'].sum()

gasto_total_por_canal_df = pd.Series(gasto_total_por_canal).sort_values(ascending=False)

print("\n13. Gasto total asociado a clientes que utilizaron cada canal:")
print(gasto_total_por_canal_df.apply(lambda x: f"${x:,.2f}")) #Ojo con el formato de salida aplicando la función lambda. para cada x se aplica el formato

11. Frecuencia de uso por canal de marketing:
channel
direct      5298
facebook     967
organic      952
adwords      906
banner       476
twitter      474
Name: count, dtype: int64

12. En promedio, un cliente que compra tiene 25.89 interacciones web.

13. Gasto total asociado a clientes que utilizaron cada canal:
direct      $23,141,511.83
adwords     $20,377,044.34
facebook    $20,278,402.78
organic     $19,995,276.16
twitter     $17,080,080.81
banner      $16,556,747.31
dtype: object


In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import matplotlib.gridspec as gridspec

# Cargar los datos
url = "/content/super_store.csv"
df = pd.read_csv(url, encoding='latin-1')
df["Order_Date"] = pd.to_datetime(df["Order_Date"])

# KPIs
total_sales = df["Sales"].sum()
total_profit = df["Profit"].sum()
total_orders = df["Order ID"].nunique()
total_customers = df["Customer ID"].nunique()

# Datos para gráficos de tiempo
sales_profit_over_time = df.set_index("Order Date").resample("M").agg
({"Sales: "sum", "profit": "sum"})


#datos para pie (region)