# Análisis Exploratorio de Datos (EDA) – 20 Preguntas y Preguntas de Negocio

En este notebook se plantean 20 preguntas que combinan operaciones de filtrado y agrupación sobre el dataset de ventas de Adidas en EE.UU. Además, se incluyen preguntas de negocio para que los estudiantes deban abstraer y razonar sobre las implicaciones comerciales de los datos.

El ejercicio abarca:
- Análisis descriptivo básico (dimensiones, unidades de observación).
- Cálculo de totales, promedios y márgenes.
- Agrupaciones por Retailer, Estado, Producto y Método de Venta.
- Filtrados para extraer subconjuntos de datos.
- Preguntas de negocio para interpretar resultados y proponer soluciones basadas en la información.

¡Comienza resolviendo cada punto y analizando los resultados obtenidos!

In [5]:
!wget https://github.com/prayagpadwal/Adidas-Sales-Analysis/raw/main/Adidas%20US%20Sales%20Datasets.xlsx

--2025-03-20 23:34:40--  https://github.com/prayagpadwal/Adidas-Sales-Analysis/raw/main/Adidas%20US%20Sales%20Datasets.xlsx
Resolving github.com (github.com)... 140.82.114.4
Connecting to github.com (github.com)|140.82.114.4|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://raw.githubusercontent.com/prayagpadwal/Adidas-Sales-Analysis/main/Adidas%20US%20Sales%20Datasets.xlsx [following]
--2025-03-20 23:34:41--  https://raw.githubusercontent.com/prayagpadwal/Adidas-Sales-Analysis/main/Adidas%20US%20Sales%20Datasets.xlsx
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 693038 (677K) [application/octet-stream]
Saving to: ‘Adidas US Sales Datasets.xlsx’


2025-03-20 23:34:41 (11.5 MB/s) - ‘Adidas US Sales Datasets.xlsx’ saved [

In [6]:
# Importar librerías necesarias
import pandas as pd
import numpy as np

# Leer el archivo Excel (asegúrate de haber subido 'Adidas US Sales Datasets.xlsx' a tu entorno de Colab)
data = pd.read_excel('Adidas US Sales Datasets.xlsx')

## Pregunta 1
**¿Cuántas filas y columnas tiene el dataset?**

_Muestra las dimensiones del DataFrame._

In [7]:
dimensions = data.shape
print(f'Dimensiones del dataset: {dimensions}')

Dimensiones del dataset: (9648, 13)


## Pregunta 2
**¿Cuál es la unidad de observación del dataset?**

_Describe qué representa cada fila (por ejemplo, una transacción o venta individual)._

In [2]:
print('Cada fila representa una transacción de venta individual.')

Cada fila representa una transacción de venta individual.


## Pregunta 3
**¿Cuáles fueron las ventas totales?**

_Suma de la columna 'Total Sales'._

In [8]:
total_sales = data['Total Sales'].sum()
print(f'Ventas totales: {total_sales}')

Ventas totales: 899902125.0


## Pregunta 4
**¿Cuál fue la ganancia operativa total?**

_Suma de la columna 'Operating Profit'._

In [10]:
total_profit = data['Operating Profit'].sum()
print(f'Ganancia operativa total: {total_profit}')

Ganancia operativa total: 332134761.45000005


## Pregunta 5
**¿Cuál es el margen operativo promedio?**

_Calcula la media de la columna 'Operating Margin' y explica por qué se utiliza el promedio en lugar de una suma._

In [11]:
avg_margin = data['Operating Margin'].mean()
print(f'Margen operativo promedio: {avg_margin}')

Margen operativo promedio: 0.42299129353233833


## Pregunta 6
**Agrupar por Retailer y calcular:**
- La suma de 'Total Sales'
- La suma de 'Operating Profit'
- La suma de 'Units Sold'

_Utiliza `groupby` para obtener estos totales por cada Retailer._

In [12]:
grouped_retailer = data.groupby('Retailer').agg({'Total Sales': 'sum', 'Operating Profit': 'sum', 'Units Sold': 'sum'})
display(grouped_retailer)

Unnamed: 0_level_0,Total Sales,Operating Profit,Units Sold
Retailer,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Amazon,77698912.0,28818503.31,197990
Foot Locker,220094720.0,80722124.81,604369
Kohl's,102114753.0,36811252.58,287375
Sports Direct,182470997.0,74332954.96,557640
Walmart,74558410.0,25782052.61,206225
West Gear,242964333.0,85667873.18,625262


## Pregunta 7
**Calcular el margen total por Retailer y el margen operativo promedio por Retailer.**

- Margen total: (Suma de 'Operating Profit' / Suma de 'Total Sales') por Retailer.
- Margen promedio: Promedio de la columna 'Operating Margin' para cada Retailer.

_Compara ambos resultados y comenta la diferencia, reflexionando sobre el significado en términos de negocio._

In [13]:
grouped_retailer['Operating Margin Total'] = grouped_retailer['Operating Profit'] / grouped_retailer['Total Sales']
grouped_retailer['Operating Margin Average'] = data.groupby('Retailer')['Operating Margin'].mean()
display(grouped_retailer)

Unnamed: 0_level_0,Total Sales,Operating Profit,Units Sold,Operating Margin Total,Operating Margin Average
Retailer,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Amazon,77698912.0,28818503.31,197990,0.3709,0.417871
Foot Locker,220094720.0,80722124.81,604369,0.366761,0.417933
Kohl's,102114753.0,36811252.58,287375,0.360489,0.419291
Sports Direct,182470997.0,74332954.96,557640,0.407369,0.444892
Walmart,74558410.0,25782052.61,206225,0.345797,0.406534
West Gear,242964333.0,85667873.18,625262,0.352594,0.417856


## Pregunta 8
**¿Qué Retailer vendió la mayor cantidad de unidades totales?**

_Agrupa por Retailer, suma 'Units Sold' y ordena de forma descendente._

In [14]:
best_retailer = grouped_retailer['Units Sold'].idxmax()
print(f'Retailer con más unidades vendidas: {best_retailer}')

Retailer con más unidades vendidas: West Gear


## Pregunta 9
**¿Qué producto vendió la mayor cantidad de unidades?**

_Agrupa por 'Product' y suma 'Units Sold' para identificar el producto líder._

In [15]:
best_product = data.groupby('Product')['Units Sold'].sum().idxmax()
print(f'Producto más vendido: {best_product}')

Producto más vendido: Men's Street Footwear


## Pregunta 10
**Agrupar por el método de venta ('Sales Method') y calcular:**
- La suma de 'Total Sales'
- El promedio de 'Total Sales'

_Esta agrupación ayudará a identificar cuál método tiene mejores resultados en términos de volumen y eficiencia._

In [16]:
grouped_sales_method = data.groupby('Sales Method').agg({'Total Sales': ['sum', 'mean']})
display(grouped_sales_method)

Unnamed: 0_level_0,Total Sales,Total Sales
Unnamed: 0_level_1,sum,mean
Sales Method,Unnamed: 1_level_2,Unnamed: 2_level_2
In-store,356643750.0,204967.672414
Online,247672882.0,50659.210882
Outlet,295585493.0,97908.411063


## Pregunta 11
**¿Qué método de venta tiene mayores ventas totales y mayores ventas promedio?**

_Analiza los resultados obtenidos en la Pregunta 10 y comenta posibles razones de negocio detrás de estos resultados._

In [17]:
best_sales_method = grouped_sales_method['Total Sales']['sum'].idxmax()
print(f'Método de venta con más ventas: {best_sales_method}')

Método de venta con más ventas: In-store


## Pregunta 12
**Agrupar por State y calcular la suma de 'Total Sales'.**

_Determina cuál es el estado con mayores ventas totales._

In [18]:
best_state = data.groupby('State')['Total Sales'].sum().idxmax()
print(f'Estado con más ventas: {best_state}')

Estado con más ventas: New York


## Pregunta 13 (Negocio)
**¿Qué estado muestra un mejor desempeño operativo?**

_Agrupa por State y calcula el promedio de 'Operating Margin' para evaluar cuál estado opera de manera más eficiente. Comenta posibles implicaciones de negocio._

In [19]:
best_state_margin = data.groupby('State')['Operating Margin'].mean().idxmax()
print(f'Estado con mejor margen operativo: {best_state_margin}')

Estado con mejor margen operativo: Alabama


## Pregunta 14
**Filtro 1: Crea un DataFrame filtrado para el Retailer con mayores ventas totales.**

_Utiliza la agrupación previa para identificar dicho Retailer y filtra el dataset original._

In [20]:
top_retailer_data = data[data['Retailer'] == best_retailer]
display(top_retailer_data.head())

Unnamed: 0,Retailer,Retailer ID,Invoice Date,Region,State,City,Product,Price per Unit,Units Sold,Total Sales,Operating Profit,Operating Margin,Sales Method
140,West Gear,1128299,2020-11-01,South,Texas,Houston,Men's Street Footwear,40.0,775,310000.0,108500.0,0.35,Outlet
141,West Gear,1128299,2020-11-02,South,Texas,Houston,Men's Athletic Footwear,50.0,775,387500.0,77500.0,0.2,Outlet
142,West Gear,1128299,2020-11-03,South,Texas,Houston,Women's Street Footwear,50.0,775,387500.0,135625.0,0.35,Outlet
143,West Gear,1128299,2020-11-04,South,Texas,Houston,Women's Athletic Footwear,50.0,625,312500.0,93750.0,0.3,Outlet
144,West Gear,1128299,2020-11-05,West,California,San Francisco,Men's Apparel,55.0,575,316250.0,158125.0,0.5,Outlet


## Pregunta 15
**Filtro 2: Crea un DataFrame filtrado para el estado con mayores ventas totales.**

_Utiliza la agrupación por State para identificar dicho estado y filtra el dataset original._

In [21]:
top_state_data = data[data['State'] == best_state]
display(top_state_data.head())

Unnamed: 0,Retailer,Retailer ID,Invoice Date,Region,State,City,Product,Price per Unit,Units Sold,Total Sales,Operating Profit,Operating Margin,Sales Method
0,Foot Locker,1185732,2020-01-01,Northeast,New York,New York,Men's Street Footwear,50.0,1200,600000.0,300000.0,0.5,In-store
1,Foot Locker,1185732,2020-01-02,Northeast,New York,New York,Men's Athletic Footwear,50.0,1000,500000.0,150000.0,0.3,In-store
2,Foot Locker,1185732,2020-01-03,Northeast,New York,New York,Women's Street Footwear,40.0,1000,400000.0,140000.0,0.35,In-store
3,Foot Locker,1185732,2020-01-04,Northeast,New York,New York,Women's Athletic Footwear,45.0,850,382500.0,133875.0,0.35,In-store
4,Foot Locker,1185732,2020-01-05,Northeast,New York,New York,Men's Apparel,60.0,900,540000.0,162000.0,0.3,In-store


## Pregunta 16
**Filtro 3: Crea un DataFrame filtrado para el producto con mayor cantidad de unidades vendidas.**

_Identifica el producto líder y extrae las transacciones relacionadas._

In [22]:
top_product_data = data[data['Product'] == best_product]
display(top_product_data.head())

Unnamed: 0,Retailer,Retailer ID,Invoice Date,Region,State,City,Product,Price per Unit,Units Sold,Total Sales,Operating Profit,Operating Margin,Sales Method
0,Foot Locker,1185732,2020-01-01,Northeast,New York,New York,Men's Street Footwear,50.0,1200,600000.0,300000.0,0.5,In-store
6,Foot Locker,1185732,2020-01-07,Northeast,New York,New York,Men's Street Footwear,50.0,1250,625000.0,312500.0,0.5,In-store
12,Foot Locker,1185732,2020-01-25,Northeast,New York,New York,Men's Street Footwear,50.0,1220,610000.0,305000.0,0.5,Outlet
18,Foot Locker,1185732,2020-01-31,Northeast,New York,New York,Men's Street Footwear,50.0,1200,600000.0,300000.0,0.5,Outlet
24,Foot Locker,1185732,2020-02-06,Northeast,New York,New York,Men's Street Footwear,60.0,1220,732000.0,366000.0,0.5,Outlet


## Pregunta 17 (Negocio)
**¿Qué Retailer presenta el mayor margen operativo y por qué podría ser significativo desde el punto de vista del negocio?**

_Analiza el resumen por Retailer y discute las posibles implicaciones (por ejemplo, eficiencia operativa, estrategia de precios, etc.)._

In [23]:
best_margin_retailer = grouped_retailer['Operating Margin Total'].idxmax()
print(f'Retailer con mayor margen operativo: {best_margin_retailer}')

Retailer con mayor margen operativo: Sports Direct


## Pregunta 18 (Negocio)
**Analiza el desempeño entre métodos de venta (por ejemplo, In-store vs. Online si aplica).**

_Si el dataset incluye ambos métodos, comenta sobre las posibles diferencias en ventas totales y promedios y qué implicaciones podrían tener en la estrategia comercial._

In [24]:
display(grouped_sales_method)
print('Los métodos de venta pueden influir en costos y márgenes según la estrategia.')

Unnamed: 0_level_0,Total Sales,Total Sales
Unnamed: 0_level_1,sum,mean
Sales Method,Unnamed: 1_level_2,Unnamed: 2_level_2
In-store,356643750.0,204967.672414
Online,247672882.0,50659.210882
Outlet,295585493.0,97908.411063


Los métodos de venta pueden influir en costos y márgenes según la estrategia.


## Pregunta 19
**Filtro Combinado: Crea un DataFrame filtrado que cumpla con los siguientes criterios:**
- Retailer con mayores ventas totales
- Estado con mayores ventas totales
- Producto con mayor cantidad de unidades vendidas
- Método de venta con mayores ventas totales

_Muestra las primeras filas del DataFrame resultante._

In [25]:
top_combined_data = data[(data['Retailer'] == best_retailer) &
                         (data['State'] == best_state) &
                         (data['Product'] == best_product) &
                         (data['Sales Method'] == best_sales_method)]
display(top_combined_data.head())

Unnamed: 0,Retailer,Retailer ID,Invoice Date,Region,State,City,Product,Price per Unit,Units Sold,Total Sales,Operating Profit,Operating Margin,Sales Method
1443,West Gear,1185732,2021-03-08,Northeast,New York,Albany,Men's Street Footwear,45.0,870,391500.0,176175.0,0.45,In-store
1449,West Gear,1185732,2021-04-09,Northeast,New York,Albany,Men's Street Footwear,45.0,825,371250.0,167062.5,0.45,In-store
1455,West Gear,1185732,2021-05-08,Northeast,New York,Albany,Men's Street Footwear,55.0,870,478500.0,215325.0,0.45,In-store
1461,West Gear,1185732,2021-06-10,Northeast,New York,Albany,Men's Street Footwear,60.0,875,525000.0,236250.0,0.45,In-store
1467,West Gear,1185732,2021-07-08,Northeast,New York,Albany,Men's Street Footwear,65.0,950,617500.0,277875.0,0.45,In-store


## Pregunta 20 (Negocio)
**Basado en el análisis de las variables (ventas, margen, unidades vendidas) y la matriz de correlación (si se llegase a calcular en un análisis posterior), ¿cuáles crees que son los principales factores que contribuyen a la ganancia operativa?**

_Esta pregunta es abierta: reflexiona sobre la relación entre precio por unidad, unidades vendidas, ventas totales y margen operativo, y plantea posibles estrategias de negocio basadas en estos insights._

In [26]:
print('Factores clave: precio por unidad, volumen de ventas, costos operativos y descuentos.')

Factores clave: precio por unidad, volumen de ventas, costos operativos y descuentos.


## Conclusión

En este notebook se han planteado 20 preguntas que combinan análisis técnico y reflexiones de negocio. Se ha trabajado con filtrados y agrupaciones para extraer insights clave del dataset de ventas, lo que permite a los estudiantes practicar y comprender cómo los datos pueden informar decisiones estratégicas en un entorno comercial.