# Análisis Exploratorio de Datos (EDA) – 20 Preguntas y Preguntas de Negocio

En este notebook se plantean 20 preguntas que combinan operaciones de filtrado y agrupación sobre el dataset de ventas de Adidas en EE.UU. Además, se incluyen preguntas de negocio para que los estudiantes deban abstraer y razonar sobre las implicaciones comerciales de los datos.

El ejercicio abarca:
- Análisis descriptivo básico (dimensiones, unidades de observación).
- Cálculo de totales, promedios y márgenes.
- Agrupaciones por Retailer, Estado, Producto y Método de Venta.
- Filtrados para extraer subconjuntos de datos.
- Preguntas de negocio para interpretar resultados y proponer soluciones basadas en la información.

¡Comienza resolviendo cada punto y analizando los resultados obtenidos!

In [1]:
!wget https://github.com/prayagpadwal/Adidas-Sales-Analysis/raw/main/Adidas%20US%20Sales%20Datasets.xlsx

--2025-03-13 16:32:25--  https://github.com/prayagpadwal/Adidas-Sales-Analysis/raw/main/Adidas%20US%20Sales%20Datasets.xlsx
Resolving github.com (github.com)... 140.82.113.3
Connecting to github.com (github.com)|140.82.113.3|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://raw.githubusercontent.com/prayagpadwal/Adidas-Sales-Analysis/main/Adidas%20US%20Sales%20Datasets.xlsx [following]
--2025-03-13 16:32:26--  https://raw.githubusercontent.com/prayagpadwal/Adidas-Sales-Analysis/main/Adidas%20US%20Sales%20Datasets.xlsx
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 693038 (677K) [application/octet-stream]
Saving to: ‘Adidas US Sales Datasets.xlsx’


2025-03-13 16:32:26 (12.1 MB/s) - ‘Adidas US Sales Datasets.xlsx’ saved [

In [2]:
# Importar librerías necesarias
import pandas as pd
import numpy as np

# Leer el archivo Excel (asegúrate de haber subido 'Adidas US Sales Datasets.xlsx' a tu entorno de Colab)
data = pd.read_excel('Adidas US Sales Datasets.xlsx')

df= pd.read_excel('Adidas US Sales Datasets.xlsx')


## Pregunta 1
**¿Cuántas filas y columnas tiene el dataset?**

_Muestra las dimensiones del DataFrame._

In [3]:
data.shape

(9648, 13)

## Pregunta 2
**¿Cuál es la unidad de observación del dataset?**

_Describe qué representa cada fila (por ejemplo, una transacción o venta individual)._

In [4]:
# esta a nivel de productos vedidos y retailer
data. head()

Unnamed: 0,Retailer,Retailer ID,Invoice Date,Region,State,City,Product,Price per Unit,Units Sold,Total Sales,Operating Profit,Operating Margin,Sales Method
0,Foot Locker,1185732,2020-01-01,Northeast,New York,New York,Men's Street Footwear,50.0,1200,600000.0,300000.0,0.5,In-store
1,Foot Locker,1185732,2020-01-02,Northeast,New York,New York,Men's Athletic Footwear,50.0,1000,500000.0,150000.0,0.3,In-store
2,Foot Locker,1185732,2020-01-03,Northeast,New York,New York,Women's Street Footwear,40.0,1000,400000.0,140000.0,0.35,In-store
3,Foot Locker,1185732,2020-01-04,Northeast,New York,New York,Women's Athletic Footwear,45.0,850,382500.0,133875.0,0.35,In-store
4,Foot Locker,1185732,2020-01-05,Northeast,New York,New York,Men's Apparel,60.0,900,540000.0,162000.0,0.3,In-store


## Pregunta 3
**¿Cuáles fueron las ventas totales?**

_Suma de la columna 'Total Sales'._

In [5]:
data['Total Sales'].sum()


899902125.0

## Pregunta 4
**¿Cuál fue la ganancia operativa total?**

_Suma de la columna 'Operating Profit'._

In [6]:
data['Operating Profit'].sum()

332134761.45000005

## Pregunta 5
**¿Cuál es el margen operativo promedio?**

_Calcula la media de la columna 'Operating Margin' y explica por qué se utiliza el promedio en lugar de una suma._

In [7]:
# porque la suma no mostrara el verdadero margen operativo, y el promderio no da una informacion mas cercana a la realidad del cuales son als ganancias

data['Operating Margin'].mean()

0.42299129353233833

## Pregunta 6
**Agrupar por Retailer y calcular:**
- La suma de 'Total Sales'
- La suma de 'Operating Profit'
- La suma de 'Units Sold'

_Utiliza `groupby` para obtener estos totales por cada Retailer._

In [28]:
retailer_totals= data.groupby('Retailer').agg({'Total Sales':'sum', 'Operating Profit':'sum','Units Sold':'sum'})
retailer_totals
print(retailer_totals)

               Total Sales  Operating Profit  Units Sold
Retailer                                                
Amazon          77698912.0       28818503.31      197990
Foot Locker    220094720.0       80722124.81      604369
Kohl's         102114753.0       36811252.58      287375
Sports Direct  182470997.0       74332954.96      557640
Walmart         74558410.0       25782052.61      206225
West Gear      242964333.0       85667873.18      625262


In [9]:
review_retailer1 = data.groupby ('Retailer')[['Total Sales','Operating Profit','Units Sold']].sum()
print(review_retailer1)

               Total Sales  Operating Profit  Units Sold
Retailer                                                
Amazon          77698912.0       28818503.31      197990
Foot Locker    220094720.0       80722124.81      604369
Kohl's         102114753.0       36811252.58      287375
Sports Direct  182470997.0       74332954.96      557640
Walmart         74558410.0       25782052.61      206225
West Gear      242964333.0       85667873.18      625262


## Pregunta 7
**Calcular el margen total por Retailer y el margen operativo promedio por Retailer.**

- Margen total: (Suma de 'Operating Profit' / Suma de 'Total Sales') por Retailer.
- Margen promedio: Promedio de la columna 'Operating Margin' para cada Retailer.

_Compara ambos resultados y comenta la diferencia, reflexionando sobre el significado en términos de negocio._

In [10]:
#Calcular los totales por Retailer (Review retailer)
review_retailer = data.groupby('Retailer').agg({'Total Sales': 'sum', 'Operating Profit': 'sum', 'Units Sold': 'sum'})

#Calcular el margen total por Retailer
review_retailer['Margin Total'] = review_retailer['Operating Profit'] / review_retailer['Total Sales']

#Calcular el margen operativo por Retailer
retailer_averages = data.groupby('Retailer')['Operating Margin'].mean()

retailer_averages = retailer_averages.rename('Margen Operativo Promedio')

# Combinar los resultados en un solo Dataframe
retailer_margins = pd.concat([review_retailer, retailer_averages], axis=1)

print(retailer_margins)


               Total Sales  Operating Profit  Units Sold  Margin Total  \
Retailer                                                                 
Amazon          77698912.0       28818503.31      197990      0.370900   
Foot Locker    220094720.0       80722124.81      604369      0.366761   
Kohl's         102114753.0       36811252.58      287375      0.360489   
Sports Direct  182470997.0       74332954.96      557640      0.407369   
Walmart         74558410.0       25782052.61      206225      0.345797   
West Gear      242964333.0       85667873.18      625262      0.352594   

               Margen Operativo Promedio  
Retailer                                  
Amazon                          0.417871  
Foot Locker                     0.417933  
Kohl's                          0.419291  
Sports Direct                   0.444892  
Walmart                         0.406534  
West Gear                       0.417856  


## Pregunta 8
**¿Qué Retailer vendió la mayor cantidad de unidades totales?**

_Agrupa por Retailer, suma 'Units Sold' y ordena de forma descendente._

In [11]:
data.groupby('Retailer')['Units Sold'].sum().sort_values(ascending=False)

Unnamed: 0_level_0,Units Sold
Retailer,Unnamed: 1_level_1
West Gear,625262
Foot Locker,604369
Sports Direct,557640
Kohl's,287375
Walmart,206225
Amazon,197990


## Pregunta 9
**¿Qué producto vendió la mayor cantidad de unidades?**

_Agrupa por 'Product' y suma 'Units Sold' para identificar el producto líder._

In [16]:
data.groupby('Product')['Units Sold'].sum().sort_values(ascending=False)
product_units_sold = data.groupby('Product')['Units Sold'].sum()
print(product_units_sold.head(3))

Product
Men's Apparel              306683
Men's Athletic Footwear    435526
Men's Street Footwear      593320
Name: Units Sold, dtype: int64


## Pregunta 10
**Agrupar por el método de venta ('Sales Method') y calcular:**
- La suma de 'Total Sales'
- El promedio de 'Total Sales'

_Esta agrupación ayudará a identificar cuál método tiene mejores resultados en términos de volumen y eficiencia._

In [21]:
# Agrupa por 'Sales Method' y calcula la suma y el promedio de 'Total Sales'
sales_method_analysis = data.groupby('Sales Method')['Total Sales'].agg(['sum', 'mean'])

# Renombra las columnas para mayor claridad
sales_method_analysis = sales_method_analysis.rename(
    columns={'sum': 'Total Sales', 'mean': 'Average Sales'}
)

# Muestra los resultados
print(sales_method_analysis)


              Total Sales  Average Sales
Sales Method                            
In-store      356643750.0  204967.672414
Online        247672882.0   50659.210882
Outlet        295585493.0   97908.411063


## Pregunta 11
**¿Qué método de venta tiene mayores ventas totales y mayores ventas promedio?**

_Analiza los resultados obtenidos en la Pregunta 10 y comenta posibles razones de negocio detrás de estos resultados._

In [22]:
if 'Total Sales' in sales_method_analysis.columns and 'Average Sales' in sales_method_analysis.columns:
    max_total_sales_method = sales_method_analysis['Total Sales'].idxmax()
    print(f"Método con mayores ventas totales: {max_total_sales_method}")

    max_avg_sales_method = sales_method_analysis['Average Sales'].idxmax()
    print(f"Método con mayores ventas promedio: {max_avg_sales_method}")
else:
    print("Error: Las columnas 'Total Sales' o 'Average Sales' no están en el DataFrame.")


Método con mayores ventas totales: In-store
Método con mayores ventas promedio: In-store


Ventas Totales: El método con el mayor volumen de ventas totales podría reflejar su alta demanda o su alcance masivo en el mercado. Esto puede estar relacionado con una inversión publicitaria significativa, una distribución más amplia o una fuerte presencia en la industria.

Ventas Promedio: El método con el ticket de compra promedio más alto puede destacar por su efectividad al convertir clientes o generar transacciones de mayor valor. Factores como una mejor preparación del equipo de ventas, una estrategia de precios optimizada o una segmentación más precisa de la audiencia podrían influir en este resultado.

## Pregunta 12
**Agrupar por State y calcular la suma de 'Total Sales'.**

_Determina cuál es el estado con mayores ventas totales._

In [23]:
state_sales = data.groupby('State')['Total Sales'].sum()
max_sales_state = state_sales.idxmax()
print(f"El estado con mayores ventas totales es: {max_sales_state}")

El estado con mayores ventas totales es: New York


## Pregunta 13 (Negocio)
**¿Qué estado muestra un mejor desempeño operativo?**

_Agrupa por State y calcula el promedio de 'Operating Margin' para evaluar cuál estado opera de manera más eficiente. Comenta posibles implicaciones de negocio._

In [26]:
state_operating_margin = data.groupby('State')['Operating Margin'].mean()
best_performing_state = state_operating_margin.idxmax()
print(f"El estado con mejor desempeño operativo es: {best_performing_state}")


El estado con mejor desempeño operativo es: Alabama


Un mayor margen operativo promedio puede reflejar una mayor eficiencia en costos y gestión, así como la capacidad de establecer precios más altos o una fuerte demanda. Por otro lado, márgenes más bajos podrían indicar una mayor competencia o menor interés en los productos, lo que requeriría estrategias ajustadas. Además, los estados con altos márgenes pueden representar oportunidades de expansión, mientras que aquellos con márgenes bajos podrían necesitar una revisión de las estrategias actuales.









## Pregunta 14
**Filtro 1: Crea un DataFrame filtrado para el Retailer con mayores ventas totales.**

_Utiliza la agrupación previa para identificar dicho Retailer y filtra el dataset original._

In [30]:
top_retailer = retailer_totals['Total Sales'].idxmax()

filtered_data = data[data['Retailer'] == top_retailer]
filtered_data.head()


Unnamed: 0,Retailer,Retailer ID,Invoice Date,Region,State,City,Product,Price per Unit,Units Sold,Total Sales,Operating Profit,Operating Margin,Sales Method
140,West Gear,1128299,2020-11-01,South,Texas,Houston,Men's Street Footwear,40.0,775,310000.0,108500.0,0.35,Outlet
141,West Gear,1128299,2020-11-02,South,Texas,Houston,Men's Athletic Footwear,50.0,775,387500.0,77500.0,0.2,Outlet
142,West Gear,1128299,2020-11-03,South,Texas,Houston,Women's Street Footwear,50.0,775,387500.0,135625.0,0.35,Outlet
143,West Gear,1128299,2020-11-04,South,Texas,Houston,Women's Athletic Footwear,50.0,625,312500.0,93750.0,0.3,Outlet
144,West Gear,1128299,2020-11-05,West,California,San Francisco,Men's Apparel,55.0,575,316250.0,158125.0,0.5,Outlet


## Pregunta 15
**Filtro 2: Crea un DataFrame filtrado para el estado con mayores ventas totales.**

_Utiliza la agrupación por State para identificar dicho estado y filtra el dataset original._

In [33]:
state_sales = data.groupby('State')['Total Sales'].sum()
top_state = state_sales.idxmax()
filtered_data_state = data[data['State'] == top_state]
filtered_data_state.head()


Unnamed: 0,Retailer,Retailer ID,Invoice Date,Region,State,City,Product,Price per Unit,Units Sold,Total Sales,Operating Profit,Operating Margin,Sales Method
0,Foot Locker,1185732,2020-01-01,Northeast,New York,New York,Men's Street Footwear,50.0,1200,600000.0,300000.0,0.5,In-store
1,Foot Locker,1185732,2020-01-02,Northeast,New York,New York,Men's Athletic Footwear,50.0,1000,500000.0,150000.0,0.3,In-store
2,Foot Locker,1185732,2020-01-03,Northeast,New York,New York,Women's Street Footwear,40.0,1000,400000.0,140000.0,0.35,In-store
3,Foot Locker,1185732,2020-01-04,Northeast,New York,New York,Women's Athletic Footwear,45.0,850,382500.0,133875.0,0.35,In-store
4,Foot Locker,1185732,2020-01-05,Northeast,New York,New York,Men's Apparel,60.0,900,540000.0,162000.0,0.3,In-store


## Pregunta 16
**Filtro 3: Crea un DataFrame filtrado para el producto con mayor cantidad de unidades vendidas.**

_Identifica el producto líder y extrae las transacciones relacionadas._

In [36]:
product_units_sold = data.groupby('Product')['Units Sold'].sum()
top_product = product_units_sold.idxmax()
filtered_data_product = data[data['Product'] == top_product]
filtered_data_product.head()


Unnamed: 0,Retailer,Retailer ID,Invoice Date,Region,State,City,Product,Price per Unit,Units Sold,Total Sales,Operating Profit,Operating Margin,Sales Method
0,Foot Locker,1185732,2020-01-01,Northeast,New York,New York,Men's Street Footwear,50.0,1200,600000.0,300000.0,0.5,In-store
6,Foot Locker,1185732,2020-01-07,Northeast,New York,New York,Men's Street Footwear,50.0,1250,625000.0,312500.0,0.5,In-store
12,Foot Locker,1185732,2020-01-25,Northeast,New York,New York,Men's Street Footwear,50.0,1220,610000.0,305000.0,0.5,Outlet
18,Foot Locker,1185732,2020-01-31,Northeast,New York,New York,Men's Street Footwear,50.0,1200,600000.0,300000.0,0.5,Outlet
24,Foot Locker,1185732,2020-02-06,Northeast,New York,New York,Men's Street Footwear,60.0,1220,732000.0,366000.0,0.5,Outlet


## Pregunta 17 (Negocio)
**¿Qué Retailer presenta el mayor margen operativo y por qué podría ser significativo desde el punto de vista del negocio?**

_Analiza el resumen por Retailer y discute las posibles implicaciones (por ejemplo, eficiencia operativa, estrategia de precios, etc.)._

In [37]:
retailer_totals = data.groupby('Retailer').agg({
    'Operating Profit': 'sum',
    'Total Sales': 'sum'
})

retailer_totals['Operating Margin'] = retailer_totals['Operating Profit'] / retailer_totals['Total Sales']
top_retailer_margin = retailer_totals['Operating Margin'].idxmax()


print(f"El Retailer con el mayor margen operativo es: {top_retailer_margin}")
print(retailer_totals)

El Retailer con el mayor margen operativo es: Sports Direct
               Operating Profit  Total Sales  Operating Margin
Retailer                                                      
Amazon              28818503.31   77698912.0          0.370900
Foot Locker         80722124.81  220094720.0          0.366761
Kohl's              36811252.58  102114753.0          0.360489
Sports Direct       74332954.96  182470997.0          0.407369
Walmart             25782052.61   74558410.0          0.345797
West Gear           85667873.18  242964333.0          0.352594


Eficiencia operativa: Costos reducidos en producción, distribución o administración.

Estrategia de precios: Enfoque premium que permite precios más altos con alto volumen de ventas.

Negociación con proveedores: Mayor poder de negociación para obtener mejores precios.

Gestión de inventario: Reducción de pérdidas por obsolescencia o daños.

Marketing y branding: Marca fuerte y estrategia efectiva que permite cobrar más.

## Pregunta 18 (Negocio)
**Analiza el desempeño entre métodos de venta (por ejemplo, In-store vs. Online si aplica).**

_Si el dataset incluye ambos métodos, comenta sobre las posibles diferencias en ventas totales y promedios y qué implicaciones podrían tener en la estrategia comercial._

In [38]:
sales_method_analysis = data.groupby('Sales Method')['Total Sales'].agg(['sum', 'mean'])
sales_method_analysis = sales_method_analysis.rename(
    columns={'sum': 'Total Sales', 'mean': 'Average Sales'}
)

print(sales_method_analysis)

              Total Sales  Average Sales
Sales Method                            
In-store      356643750.0  204967.672414
Online        247672882.0   50659.210882
Outlet        295585493.0   97908.411063


Como el canal In-store tiene las mayores ventas totales pero un menor promedio por compra, esto sugiere que es clave para alcanzar a muchos clientes, aunque las compras individuales tienden a ser de menor valor.

Para mejorar esto, podría enfocarme en estrategias que aumenten el valor de cada compra en la tienda, como promociones atractivas o la venta de productos complementarios.

## Pregunta 19
**Filtro Combinado: Crea un DataFrame filtrado que cumpla con los siguientes criterios:**
- Retailer con mayores ventas totales
- Estado con mayores ventas totales
- Producto con mayor cantidad de unidades vendidas
- Método de venta con mayores ventas totales

_Muestra las primeras filas del DataFrame resultante._

In [39]:
top_retailer = data.groupby('Retailer')['Total Sales'].sum().idxmax()

top_state = data.groupby('State')['Total Sales'].sum().idxmax()


top_product = data.groupby('Product')['Units Sold'].sum().idxmax()

top_sales_method = data.groupby('Sales Method')['Total Sales'].sum().idxmax()


In [41]:
filtered_data = data[
    (data['Retailer'] == top_retailer) &
    (data['State'] == top_state) &
    (data['Product'] == top_product) &
    (data['Sales Method'] == top_sales_method)
]

In [42]:
filtered_data.head()

Unnamed: 0,Retailer,Retailer ID,Invoice Date,Region,State,City,Product,Price per Unit,Units Sold,Total Sales,Operating Profit,Operating Margin,Sales Method
1443,West Gear,1185732,2021-03-08,Northeast,New York,Albany,Men's Street Footwear,45.0,870,391500.0,176175.0,0.45,In-store
1449,West Gear,1185732,2021-04-09,Northeast,New York,Albany,Men's Street Footwear,45.0,825,371250.0,167062.5,0.45,In-store
1455,West Gear,1185732,2021-05-08,Northeast,New York,Albany,Men's Street Footwear,55.0,870,478500.0,215325.0,0.45,In-store
1461,West Gear,1185732,2021-06-10,Northeast,New York,Albany,Men's Street Footwear,60.0,875,525000.0,236250.0,0.45,In-store
1467,West Gear,1185732,2021-07-08,Northeast,New York,Albany,Men's Street Footwear,65.0,950,617500.0,277875.0,0.45,In-store


## Pregunta 20 (Negocio)
**Basado en el análisis de las variables (ventas, margen, unidades vendidas) y la matriz de correlación (si se llegase a calcular en un análisis posterior), ¿cuáles crees que son los principales factores que contribuyen a la ganancia operativa?**

_Esta pregunta es abierta: reflexiona sobre la relación entre precio por unidad, unidades vendidas, ventas totales y margen operativo, y plantea posibles estrategias de negocio basadas en estos insights._

Los principales factores que influyen en la ganancia operativa son:

Precio por unidad: Si el precio por unidad es más alto y la demanda se mantiene, las ventas totales aumentan, lo que impacta directamente en la ganancia operativa

 unidades vendidas: Un mayor volumen de ventas, incluso con un precio más bajo, puede generar un crecimiento significativo en las ganancias.

Ventas totales: Son el resultado de la combinación entre precio por unidad y unidades vendidas; cualquier incremento en estos factores impulsa las ganancias operativas.

Margen operativo: Refleja qué tan eficiente es la empresa al generar ganancias por cada dólar vendido, influenciado por costos de producción, distribución y administración.








## Conclusión

En este notebook se han planteado 20 preguntas que combinan análisis técnico y reflexiones de negocio. Se ha trabajado con filtrados y agrupaciones para extraer insights clave del dataset de ventas, lo que permite a los estudiantes practicar y comprender cómo los datos pueden informar decisiones estratégicas en un entorno comercial.