# Análisis de Datos de la Cadena de Suministro Minorista (Retail Supply Chain Sales)

**Objetivo:**

Realizar un análisis exhaustivo del rendimiento de ventas, logística de envíos, comportamiento del cliente y tendencias temporales utilizando SQL en Python.

**Aplicaciones Potenciales:**

Análisis de ventas, clientes y rentabilidad.

Tendencias de productos y comportamiento de compra.

Evaluación de devoluciones y logística.

Modelos predictivos para demanda y suministro.

# Preguntas:

1. ¿Cuáles son los 10 productos más vendidos por cantidad total?
(Top ventas por cantidad)

2. ¿Qué categorías generan más ventas totales y cuáles son las más rentables?
(Suma de ventas y ganancias por categoría)

3. ¿Cuáles son los 5 clientes que más han comprado en valor total?
(Suma de ventas por cliente)

4. ¿Cuántos pedidos se realizaron por cada segmento de cliente?
(Segmentación de clientes por volumen)

5. ¿Cuál es la región con más ventas y su respectiva ganancia total?
(Análisis geográfico)

6. ¿Qué porcentaje de pedidos fueron devueltos?
(Tasa de devoluciones)

7. ¿Cuál es el descuento promedio aplicado por categoría de producto?
(Estudio de descuentos)

8. ¿Cómo ha sido la evolución de las ventas totales por año?
(Análisis temporal con la tabla calendario)

9. ¿Qué modo de envío es el más utilizado y cuál genera más ganancias?
(Optimización logística)

10. ¿Cuál es la correlación entre cantidad de productos vendidos, descuento y ganancia?
(Análisis de relación entre métricas clave)

In [2]:
import pandas as pd
import sqlite3

# Crear base de datos SQLite en memoria
conn = sqlite3.connect(':memory:')

# Cargar datasets desde Excel
file_path = '/content/drive/MyDrive/Databases/Ecommerce/Retail Supply Chain Sales Dataset/Retail-Supply-Chain-Sales-Dataset.xlsx'

orders_df = pd.read_excel(file_path, sheet_name='Retails Order Full Dataset')
calendar_df = pd.read_excel(file_path, sheet_name='Calendar Table')

orders_df.to_sql('orders', con=conn, index=False, if_exists='replace')
calendar_df.to_sql('calendar', con=conn, index=False, if_exists='replace')

1826

**¿Cuáles son los 10 productos más vendidos por cantidad total? (Top ventas por cantidad)**

In [3]:
query = """
SELECT
    [Product Name],
    SUM(Quantity) AS Total_Quantity_Sold
FROM orders
GROUP BY [Product Name]
ORDER BY Total_Quantity_Sold DESC
LIMIT 10
"""

# Ejecutar la consulta
top_products = pd.read_sql_query(query, conn)

# Mostrar resultado
print(top_products)

                                        Product Name  Total_Quantity_Sold
0                                            Staples                  215
1                                    Staple envelope                  170
2                                  Easy-staple paper                  150
3                            Staples in misc. colors                   86
4                         KI Adjustable-Height Table                   74
5                            Storex Dura Pro Binders                   71
6                            Avery Non-Stick Binders                   71
7  GBC Premium Transparent Covers with Diagonal L...                   67
8         Situations Contoured Folding Chairs, 4/Set                   64
9                         Staple-based wall hangings                   62


Los productos relacionados con “Staples” (grapas y suministros relacionados) dominan las ventas en volumen:

4 de los 10 primeros productos están relacionados con grapas o papel para grapas.

Esto sugiere que los artículos de papelería y oficina tienen un volumen alto de ventas.

También hay productos de mobiliario de oficina en el ranking (por ejemplo, mesas ajustables y sillas plegables).

La diferencia entre el primer lugar (215) y el décimo (62) no es tan grande, lo cual sugiere ventas relativamente equilibradas entre estos top productos.

**Conclusión:**

El análisis muestra que los productos más vendidos pertenecen mayormente a la categoría de suministros de oficina, especialmente relacionados con grapas, papel y encuadernadores. Esto indica una alta demanda en productos de papelería dentro del negocio.

**¿Qué categorías generan más ventas totales y cuáles son las más rentables?**

In [4]:
query = """
SELECT
    Category,
    SUM(Sales) AS Total_Sales,
    SUM(Profit) AS Total_Profit
FROM orders
GROUP BY Category
ORDER BY Total_Sales DESC
"""

# Ejecutar la consulta
category_sales_profit = pd.read_sql_query(query, conn)

# Mostrar resultado
print(category_sales_profit)

          Category  Total_Sales  Total_Profit
0       Technology  836154.0330   145454.9481
1        Furniture  741999.7953    18451.2728
2  Office Supplies  719047.0320   122490.8008


Technology es la categoría líder tanto en ventas como en ganancias, siendo la más rentable.

Furniture, pese a su volumen de ventas, tiene un margen de ganancia muy bajo, lo que puede sugerir costos elevados o descuentos frecuentes.

Office Supplies ofrece un equilibrio razonable entre ventas y ganancias.

**Este tipo de análisis es muy valioso para decisiones comerciales como:**

1. Enfocar campañas de marketing.

2. Revisar precios o costos de Furniture.

3. Reforzar la promoción de productos tecnológicos.

**¿Cuáles son los 5 clientes que más han comprado en valor total?**

In [5]:
query = """
SELECT
    [Customer Name],
    SUM(Sales) AS Total_Spent
FROM orders
GROUP BY [Customer Name]
ORDER BY Total_Spent DESC
LIMIT 5
"""

# Ejecutar la consulta
top_customers = pd.read_sql_query(query, conn)

# Mostrar resultado
print(top_customers)

   Customer Name  Total_Spent
0    Sean Miller    25043.050
1   Tamara Chand    19052.218
2   Raymond Buch    15117.339
3   Tom Ashbrook    14595.620
4  Adrian Barton    14473.571


Sean Miller es el cliente con mayor gasto total, con diferencia notable sobre
el resto.

Existe una brecha significativa entre el primer cliente y los demás.

Todos estos clientes han gastado más de 14,000 en total, por lo que representan cuentas muy valiosas para el negocio.

**Estos clientes podrían ser ideales para estrategias de:**

1. Fidelización.

2. Ventas cruzadas.

3. Programas VIP.

**Conclusión:**

El análisis revela que un pequeño grupo de clientes concentra un volumen importante de ventas. Identificarlos permite:

1. Ofrecerles beneficios exclusivos.

2. Mantener un contacto cercano.

3. Potenciar ventas futuras.

**¿Cuáles son los 5 estados con mayores ventas totales?**

In [6]:
query = """
SELECT
    State,
    SUM(Sales) AS Total_Sales
FROM orders
GROUP BY State
ORDER BY Total_Sales DESC
LIMIT 5
"""

# Ejecutar la consulta
top_states = pd.read_sql_query(query, conn)

# Mostrar resultado
print(top_states)

          State  Total_Sales
0    California  457687.6315
1      New York  310876.2710
2         Texas  170188.0458
3    Washington  138641.2700
4  Pennsylvania  116511.9140


El análisis muestra una concentración geográfica significativa de las ventas:

California es el mercado más grande, posiblemente por tamaño poblacional o poder adquisitivo.

Los estados del top 5 son clave para las estrategias de marketing y expansión.

Focalizar esfuerzos en estos estados puede maximizar el retorno de inversión.

**¿Cuál es el volumen de ventas total por año?**

In [7]:
query = """
SELECT
    STRFTIME('%Y', [Order Date]) AS Year,
    SUM(Sales) AS Total_Sales
FROM orders
GROUP BY Year
ORDER BY Year
"""

# Ejecutar la consulta
annual_sales = pd.read_sql_query(query, conn)

# Mostrar resultado
print(annual_sales)

   Year  Total_Sales
0  2014  484247.4981
1  2015  470532.5090
2  2016  609205.5980
3  2017  733215.2552


Las ventas aumentaron consistentemente desde 2015 hasta 2017.

El año 2017 registró el mayor volumen de ventas del periodo analizado, con más de 733 mil.

El único descenso se presentó entre 2014 y 2015, aunque la diferencia fue moderada.

Entre 2015 y 2017, el crecimiento fue sostenido, indicando un posible ciclo de expansión del negocio.

**Conclusión:**

1. La empresa experimentó un crecimiento sostenido en ventas en los últimos años del análisis.

2. El mejor año fue 2017, mostrando un aumento de casi 56% respecto a 2015.

3. Estos datos indican una tendencia positiva que puede ser aprovechada para planear inversiones futuras o expansión.

**¿Cuál es el modo de envío más utilizado y cuánto se ha vendido por cada uno?**

In [8]:
query = """
SELECT
    [Ship Mode],
    COUNT(*) AS Num_Orders,
    SUM(Sales) AS Total_Sales
FROM orders
GROUP BY [Ship Mode]
ORDER BY Num_Orders DESC
"""

# Ejecutar la consulta
ship_mode_summary = pd.read_sql_query(query, conn)

# Mostrar resultado
print(ship_mode_summary)

        Ship Mode  Num_Orders   Total_Sales
0  Standard Class        5968  1.358216e+06
1    Second Class        1945  4.591936e+05
2     First Class        1538  3.514284e+05
3        Same Day         543  1.283631e+05


La mayoría de los clientes prefieren envíos en modo Standard Class, posiblemente por costos más bajos.

Aunque es menos usado, el servicio Same Day puede representar una buena oportunidad para productos premium o urgentes.

**Esta información puede ayudar a:**

Optimizar las estrategias logísticas.

Ajustar promociones según el modo de envío.

Evaluar la rentabilidad de cada tipo de servicio.


**¿Cuáles son las 5 ciudades con mayores ganancias totales?**

In [9]:
query = """
SELECT
    City,
    SUM(Profit) AS Total_Profit
FROM orders
GROUP BY City
ORDER BY Total_Profit DESC
LIMIT 5
"""

# Ejecutar la consulta
top_cities_profit = pd.read_sql_query(query, conn)

# Mostrar resultado
print(top_cities_profit)

            City  Total_Profit
0  New York City    62036.9837
1    Los Angeles    30440.7579
2        Seattle    29156.0967
3  San Francisco    17507.3854
4        Detroit    13181.7908


New York City genera el doble de ganancias que cualquier otra ciudad, siendo la más rentable con diferencia.

Los Angeles y Seattle tienen ganancias similares, ocupando el segundo y tercer lugar.

San Francisco y Detroit completan el Top 5 con ganancias relevantes, aunque claramente más bajas que las primeras tres ciudades.

Estas ciudades representan los principales centros de rentabilidad para la empresa.

**Conclusión:**

1. La rentabilidad está fuertemente concentrada en unas pocas ciudades, especialmente en New York City.

2. Las estrategias comerciales y de marketing podrían enfocarse en estas ciudades para maximizar las ganancias.

3. También puede ser interesante investigar qué factores impulsan las ganancias en New York City para replicarlo en otras áreas.

**¿Qué productos generan las mayores ganancias totales? (Top 5)**

In [10]:
query = """
SELECT
    [Product Name],
    SUM(Profit) AS Total_Profit
FROM orders
GROUP BY [Product Name]
ORDER BY Total_Profit DESC
LIMIT 5
"""

# Ejecutar la consulta
top_products_profit = pd.read_sql_query(query, conn)

# Mostrar resultado
print(top_products_profit)

                                        Product Name  Total_Profit
0              Canon imageCLASS 2200 Advanced Copier    25199.9280
1  Fellowes PB500 Electric Punch Plastic Comb Bin...     7753.0390
2               Hewlett Packard LaserJet 3310 Copier     6983.8836
3                 Canon PC1060 Personal Laser Copier     4570.9347
4  HP Designjet T520 Inkjet Large Format Printer ...     4094.9766


La rentabilidad está altamente concentrada en ciertos productos tecnológicos de oficina, lo cual sugiere que son claves para la estrategia comercial.

**Estos productos pueden recibir prioridad en:**

1. Promociones y descuentos selectivos.

2. Estrategias de marketing.

3. Gestión de inventario.

Es recomendable analizar la demanda y el ciclo de vida de estos productos para maximizar aún más sus beneficios.

**¿Cuál es el descuento promedio aplicado por categoría de producto?**

In [11]:
query = """
SELECT
    Category,
    AVG(Discount) AS Average_Discount
FROM orders
GROUP BY Category
ORDER BY Average_Discount DESC
"""

# Ejecutar la consulta
avg_discount_by_category = pd.read_sql_query(query, conn)

# Mostrar resultado
print(avg_discount_by_category)

          Category  Average_Discount
0        Furniture          0.173923
1  Office Supplies          0.157285
2       Technology          0.132323


Las políticas de descuento varían según la categoría, lo cual es común en estrategias comerciales:

Furniture recibe mayores descuentos, quizás para mover inventario o por su alta competencia.

Technology mantiene descuentos más conservadores debido al alto valor y demanda de sus productos.

**Esta información puede ayudar a:**

Optimizar estrategias de precios.

Analizar impacto de los descuentos en las ganancias.

Ajustar promociones futuras según la categoría.

**¿Cuáles son los 5 clientes con mayores ganancias totales generadas?**

In [12]:
query = """
SELECT
    [Customer Name],
    SUM(Profit) AS Total_Profit
FROM orders
GROUP BY [Customer Name]
ORDER BY Total_Profit DESC
LIMIT 5
"""

# Ejecutar la consulta
top_customers_profit = pd.read_sql_query(query, conn)

# Mostrar resultado
print(top_customers_profit)

   Customer Name  Total_Profit
0   Tamara Chand     8981.3239
1   Raymond Buch     6976.0959
2   Sanjit Chand     5757.4119
3   Hunter Lopez     5622.4292
4  Adrian Barton     5444.8055


Un pequeño grupo de clientes concentra una proporción significativa de las ganancias totales.

**La empresa podría:**

Aplicar programas de fidelización para estos clientes premium.

Analizar en detalle sus patrones de compra.

Identificar si hay más clientes con comportamientos similares.

Este tipo de análisis es muy útil para estrategias de Customer Relationship Management (CRM) y marketing personalizado.

## Dataset Overview:

- **Dataset:** Retail Supply Chain Sales Dataset  
- **Main Table:** Retails Order Full Dataset (9,994 rows, 23 columns)
- **Focus:** Análisis de ventas, rentabilidad, clientes, envíos y tendencias temporales.

---

## Key Findings and Insights:

### 1. **Top Products Sold & Most Profitable Products**
- Los productos más vendidos fueron artículos básicos como **Staples** y **Sillas Plegables**.
- Los productos más rentables fueron **Copiadoras e Impresoras Profesionales** como:
  - *Canon imageCLASS 2200 Advanced Copier*  
  - *HP Designjet T520 Inkjet Large Format Printer*
- **Insight:** La alta rentabilidad no siempre proviene de los productos más vendidos.

---

### 2. **Sales & Profit by Product Category**
| Category        | Total Sales | Total Profit | Avg Discount |
|-----------------|-------------|--------------|--------------|
| Technology      | Alta        | Alta         | Baja (~13%)  |
| Furniture       | Media       | Baja         | Alta (~17%)  |
| Office Supplies | Media       | Media        | Media (~15%) |

**Insight:**  
- La **tecnología** lidera en ventas y rentabilidad.
- Los **muebles** tienen altos descuentos, pero bajo margen de ganancia.

---

### 3. **Top Customers (Total Spending & Profitability)**
- **Clientes más rentables:**  
  1. Tamara Chand  
  2. Raymond Buch  
  3. Sanjit Chand  
- Estos clientes representan un segmento estratégico para fidelización.

---

### 4. **Geographic Insights**
- **Estados líderes en ventas:**  
  - California  
  - New York  
  - Texas
- **Ciudades más rentables:**  
  - New York City  
  - Los Angeles  
  - Seattle

---

### 5. **Temporal Sales Trends**
- Las ventas aumentaron año tras año, alcanzando su punto más alto en **2017**.
- **Insight:** Tendencia de crecimiento sostenido, ideal para análisis de demanda futura.

---

### 6. **Shipping Mode Analysis**
| Ship Mode      | # Orders | Total Sales |
|----------------|----------|-------------|
| Standard Class | Alto     | Alto        |
| Same Day       | Bajo     | Bajo        |

- El envío **Standard Class** es el más utilizado.
- Potencial para mejorar la adopción de envíos rápidos.

---

### 7. **Discount Analysis**
- **Furniture** recibe los mayores descuentos promedio (~17%).
- La tecnología mantiene los descuentos más bajos (~13%), alineado con su alta rentabilidad.

---

## Final Conclusion:
- La rentabilidad está altamente concentrada en **productos tecnológicos, clientes premium** y ciertas **regiones clave**.
- Las categorías requieren estrategias diferenciadas según márgenes y volumen de ventas.
- Hay oportunidades claras en:
  - Gestión estratégica de descuentos.
  - Fidelización de clientes rentables.
  - Optimización del mix de productos.
  - Mejoras logísticas (envío).

---

## Recommendations:
- Priorizar productos tecnológicos en marketing y ventas.
- Desarrollar campañas personalizadas para los clientes más rentables.
- Analizar ciclos de vida de productos con grandes descuentos.
- Evaluar el impacto de ofrecer más envíos Same Day.

---

*Analysis conducted using SQL queries within Python (Google Colab) with SQLite.*
