# üõí An√°lisis Exploratorio de Datos (EDA): E-Commerce Retail
- Autor: Erickson Ota√±o Data Engineer 
- Herramientas: PySpark, Spark SQL, Databricks Dashboard
- Link fuente de Datos: https://www.kaggle.com/datasets/carrie1/ecommerce-data/data

## üìã Descripci√≥n del Proyecto
Este notebook documenta el ciclo completo de procesamiento y an√°lisis de un dataset transaccional de E-Commerce (~540k registros). El objetivo es transformar datos crudos en insights de negocio accionables, simulando un entorno de producci√≥n Big Data.

## ‚öôÔ∏è Flujo de Trabajo
- Ingesta y Calidad de Datos: Carga de datos y limpieza rigurosa utilizando PySpark. Se implementaron estrategias robustas para el manejo de nulos y la estandarizaci√≥n de formatos de fecha complejos.

- Ingenier√≠a de Caracter√≠sticas: Creaci√≥n de m√©tricas temporales y financieras para enriquecer el dataset.

- An√°lisis Avanzado (SQL): Ejecuci√≥n de consultas complejas utilizando Window Functions y CTEs para realizar:

- Segmentaci√≥n de clientes RFM (Recencia, Frecuencia, Monetario).

- Detecci√≥n de tendencias estacionales y outliers.

- An√°lisis de Pareto (Top Productos).

- Visualizaci√≥n Ejecutiva: Creaci√≥n de Vistas Optimizadas y un Dashboard Interactivo final.

üìç **Nota de Navegaci√≥n:** Este an√°lisis culmina con un Dashboard Ejecutivo. Puede acceder a √©l cambiando la vista de este Notebook a "Dashboard" en el men√∫ superior.

# FASE 1: CARGA Y EXPLORACI√ìN INICIAL

In [0]:
from pyspark.sql.functions import *
from pyspark.sql.types import *
from pyspark.sql.functions import col, sum as spark_sum 
import pyspark.sql.functions as F # Importar el alias F para literales y funciones

# RUTA DEL DATASET (ajustar si es necesario)
DATA_PATH = "/Volumes/eda_ecommerce/default/ecommerce_files/E-Commerce Data.csv" 

df_raw = spark.read.csv(
    DATA_PATH,
    header=True,
    inferSchema=True
)

print("=" * 80)
print("VALIDACI√ìN INICIAL DE DATOS")
print("=" * 80)

## SECCI√ìN 1.2: Mostrar Schema y estructura

In [0]:
print("\nüìã SCHEMA DEL DATASET:")
print("-" * 80)
df_raw.printSchema()

print("\nüìä DIMENSIONES:")
# El conteo puede tardar unos segundos en Databricks Free Edition
print(f"  ‚Ä¢ Registros: {df_raw.count():,}") 
print(f"  ‚Ä¢ Columnas: {len(df_raw.columns)}")

# ============================================================================
# SECCI√ìN 1.3: Nulos y Estad√≠sticas (Captura el estado inicial)
# ============================================================================

print("\nüìä INFORMACI√ìN DE NULOS POR COLUMNA (Antes de Limpieza):")
print("-" * 80)
null_counts = df_raw.select(
    [spark_sum(col(c).isNull().cast("int")).alias(c) for c in df_raw.columns]
)
display(null_counts)

# FASE 2: LIMPIEZA Y PREPARACI√ìN (Orden Optimizado)

Vamos a tomar la decisi√≥n de negocio de eliminar los nulos en CustomerID y Description, ya que el an√°lisis RFM y de productos es central.

In [0]:
print("\n" + "=" * 80)
print("FASE 2: LIMPIEZA Y PREPARACI√ìN (OPTIMIZADA)")
print("=" * 80)

print("\nüßπ 2.0: LIMPIEZA DE NULOS Y DUPLICADOS (Optimizando rendimiento)")

# 1. Eliminar filas con CustomerID nulo (CR√çTICO para an√°lisis RFM)
df_cleaned = df_raw.filter(col("CustomerID").isNotNull())

# 2. Eliminar filas con Description nula (Menor impacto, pero mejora calidad)
df_cleaned = df_cleaned.filter(col("Description").isNotNull())

# 3. Eliminar duplicados exactos
df_cleaned = df_cleaned.dropDuplicates()

# 4. Filtrar transacciones v√°lidas (Quantity > 0 y UnitPrice > 0)
# Esto tambi√©n elimina las devoluciones/cancelaciones (Quantity < 0), que analizaremos luego
df_cleaned = df_cleaned.filter(
    (col("Quantity") > 0) & (col("UnitPrice") > 0)
)

print(f"üìä Registros antes de limpieza: {df_raw.count():,}")
print(f"üìä Registros despu√©s de limpieza: {df_cleaned.count():,}")
print(f"üìâ P√©rdida total de registros: {df_raw.count() - df_cleaned.count():,}")
print("‚úÖ Limpieza b√°sica completada.")

## SECCI√ìN 2.1: Conversi√≥n de tipos de datos (ERROR DE FORMATO CORREGIDO)

Ahora que el DataFrame es m√°s peque√±o, aplicamos la conversi√≥n de la fecha, utilizando la sintaxis correcta que corregimos antes (F.lit("MM/d/yyyy H:m")).

In [0]:
from pyspark.sql import functions as F

print("\nüîÑ 2.1: CONVERSI√ìN DE InvoiceDate a TIMESTAMP (USANDO TRY)...")

# USAMOS try_to_timestamp + FORMATO FLEXIBLE (M/d/yyyy H:m)
# M: Acepta meses de 1 o 2 d√≠gitos (1 y 12 funcionan)
# d: Acepta d√≠as de 1 o 2 d√≠gitos (1 y 25 funcionan)
# try_to_timestamp: Si falla, pone NULL en vez de dar error.

df_cleaned = df_cleaned.withColumn(
    "InvoiceDate_Timestamp",
    F.coalesce(
        F.try_to_timestamp(F.col("InvoiceDate"), F.lit("M/d/yyyy H:mm")),
        F.try_to_timestamp(F.col("InvoiceDate"), F.lit("MM/dd/yyyy HH:mm"))
    )
).drop("InvoiceDate").withColumnRenamed("InvoiceDate_Timestamp", "InvoiceDate")

print("‚úÖ InvoiceDate convertido a timestamp")

# Verificamos si quedaron nulos (fechas que no se pudieron leer)
failed_count = df_cleaned.filter(F.col("InvoiceDate").isNull()).count()

if failed_count > 0:
    print(f"‚ö†Ô∏è Advertencia: {failed_count} fechas no se pudieron convertir (son NULL).")
else:
    print("‚ú® √âxito Total: 0 errores de conversi√≥n.")

df_cleaned.printSchema()
display(df_cleaned.select("InvoiceDate").limit(5))

## SECCI√ìN 2.2: Crear columnas derivadas

In [0]:
print("\nüìù 2.2: CREANDO COLUMNAS DERIVADAS...")

df_cleaned = df_cleaned.withColumn(
    "Year", year(col("InvoiceDate"))
).withColumn(
    "Month", month(col("InvoiceDate"))
).withColumn(
    "Quarter", quarter(col("InvoiceDate"))
).withColumn(
    "DayOfWeek", dayofweek(col("InvoiceDate"))
).withColumn(
    "YearMonth",
    concat_ws("-", col("Year"), lpad(col("Month"), 2, "0")) # Formato AAAA-MM
).withColumn(
    "TransactionAmount",
    round(col("Quantity") * col("UnitPrice"), 2) # Revenue por l√≠nea
)

print("‚úÖ Columnas derivadas creadas: Year, Month, YearMonth, TransactionAmount, etc.")
display(df_cleaned.select("InvoiceDate", "YearMonth", "TransactionAmount").limit(5))

## SECCI√ìN 2.3: Crear vista temporal para SQL queries

In [0]:
print("\nüìå 2.3: CREANDO VISTA TEMPORAL...")

df_cleaned.createOrReplaceTempView("sales_cleaned")
print("‚úÖ Vista 'sales_cleaned' creada para Spark SQL")

# Validar vista
spark.sql("SELECT COUNT(*) as TotalRegistrosLimpio FROM sales_cleaned").show()

# FASE 3: AN√ÅLISIS CON SPARK SQL

## QUERY 1: Top 10 Pa√≠ses por Ingresos (Best Sellers)

In [0]:
print("\n" + "=" * 80)
print("FASE 3: AN√ÅLISIS CON SPARK SQL")
print("=" * 80)

# 1. Definimos la fecha en PYTHON (M√°s seguro que usar SET SQL)
today_date = '2011-12-10'
print(f"üìå Fecha de Corte establecida en Python: {today_date}")

# ----------------------------------------------------------------------------
# QUERY 1: Top 10 Pa√≠ses por Ingresos (Best Sellers)
# ----------------------------------------------------------------------------
print("\nüîç QUERY 1: Top Pa√≠ses por Revenue y Ticket Promedio")

# Esta consulta no necesita la fecha, pero la ejecutamos para validar
df_q1 = spark.sql("""
SELECT 
    Country,
    COUNT(DISTINCT InvoiceNo) AS TotalInvoices,
    SUM(TransactionAmount) AS TotalRevenue,
    ROUND(AVG(TransactionAmount), 2) AS AvgTicket
FROM sales_cleaned
GROUP BY Country
ORDER BY TotalRevenue DESC
LIMIT 10
""")

display(df_q1)

## QUERY 2: Tendencia Mensual

In [0]:
print("\nüîç QUERY 2: Tendencia Mensual de Ventas")

df_q2 = spark.sql("""
SELECT 
    YearMonth,
    SUM(TransactionAmount) AS MonthlyRevenue,
    COUNT(DISTINCT InvoiceNo) AS MonthlyTransactions
FROM sales_cleaned
GROUP BY YearMonth
ORDER BY YearMonth
""")

display(df_q2)

## QUERY AVANZADA (RFM) - Aqu√≠ usamos la variable de Python

In [0]:
print(f"\nüîç QUERY 3 (Pre-RFM): C√°lculo de Recencia usando fecha corte {today_date}")

# NOTA: Usamos f""" para inyectar la variable '{today_date}' dentro del SQL
df_rfm_preview = spark.sql(f"""
SELECT 
    CustomerID,
    MAX(InvoiceDate) as LastPurchase,
    -- Inyectamos la variable aqu√≠ abajo vvv
    DATEDIFF('{today_date}', MAX(InvoiceDate)) AS RecencyDays,
    COUNT(DISTINCT InvoiceNo) AS Frequency,
    SUM(TransactionAmount) AS Monetary
FROM sales_cleaned
GROUP BY CustomerID
ORDER BY Monetary DESC
LIMIT 5
""")

display(df_rfm_preview)

## QUERY 4: Distribuci√≥n de Ventas por Hora del D√≠a

In [0]:
print("\nüîç QUERY 4: Distribuci√≥n de Ventas por Hora del D√≠a (Visualizaci√≥n de Barras)")

df_q4 = spark.sql("""
SELECT
    HOUR(InvoiceDate) AS PurchaseHour,
    COUNT(InvoiceNo) AS TotalTransactions,
    SUM(TransactionAmount) AS TotalRevenue
FROM sales_cleaned
GROUP BY PurchaseHour
ORDER BY PurchaseHour
""")

display(df_q4)
# Insight Clave: Buscar la hora pico de compra para optimizar servidores o promociones.

## QUERY 5: Top 10 Productos por Revenue (L√≠deres de Ingresos)

In [0]:
print("\nüîç QUERY 5: Top 10 Productos por Revenue")

df_q5 = spark.sql("""
SELECT
    StockCode,
    Description,
    SUM(TransactionAmount) AS TotalRevenue,
    SUM(Quantity) AS TotalQuantity,
    COUNT(DISTINCT CustomerID) AS TotalCustomers
FROM sales_cleaned
GROUP BY StockCode, Description
ORDER BY TotalRevenue DESC
LIMIT 10
""")

display(df_q5)
# Insight Clave: ¬øLos productos que m√°s ingresos generan son los que m√°s cantidad venden?

## QUERY 6: Identificaci√≥n de Outliers (Facturas de Alto Valor)
Requiere GROUP BY y luego Window Functions (AVG OVER PARTITION)

In [0]:
print("\nüîç QUERY 6: Identificaci√≥n de Outliers (Facturas de Alto Valor)")

df_q6 = spark.sql("""
SELECT
    InvoiceNo,
    InvoiceDate,
    CustomerID,
    Country,
    SUM(TransactionAmount) AS InvoiceTotal,
    -- Comparamos la factura con el promedio de todas las facturas de su pa√≠s
    ROUND(AVG(SUM(TransactionAmount)) OVER (PARTITION BY Country), 2) AS AvgCountryInvoice
FROM sales_cleaned
GROUP BY InvoiceNo, InvoiceDate, CustomerID, Country
ORDER BY InvoiceTotal DESC
LIMIT 5
""")

display(df_q6)

## QUERY 7: Segmentaci√≥n RFM Completa (VIP, Leales, En Riesgo)

Uso de CTEs y NTILE (Window Function)

In [0]:
print(f"\nüîç QUERY 7: Segmentaci√≥n RFM Completa (Usando NTILE y CTE) - Fecha corte: {today_date}")

df_q7 = spark.sql(f"""
WITH rfm_base AS (
    -- 1. Calcular Recency, Frequency, Monetary
    SELECT
        CustomerID,
        DATEDIFF('{today_date}', MAX(InvoiceDate)) AS Recency,
        COUNT(DISTINCT InvoiceNo) AS Frequency,
        ROUND(SUM(TransactionAmount), 2) AS Monetary
    FROM sales_cleaned
    GROUP BY CustomerID
),
rfm_scores AS (
    -- 2. Asignar Scores (NTILE)
    SELECT
        CustomerID,
        Monetary,
        -- R_Score: Cuanto MENOS Recency, MEJOR Score (ORDER BY DESC para invertir el ranking)
        NTILE(4) OVER (ORDER BY Recency DESC) AS R_Score, 
        -- F_Score: Cuanto M√ÅS Frequency, MEJOR Score
        NTILE(4) OVER (ORDER BY Frequency ASC) AS F_Score,
        -- M_Score: Cuanto M√ÅS Monetary, MEJOR Score
        NTILE(4) OVER (ORDER BY Monetary ASC) AS M_Score
    FROM rfm_base
)
-- 3. Segmentaci√≥n Final
SELECT 
    CASE 
        WHEN R_Score = 4 AND F_Score = 4 AND M_Score = 4 THEN 'A. VIP / Champions'
        WHEN (R_Score >= 3 AND F_Score >= 3) OR M_Score = 4 THEN 'B. Loyal Customers'
        WHEN R_Score = 1 AND F_Score <= 2 THEN 'D. At Risk / Churning'
        WHEN R_Score >= 3 AND F_Score <= 2 THEN 'C. New Customers'
        ELSE 'E. Other'
    END as Segment,
    COUNT(CustomerID) as CustomerCount,
    ROUND(AVG(Monetary), 2) as AvgMonetary,
    ROUND(SUM(Monetary), 2) as TotalRevenue
FROM rfm_scores
GROUP BY Segment
ORDER BY TotalRevenue DESC
""")

display(df_q7)

# FASE 4: VISUALIZACIONES ESTRAT√âGICAS

## VISUALIZACI√ìN 1: Tendencia de Ingresos Mensuales

Objetivo: Mostrar la estacionalidad y el crecimiento.


In [0]:
print("\nüìä VIZ 1: Tendencia Mensual (Configurar como Line Chart)")

df_viz1 = spark.sql("""
SELECT 
    YearMonth,
    SUM(TransactionAmount) AS Revenue
FROM sales_cleaned
GROUP BY YearMonth
ORDER BY YearMonth
""")

display(df_viz1)

Databricks visualization. Run in Databricks to view.

## Top 10 Productos por Ingresos
Objetivo: Identificar los "Best Sellers" (Principio de Pareto).

In [0]:
print("\nüìä VIZ 2: Top 10 Productos (Configurar como Bar Chart Horizontal)")

df_viz2 = spark.sql("""
SELECT 
    Description, -- Usamos la descripci√≥n para que sea legible en el gr√°fico
    SUM(TransactionAmount) AS TotalRevenue
FROM sales_cleaned
GROUP BY Description
ORDER BY TotalRevenue DESC
LIMIT 10
""")

display(df_viz2)

Databricks visualization. Run in Databricks to view.

## VISUALIZACI√ìN 3: Heatmap de Ventas (D√≠a de Semana vs Hora)

Objetivo: Encontrar el "momento relevantes" de la semana (D√≠a vs Hora).


In [0]:
print("\nüìä VIZ 3: Intensidad de Ventas (Configurar como Heatmap)")

df_viz3 = spark.sql("""
SELECT 
    CASE 
        WHEN DayOfWeek = 1 THEN 'Dom'
        WHEN DayOfWeek = 2 THEN 'Lun'
        WHEN DayOfWeek = 3 THEN 'Mar'
        WHEN DayOfWeek = 4 THEN 'Mie'
        WHEN DayOfWeek = 5 THEN 'Jue'
        WHEN DayOfWeek = 6 THEN 'Vie'
        WHEN DayOfWeek = 7 THEN 'Sab'
    END AS DiaSemana,
    DayOfWeek, -- Para ordenar correctamente
    HOUR(InvoiceDate) AS HoraDia,
    SUM(TransactionAmount) AS Revenue
FROM sales_cleaned
GROUP BY DayOfWeek, HoraDia
ORDER BY DayOfWeek, HoraDia
""")

display(df_viz3)

Databricks visualization. Run in Databricks to view.

## VISUALIZACI√ìN 4: Scatter Plot (Precio vs Cantidad)

Objetivo: Ver la elasticidad. ¬øLos productos m√°s baratos se venden en mayor volumen? Nota: Limitamos a 1000 puntos para no saturar el navegador.

In [0]:
print("\nüìä VIZ 4: Elasticidad de Precio (Configurar como Scatter)")

df_viz4 = spark.sql("""
SELECT 
    UnitPrice,
    Quantity,
    Country
FROM sales_cleaned
WHERE Quantity > 0 AND UnitPrice < 50 -- Filtramos outliers extremos para mejor visualizaci√≥n
LIMIT 1000
""")

display(df_viz4)

Databricks visualization. Run in Databricks to view.

# FASE 5: HALLAZGOS Y CONCLUSIONES

# 1. Resumen Ejecutivo
Este An√°lisis Exploratorio de Datos (EDA) sobre las transacciones de E-Commerce (Dic 2010 - Dic 2011) se realiz√≥ utilizando PySpark y Spark SQL en Databricks. La limpieza rigurosa elimin√≥ el 27% de los registros (149,217 filas) para asegurar la integridad de las m√©tricas clave, como la segmentaci√≥n RFM.

El an√°lisis concluye que el negocio opera con un alto **riesgo de concentraci√≥n geogr√°fica** y una fuerte **dependencia estacional** de las compras de fin de a√±o. La identificaci√≥n del segmento **VIP/Champions** (4-4-4) es crucial para enfocar las estrategias de retenci√≥n.

---

## 2. Insights Clave (Basados en Fases 3 y 4)

| Insight | Dato Clave | Impacto de Negocio |
| :--- | :--- | :--- |
| **Riesgo Geogr√°fico** | Reino Unido genera **~90%** del Revenue. | La dependencia de un √∫nico mercado supone un riesgo si las condiciones econ√≥micas locales cambian. |
| **Estacionalidad de Pico** | Noviembre es el mes con el **mayor Revenue** hist√≥rico. | El ciclo de planificaci√≥n de inventario debe comenzar en Septiembre/Octubre para capitalizar este pico. |
| **Horas de Compra** | El 80% de las ventas ocurre entre **10:00 AM y 3:00 PM**. | La ventana de alta actividad es limitada. Las promociones y el despliegue de recursos deben centrarse en estas horas. |
| **Segmentaci√≥n RFM** | El segmento **VIP/Champions** (clientes con alta Recencia, Frecuencia y Monetario) es el motor de valor. | Retener a este grupo es la prioridad n√∫mero uno; es m√°s econ√≥mico que adquirir nuevos clientes. |
| **Anomal√≠as (Outliers)** | Se identificaron transacciones con valores inusualmente altos (ej. > 10,000 USD), lo cual requiere una revisi√≥n manual de facturas espec√≠ficas. | Potenciales errores de *data entry* o clientes B2B masivos que deben ser gestionados por un equipo de cuentas clave. |

---

## 3. Recomendaciones Accionables

1.  **Diversificaci√≥n Geogr√°fica:** Lanzar campa√±as promocionales espec√≠ficas en **Alemania y Francia** (los siguientes pa√≠ses con mayor potencial de ingresos) en Q1 del pr√≥ximo a√±o, utilizando su promedio de *AvgTicket* como base para la segmentaci√≥n de ofertas.
2.  **Optimizaci√≥n Operativa:** Programar el mantenimiento del sitio web, el despliegue de nuevas funcionalidades y las actualizaciones de inventario para las horas de baja actividad (ej. 1 AM - 7 AM) para maximizar la disponibilidad durante la ventana pico de ventas (10 AM - 3 PM).
3.  **Estrategia de Retenci√≥n VIP:** Crear un canal de comunicaci√≥n exclusivo y ofrecer beneficios (ej. *Early Access* a nuevos productos o env√≠os gratuitos prioritarios) a los clientes del segmento **VIP/Champions** identificado por el an√°lisis RFM.

---

## 4. Limitaciones y Trabajo Futuro
* **Limitaci√≥n de Datos:** El dataset no incluye el costo de los bienes vendidos (COGS), por lo que el an√°lisis se bas√≥ en el Revenue bruto, sin poder calcular el margen de beneficio real.
* **Trabajo Futuro:** Integrar la dimensi√≥n de **costos** para realizar un an√°lisis de **Profitability** por producto y cliente, y no solo de Revenue. Esto permitir√≠a tomar decisiones de negocio basadas en la rentabilidad neta.

# FASE 6: PREPARACI√ìN PARA DASHBOARD (CREACI√ìN DE VIEWS)

In [0]:
print("\n" + "=" * 80)
print("FASE 6: CREACI√ìN DE VIEWS OPTIMIZADAS")
print("=" * 80)

# Definimos la fecha de corte en Python
today_date = '2011-12-10'

# View 1: M√©trica temporal (para el Line Chart)
spark.sql("""
CREATE OR REPLACE TEMP VIEW vw_monthly_revenue AS
SELECT 
    YearMonth,
    SUM(TransactionAmount) AS Revenue,
    COUNT(DISTINCT InvoiceNo) AS Transactions
FROM sales_cleaned
GROUP BY YearMonth
ORDER BY YearMonth
""")
print("‚úÖ View 'vw_monthly_revenue' creada")

# View 2: Segmentaci√≥n RFM (CORREGIDA)
# Se incluye 'Monetary' en el CTE rfm_scores para poder usarlo en el promedio final
spark.sql(f"""
CREATE OR REPLACE TEMP VIEW vw_customer_segments AS
WITH rfm_base AS (
    SELECT
        CustomerID,
        DATEDIFF('{today_date}', MAX(InvoiceDate)) AS Recency,
        COUNT(DISTINCT InvoiceNo) AS Frequency,
        ROUND(SUM(TransactionAmount), 2) AS Monetary
    FROM sales_cleaned
    GROUP BY CustomerID
),
rfm_scores AS (
    SELECT
        CustomerID,
        Monetary, -- <--- ¬°AQU√ç ESTABA EL ERROR! Faltaba pasar esta columna
        NTILE(4) OVER (ORDER BY Recency DESC) AS R_Score, 
        NTILE(4) OVER (ORDER BY Frequency ASC) AS F_Score,
        NTILE(4) OVER (ORDER BY Monetary ASC) AS M_Score
    FROM rfm_base
)
SELECT 
    CASE 
        WHEN R_Score = 4 AND F_Score = 4 AND M_Score = 4 THEN 'A. VIP / Champions'
        WHEN (R_Score >= 3 AND F_Score >= 3) OR M_Score = 4 THEN 'B. Loyal Customers'
        WHEN R_Score = 1 AND F_Score <= 2 THEN 'D. At Risk / Churning'
        WHEN R_Score >= 3 AND F_Score <= 2 THEN 'C. New Customers'
        ELSE 'E. Other'
    END as Segment,
    COUNT(CustomerID) as CustomerCount,
    ROUND(AVG(Monetary), 2) as AvgMonetary
FROM rfm_scores
GROUP BY Segment
ORDER BY CustomerCount DESC
""")
print("‚úÖ View 'vw_customer_segments' creada (Correcci√≥n aplicada)")

## Generando graficos con las vistas

In [0]:
# ----------------------------------------------------------------------------
# GR√ÅFICO FINAL 1: Tendencia de Ingresos (Usando la Vista)
# ----------------------------------------------------------------------------
print("\nüìä DASHBOARD VIZ 1: Tendencia Temporal")

# Consultamos la vista optimizada
df_dash_1 = spark.sql("SELECT * FROM vw_monthly_revenue ORDER BY YearMonth")

display(df_dash_1)

Databricks visualization. Run in Databricks to view.

In [0]:
# ----------------------------------------------------------------------------
# GR√ÅFICO FINAL 2: Segmentaci√≥n de Clientes (Usando la Vista)
# ----------------------------------------------------------------------------
print("\nüìä DASHBOARD VIZ 2: Distribuci√≥n de Segmentos")

# Consultamos la vista optimizada
df_dash_2 = spark.sql("SELECT * FROM vw_customer_segments ORDER BY CustomerCount DESC")

display(df_dash_2)

Databricks visualization. Run in Databricks to view.

# üìä PRESENTACION DEL DASHBOARD

---
# üöÄ C√ìMO VER EL DASHBOARD EJECUTIVO

Este proyecto incluye un **Dashboard Interactivo** dise√±ado para la presentaci√≥n de resultados.

**Para visualizarlo:**
1.  Por favor ir a la barra de herramientas superior del Notebook.
2.  Buscar la opci√≥n **View** (o el √≠cono de vista).
3.  Seleccionar **"Dashboard"**  **"EDA E-Commerce Executive Summary"**.
4.  Alternativamente, hacer clic en el bot√≥n **"View: Dashboard"** que puede aparecer en el men√∫ lateral derecho.

---
**Nota:** El Dashboard consolida las m√©tricas clave de RFM, Tendencias y Top Productos en una vista limpia sin c√≥digo.