In [0]:
# Databricks notebook source
# MAGIC %md
# MAGIC # 📊 Dashboard Ejecutivo - Uber NYC Data Pipeline
# MAGIC 
# MAGIC ## Objetivo
# MAGIC Crear un dashboard interactivo y completo usando las 5 tablas Gold especializadas para análisis de negocio de Uber NYC.
# MAGIC 
# MAGIC ## Componentes del Dashboard
# MAGIC 1. **KPIs Ejecutivos** - Métricas principales de negocio
# MAGIC 2. **Análisis Temporal** - Tendencias y patrones por tiempo
# MAGIC 3. **Performance por Bases** - Análisis operacional detallado
# MAGIC 4. **Análisis Geoespacial** - Distribución y hotspots geográficos
# MAGIC 5. **Insights de Negocio** - Conclusiones y recomendaciones

# COMMAND ----------

In [0]:
# COMMAND ----------

# MAGIC %md
# MAGIC ## 1. Configuración y Carga de Datos

# COMMAND ---------

In [0]:
# Importar librerías necesarias
from pyspark.sql import SparkSession
from pyspark.sql.functions import *
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import pandas as pd
import warnings
warnings.filterwarnings('ignore')

In [0]:
# Configurar estilo de visualizaciones
plt.style.use('default')
sns.set_palette("husl")

print("✅ Librerías importadas exitosamente")
print("📊 Iniciando Dashboard Ejecutivo Uber NYC")

✅ Librerías importadas exitosamente
📊 Iniciando Dashboard Ejecutivo Uber NYC


In [0]:
# COMMAND ----------

# MAGIC %md
# MAGIC ## 2. Carga y Validación de Tablas Gold

# COMMAND ---------

In [0]:
# Configurar rutas
gold_path = "/Volumes/workspace/default/uber_etl_azure/gold/"

# Cargar todas las tablas Gold
print("📥 Cargando tablas Gold...")

try:
    # Cargar cada tabla Gold
    df_daily = spark.read.format("delta").load(f"{gold_path}daily_metrics")
    df_base_hourly = spark.read.format("delta").load(f"{gold_path}base_hourly_metrics")
    df_monthly = spark.read.format("delta").load(f"{gold_path}monthly_kpis")
    df_spatial = spark.read.format("delta").load(f"{gold_path}spatial_metrics")
    df_executive = spark.read.format("delta").load(f"{gold_path}executive_dashboard")
    
    print("✅ Todas las tablas Gold cargadas exitosamente")
    
    # Validar datos
    tables_info = [
        ("Daily Metrics", df_daily.count()),
        ("Base Hourly", df_base_hourly.count()),
        ("Monthly KPIs", df_monthly.count()),
        ("Spatial Metrics", df_spatial.count()),
        ("Executive Summary", df_executive.count())
    ]
    
    print("\n📊 Información de tablas:")
    for name, count in tables_info:
        print(f"   {name}: {count:,} registros")
        
except Exception as e:
    print(f"❌ Error cargando tablas Gold: {str(e)}")
    print("💡 Asegúrate de haber ejecutado el notebook '03_Uber_Gold_Layer' primero")
    raise


📥 Cargando tablas Gold...
✅ Todas las tablas Gold cargadas exitosamente

📊 Información de tablas:
   Daily Metrics: 183 registros
   Base Hourly: 120 registros
   Monthly KPIs: 6 registros
   Spatial Metrics: 1,684 registros
   Executive Summary: 1 registros


In [0]:
# COMMAND ----------

# MAGIC %md
# MAGIC ## 3. 🎯 SECCIÓN 1: KPIs EJECUTIVOS PRINCIPALES

# COMMAND ----------

# MAGIC %md
# MAGIC ### KPIs Principales de Negocio

# COMMAND ----------

In [0]:
print("🎯 DASHBOARD SECCIÓN 1: KPIs EJECUTIVOS")
print("=" * 50)

🎯 DASHBOARD SECCIÓN 1: KPIs EJECUTIVOS


In [0]:
# Obtener KPIs ejecutivos
executive_data = df_executive.collect()[0]

# Mostrar KPIs principales
print("📈 MÉTRICAS PRINCIPALES:")
print(f"   🚗 Total de Viajes: {executive_data['total_trips_period']:,}")
print(f"   🏢 Bases Activas: {executive_data['total_active_bases']}")
print(f"   📅 Días de Operación: {executive_data['total_active_days']}")
print(f"   📊 Promedio Viajes/Día: {executive_data['avg_daily_trips']:,}")
print(f"   🎯 Promedio Viajes/Base: {executive_data['avg_trips_per_base']:,}")

print(f"\n🕐 DISTRIBUCIÓN TEMPORAL:")
print(f"   ⏰ Horarios Rush: {executive_data['rush_hours_share']:.1f}%")
print(f"   🌙 Actividad Nocturna: {executive_data['night_activity_share']:.1f}%")
print(f"   📊 Ratio Weekend/Weekday: {executive_data['weekend_vs_weekday_ratio']:.2f}")

print(f"\n🗺️ COBERTURA GEOGRÁFICA:")
print(f"   📍 Centro: ({executive_data['center_latitude']:.4f}, {executive_data['center_longitude']:.4f})")
print(f"   📏 Cobertura Latitud: {executive_data['geographic_coverage_lat']:.4f}°")
print(f"   📐 Cobertura Longitud: {executive_data['geographic_coverage_lon']:.4f}°")

📈 MÉTRICAS PRINCIPALES:
   🚗 Total de Viajes: 4,502,417
   🏢 Bases Activas: 5
   📅 Días de Operación: 183
   📊 Promedio Viajes/Día: 24,603.0
   🎯 Promedio Viajes/Base: 900,483.0

🕐 DISTRIBUCIÓN TEMPORAL:
   ⏰ Horarios Rush: 42.5%
   🌙 Actividad Nocturna: 24.2%
   📊 Ratio Weekend/Weekday: 0.33

🗺️ COBERTURA GEOGRÁFICA:
   📍 Centro: (40.7387, -73.9742)
   📏 Cobertura Latitud: 0.3918°
   📐 Cobertura Longitud: 0.5587°


In [0]:
# COMMAND ----------

# MAGIC %sql
# MAGIC -- Crear vista para KPIs principales
# MAGIC CREATE OR REPLACE TEMPORARY VIEW kpis_principales AS
# MAGIC SELECT 
# MAGIC   'Total Viajes' as metric_name,
# MAGIC   total_trips_period as metric_value,
# MAGIC   'viajes' as unit
# MAGIC FROM uber_executive_gold
# MAGIC 
# MAGIC UNION ALL
# MAGIC 
# MAGIC SELECT 
# MAGIC   'Promedio Diario' as metric_name,
# MAGIC   avg_daily_trips as metric_value,
# MAGIC   'viajes/día' as unit
# MAGIC FROM uber_executive_gold
# MAGIC 
# MAGIC UNION ALL
# MAGIC 
# MAGIC SELECT 
# MAGIC   'Bases Activas' as metric_name,
# MAGIC   total_active_bases as metric_value,
# MAGIC   'bases' as unit
# MAGIC FROM uber_executive_gold
# MAGIC 
# MAGIC UNION ALL
# MAGIC 
# MAGIC SELECT 
# MAGIC   'Rush Hours %' as metric_name,
# MAGIC   rush_hours_share as metric_value,
# MAGIC   '%' as unit
# MAGIC FROM uber_executive_gold;
# MAGIC 
# MAGIC SELECT * FROM kpis_principales;

In [0]:
# COMMAND ----------

# MAGIC %md
# MAGIC ## 4. 📅 SECCIÓN 2: ANÁLISIS TEMPORAL

# COMMAND ----------

# MAGIC %md
# MAGIC ### Tendencias Mensuales y Patrones Temporales

# COMMAND ----------

In [0]:
print("📅 DASHBOARD SECCIÓN 2: ANÁLISIS TEMPORAL")
print("=" * 45)

📅 DASHBOARD SECCIÓN 2: ANÁLISIS TEMPORAL


In [0]:
# Análisis de tendencias mensuales
print("📈 TENDENCIAS MENSUALES:")
monthly_data = df_monthly.orderBy("pickup_month").collect()

month_names = ['', 'Ene', 'Feb', 'Mar', 'Abr', 'May', 'Jun', 
               'Jul', 'Ago', 'Sep', 'Oct', 'Nov', 'Dic']

for month in monthly_data:
    month_name = month_names[month['pickup_month']]
    trips = month['total_monthly_trips']
    growth = month['mom_growth'] if month['mom_growth'] else 0
    growth_indicator = "📈" if growth > 0 else "📉" if growth < 0 else "➡️"
    print(f"   {month_name}: {trips:,} viajes {growth_indicator} {growth:+.1f}%")

📈 TENDENCIAS MENSUALES:
   Abr: 562,101 viajes ➡️ +0.0%
   May: 648,998 viajes 📈 +15.5%
   Jun: 659,436 viajes 📈 +1.6%
   Jul: 789,920 viajes 📈 +19.8%
   Ago: 821,662 viajes 📈 +4.0%
   Sep: 1,020,300 viajes 📈 +24.2%


In [0]:
# COMMAND ----------

# MAGIC %sql
# MAGIC -- Tendencia mensual de viajes
# MAGIC SELECT 
# MAGIC   pickup_month,
# MAGIC   CASE pickup_month
# MAGIC     WHEN 1 THEN 'Enero'
# MAGIC     WHEN 2 THEN 'Febrero' 
# MAGIC     WHEN 3 THEN 'Marzo'
# MAGIC     WHEN 4 THEN 'Abril'
# MAGIC     WHEN 5 THEN 'Mayo'
# MAGIC     WHEN 6 THEN 'Junio'
# MAGIC     WHEN 7 THEN 'Julio'
# MAGIC     WHEN 8 THEN 'Agosto'
# MAGIC     WHEN 9 THEN 'Septiembre'
# MAGIC     WHEN 10 THEN 'Octubre'
# MAGIC     WHEN 11 THEN 'Noviembre'
# MAGIC     WHEN 12 THEN 'Diciembre'
# MAGIC   END as mes_nombre,
# MAGIC   total_monthly_trips as total_viajes,
# MAGIC   COALESCE(mom_growth, 0) as crecimiento_mensual,
# MAGIC   rush_hours_percentage as porcentaje_rush,
# MAGIC   night_activity_percentage as actividad_nocturna
# MAGIC FROM uber_monthly_gold
# MAGIC ORDER BY pickup_month;

# COMMAND ----------

# MAGIC %sql
# MAGIC -- Análisis por día de la semana
# MAGIC SELECT 
# MAGIC   pickup_day_of_week as dia_semana,
# MAGIC   day_type as tipo_dia,
# MAGIC   SUM(total_trips) as total_viajes,
# MAGIC   AVG(total_trips) as promedio_diario,
# MAGIC   SUM(morning_rush_trips) as viajes_rush_mañana,
# MAGIC   SUM(evening_rush_trips) as viajes_rush_tarde,
# MAGIC   ROUND(AVG(rush_hour_percentage), 1) as porcentaje_rush_promedio
# MAGIC FROM uber_daily_gold
# MAGIC GROUP BY pickup_day_of_week, pickup_day_of_week_num, day_type
# MAGIC ORDER BY pickup_day_of_week_num;

# COMMAND ----------

# MAGIC %sql
# MAGIC -- Distribución horaria general
# MAGIC SELECT 
# MAGIC   pickup_hour as hora,
# MAGIC   SUM(hourly_trips) as total_viajes,
# MAGIC   COUNT(DISTINCT base_code) as bases_activas,
# MAGIC   ROUND(AVG(weekend_percentage), 1) as porcentaje_weekend,
# MAGIC   time_category as categoria_horaria
# MAGIC FROM uber_base_hourly_gold
# MAGIC GROUP BY pickup_hour, time_category
# MAGIC ORDER BY pickup_hour;


In [0]:
# COMMAND ----------

# MAGIC %md
# MAGIC ## 5. 🏢 SECCIÓN 3: PERFORMANCE POR BASES

# COMMAND ----------

# MAGIC %md
# MAGIC ### Análisis Operacional por Base

# COMMAND ----------

In [0]:
print("🏢 DASHBOARD SECCIÓN 3: PERFORMANCE POR BASES")
print("=" * 45)

🏢 DASHBOARD SECCIÓN 3: PERFORMANCE POR BASES


In [0]:
# Top 5 bases más activas
print("🏆 TOP 5 BASES MÁS ACTIVAS:")
top_bases = df_base_hourly.groupBy("base_code") \
    .agg(sum("hourly_trips").alias("total_trips")) \
    .orderBy(col("total_trips").desc()) \
    .limit(5) \
    .collect()

for i, base in enumerate(top_bases, 1):
    print(f"   {i}. Base {base['base_code']}: {base['total_trips']:,} viajes")

🏆 TOP 5 BASES MÁS ACTIVAS:
   1. Base B02617: 1,449,558 viajes
   2. Base B02598: 1,383,720 viajes
   3. Base B02682: 1,205,017 viajes
   4. Base B02764: 261,394 viajes
   5. Base B02512: 202,728 viajes


In [0]:
# COMMAND ----------

# MAGIC %sql
# MAGIC -- Ranking completo de bases
# MAGIC SELECT 
# MAGIC   base_code,
# MAGIC   SUM(hourly_trips) as total_viajes,
# MAGIC   COUNT(DISTINCT pickup_hour) as horas_activas,
# MAGIC   ROUND(AVG(avg_trips_per_day), 1) as promedio_viajes_dia,
# MAGIC   ROUND(AVG(weekend_percentage), 1) as porcentaje_weekend,
# MAGIC   SUM(CASE WHEN is_peak_hour = 1 THEN hourly_trips ELSE 0 END) as viajes_horas_pico
# MAGIC FROM uber_base_hourly_gold
# MAGIC GROUP BY base_code
# MAGIC ORDER BY total_viajes DESC;

# COMMAND ----------

# MAGIC %sql
# MAGIC -- Análisis de horas pico por base
# MAGIC SELECT 
# MAGIC   base_code,
# MAGIC   pickup_hour,
# MAGIC   hourly_trips,
# MAGIC   time_category,
# MAGIC   hour_rank_by_trips,
# MAGIC   CASE WHEN is_peak_hour = 1 THEN '🔥 Hora Pico' ELSE 'Normal' END as tipo_hora
# MAGIC FROM uber_base_hourly_gold
# MAGIC WHERE is_peak_hour = 1
# MAGIC ORDER BY base_code, hour_rank_by_trips;

# COMMAND ----------

# MAGIC %sql
# MAGIC -- Comparativa de eficiencia por base
# MAGIC SELECT 
# MAGIC   base_code,
# MAGIC   SUM(hourly_trips) as total_viajes,
# MAGIC   COUNT(DISTINCT pickup_hour) as horas_operacion,
# MAGIC   ROUND(SUM(hourly_trips) / COUNT(DISTINCT pickup_hour), 1) as viajes_por_hora,
# MAGIC   ROUND(AVG(coordinate_range_lat), 4) as cobertura_latitud,
# MAGIC   ROUND(AVG(coordinate_range_lon), 4) as cobertura_longitud,
# MAGIC   CASE 
# MAGIC     WHEN SUM(hourly_trips) > (SELECT AVG(total) FROM (SELECT SUM(hourly_trips) as total FROM uber_base_hourly_gold GROUP BY base_code)) 
# MAGIC     THEN '🔥 Alto Rendimiento'
# MAGIC     ELSE '📊 Rendimiento Normal'
# MAGIC   END as clasificacion_rendimiento
# MAGIC FROM uber_base_hourly_gold
# MAGIC GROUP BY base_code
# MAGIC ORDER BY viajes_por_hora DESC;

In [0]:
# COMMAND ----------

# MAGIC %md
# MAGIC ## 6. 🗺️ SECCIÓN 4: ANÁLISIS GEOESPACIAL

# COMMAND ----------

# MAGIC %md
# MAGIC ### Distribución Geográfica y Hotspots

# COMMAND --------

In [0]:
print("🗺️ DASHBOARD SECCIÓN 4: ANÁLISIS GEOESPACIAL")
print("=" * 45)

🗺️ DASHBOARD SECCIÓN 4: ANÁLISIS GEOESPACIAL


In [0]:
# Top 10 zonas más activas
print("🔥 TOP 10 ZONAS MÁS ACTIVAS:")
top_zones = df_spatial.orderBy(col("zone_total_trips").desc()).limit(10).collect()

for i, zone in enumerate(top_zones, 1):
    print(f"   {i}. Zona {zone['geo_zone_id']} ({zone['lat_zone']:.2f}, {zone['lon_zone']:.2f}): {zone['zone_total_trips']:,} viajes")

🔥 TOP 10 ZONAS MÁS ACTIVAS:
   1. Zona 40.75_-73.98 (40.75, -73.98): 222,857 viajes
   2. Zona 40.72_-74.0 (40.72, -74.00): 187,672 viajes
   3. Zona 40.75_-73.99 (40.75, -73.99): 186,280 viajes
   4. Zona 40.76_-73.98 (40.76, -73.98): 167,461 viajes
   5. Zona 40.74_-73.99 (40.74, -73.99): 159,985 viajes
   6. Zona 40.73_-74.01 (40.73, -74.01): 158,666 viajes
   7. Zona 40.72_-74.01 (40.72, -74.01): 157,971 viajes
   8. Zona 40.74_-74.0 (40.74, -74.00): 144,292 viajes
   9. Zona 40.74_-74.01 (40.74, -74.01): 142,567 viajes
   10. Zona 40.73_-74.0 (40.73, -74.00): 139,151 viajes


In [0]:
# COMMAND ----------

# MAGIC %sql
# MAGIC -- Análisis de hotspots geográficos
# MAGIC SELECT 
# MAGIC   geo_zone_id,
# MAGIC   lat_zone,
# MAGIC   lon_zone,
# MAGIC   zone_total_trips,
# MAGIC   zone_activity_rank,
# MAGIC   zone_trips_per_day,
# MAGIC   zone_rush_percentage,
# MAGIC   zone_weekend_percentage,
# MAGIC   CASE WHEN is_high_activity_zone = 1 THEN '🔥 Hotspot' ELSE 'Zona Normal' END as tipo_zona
# MAGIC FROM uber_spatial_gold
# MAGIC ORDER BY zone_total_trips DESC
# MAGIC LIMIT 20;

# COMMAND ----------

# MAGIC %sql
# MAGIC -- Distribución mensual por zonas top
# MAGIC SELECT 
# MAGIC   geo_zone_id,
# MAGIC   april_trips,
# MAGIC   may_trips,
# MAGIC   june_trips,
# MAGIC   july_trips,
# MAGIC   august_trips,
# MAGIC   september_trips,
# MAGIC   zone_total_trips,
# MAGIC   CASE 
# MAGIC     WHEN september_trips > april_trips THEN '📈 Creciente'
# MAGIC     WHEN september_trips < april_trips THEN '📉 Decreciente'
# MAGIC     ELSE '➡️ Estable'
# MAGIC   END as tendencia_temporal
# MAGIC FROM uber_spatial_gold
# MAGIC WHERE is_high_activity_zone = 1
# MAGIC ORDER BY zone_total_trips DESC;

# COMMAND ----------

# MAGIC %sql
# MAGIC -- Análisis de densidad geográfica
# MAGIC SELECT 
# MAGIC   ROUND(lat_zone, 1) as zona_latitud,
# MAGIC   ROUND(lon_zone, 1) as zona_longitud,
# MAGIC   COUNT(*) as sub_zonas,
# MAGIC   SUM(zone_total_trips) as total_viajes_area,
# MAGIC   ROUND(AVG(zone_total_trips), 0) as promedio_viajes_subzona,
# MAGIC   ROUND(AVG(zone_rush_percentage), 1) as porcentaje_rush_promedio
# MAGIC FROM uber_spatial_gold
# MAGIC GROUP BY ROUND(lat_zone, 1), ROUND(lon_zone, 1)
# MAGIC HAVING SUM(zone_total_trips) > 1000
# MAGIC ORDER BY total_viajes_area DESC
# MAGIC LIMIT 15;

In [0]:
# COMMAND ----------

# MAGIC %md
# MAGIC ## 7. 💡 SECCIÓN 5: INSIGHTS Y RECOMENDACIONES

# COMMAND ----------

# MAGIC %md
# MAGIC ### Análisis Avanzado y Conclusiones de Negocio

# COMMAND ----------

In [0]:
print("💡 DASHBOARD SECCIÓN 5: INSIGHTS Y RECOMENDACIONES")
print("=" * 50)

💡 DASHBOARD SECCIÓN 5: INSIGHTS Y RECOMENDACIONES


In [0]:
from functools import reduce
from pyspark.sql.functions import sum as spark_sum, col

# Calcular insights automáticamente
print("🔍 INSIGHTS AUTOMÁTICOS GENERADOS:")

# Insight 1: Estacionalidad
monthly_trends = df_monthly.orderBy("pickup_month").collect()
max_month = reduce(lambda a, b: a if a['total_monthly_trips'] > b['total_monthly_trips'] else b, monthly_trends)
min_month = reduce(lambda a, b: a if a['total_monthly_trips'] < b['total_monthly_trips'] else b, monthly_trends)

month_names = ['', 'Ene', 'Feb', 'Mar', 'Abr', 'May', 'Jun', 
               'Jul', 'Ago', 'Sep', 'Oct', 'Nov', 'Dic']

print(f"📅 ESTACIONALIDAD:")
print(f"   🔥 Mes más activo: {month_names[max_month['pickup_month']]} ({max_month['total_monthly_trips']:,} viajes)")
print(f"   🔽 Mes menos activo: {month_names[min_month['pickup_month']]} ({min_month['total_monthly_trips']:,} viajes)")
variacion_estacional = ((max_month['total_monthly_trips'] - min_month['total_monthly_trips']) / min_month['total_monthly_trips']) * 100
print(f"   📊 Variación estacional: {variacion_estacional:.1f}%")


# Insight 3: Eficiencia temporal
rush_data = df_executive.collect()[0]
rush_efficiency = rush_data['rush_hours_share']

print(f"\n⏰ EFICIENCIA TEMPORAL:")
print(f"   🚀 Horarios rush representan: {rush_efficiency:.1f}% de la actividad")
print(f"   🌙 Actividad nocturna: {rush_data['night_activity_share']:.1f}%")

if rush_efficiency > 40:
    print(f"   💡 Recomendación: Alta concentración en rush hours")
else:
    print(f"   💡 Recomendación: Distribución horaria balanceada")

🔍 INSIGHTS AUTOMÁTICOS GENERADOS:
📅 ESTACIONALIDAD:
   🔥 Mes más activo: Sep (1,020,300 viajes)
   🔽 Mes menos activo: Abr (562,101 viajes)
   📊 Variación estacional: 81.5%

⏰ EFICIENCIA TEMPORAL:
   🚀 Horarios rush representan: 42.5% de la actividad
   🌙 Actividad nocturna: 24.2%
   💡 Recomendación: Alta concentración en rush hours


In [0]:
# COMMAND ----------

# MAGIC %sql
# MAGIC -- Análisis de oportunidades de crecimiento
# MAGIC CREATE OR REPLACE TEMPORARY VIEW oportunidades_crecimiento AS
# MAGIC SELECT 
# MAGIC   'Bases Subutilizadas' as categoria,
# MAGIC   COUNT(*) as cantidad,
# MAGIC   'bases con menos de 1000 viajes/mes promedio' as descripcion
# MAGIC FROM (
# MAGIC   SELECT base_code, SUM(hourly_trips) as total_trips
# MAGIC   FROM uber_base_hourly_gold 
# MAGIC   GROUP BY base_code
# MAGIC   HAVING SUM(hourly_trips) < 8000  -- menos de ~1000 viajes/mes
# MAGIC )
# MAGIC 
# MAGIC UNION ALL
# MAGIC 
# MAGIC SELECT 
# MAGIC   'Zonas de Baja Densidad' as categoria,
# MAGIC   COUNT(*) as cantidad,
# MAGIC   'zonas con potencial de expansión' as descripcion
# MAGIC FROM uber_spatial_gold
# MAGIC WHERE zone_total_trips < 100 AND zone_total_trips > 10
# MAGIC 
# MAGIC UNION ALL
# MAGIC 
# MAGIC SELECT 
# MAGIC   'Horarios de Oportunidad' as categoria,
# MAGIC   COUNT(*) as cantidad,
# MAGIC   'horarios con baja actividad promedio' as descripcion
# MAGIC FROM (
# MAGIC   SELECT pickup_hour, AVG(hourly_trips) as avg_trips
# MAGIC   FROM uber_base_hourly_gold
# MAGIC   GROUP BY pickup_hour
# MAGIC   HAVING AVG(hourly_trips) < 100
# MAGIC );
# MAGIC 
# MAGIC SELECT * FROM oportunidades_crecimiento;

# COMMAND ----------

# MAGIC %sql
# MAGIC -- Recomendaciones estratégicas basadas en datos
# MAGIC SELECT 
# MAGIC   'Optimización de Recursos' as estrategia,
# MAGIC   CONCAT(
# MAGIC     'Reasignar ', 
# MAGIC     COUNT(CASE WHEN hourly_trips < 50 THEN 1 END),
# MAGIC     ' slots de baja actividad hacia horarios pico'
# MAGIC   ) as recomendacion,
# MAGIC   'Operacional' as tipo_impacto
# MAGIC FROM uber_base_hourly_gold
# MAGIC 
# MAGIC UNION ALL
# MAGIC 
# MAGIC SELECT 
# MAGIC   'Expansión Geográfica' as estrategia,
# MAGIC   CONCAT(
# MAGIC     'Evaluar expansión en ',
# MAGIC     COUNT(*),
# MAGIC     ' zonas de actividad media con potencial de crecimiento'
# MAGIC   ) as recomendacion,
# MAGIC   'Estratégico' as tipo_impacto
# MAGIC FROM uber_spatial_gold
# MAGIC WHERE zone_total_trips BETWEEN 100 AND 500
# MAGIC 
# MAGIC UNION ALL
# MAGIC 
# MAGIC SELECT 
# MAGIC   'Pricing Dinámico' as estrategia,
# MAGIC   'Implementar surge pricing en horarios 7-9 AM y 5-7 PM' as recomendacion,
# MAGIC   'Monetización' as tipo_impacto
# MAGIC FROM uber_executive_gold
# MAGIC WHERE rush_hours_share > 35;



In [0]:
# COMMAND ----------

# MAGIC %md
# MAGIC ## 8. 📊 RESUMEN EJECUTIVO DEL DASHBOARD

# COMMAND ----------



In [0]:
print("📊 RESUMEN EJECUTIVO DEL DASHBOARD")
print("=" * 50)

📊 RESUMEN EJECUTIVO DEL DASHBOARD


In [0]:
# Generar resumen automático
executive_summary = df_executive.collect()[0]

print("🎯 MÉTRICAS CLAVE DE RENDIMIENTO:")
print(f"   📈 Performance General: {executive_summary['total_trips_period']:,} viajes procesados")
print(f"   🎯 Eficiencia Operacional: {executive_summary['avg_daily_trips']:,} viajes/día promedio")
print(f"   🏢 Cobertura de Mercado: {executive_summary['total_active_bases']} bases activas")
print(f"   ⏰ Concentración Temporal: {executive_summary['rush_hours_share']:.1f}% en horarios pico")

print(f"\n🚀 OPORTUNIDADES IDENTIFICADAS:")
print(f"   📅 Optimización temporal: Balancear carga entre rush y off-peak")
print(f"   🗺️ Expansión geográfica: Identificadas zonas de crecimiento potencial")
print(f"   🏢 Eficiencia de bases: Oportunidades de redistribución de recursos")
print(f"   💰 Monetización: Implementar pricing dinámico basado en demanda")

print(f"\n📋 ESTADO DEL DASHBOARD:")
print(f"   ✅ 5 tableros especializados creados")
print(f"   ✅ Análisis temporal, geográfico y operacional completo")
print(f"   ✅ Insights automáticos generados")
print(f"   ✅ Recomendaciones estratégicas disponibles")

print(f"\n🎉 DASHBOARD EJECUTIVO COMPLETADO EXITOSAMENTE")

🎯 MÉTRICAS CLAVE DE RENDIMIENTO:
   📈 Performance General: 4,502,417 viajes procesados
   🎯 Eficiencia Operacional: 24,603.0 viajes/día promedio
   🏢 Cobertura de Mercado: 5 bases activas
   ⏰ Concentración Temporal: 42.5% en horarios pico

🚀 OPORTUNIDADES IDENTIFICADAS:
   📅 Optimización temporal: Balancear carga entre rush y off-peak
   🗺️ Expansión geográfica: Identificadas zonas de crecimiento potencial
   🏢 Eficiencia de bases: Oportunidades de redistribución de recursos
   💰 Monetización: Implementar pricing dinámico basado en demanda

📋 ESTADO DEL DASHBOARD:
   ✅ 5 tableros especializados creados
   ✅ Análisis temporal, geográfico y operacional completo
   ✅ Insights automáticos generados
   ✅ Recomendaciones estratégicas disponibles

🎉 DASHBOARD EJECUTIVO COMPLETADO EXITOSAMENTE


In [0]:
# COMMAND ----------

# MAGIC %md
# MAGIC ## 9. 🔧 Comandos Útiles para Análisis Continuo

# COMMAND ----------

In [0]:
print("🔧 COMANDOS ÚTILES PARA ANÁLISIS CONTINUO:")
print("=" * 45)

🔧 COMANDOS ÚTILES PARA ANÁLISIS CONTINUO:


In [0]:
print("💡 CONSULTAS SQL RECOMENDADAS:")
print("""
-- 📈 Monitoreo diario de KPIs
SELECT 
  pickup_date, 
  total_trips, 
  rush_hour_percentage,
  day_type
FROM uber_daily_gold 
ORDER BY pickup_date DESC 
LIMIT 7;

-- 🏆 Ranking actualizado de bases
SELECT 
  base_code,
  SUM(hourly_trips) as total_viajes,
  RANK() OVER (ORDER BY SUM(hourly_trips) DESC) as ranking
FROM uber_base_hourly_gold
GROUP BY base_code;

-- 🗺️ Hotspots geográficos actuales
SELECT 
  geo_zone_id,
  zone_total_trips,
  zone_activity_rank
FROM uber_spatial_gold
WHERE is_high_activity_zone = 1
ORDER BY zone_total_trips DESC;

-- 📊 Comparativa weekend vs weekday
SELECT 
  day_type,
  COUNT(*) as dias,
  SUM(total_trips) as viajes_totales,
  AVG(total_trips) as promedio_diario
FROM uber_daily_gold
GROUP BY day_type;
""")

print("\n🔄 ACTUALIZACIONES RECOMENDADAS:")
print("   📅 Ejecutar análisis semanalmente para monitoreo")
print("   🔄 Actualizar KPIs mensualmente para tendencias")
print("   📊 Revisar hotspots geográficos trimestralmente")
print("   💼 Generar reportes ejecutivos mensualmente")

print("\n✅ Dashboard listo para uso en Databricks Community Edition")
print("🎯 Todas las visualizaciones y análisis están optimizados para la plataforma gratuita")

💡 CONSULTAS SQL RECOMENDADAS:

-- 📈 Monitoreo diario de KPIs
SELECT 
  pickup_date, 
  total_trips, 
  rush_hour_percentage,
  day_type
FROM uber_daily_gold 
ORDER BY pickup_date DESC 
LIMIT 7;

-- 🏆 Ranking actualizado de bases
SELECT 
  base_code,
  SUM(hourly_trips) as total_viajes,
  RANK() OVER (ORDER BY SUM(hourly_trips) DESC) as ranking
FROM uber_base_hourly_gold
GROUP BY base_code;

-- 🗺️ Hotspots geográficos actuales
SELECT 
  geo_zone_id,
  zone_total_trips,
  zone_activity_rank
FROM uber_spatial_gold
WHERE is_high_activity_zone = 1
ORDER BY zone_total_trips DESC;

-- 📊 Comparativa weekend vs weekday
SELECT 
  day_type,
  COUNT(*) as dias,
  SUM(total_trips) as viajes_totales,
  AVG(total_trips) as promedio_diario
FROM uber_daily_gold
GROUP BY day_type;


🔄 ACTUALIZACIONES RECOMENDADAS:
   📅 Ejecutar análisis semanalmente para monitoreo
   🔄 Actualizar KPIs mensualmente para tendencias
   📊 Revisar hotspots geográficos trimestralmente
   💼 Generar reportes ejecutivos mensualm

In [0]:
# COMMAND ----------

# MAGIC %md
# MAGIC ## 10. 📋 Instrucciones de Uso del Dashboard

# COMMAND --------

In [0]:
print("📋 INSTRUCCIONES DE USO DEL DASHBOARD EN DATABRICKS")
print("=" * 55)

📋 INSTRUCCIONES DE USO DEL DASHBOARD EN DATABRICKS


In [0]:
print("🚀 CÓMO USAR ESTE DASHBOARD:")
print("""
1. 📊 EJECUTAR SECCIONES:
   - Ejecuta cada sección secuencialmente (Cmd+Shift+Enter)
   - Las visualizaciones aparecerán automáticamente
   - Las tablas SQL se mostrarán como resultados interactivos

2. 🔍 INTERACTUAR CON DATOS:
   - Haz clic en los resultados SQL para ordenar columnas
   - Usa los filtros integrados de Databricks
   - Exporta tablas usando el botón "Download" en cada resultado

3. 📈 PERSONALIZAR ANÁLISIS:
   - Modifica las consultas SQL según tus necesidades
   - Cambia los períodos de tiempo en las consultas
   - Ajusta los filtros geográficos o de bases específicas

4. 📊 CREAR VISUALIZACIONES:
   - Usa el botón "+" en cada resultado SQL
   - Selecciona "Visualization" para crear gráficos
   - Databricks generará automáticamente charts interactivos

5. 📱 COMPARTIR RESULTADOS:
   - Usa "Share" en la barra superior para compartir el notebook
   - Exporta visualizaciones individuales como imágenes
   - Crea dashboard URLs para acceso directo
""")

print("💡 TIPS PARA DATABRICKS COMMUNITY EDITION:")
print("""
   ✅ Guarda el notebook frecuentemente (Ctrl+S)
   ✅ Las visualizaciones se mantienen entre sesiones
   ✅ Usa comentarios (%md) para documentar tus insights
   ✅ Combina SQL y Python según tu preferencia
   ✅ Aprovecha el autocompletado de SQL de Databricks
""")

print("\n🎉 ¡DASHBOARD COMPLETO Y LISTO PARA USAR!")
print("📊 Tienes ahora un sistema completo de análisis de datos Uber NYC")

🚀 CÓMO USAR ESTE DASHBOARD:

1. 📊 EJECUTAR SECCIONES:
   - Ejecuta cada sección secuencialmente (Cmd+Shift+Enter)
   - Las visualizaciones aparecerán automáticamente
   - Las tablas SQL se mostrarán como resultados interactivos

2. 🔍 INTERACTUAR CON DATOS:
   - Haz clic en los resultados SQL para ordenar columnas
   - Usa los filtros integrados de Databricks
   - Exporta tablas usando el botón "Download" en cada resultado

3. 📈 PERSONALIZAR ANÁLISIS:
   - Modifica las consultas SQL según tus necesidades
   - Cambia los períodos de tiempo en las consultas
   - Ajusta los filtros geográficos o de bases específicas

4. 📊 CREAR VISUALIZACIONES:
   - Usa el botón "+" en cada resultado SQL
   - Selecciona "Visualization" para crear gráficos
   - Databricks generará automáticamente charts interactivos

5. 📱 COMPARTIR RESULTADOS:
   - Usa "Share" en la barra superior para compartir el notebook
   - Exporta visualizaciones individuales como imágenes
   - Crea dashboard URLs para acceso directo
