# üöï NYC Taxi Streaming Demo - Databricks Free Edition (SEM DBFS)

‚ú® **Compat√≠vel com Databricks Free Edition - Sem DBFS**

Este notebook demonstra **Structured Streaming** usando o dataset p√∫blico **NYC Taxi** dispon√≠vel nativamente no Databricks.

## üéØ Objetivos da Demonstra√ß√£o
- Processar dados reais de t√°xis de NYC com streaming
- Usar **maxFilesPerTrigger e maxBytesPerTrigger** para controlar velocidade de processamento
- Demonstrar agrega√ß√µes em tempo real (viagens por regi√£o, receita por tipo de pagamento)
- Salvar resultados **diretamente em Delta Tables** (Unity Catalog)
- Visualizar m√©tricas batch por batch com foreachBatch

## üìä Dataset: samples.nyctaxi.trips
- **Fonte:** Unity Catalog do Databricks (j√° dispon√≠vel!)
- **Registros:** Milh√µes de viagens de t√°xi em NYC
- **Per√≠odo:** Dados hist√≥ricos de t√°xis amarelos e verdes
- **Campos:** pickup/dropoff datetime, locations, distances, fares, payment types

## ‚úÖ Vantagens desta abordagem
- ‚ùå Sem Kafka externo (Free Edition tem rede restrita)
- ‚ùå **Sem DBFS** (Public DBFS root est√° desabilitado)
- ‚ùå Sem FileStore (tamb√©m desabilitado)
- ‚úÖ Usa dados REAIS (n√£o sint√©ticos)
- ‚úÖ 100% nativo do Databricks com Delta Tables
- ‚úÖ Zero configura√ß√£o de rede ou filesystem externo
- ‚úÖ Perfeito para demonstra√ß√µes educacionais

## 1Ô∏è‚É£ Setup e Configura√ß√£o (SEM DBFS)

Vamos configurar o streaming **diretamente** da tabela Unity Catalog, salvando em Delta Tables gerenciadas.

In [None]:
from pyspark.sql.functions import *
from pyspark.sql.types import *
import time

# Configura√ß√µes do streaming - TUDO GERENCIADO, SEM DBFS
TABLE_SOURCE = "samples.nyctaxi.trips"
OUTPUT_TABLE = "default.nyctaxi_streaming_results"  # Tabela Delta gerenciada no Catalog

print("üöï NYC TAXI STREAMING DEMO (SEM DBFS)")
print("=" * 80)
print(f"üìä Fonte:      {TABLE_SOURCE} (Unity Catalog)")
print(f"üíæ Destino:    {OUTPUT_TABLE} (Delta Table Gerenciada)")
print("=" * 80)
print("\n‚úÖ Abordagem:")
print("   ‚Ä¢ Ler diretamente de Unity Catalog com readStream")
print("   ‚Ä¢ Processar batches controlados por maxFilesPerTrigger e maxBytesPerTrigger")
print("   ‚Ä¢ Salvar em Delta Table gerenciada (sem DBFS)")
print("   ‚Ä¢ Visualizar m√©tricas com foreachBatch")
print("=" * 80)

## 2Ô∏è‚É£ Explorar Dados da Tabela NYC Taxi

Vamos primeiro entender os dados dispon√≠veis na tabela Unity Catalog.

In [None]:
print("üìä Explorando samples.nyctaxi.trips...")

# Ler amostra da tabela NYC Taxi
nyctaxi_sample = spark.table(TABLE_SOURCE).limit(10)

print("\nüìã Schema dos dados:")
nyctaxi_sample.printSchema()

print("\nüîç Amostra dos primeiros registros:")
nyctaxi_sample.show(5, truncate=False)

# Estat√≠sticas r√°pidas
print("\nüìà Estat√≠sticas r√°pidas (sample):")
nyctaxi_sample.select(
    count("*").alias("registros"),
    min("tpep_pickup_datetime").alias("primeira_viagem"),
    max("tpep_pickup_datetime").alias("ultima_viagem"),
    avg("trip_distance").alias("distancia_media"),
    avg("total_amount").alias("valor_medio")
).show()

## 3Ô∏è‚É£ Configurar Structured Streaming da Tabela Delta

Vamos criar um streaming **direto da tabela** usando `maxFilesPerTrigger` e `maxBytesPerTrigger` para controlar a velocidade de processamento.

In [None]:
# Criar streaming DataFrame diretamente da tabela Unity Catalog
streaming_df = spark.readStream \
    .option("maxFilesPerTrigger", 2) \
    .option("maxBytesPerTrigger", "5m") \
    .table(TABLE_SOURCE)

print("‚úÖ Streaming configurado!")
print(f"‚öôÔ∏è  Fonte: {TABLE_SOURCE}")
print(f"‚öôÔ∏è  maxFilesPerTrigger: 2 (processa at√© 2 arquivos Delta por batch)")
print(f"‚öôÔ∏è  maxBytesPerTrigger: 5m (m√°ximo 5MB por batch)")
print(f"üìä √â streaming? {streaming_df.isStreaming}")
print("\nüìã Schema:")
streaming_df.printSchema()

print("\nüí° Nota: O streaming ler√° incrementalmente os arquivos da tabela Delta,")
print("   processando alguns arquivos por batch para demonstra√ß√£o visual.")

## 4Ô∏è‚É£ Enriquecer e Agregar Dados

Adicionamos colunas de an√°lise e criamos agrega√ß√µes por regi√£o e tipo de pagamento.

In [None]:
# Enriquecer dados
enriched_df = streaming_df \
    .withColumn("processing_time", current_timestamp()) \
    .withColumn("pickup_date", to_date(col("tpep_pickup_datetime"))) \
    .withColumn("pickup_hour", hour(col("tpep_pickup_datetime"))) \
    .withColumn("trip_duration_minutes", 
                (unix_timestamp("tpep_dropoff_datetime") - unix_timestamp("tpep_pickup_datetime")) / 60) \
    .withColumn("payment_type_desc", 
                when(col("payment_type") == 1, "Credit Card")
                .when(col("payment_type") == 2, "Cash")
                .when(col("payment_type") == 3, "No Charge")
                .when(col("payment_type") == 4, "Dispute")
                .otherwise("Unknown"))

# Agrega√ß√µes por localiza√ß√£o de pickup e tipo de pagamento
aggregated_df = enriched_df \
    .groupBy("pickup_location_id", "payment_type_desc", "pickup_date") \
    .agg(
        count("*").alias("total_trips"),
        sum("trip_distance").alias("total_distance"),
        sum("total_amount").alias("total_revenue"),
        avg("total_amount").alias("avg_fare"),
        avg("trip_distance").alias("avg_distance"),
        avg("trip_duration_minutes").alias("avg_duration_min"),
        min("tpep_pickup_datetime").alias("first_trip"),
        max("tpep_pickup_datetime").alias("last_trip")
    )

print("‚úÖ Pipeline de agrega√ß√£o criado!")
print("\nüìä M√©tricas calculadas:")
print("  ‚Ä¢ Total de viagens")
print("  ‚Ä¢ Dist√¢ncia total percorrida")
print("  ‚Ä¢ Receita total")
print("  ‚Ä¢ Ticket m√©dio (fare)")
print("  ‚Ä¢ Dist√¢ncia m√©dia")
print("  ‚Ä¢ Dura√ß√£o m√©dia (minutos)")

## 5Ô∏è‚É£ foreachBatch - Processar e Visualizar Cada Batch

Usamos `foreachBatch` para ver o processamento **batch por batch** em tempo real!

In [None]:
# Estat√≠sticas acumuladas
batch_stats = {
    'count': 0,
    'total_trips': 0,
    'total_revenue': 0,
    'total_distance': 0
}

def process_batch(batch_df, batch_id):
    """Processa cada batch do streaming"""
    batch_stats['count'] += 1
    
    print("\n" + "=" * 100)
    print(f"üì¶ BATCH #{batch_stats['count']} | Batch ID: {batch_id}")
    print("=" * 100)
    
    if batch_df.count() == 0:
        print("‚ö†Ô∏è  Batch vazio - pulando")
        return
    
    # Estat√≠sticas do batch
    stats = batch_df.agg(
        sum("total_trips").alias("trips"),
        sum("total_revenue").alias("revenue"),
        sum("total_distance").alias("distance")
    ).collect()[0]
    
    batch_stats['total_trips'] += stats.trips if stats.trips else 0
    batch_stats['total_revenue'] += stats.revenue if stats.revenue else 0
    batch_stats['total_distance'] += stats.distance if stats.distance else 0
    
    print(f"\nüìä ESTAT√çSTICAS DO BATCH:")
    print(f"   üöï Viagens: {stats.trips:,}")
    print(f"   üí∞ Receita: ${stats.revenue:,.2f}")
    print(f"   üìè Dist√¢ncia: {stats.distance:,.2f} milhas")
    
    # Top 5 localiza√ß√µes por receita
    print(f"\nüèÜ TOP 5 LOCALIZA√á√ïES (Receita):")
    top_locations = batch_df.orderBy(col("total_revenue").desc()).limit(5)
    top_locations.select(
        "pickup_location_id",
        "total_trips",
        "total_revenue",
        "avg_fare"
    ).show(truncate=False)
    
    # Distribui√ß√£o por tipo de pagamento
    print(f"üí≥ DISTRIBUI√á√ÉO POR TIPO DE PAGAMENTO:")
    payment_dist = batch_df.groupBy("payment_type_desc") \
        .agg(
            sum("total_trips").alias("trips"),
            sum("total_revenue").alias("revenue")
        ) \
        .orderBy(col("revenue").desc())
    payment_dist.show(truncate=False)
    
    # Totais acumulados
    print(f"\nüìà TOTAIS ACUMULADOS:")
    print(f"   üì¶ Batches processados: {batch_stats['count']}")
    print(f"   üöï Viagens: {batch_stats['total_trips']:,}")
    print(f"   üí∞ Receita: ${batch_stats['total_revenue']:,.2f}")
    print(f"   üìè Dist√¢ncia: {batch_stats['total_distance']:,.2f} milhas")
    if batch_stats['total_trips'] > 0:
        print(f"   üéØ Receita M√©dia/Viagem: ${batch_stats['total_revenue']/batch_stats['total_trips']:,.2f}")

print("üîß Fun√ß√£o de processamento definida!")

## 6Ô∏è‚É£ EXECUTAR Streaming com foreachBatch

**Execute esta c√©lula e observe o processamento batch por batch!**

O streaming ir√°:
1. Processar dados incrementalmente da tabela Delta
2. Mostrar m√©tricas de cada batch
3. Acumular estat√≠sticas totais
4. Executar por 60 segundos (ou at√© processar todos os dados)

In [None]:
print("üöÄ Iniciando streaming...\n")

# Iniciar streaming com foreachBatch
query = aggregated_df.writeStream \
    .foreachBatch(process_batch) \
    .outputMode("complete") \
    .trigger(processingTime="5 seconds") \
    .start()

print("‚úÖ Streaming iniciado!")
print("‚è±Ô∏è  Executar√° por 60 segundos...")
print("\nüëÄ Observe as m√©tricas sendo atualizadas abaixo:\n")

## 7Ô∏è‚É£ Aguardar e Parar o Streaming

Deixe o streaming executar por 60 segundos para ver v√°rios batches, depois pare.

In [None]:
# Aguardar 60 segundos
print("‚è≥ Aguardando 60 segundos...")
time.sleep(60)

# Parar o streaming
query.stop()
print("\nüõë Streaming parado!")

print("\n" + "=" * 100)
print("üìä RESUMO FINAL")
print("=" * 100)
print(f"üì¶ Total de batches processados: {batch_stats['count']}")
print(f"üöï Total de viagens: {batch_stats['total_trips']:,}")
print(f"üí∞ Receita total: ${batch_stats['total_revenue']:,.2f}")
print(f"üìè Dist√¢ncia total: {batch_stats['total_distance']:,.2f} milhas")
if batch_stats['total_trips'] > 0:
    print(f"üéØ Receita m√©dia por viagem: ${batch_stats['total_revenue']/batch_stats['total_trips']:,.2f}")
    print(f"üìç Dist√¢ncia m√©dia por viagem: {batch_stats['total_distance']/batch_stats['total_trips']:,.2f} milhas")
print("=" * 100)

## 8Ô∏è‚É£ ALTERNATIVA: Salvar em Delta Table Gerenciada

Em vez de usar `foreachBatch`, podemos salvar diretamente em uma **Delta Table gerenciada** no Catalog.

**Vantagens:**
- Dados persistidos automaticamente
- Pode consultar com SQL
- Suporta ACID transactions
- Gerenciado pelo Unity Catalog

In [None]:
print(f"üíæ Salvando resultados em Delta Table: {OUTPUT_TABLE}")

# Limpar tabela anterior se existir
try:
    spark.sql(f"DROP TABLE IF EXISTS {OUTPUT_TABLE}")
    print(f"üßπ Tabela anterior removida")
except:
    pass

# Iniciar streaming salvando em Delta Table
query_delta = aggregated_df.writeStream \
    .format("delta") \
    .outputMode("complete") \
    .option("checkpointLocation", f"/tmp/checkpoint_{int(time.time())}") \
    .trigger(processingTime="10 seconds") \
    .toTable(OUTPUT_TABLE)

print(f"‚úÖ Streaming para Delta Table iniciado!")
print(f"üìä Tabela: {OUTPUT_TABLE}")
print(f"‚è±Ô∏è  Trigger: 10 segundos")
print(f"\nüí° A tabela ser√° atualizada automaticamente a cada 10 segundos")

## 9Ô∏è‚É£ Aguardar Processamento da Delta Table

In [None]:
# Aguardar 60 segundos para processar dados
print("‚è≥ Aguardando 60 segundos para processar dados...")
time.sleep(60)

# Parar o streaming
query_delta.stop()
print("üõë Streaming para Delta Table parado!")

## üîü Consultar Resultados da Delta Table

Agora podemos consultar os resultados salvos na Delta Table!

In [None]:
print(f"üìä Consultando resultados de {OUTPUT_TABLE}...\n")

# Ler a tabela
results_df = spark.table(OUTPUT_TABLE)

print(f"‚úÖ Total de registros salvos: {results_df.count():,}\n")

# Top 10 localiza√ß√µes por receita
print("üèÜ TOP 10 LOCALIZA√á√ïES (Receita Total):")
results_df.orderBy(col("total_revenue").desc()).limit(10).show(truncate=False)

# Estat√≠sticas gerais
print("\nüìà ESTAT√çSTICAS GERAIS:")
totals = results_df.agg(
    sum("total_trips").alias("total_viagens"),
    sum("total_revenue").alias("receita_total"),
    sum("total_distance").alias("distancia_total"),
    avg("avg_fare").alias("ticket_medio"),
    avg("avg_distance").alias("distancia_media_viagem")
).collect()[0]

print(f"  üöï Total de viagens: {totals.total_viagens:,}")
print(f"  üí∞ Receita total: ${totals.receita_total:,.2f}")
print(f"  üìè Dist√¢ncia total: {totals.distancia_total:,.2f} milhas")
print(f"  üéØ Ticket m√©dio: ${totals.ticket_medio:,.2f}")
print(f"  üìç Dist√¢ncia m√©dia por viagem: {totals.distancia_media_viagem:,.2f} milhas")

## 1Ô∏è‚É£1Ô∏è‚É£ Consultar com SQL

Podemos usar SQL diretamente na tabela Delta!

In [None]:
# Exemplo de consulta SQL
spark.sql(f"""
SELECT 
    payment_type_desc,
    SUM(total_trips) as viagens,
    SUM(total_revenue) as receita,
    AVG(avg_fare) as ticket_medio
FROM {OUTPUT_TABLE}
GROUP BY payment_type_desc
ORDER BY receita DESC
""").show(truncate=False)

## 1Ô∏è‚É£2Ô∏è‚É£ Cleanup (Opcional)

Remova a tabela de testes se desejar.

In [None]:
# Descomentar para executar cleanup
# spark.sql(f"DROP TABLE IF EXISTS {OUTPUT_TABLE}")
# print(f"üßπ Tabela {OUTPUT_TABLE} removida")

print("‚ÑπÔ∏è  Cleanup desabilitado. Descomente o c√≥digo acima para remover a tabela.")

---

## üìö Conceitos Demonstrados

### Structured Streaming
- **readStream**: L√™ dados de forma incremental de tabelas Delta
- **maxFilesPerTrigger**: Controla quantos arquivos processar por batch
- **maxBytesPerTrigger**: Controla volume de dados por batch
- **writeStream**: Salva resultados do streaming
- **foreachBatch**: Fun√ß√£o customizada para processar cada batch
- **outputMode=complete**: Retorna resultados completos das agrega√ß√µes

### Delta Lake
- **Delta Tables gerenciadas**: Tabelas no Unity Catalog
- **ACID transactions**: Garantia de consist√™ncia
- **Time travel**: Hist√≥rico de vers√µes (n√£o explorado aqui)
- **Schema enforcement**: Valida√ß√£o autom√°tica de schema

### Unity Catalog
- **samples.nyctaxi.trips**: Dataset p√∫blico nativo
- **default schema**: Schema padr√£o para tabelas
- **Managed tables**: Metadados e dados gerenciados

---

## ‚úÖ Checklist de Execu√ß√£o

1. ‚úÖ Configurar vari√°veis (TABLE_SOURCE, OUTPUT_TABLE)
2. ‚úÖ Explorar dados da tabela NYC Taxi
3. ‚úÖ Configurar streaming com maxFilesPerTrigger
4. ‚úÖ Criar pipeline de agrega√ß√µes
5. ‚úÖ Executar com foreachBatch (Op√ß√£o 1)
   - Ver m√©tricas batch por batch
   - Aguardar 60 segundos
   - Parar streaming
6. ‚úÖ OU Salvar em Delta Table (Op√ß√£o 2)
   - Iniciar streaming para Delta
   - Aguardar 60 segundos
   - Parar streaming
   - Consultar resultados
7. ‚úÖ Consultar com SQL
8. ‚úÖ Cleanup (opcional)

---

## üéì Para Professores

Este notebook √© ideal para demonstrar:

1. **Processamento Incremental**: Como o Spark processa dados em batches
2. **Agrega√ß√µes em Streaming**: GroupBy com fun√ß√µes de agrega√ß√£o
3. **Delta Lake**: Vantagens de usar Delta vs Parquet
4. **Unity Catalog**: Governan√ßa e organiza√ß√£o de dados
5. **Controle de Fluxo**: maxFilesPerTrigger e maxBytesPerTrigger
6. **Visualiza√ß√£o de M√©tricas**: foreachBatch para inspe√ß√£o

**Sem necessidade de:**
- Kafka ou sistemas externos
- DBFS ou FileStore
- Configura√ß√£o de rede
- Dados sint√©ticos

---

## üîó Recursos

- [Databricks Structured Streaming](https://docs.databricks.com/structured-streaming/index.html)
- [Delta Lake](https://docs.databricks.com/delta/index.html)
- [Unity Catalog](https://docs.databricks.com/data-governance/unity-catalog/index.html)
- [NYC Taxi Dataset](https://www.nyc.gov/site/tlc/about/tlc-trip-record-data.page)