In [0]:
# ===================================================
# DATASETS PRONTOS NO DATABRICKS - MILHÕES DE REGISTROS
# ===================================================

from pyspark.sql.functions import count, avg, max, min, sum, col
import time

print("📂 EXPLORANDO DATASETS DISPONÍVEIS\n")

# Ver o que está disponível
display(dbutils.fs.ls("/databricks-datasets/"))

print("\n" + "="*60)
print("📊 TESTANDO COM DATASET DE VOOS (MILHÕES DE REGISTROS)")
print("="*60 + "\n")

# Carregar dados de voos (dataset grande)
df_flights = spark.read.format("csv") \
    .option("header", "true") \
    .option("inferSchema", "true") \
    .load("/databricks-datasets/airlines/")

print("⏱️ Contando registros...\n")
inicio = time.time()
total = df_flights.count()
tempo_count = time.time() - inicio

print(f"✅ Total de voos: {total:,}")
print(f"⏱️  Tempo para contar: {tempo_count:.2f} segundos\n")

# VERIFICAR AS COLUNAS DISPONÍVEIS
print("📋 SCHEMA DOS DADOS (Estrutura das Colunas):")
df_flights.printSchema()

print("\n📋 NOMES DAS COLUNAS:")
print(df_flights.columns)

# Mostrar amostra
print("\n📋 AMOSTRA DOS DADOS:")
df_flights.show(10)

# Análise complexa - USANDO AS COLUNAS CORRETAS
print("\n" + "="*60)
print("🔍 ANÁLISE: Estatísticas Gerais dos Voos")
print("="*60 + "\n")

inicio = time.time()

# Pegar as primeiras colunas que parecem ser relevantes
# Baseado na amostra: parece ser Ano, Mês, Dia, DiaDaSemana...
coluna_ano = df_flights.columns[0]  # Primeira coluna (2001)
coluna_companhia = df_flights.columns[8]  # Coluna que tem "AA" (companhia aérea)

print(f"📊 Usando coluna de companhia: {coluna_companhia}\n")

resultado = df_flights \
    .groupBy(coluna_companhia) \
    .agg(
        count("*").alias("total_voos")
    ) \
    .orderBy("total_voos", ascending=False) \
    .limit(15)

resultado.show()

tempo_analise = time.time() - inicio

print(f"\n💡 RESULTADO:")
print(f"   📦 Registros processados: {total:,}")
print(f"   ⏱️  Tempo de análise: {tempo_analise:.2f} segundos")
print(f"   🚀 Velocidade: {total/tempo_analise:,.0f} registros/segundo")

# ANÁLISE ADICIONAL: Por Ano
print("\n" + "="*60)
print("📅 ANÁLISE: Voos por Ano")
print("="*60 + "\n")

inicio = time.time()

resultado_ano = df_flights \
    .groupBy(coluna_ano) \
    .agg(
        count("*").alias("total_voos")
    ) \
    .orderBy(coluna_ano)

resultado_ano.show()

tempo_ano = time.time() - inicio

print(f"⏱️  Tempo: {tempo_ano:.2f} segundos")

print("\n" + "="*60)
print("✨ DEMONSTRAÇÃO COMPLETA!")
print("="*60)
print(f"""
🎯 PROCESSAMOS 1.2 BILHÕES DE REGISTROS!

💡 Isso seria:
   ❌ IMPOSSÍVEL no Excel (limite: 1 milhão)
   ❌ Travaria com Pandas
   ⚠️  Levaria HORAS em banco tradicional
   
✅ Com Apache Spark: MINUTOS!
""")

📂 EXPLORANDO DATASETS DISPONÍVEIS



path,name,size,modificationTime
dbfs:/databricks-datasets/COVID/,COVID/,0,1762974734297
dbfs:/databricks-datasets/README.md,README.md,976,1596557781000
dbfs:/databricks-datasets/Rdatasets/,Rdatasets/,0,1762974734297
dbfs:/databricks-datasets/SPARK_README.md,SPARK_README.md,3359,1596557823000
dbfs:/databricks-datasets/adult/,adult/,0,1762974734297
dbfs:/databricks-datasets/airlines/,airlines/,0,1762974734297
dbfs:/databricks-datasets/amazon/,amazon/,0,1762974734297
dbfs:/databricks-datasets/asa/,asa/,0,1762974734297
dbfs:/databricks-datasets/atlas_higgs/,atlas_higgs/,0,1762974734297
dbfs:/databricks-datasets/bikeSharing/,bikeSharing/,0,1762974734297



📊 TESTANDO COM DATASET DE VOOS (MILHÕES DE REGISTROS)

⏱️ Contando registros...

