In [0]:
# ===================================================
# SETUP: CRIAR TABELA DELTA PARA SQL
# Este notebook prepara os dados para uso no SQL Editor
# ===================================================

from pyspark.sql.functions import col
import time

print("="*70)
print("🔧 SETUP: PREPARANDO DADOS PARA SQL".center(70))
print("="*70 + "\n")

# ===================================================
# ETAPA 1: CARREGAR CSV
# ===================================================

print("1️⃣ Carregando dados do CSV...\n")

inicio = time.time()

df = spark.read.format("csv") \
    .option("header", "true") \
    .option("inferSchema", "true") \
    .load("/databricks-datasets/airlines/")

# Nomear as colunas importantes
df = df.withColumnRenamed(df.columns[0], "Ano") \
    .withColumnRenamed(df.columns[1], "Mes") \
    .withColumnRenamed(df.columns[2], "Dia") \
    .withColumnRenamed(df.columns[3], "DiaSemana") \
    .withColumnRenamed(df.columns[8], "Companhia") \
    .withColumnRenamed(df.columns[16], "Origem") \
    .withColumnRenamed(df.columns[17], "Destino")

print(f"✅ Carregado: {df.count():,} registros")
print(f"⏱️  Tempo: {time.time() - inicio:.2f}s\n")

# ===================================================
# ETAPA 2: CRIAR TABELA DELTA
# ===================================================

print("2️⃣ Criando tabela Delta (formato otimizado)...\n")

# Salvar como tabela Delta
df.write.format("delta") \
    .mode("overwrite") \
    .saveAsTable("voos_analise")

print("✅ Tabela criada: voos_analise\n")

# ===================================================
# ETAPA 3: VERIFICAR TABELA
# ===================================================

print("3️⃣ Verificando tabela...\n")

# Ler a tabela criada
df_tabela = spark.table("voos_analise")

print(f"📊 Total de registros: {df_tabela.count():,}")
print(f"📋 Colunas disponíveis:")
for col in df_tabela.columns[:10]:  # Primeiras 10 colunas
    print(f"   • {col}")

print("\n" + "="*70)
print("✅ SETUP CONCLUÍDO!".center(70))
print("="*70)

print("""
🎯 PRÓXIMOS PASSOS:

1. Vá para SQL Editor
2. Crie queries usando a tabela: voos_analise
3. Crie visualizações
4. Monte o Dashboard

💡 Exemplos de queries:
   SELECT * FROM voos_analise LIMIT 10
   SELECT Companhia, COUNT(*) FROM voos_analise GROUP BY Companhia
""")

                  🔧 SETUP: PREPARANDO DADOS PARA SQL                  

1️⃣ Carregando dados do CSV...

✅ Carregado: 1,235,347,780 registros
⏱️  Tempo: 128.76s

2️⃣ Criando tabela Delta (formato otimizado)...

✅ Tabela criada: voos_analise

3️⃣ Verificando tabela...

📊 Total de registros: 1,235,347,780
📋 Colunas disponíveis:
   • Ano
   • Mes
   • Dia
   • DiaSemana
   • NA4
   • 1047
   • NA6
   • 1222
   • Companhia
   • 1056

                          ✅ SETUP CONCLUÍDO!                          

🎯 PRÓXIMOS PASSOS:

1. Vá para SQL Editor
2. Crie queries usando a tabela: voos_analise
3. Crie visualizações
4. Monte o Dashboard

💡 Exemplos de queries:
   SELECT * FROM voos_analise LIMIT 10
   SELECT Companhia, COUNT(*) FROM voos_analise GROUP BY Companhia

