**Configuração e Carga**

In [3]:
# ==============================================================================
# PROJETO: FlightOnTime - Feature Engineering
# OBJETIVO: Transformar dados brutos em variáveis (features) para o modelo.
# AUTORA: Sueli da Hora
# ==============================================================================

from google.colab import auth
from google.cloud import bigquery
import pandas as pd
from sklearn.preprocessing import LabelEncoder

# 1. Autenticação e Conexão
auth.authenticate_user()
PROJECT_ID = 'flightontime-hackathon'
client = bigquery.Client(project=PROJECT_ID)

# 2. Carga dos dados validados na EDA
query = f"SELECT * FROM `{PROJECT_ID}.dados_voos.tabela_treinamento_final` LIMIT 100000"
df = client.query(query).to_dataframe()

print(f"Dados carregados com sucesso! Iniciando engenharia em {df.shape[0]} registros.")

Dados carregados com sucesso! Iniciando engenharia em 100000 registros.


**Criar variáveis de tempo (Sazonalidade)**

Este código ensina ao modelo que o comportamento dos voos muda conforme o mês e o dia da semana.

In [5]:
# ==========================================
# Engenharia de Atributos Temporais
# ==========================================

# Garantir que a coluna de data seja reconhecida corretamente
df['data_voo'] = pd.to_datetime(df['data_voo'])

# Extração de Sazonalidade: Criamos colunas numéricas para mês e dia
df['mes'] = df['data_voo'].dt.month
df['dia_semana'] = df['data_voo'].dt.dayofweek

print("Variáveis de tempo 'mes' e 'dia_semana' criadas com sucesso!")
display(df[['data_voo', 'mes', 'dia_semana']].head())

Variáveis de tempo 'mes' e 'dia_semana' criadas com sucesso!


Unnamed: 0,data_voo,mes,dia_semana
0,2024-04-13,4,5
1,2024-02-14,2,2
2,2024-12-02,12,0
3,2024-09-09,9,0
4,2024-09-30,9,0


**Tratar variáveis categóricas (Encoding)**

In [6]:
# ==========================================
# Tratamento de Variáveis Categóricas
# ==========================================

le = LabelEncoder()

# Lista de colunas que precisam ser convertidas de texto para número
colunas_categoricas = ['companhia', 'origem', 'estado_origem', 'destino', 'estado_destino']

for col in colunas_categoricas:
    df[col] = le.fit_transform(df[col].astype(str))

print("Todas as variáveis categóricas foram codificadas para números!")
display(df[colunas_categoricas].head())

Todas as variáveis categóricas foram codificadas para números!


Unnamed: 0,companhia,origem,estado_origem,destino,estado_destino
0,9,39,23,0,26
1,9,39,23,0,26
2,9,39,23,0,26
3,9,39,23,0,26
4,9,39,23,0,26


**Relatório de Feature Engineering**


***Variáveis Temporais:*** Extraímos mes (1-12) e dia_semana (0-6) para capturar a sazonalidade dos atrasos.

***Label Encoding:*** As colunas categóricas (nomes) foram transformadas em identificadores numéricos únicos.

***Resultado:*** O dataset agora está totalmente numérico e pronto para ser usado no treinamento do modelo.