In [1]:
# # Instalando blibiotecas
# !pip install pandas
# !pip install scikit-learn
# !pip install numpy
# !pip install xgboost
# !pip install lightgbm
# !pip install catboost

In [1]:
# ===== SESS√ÉO 1 + 2 + 3 (VERS√ÉO OTIMIZADA PARA GRANDES VOLUMES) =====
import pandas as pd
import os

print("=== PROCESSANDO DADOS DE VOOS (modo otimizado) ===")
base_folder_path = './dataset/'

# Arquivo tempor√°rio (streaming)
TEMP_FILE = "temp_voos.csv"
if os.path.exists(TEMP_FILE):
    os.remove(TEMP_FILE)

df_list = []
first_write = True

all_items = os.listdir(base_folder_path)
year_folders = [d for d in all_items if os.path.isdir(os.path.join(base_folder_path, d))]

# ===== PARTE 1 ‚Äî LEITURA EM CHUNKS (SEM ESTOURAR MEM√ìRIA) =====
for year_folder in year_folders:
    year_path = os.path.join(base_folder_path, year_folder)

    try:
        year_from_folder = int(year_folder)
    except ValueError:
        print(f"Ignorando pasta '{year_folder}' pois o nome n√£o √© ano.")
        continue

    year_files = os.listdir(year_path)
    # Ignorar arquivos .~lock
    csv_files = [
        f for f in year_files
        if f.endswith('.CSV') and not f.startswith('.~lock')
    ]

    for csv_file in csv_files:
        file_path = os.path.join(year_path, csv_file)
        print(f"Lendo (chunks) ‚Üí {file_path}")

        try:
            chunk_iter = pd.read_csv(file_path, sep=';', chunksize=100_000)
        except Exception as e:
            print(f"Erro ao abrir {csv_file}: {e}")
            continue

        for chunk in chunk_iter:
            # TRATAMENTO DO CHUNK
            chunk['ANO'] = year_from_folder
            chunk['MES'] = chunk['MES'].astype(str).str.replace(',', '', regex=False)
            chunk['MES'] = pd.to_numeric(chunk['MES'], errors='coerce').fillna(0).astype(int)

            chunk['DATA'] = pd.to_datetime(
                chunk['ANO'].astype(str) + '-' + chunk['MES'].astype(str),
                format='%Y-%m', errors='coerce'
            )
            chunk['ANO'] = chunk['DATA'].dt.year
            chunk['MES'] = chunk['DATA'].dt.month

            chunk = chunk.drop(columns=['nr_ano_referencia', 'nr_mes_referencia', 'DATA'], errors='ignore')

            # Salvar em streaming no arquivo tempor√°rio
            chunk.to_csv(TEMP_FILE, mode='a', index=False, header=first_write)
            first_write = False

print("Leitura dos voos conclu√≠da. Criando main_df...")

# Carregar arquivo j√° unido
try:
    main_df = pd.read_csv(TEMP_FILE)
    print(f"main_df criado com sucesso! Shape: {main_df.shape}")
except Exception as e:
    print("Erro ao criar main_df:", e)
    main_df = pd.DataFrame()

# Reordenar colunas
if not main_df.empty:
    cols = main_df.columns.tolist()
    if 'MES' in cols and 'ANO' in cols and 'ASSENTOS' in cols:
        cols.remove('MES')
        cols.remove('ANO')
        cols.insert(cols.index('ASSENTOS') + 1, 'MES')
        cols.insert(cols.index('ASSENTOS') + 2, 'ANO')
        main_df = main_df[cols]

    # Mapear empresas
    empresa_mapping = {
        'ABJ': 'ATA - AEROT√ÅXI ABAET√â LTDA.',
        'AZU': 'AZUL LINHAS A√âREAS BRASILEIRAS S/A',
        'GLO': 'GOL LINHAS A√âREAS S.A. (EX- VRG LINHAS A√âREAS S.A.)',
        'TAM': 'TAM LINHAS A√âREAS S.A.',
        'CQB': 'APU√ç T√ÅXI A√âREO S/A'
    }
    if 'EMPRESA' in main_df.columns:
        main_df['EMPRESA'] = main_df['EMPRESA'].replace(empresa_mapping)
        print("Mapeamento de empresas conclu√≠do!")

# ===== PARTE 2 ‚Äî AEROPORTOS =====
print("\n=== PROCESSANDO DADOS DE AEROPORTOS ===")
csv_file_path = './dataset/cadastro-de-aerodromos-civis-publicos.csv'

try:
    airport_df = pd.read_csv(csv_file_path, sep=';')
    airport_df = airport_df[['C√ìDIGO OACI', 'MUNIC√çPIO ATENDIDO', 'UF']]
    print("airport_df criado!", airport_df.shape)
except Exception as e:
    print("Erro ao carregar airport_df:", e)
    airport_df = pd.DataFrame()

# ===== PARTE 3 ‚Äî MERGE FINAL EM CHUNKS (SEM ESTOURAR A MEM√ìRIA) =====

print("\n=== INICIANDO MERGE FINAL EM CHUNKS ===")

MERGED_FILE = "temp_merged.csv"
if os.path.exists(MERGED_FILE):
    os.remove(MERGED_FILE)

if main_df.empty or airport_df.empty:
    print("ERRO: Um dos DataFrames est√° vazio.")
else:
    # Padronizar airport_df apenas 1 vez
    airport_df_clean = airport_df.copy()
    airport_df_clean['C√ìDIGO OACI'] = airport_df_clean['C√ìDIGO OACI'].astype(str).str.strip().str.upper()

    # Ler main_df em chunks direto do arquivo temp_voos.csv
    CHUNK_SIZE = 200_000

    first_write_merge = True

    for chunk in pd.read_csv(TEMP_FILE, chunksize=CHUNK_SIZE):

        print(f"Processando merge chunk ‚Üí {len(chunk)} linhas...")

        # Padronizar
        chunk['ORIGEM'] = chunk['ORIGEM'].astype(str).str.strip().str.upper()
        chunk['DESTINO'] = chunk['DESTINO'].astype(str).str.strip().str.upper()

        # üîπ MERGE ORIGEM
        chunk = chunk.merge(
            airport_df_clean,
            left_on='ORIGEM',
            right_on='C√ìDIGO OACI',
            how='left'
        ).rename(columns={'MUNIC√çPIO ATENDIDO': 'MUNICIPIO_ORIGEM'}) \
         .drop(columns=['C√ìDIGO OACI', 'UF'], errors='ignore')

        # üîπ MERGE DESTINO
        chunk = chunk.merge(
            airport_df_clean,
            left_on='DESTINO',
            right_on='C√ìDIGO OACI',
            how='left'
        ).rename(columns={'MUNIC√çPIO ATENDIDO': 'MUNICIPIO_DESTINO'}) \
         .drop(columns=['C√ìDIGO OACI', 'UF'], errors='ignore')

        # Reorganizar colunas
        if 'MUNICIPIO_ORIGEM' in chunk.columns:
            chunk = chunk.rename(columns={'MUNICIPIO_ORIGEM': 'ORIGEM'})
        if 'MUNICIPIO_DESTINO' in chunk.columns:
            chunk = chunk.rename(columns={'MUNICIPIO_DESTINO': 'DESTINO'})

        # Remover linhas inv√°lidas
        chunk = chunk.dropna(subset=['ORIGEM', 'DESTINO'])

        # üî• Salvar incrementalmente
        chunk.to_csv(MERGED_FILE, index=False, mode='a', header=first_write_merge)
        first_write_merge = False

    print("=== MERGE EM CHUNKS CONCLU√çDO ===")

# Carregar DataFrame final consolidado
final_df = pd.read_csv(MERGED_FILE)

print("\n=== RESULTADO FINAL ===")
print(f"Shape final: {final_df.shape}")
print(final_df.head())

=== PROCESSANDO DADOS DE VOOS (modo otimizado) ===
Lendo (chunks) ‚Üí ./dataset/2023/202301.CSV
Lendo (chunks) ‚Üí ./dataset/2023/202304.CSV
Lendo (chunks) ‚Üí ./dataset/2023/202310.CSV
Lendo (chunks) ‚Üí ./dataset/2023/202303.CSV
Lendo (chunks) ‚Üí ./dataset/2023/202308.CSV
Lendo (chunks) ‚Üí ./dataset/2023/202312.CSV
Lendo (chunks) ‚Üí ./dataset/2023/202309.CSV
Lendo (chunks) ‚Üí ./dataset/2023/202305.CSV
Lendo (chunks) ‚Üí ./dataset/2023/202302.CSV
Lendo (chunks) ‚Üí ./dataset/2023/202311.CSV
Lendo (chunks) ‚Üí ./dataset/2023/202306.CSV
Lendo (chunks) ‚Üí ./dataset/2023/202307.CSV
Lendo (chunks) ‚Üí ./dataset/2024/202407.CSV
Lendo (chunks) ‚Üí ./dataset/2024/202401.CSV
Lendo (chunks) ‚Üí ./dataset/2024/202402.CSV
Lendo (chunks) ‚Üí ./dataset/2024/202405.CSV
Lendo (chunks) ‚Üí ./dataset/2024/202411.CSV
Lendo (chunks) ‚Üí ./dataset/2024/202403.CSV
Lendo (chunks) ‚Üí ./dataset/2024/202404.CSV
Lendo (chunks) ‚Üí ./dataset/2024/202412.CSV
Lendo (chunks) ‚Üí ./dataset/2024/202409.CSV
Lend

  main_df = pd.read_csv(TEMP_FILE)


main_df criado com sucesso! Shape: (17873941, 7)
Mapeamento de empresas conclu√≠do!

=== PROCESSANDO DADOS DE AEROPORTOS ===
airport_df criado! (504, 3)

=== INICIANDO MERGE FINAL EM CHUNKS ===
Processando merge chunk ‚Üí 200000 linhas...
Processando merge chunk ‚Üí 200000 linhas...
Processando merge chunk ‚Üí 200000 linhas...
Processando merge chunk ‚Üí 200000 linhas...
Processando merge chunk ‚Üí 200000 linhas...
Processando merge chunk ‚Üí 200000 linhas...
Processando merge chunk ‚Üí 200000 linhas...
Processando merge chunk ‚Üí 200000 linhas...
Processando merge chunk ‚Üí 200000 linhas...
Processando merge chunk ‚Üí 200000 linhas...
Processando merge chunk ‚Üí 200000 linhas...
Processando merge chunk ‚Üí 200000 linhas...
Processando merge chunk ‚Üí 200000 linhas...
Processando merge chunk ‚Üí 200000 linhas...
Processando merge chunk ‚Üí 200000 linhas...


  for chunk in pd.read_csv(TEMP_FILE, chunksize=CHUNK_SIZE):


Processando merge chunk ‚Üí 200000 linhas...
Processando merge chunk ‚Üí 200000 linhas...
Processando merge chunk ‚Üí 200000 linhas...
Processando merge chunk ‚Üí 200000 linhas...
Processando merge chunk ‚Üí 200000 linhas...
Processando merge chunk ‚Üí 200000 linhas...


  for chunk in pd.read_csv(TEMP_FILE, chunksize=CHUNK_SIZE):


Processando merge chunk ‚Üí 200000 linhas...
Processando merge chunk ‚Üí 200000 linhas...
Processando merge chunk ‚Üí 200000 linhas...
Processando merge chunk ‚Üí 200000 linhas...


  for chunk in pd.read_csv(TEMP_FILE, chunksize=CHUNK_SIZE):


Processando merge chunk ‚Üí 200000 linhas...
Processando merge chunk ‚Üí 200000 linhas...
Processando merge chunk ‚Üí 200000 linhas...
Processando merge chunk ‚Üí 200000 linhas...
Processando merge chunk ‚Üí 200000 linhas...
Processando merge chunk ‚Üí 200000 linhas...
Processando merge chunk ‚Üí 200000 linhas...
Processando merge chunk ‚Üí 200000 linhas...
Processando merge chunk ‚Üí 200000 linhas...
Processando merge chunk ‚Üí 200000 linhas...
Processando merge chunk ‚Üí 200000 linhas...
Processando merge chunk ‚Üí 200000 linhas...
Processando merge chunk ‚Üí 200000 linhas...
Processando merge chunk ‚Üí 200000 linhas...
Processando merge chunk ‚Üí 200000 linhas...
Processando merge chunk ‚Üí 200000 linhas...
Processando merge chunk ‚Üí 200000 linhas...
Processando merge chunk ‚Üí 200000 linhas...
Processando merge chunk ‚Üí 200000 linhas...
Processando merge chunk ‚Üí 200000 linhas...
Processando merge chunk ‚Üí 200000 linhas...
Processando merge chunk ‚Üí 200000 linhas...
Processand

  for chunk in pd.read_csv(TEMP_FILE, chunksize=CHUNK_SIZE):


Processando merge chunk ‚Üí 200000 linhas...
Processando merge chunk ‚Üí 200000 linhas...
Processando merge chunk ‚Üí 200000 linhas...
Processando merge chunk ‚Üí 200000 linhas...
Processando merge chunk ‚Üí 200000 linhas...
Processando merge chunk ‚Üí 200000 linhas...
Processando merge chunk ‚Üí 200000 linhas...
Processando merge chunk ‚Üí 200000 linhas...
Processando merge chunk ‚Üí 200000 linhas...
Processando merge chunk ‚Üí 200000 linhas...
Processando merge chunk ‚Üí 200000 linhas...
Processando merge chunk ‚Üí 200000 linhas...
Processando merge chunk ‚Üí 200000 linhas...
Processando merge chunk ‚Üí 200000 linhas...
Processando merge chunk ‚Üí 200000 linhas...
Processando merge chunk ‚Üí 200000 linhas...
Processando merge chunk ‚Üí 200000 linhas...
Processando merge chunk ‚Üí 200000 linhas...
Processando merge chunk ‚Üí 200000 linhas...
Processando merge chunk ‚Üí 200000 linhas...
Processando merge chunk ‚Üí 200000 linhas...
Processando merge chunk ‚Üí 200000 linhas...


  for chunk in pd.read_csv(TEMP_FILE, chunksize=CHUNK_SIZE):


Processando merge chunk ‚Üí 200000 linhas...
Processando merge chunk ‚Üí 200000 linhas...
Processando merge chunk ‚Üí 200000 linhas...
Processando merge chunk ‚Üí 200000 linhas...


  for chunk in pd.read_csv(TEMP_FILE, chunksize=CHUNK_SIZE):


Processando merge chunk ‚Üí 200000 linhas...
Processando merge chunk ‚Üí 200000 linhas...
Processando merge chunk ‚Üí 200000 linhas...
Processando merge chunk ‚Üí 200000 linhas...
Processando merge chunk ‚Üí 200000 linhas...
Processando merge chunk ‚Üí 200000 linhas...
Processando merge chunk ‚Üí 200000 linhas...
Processando merge chunk ‚Üí 200000 linhas...
Processando merge chunk ‚Üí 200000 linhas...
Processando merge chunk ‚Üí 200000 linhas...
Processando merge chunk ‚Üí 200000 linhas...
Processando merge chunk ‚Üí 200000 linhas...
Processando merge chunk ‚Üí 200000 linhas...
Processando merge chunk ‚Üí 200000 linhas...
Processando merge chunk ‚Üí 73941 linhas...
=== MERGE EM CHUNKS CONCLU√çDO ===


  final_df = pd.read_csv(MERGED_FILE)



=== RESULTADO FINAL ===
Shape final: (17765412, 9)
    ANO  MES EMPRESA ORIGEM DESTINO  TARIFA  ASSENTOS ORIGEM.1       DESTINO.1
0  2023    1     AZU   SBAC    SBAR  851,90         2  ARACATI         ARACAJU
1  2023    1     AZU   SBAC    SBFI  734,90         2  ARACATI   FOZ DO IGUA√áU
2  2023    1     AZU   SBAC    SBGL  832,90         1  ARACATI  RIO DE JANEIRO
3  2023    1     AZU   SBAC    SBGR  630,90         4  ARACATI       GUARULHOS
4  2023    1     AZU   SBAC    SBGR  928,90         2  ARACATI       GUARULHOS


In [2]:
# Prepara√ß√£o dos dados para modelagem com otimiza√ß√£o de mem√≥ria
from sklearn.preprocessing import LabelEncoder
import numpy as np

df = final_df  # renomear para facilitar

# Otimizar tipos de dados para reduzir uso de mem√≥ria
df['TARIFA'] = df['TARIFA'].astype(str).str.replace(',', '.').astype('float32')
df['MES'] = df['MES'].astype('int8')
df['ANO'] = df['ANO'].astype('int16')
df['ASSENTOS'] = df['ASSENTOS'].astype('int32')

# Verificar cardinalidade das colunas categ√≥ricas
print("N√∫mero de valores √∫nicos em cada coluna:")
for col in ['EMPRESA', 'ORIGEM', 'DESTINO']:
    print(f"{col}: {df[col].nunique()} valores √∫nicos")

# Vari√°vel alvo
y = df['TARIFA']
X = df[['EMPRESA', 'ORIGEM', 'DESTINO', 'MES', 'ANO']].copy()

# Aplicar Label Encoding para colunas categ√≥ricas
encoders = {}
for col in ['EMPRESA', 'ORIGEM', 'DESTINO']:
    le = LabelEncoder()
    X[col] = le.fit_transform(df[col].astype(str))
    encoders[col] = le
    X[col] = X[col].astype('int32')  # reduzir mem√≥ria

print("\nShape do DataFrame X ap√≥s encoding:", X.shape)
print("\nUso de mem√≥ria otimizado para as features.")


N√∫mero de valores √∫nicos em cada coluna:
EMPRESA: 5 valores √∫nicos
ORIGEM: 170 valores √∫nicos
DESTINO: 169 valores √∫nicos

Shape do DataFrame X ap√≥s encoding: (17765412, 5)

Uso de mem√≥ria otimizado para as features.


In [3]:
from sklearn.model_selection import train_test_split, KFold
from sklearn.metrics import r2_score, mean_squared_error
import numpy as np

# Dividir dados
X_train, X_test, y_train, y_test = train_test_split(
    X, y,
    test_size=0.2,
    random_state=42
)

# K-Fold
kfold = KFold(n_splits=5, shuffle=True, random_state=42)

def evaluate_model(model, X_train, X_test, y_train, y_test):
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    r2 = r2_score(y_test, y_pred)
    rmse = np.sqrt(mean_squared_error(y_test, y_pred))
    return r2, rmse

print("Dados divididos e valida√ß√£o cruzada configurada.")

Dados divididos e valida√ß√£o cruzada configurada.


In [4]:
import lightgbm as lgb
from sklearn.metrics import r2_score, mean_squared_error
import numpy as np

# Par√¢metros otimizados
lgb_params = {
    'objective': 'regression',
    'n_estimators': 200,
    'learning_rate': 0.05,
    'num_leaves': 31,
    'feature_fraction': 0.8,
    'bagging_fraction': 0.8,
    'bagging_freq': 5,
    'random_state': 42,
    'n_jobs': -1,
    'early_stopping_rounds': 20,
    'verbose': -1
}

# Treinar LightGBM
lgb_model = lgb.LGBMRegressor(**lgb_params)

lgb_model.fit(
    X_train, y_train,
    eval_set=[(X_test, y_test)],
    eval_metric='rmse'
)

# Avaliar
y_pred_lgbm = lgb_model.predict(X_test)
r2_lgbm = r2_score(y_test, y_pred_lgbm)
rmse_lgbm = np.sqrt(mean_squared_error(y_test, y_pred_lgbm))

print(f"LightGBM - R¬≤: {r2_lgbm:.4f}, RMSE: {rmse_lgbm:.2f}")

LightGBM - R¬≤: 0.0912, RMSE: 590.08


# Exportando o Modelo e Encoders
Vamos salvar o modelo LightGBM treinado e os encoders necess√°rios para uso posterior na API.

In [5]:
import joblib
import os
import json

model_dir = './model_export2'
os.makedirs(model_dir, exist_ok=True)

# Salvar modelo
model_path = os.path.join(model_dir, 'lightgbm_model.pkl')
joblib.dump(lgb_model, model_path)

# Salvar encoders
encoders_path = os.path.join(model_dir, 'encoders.pkl')
joblib.dump(encoders, encoders_path)

# Salvar informa√ß√µes categ√≥ricas
categorical_info = {
    'empresas': df['EMPRESA'].unique().tolist(),
    'origens': df['ORIGEM'].unique().tolist(),
    'destinos': df['DESTINO'].unique().tolist()
}

info_path = os.path.join(model_dir, 'categorical_info.json')
with open(info_path, 'w', encoding='utf-8') as f:
    json.dump(categorical_info, f, ensure_ascii=False, indent=4)

print("\nModelo e dados auxiliares exportados com sucesso!")
print(f"Modelo salvo em: {model_path}")
print(f"Encoders salvos em: {encoders_path}")
print(f"Informa√ß√µes categ√≥ricas salvas em: {info_path}")


Modelo e dados auxiliares exportados com sucesso!
Modelo salvo em: ./model_export2/lightgbm_model.pkl
Encoders salvos em: ./model_export2/encoders.pkl
Informa√ß√µes categ√≥ricas salvas em: ./model_export2/categorical_info.json


In [None]:
import json
from pathlib import Path

# ============================================
# GERAR HIST√ìRICO DE PRE√áOS POR ROTA
# ============================================

# Verificar colunas esperadas
required_cols = ["ORIGEM", "DESTINO", "TARIFA"]
missing = [c for c in required_cols if c not in final_df.columns]
if missing:
    raise ValueError(f"Colunas ausentes no final_df: {missing}")

print("Gerando hist√≥rico de pre√ßos para todas rotas...")

# Agrupar por rota
grouped = final_df.groupby(["ORIGEM", "DESTINO"])["TARIFA"]

historico = []

for (orig, dest), series in grouped:
    prices = series.dropna().astype(float).tolist()
    if len(prices) == 0:
        continue
    
    historico.append({
        "origin": orig,
        "destination": dest,
        "min_price": float(min(prices)),
        "max_price": float(max(prices)),
        "prices": prices  # caso queira s√≥ min/max, pode remover
    })

# Caminho do backend
output_path = Path(".model_export2/")
output_path.parent.mkdir(parents=True, exist_ok=True)

# Salvar JSON
with open(output_path, "w", encoding="utf-8") as f:
    json.dump(historico, f, ensure_ascii=False, indent=4)

print(f"Hist√≥rico salvo com sucesso em: {output_path}")
print(f"Total de rotas salvas: {len(historico)}")
