In [1]:
import requests
import os
import time
from datetime import datetime

# --- CONFIGURA√á√ïES ---
ANO_INICIAL = 2015
PASTA_DESTINO = "DataSets"
BASE_URL = "https://sistemas.anac.gov.br/dadosabertos/Voos%20e%20opera%C3%A7%C3%B5es%20a%C3%A9reas/Voo%20Regular%20Ativo%20%28VRA%29"

# Mapeamento exigido pela estrutura da ANAC
MAPA_MESES = {
    1: "01 - Janeiro", 2: "02 - Fevereiro", 3: "03 - Mar√ßo",
    4: "04 - Abril", 5: "05 - Maio", 6: "06 - Junho",
    7: "07 - Julho", 8: "08 - Agosto", 9: "09 - Setembro",
    10: "10 - Outubro", 11: "11 - Novembro", 12: "12 - Dezembro"
}

# Data atual
hoje = datetime.today()
ANO_ATUAL = hoje.year
MES_ATUAL = hoje.month

# Cria pasta destino
os.makedirs(PASTA_DESTINO, exist_ok=True)

print("üöÄ Iniciando Crawler ANAC (VRA)")
print(f"üìÖ Per√≠odo: {ANO_INICIAL} at√© {ANO_ATUAL}/{MES_ATUAL:02d}")
print(f"üìÇ Destino: {PASTA_DESTINO}\n")

# Loop principal
for ano in range(ANO_INICIAL, ANO_ATUAL + 1):

    # Define at√© que m√™s ir no ano atual
    ultimo_mes = MES_ATUAL if ano == ANO_ATUAL else 12

    for mes_num in range(1, ultimo_mes + 1):

        mes_pasta = MAPA_MESES[mes_num]

        # Padr√£o observado da ANAC (sem zero √† esquerda no m√™s)
        nome_arquivo = f"VRA_{ano}{mes_num}.csv"

        url = f"{BASE_URL}/{ano}/{mes_pasta}/{nome_arquivo}"
        caminho_local = os.path.join(PASTA_DESTINO, nome_arquivo)

        # Evita download duplicado
        if os.path.exists(caminho_local):
            print(f"‚è≠Ô∏è  J√° existe: {nome_arquivo}")
            continue

        print(f"‚¨áÔ∏è  Baixando {nome_arquivo} ... ", end="")

        try:
            response = requests.get(
                url,
                stream=True,
                verify=False,
                timeout=30
            )

            if response.status_code == 200:
                with open(caminho_local, "wb") as f:
                    for chunk in response.iter_content(chunk_size=8192):
                        if chunk:
                            f.write(chunk)
                print("‚úÖ OK")

            elif response.status_code == 404:
                print("‚ö†Ô∏è  N√£o dispon√≠vel (normal)")

            else:
                print(f"‚ùå HTTP {response.status_code}")

        except Exception as e:
            print(f"‚ùå Erro: {e}")

        # Evita sobrecarregar o servidor
        time.sleep(1)

print("\nüèÅ Download finalizado.")


üöÄ Iniciando Crawler ANAC (VRA)
üìÖ Per√≠odo: 2015 at√© 2026/01
üìÇ Destino: DataSets

‚¨áÔ∏è  Baixando VRA_20151.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20152.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20153.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20154.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20155.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20156.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20157.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20158.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20159.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_201510.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_201511.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_201512.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20161.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20162.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20163.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20164.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20165.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20166.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20167.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20168.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20169.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_201610.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_201611.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_201612.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20171.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20172.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20173.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20174.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20175.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20176.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20177.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20178.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20179.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_201710.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_201711.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_201712.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20181.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20182.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20183.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20184.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20185.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20186.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20187.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20188.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20189.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_201810.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_201811.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_201812.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20191.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20192.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20193.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20194.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20195.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20196.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20197.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20198.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20199.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_201910.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_201911.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_201912.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20201.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20202.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20203.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20204.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20205.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20206.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20207.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20208.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20209.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_202010.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_202011.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_202012.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20211.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20212.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20213.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20214.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20215.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20216.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20217.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20218.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20219.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_202110.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_202111.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_202112.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20221.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20222.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20223.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20224.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20225.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20226.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20227.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20228.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20229.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_202210.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_202211.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_202212.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20231.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20232.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20233.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20234.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20235.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20236.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20237.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20238.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20239.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_202310.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_202311.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_202312.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20241.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20242.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20243.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20244.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20245.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20246.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20247.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20248.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20249.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_202410.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_202411.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_202412.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20251.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20252.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20253.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20254.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20255.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20256.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20257.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20258.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_20259.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_202510.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_202511.csv ... 



‚úÖ OK
‚¨áÔ∏è  Baixando VRA_202512.csv ... ‚ö†Ô∏è  N√£o dispon√≠vel (normal)




‚¨áÔ∏è  Baixando VRA_20261.csv ... ‚ö†Ô∏è  N√£o dispon√≠vel (normal)





üèÅ Download finalizado.


In [2]:
import pandas as pd
import glob

arquivos_csv = glob.glob("./DataSets/*.csv")

lista_df = []

for arquivo in arquivos_csv:
    df_temp = pd.read_csv(
        arquivo,
        sep=";",
        skiprows=1  # üëà ignora "Atualizado em: ..."
    )
    lista_df.append(df_temp)

df = pd.concat(lista_df, ignore_index=True)

print(df.head())


  df_temp = pd.read_csv(
  df_temp = pd.read_csv(
  df_temp = pd.read_csv(
  df_temp = pd.read_csv(
  df_temp = pd.read_csv(
  df_temp = pd.read_csv(
  df_temp = pd.read_csv(
  df_temp = pd.read_csv(
  df_temp = pd.read_csv(
  df_temp = pd.read_csv(
  df_temp = pd.read_csv(
  df_temp = pd.read_csv(
  df_temp = pd.read_csv(
  df_temp = pd.read_csv(
  df_temp = pd.read_csv(
  df_temp = pd.read_csv(
  df_temp = pd.read_csv(
  df_temp = pd.read_csv(
  df_temp = pd.read_csv(
  df_temp = pd.read_csv(
  df_temp = pd.read_csv(
  df_temp = pd.read_csv(
  df_temp = pd.read_csv(
  df_temp = pd.read_csv(
  df_temp = pd.read_csv(
  df_temp = pd.read_csv(
  df_temp = pd.read_csv(
  df_temp = pd.read_csv(
  df_temp = pd.read_csv(
  df_temp = pd.read_csv(
  df_temp = pd.read_csv(
  df_temp = pd.read_csv(
  df_temp = pd.read_csv(
  df_temp = pd.read_csv(


  ICAO Empresa A√©rea N√∫mero Voo C√≥digo Autoriza√ß√£o (DI) C√≥digo Tipo Linha  \
0                TAM       3255                       0                 E   
1                TAM       3261                       0                 N   
2                TAM       3263                       0                 N   
3                TAM       3264                       0                 N   
4                DLH        500                       0                 I   

  ICAO Aer√≥dromo Origem ICAO Aer√≥dromo Destino  Partida Prevista Partida Real  \
0                  SBUL                   SBSP  01/09/2016 06:05          NaN   
1                  SBBR                   SBRF  01/09/2016 20:15          NaN   
2                  SBCF                   SBSP  01/09/2016 10:25          NaN   
3                  SBSP                   SBCF  01/09/2016 17:40          NaN   
4                  EDDF                   SBGL  01/09/2016 17:15          NaN   

   Chegada Prevista Chegada Real Situa√ß√£

In [3]:
import pandas as pd
from sqlalchemy import create_engine
from datetime import datetime

# 1. CONFIGURA√á√ÉO DO BANCO DE DADOS (Seus Dados Reais)
# IP 172.17.0.1 √© o Gateway do Docker para acessar o MySQL do Host (aaPanel)
DB_USER = "portifolio"
DB_PASS = "L8WWJGdhDX6nJjEP"
DB_HOST = "172.17.0.1"
DB_PORT = "3306"
DB_NAME = "portifolio"

STR_CONEXAO = f"mysql+mysqlconnector://{DB_USER}:{DB_PASS}@{DB_HOST}:{DB_PORT}/{DB_NAME}"

# 2. PREPARA√á√ÉO DO DATAFRAME
# Assumindo que df_VRA_20251 j√° foi carregado. Se n√£o, descomente a linha abaixo:
# df_VRA_20251 = pd.read_csv("DataSets/VRA_20251.csv", sep=';', skiprows=1, encoding='latin-1')

# Criamos uma c√≥pia para n√£o bagun√ßar o original durante o tratamento
df_envio = df.copy()

# Mapeamento: De (CSV) -> Para (Banco MySQL)
mapa_colunas = {
    'ICAO Empresa A√©rea': 'icao_empresa_aerea',
    'N√∫mero Voo': 'numero_voo',
    'C√≥digo Autoriza√ß√£o (DI)': 'codigo_autorizacao_di',
    'C√≥digo Tipo Linha': 'codigo_tipo_linha',
    'ICAO Aer√≥dromo Origem': 'icao_aerodromo_origem',
    'ICAO Aer√≥dromo Destino': 'icao_aerodromo_destino',
    'Partida Prevista': 'partida_prevista',
    'Partida Real': 'partida_real',
    'Chegada Prevista': 'chegada_prevista',
    'Chegada Real': 'chegada_real',
    'Situa√ß√£o Voo': 'situacao_voo',
    'C√≥digo Justificativa': 'codigo_justificativa'
}

# Renomeia as colunas
df_envio.rename(columns=mapa_colunas, inplace=True)

# 3. TRATAMENTO DE DADOS (Engenharia)
# Converte colunas de data para o formato datetime do Python (que o SQL entende)
cols_data = ['partida_prevista', 'partida_real', 'chegada_prevista', 'chegada_real']
for col in cols_data:
    df_envio[col] = pd.to_datetime(df_envio[col], errors='coerce')

# Adiciona as colunas de controle exigidas pela sua tabela
df_envio['arquivo_origem'] = 'VRA_20251.csv'
df_envio['data_carga'] = datetime.now()

# Remove colunas que n√£o existem no banco (se houver alguma extra no CSV)
# e garante que n√£o vamos enviar o 'id' (pois √© Auto Increment)
cols_finais = list(mapa_colunas.values()) + ['arquivo_origem', 'data_carga']
df_envio = df_envio[cols_finais]

# 4. ENVIO PARA O MYSQL
print(f"üöÄ Iniciando carga de {len(df_envio)} registros para o banco '{DB_NAME}'...")

try:
    engine = create_engine(STR_CONEXAO)
    
    with engine.connect() as conn:
        # if_exists='append': Adiciona os dados sem apagar a tabela existente
        # index=False: N√£o envia o √≠ndice do Pandas (0, 1, 2...) como coluna
        # chunksize=1000: Envia de 1000 em 1000 para n√£o travar a mem√≥ria
        df_envio.to_sql(
            name='voos_vra', 
            con=engine, 
            if_exists='append', 
            index=False, 
            chunksize=1000
        )
        print("‚úÖ SUCESSO! Dados carregados na tabela 'voos_vra'.")

except Exception as e:
    print(f"‚ùå ERRO NA CARGA: {e}")

üöÄ Iniciando carga de 10874933 registros para o banco 'portifolio'...
‚úÖ SUCESSO! Dados carregados na tabela 'voos_vra'.
