# Extração e Consolidação dos Dados VRA (ANAC)

### Origem dos dados e Metadados

https://www.gov.br/anac/pt-br/acesso-a-informacao/dados-abertos/areas-de-atuacao/voos-e-operacoes-aereas/voo-regular-ativo-vra

## Objetivo


Este notebook tem como objetivo realizar a **extração, padronização e consolidação**
dos dados do conjunto **Voo Regular Ativo (VRA)**, disponibilizado pela ANAC,
para uso no projeto de previsão de atrasos em voos.

### Importação das bibliotecas

In [None]:
import pandas as pd
!pip install unidecode
import unidecode



### Função que converte de csv para parquet para todos os meses (Replicável)

In [None]:
def csv_vra_to_parquet(csv_path, parquet_path):
    import pandas as pd
    import unidecode

    # Lê arquivo csv
    df = pd.read_csv(
        csv_path,
        sep=";",
        encoding="utf-8-sig",
        engine="python",
        skiprows=1,
        on_bad_lines="skip"
    )
    #  Padronizar nomes das colunas e tirando possiveis espaços
    df.columns = (
        df.columns
        .str.strip()
        .str.lower()
        .map(unidecode.unidecode)
        .str.replace(" ", "_")
        .str.replace("[^a-z0-9_]", "", regex=True)
    )

    df.to_parquet(parquet_path, index=False)


### Código que converte todos os meses (com criação automática da pasta parquet) - 2023

In [None]:
# ===============================
# Conversão de arquivos VRA CSV → Parquet
# Ano: 2023
# ===============================

from pathlib import Path

# -------------------------------------------------
# 1. Definição dos diretórios
# -------------------------------------------------

# Diretório onde estão os arquivos CSV mensais do VRA (no Google Drive)
input_dir = Path("/content/drive/MyDrive/dados_vra/raw/2023")

# Diretório onde os arquivos Parquet serão salvos
# (criaremos uma subpasta chamada "parquet")
output_dir = input_dir / "parquet"


# -------------------------------------------------
# 2. Criação da pasta de saída (se não existir)
# -------------------------------------------------

# parents=True → cria pastas intermediárias, se necessário
# exist_ok=True → não gera erro se a pasta já existir
output_dir.mkdir(parents=True, exist_ok=True)


# -------------------------------------------------
# 3. Listagem dos arquivos CSV existentes
# -------------------------------------------------

# Busca todos os arquivos com extensão .csv dentro do diretório de entrada
# O sorted garante que os arquivos sejam processados em ordem
csv_files = sorted(input_dir.glob("*.csv"))

# Exibe quantos arquivos CSV foram encontrados
print(f"Encontrados {len(csv_files)} arquivos CSV")


# -------------------------------------------------
# 4. Loop de conversão: CSV → Parquet
# -------------------------------------------------

for csv_path in csv_files:

    # Define o caminho do arquivo parquet correspondente
    # Exemplo:
    # vra_2023_01.csv → parquet/vra_2023_01.parquet
    parquet_path = output_dir / csv_path.with_suffix(".parquet").name

    # Log simples para acompanhar o progresso
    print(f"Convertendo {csv_path.name} → {parquet_path.name}")

    # Chamada da função que faz:
    # - leitura segura do CSV (tratando encoding e erros)
    # - padronização básica
    # - salvamento em formato Parquet
    csv_vra_to_parquet(
        str(csv_path),
        str(parquet_path)
    )


Encontrados 12 arquivos CSV
Convertendo VRA_20231.csv → VRA_20231.parquet
Convertendo VRA_202310.csv → VRA_202310.parquet
Convertendo VRA_202311.csv → VRA_202311.parquet
Convertendo VRA_202312.csv → VRA_202312.parquet
Convertendo VRA_20232.csv → VRA_20232.parquet
Convertendo VRA_20233.csv → VRA_20233.parquet
Convertendo VRA_20234.csv → VRA_20234.parquet
Convertendo VRA_20235.csv → VRA_20235.parquet
Convertendo VRA_20236.csv → VRA_20236.parquet
Convertendo VRA_20237.csv → VRA_20237.parquet
Convertendo VRA_20238.csv → VRA_20238.parquet
Convertendo VRA_20239.csv → VRA_20239.parquet


### Código que converte todos os 12 meses (com criação automática da pasta parquet) - 2024

In [None]:
# ===============================
# Conversão de arquivos VRA CSV → Parquet
# Ano: 2024
# ===============================

from pathlib import Path

# -------------------------------------------------
# 1. Definição dos diretórios
# -------------------------------------------------

# Diretório onde estão os arquivos CSV mensais do VRA (no Google Drive)
input_dir = Path("/content/drive/MyDrive/dados_vra/raw/2024")

# Diretório onde os arquivos Parquet serão salvos
# (criaremos uma subpasta chamada "parquet")
output_dir = input_dir / "parquet"


# -------------------------------------------------
# 2. Criação da pasta de saída (se não existir)
# -------------------------------------------------

# parents=True → cria pastas intermediárias, se necessário
# exist_ok=True → não gera erro se a pasta já existir
output_dir.mkdir(parents=True, exist_ok=True)


# -------------------------------------------------
# 3. Listagem dos arquivos CSV existentes
# -------------------------------------------------

# Busca todos os arquivos com extensão .csv dentro do diretório de entrada
# O sorted garante que os arquivos sejam processados em ordem
csv_files = sorted(input_dir.glob("*.csv"))

# Exibe quantos arquivos CSV foram encontrados
print(f"Encontrados {len(csv_files)} arquivos CSV")


# -------------------------------------------------
# 4. Loop de conversão: CSV → Parquet
# -------------------------------------------------

for csv_path in csv_files:

    # Define o caminho do arquivo parquet correspondente
    # Exemplo:
    # vra_2024_01.csv → parquet/vra_2024_01.parquet
    parquet_path = output_dir / csv_path.with_suffix(".parquet").name

    # Log simples para acompanhar o progresso
    print(f"Convertendo {csv_path.name} → {parquet_path.name}")

    # Chamada da função que faz:
    # - leitura segura do CSV (tratando encoding e erros)
    # - padronização básica
    # - salvamento em formato Parquet
    csv_vra_to_parquet(
        str(csv_path),
        str(parquet_path)
    )


Encontrados 12 arquivos CSV
Convertendo VRA_20241.csv → VRA_20241.parquet
Convertendo VRA_202410.csv → VRA_202410.parquet
Convertendo VRA_202411.csv → VRA_202411.parquet
Convertendo VRA_202412.csv → VRA_202412.parquet
Convertendo VRA_20242.csv → VRA_20242.parquet
Convertendo VRA_20243.csv → VRA_20243.parquet
Convertendo VRA_20244.csv → VRA_20244.parquet
Convertendo VRA_20245.csv → VRA_20245.parquet
Convertendo VRA_20246.csv → VRA_20246.parquet
Convertendo VRA_20247.csv → VRA_20247.parquet
Convertendo VRA_20248.csv → VRA_20248.parquet
Convertendo VRA_20249.csv → VRA_20249.parquet


### Unir os arquivos mensais convertidos em parquets de 2023

In [None]:
#import pandas as pd
#from pathlib import Path

# Diretório onde estão os parquets mensais de 2023
parquet_dir = Path("/content/drive/MyDrive/dados_vra/raw/2023/parquet")

# Arquivo final consolidado
output_path = Path("/content/drive/MyDrive/dados_vra/vra_2023.parquet")

# Lista todos os arquivos parquet do diretório
parquet_files = sorted(parquet_dir.glob("*.parquet"))

print(f"Encontrados {len(parquet_files)} arquivos parquet de 2023")

# Lê e concatena todos
df_vra_2023 = pd.concat(
    [pd.read_parquet(p) for p in parquet_files],
    ignore_index=True
)

print(f"Total de linhas em 2023: {df_vra_2023.shape[0]:,}")

# Salva o parquet anual
df_vra_2023.to_parquet(output_path, index=False)

print(f"Arquivo salvo em: {output_path}")


Encontrados 12 arquivos parquet de 2023
Total de linhas em 2023: 981,191
Arquivo salvo em: /content/drive/MyDrive/dados_vra/vra_2023.parquet


### Unir os arquivos Parquets de 2024

In [None]:
# Diretório onde estão os parquets mensais de 2024
parquet_dir = Path("/content/drive/MyDrive/dados_vra/raw/2024/parquet")

# Arquivo final consolidado
output_path = Path("/content/drive/MyDrive/dados_vra/vra_2024.parquet")

parquet_files = sorted(parquet_dir.glob("*.parquet"))

print(f"Encontrados {len(parquet_files)} arquivos parquet de 2024")

df_vra_2024 = pd.concat(
    [pd.read_parquet(p) for p in parquet_files],
    ignore_index=True
)

print(f"Total de linhas em 2024: {df_vra_2024.shape[0]:,}")

df_vra_2024.to_parquet(output_path, index=False)

print(f"Arquivo salvo em: {output_path}")


Encontrados 12 arquivos parquet de 2024
Total de linhas em 2024: 987,936
Arquivo salvo em: /content/drive/MyDrive/dados_vra/vra_2024.parquet


### Testando leitura do arquivo consolidado 2023 e 2024

In [None]:
df_2023 = pd.read_parquet('/content/drive/MyDrive/dados_vra/vra_2023.parquet')
df_2023.head()

Unnamed: 0,icao_empresa_aerea,numero_voo,codigo_autorizacao_di,codigo_tipo_linha,icao_aerodromo_origem,icao_aerodromo_destino,partida_prevista,partida_real,chegada_prevista,chegada_real,situacao_voo,codigo_justificativa
0,AAL,974,0,I,SBGL,KJFK,2023-01-09 23:00:00,,2023-01-10 09:10:00,,CANCELADO,
1,AAL,974,0,I,SBGL,KJFK,2023-01-12 23:00:00,,2023-01-13 09:10:00,,CANCELADO,
2,AAL,974,2,X,SBGL,KJFK,,2023-01-13 22:59:00,,2023-01-14 08:24:00,REALIZADO,
3,AAL,974,0,I,SBGL,KJFK,2023-01-14 23:00:00,,2023-01-15 09:10:00,,CANCELADO,
4,AAL,974,2,X,SBGL,KJFK,,2023-01-15 22:59:00,,2023-01-16 08:44:00,REALIZADO,


In [None]:
print(f'O Dataset VRA de 2023 possui {df_2023.shape[0]} linhas e {df_2023.shape[1]} colunas')

O Dataset VRA de 2023 possui 981191 linhas e 12 colunas


In [None]:
df_2024 = pd.read_parquet('/content/drive/MyDrive/dados_vra/vra_2024.parquet')
df_2024.head()

Unnamed: 0,icao_empresa_aerea,numero_voo,codigo_autorizacao_di,codigo_tipo_linha,icao_aerodromo_origem,icao_aerodromo_destino,partida_prevista,partida_real,chegada_prevista,chegada_real,situacao_voo,codigo_justificativa
0,ARG,1259,0,I,SBGR,SABE,2024-01-21 23:40:00,2024-01-21 23:34:00,2024-01-22 00:35:00,2024-01-22 02:41:00,REALIZADO,
1,ARG,1259,0,I,SBGR,SABE,2024-01-28 23:40:00,2024-01-28 23:32:00,2024-01-29 00:35:00,2024-01-29 02:20:00,REALIZADO,
2,ARG,1260,0,I,SABE,SBGL,2024-01-01 07:30:00,2024-01-01 07:20:00,2024-01-01 10:30:00,2024-01-01 09:53:00,REALIZADO,
3,ARG,1260,0,I,SABE,SBGL,2024-01-02 07:35:00,2024-01-02 07:45:00,2024-01-02 10:30:00,2024-01-02 10:28:00,REALIZADO,
4,ARG,1260,0,I,SABE,SBGL,2024-01-03 07:30:00,2024-01-03 07:35:00,2024-01-03 10:30:00,2024-01-03 10:14:00,REALIZADO,


In [None]:
print(f'O Dataset VRA de 2024 possui {df_2024.shape[0]} linhas e {df_2024.shape[1]} colunas')

O Dataset VRA de 2024 possui 987936 linhas e 12 colunas


---

# Readme do que foi realizado aqui:

## Fonte dos Dados
- Origem: Portal de Dados Abertos da ANAC
- Conjunto de dados: **Voo Regular Ativo (VRA)**
- Periodicidade: Mensal
- Formato original: CSV

Os arquivos foram baixados mês a mês para os anos de **2023** e **2024**.

---

## Etapas Executadas

1. Upload dos arquivos CSV mensais para o Google Drive
2. Leitura dos arquivos no Google Colab
3. Tratamento de encoding e estrutura dos dados
4. Conversão de cada CSV mensal para o formato **Parquet**
5. Organização dos arquivos por ano
6. Consolidação dos Parquets mensais em um único arquivo anual

---

## Estrutura de Pastas Gerada (Google Drive)

```text
dados_vra/
├── 2023/
│   └── parquet/
│       ├── vra_2023_01.parquet
│       └── ...
├── 2024/
│   └── parquet/
│       ├── vra_2024_01.parquet
│       └── ...
├── vra_2023.parquet
├── vra_2024.parquet


```


---

## Observações Importantes
- Os arquivos consolidados (`vra_2023.parquet` e `vra_2024.parquet`)
  são os **datasets base oficiais** para as próximas etapas:
  - Análise Exploratória (EDA) - (**recomendo fazer outro notebook para isso**)
  - Criação do target de atraso
  - Feature engineering
  - Treinamento do modelo

- O uso do formato **Parquet** foi adotado para:
  - reduzir tamanho dos arquivos
  - melhorar performance de leitura
  - facilitar integração com Python e pipelines futuros

---

## Próximos Passos
- Análise exploratória dos dados consolidados
- Definição da variável target de atraso
- Criação do dataset final para modelagem
