# Projeto PontUau pt.1 - Extração e Consolidação dos Dados de Voo Regular Ativo (VRA) da Agência Nacional de Aviação Civil (ANAC)

## Origem dos dados e Metadados

Site oficial da ANAC: https://www.gov.br/anac/pt-br/acesso-a-informacao/dados-abertos/areas-de-atuacao/voos-e-operacoes-aereas/voo-regular-ativo-vra

## Objetivo do Notebook


Este notebook tem como objetivo realizar a **extração, padronização e consolidação**
dos dados do conjunto **Voo Regular Ativo (VRA)**, disponibilizado pela ANAC,
para uso no projeto de previsão de atrasos em voos.

## Descrição do Notebook

Os arquivos extraídos da base da ANAC serão consolidados neste trabalho como " (`vra_2023.parquet`, `vra_2024.parquet` e `vra_2025.parquet`)" tornando-se os **datasets base** - oficiais - para as próximas etapas do projeto:
  - Análise Exploratória dos Dados (EDA)
  - Criação da variável alvo "voo_atrasado"
  - Engenharia de variáveis (feature engineering)
  - Criação do dataset final próprio para posterior treinamento do modelo

Além disso, vale ressaltar que uso do formato **Parquet** será adotado tanto para reduzir consideravelmente o tamanho dos arquivos, o que melhora a performance de leitura, quanto para facilitar a integração com Python e pipelines futuros

 **Obs: essas próximas etapas do projeto são realizadas nos próximos Notebooks**

## Processo

### Importação das bibliotecas

In [None]:
import pandas as pd
!pip install unidecode
import unidecode

### Função que converte de csv para parquet para todos os meses (Replicável)

In [None]:
def csv_vra_to_parquet(csv_path, parquet_path):
    import pandas as pd
    import unidecode

    # Lê arquivo csv
    df = pd.read_csv(
        csv_path,
        sep=";",
        encoding="utf-8-sig",
        engine="python",
        skiprows=1,
        on_bad_lines="skip"
    )
    #  Padronizar nomes das colunas e tirando possiveis espaços
    df.columns = (
        df.columns
        .str.strip()
        .str.lower()
        .map(unidecode.unidecode)
        .str.replace(" ", "_")
        .str.replace("[^a-z0-9_]", "", regex=True)
    )

    df.to_parquet(parquet_path, index=False)


### Código que converte todos os 12 meses (com criação automática da pasta parquet) - 2023

In [None]:
# ===============================
# Conversão de arquivos VRA CSV → Parquet
# Ano: 2023
# ===============================

from pathlib import Path

# -------------------------------------------------
# 1. Definição dos diretórios
# -------------------------------------------------

# Diretório no dispositivo do criador onde estavam os arquivos CSV mensais do VRA (no Google Drive)
input_dir = Path("/content/drive/MyDrive/dados_vra/raw/2023")

# Diretório onde os arquivos Parquet serão salvos
# (criaremos uma subpasta chamada "parquet")
output_dir = input_dir / "parquet"


# -------------------------------------------------
# 2. Criação da pasta de saída (se não existir)
# -------------------------------------------------

# parents=True → cria pastas intermediárias, se necessário
# exist_ok=True → não gera erro se a pasta já existir
output_dir.mkdir(parents=True, exist_ok=True)


# -------------------------------------------------
# 3. Listagem dos arquivos CSV existentes
# -------------------------------------------------

# Busca todos os arquivos com extensão .csv dentro do diretório de entrada
# O sorted garante que os arquivos sejam processados em ordem
csv_files = sorted(input_dir.glob("*.csv"))

# Exibe quantos arquivos CSV foram encontrados
print(f"Encontrados {len(csv_files)} arquivos CSV")


# -------------------------------------------------
# 4. Loop de conversão: CSV → Parquet
# -------------------------------------------------

for csv_path in csv_files:

    # Define o caminho do arquivo parquet correspondente
    # Exemplo:
    # vra_2023_01.csv → parquet/vra_2023_01.parquet
    parquet_path = output_dir / csv_path.with_suffix(".parquet").name

    # Log simples para acompanhar o progresso
    print(f"Convertendo {csv_path.name} → {parquet_path.name}")

    # Chamada da função que faz:
    # - leitura segura do CSV (tratando encoding e erros)
    # - padronização básica
    # - salvamento em formato Parquet
    csv_vra_to_parquet(
        str(csv_path),
        str(parquet_path)
    )


### Código que converte todos os 12 meses (com criação automática da pasta parquet) - 2024

In [None]:
# ===============================
# Conversão de arquivos VRA CSV → Parquet
# Ano: 2024
# ===============================

from pathlib import Path

# -------------------------------------------------
# 1. Definição dos diretórios
# -------------------------------------------------

# Diretório no dispositivo do criador onde estavam os arquivos CSV mensais do VRA (no Google Drive)
input_dir = Path("/content/drive/MyDrive/dados_vra/raw/2024")

# Diretório onde os arquivos Parquet serão salvos
# (criaremos uma subpasta chamada "parquet")
output_dir = input_dir / "parquet"


# -------------------------------------------------
# 2. Criação da pasta de saída (se não existir)
# -------------------------------------------------

# parents=True → cria pastas intermediárias, se necessário
# exist_ok=True → não gera erro se a pasta já existir
output_dir.mkdir(parents=True, exist_ok=True)


# -------------------------------------------------
# 3. Listagem dos arquivos CSV existentes
# -------------------------------------------------

# Busca todos os arquivos com extensão .csv dentro do diretório de entrada
# O sorted garante que os arquivos sejam processados em ordem
csv_files = sorted(input_dir.glob("*.csv"))

# Exibe quantos arquivos CSV foram encontrados
print(f"Encontrados {len(csv_files)} arquivos CSV")


# -------------------------------------------------
# 4. Loop de conversão: CSV → Parquet
# -------------------------------------------------

for csv_path in csv_files:

    # Define o caminho do arquivo parquet correspondente
    # Exemplo:
    # vra_2024_01.csv → parquet/vra_2024_01.parquet
    parquet_path = output_dir / csv_path.with_suffix(".parquet").name

    # Log simples para acompanhar o progresso
    print(f"Convertendo {csv_path.name} → {parquet_path.name}")

    # Chamada da função que faz:
    # - leitura segura do CSV (tratando encoding e erros)
    # - padronização básica
    # - salvamento em formato Parquet
    csv_vra_to_parquet(
        str(csv_path),
        str(parquet_path)
    )


### Código que converte todos os 11 meses (com criação automática da pasta parquet) - 2025

11 meses porque, neste momento da última atualização do projeto (Janeiro/2026), os dados de Dezembro/2025 ainda não foram disponibilizados

In [None]:
# ===============================
# Conversão de arquivos VRA CSV → Parquet
# Ano: 2025
# ===============================

from pathlib import Path

# -------------------------------------------------
# 1. Definição dos diretórios
# -------------------------------------------------

# Diretório no dispositivo do criador onde estavam os arquivos CSV mensais do VRA (no Google Drive)
input_dir = Path("/content/drive/MyDrive/dados_vra/raw/2025")

# Diretório onde os arquivos Parquet serão salvos
# (criaremos uma subpasta chamada "parquet")
output_dir = input_dir / "parquet"


# -------------------------------------------------
# 2. Criação da pasta de saída (se não existir)
# -------------------------------------------------

# parents=True → cria pastas intermediárias, se necessário
# exist_ok=True → não gera erro se a pasta já existir
output_dir.mkdir(parents=True, exist_ok=True)


# -------------------------------------------------
# 3. Listagem dos arquivos CSV existentes
# -------------------------------------------------

# Busca todos os arquivos com extensão .csv dentro do diretório de entrada
# O sorted garante que os arquivos sejam processados em ordem
csv_files = sorted(input_dir.glob("*.csv"))

# Exibe quantos arquivos CSV foram encontrados
print(f"Encontrados {len(csv_files)} arquivos CSV")


# -------------------------------------------------
# 4. Loop de conversão: CSV → Parquet
# -------------------------------------------------

for csv_path in csv_files:

    # Define o caminho do arquivo parquet correspondente
    # Exemplo:
    # vra_2025_01.csv → parquet/vra_2025_01.parquet
    parquet_path = output_dir / csv_path.with_suffix(".parquet").name

    # Log simples para acompanhar o progresso
    print(f"Convertendo {csv_path.name} → {parquet_path.name}")

    # Chamada da função que faz:
    # - leitura segura do CSV (tratando encoding e erros)
    # - padronização básica
    # - salvamento em formato Parquet
    csv_vra_to_parquet(
        str(csv_path),
        str(parquet_path)
    )


### Unir os arquivos mensais convertidos em parquets de 2023

In [None]:
#import pandas as pd
#from pathlib import Path

# Diretório onde estão os parquets mensais de 2023
parquet_dir = Path("/content/drive/MyDrive/dados_vra/raw/2023/parquet")

# Arquivo final consolidado
output_path = Path("/content/drive/MyDrive/dados_vra/vra_2023.parquet")

# Lista todos os arquivos parquet do diretório
parquet_files = sorted(parquet_dir.glob("*.parquet"))

print(f"Encontrados {len(parquet_files)} arquivos parquet de 2023")

# Lê e concatena todos
df_vra_2023 = pd.concat(
    [pd.read_parquet(p) for p in parquet_files],
    ignore_index=True
)

print(f"Total de linhas em 2023: {df_vra_2023.shape[0]:,}")

# Salva o parquet anual
df_vra_2023.to_parquet(output_path, index=False)

print(f"Arquivo salvo em: {output_path}")


### Unir os arquivos mensais convertidos em parquets de 2024

In [None]:
# Diretório onde estão os parquets mensais de 2024
parquet_dir = Path("/content/drive/MyDrive/dados_vra/raw/2024/parquet")

# Arquivo final consolidado
output_path = Path("/content/drive/MyDrive/dados_vra/vra_2024.parquet")

parquet_files = sorted(parquet_dir.glob("*.parquet"))

print(f"Encontrados {len(parquet_files)} arquivos parquet de 2024")

df_vra_2024 = pd.concat(
    [pd.read_parquet(p) for p in parquet_files],
    ignore_index=True
)

print(f"Total de linhas em 2024: {df_vra_2024.shape[0]:,}")

df_vra_2024.to_parquet(output_path, index=False)

print(f"Arquivo salvo em: {output_path}")


### Unir os arquivos mensais convertidos em parquets de 2025

In [None]:
# Diretório onde estão os parquets mensais de 2025
parquet_dir = Path("/content/drive/MyDrive/dados_vra/raw/2025/parquet")

# Arquivo final consolidado
output_path = Path("/content/drive/MyDrive/dados_vra/vra_2025.parquet")

parquet_files = sorted(parquet_dir.glob("*.parquet"))

print(f"Encontrados {len(parquet_files)} arquivos parquet de 2025")

df_vra_2025 = pd.concat(
    [pd.read_parquet(p) for p in parquet_files],
    ignore_index=True
)

print(f"Total de linhas em 2025: {df_vra_2025.shape[0]:,}")

df_vra_2025.to_parquet(output_path, index=False)

print(f"Arquivo salvo em: {output_path}")


### Testando leitura do arquivo consolidado 2023, 2024 e 2025

In [None]:
df_2023 = pd.read_parquet('/content/drive/MyDrive/dados_vra/vra_2023.parquet')

print(f'O Dataset VRA de 2023 possui {df_2023.shape[0]} linhas e {df_2023.shape[1]} colunas\n\nDemonstração:')

df_2023.head(3)

In [None]:
df_2024 = pd.read_parquet('/content/drive/MyDrive/dados_vra/vra_2024.parquet')

print(f'O Dataset VRA de 2024 possui {df_2024.shape[0]} linhas e {df_2024.shape[1]} colunas\n\nDemonstração:')

df_2024.head(3)

In [None]:
df_2025 = pd.read_parquet('/content/drive/MyDrive/dados_vra/vra_2025.parquet')

print(f'O Dataset VRA de 2025 possui {df_2025.shape[0]} linhas e {df_2025.shape[1]} colunas\n\nDemonstração:')

df_2025.head(3)

---

## README do que foi realizado neste Notebook:

## Fonte dos Dados
- Origem: Portal de Dados Abertos da Agência Nacional de Aviação Civil (ANAC)
- Conjunto de dados: **Voo Regular Ativo (VRA)**
- Periodicidade: Mensal
- Formato original: CSV

Os arquivos foram baixados mês a mês para os anos de **2023**, **2024** e **2025**.

---

## Etapas Executadas

1. Upload dos arquivos CSV mensais para o Google Drive
2. Leitura dos arquivos no Google Colab
3. Tratamento de encoding e estrutura dos dados
4. Conversão de cada CSV mensal para o formato **Parquet**
5. Organização dos arquivos por ano
6. Consolidação dos Parquets mensais em um único arquivo anual

---

## Estrutura de Pastas Gerada (Google Drive)

```text
dados_vra/
├── 2023/
│   └── parquet/
│       ├── vra_2023_01.parquet
│       └── ...
├── 2024/
│   └── parquet/
│       ├── vra_2024_01.parquet
│       └── ...
├── 2025/
│   └── parquet/
│       ├── vra_2025_01.parquet
│       └── ...
├── vra_2023.parquet
├── vra_2024.parquet
├── vra_2025.parquet
```
