# 📈 ASTP – Projeto Final
## Previsão de atrasos e cancelamentos de voos nos Estados Unidos, com base em fatores meteorológicos

### 👥 Grupo XX
- **Pedro Fonte Santa**, nº 105306  
- **Rafael Alexandre Dias Andorinha**, nº 131000  
- **Vasco Marques**, nº [Número de Aluno]  

---

📅 **Data de entrega:** 19 de maio de 2025  

**Objetivo deste Notebook**: Este notebook corresponde à limpeza do dataset do **Kaggle** de Previsão de estados de Voos no EUA.

---

### 🗂️ Datasets:
- [Previsão de estados de Voos (Kaggle)](https://www.kaggle.com/datasets/robikscube/flight-delay-dataset-20182022/data?select=raw)  
- [Eventos Climáticos nos EUA (Kaggle)](https://www.kaggle.com/datasets/sobhanmoosavi/us-weather-events/data)


In [1]:
import pandas as pd
from pathlib import Path

### Limpeza do dataset Original

> Vai ser feito usando os ficherios parquet para melhorar a performance de leitura e processamento

In [7]:
base_path = Path("../data/parquet") 

> Vamos agregar os dados por dia: Número de voos atrasados (>15 min) e número de voos cancelados por dia

In [None]:
# Lista de anos
anos = ["2018", "2019", "2020", "2021", "2022"]

# Lista para guardar os dataframes de cada ano
dfs = []

for ano in anos:
    file_path = base_path / f"Combined_Flights_{ano}.parquet"
    print(f"Lendo {file_path}")
    
    df = pd.read_parquet(file_path, columns=["FlightDate", "DepDel15", "Cancelled"])
    
    # Agrupamento diário
    df_grouped = df.groupby("FlightDate").agg({
        "DepDel15": "sum",
        "Cancelled": "sum"
    }).rename(columns={"DepDel15": "Atrasos", "Cancelled": "Cancelamentos"})
    
    dfs.append(df_grouped)

# Concatenar todos os anos
series_diarias = pd.concat(dfs)
series_diarias = series_diarias.sort_index()

In [4]:
# Visualização rápida
print(series_diarias.head())
print(series_diarias.tail())

            Atrasos  Cancelamentos
FlightDate                        
2018-01-01   4331.0            129
2018-01-02   4277.0            110
2018-01-03   3576.0            449
2018-01-04   2043.0           3001
2018-01-05   3525.0           1007
            Atrasos  Cancelamentos
FlightDate                        
2022-07-27   4454.0            212
2022-07-28   4830.0            610
2022-07-29   5049.0            294
2022-07-30   4078.0            256
2022-07-31   4907.0            482


> Vamos guardar os dados por dia: Número de voos atrasados (>15 min) e número de voos cancelados, num novo CSV usado no trabalho **flight-delay-dataset-2021-2022_Final.csv**

In [6]:
# Salvar o resultado final
series_diarias.to_csv("../dataset/flight-delay-dataset-2018-2022_Final.csv", index=True)

### Para o relatorio

Este notebook trata do pré-processamento do dataset principal com informações sobre o número diário de **atrasos** e **cancelamentos** de voos entre 2018 e 2022.

As principais operações realizadas foram:
- Dados agregados por dia: Número de voos atrasados (>15 min) e número de voos cancelados por dia
- Conversão da coluna `FlightDate` para o formato datetime e definição como índice temporal.
- Verificação da qualidade dos dados, incluindo valores nulos e consistência temporal.
- Exportação do dataset final tratado com as colunas `Atrasos` e `Cancelamentos`, prontos para integração nos modelos clássicos, de deep learning e nas análises multivariadas (ex: Granger Causality).

Este dataset será utilizado como base para todos os modelos e análises desenvolvidos ao longo do projeto.
