# Análise de Atrasos em Voos nos EUA

## Introdução

Este projeto tem como objetivo realizar uma análise exploratória e aplicar técnicas de pré-processamento sobre dados de voos nos Estados Unidos, com foco na identificação de padrões relacionados a atrasos.

O dataset utilizado contém informações de voos domésticos, incluindo dados sobre horários programados e reais, companhias aéreas, origem, destino e tipos de atraso (meteorológico, operacional etc.).

A análise será dividida em três grandes etapas:
1. Definição do problema;
2. Análise exploratória dos dados;
3. Pré-processamento dos dados.


## 1. Definição do Problema

O problema que propomos investigar está relacionado aos **atrasos de voos comerciais** nos Estados Unidos. A partir da análise do dataset, buscamos responder às seguintes questões:

- Quais companhias apresentam maior frequência de atrasos?
- Quais horários e dias concentram mais atrasos?
- Há aeroportos com maior incidência de atrasos?
- Quais variáveis têm maior correlação com o atraso?

### Tipo de problema
Problema de **aprendizado supervisionado**, pois é possível utilizar os dados históricos para prever se um voo terá atraso ou não, ou até estimar a quantidade de minutos de atraso.

### Hipóteses iniciais
- Voos noturnos e em horários de pico têm maior chance de atraso;
- Determinadas companhias e aeroportos são mais propensos a atrasos;
- Atrasos meteorológicos possuem padrões distintos dos atrasos operacionais.

### Restrições
- O dataset será recortado para voos domésticos;
- Foco na explicabilidade e qualidade da análise, não em desempenho preditivo.

### Atributos disponíveis
A descrição completa dos atributos será exibida após o carregamento do dataset.


## 2. Análise de Dados: Estatísticas Descritivas

In [3]:
import pandas as pd

# Substitua pelo seu caminho raw do GitHub após subir o dataset
url = 'https://raw.githubusercontent.com/seu-usuario/seu-repo/main/flight_data.csv'

df = pd.read_csv(url)
df.head()


HTTPError: HTTP Error 404: Not Found

### Informações iniciais sobre os dados
Nesta seção, vamos investigar o tamanho do dataset, tipos de variáveis e possíveis valores ausentes.


In [None]:
df.info()
df.describe()
df.isnull().sum()


## 2.1 Visualizações e Análise Exploratória

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

# Exemplo: distribuição do tempo de atraso na partida
plt.figure(figsize=(10, 5))
sns.histplot(df['departure_delay'], bins=50, kde=True)
plt.title('Distribuição dos Atrasos na Partida')
plt.xlabel('Minutos de Atraso')
plt.ylabel('Frequência')
plt.show()


*Insira aqui comentários sobre o gráfico acima, destacando padrões observados e possíveis anomalias.*


## 3. Pré-processamento dos Dados

In [None]:
# Exemplo de tratamento de valores ausentes
df = df.dropna(subset=['departure_delay'])

# Conversão de datas
df['fl_date'] = pd.to_datetime(df['fl_date'])

# Criação de novas features
df['month'] = df['fl_date'].dt.month
df['day_of_week'] = df['fl_date'].dt.dayofweek


Explique as decisões de tratamento de dados tomadas acima e por que elas são relevantes para a qualidade do modelo ou análise.


## 4. Verificação Pós-Tratamento e Novos Insights

In [None]:
# Repetição da análise de distribuição após limpeza
plt.figure(figsize=(10, 5))
sns.histplot(df['departure_delay'], bins=50, kde=True, color='green')
plt.title('Distribuição dos Atrasos após Pré-processamento')
plt.xlabel('Minutos de Atraso')
plt.ylabel('Frequência')
plt.show()


## 5. Checklist

- [x] Definição do problema
- [x] Tipo de aprendizado
- [x] Hipóteses
- [x] Estatísticas descritivas
- [x] Visualizações com interpretação
- [x] Tratamento de dados
- [x] Justificativas documentadas


## 6. Considerações Finais

A análise realizada permite entender padrões relacionados a atrasos de voos nos EUA. O pré-processamento dos dados possibilitou extrair variáveis mais informativas e preparar a base para futuros modelos preditivos.

Para trabalhos futuros, recomenda-se incorporar dados meteorológicos e fazer uso de técnicas de modelagem supervisionada.
