# **Introdução: Análise de Atrasos em Voos nos EUA**

Este projeto tem como objetivo construir um pipeline de dados utilizando tecnologias na nuvem. O pipeline irá envolver a busca, coleta, modelagem, carga e análise dos dados.

A proposta é investigar padrões de atrasos aéreos nos Estados Unidos a partir de um conjunto de dados público disponibilizado pelo Kaggle. 

## **Perguntas de Negócio**
- Quais companhias aéreas apresentam maior proporção de voos com atraso?
- Existe relação entre o horário do voo e a ocorrência de atrasos?       ---- TALVEZ NECESSÁRIO REMOVER
- A distância ou o tempo de voo influenciam o atraso na chegada?
- Quais aeroportos concentram mais atrasos na decolagem e/ou chegada?
- Há diferenças relevantes na frequência de atrasos por dia da semana ou mês?

Essas perguntas guiarão tanto a análise exploratória quanto a modelagem preditiva, contribuindo para a identificação de padrões relevantes que expliquem os atrasos nos voos.

# **Execução em Nuvem**

Nessa seção documentaremos o passo a passo executado em nuvem no Databricks para fazer nossa análise.

## **Coleta de Dados**

Para este projeto, o dataset **2015 Flight Delays and Cancellations** foi carregado diretamente para o **Databricks File System (DBFS)**. O arquivo foi baixado do Kaggle e armazenado no DBFS para ser utilizado nas etapas de processamento e análise

O código abaixo mostra como o arquivo foi carregado para ser utilizado no projeto:

```python
# Carregar o dataset no Databricks
df1 = spark.read.format("csv").option("header", "true").load("dbfs:/FileStore/shared_uploads/szyfman023@gmail.com/flights-1.csv")
df1.show()  # Exibir as primeiras linhas para verificar se o arquivo foi carregado corretamente


![Dados Carregados](Evidence/2_dataset_loaded.png)


## **Modelagem de Dados**

Para garantir que os dados possam ser processados de maneira eficiente no Databricks, convertemos o dataset para o formato **Delta Lake**. O Delta Lake oferece suporte a transações ACID e otimiza as operações de leitura e escrita.

O código abaixo converte o dataset para o formato Delta e o armazena como uma tabela Delta no Databricks:

```python
# Converter o dataframe para Delta Lake
df1.write.format("delta").saveAsTable("flights_delta_table")


![Transformado em Tabela](Evidence/3_transform_into_table.png)

## **ETL (REMOVER)**

Nesta etapa, realizamos a **transformação** dos dados, removendo valores nulos e realizando outras operações necessárias para preparar os dados para análise. Após a transformação, os dados são carregados de volta para o **Delta Lake**.

O código abaixo realiza a transformação ao remover as linhas com valores nulos e carrega os dados limpos em uma tabela Delta:

```python
# Remover linhas com valores nulos
df_cleaned = df1.dropna()

# Carregar os dados transformados no Delta Lake
df_cleaned.write.format("delta").mode("overwrite").saveAsTable("flights_cleaned_table")


![Transformando Dados](Evidence/4_ETL.png)

## **ETL (Transformação e Carga de Dados)**



Nesta etapa, realizamos a **transformação** dos dados, removendo valores nulos e calculando a **proporção de atrasos por companhia aérea**.

O código executado para calcular a proporção de atrasos por companhia aérea pode ser visto no print abaixo, onde a **proporção de voos com atraso** por **companhia aérea** foi calculada.

![Primeira Transformacao](Evidence/5_ETL_1.png)

### **Atrasos por Aeroporto**

Nesta etapa, analisamos os **atrasos por aeroporto**, tanto no **aeroporto de origem** quanto no **aeroporto de destino**. Para isso, filtramos os voos com atraso tanto na **decolagem** quanto na **chegada**, e realizamos uma contagem dos voos atrasados por cada aeroporto.

O código executado para calcular os **atrasos por aeroporto de origem** e **atrasos por aeroporto de destino** pode ser visto abaixo, onde os voos com atraso na **decolagem** são contados para o **aeroporto de origem** e os voos com atraso na **chegada** são contados para o **aeroporto de destino**.


![Segunda Transformacao](Evidence/6_ETL_2.png)

### **Influência da Distância e Tempo de Voo no Atraso**

Nesta etapa, buscamos entender como a **distância** e o **tempo de voo** afetam os **atrasos na chegada** dos voos. Para isso, realizamos o cálculo da **correlação** entre **`DISTANCE`** (distância do voo), **`AIR_TIME`** (tempo de voo) e **`ARRIVAL_DELAY`** (atraso na chegada).

Primeiro, garantimos que as colunas envolvidas na correlação fossem **numéricas**. Para isso, utilizamos a função **`cast("float")`** para converter as colunas **`DISTANCE`**, **`AIR_TIME`** e **`ARRIVAL_DELAY`** para **tipos numéricos**. Depois, calculamos a **correlação** entre essas variáveis.

O código executado para calcular as correlações pode ser visto abaixo:

![Terceira Transformacao](Evidence/7_ETL_3.png)

![Primeira Transformacao](Evidence/5_ETL_1.png)

<!-- ![](Evidence/.png) -->

# Projeto de MVP: Análise de Atrasos de Voos nos EUA (2015)

Este projeto tem como objetivo construir um **pipeline de dados na nuvem** utilizando a plataforma **Databricks Community Edition**. O foco é realizar a **coleta**, **armazenamento**, **modelagem**, **carga** e **análise de dados** relacionados a **atrasos e cancelamentos de voos** nos EUA no ano de 2015.

## Objetivos do Projeto

O objetivo principal do projeto é analisar os fatores que afetam os **atrasos de voos** nos Estados Unidos e determinar as principais **causas** e **impactos** desses atrasos. Para isso, buscamos responder às seguintes perguntas de negócio:

- Quais são os principais fatores que causam atrasos em voos nos EUA?
- Existe uma correlação entre o clima e o atraso dos voos?
- Quais aeroportos têm a maior taxa de cancelamentos de voos?

## Estrutura do Notebook

Este notebook está estruturado da seguinte forma:

1. **Coleta de Dados**: O dataset utilizado é o **"2015 Flight Delays and Cancellations"**, obtido do **Kaggle** e carregado para o **Databricks File System (DBFS)**. O arquivo será utilizado para análise.
   
2. **Modelagem de Dados**: Utilizaremos o **Delta Lake** como modelo de dados, o que permitirá a manipulação eficiente dos dados em Databricks.
   
3. **ETL**: A transformação dos dados será realizada em uma pipeline **ETL** simples, onde dados serão limpos e preparados para análise.
   
4. **Análise de Dados**: Utilizaremos ferramentas como **Pandas**, **PySpark**, **Matplotlib** e **Seaborn** para realizar a análise exploratória dos dados e responder às perguntas definidas.

5. **Conclusão**: Discussão sobre os resultados obtidos e próximos passos para melhorar a análise de dados.

## Ferramentas Utilizadas

- **Databricks Community Edition**: Plataforma de nuvem utilizada para todas as etapas do projeto.
- **Delta Lake**: Solução para armazenamento e processamento eficiente de dados em Databricks.
- **PySpark** e **Pandas**: Ferramentas para processamento e análise de dados.
- **Matplotlib** e **Seaborn**: Bibliotecas para visualização de dados.


## Acesso ao Notebook

O notebook completo está disponível para visualização e execução no **Databricks Community Edition**. Para acessar e executar o código, basta importar o notebook para sua conta no Databricks.

