# **Introdução: Análise de Atrasos em Voos nos EUA**

Neste projeto, vou analisar os **atrasos de voos** nos Estados Unidos, utilizando dados provenientes do **Kaggle**. O conjunto de dados original contém informações sobre os voos, incluindo dados sobre **atrasos de chegada** e **decolagem**, **companhias aéreas**, **aeroportos de origem e destino**, e **informações sobre o voo**.

A proposta é construir um pipeline de dados utilizando tecnologias na nuvem. O pipeline irá envolver a busca, coleta, modelagem, carga e análise dos dados.

### **Fontes dos Dados**:
Os dados utilizados neste projeto foram extraídos de Kaggle e incluem os seguintes arquivos:
- **`flights.csv`**: Contém informações sobre os voos, incluindo os atrasos.
- **`airlines.csv`**: Contém informações sobre as companhias aéreas.
- **`airports.csv`**: Contém informações sobre os aeroportos de origem e destino.

Esses dados foram carregados no **Databricks File System (DBFS)** e foram processados utilizando a plataforma Databricks para realizar **transformações e análises**.

### **Objetivo**:
O objetivo deste projeto é realizar uma análise exploratória sobre os **atrasos de voos**, utilizando os dados das três tabelas mencionadas.

## **Perguntas de Negócio**
- Quais companhias aéreas apresentam maior proporção de voos com atraso?
- Qual é o percentual de voos cancelados por companhia aérea?
- A distância ou o tempo de voo influenciam o atraso na chegada?
- Quais aeroportos concentram mais atrasos na decolagem e/ou chegada?

Essas perguntas guiarão tanto a análise exploratória quanto a modelagem preditiva, contribuindo para a identificação de padrões relevantes que expliquem os atrasos nos voos.

# **Execução em Nuvem**

Nessa seção documentarei o passo a passo executado em nuvem no Databricks para fazer a análise.

## **Coleta de Dados**

Para este projeto, o dataset **2015 Flight Delays and Cancellations** foi carregado diretamente para o **Databricks File System (DBFS)**. O arquivo foi baixado do Kaggle e armazenado no DBFS para ser utilizado nas etapas de processamento e análise.

### **Tabela Fato**

O código abaixo mostra como a **Tabela Fato**, o arquivo `flights-1.csv` foi carregado para ser utilizado no projeto.

![Dados Carregados](Evidence/2_dataset_loaded.png)


### **Tabelas Dimensão**

O código abaixo mostra como as **Tabelas Dimensão**, os arquivos`airports-1.csv` e `airlines-1.csv` foram carregadas para serem utilizadas no projeto.

![Data Loaded](Evidence/2_dimension_tables_loaded.png)

## **ETL (Extração, Transformação e Carga de Dados)**

Na seção de ETL, realizei as transformações dos dados para prepará-los para a análise. Comecei com a limpeza e a junção das tabelas de aeroportos e companhias aéreas com a Tabela Fato. A seguir, apliquei as transformações necessárias para responder às perguntas de negócio, como calcular a proporção de voos com atraso por companhia aérea, os atrasos por aeroporto, e a influência da distância e do tempo de voo nos atrasos.



### **Limpeza dos dados e junção das tabelas**

Iniciei com a limpeza dos dados, removendo espaços em branco das colunas de junção, e então preparei as tabelas dimensionais. Realizei a união entre as tabelas de aeroportos e companhias aéreas, e a Tabela Fato, conforme os critérios definidos.

O código a seguir faz a limpeza e a junção das tabelas de aeroportos e companhias aéreas com a Tabela Fato.

![limpeza](Evidence/limpeza.png)

### **Calculando Atrasos por companhia aérea**

O código executado para calcular a proporção de atrasos por companhia aérea pode ser visto no print abaixo, onde a **proporção de voos com atraso** por **companhia aérea** foi calculada.

![atraso_companhia](Evidence/atraso_companhia.png)

### **Atrasos por Aeroporto**

Nesta etapa, analisei os **atrasos por aeroporto**, tanto no **aeroporto de origem** quanto no **aeroporto de destino**. Para isso, filtrei os voos com atraso tanto na **decolagem** quanto na **chegada**, e realizei uma contagem dos voos atrasados por cada aeroporto.

O código executado para calcular os **atrasos por aeroporto de origem** e **atrasos por aeroporto de destino** pode ser visto abaixo, onde os voos com atraso na **decolagem** são contados para o **aeroporto de origem** e os voos com atraso na **chegada** são contados para o **aeroporto de destino**.


![atraso_aeroporto](Evidence/atraso_aeroporto.png)

### **Influência da Distância e Tempo de Voo no Atraso**

Nesta etapa, buscamos entender como a **distância** e o **tempo de voo** afetam os **atrasos na chegada** dos voos. Para isso, realizei o cálculo da **correlação** entre **`DISTANCE`** (distância do voo), **`AIR_TIME`** (tempo de voo) e **`ARRIVAL_DELAY`** (atraso na chegada).

Primeiro, garanti que as colunas envolvidas na correlação fossem **numéricas**. Para isso, utilizei a função **`cast("float")`** para converter as colunas **`DISTANCE`**, **`AIR_TIME`** e **`ARRIVAL_DELAY`** para **tipos numéricos**. Depois, calculamos a **correlação** entre essas variáveis.

O código executado para calcular as correlações pode ser visto abaixo.

![influencia](Evidence/influencia.png)

### **Percentual de Voos Cancelados por Companhia Aérea**

Nesta etapa, calculei o **percentual de voos cancelados** por **companhia aérea**. Para isso, primeiro filtrei os voos **cancelados** e contei o número de voos cancelados por **companhia aérea**. Em seguida, calculei o **percentual de cancelamento** dividindo o número de voos cancelados pelo número total de voos de cada **companhia aérea**.

O código executado para calcular o percentual de voos cancelados por companhia aérea pode ser visto abaixo.

![perentual_companhia](Evidence/percentual_companhia.png)

## **Catálogo de Dados**

O catálogo de dados descreve as colunas, os tipos de dados e os valores possíveis nas tabelas que compõem o Data Lake do projeto. Abaixo estão os detalhes das tabelas e colunas com dados reais extraídos e transformados.



### **Colunas Presentes**


![catalogo1](Evidence/catalogo_1.png)

### **Capturando valores máximos e mínimos**

![catalogo2](Evidence/catalogo_2.png)

### **Exibindo colunas categoricas**

![catalogo3](Evidence/catalogo_3.png)

### **Catálogo de Dados Completo**


| Coluna                      | Tipo de Dados | Descrição                                                                                        | Exemplos                          | Valores Mínimos e Máximos               | Categorias Possíveis                   |
|-----------------------------|---------------|--------------------------------------------------------------------------------------------------|-----------------------------------|------------------------------------------|-----------------------------------------|
| `YEAR`                       | String        | Ano do voo.                                                                                        | 2015                              | Mínimo: 2015, Máximo: 2021               | Não se aplica                           |
| `MONTH`                      | String        | Mês do voo.                                                                                       | 1, 2, 3                           | Mínimo: 1, Máximo: 12                    | Não se aplica                           |
| `DAY`                        | String        | Dia do mês.                                                                                        | 1, 2, 3                           | Mínimo: 1, Máximo: 31                    | Não se aplica                           |
| `DAY_OF_WEEK`                | String        | Dia da semana em formato numérico (1=Domingo, 7=Sábado).                                           | 4                                 | 1 - 7                                    | Não se aplica                           |
| `AIRLINE`                    | String        | Código da companhia aérea.                                                                         | UA, NK, AA, etc.                  | Não aplicável                           | Códigos das companhias aéreas           |
| `FLIGHT_NUMBER`              | String        | Número do voo.                                                                                   | 98, 2336, 840                     | Não aplicável                           | Não se aplica                           |
| `TAIL_NUMBER`                | String        | Número da aeronave.                                                                                | N407AS, N3KUAA                    | Não aplicável                           | Não se aplica                           |
| `ORIGIN_AIRPORT`             | String        | Código do aeroporto de origem.                                                                    | ANC, LAX, SFO                     | Não aplicável                           | Códigos de aeroporto (IATA)            |
| `DESTINATION_AIRPORT`        | String        | Código do aeroporto de destino.                                                                   | SEA, PBI, CLT                     | Não aplicável                           | Códigos de aeroporto (IATA)            |
| `SCHEDULED_DEPARTURE`        | String        | Hora programada de partida.                                                                       | 0005, 0010, 0020                  | Não aplicável                           | Não se aplica                           |
| `DEPARTURE_TIME`             | String        | Hora real de partida.                                                                             | 2354, 0002, 0018                  | Não aplicável                           | Não se aplica                           |
| `DEPARTURE_DELAY`            | String        | Atraso na partida (em minutos).                                                                   | -11, -8, -2                       | Mínimo: -60, Máximo: 1000               | Não se aplica                           |
| `TAXI_OUT`                   | String        | Tempo de táxi até a decolagem (em minutos).                                                       | 1, 99                             | Mínimo: 0, Máximo: 180                  | Não se aplica                           |
| `WHEELS_OFF`                 | String        | Hora em que a aeronave decola.                                                                    | 0015, 0014, 0034                  | Não aplicável                           | Não se aplica                           |
| `SCHEDULED_TIME`             | String        | Tempo programado de voo (em minutos).                                                             | 100, 99, 120                      | Mínimo: 30, Máximo: 1500                | Não se aplica                           |
| `ELAPSED_TIME`               | String        | Tempo total de voo (em minutos).                                                                  | 194, 279, 293                     | Mínimo: 30, Máximo: 1500                | Não se aplica                           |
| `AIR_TIME`                   | Float         | Tempo real de voo (em minutos).                                                                   | 169.0                             | Mínimo: 10, Máximo: 1500                | Não se aplica                           |
| `DISTANCE`                   | Float         | Distância percorrida (em milhas).                                                                  | 1448.0, 2330.0, 2296.0            | Mínimo: 100, Máximo: 3000               | Não se aplica                           |
| `WHEELS_ON`                  | String        | Hora em que a aeronave aterrissa.                                                                 | 0404, 0737, 0800                  | Não aplicável                           | Não se aplica                           |
| `TAXI_IN`                    | String        | Tempo de táxi após a aterrissagem (em minutos).                                                   | 4, 8, 11                          | Mínimo: 0, Máximo: 60                   | Não se aplica                           |
| `SCHEDULED_ARRIVAL`          | String        | Hora programada de chegada.                                                                       | 0430, 0750, 0806                  | Não aplicável                           | Não se aplica                           |
| `ARRIVAL_TIME`               | String        | Hora real de chegada.                                                                             | 0408, 0741, 0811                  | Não aplicável                           | Não se aplica                           |
| `ARRIVAL_DELAY`              | Float         | Atraso na chegada (em minutos).                                                                   | -22.0, -9.0, 5.0                  | Mínimo: -60, Máximo: 1000               | Não se aplica                           |
| `DIVERTED`                   | String        | Indica se o voo foi desviado (0=Não, 1=Sim).                                                      | 0, 1                              | Não aplicável                           | 0, 1                                     |
| `CANCELLED`                  | String        | Indica se o voo foi cancelado (0=Não, 1=Sim).                                                     | 0, 1                              | Não aplicável                           | 0, 1                                     |
| `CANCELLATION_REASON`        | String        | Razão do cancelamento (se aplicável).                                                             | null                              | Não aplicável                           | Não se aplica                           |
| `AIR_SYSTEM_DELAY`           | String        | Atraso devido ao sistema aéreo (em minutos).                                                      | null                              | Mínimo: 0, Máximo: 120                  | Não se aplica                           |
| `SECURITY_DELAY`             | String        | Atraso devido a questões de segurança (em minutos).                                               | null                              | Mínimo: 0, Máximo: 120                  | Não se aplica                           |
| `AIRLINE_DELAY`              | String        | Atraso devido à companhia aérea (em minutos).                                                     | null                              | Mínimo: 0, Máximo: 120                  | Não se aplica                           |
| `LATE_AIRCRAFT_DELAY`        | String        | Atraso devido a aeronave atrasada (em minutos).                                                   | null                              | Mínimo: 0, Máximo: 120                  | Não se aplica                           |
| `WEATHER_DELAY`              | String        | Atraso devido ao clima (em minutos).                                                             | null                              | Mínimo: 0, Máximo: 120                  | Não se aplica                           |
| `ORIGIN_AIRPORT_NAME`        | String        | Nome do aeroporto de origem.                                                                      | Ted Stevens Anchorage, LAX         | Não aplicável                           | Nomes de aeroportos                     |
| `DESTINATION_AIRPORT_NAME`   | String        | Nome do aeroporto de destino.                                                                     | Seattle-Tacoma, Palm Beach Intl    | Não aplicável                           | Nomes de aeroportos                     |
| `AIRLINE_NAME`               | String        | Nome da companhia aérea.                                                                          | Alaska Airlines Inc., American Airlines Inc. | Não aplicável                   | Nomes das companhias aéreas             |

### **Salvamento dos Dados Transformados no Delta Lake**

Após a execução das transformações necessárias (como cálculo de **proporção de atrasos por companhia aérea**, **atrasos por aeroporto**, **percentual de voos cancelados**, etc.), os dados transformados foram **salvos no Delta Lake**.

A etapa de **carga dos dados** é uma parte importante do processo de ETL, garantindo que as transformações realizadas sejam persistidas e possam ser consultadas posteriormente.

## **Modelagem de Dados**

Nessa etapa, iremos estruturar os dados para análise utilizando um **Data Lake**, incorporando tanto a **Tabela Fato** quanto as **Tabelas Dimensão**.

### **Unificando Tabelas**

Nessa etapa, unimos a Tabela Fato com as Tabelas Dimensão para estruturar o modelo de dados. Utilizamos a tabela de voos `flights-1.csv` como nossa Tabela Fato e as tabelas `airports.csv` e `airlines.csv` como Tabelas Dimensão. O objetivo é agregar informações de aeroportos e companhias aéreas aos dados de voos para análise.

As transformações realizadas são:

- A união da Tabela Fato `df1` com a tabela `airports_df`, associando os aeroportos de origem e destino aos voos.
- A união da Tabela Fato `df1` com a tabela `airlines_df`, associando as companhias aéreas aos voos.

### **Conversão para Delta Lake**

Após a integração das tabelas, o próximo passo é converter o DataFrame resultante para o formato Delta. O Delta Lake proporciona suporte a transações ACID, o que melhora o gerenciamento de dados, garantindo consistência e facilitando operações de leitura e escrita.

O código abaixo converte o DataFrame `df1` para o formato Delta e o armazena como uma tabela Delta no Databricks.

![DataLake](Evidence/4_data_lake.png)

### **Verificação da Tabela no Delta Lake**

Após a execução do comando para salvar o DataFrame como uma tabela Delta, a tabela `flights_delta_table` foi criada com sucesso. Para garantir que a tabela foi armazenada corretamente, foi realizada uma consulta para visualizar as primeiras linhas dos dados:


![DataLakeTable](Evidence/5_data_lake_table.png)

<!-- ![](Evidence/.png) -->

# Projeto de MVP: Análise de Atrasos de Voos nos EUA (2015)

Este projeto tem como objetivo construir um **pipeline de dados na nuvem** utilizando a plataforma **Databricks Community Edition**. O foco é realizar a **coleta**, **armazenamento**, **modelagem**, **carga** e **análise de dados** relacionados a **atrasos e cancelamentos de voos** nos EUA no ano de 2015.

## Objetivos do Projeto

O objetivo principal do projeto é analisar os fatores que afetam os **atrasos de voos** nos Estados Unidos e determinar as principais **causas** e **impactos** desses atrasos. Para isso, buscamos responder às seguintes perguntas de negócio:

- Quais são os principais fatores que causam atrasos em voos nos EUA?
- Existe uma correlação entre o clima e o atraso dos voos?
- Quais aeroportos têm a maior taxa de cancelamentos de voos?

## Estrutura do Notebook

Este notebook está estruturado da seguinte forma:

1. **Coleta de Dados**: O dataset utilizado é o **"2015 Flight Delays and Cancellations"**, obtido do **Kaggle** e carregado para o **Databricks File System (DBFS)**. O arquivo será utilizado para análise.
   
2. **Modelagem de Dados**: Utilizaremos o **Delta Lake** como modelo de dados, o que permitirá a manipulação eficiente dos dados em Databricks.
   
3. **ETL**: A transformação dos dados será realizada em uma pipeline **ETL** simples, onde dados serão limpos e preparados para análise.
   
4. **Análise de Dados**: Utilizaremos ferramentas como **Pandas**, **PySpark**, **Matplotlib** e **Seaborn** para realizar a análise exploratória dos dados e responder às perguntas definidas.

5. **Conclusão**: Discussão sobre os resultados obtidos e próximos passos para melhorar a análise de dados.

## Ferramentas Utilizadas

- **Databricks Community Edition**: Plataforma de nuvem utilizada para todas as etapas do projeto.
- **Delta Lake**: Solução para armazenamento e processamento eficiente de dados em Databricks.
- **PySpark** e **Pandas**: Ferramentas para processamento e análise de dados.
- **Matplotlib** e **Seaborn**: Bibliotecas para visualização de dados.


## Acesso ao Notebook

O notebook completo está disponível para visualização e execução no **Databricks Community Edition**. Para acessar e executar o código, basta importar o notebook para sua conta no Databricks.

