# Objetivo do Projeto

Neste projeto, construiremos um pipeline de dados completo utilizando o **Databricks Community Edition**. O objetivo principal é coletar, armazenar, modelar, carregar e analisar dados de **atrasos e cancelamentos de voos** dos EUA no ano de 2015.

**Perguntas do Projeto:**
- Quais são os principais fatores que causam atrasos em voos nos EUA?
- Existe uma correlação entre o clima e o atraso dos voos?
- Quais aeroportos têm maior taxa de cancelamentos de voos?

O projeto será realizado totalmente na nuvem utilizando o **Databricks** como plataforma de processamento de dados.


# Coleta de Dados

Para este projeto, utilizamos o dataset **2015 Flight Delays and Cancellations**, que foi obtido do **Kaggle**. O arquivo foi carregado diretamente para o **Databricks File System (DBFS)**.

O processo de coleta de dados foi realizado da seguinte forma:
1. O dataset foi baixado do Kaggle.
2. O arquivo foi carregado para o **DBFS** para armazenamento e processamento.

Aqui está a evidência de que o dataset foi carregado corretamente para o DBFS:

![Arquivo carregado no DBFS](link_da_imagem_screenshot)

**Código utilizado para carregar o dataset no DBFS**:
```python
# Carregar o dataset para o DBFS
dbutils.fs.cp("file:/local_path_to_file/2015_Flight_Delays.csv", "dbfs:/mnt/your_mount_point/2015_Flight_Delays.csv")



### **3. Modelagem de Dados com Delta Lake**  
**Markdown**:

```markdown
# Modelagem de Dados com Delta Lake

Neste projeto, utilizaremos o **Delta Lake**, que é uma solução ideal para trabalhar com dados no **Databricks**. O Delta Lake nos permite realizar operações de leitura e escrita eficientes, garantindo a integridade dos dados durante as transformações.

Foi criado um modelo de dados no estilo **Data Lake**. Para isso, seguimos os seguintes passos:
1. Criamos tabelas Delta para o dataset de voos.
2. Definimos o **Catálogo de Dados**, com a descrição detalhada dos dados, seus domínios e a linhagem dos dados.

**Código utilizado para criar a tabela Delta**:
```python
# Carregar dados para Delta Lake
flight_df = spark.read.csv("dbfs:/mnt/your_mount_point/2015_Flight_Delays.csv", header=True, inferSchema=True)
flight_df.write.format("delta").saveAsTable("flights_delta_table")



### **4. Carga de Dados e ETL (Transformação e Carregamento)**  
**Markdown**:

```markdown
# Carga de Dados e ETL

Para o carregamento e transformação dos dados, criamos uma pipeline **ETL** simples no Databricks. As etapas incluem:
1. **Extração**: Leitura do dataset armazenado no DBFS.
2. **Transformação**: Limpeza e agregação dos dados para análise.
3. **Carregamento**: Armazenamento dos dados transformados em formato **Delta**.

**Código utilizado para ETL**:
```python
# Exemplo de transformação simples
cleaned_flight_df = flight_df.dropna()  # Remover linhas com valores nulos

# Carregar dados transformados para o Delta Lake
cleaned_flight_df.write.format("delta").mode("overwrite").saveAsTable("flights_cleaned_table")



### **5. Análise de Dados e Resposta às Perguntas**  
**Markdown**:

```markdown
# Análise de Dados

Após a transformação dos dados, realizamos a análise exploratória para responder às perguntas definidas no início do projeto. Utilizamos **Pandas** e **PySpark** para as análises e **Matplotlib** e **Seaborn** para gerar visualizações.

**Exemplo de código de análise de dados**:
```python
# Análise de correlação entre atraso e clima
delay_weather_corr = cleaned_flight_df.corr("ArrivalDelay", "Temperature")
print(f"Correlação entre atraso e temperatura: {delay_weather_corr}")



### **6. Conclusão e Autoavaliação**  
**Markdown**:

```markdown
# Conclusão e Autoavaliação

Ao final do projeto, conseguimos responder às perguntas definidas inicialmente. Utilizamos as ferramentas de nuvem recomendadas (Databricks) para todas as etapas, garantindo a integração e processamento dos dados na nuvem.

**Dificuldades encontradas**:
- Um dos principais desafios foi garantir que os dados fossem carregados corretamente para o DBFS e que as transformações fossem realizadas de maneira eficiente no Databricks.

**Trabalhos futuros**:
- Um possível aprimoramento seria incluir mais fontes de dados, como dados sobre o clima em tempo real, para melhorar a precisão das análises.

---

Este trabalho foi realizado totalmente na nuvem, utilizando **Databricks** para garantir o uso correto das tecnologias de nuvem, atendendo aos critérios de avaliação.
