# Estrutura Completa do Projeto NYC Yellow Taxi - Databricks

Este projeto implementa um pipeline completo de dados usando Databricks (Unity Catalog, Delta Lake, SQL Warehouse e PySpark), cobrindo todas as etapas de ingestão, transformação, enriquecimento, agregação, modelagem e análise.

## 📝 Descrição do Desafio

**Objetivo:** Criar um pipeline de dados completo para o dataset [NYC Yellow Taxi Trip](https://www.kaggle.com/datasets/elemento/nyc-yellow-taxi-trip-data), usando Databricks e Spark.

O pipeline contempla:
- Ingestão de dados em camadas (Bronze, Silver, Gold)
- Transformações com PySpark
- Armazenamento em Delta Lake
- Criação de tabelas no SQL Warehouse
- Visualizações e análises
- Testes unitários

---

## 📁 Estrutura do Projeto

```
nyc_taxi_databricks_pipeline/
├── notebooks/
│   ├── 01_ingestao_bronze
│   ├── 02_transformacao_silver
│   ├── 03_analytics_gold
│   ├── 04_modelagem_sqlwarehouse
│   ├── 05_analytics_pagamento
│   └── 06_test_trip_duration
├── README.md
```

---

## ✅ Funcionalidades por Notebook

### 01_ingestao_bronze
- Descompactação do dataset
- Leitura dos arquivos `.csv`
- Escrita da camada Bronze como Delta Table

### 02_transformacao_silver
- Conversão de tipos
- Tratamento de valores nulos e duplicados
- Criação de colunas derivadas: `trip_duration_min`, `pickup_hour`, `pickup_month`, `pickup_year`
- Escrita da camada Silver em Delta

### 03_analytics_gold
- Agregações por ano, mês e hora
- Cálculo de duração, distância e valor médio
- Escrita da camada Gold com particionamento

### 04_modelagem_sqlwarehouse
- Criação da tabela `nyc_taxi_gold` no SQL Warehouse usando CTAS
- Particionamento otimizado por ano e mês

### 05_analytics_pagamento
- Análises por tipo de pagamento
- Gráficos com `matplotlib` e `seaborn`
- Legenda explicativa com códigos traduzidos

### 06_test_trip_duration
- Teste unitário simples de enriquecimento de tempo (`trip_duration_min`)

---

## 📊 Exemplo de Visualização

Gráfico de barras exibindo o total de corridas por tipo de pagamento, com legenda traduzida:

- 1 = Cartão de crédito
- 2 = Dinheiro
- 3 = Sem custo
- 4 = Disputa
- 5 = Desconhecido
- 6 = Viagem anulada

---

## 🧪 Validação
- Validação de contagens entre as camadas Bronze → Silver → Gold
- Testes unitários para colunas derivadas
- Verificações SQL para integridade e agregações

---

## 🔒 Segurança e Governança
- Utilização de Unity Catalog (schemas, volumes e tabelas)
- Organização clara por camadas

---

## 🚀 Requisitos Técnicos Atendidos
- ✅ Camadas Bronze, Silver e Gold
- ✅ Transformações com PySpark
- ✅ Agregações com Delta Lake
- ✅ SQL Warehouse com CTAS e particionamento
- ✅ Visualizações com Seaborn
- ✅ Teste unitário
- ✅ Documentação estruturada

---

## 📎 Referências
- [NYC TLC Data Dictionary](https://www.nyc.gov/assets/tlc/downloads/pdf/data_dictionary_trip_records_yellow.pdf)
- [Kaggle - NYC Yellow Taxi Data](https://www.kaggle.com/datasets/elemento/nyc-yellow-taxi-trip-data)

---

## 💬 Observação Final
Este projeto foi construído inteiramente na plataforma **Databricks**, utilizando funcionalidades como notebooks, Delta Lake, Unity Catalog, SQL Warehouse e visualização nativa.

Pronto para ser apresentado ou publicado em repositório GitHub. ✅