# Etapas de Desenvolvimento

## **Etapa 01) Configuração Inicial**

Configure o Apache Airflow usando Docker para criar um ambiente uniforme e controlado. Esta configuração inicial garante consistência nas dependências e facilita o gerenciamento de seu pipeline de dados.

### **Passos Rápidos para Configuração:**

- **Instale o Docker Desktop**: Disponível para [download](https://www.docker.com/products/docker-desktop/) no site oficial do Docker.
- **Organize as Pastas de Dados**: Estruture pastas locais para Bronze, Prata e Ouro para simular as camadas de armazenamento de dados.
- **Configure e Inicie o Airflow com Docker Compose**: Defina o serviço do Airflow no Docker Compose e inicie-o para acessar a interface web em `http://localhost:8080`.

<aside>
💡 

**Dica**: Instale bibliotecas essenciais como **`pandas`** dentro do contêiner do Airflow para a manipulação de dados.

</aside>

## **Etapa 02) Criando o DAG no Airflow**

**Desenvolvimento do DAG:**

- Criar um DAG no Airflow que irá orquestrar todas as operações do pipeline de dados desde o carregamento até a transformação final.
- Definir tarefas sequenciais dentro do DAG para manipulação dos dados em cada camada.

<aside>
💡 

**Dica:** Ao configurar o DAG, mantenha a legibilidade e a manutenibilidade em mente. Nomeie claramente cada tarefa e certifique-se de que as dependências entre as tarefas estão bem definidas para evitar ciclos e erros de execução.

</aside>

## Etapa 03) Processamento e Limpeza de dados

- **Carregar Dados Brutos na Camada Bronze:**
    - Implementar a função `upload_raw_data_to_bronze` para carregar dados brutos nos formatos CSV para a camada Bronze.
- **Limpeza de Dados para a Camada Prata:**
    - Utilizar a função `process_bronze_to_silver` para ler e limpar os dados da camada Bronze:
        - Remover registros com campos nulos (nome, email, data de nascimento).
        - Corrigir formatos de email inválidos. (para ser um email valido é necessário ter o caracter “@”)
        - Calcular a idade dos usuários com base na data de nascimento.

<aside>
💡 

**Dica**: Para as funções de limpeza de dados, considere usar expressões lambda e funções do pandas para eficiência. Por exemplo, ao verificar emails válidos, uma expressão lambda combinada com a função `apply` pode ser muito mais rápida do que um loop tradicional.

</aside>

## **Etapa 04) Transformação e Armazenamento de Dados**

1. **Transformações para a Camada Ouro:**
    - Com a função `process_silver_to_gold`, ler os dados da camada Prata.
    - Executar transformações adicionais:
        - Agregar os dados por faixa etária e status (ativo ou inativo), facilitando análises demográficas e comportamentais.
        - Crie um dataset que mostre o número de usuários por faixa etária (0 a 10, 11 a 20, 21 a 30 anos…) e por status (“active” ou “inactive”)
    - Salvar os dados transformados na camada Ouro, prontos para análise e uso em decisões estratégicas.

<aside>
💡 

**Dica:** Ao realizar operações de agregação como no processamento para a camada Ouro, use métodos otimizados da biblioteca **`pandas`** como **`groupby`** ou `cut` para classificar e agrupar dados. Essas funções são otimizadas internamente para lidar com grandes volumes de dados mais eficientemente do que implementações manuais.

</aside>