# **Módulo 1: Introdução à Engenharia de Dados**

## **1.1 O que é Engenharia de Dados ?**

Engenharia de Dados é a área responsável por **construir e manter a infraestrutura** que permite coletar, armazenar, processar e disponibilizar dados de forma eficiente. Pense nela como a "construção de estradas" para os dados: o engenheiro de dados cria os caminhos por onde os dados vão trafegar, garantindo que eles cheguem ao destino certo, no formato certo e no momento certo.

### **Engenharia de Dados vs Ciência de Dados**

#### **Engenharia de Dados**:

- Foca na construção e manutenção da infraestrutura de dados.
- Responsável pela coleta, armazenamento e processamento de grandes volumes de dados.
- Se os dados fossem água, o engenheiro de dados seria responsável por construir canos, reservatórios e sistemas de filtragem para que a água chegue limpa e pronta para uso.

#### **Ciência de Dados**:

- Foca na análise e interpretação dos dados para extrair insights e tomar decisões informadas.
- Utiliza técnicas estatísticas, algoritmos de machine learning e visualização de dados.
- Envolve a criação de modelos preditivos e a realização de experimentos para testar hipóteses.
- Se os dados fossem água, o cientista de dados seria responsável por analisar a qualidade da água, descobrir de onde ela vem e prever se vai faltar no futuro.

### **O papel do Engenheiro de Dados dentro de um time de dados**

O papel do engenheiro de dados dentro de um time de dados é fundamental para garantir que os dados estejam disponíveis, acessíveis e em um formato utilizável para os cientistas de dados e outros stakeholders. As principais responsabilidades incluem:

- **Coleta de Dados**: Coletar dados de diferentes fontes, como APIs, bancos de dados, planilhas, sensores, etc.
- **Armazenamento de Dados**: Implementar processos de validação e limpeza de dados para assegurar a precisão e a integridade dos dados.
- **Armazenamento e gerenciamento de dados**: Escolher e configurar onde os dados serão armazenados (bancos de dados, data lakes, data warehouses).
- **Processamento e Transformação de Dados**: Limpar, organizar e transformar os dados brutos em um formato útil para análise.
- **Criação de Pipelines de Dados**: Desenvolver fluxos automatizados para mover e processar dados entre diferentes sistemas.
- **Garantia de Qualidade dos Dados**: Verificar se os dados estão completos, consistentes e livres de erros.


### **Visão geral do pipeline de dados: Extração, Transformação e Carregamento (ETL)**

#### **Pipeline de Dados**

Um pipeline de dados é um conjunto de processos que move dados de uma fonte para um destino, passando por etapas de coleta, processamento e armazenamento. É como uma "linha de montagem" para dados, onde cada etapa tem um propósito específico.

#### **(ETL) Extração, Transformação e Carregamento**

É um tipo de pipeline de dados que envolve três etapas principais:

1. **Extração (Extract):**

    - Coleta de dados

    - Exemplo: Extrair dados de vendas de um site de e-commerce.

2. **Transformação (Transform):**

    - Processamento dos dados

    - Exemplo: Converter datas para um formato padrão, remover dados duplicados ou calcular valores totais.

3. **Carregamento (Load):**

    - Armazenamento dos dados

    - Exemplo: Carregar os dados de vendas processados em um banco de dados para que os analistas possam acessá-los.

## **1.2 Conceitos Fundamentais**

### **Tipos de dados**

#### **Dados Estruturados**

![Planilha](./imgs/planilha_estruturado.jpeg)

Dados estruturados são aqueles que seguem um formato organizado, como tabelas com linhas e colunas. Eles são armazenados em bancos de dados relacionais, onde cada campo tem um tipo específico (como números, textos ou datas). Eles são comuns em sistemas de gerenciamento de vendas, cadastros de clientes e aplicações que demandam organização.

#### **Dados Semiestruturados**

![JSON vs XML](./imgs/JSON_vs._XML_semiestruturado.png)

Dados semiestruturados não seguem um estrutura lógica como os dados estruturados, mas ainda possuem uma organização parcial, geralmente em forma de registros com campos e valores. Exemplos de dados semiestruturados são arquivos XML e JSON. Eles são comuns em APIs, logs de sistemas e integrações entre aplicações

#### **Dados não estruturados**

![Dados não estruturados](./imgs/livro_nao_estruturado.jpg)

Dados não estruturados são aqueles que não possuem uma organização pré-definida. Eles podem ser textos livres, imagens, vídeos, e-mails, etc.

### **Armazenamento de Dados**

#### **Bancos Relacionais (SQL)**

Bancos relacionais são como "armários organizados" para dados. Eles armazenam informações em tabelas, onde cada linha representa um registro (por exemplo, um cliente) e cada coluna representa uma característica (por exemplo, nome, e-mail, telefone). A linguagem **SQL** (Structured Query Language) é usada para consultar e manipular esses tipos de dados.

- **Exemplos:**
    - **MySQL**: Um dos bancos de dados mais populares, usado em aplicações web e sistemas de gerenciamento.

    - **PostgreSQL**: Conhecido por sua robustez e suporte a recursos avançados, como consultas complexas e transações.

Use bancos relacionais quando precisar de dados bem organizados e consistentes, como em sistemas de cadastro de clientes, vendas ou finanças.

#### **Bancos Não Relacionais (NoSQL)**

Bancos não relacionais são como "caixas flexíveis" para dados. Eles não usam tabelas rígidas como os bancos relacionais, mas permitem armazenar dados de forma mais livre, como documentos (JSON), pares de chave-valor ou até grafos.

- **Exemplos:**
    - **MongoDB:** Armazena dados em formato de documentos (JSON), ideal para aplicações web e mobile.

    - **Redis:** Um banco de dados chave-valor, usado para armazenar dados em memória e acelerar o acesso a informações.

Use bancos não relacionais quando precisar lidar com grandes volumes de dados ou quando a estrutura dos dados muda com frequência, como em aplicações de mensagens ou sistemas de recomendação.



#### **Data Warehouses e Data Lakes**

**Data Warehouses**

Data Warehouses são como "bibliotecas de dados" onde informações históricas são armazenadas para análise. Eles são otimizados para consultas complexas e geração de relatórios.

- **Exemplos:** 
    - **Amazon Redshift:** Um data warehouse na nuvem, usado para análise de grandes volumes de dados.

    - **Google BigQuery:** Outra solução na nuvem, conhecida por sua velocidade e escalabilidade.

Use Data Warehouses quando precisar analisar dados históricos para tomar decisões estratégicas, como relatórios de vendas ou tendências de mercado.

**Data Lakes**

Data Lakes são como "grandes lagos" onde dados brutos de todos os tipos (estruturados, semiestruturados e não estruturados) são armazenados. Eles são mais flexíveis do que os Data Warehouses, mas exigem ferramentas de processamento para análise.
- **Exemplos:**

    - **Amazon S3:** Um serviço de armazenamento na nuvem que pode ser usado como um Data Lake.

    - **Azure Data Lake:** Uma solução da Microsoft para armazenar e processar grandes volumes de dados.

Use Data Lakes quando precisar armazenar grandes volumes de dados brutos, como imagens, vídeos, logs de sistemas ou dados de sensores, para análise futura.

# **Módulo 2: Excel e VBA para Manipulação de Dados**

## **2.1 Manipulação de Dados no Excel**

### **O que é o Excel? Por que usá-lo?**

### **Funções essenciais**

#### **Básicas**

##### **SOMA**

##### **MÉDIA**

##### **SE**

#### **Busca e Referência**

##### **PROCV**

##### **ÍNDICE + CORRESP**

#### **Funções Condicionais e Agregações**

##### **SOMASES**

##### **CONT.SES**

## **2.2 Automação com VBA**

### **O que é o VBA? Por que usá-lo?**

### **Introdução ao VBA e Macros**

### **Criando scripts VBA para manipulação automática de planilhas**

### **Importação e tratamento de dados com VBA**

# **Projeto 1 (Módulos 1 e 2)**

**Objetivo:** Criar um sistema automatizado de análise de dados no Excel

**Habilidades envolvidas:** Organização de dados, automação VBA, conceitos básicos de engenharia de dados. 

**Tarefas:**

- Criar um relatório automatizado de vendas ou despesas a partir de um dataset CSV

- Utilizar PROCV e ÍNDICE + CORRESP para buscar dados

- Criar um script VBA que automatize a limpeza e filtragem dos dados

# **Módulo 3: SQL e Banco de Dados Relacionais**

## **3.1 Fundamentos de SQL** 

### **O que são bancos de dados relacionais?**

### **CRUD**

#### **Create**

#### **Read**

#### **Update**

#### **Delete**

## **3.2 SQL Avançado**

### **Filtros**

#### **WHERE**

### **Ordenação**

#### **ORDER BY**

### **Joins**

#### **INNER JOIN**

#### **LEFT JOIN**

#### **RIGHT JOIN**

#### **FULL JOIN**

### **Funções Agregadas**

#### **SUM**

#### **AVG**

#### **COUNT**

### **Views e Subqueries**

### **Otimização de Queries**

#### **Índices**

#### **Normalização**

# **Módulo 4: Web Scrapping e Extração de Dados**

## **4.1 Introdução ao Web Scrapping**

### **O que é Web Scrapping e quando utilizar essa técnica?**

### **Diferença entre scrapping e APIs**

### **Ferramentas comuns**

#### **BeatifulSoup (Extração de HTML)**

#### **Selenium (Automação de interações)**

## **4.2 Extraindo Dados da Web** 

### **Identificando estruturas HTML e elementos**

### **Fazendo requisições HTTP com requests**

### **Extraindo tabelas e listas de sites**

### **Automação com Selenium para interagir com páginas**

## **4.3 APIs e Consumo de Dados Externos**

### **O que são APIs REST?**

### **Fazendo requisições GET e POST**

### **Manipulando dados JSON e XML**

# **Projeto 2 (Módulos 3 e 4)**

**Objetivo:** Criar um banco de dados populado por dados coletados da web

**Habilidades envolvidas:** SQL, Web Scraping, consumo de APIs

**Tarefas:**

- Criar um banco de dados relacional no PostgreSQL
- Coletar dados de produtos, notícias ou cotações de um site usando Web Scraping
- Inserir os dados no banco via SQL
- Criar queries para análise dos dados coletados

# **Módulo 5: ETL e Pipelines de Dados**

## **5.1 Introdução ao ETL**

### **O que é ETL e sua importância**

### **Diferença entre ETL e ELT**

## **5.2 Construindo um Pipeline de Dados**

### **Extraindo dados de múltiplas fontes**

### **Transformação: limpeza e padronização**

### **Carregamento: armazenando os dados corretamente**

## **5.3 Ferramentas para ETL**

### **Pandas para transformação de dados**

### **Airflow para automação de pipelines**

### **DBT para modelagem e versionamento de dados**

# **Módulo 6: Big Data e Processamento Distribuído**

## **6.1 O que é Big Data**

### **Conceitos de Volume, Velocidade e Variedade**

### **Arquiteturas de processamento distribuído**

### **Introdução ao Hadoop e Spark**

## **6.2 Fundamentos do Spark**

### **Trabalhando com PySpark**

### **Transformações e ações em dados grandes**

### **Uso de DataFrames e RDDs**

# **Projeto 3 (Módulos 5 e 6)**

**Objetivo:** Criar um pipeline de dados automatizado usando ETL

**Habilidades envolvidas:** ETL, Pandas, Spark
  
**Tarefas:**

- Criar um pipeline de ETL que extrai dados de uma API

- Transformar os dados e salvar em um Data Warehouse

- Processar os dados com Spark e gerar relatórios

# **Módulo Extra: Banco de dados NoSQL**

## **Extra 1: Introdução ao NoSQL**

### **O que são bancos de dados NoSQL?**

### **Diferença entre SQL e NoSQL**

#### **Casos de uso**

#### **Vantagens/desvantagens**

### **Principais tipos de NoSQL**

#### **KeyValue**

##### **Redis**

#### **Document**

##### **MongoDB**

#### **Columnar**

##### **Cassandra**

#### **Graph**

##### **Neo4j**

## **Extra 2: Trabalhando com MongoDB**

### **Estrutura de documentos JSON no MongoDB**

### **Operações Básicas**

#### **Inserção**

#### **Consulta**

#### **Atualização**

#### **Remoção**

### **Índices e otimização de consultas**

## **Extra 3: Integração de NoSQL com Python**

### **Conectando o MongoDB ao Python usando pymongo**

### **Inserindo e consultando documentos via script Python**

### **Transformando dados NoSQL para DataFrames Pandas**

# **📌 Projeto Final: Construção de um Pipeline de Dados Completo para Monitoramento de Indicadores Econômicos**

**Objetivo:** Criar um pipeline completo que extrai, transforma, armazena e analisa dados de indicadores econômicos a partir de múltiplas fontes, incluindo Web Scraping, APIs e bancos de dados. O projeto deve utilizar tanto SQL quanto NoSQL, além de técnicas de ETL e processamento distribuído.

**Etapas e Tecnologias Envolvidas**
**1. Extração de Dados (Web Scraping + APIs)**

- Ferramentas: 
    - requests 
    - BeautifulSoup
    -  Selenium
    
- A fazer:
    
    - Coletar dados de inflação, PIB e taxa de câmbio de sites governamentais via Web Scraping.
    - Utilizar APIs financeiras para obter dados históricos de ativos.
    - Armazenar os dados brutos em JSON e CSV.

    📝 Entrega: Criar scripts Python para extrair e armazenar os dados.

**2. Armazenamento e Modelagem de Dados (SQL + NoSQL)**

- Ferramentas: 
    - PostgreSQL
    - MongoDB
    - pymongo

- A fazer:

    - Criar um banco relacional para armazenar séries temporais estruturadas.
    - Utilizar MongoDB para armazenar metadados dos indicadores.
    - Definir índices e otimizar consultas.

    📝 Entrega: Criar e popular tabelas SQL e coleções MongoDB.

**3. Transformação e Enriquecimento dos Dados (ETL com Pandas e Airflow)**
  
- Ferramentas: 
    - Pandas
    - Airflow
    - DBT

- A fazer:

    - Criar um pipeline de ETL que padroniza e enriquece os dados.
    - Normalizar datas e remover inconsistências.
    - Automatizar a atualização diária dos dados com Apache Airflow.

    📝 Entrega: Criar DAGs no Airflow para automação do pipeline.

**4. Processamento de Dados em Larga Escala (Big Data com Spark)**

- Ferramentas: 
    - PySpark
    - Hadoop
    - DataFrames e RDDs

- A fazer:

    - Carregar os dados no Spark para processamento distribuído.
    - Criar agregações e cálculos de médias móveis para previsões.

    📝 Entrega: Criar scripts PySpark para análise de grandes volumes de dados.

**5. Dashboard Interativo para Visualização dos Dados** **(Achar um papel melhor para Excel + VBA nesse projeto)**

- Ferramentas: 
  - Excel
  - VBA

- A fazer:
    
    - Criar gráficos dinâmicos no Excel/VBA para explorar os dados.
    - Construir um dashboard web com Dash para visualização interativa.

    📝 Entrega: Criar gráficos e dashboards para análise exploratória.

**🎯 Entregáveis Finais**

- ✅ Código-fonte do pipeline (Jupyter Notebooks + Scripts Python). 

- ✅ Banco de dados SQL e NoSQL populado.

- ✅ Relatórios e visualizações em Excel e Dash.
    
- ✅ Documentação do projeto explicando cada etapa.