# **Módulo 1: Introdução à Engenharia de Dados**

## **1.1 O que é Engenharia de Dados ?**

### **Diferença entre Engenharia de Dados e Ciência de Dados**

### **O papel do Engenheiro de Dados dentro de um time de dados**

### **Visão geral do pipeline de dados: Extração, Transformação e Carregamento (ETL)**

## **1.2 Conceitos Fundamentais**

### **Tipos de dados**

#### **Estruturados: Bancos relacionais (SQL)**

#### **Semiestruturados: JSON e XML**

#### **Não estruturados: Imagens, vídeos, texto**

### **Armazenamento de Dados**

#### **Bancos Relacionais (MYSQL, PostgreSQL)**

#### **Bancos Não Relacionais (MongoDB, Redis)**

#### **Data Warehouses e Data Lakes**

# **Módulo 2: Excel e VBA para Manipulação de Dados**

## **2.1 Manipulação de Dados no Excel**

### **O que é o Excel? Por que usá-lo?**

### **Funções essenciais**

#### **Básicas**

##### **SOMA**

##### **MÉDIA**

##### **SE**

#### **Busca e Referência**

##### **PROCV**

##### **ÍNDICE + CORRESP**

#### **Funções Condicionais e Agregações**

##### **SOMASES**

##### **CONT.SES**

## **2.2 Automação com VBA**

### **O que é o VBA? Por que usá-lo?**

### **Introdução ao VBA e Macros**

### **Criando scripts VBA para manipulação automática de planilhas**

### **Importação e tratamento de dados com VBA**

# **Projeto 1 (Módulos 1 e 2)**

**Objetivo:** Criar um sistema automatizado de análise de dados no Excel

**Habilidades envolvidas:** Organização de dados, automação VBA, conceitos básicos de engenharia de dados. 

**Tarefas:**

- Criar um relatório automatizado de vendas ou despesas a partir de um dataset CSV

- Utilizar PROCV e ÍNDICE + CORRESP para buscar dados

- Criar um script VBA que automatize a limpeza e filtragem dos dados

# **Módulo 3: SQL e Banco de Dados Relacionais**

## **3.1 Fundamentos de SQL** 

### **O que são Bancos de Dados Relacionais?**

Os **bancos de dados relacionais** são sistemas de armazenamento de dados organizados em **tabelas** que possuem relações entre si. Eles seguem um modelo estruturado baseado na **álgebra relacional**, garantindo organização, integridade e eficiência no gerenciamento dos dados.

### **Conceitos fundamentais dos Bancos de Dados Relacionais**

- **1️⃣ Tabelas –** Os dados são armazenados em tabelas, que consistem em linhas (registros) e colunas (atributos). Cada coluna representa um campo específico e cada linha contém um conjunto de valores relacionados.
  - Analogia: Imagine uma planilha do Excel, onde cada aba representa uma tabela, as colunas definem os tipos de dados (como "Nome", "Idade") e cada linha corresponde a um registro individual.

  - Em suma, podemos pensar nas tabelas de um banco de dados como tabelas do Excel, mas muito mais estruturadas e otimizadas para armazenar e manipular grandes volumes de informações de forma eficiente.
  
- **2️⃣ Chaves Primárias (Primary Key - PK) –** Uma coluna (ou um conjunto de colunas) que identifica de forma única cada registro dentro de uma tabela.

    - Exemplo: Em uma tabela de clientes, a coluna *id_cliente* pode ser a chave primária.

- **3️⃣ Chaves Estrangeiras (Foreign Key - FK) –** Um campo que estabelece uma relação entre duas tabelas, garantindo a integridade referencial.

    - Exemplo: Se há uma tabela ***pedidos***, ela pode ter um *id_cliente* que referencia a chave primária da tabela ***clientes***.

- **4️⃣ Relacionamentos –** As tabelas podem se relacionar de diferentes formas:
  
  - 1:1 (Um para Um) – Um registro em uma tabela corresponde a exatamente um registro em outra.
  
  - 1:N (Um para Muitos) – Um registro em uma tabela pode estar associado a vários registros em outra tabela. Exemplo: um cliente pode fazer vários pedidos.
  
  - N:M (Muitos para Muitos) – Ocorre quando múltiplos registros de uma tabela podem se relacionar com múltiplos registros de outra. Para representar essa relação, é necessária uma tabela intermediária, que armazena as conexões entre as duas tabelas principais.

**Falaremos mais sobre cada um desses conceitos nos tópicos a seguir.**

### **Consultas básicas (```SELECT```, ```WHERE```, ```ORDER BY```, ```LIMIT```)**

Agora que conhecemos os conceitos fundamentais de um banco de dados relacional, precisamos aprender a como recuperar e manipular esses dados. Para isso, utilizamos comandos SQL que nos permitem consultar, filtrar, ordenar e limitar os resultados armazenados nas tabelas.

As consultas em SQL seguem uma estrutura lógica e flexível, permitindo extrair exatamente as informações desejadas de forma eficiente. O comando mais fundamental para recuperar dados é o ```SELECT```, mas ele pode ser combinado com outras cláusulas para refinar e organizar os resultados de maneira mais útil, como veremos a seguir.

**Nesta seção, exploraremos esses comandos diretamente na linguagem SQL. No entanto, na próxima etapa, aprenderemos como utilizá-los dentro do Python, tornando nossas consultas mais dinâmicas e integradas a aplicações. Pequeno spoiler: os comandos permanecerão os mesmos, apenas a forma de executá-los mudará um pouco!**

#### **1. Recuperando todos os dados de uma tabela**

Imagine que temos uma tabela chamada ```clientes```, que armazena informações sobre clientes de uma loja:

| id_cliente | nome        | idade | email              |
|------------|------------|-------|--------------------|
| 1          | Ana Souza  | 30    | ana@email.com      |
| 2          | João Silva | 25    | joao@email.com     |
| 3          | Maria Lima | 40    | maria@email.com    |

Se quisermos visualizar todos os dados dessa tabela, usamos o seguinte comando:

```sql
                        SELECT * from clientes;
```

Fazendo isso, teremos o seguinte resultado:

| id_cliente | nome        | idade | email              |
|------------|------------|-------|--------------------|
| 1          | Ana Souza  | 30    | ana@email.com      |
| 2          | João Silva | 25    | joao@email.com     |
| 3          | Maria Lima | 40    | maria@email.com    |

**Observação: Não se esqueça do ```;``` no final da consulta! Ele é utilizado para indicar o fim do comando SQL, garantindo que a instrução seja executada corretamente.**

**Explicação:**

- ```SELECT``` $\rightarrow$ Indica quais colunas queremos visualizar.
- ```*``` $\rightarrow$ Representa **todas** as colunas da tabela.
- ```FROM clientes``` $\rightarrow$ Especifica de qual tabela os dados serão recuperados. 

**Observação: O uso de ```*``` é útil para explorar os dados, mas não é eficiente em grandes bancos de dados. Sempre que possível, selecione apenas as colunas necessárias.**

#### **2. Selecionando colunas específicas** 

E se quisermos apenas os nomes e as idades dos clientes, ignorando os outros dados? Basta especificar as colunas desejadas ao invés de usar ```*```:

```sql
                        SELECT nome, idade FROM clientes;
```

Fazendo isso, teremos o seguinte resultado:

| nome        | idade |
|------------|-------|
| Ana Souza  | 30    |
| João Silva | 25    |
| Maria Lima | 40    |

**Explicação:**

- Ao contrário do exemplo anterior, aqui estamos pedindo apenas as colunas ```nome``` e ```idade```, reduzindo a quantidade de dados retornados.

#### **3. Filtrando dados com ```WHERE```** 

Às vezes, não queremos todos os registros, mas apenas aqueles que atendem a uma condição específica. Para isso, usamos a cláusula ```WHERE```.

Por exemplo, para selecionar apenas os clientes com idade maior que 30:

```sql
                        SELECT * FROM clientes WHERE idade > 30;
```

Fazendo isso, teremos como resultado:

| id_cliente | nome        | idade | email              |
|------------|------------|-------|--------------------|
| 3          | Maria Lima | 40    | maria@email.com    |

**Observação: Perceba que selecionamos todos os atributos (colunas) dos clientes cuja idade é maior que 30.**

**Explicação:**

- Ao usar ```WHERE idade > 30;``` filtramos a consulta de modo a obter apenas os clientes cuja idade seja maior que 30.

#### **4. Ordenando resultados com ```ORDER BY```**

Os dados retornados por uma consulta podem ser ordenados de forma **ascendente (padrão)** ou descendente com a cláusula ```ORDER BY```.

Por exemplo, para listar os clientes em ordem alfabética:

```sql
                        SELECT * from clientes ORDER BY nome;
```

Fazendo isso, teremos como resultado:

| id_cliente | nome        | idade | email              |
|------------|------------|-------|--------------------|
| 1          | Ana Souza  | 30    | ana@email.com      |
| 2          | João Silva | 25    | joao@email.com     |
| 3          | Maria Lima | 40    | maria@email.com    |

Se quisermos inverter a ordem (do maior para o menor ou de Z para A), usamos ```DESC```:

```sql
                        SELECT * from clientes ORDER BY nome DESC;
```

Fazendo isso, teremos como resultado:

| id_cliente | nome        | idade | email              |
|------------|------------|-------|--------------------|
| 3          | Maria Lima | 40    | maria@email.com    |
| 2          | João Silva | 25    | joao@email.com     |
| 1          | Ana Souza  | 30    | ana@email.com      |


**Explicação:**

- Usamos ```ORDER BY nome;``` para ordenar os resultados de forma crescente e com base na coluna ```nome```.

- Usamos ```ORDER BY nome DESC;``` para ordenar os resultados de forma decrescente e com base na coluna ```nome```.

**Dica: Podemos ordenar por múltiplas colunas. Exemplo: ordenar por idade e, para clientes com a mesma idade, ordenar por nome:**

```sql
                        SELECT * FROM clientes ORDER BY idade DESC, nome ASC; 
```

**Explicação:**

- Ao utilizarmos ```ORDER BY idade DESC;``` ordenamos os dados de forma decrescente com base na coluna ```idade```, ou seja, os registros com maior idade aparecerão primeiro. Já se utilizarmos ```ORDER BY idade DESC, nome ASC;```, os dados continuam ordenados primeiro pela idade em ordem decrescente, mas, caso existam clientes com a mesma idade, eles serão organizados em ordem alfabética crescente pelo nome. 

#### **5. Limitando a quantidade de resultados com ```LIMIT```**

Se estivermos lidando com grandes volumes de dados, pode ser útil limitar o número de registros retornados. Para isso, usamos ```LIMIT```.

Por exemplo, para obter os 2 primeiros clientes da tabela:

```sql
                        SELECT * FROM clientes LIMIT 2;
```

Fazendo isso, teremos como resultado:

| id_cliente | nome        | idade | email              |
|------------|------------|-------|--------------------|
| 1          | Ana Souza  | 30    | ana@email.com      |
| 2          | João Silva | 25    | joao@email.com     |

Se quisermos os 2 clientes mais velhos, combinamos ```ORDER BY``` com ```LIMIT```:

```sql
                        SELECT * FROM clientes ORDER BY idade DESC LIMIT 2;
```

Fazendo isso, teremos como resultado:

| id_cliente | nome        | idade | email              |
|------------|------------|-------|--------------------|
| 3          | Maria Lima | 40    | maria@email.com    |
| 1          | Ana Souza  | 30    | ana@email.com      |


**Explicação:**

- Utilizamos ```ORDER BY idade DESC``` para ordenar os dados pela idade em ordem decrescente, garantindo que os indivíduos mais velhos apareçam primeiro. Em seguida, aplicamos ```LIMIT 2``` para retornar apenas os dois primeiros registros, que correspondem aos dois clientes de maior idade.

#### **Exercícios**

Dada a seguinte tabela ```clientes```:
    
| id_cliente | nome        | idade | email              | cidade        |
|------------|------------|-------|--------------------|----------------|
| 1          | Ana Souza  | 30    | ana@email.com      | Rio de janeiro |
| 2          | João Silva | 25    | joao@email.com     | São Paulo      |
| 3          | Maria Lima | 40    | maria@email.com    | Belo Horizonte |

Escreva, em uma folha de papel, as seguintes consultas:

1. Uma consulta que retorne apenas os nomes e cidades dos clientes.

2. Uma consulta para encontrar o cliente mais jovem na base de dados.

3. Uma consulta que liste os clientes ordenados primeiro por idade (mais jovem primeiro) e depois por cidade (Z-A).

4. Uma consulta para encontrar todos os clientes que moram em Belo Horizonte. 

#### **Respostas [Veja apenas após tentar responder as perguntas!]**

1. ```sql SELECT nome, cidade from clientes;```

2. ```sql SELECT * from clientes ORDER BY idade LIMIT 1```

3. ```sql SELECT * from clientes ORDER BY idade ASC, cidade DESC```

4. ```sql SELECT * from clientes WHERE cidade = 'Belo Horizonte'``` 

### **CRUD**

Agora que já aprendemos a consultar dados em um banco de dados, é fundamental entender como podemos inserir, atualizar e excluir informações. Para isso, utilizamos operações conhecidas pelo acrônimo CRUD, que representa:

- Create (Criar → ```INSERT INTO```)

- Read (Ler → ```SELECT```)

- Update (Atualizar → ```UPDATE```)

- Delete (Excluir → ```DELETE```)   

Essas quatro operações formam a base da manipulação de dados em bancos relacionais. Vamos explorar cada uma delas!

#### **Create**

A operação Create é a operação que nos permite adicionar novos registros a uma tabela no banco de dados. Para isso, utilizamos o comando ```INSERT INTO```. Tal comando é usado da seguinte forma:

```sql 
    INSERT INTO nome_da_tabela (coluna1, coluna2, coluna3)  
    VALUES (valor1, valor2, valor3);
```

#### **Read**

Já aprendemos a recuperar dados com ```SELECT```, o comando mais usado para consultar informações de um banco de dados.

De todo modo, vamos relembrar algumas consultas:

**1. Selecionar todos os registros e colunas de uma tabela:**
```sql 
SELECT * FROM table; -- Retorna todos os registros e todas as colunas da tabela "table".
``` 

**2. Selecionar apenas colunas específicas:**
```sql 
SELECT coluna1, coluna2 FROM table; -- Retorna apenas os dados das colunas "coluna1" e "coluna2" da tabela "table".
``` 

**3. Filtrar registros com base em uma condição:**
```sql 
SELECT * FROM table WHERE colunaX = 'Y'; -- Retorna apenas os registros onde o valor da coluna "colunaX" é igual a "Y".
```

**4. Ordenar os resultados por uma coluna específica:**
```sql
SELECT * FROM table ORDER BY colunaX ASC; -- Retorna todos os registros ordenados pela coluna "colunaX" em ordem crescente.
```

**5. Limitar o número de resultados retornados:**
```sql
SELECT * FROM table LIMIT 5; -- Retorna apenas os primeiros 5 registros da tabela "table".
```

#### **Update**

#### **Delete**

### **Como usar SQL junto ao Python?** [1]

Para criar e gerenciar um banco de dados relacional usando Python, utilizamos bibliotecas que interagem com sistemas de gerenciamento de bancos de dados (SGBDs), como SQLite, PostgreSQL ou MySQL.

Neste exemplo, vamos usar o SQLite, um banco de dados leve e integrado ao Python. O processo será semelhante para outros SGBDs, mudando apenas a biblioteca de conexão.

#### **Passo a Passo para Criar um Banco de Dados com SQLite**

##### **1️⃣ Importar a Biblioteca**

O Python já vem com suporte ao SQLite por meio do módulo sqlite3, então não é necessário instalar nada adicional.

In [None]:
import sqlite3

##### **2️⃣ Criar (ou Conectar-se a) um Banco de Dados**

Se o banco de dados não existir, ele será criado automaticamente. Se já existir, a conexão será estabelecida.

In [None]:
conn = sqlite3.connect("meu_banco.db")  # Cria um arquivo SQLite no diretório
cursor = conn.cursor()  # Criar um cursor para executar comandos SQL

##### **3️⃣ Criar uma Tabela**

Vamos criar uma tabela chamada clientes com três colunas: ```id```, ```nome``` e ```idade```.

### **Álgebra Relacional: A Base para Compreender SQL** [MELHORAR MUITO] [2]

A álgebra relacional é um modelo matemático que define operações sobre conjuntos de dados estruturados. Ela serve como base teórica para o SQL, ajudando a entender como consultas são formuladas e por que funcionam de determinada maneira.

**Por que enxergar SQL sob a ótica da algebra relacional?** [mudar]

Imagine que você precisa analisar a relação entre as tabelas Clientes e TransacoesBancarias. A álgebra relacional explica como unir essas tabelas, filtrar apenas clientes de alto valor e calcular estatísticas, exatamente como fariam as consultas SQL! **Com essa base, aprender SQL deixa de ser apenas uma questão de memorização de comandos e passa a ser um processo lógico e intuitivo.** 

#### **Operações da Álgebra Relacional e seus equivalentes em SQL**

##### **Operações fundamentais**

1️⃣ **Seleção ($\sigma$) - Filtra as linhas da tabela que satisfazem uma condição.**

- Equivalente ao ```WHERE``` no SQL.
- Exemplo (Em Álgebra Relacional): Selecionar clientes com idade maior que 30.
$$
    \sigma_{idade > 30}
$$


2️⃣ Projeção ($\pi$) - Retorna apenas colunas específicas de uma tabela.

3️⃣ União ($\cup$) - Combinando Dados

4️⃣  Interseção ($\cap$) - Retorna apenas os registros comuns entre duas tabelas.

5️⃣ Diferença ($-$) - Encontrando Exclusões

6️⃣ Produto Cartesiano (x) - Cruzando Informações

## **3.2 SQL Avançado**

### **Filtros**

#### **WHERE**

### **Ordenação**

#### **ORDER BY**

### **Joins**

#### **INNER JOIN**

#### **LEFT JOIN**

#### **RIGHT JOIN**

#### **FULL JOIN**

### **Funções Agregadas**

#### **SUM**

#### **AVG**

#### **COUNT**

### **Views e Subqueries**

### **Otimização de Queries**

#### **Índices**

#### **Normalização**

# **Módulo 4: Web Scrapping e Extração de Dados**

## **4.1 Introdução ao Web Scrapping**

### **O que é Web Scrapping e quando utilizar essa técnica?**

### **Diferença entre scrapping e APIs**

### **Ferramentas comuns**

#### **BeatifulSoup (Extração de HTML)**

#### **Selenium (Automação de interações)**

## **4.2 Extraindo Dados da Web** 

### **Identificando estruturas HTML e elementos**

### **Fazendo requisições HTTP com requests**

### **Extraindo tabelas e listas de sites**

### **Automação com Selenium para interagir com páginas**

## **4.3 APIs e Consumo de Dados Externos**

### **O que são APIs REST?**

### **Fazendo requisições GET e POST**

### **Manipulando dados JSON e XML**

# **Projeto 2 (Módulos 3 e 4)**

**Objetivo:** Criar um banco de dados populado por dados coletados da web

**Habilidades envolvidas:** SQL, Web Scraping, consumo de APIs

**Tarefas:**

- Criar um banco de dados relacional no PostgreSQL
- Coletar dados de produtos, notícias ou cotações de um site usando Web Scraping
- Inserir os dados no banco via SQL
- Criar queries para análise dos dados coletados

# **Módulo 5: ETL e Pipelines de Dados**

## **5.1 Introdução ao ETL**

### **O que é ETL e sua importância**

### **Diferença entre ETL e ELT**

## **5.2 Construindo um Pipeline de Dados**

### **Extraindo dados de múltiplas fontes**

### **Transformação: limpeza e padronização**

### **Carregamento: armazenando os dados corretamente**

## **5.3 Ferramentas para ETL**

### **Pandas para transformação de dados**

### **Airflow para automação de pipelines**

### **DBT para modelagem e versionamento de dados**

# **Módulo 6: Big Data e Processamento Distribuído**

## **6.1 O que é Big Data**

### **Conceitos de Volume, Velocidade e Variedade**

### **Arquiteturas de processamento distribuído**

### **Introdução ao Hadoop e Spark**

## **6.2 Fundamentos do Spark**

### **Trabalhando com PySpark**

### **Transformações e ações em dados grandes**

### **Uso de DataFrames e RDDs**

# **Projeto 3 (Módulos 5 e 6)**

**Objetivo:** Criar um pipeline de dados automatizado usando ETL

**Habilidades envolvidas:** ETL, Pandas, Spark
  
**Tarefas:**

- Criar um pipeline de ETL que extrai dados de uma API

- Transformar os dados e salvar em um Data Warehouse

- Processar os dados com Spark e gerar relatórios

# **Módulo Extra: Banco de dados NoSQL**

## **Extra 1: Introdução ao NoSQL**

### **O que são bancos de dados NoSQL?**

### **Diferença entre SQL e NoSQL**

#### **Casos de uso**

#### **Vantagens/desvantagens**

### **Principais tipos de NoSQL**

#### **KeyValue**

##### **Redis**

#### **Document**

##### **MongoDB**

#### **Columnar**

##### **Cassandra**

#### **Graph**

##### **Neo4j**

## **Extra 2: Trabalhando com MongoDB**

### **Estrutura de documentos JSON no MongoDB**

### **Operações Básicas**

#### **Inserção**

#### **Consulta**

#### **Atualização**

#### **Remoção**

### **Índices e otimização de consultas**

## **Extra 3: Integração de NoSQL com Python**

### **Conectando o MongoDB ao Python usando pymongo**

### **Inserindo e consultando documentos via script Python**

### **Transformando dados NoSQL para DataFrames Pandas**

# **📌 Projeto Final: Construção de um Pipeline de Dados Completo para Monitoramento de Indicadores Econômicos**

**Objetivo:** Criar um pipeline completo que extrai, transforma, armazena e analisa dados de indicadores econômicos a partir de múltiplas fontes, incluindo Web Scraping, APIs e bancos de dados. O projeto deve utilizar tanto SQL quanto NoSQL, além de técnicas de ETL e processamento distribuído.

**Etapas e Tecnologias Envolvidas**
**1. Extração de Dados (Web Scraping + APIs)**

- Ferramentas: 
    - requests 
    - BeautifulSoup
    -  Selenium
    
- A fazer:
    
    - Coletar dados de inflação, PIB e taxa de câmbio de sites governamentais via Web Scraping.
    - Utilizar APIs financeiras para obter dados históricos de ativos.
    - Armazenar os dados brutos em JSON e CSV.

    📝 Entrega: Criar scripts Python para extrair e armazenar os dados.

**2. Armazenamento e Modelagem de Dados (SQL + NoSQL)**

- Ferramentas: 
    - PostgreSQL
    - MongoDB
    - pymongo

- A fazer:

    - Criar um banco relacional para armazenar séries temporais estruturadas.
    - Utilizar MongoDB para armazenar metadados dos indicadores.
    - Definir índices e otimizar consultas.

    📝 Entrega: Criar e popular tabelas SQL e coleções MongoDB.

**3. Transformação e Enriquecimento dos Dados (ETL com Pandas e Airflow)**
  
- Ferramentas: 
    - Pandas
    - Airflow
    - DBT

- A fazer:

    - Criar um pipeline de ETL que padroniza e enriquece os dados.
    - Normalizar datas e remover inconsistências.
    - Automatizar a atualização diária dos dados com Apache Airflow.

    📝 Entrega: Criar DAGs no Airflow para automação do pipeline.

**4. Processamento de Dados em Larga Escala (Big Data com Spark)**

- Ferramentas: 
    - PySpark
    - Hadoop
    - DataFrames e RDDs

- A fazer:

    - Carregar os dados no Spark para processamento distribuído.
    - Criar agregações e cálculos de médias móveis para previsões.

    📝 Entrega: Criar scripts PySpark para análise de grandes volumes de dados.

**5. Dashboard Interativo para Visualização dos Dados** **(Achar um papel melhor para Excel + VBA nesse projeto)**

- Ferramentas: 
  - Excel
  - VBA

- A fazer:
    
    - Criar gráficos dinâmicos no Excel/VBA para explorar os dados.
    - Construir um dashboard web com Dash para visualização interativa.

    📝 Entrega: Criar gráficos e dashboards para análise exploratória.

**🎯 Entregáveis Finais**

- ✅ Código-fonte do pipeline (Jupyter Notebooks + Scripts Python). 

- ✅ Banco de dados SQL e NoSQL populado.

- ✅ Relatórios e visualizações em Excel e Dash.
    
- ✅ Documentação do projeto explicando cada etapa.