# **M√≥dulo 3: SQL e Banco de Dados Relacionais**

## **3.1 Fundamentos de SQL** 

### **O que s√£o Bancos de Dados Relacionais?**

Os **bancos de dados relacionais** s√£o sistemas de armazenamento de dados organizados em **tabelas** que possuem rela√ß√µes entre si. Eles seguem um modelo estruturado baseado na **√°lgebra relacional**, garantindo organiza√ß√£o, integridade e efici√™ncia no gerenciamento dos dados.

### **Conceitos fundamentais dos Bancos de Dados Relacionais**

- **1Ô∏è‚É£ Tabelas ‚Äì** Os dados s√£o armazenados em tabelas, que consistem em linhas (registros) e colunas (atributos). Cada coluna representa um campo espec√≠fico e cada linha cont√©m um conjunto de valores relacionados.
  - Analogia: Imagine uma planilha do Excel, onde cada aba representa uma tabela, as colunas definem os tipos de dados (como "Nome", "Idade") e cada linha corresponde a um registro individual.

  - Em suma, podemos pensar nas tabelas de um banco de dados como tabelas do Excel, mas muito mais estruturadas e otimizadas para armazenar e manipular grandes volumes de informa√ß√µes de forma eficiente.
  
- **2Ô∏è‚É£ Chaves Prim√°rias (Primary Key - PK) ‚Äì** Uma coluna (ou um conjunto de colunas) que identifica de forma √∫nica cada registro dentro de uma tabela.

    - Exemplo: Em uma tabela de clientes, a coluna *id_cliente* pode ser a chave prim√°ria.

- **3Ô∏è‚É£ Chaves Estrangeiras (Foreign Key - FK) ‚Äì** Um campo que estabelece uma rela√ß√£o entre duas tabelas, garantindo a integridade referencial.

    - Exemplo: Se h√° uma tabela ***pedidos***, ela pode ter um *id_cliente* que referencia a chave prim√°ria da tabela ***clientes***.

- **4Ô∏è‚É£ Relacionamentos ‚Äì** As tabelas podem se relacionar de diferentes formas:
  
  - 1:1 (Um para Um) ‚Äì Um registro em uma tabela corresponde a exatamente um registro em outra.
  
  - 1:N (Um para Muitos) ‚Äì Um registro em uma tabela pode estar associado a v√°rios registros em outra tabela. Exemplo: um cliente pode fazer v√°rios pedidos.
  
  - N:M (Muitos para Muitos) ‚Äì Ocorre quando m√∫ltiplos registros de uma tabela podem se relacionar com m√∫ltiplos registros de outra. Para representar essa rela√ß√£o, √© necess√°ria uma tabela intermedi√°ria, que armazena as conex√µes entre as duas tabelas principais.

**Falaremos mais sobre cada um desses conceitos nos t√≥picos a seguir.**

### **Consultas b√°sicas (```SELECT```, ```WHERE```, ```ORDER BY```, ```LIMIT```)**

Agora que conhecemos os conceitos fundamentais de um banco de dados relacional, precisamos aprender a como recuperar e manipular esses dados. Para isso, utilizamos comandos SQL que nos permitem consultar, filtrar, ordenar e limitar os resultados armazenados nas tabelas.

As consultas em SQL seguem uma estrutura l√≥gica e flex√≠vel, permitindo extrair exatamente as informa√ß√µes desejadas de forma eficiente. O comando mais fundamental para recuperar dados √© o ```SELECT```, mas ele pode ser combinado com outras cl√°usulas para refinar e organizar os resultados de maneira mais √∫til, como veremos a seguir.

**Nesta se√ß√£o, exploraremos esses comandos diretamente na linguagem SQL. No entanto, na pr√≥xima etapa, aprenderemos como utiliz√°-los dentro do Python, tornando nossas consultas mais din√¢micas e integradas a aplica√ß√µes. Pequeno spoiler: os comandos permanecer√£o os mesmos, apenas a forma de execut√°-los mudar√° um pouco!**

#### **1. Recuperando todos os dados de uma tabela**

Imagine que temos uma tabela chamada ```clientes```, que armazena informa√ß√µes sobre clientes de uma loja:

| id_cliente | nome        | idade | email              |
|------------|------------|-------|--------------------|
| 1          | Ana Souza  | 30    | ana@email.com      |
| 2          | Jo√£o Silva | 25    | joao@email.com     |
| 3          | Maria Lima | 40    | maria@email.com    |

Se quisermos visualizar todos os dados dessa tabela, usamos o seguinte comando:

```sql
                        SELECT * from clientes;
```

Fazendo isso, teremos o seguinte resultado:

| id_cliente | nome        | idade | email              |
|------------|------------|-------|--------------------|
| 1          | Ana Souza  | 30    | ana@email.com      |
| 2          | Jo√£o Silva | 25    | joao@email.com     |
| 3          | Maria Lima | 40    | maria@email.com    |

**Observa√ß√£o: N√£o se esque√ßa do ```;``` no final da consulta! Ele √© utilizado para indicar o fim do comando SQL, garantindo que a instru√ß√£o seja executada corretamente.**

**Explica√ß√£o:**

- ```SELECT``` $\rightarrow$ Indica quais colunas queremos visualizar.
- ```*``` $\rightarrow$ Representa **todas** as colunas da tabela.
- ```FROM clientes``` $\rightarrow$ Especifica de qual tabela os dados ser√£o recuperados. 

**Observa√ß√£o: O uso de ```*``` √© √∫til para explorar os dados, mas n√£o √© eficiente em grandes bancos de dados. Sempre que poss√≠vel, selecione apenas as colunas necess√°rias.**

#### **2. Selecionando colunas espec√≠ficas** 

E se quisermos apenas os nomes e as idades dos clientes, ignorando os outros dados? Basta especificar as colunas desejadas ao inv√©s de usar ```*```:

```sql
                        SELECT nome, idade FROM clientes;
```

Fazendo isso, teremos o seguinte resultado:

| nome        | idade |
|------------|-------|
| Ana Souza  | 30    |
| Jo√£o Silva | 25    |
| Maria Lima | 40    |

**Explica√ß√£o:**

- Ao contr√°rio do exemplo anterior, aqui estamos pedindo apenas as colunas ```nome``` e ```idade```, reduzindo a quantidade de dados retornados.

#### **3. Filtrando dados com ```WHERE```** 

√Äs vezes, n√£o queremos todos os registros, mas apenas aqueles que atendem a uma condi√ß√£o espec√≠fica. Para isso, usamos a cl√°usula ```WHERE```.

Por exemplo, para selecionar apenas os clientes com idade maior que 30:

```sql
                        SELECT * FROM clientes WHERE idade > 30;
```

Fazendo isso, teremos como resultado:

| id_cliente | nome        | idade | email              |
|------------|------------|-------|--------------------|
| 3          | Maria Lima | 40    | maria@email.com    |

**Observa√ß√£o: Perceba que selecionamos todos os atributos (colunas) dos clientes cuja idade √© maior que 30.**

**Explica√ß√£o:**

- Ao usar ```WHERE idade > 30;``` filtramos a consulta de modo a obter apenas os clientes cuja idade seja maior que 30.

#### **4. Ordenando resultados com ```ORDER BY```**

Os dados retornados por uma consulta podem ser ordenados de forma **ascendente (padr√£o)** ou descendente com a cl√°usula ```ORDER BY```.

Por exemplo, para listar os clientes em ordem alfab√©tica:

```sql
                        SELECT * from clientes ORDER BY nome;
```

Fazendo isso, teremos como resultado:

| id_cliente | nome        | idade | email              |
|------------|------------|-------|--------------------|
| 1          | Ana Souza  | 30    | ana@email.com      |
| 2          | Jo√£o Silva | 25    | joao@email.com     |
| 3          | Maria Lima | 40    | maria@email.com    |

Se quisermos inverter a ordem (do maior para o menor ou de Z para A), usamos ```DESC```:

```sql
                        SELECT * from clientes ORDER BY nome DESC;
```

Fazendo isso, teremos como resultado:

| id_cliente | nome        | idade | email              |
|------------|------------|-------|--------------------|
| 3          | Maria Lima | 40    | maria@email.com    |
| 2          | Jo√£o Silva | 25    | joao@email.com     |
| 1          | Ana Souza  | 30    | ana@email.com      |


**Explica√ß√£o:**

- Usamos ```ORDER BY nome;``` para ordenar os resultados de forma crescente e com base na coluna ```nome```.

- Usamos ```ORDER BY nome DESC;``` para ordenar os resultados de forma decrescente e com base na coluna ```nome```.

**Dica: Podemos ordenar por m√∫ltiplas colunas. Exemplo: ordenar por idade e, para clientes com a mesma idade, ordenar por nome:**

```sql
                        SELECT * FROM clientes ORDER BY idade DESC, nome ASC; 
```

**Explica√ß√£o:**

- Ao utilizarmos ```ORDER BY idade DESC;``` ordenamos os dados de forma decrescente com base na coluna ```idade```, ou seja, os registros com maior idade aparecer√£o primeiro. J√° se utilizarmos ```ORDER BY idade DESC, nome ASC;```, os dados continuam ordenados primeiro pela idade em ordem decrescente, mas, caso existam clientes com a mesma idade, eles ser√£o organizados em ordem alfab√©tica crescente pelo nome. 

#### **5. Limitando a quantidade de resultados com ```LIMIT```**

Se estivermos lidando com grandes volumes de dados, pode ser √∫til limitar o n√∫mero de registros retornados. Para isso, usamos ```LIMIT```.

Por exemplo, para obter os 2 primeiros clientes da tabela:

```sql
                        SELECT * FROM clientes LIMIT 2;
```

Fazendo isso, teremos como resultado:

| id_cliente | nome        | idade | email              |
|------------|------------|-------|--------------------|
| 1          | Ana Souza  | 30    | ana@email.com      |
| 2          | Jo√£o Silva | 25    | joao@email.com     |

Se quisermos os 2 clientes mais velhos, combinamos ```ORDER BY``` com ```LIMIT```:

```sql
                        SELECT * FROM clientes ORDER BY idade DESC LIMIT 2;
```

Fazendo isso, teremos como resultado:

| id_cliente | nome        | idade | email              |
|------------|------------|-------|--------------------|
| 3          | Maria Lima | 40    | maria@email.com    |
| 1          | Ana Souza  | 30    | ana@email.com      |


**Explica√ß√£o:**

- Utilizamos ```ORDER BY idade DESC``` para ordenar os dados pela idade em ordem decrescente, garantindo que os indiv√≠duos mais velhos apare√ßam primeiro. Em seguida, aplicamos ```LIMIT 2``` para retornar apenas os dois primeiros registros, que correspondem aos dois clientes de maior idade.

#### **Exerc√≠cios**

Dada a seguinte tabela ```clientes```:
    
| id_cliente | nome        | idade | email              | cidade        |
|------------|------------|-------|--------------------|----------------|
| 1          | Ana Souza  | 30    | ana@email.com      | Rio de janeiro |
| 2          | Jo√£o Silva | 25    | joao@email.com     | S√£o Paulo      |
| 3          | Maria Lima | 40    | maria@email.com    | Belo Horizonte |

Escreva, em uma folha de papel, as seguintes consultas:

1. Uma consulta que retorne apenas os nomes e cidades dos clientes.

2. Uma consulta para encontrar o cliente mais jovem na base de dados.

3. Uma consulta que liste os clientes ordenados primeiro por idade (mais jovem primeiro) e depois por cidade (Z-A).

4. Uma consulta para encontrar todos os clientes que moram em Belo Horizonte. 

#### **Respostas [Veja apenas ap√≥s tentar responder as perguntas!]**

1. ```sql SELECT nome, cidade from clientes;```

2. ```sql SELECT * from clientes ORDER BY idade LIMIT 1```

3. ```sql SELECT * from clientes ORDER BY idade ASC, cidade DESC```

4. ```sql SELECT * from clientes WHERE cidade = 'Belo Horizonte'``` 

### **CRUD**

Agora que j√° aprendemos a consultar dados em um banco de dados, √© fundamental entender como podemos inserir, atualizar e excluir informa√ß√µes. Para isso, utilizamos opera√ß√µes conhecidas pelo acr√¥nimo CRUD, que representa:

- Create (Criar ‚Üí ```INSERT INTO```)

- Read (Ler ‚Üí ```SELECT```)

- Update (Atualizar ‚Üí ```UPDATE```)

- Delete (Excluir ‚Üí ```DELETE```)   

Essas quatro opera√ß√µes formam a base da manipula√ß√£o de dados em bancos relacionais. Vamos explorar cada uma delas!

#### **Create**

A opera√ß√£o Create √© a opera√ß√£o que nos permite adicionar novos registros a uma tabela no banco de dados. Para isso, utilizamos o comando ```INSERT INTO```. Tal comando √© usado da seguinte forma:

```sql 
    INSERT INTO nome_da_tabela (coluna1, coluna2, coluna3)  
    VALUES (valor1, valor2, valor3);
```

#### **Read**

J√° aprendemos a recuperar dados com ```SELECT```, o comando mais usado para consultar informa√ß√µes de um banco de dados.

De todo modo, vamos relembrar algumas consultas:

**1. Selecionar todos os registros e colunas de uma tabela:**
```sql 
SELECT * FROM table; -- Retorna todos os registros e todas as colunas da tabela "table".
``` 

**2. Selecionar apenas colunas espec√≠ficas:**
```sql 
SELECT coluna1, coluna2 FROM table; -- Retorna apenas os dados das colunas "coluna1" e "coluna2" da tabela "table".
``` 

**3. Filtrar registros com base em uma condi√ß√£o:**
```sql 
SELECT * FROM table WHERE colunaX = 'Y'; -- Retorna apenas os registros onde o valor da coluna "colunaX" √© igual a "Y".
```

**4. Ordenar os resultados por uma coluna espec√≠fica:**
```sql
SELECT * FROM table ORDER BY colunaX ASC; -- Retorna todos os registros ordenados pela coluna "colunaX" em ordem crescente.
```

**5. Limitar o n√∫mero de resultados retornados:**
```sql
SELECT * FROM table LIMIT 5; -- Retorna apenas os primeiros 5 registros da tabela "table".
```

#### **Update**

#### **Delete**

### **Como usar SQL junto ao Python?**

### **√Ålgebra Relacional: A Base para Compreender SQL** [MELHORAR MUITO] [2]

## **3.2 SQL Avan√ßado**

### **Filtros**

#### **WHERE**

### **Ordena√ß√£o**

#### **ORDER BY**

### **Joins**

#### **INNER JOIN**

#### **LEFT JOIN**

#### **RIGHT JOIN**

#### **FULL JOIN**

### **Fun√ß√µes Agregadas**

#### **SUM**

#### **AVG**

#### **COUNT**

### **Views e Subqueries**

### **Otimiza√ß√£o de Queries**

#### **√çndices**

#### **Normaliza√ß√£o**

# **M√≥dulo 4: Web Scrapping e Extra√ß√£o de Dados**

## **4.1 Introdu√ß√£o ao Web Scrapping**

### **O que √© Web Scrapping e quando utilizar essa t√©cnica?**

### **Diferen√ßa entre scrapping e APIs**

### **Ferramentas comuns**

#### **BeatifulSoup (Extra√ß√£o de HTML)**

#### **Selenium (Automa√ß√£o de intera√ß√µes)**

## **4.2 Extraindo Dados da Web** 

### **Identificando estruturas HTML e elementos**

### **Fazendo requisi√ß√µes HTTP com requests**

### **Extraindo tabelas e listas de sites**

### **Automa√ß√£o com Selenium para interagir com p√°ginas**

## **4.3 APIs e Consumo de Dados Externos**

### **O que s√£o APIs REST?**

### **Fazendo requisi√ß√µes GET e POST**

### **Manipulando dados JSON e XML**

# **Projeto 2 (M√≥dulos 3 e 4)**

**Objetivo:** Criar um banco de dados populado por dados coletados da web

**Habilidades envolvidas:** SQL, Web Scraping, consumo de APIs

**Tarefas:**

- Criar um banco de dados relacional no PostgreSQL
- Coletar dados de produtos, not√≠cias ou cota√ß√µes de um site usando Web Scraping
- Inserir os dados no banco via SQL
- Criar queries para an√°lise dos dados coletados

# **M√≥dulo Extra: Banco de dados NoSQL**

## **Extra 1: Introdu√ß√£o ao NoSQL**

### **O que s√£o bancos de dados NoSQL?**

### **Diferen√ßa entre SQL e NoSQL**

#### **Casos de uso**

#### **Vantagens/desvantagens**

### **Principais tipos de NoSQL**

#### **KeyValue**

##### **Redis**

#### **Document**

##### **MongoDB**

#### **Columnar**

##### **Cassandra**

#### **Graph**

##### **Neo4j**

## **Extra 2: Trabalhando com MongoDB**

### **Estrutura de documentos JSON no MongoDB**

### **Opera√ß√µes B√°sicas**

#### **Inser√ß√£o**

#### **Consulta**

#### **Atualiza√ß√£o**

#### **Remo√ß√£o**

### **√çndices e otimiza√ß√£o de consultas**

## **Extra 3: Integra√ß√£o de NoSQL com Python**

### **Conectando o MongoDB ao Python usando pymongo**

### **Inserindo e consultando documentos via script Python**

### **Transformando dados NoSQL para DataFrames Pandas**

# **üìå Projeto Final: Constru√ß√£o de um Pipeline de Dados Completo para Monitoramento de Indicadores Econ√¥micos**

**Objetivo:** Criar um pipeline completo que extrai, transforma, armazena e analisa dados de indicadores econ√¥micos a partir de m√∫ltiplas fontes, incluindo Web Scraping, APIs e bancos de dados. O projeto deve utilizar tanto SQL quanto NoSQL, al√©m de t√©cnicas de ETL e processamento distribu√≠do.

**Etapas e Tecnologias Envolvidas**
**1. Extra√ß√£o de Dados (Web Scraping + APIs)**

- Ferramentas: 
    - requests 
    - BeautifulSoup
    -  Selenium
    
- A fazer:
    
    - Coletar dados de infla√ß√£o, PIB e taxa de c√¢mbio de sites governamentais via Web Scraping.
    - Utilizar APIs financeiras para obter dados hist√≥ricos de ativos.
    - Armazenar os dados brutos em JSON e CSV.

    üìù Entrega: Criar scripts Python para extrair e armazenar os dados.

**2. Armazenamento e Modelagem de Dados (SQL + NoSQL)**

- Ferramentas: 
    - PostgreSQL
    - MongoDB
    - pymongo

- A fazer:

    - Criar um banco relacional para armazenar s√©ries temporais estruturadas.
    - Utilizar MongoDB para armazenar metadados dos indicadores.
    - Definir √≠ndices e otimizar consultas.

    üìù Entrega: Criar e popular tabelas SQL e cole√ß√µes MongoDB.

**3. Transforma√ß√£o e Enriquecimento dos Dados (ETL com Pandas e Airflow)**
  
- Ferramentas: 
    - Pandas
    - Airflow
    - DBT

- A fazer:

    - Criar um pipeline de ETL que padroniza e enriquece os dados.
    - Normalizar datas e remover inconsist√™ncias.
    - Automatizar a atualiza√ß√£o di√°ria dos dados com Apache Airflow.

    üìù Entrega: Criar DAGs no Airflow para automa√ß√£o do pipeline.

**4. Processamento de Dados em Larga Escala (Big Data com Spark)**

- Ferramentas: 
    - PySpark
    - Hadoop
    - DataFrames e RDDs

- A fazer:

    - Carregar os dados no Spark para processamento distribu√≠do.
    - Criar agrega√ß√µes e c√°lculos de m√©dias m√≥veis para previs√µes.

    üìù Entrega: Criar scripts PySpark para an√°lise de grandes volumes de dados.

**5. Dashboard Interativo para Visualiza√ß√£o dos Dados** **(Achar um papel melhor para Excel + VBA nesse projeto)**

- Ferramentas: 
  - Excel
  - VBA

- A fazer:
    
    - Criar gr√°ficos din√¢micos no Excel/VBA para explorar os dados.
    - Construir um dashboard web com Dash para visualiza√ß√£o interativa.

    üìù Entrega: Criar gr√°ficos e dashboards para an√°lise explorat√≥ria.

**üéØ Entreg√°veis Finais**

- ‚úÖ C√≥digo-fonte do pipeline (Jupyter Notebooks + Scripts Python). 

- ‚úÖ Banco de dados SQL e NoSQL populado.

- ‚úÖ Relat√≥rios e visualiza√ß√µes em Excel e Dash.
    
- ‚úÖ Documenta√ß√£o do projeto explicando cada etapa.