###  Introdução aos Bancos de Dados

#### a. O que é um Banco de Dados?

Um banco de dados é uma estrutura organizada de informações que permite armazenar, gerenciar e acessar dados de forma eficiente. Ele desempenha um papel essencial na persistência e consistência dos dados, garantindo que eles estejam disponíveis para consulta e atualização por diferentes usuários e aplicações. 

**Exemplo:** Considere um sistema de banco de dados para uma instituição bancária. Ele armazena informações sobre clientes, contas e transações. Cada operação bancária (depósito, saque, transferência) é registrada no banco de dados, assegurando que cada transação seja realizada com precisão e que as informações estejam sempre atualizadas.

---

#### b. Modelos de Bancos de Dados

Os bancos de dados podem ser classificados em diferentes modelos, dependendo da estrutura e do tipo de dados que armazenam. 

##### 1. Modelo Relacional
Este é o modelo mais amplamente utilizado e se baseia na lógica de conjuntos. Os dados são armazenados em tabelas compostas por linhas e colunas, onde cada linha representa um registro único e cada coluna representa um campo ou atributo.

- **Chaves Primárias e Estrangeiras**: A chave primária é um identificador único para cada linha em uma tabela. A chave estrangeira cria uma ligação entre duas tabelas, estabelecendo um relacionamento.
- **Integridade Referencial**: Garante que as relações entre tabelas sejam mantidas. Por exemplo, uma chave estrangeira deve corresponder a uma chave primária em outra tabela.
- **Exemplo**: Em um banco de dados de e-commerce, uma tabela `clientes` armazena dados dos clientes, enquanto uma tabela `pedidos` armazena os pedidos. A `pedidos.cliente_id` é uma chave estrangeira que se relaciona com a `clientes.id`, criando um vínculo entre clientes e seus pedidos.

Exemplo em SQL:
```sql
CREATE TABLE clientes (
    id INT PRIMARY KEY,
    nome VARCHAR(100),
    email VARCHAR(100)
);

CREATE TABLE pedidos (
    id INT PRIMARY KEY,
    cliente_id INT,
    data_pedido DATE,
    FOREIGN KEY (cliente_id) REFERENCES clientes(id)
);
```

##### 2. Modelo NoSQL
Esse modelo é não relacional e geralmente voltado para aplicações que exigem alta escalabilidade e flexibilidade de esquema. O NoSQL é dividido em quatro categorias principais:

- **Document-Based**: Armazena dados em formato de documentos (ex.: JSON), como MongoDB.
- **Key-Value Stores**: Armazena dados como pares chave-valor, como Redis.
- **Column-Family Stores**: Armazena dados em colunas, otimizado para grandes volumes de dados, como Cassandra.
- **Graph Databases**: Armazena dados em formato de grafos, ideal para dados inter-relacionados, como Neo4j.

**Exemplo Prático NoSQL**:
Usando MongoDB para armazenar dados de clientes em um formato de documento JSON:
```json
{
    "nome": "João Silva",
    "idade": 30,
    "pedidos": [
        {"id": 1, "data_pedido": "2024-10-01"},
        {"id": 2, "data_pedido": "2024-10-05"}
    ]
}
```
Esse formato é útil para casos onde as estruturas de dados são mais flexíveis e não exigem normalização.

##### 3. OLTP e OLAP

- **OLTP (Online Transaction Processing)**: Voltado para operações transacionais frequentes. Esses sistemas suportam grandes quantidades de transações, como sistemas bancários. As tabelas são altamente normalizadas para minimizar redundância e otimizar operações de inserção e atualização.
  
- **OLAP (Online Analytical Processing)**: Direcionado para análise e consultas em grandes volumes de dados. Suporta operações complexas, como agregações e cálculos em múltiplas dimensões. Essas bases são usualmente desnormalizadas para melhorar a performance de consultas analíticas.

**Exemplo de OLTP vs. OLAP**:
- **OLTP**: Registro de uma compra no sistema de vendas de uma loja.
- **OLAP**: Análise do volume de vendas por região ao longo de um trimestre.

---

#### c. Arquitetura de Bancos de Dados

A arquitetura de um banco de dados define como ele organiza, gerencia e acessa dados. Alguns componentes e conceitos essenciais incluem:

##### 1. SGBD (Sistema de Gerenciamento de Banco de Dados)
O SGBD é o software que facilita a criação e o gerenciamento de bancos de dados, oferecendo suporte para manipulação e recuperação de dados. Exemplos incluem MySQL, PostgreSQL, Oracle e SQL Server.

##### 2. Transações e Propriedades ACID

**Transação**: É uma sequência de operações que altera o estado do banco de dados. Uma transação precisa ser "completa", ou seja, todas as operações devem ser concluídas com sucesso para que a transação seja válida.

- **ACID**:
    - **Atomicidade**: Todas as operações da transação são realizadas ou nenhuma delas é. Isso evita que o banco de dados fique em um estado inconsistente.
    - **Consistência**: Assegura que as transações levem o banco de dados de um estado válido para outro estado válido, respeitando todas as restrições e regras.
    - **Isolamento**: Garante que transações concorrentes sejam executadas de maneira independente e isolada umas das outras.
    - **Durabilidade**: Após uma transação ser confirmada, os dados persistem no banco de dados mesmo em caso de falhas do sistema.

**Exemplo de Transação em SQL**:
```sql
BEGIN TRANSACTION;

INSERT INTO contas (id, saldo) VALUES (1, 1000);
UPDATE contas SET saldo = saldo - 100 WHERE id = 1;
UPDATE contas SET saldo = saldo + 100 WHERE id = 2;

COMMIT;
```
Nesse exemplo, um valor é transferido de uma conta para outra. Se qualquer etapa falhar, a transação será revertida para garantir a integridade.


##### 3. Logs de Transação e Recovery
Para assegurar a durabilidade (D de ACID), os bancos de dados mantêm um log de transações, registrando todas as operações de uma transação antes que ela seja confirmada. Em caso de falha, o banco de dados pode usar esse log para restaurar o último estado consistente.

- **Checkpoint**: Em intervalos, o banco de dados grava no disco um "snapshot" de seu estado atual. Esse ponto de recuperação reduz o tempo de recuperação de falhas.

---



### Conceitos Fundamentais de SQL

SQL (Structured Query Language) é uma linguagem de consulta padrão para gerenciar e manipular bancos de dados relacionais. É composta por diferentes tipos de comandos que possibilitam a definição de estruturas, manipulação e consulta de dados, além de gerenciar permissões e controlar transações. Nesta seção, exploraremos essas funcionalidades em detalhes.

---

#### a. Estrutura de SQL e Tipos de Comandos

SQL é dividida em quatro subconjuntos principais, cada um com finalidades específicas:

##### 1. **DDL (Data Definition Language)**

A DDL permite definir e modificar a estrutura dos objetos do banco de dados, como tabelas, índices e esquemas. Exemplos de comandos DDL incluem:

- **CREATE**: Cria novos objetos, como tabelas, índices e visões.
- **ALTER**: Modifica a estrutura de objetos já existentes (como adicionar ou remover colunas).
- **DROP**: Exclui objetos do banco de dados.

Exemplo de DDL para criação de tabelas:
```sql
CREATE TABLE clientes (
    id INT PRIMARY KEY,
    nome VARCHAR(100) NOT NULL,
    idade INT CHECK (idade >= 18),
    email VARCHAR(100) UNIQUE
);

CREATE INDEX idx_idade ON clientes (idade);
```
Nesse exemplo, criamos uma tabela `clientes` com restrições de chave primária, `NOT NULL`, `CHECK` para idade mínima e um índice na coluna `idade`.

##### 2. **DML (Data Manipulation Language)**

A DML possibilita manipular os dados dentro das tabelas, incluindo inserção, atualização e exclusão de dados.

- **INSERT**: Insere novos registros.
- **UPDATE**: Atualiza registros existentes com novos valores.
- **DELETE**: Remove registros de uma tabela.

Exemplo de DML para inserir e atualizar dados:
```sql
INSERT INTO clientes (id, nome, idade, email) 
VALUES (1, 'João Silva', 30, 'joao@example.com');

UPDATE clientes 
SET idade = 31 
WHERE id = 1;
```

##### 3. **DQL (Data Query Language)**

A DQL inclui comandos de consulta, sendo o mais utilizado o `SELECT`. Ele é usado para recuperar dados de uma ou mais tabelas, com ou sem filtros, ordenações e agregações.

- **SELECT**: Realiza consultas de dados, com possibilidades de filtros (`WHERE`), ordenação (`ORDER BY`), agrupamento (`GROUP BY`), e muito mais.

Exemplo de DQL com agregação:
```sql
SELECT idade, COUNT(*) AS quantidade
FROM clientes
GROUP BY idade
HAVING COUNT(*) > 1;
```
Este comando retorna a contagem de clientes agrupados por idade, mostrando apenas idades com mais de um cliente.

##### 4. **DCL (Data Control Language)**

A DCL é usada para definir permissões e controlar o acesso aos objetos do banco de dados.

- **GRANT**: Concede permissões para usuários.
- **REVOKE**: Remove permissões concedidas anteriormente.

Exemplo de DCL:
```sql
GRANT SELECT, INSERT ON clientes TO usuario_externo;
REVOKE INSERT ON clientes FROM usuario_externo;
```

---

#### b. Normalização e Modelagem de Dados

A normalização é o processo de estruturar tabelas para minimizar redundância e melhorar a consistência dos dados. Existem várias formas normais (1NF, 2NF, 3NF, etc.), cada uma com regras específicas para estruturar as tabelas e as relações entre elas.

##### 1. Primeira Forma Normal (1NF)
Uma tabela está na 1NF quando cada campo contém apenas valores atômicos, ou seja, valores indivisíveis.

**Exemplo**: Transformar uma tabela que armazena múltiplos telefones em uma coluna única com valores separados.
```plaintext
Antes:
Clientes
ID   Nome        Telefones
1    João Silva  (123)456-7890, (123)555-1234

Depois:
Clientes
ID   Nome        Telefone
1    João Silva  (123)456-7890
1    João Silva  (123)555-1234
```

##### 2. Segunda Forma Normal (2NF)
A 2NF elimina dependências parciais, onde um atributo não-chave depende parcialmente da chave primária composta.

**Exemplo**: Suponha uma tabela `Pedidos` com `cliente_id`, `pedido_id`, `nome_cliente`. A coluna `nome_cliente` depende apenas do `cliente_id`, não de `pedido_id`. Separaríamos a informação em duas tabelas: `Clientes` e `Pedidos`.

##### 3. Terceira Forma Normal (3NF)
A 3NF elimina dependências transitivas, onde uma coluna depende de outra coluna que não é chave primária.

**Exemplo**: Se uma tabela `Vendas` tiver colunas `produto_id`, `nome_produto`, `categoria_produto`, o `nome_produto` e `categoria_produto` podem ser movidos para uma tabela `Produtos` referenciada pelo `produto_id`.

##### Estratégias de Denormalização para Melhor Desempenho

A normalização elimina redundâncias e melhora a consistência, mas a desnormalização pode ser necessária para otimizar a performance, especialmente em bancos de dados voltados para leitura intensiva, como OLAP. Uma tabela desnormalizada armazena dados redundantes para reduzir a necessidade de `JOINs` em consultas complexas.

O conceito de **One Big Table** é uma abordagem comum em ambientes de big data, onde uma única tabela desnormalizada concentra um grande volume de dados e é otimizada para **consultas analíticas**. Em vez de dividir dados em várias tabelas relacionadas, como seria feito em um banco de dados transacional, a One Big Table unifica todas as informações relevantes em uma estrutura única.

1. **Desnormalização Completa**: Dados que normalmente estariam em várias tabelas são combinados em uma só, reduzindo a necessidade de `JOINs`, o que é vantajoso em big data, onde `JOINs` em grandes volumes de dados são caros em termos de processamento.

2. **Uso de Estruturas Complexas**: A One Big Table frequentemente utiliza **arrays** e **structs** para representar dados complexos. Isso permite que, em uma mesma tabela, uma coluna contenha, por exemplo, um array de transações de um cliente, ou uma struct que guarda atributos de um produto. Essas estruturas embutidas facilitam o armazenamento de relações hierárquicas em uma única coluna, mantendo a tabela compacta e acessível.

3. **Leitura e Performance de Consultas**: Esse formato é ideal para consultas, especialmente as que envolvem agregações ou filtragens, já que permite acesso direto aos dados com mínima operação de junção. A eficiência na leitura é particularmente útil em sistemas distribuídos e ambientes de análise em larga escala, onde os dados são armazenados em formatos colunares otimizados, como **Parquet** ou **ORC**, para leitura paralela e eficiente.

##### Vantagens e Desvantagens

- **Vantagens**:
  - **Performance para Consultas Analíticas**: A estrutura desnormalizada evita `JOINs` complexos, o que reduz o tempo de execução de consultas.
  - **Simplificação de Consultas**: As consultas são mais diretas, uma vez que todos os dados necessários estão em uma única tabela.
  - **Flexibilidade para Estruturas Complexas**: Arrays e structs permitem armazenar dados hierárquicos e coleções sem necessidade de tabelas auxiliares.

- **Desvantagens**:
  - **Redundância de Dados**: Dados podem ser repetidos várias vezes, aumentando o consumo de armazenamento.
  - **Dificuldade de Atualização**: Atualizações ou correções são mais complexas e lentas, pois exigem alterações em toda a tabela.

##### Exemplos de Aplicação

Essa abordagem é comum em tecnologias de big data como **Google BigQuery**, **Amazon Redshift** e **Apache Hive**, onde a One Big Table permite consultas analíticas rápidas e processamento paralelo, atendendo bem aos padrões de acesso de análises de leitura intensiva com poucas atualizações.

##### Exemplo de Estrutura

Considere uma tabela de compras de e-commerce onde uma linha representa uma transação e inclui colunas complexas:

```sql
CREATE TABLE transacoes (
    cliente_id INT,
    nome STRING,
    idade INT,
    produtos ARRAY<STRUCT<produto_id INT, categoria STRING, preco DECIMAL>>,
    data_transacao TIMESTAMP
);
```

---

### c. Consultas Básicas e Avançadas

##### Consultas Básicas

1. **Seleção Simples**
   ```sql
   SELECT nome, idade 
   FROM clientes 
   WHERE idade > 18;
   ```
   Aqui, estamos selecionando o nome e a idade de clientes maiores de idade.

2. **Ordenação e Limite**
   ```sql
   SELECT nome, idade 
   FROM clientes 
   ORDER BY idade DESC 
   LIMIT 5;
   ```
   Esta consulta retorna os 5 clientes mais velhos.

##### Consultas Avançadas


1. **Joins**: Utilizados para combinar dados de várias tabelas com base em uma condição comum.

   <img src="https://media.licdn.com/dms/image/D5612AQF2-OUEy5h3xw/article-cover_image-shrink_720_1280/0/1707486249963?e=2147483647&v=beta&t=wjmaJXaIjlOFc1aSP7STUOrrM9kawSty-urHKQGTnb8" style="border: 1px solid #aaa; border-radius: 10px 10px 10px 10px; box-shadow: 5px 5px 5px #aaa"/>



   - **INNER JOIN**: Retorna apenas as linhas que têm correspondência em ambas as tabelas.
   ```sql
   SELECT clientes.nome, pedidos.data 
   FROM clientes 
   INNER JOIN pedidos ON clientes.id = pedidos.cliente_id;
   ```
   - **LEFT JOIN**: Retorna todas as linhas da tabela à esquerda, mesmo que não tenham correspondência.
   ```sql
   SELECT clientes.nome, pedidos.data 
   FROM clientes 
   LEFT JOIN pedidos ON clientes.id = pedidos.cliente_id;
   ```

2. **Subqueries**: São consultas dentro de outras consultas. São úteis para casos onde precisamos calcular algo antes de realizar a consulta principal.
   ```sql
   SELECT nome 
   FROM clientes 
   WHERE idade > (SELECT AVG(idade) FROM clientes);
   ```
   Aqui, retornamos o nome de clientes cuja idade é maior que a idade média.

3. **Window Functions**: Permitem cálculos agregados em “janelas” de dados, úteis para realizar análises mais complexas sem alterar o agrupamento dos dados.
   - **RANK()**: Calcula o ranking dentro de uma janela.
   ```sql
   SELECT nome, idade, 
          RANK() OVER (ORDER BY idade DESC) AS rank_idade 
   FROM clientes;
   ```
   Aqui, estamos classificando os clientes por idade.

   - **ROW_NUMBER()**: Atribui um número sequencial a cada linha dentro da janela.
   ```sql
   SELECT nome, idade, 
          ROW_NUMBER() OVER (PARTITION BY cidade ORDER BY idade DESC) AS num 
   FROM clientes;
   ```
   Esse comando numera os clientes por cidade, classificando-os pela idade.

---

#### d. Views e Materialized Views

- **Views**: São consultas armazenadas que podem ser tratadas como tabelas virtuais. Elas não armazenam dados fisicamente, mas facilitam a reutilização de consultas complexas.
  
  **Exemplo de Criação de View**:
  ```sql
  CREATE VIEW clientes_maiores AS 
  SELECT nome, idade 
  FROM clientes 
  WHERE idade > 18;
  ```

- **Materialized Views**: Diferente das views comuns, elas armazenam os dados fisicamente, sendo úteis para acelerar consultas complexas ou que exigem muitos cálculos.



In [0]:
%sql
CREATE TABLE clientes (
    id INT ,
    nome STRING,
    idade INT,
    cidade STRING
);


In [0]:
%sql
INSERT INTO clientes (id, nome, idade, cidade) VALUES 
(1, 'Alice', 30, 'São Paulo'),
(2, 'Bruno', 24, 'Rio de Janeiro'),
(3, 'Carla', 27, 'Belo Horizonte'),
(4, 'Diego', 35, 'São Paulo'),
(5, 'Elisa', 21, 'Curitiba');

In [0]:
%sql
ALTER TABLE clientes
ADD COLUMN email STRING;


In [0]:
%sql
CREATE TABLE pedidos (
    id INT,
    cliente_id INT,
    data DATE,
    valor DECIMAL(10, 2),
    cliente_id STRING
);


In [0]:
%sql
INSERT INTO pedidos (id, cliente_id, data, valor) VALUES 
(1, 1, '2024-01-15', 150.00),
(2, 2, '2024-02-10', 200.00),
(3, 1, '2024-02-20', 50.00),
(4, 3, '2024-03-05', 300.00),
(5, 4, '2024-03-10', 100.00);


In [0]:
https://mystery.knightlab.com/#experienced