# **Aula 02 - Introdução à Linguagem SQL**

***14 de dezembro de 2022***

---

<p align="center">
  <img 
    src   = "https://cdn-icons-png.flaticon.com/512/2758/2758710.png" 
    style = "
      border: 0px solid rgba(0, 0, 0, 0.01);
      border-radius: 70px; 
      width: 25%;
      height: 25%;
    "
  />
</p>

---

### **Introdução a Linguagem SQL**

---

Structured Query Language ou SQL é a linguagem mais conhecida do mundo e também a mais popular. É utilizada para executar comandos em Banco de Dados Relacionais, isto é, baseado em tabelas.
É por meio dela que criamos databases, tabelas, colunas, indices, garantimos e revogamos privilégios a usuários e consultamos os dados armazenados no banco de dados.

SQL é uma linguagem declarativa dividida em conjuntos de comandos **Data Definition Language (DDL), Data Manipulation Language (DML), Data Control Language (DCL), Transactional Control Language (TCL)** e **Data Query Language (DQL)**.

---

### **DDL**

---

Linguagem de Definição de Dados ou DDL são comandos que permitem ao usuário definir as novas tabelas e os elementos que serão associados a elas. É responsável pelos comandos de criação e alteração no banco de dados

Os principais comandos DDL são:

**CREATE**


Comando utilizado para criar a estrutura dos dados e tabelas.


In [None]:
"""

CREATE TABLE tb_produtos (
  id            serial,
  nome_produto  varchar(40),
  valor_produto numeric(16,2),
  data_compra   date
);

"""

**ALTER**

Comando utilizado para adicionar, excluir ou modificar as colunas de uma tabela existente.

In [None]:
"""

ALTER TABLE tb_produtos ADD nome_fabricante varchar(50);

"""

**DROP**

Comando utilizado para excluir estrutura de tabelas.

In [None]:
"""

DROP TABLE tb_produtos;

"""

In [None]:
Create
Read 
Update
Delete

---

### **DML**

---

**Linguagem de Manipulação de Dados** ou **DML** são comandos utilizados para a recuperação, inclusão, remoção e modificação de informações em bancos de dados.

Os principais comandos DML são:

**INSERT**

Comando utilizado para inserção de registros no banco de dados.

In [None]:
"""

INSERT INTO tb_cidades(nome,id_estado) VALUES ('São Thomé das Letras', '1');

"""

**UPDATE**

Comando utilizado para alteração de registro no banco de dados.

In [None]:
"""

UPDATE tb_cidades SET id_estado = 11 WHERE nome = 'São Thomé das Letras';

"""

**DELETE**

Comando utilizado para excluir registro no banco de dados.

In [None]:
"""

DELETE FROM tb_cidades WHERE nome = 'São Thomé das Letras';

"""

---

### **DCL**

---

Linguagem de Controle de Dados ou DCL são comandos utilizados para controlar o acesso e gerenciar permissões de usuários no banco de dados.

Os principais comandos DCL são:

**GRANT**

Comando utilizado para atribuir privilégios de acesso do usuário a objetos do banco de dados.

In [None]:
"""

CREATE USER aluno WITH PASSWORD 'aluno';

GRANT CONNECT ON DATABASE bd_cidades_estados TO aluno;

GRANT SELECT, DELETE ON ALL TABLES IN SCHEMA public TO aluno;

"""

**REVOKE**

Comando utilizado para revogar privilégios de acesso do usuário a objetos do banco de dados.

In [None]:
"""

REVOKE ALL
ON tb_cidades
FROM aluno;

"""

---

### **TCL**

---

Linguagem de Controle de Transações ou TCL são comandos utilizados para gerenciar as mudanças feitas por instruções DML.

Os principais comandos TCL são:

**COMMIT**

Comando utilizado para salvar uma transação.

In [None]:
"""

INSERT INTO tb_cidades(nome,idEstado) VALUES ('São Thomé das Letras','1');
COMMIT;

"""

**ROLLBACK**

Comando utilizado para restaurar o banco de dados ao estado anterior desde o último COMMIT.

In [None]:
"""

DELETE FROM tb_cidades WHERE nome = 'São Thomé das Letras';
ROLLBACK;

"""

---

### **DQL**

---

Linguagem de Consulta de Dados ou DQL utiliza-se do comando SELECT para consulta dos dados.

In [None]:
""" 

SELECT * FROM tb_cidades;

"""

Limitar o número de linhas extraídas na consulta dos dados:

In [None]:
""" 

SELECT * FROM tb_cidades
LIMIT 2;

"""

Filtrar as colunas na consulta dos dados:

In [None]:
"""

SELECT uf, nome FROM tb_cidades;

"""

Renomear as colunas na consulta dos dados:

In [None]:
import pandas as pd

In [None]:
""" 

SELECT uf AS UnidadeFederativa,
       nome AS NomeCidade
FROM tb_cidades as cd;

"""

Ordenar o retorno dos dados na consulta:

In [None]:
"""

SELECT nome
FROM tb_cidades
ORDER BY updated_at DESC;

"""

Retornar os dados distintos de uma tabela:

In [None]:
"""

SELECT DISTINCT uf
FROM tb_estados;

"""

Listar todos os dados que se enquadrem em uma determinada condição:

In [None]:
"""

SELECT * FROM tb_cidades
WHERE nome = 'Sao Paulo';

"""

In [None]:
"""

SELECT * FROM alunos
WHERE email LIKE '%@ada.com%';

"""

Listar todos os dados que se enquadrem em duas condições:

In [None]:
"""

SELECT *
FROM tb_cidades
WHERE nome = 'Sao Paulo' AND 
uf = 'SP'; 

"""

---

## **Constraints**

---

Ao se criar uma coluna, além de escolhermos o tipo de suas variáveis, podemos marca algumas constraints (restrições). Elas impedem que sejam incluído dados no banco que violem as restrições, com isto teremos mais consistência e precisão dos dados.

**Not null**

Impede de inserir um registro sem valor nesta coluna.

Exemplo: Inserindo linha não nula

In [None]:
"""
CREATE TABLE alunos (
    id serial,
    nome varchar NOT NULL
    email varchar UNIQUE
)
"""

In [None]:
"""

CREATE TABLE "Produtos" (
  valor integer NOT NULL, ...
)

"""

**Unique**

Impede que dois registros tenham o mesmo valor (apenas um por tabela).

Exemplo: Inserindo linha unica

In [None]:
"""

CREATE TABLE "Pessoa" (
  cpf char(11) Unique, ...
)

"""

**Default**

O Default cria um valor padrão para a coluna, assim caso ao ciar um novo registro não seja passado explicitamente um valor, ele terá o valor marcado como default.

Exemplo: Colocando 0 como saldo padrão de uma conta

In [None]:
{'nome': 'Franklin', 'saldo': 10000}

In [None]:
"""

CREATE TABLE "Conta" (
    
 saldo double DEFAULT 0.0, ...
)

"""

**Check**

O check é uma maneira de personalizar o constraint com ele podemos criar uma lógica própria para o valor de uma variável.

Exemplo: Impedindo de se criar usuários menor de 18 anos

In [None]:
"""

CREATE TABLE "Cliente" (
  idade integer CHECK (idade = 18), ...
)

"""

**Chaves primarias**

A chave primaria é um identificador do registro. Cada registro deve obrigatoriamente ter uma chave e esta deve ser única para este registro, ou seja, marcar a coluna como chave primaria implicitamente significa que este valor é unico e not null.

Exemplo: Colocando o id como chave primaria de um produto

In [None]:
"""

CREATE TABLE "Produtos" (
  id_produto integer PRIMARY KEY,
)

"""

**Chaves Estrangeira**

Além das chaves primarias existem um tipo de chaves muito utilizado, chamados chaves estrangeiras.

Elas permitem criar relacionamentos entre tabelas, por exemplo, um registro de venda pode ter o ID do produto que foi vendido, assim ele se relaciona com a tabela de produtos através do ID. Este podemos marcar chave estrangeira, assim deixamos explicito o relacionamento entre as tabelas para nosso SGBD.

Somente a inclusão dessa pode ser suficiente para podermos utilizar buscar dados de um produto através de uma venda, porém se marcamos este ID como uma chave estrageira impedimos de se criar um venda com um ID de produto inexistente, assim damos mais consistência ao nossos dados.

Exemplo1: Referenciando vendas a produtos

In [None]:
"""

CREATE TABLE "Vendas" (
  id integer PRIMARY KEY, 
  id_produto integer REFERENCES  "Produtos" (id),
)

"""

Exemplo 2: Referenciando vendas a produtos

In [None]:
""" 

CREATE TABLE "Vendas" (

 id_vendas integer PRIMARY KEY, 
 id_produto integer, 
 FOREIGN KEY (id_produto) REFERENCES "Produtos" (id_produto), ...
)

"""

---

### **Funções Agregadas**

---

Relatórios e gráficos são agregados de informações, precisamos aprender a juntar os dados em tabelas que sumarizem esses dados. Contando, somando, tomando a média, entre outros.

Vamos aprender tais ações utilizando as tabelas tb_produto, tb_entrada_produto, tb_estoque e tb_saida_produto.

**MIN() / MAX()**

Começamos mostrando como obter os menores e os maiores valores de determinada coluna, de modo geral, ou em relação a outra coluna.

Para obter o produto com valor mínimo de uma coluna, usamos:

In [None]:
"""

SELECT MIN(valor_unitario)
FROM tb_entrada_produto;

"""

Para obter o produto com valor máximo de uma coluna, usamos:

In [None]:
""" 

SELECT MAX(valor_unitario)
FROM tb_entrada_produto;

"""

**COUNT()** 

Podemos contar todas as linhas de uma tabela de um modo bem simples:

In [None]:
""" 

SELECT COUNT(*)
FROM tb_saida_produto;

"""

**SUM()**

Para somar todos os valores por quantidade, usamos o SUM(). Abaixo, somamos os preços de todos os produtos da tabela por categoria.

In [None]:
""" 

SELECT SUM(salario) as salario
FROM funcionario;

"""

salario
1000000

In [None]:
""" 

SELECT func, SUM(salario) as salario
FROM funcionario
WHERE func NOT IN ('TI', 'RH')
GROUP BY func

HAVING salario > 2000
;

"""

func | salario
TI   | 500000
RH   | 300000
BS   | 200000

In [None]:
""" 

SELECT qtde,
        SUM(valor_unitario)
FROM tb_saida_produto
GROUP BY 1;

"""

**AVG()**

Com frequência também precisamos tomar a média para cada conjunto de quantidade de produto na nossa base. Para tanto, temos o AVG(). A seguir, calculamos a média de quantidade de produtos para cada valor unitário:

In [None]:
""" 

SELECT valor_unitario,
        teste,
        AVG(qtde)
FROM tb_entrada_produto
GROUP BY valor_unitario, teste;

"""

**HAVING**

E se quisermos filtrar os resultados de uma query pelas contagens ou somas calculados nessa própria query? O WHERE não vai funcionar, porque ele não é capaz de filtrar resultados de funções agregadoras, como COUNT, MIN ou SUM. Para isto, existe o HAVING.

Abaixo ilustramos seu uso como filtro: após contarmos quantos itens há em cada valor unitário, exibiremos apenas aquelas linhas de valor unitário que tenham, associadas a si, mais do que 2 itens ao menos:

In [None]:
"""

SELECT valor_unitario,
        COUNT(*)
FROM tb_estoque
GROUP BY 1
HAVING COUNT(*) > 2;

"""

---

### **Otimização de Consultas no Banco de Dados**

---

Até agora vimos as aplicações da sintaxe do SQL em consultas de dados em uma única tabela. Embora seja bastante útil, o cenário real é bem mais complexo. Na prática, uma empresa pode ter dezenas, centenas de tabelas em seu banco de dados.

Hoje em dia, com o paradigma de microsserviços em alta, uma empresa em geral possui dezenas de bancos de dados em sua arquitetura e não há qualquer obrigação desses bancos serem todos Postgres ou sequer relacionais. O cenário de múltiplos bancos heterogêneos é bastante comum.

Aqui vamos mostrar como fazemos para conectar dados que estão espalhados por mais de uma tabela num banco de dados relacional.

Vamos começar pelos mais famoso representante dessa categoria: JOINs!

<p align="center">
  <img 
    src   = "https://stevenjhu.com/wp-content/uploads/2020/01/sql-join-all.jpg" 
    style = "
      border: 0px solid rgba(0, 0, 0, 0.01);
      border-radius: 70px; 
      width: 50%;
      height: 50%;
    "
  />
</p>

<p align="center">
  <img 
    src   = "https://storage.googleapis.com/gweb-cloudblog-publish/images/joins_1.max-1600x1600.png" 
    style = "
      border: 0px solid rgba(0, 0, 0, 0.01);
      border-radius: 70px; 
      width: 50%;
      height: 50%;
    "
  />
</p>

O diagrama acima ilustra, usando a linguagem da Teoria dos Conjuntos, a lógica por trás de cada um dos principais tipos de JOINs. Vamos ver cada um deles mais de perto.

**INNER JOIN**

Com o INNER JOIN, conectamos duas tabelas pelo que há de comum em ambas (através das chaves usadas, claro; neste caso, as customer_id, colunas presentes em ambas as tabelas). Abaixo, ligamos as tabelas Orders e Customers via este tipo de join.

In [None]:
cliente

id | nome 
0  | Aprigio
1  | Franklin


pedidos

id | nome | id_cliente
1  |   X  | 1
2  |   Y  | 1
3  |   Z  | 0
4  |   Z  | 0
5  |   X  | 1
6  |   A  | 0



pedidos

id | nome | id_cliente | id | nome
1  |   X  | 1          | 1  | Franklin
2  |   Y  | 1          | 1  | Franklin
3  |   Z  | 0          | 0  | Aprigio
4  |   Z  | 0          | 0  | Aprigio
5  |   X  | 1          | 1  | Franklin
6  |   A  | 0          | 0  | Aprigio



In [None]:
""" 

SELECT Orders.order_id,
        Customers.contact_name
FROM Customers INNER JOIN Orders ON Orders.customer_id = Customers.customer_id;

"""

Ou, o que é uma boa prática, usando alias para as tabelas:

In [None]:
""" 

SELECT o.order_id,
        c.contact_name
FROM Orders AS o
INNER JOIN Customers AS c ON o.customer_id = c.customer_id;

"""

**LEFT JOIN**

Com o LEFT JOIN, obtemos tudo que está na primeira tabela e, deste conjunto, o que der match na segunda tabela. A sintaxe é praticamente idêntica à usada no caso do join anterior:

In [None]:
""" 

SELECT o.order_id,
        c.contact_name
FROM Orders AS o
LEFT JOIN Customers AS c ON o.customer_id = c.customer_id;

"""

**RIGHT JOIN**

Neste caso, obtemos tudo que está na segunda tabela e, deste conjunto, o que der match na primeira tabela - o contrário do LEFT JOIN (por isto, em geral, não há por que usar o RIGHT JOIN se você pode usar o LEFT JOIN - de fato é isto que ocorre na prática).

In [None]:
""" 

SELECT o.order_id,
        c.contact_name
FROM Orders AS o
RIGHT JOIN Customers AS c ON o.customer_id = c.customer_id;

"""

**FULL JOIN**

Também descrito como FULL OUTER JOIN. Com ele consultamos tudo o que está em ambas as tabelas - ou, na linguagem da Teoria de Conjuntos, a união dos seus conteúdos.

In [None]:
""" 

SELECT o.order_id,
        c.contact_name
FROM Orders AS o
FULL JOIN Customers AS c ON o.customer_id = c.customer_id;

"""

Desses todos, os dois primeiros, os INNER JOIN e LEFT JOIN, são provavelmente os mais usados na prática.

Além disso, embora as operações acima estejam descritas para duas tabelas, elas foram concebidas para conectar um número arbitrário delas, mas sempre aos pares, repetindo a estrutura.

**UNIONs**

As operações de UNION no SQL servem para concatenar verticalmente os conteúdos de duas tabelas.

**UNION**

A operação de UNION, mantém apenas valores distintos das colunas exibidas em ambas as tabelas. Sua sintaxe é:

In [None]:
pedidos_1

id | nome | id_cliente
1  |   X  | 1
2  |   Y  | 1
3  |   Z  | 0
4  |   Z  | 0
5  |   X  | 1
6  |   A  | 0

pedidos_2

id | nome | id_cliente
1  |   X  | 1
2  |   Y  | 1
3  |   Z  | 0
4  |   Z  | 0
5  |   X  | 1
6  |   A  | 0

pedidos

id | nome | id_cliente
1  |   X  | 1
2  |   Y  | 1
3  |   Z  | 0
4  |   Z  | 0
5  |   X  | 1
6  |   A  | 0
1  |   X  | 1
2  |   Y  | 1
3  |   Z  | 0
4  |   Z  | 0
5  |   X  | 1
6  |   A  | 0

In [None]:
""" 

SELECT City FROM Customers
UNION
SELECT City FROM Suppliers;

"""

A query acima constrói uma tabela (que, neste caso, é de apenas uma coluna, City), na qual estão listadas todas as cidades que aparecem em ambas as colunas City das duas tabelas, Customers e Suppliers, sem repetir nomes de cidades.

**UNION ALL**

A UNION ALL é bastante semelhante à operação anterior, com a diferença de que não se preocupa em ter elementos únicos (no exemplo abaixo, cidades únicas). Ela simplesmente "empilha" os registros das duas tabelas.

In [None]:
""" 

SELECT City FROM Customers
UNION ALL
SELECT City FROM Suppliers

"""

---

### **Stored Procedures e Functions**

---

Stored Procedure (Procedimento Armazenado) é um conjunto de comandos em SQL que podem ser executados de uma só vez, como em uma função. Ele armazena tarefas repetitivas e aceita parâmetros de entrada para que a tarefa seja efetuada de acordo com a necessidade individual.

Um Stored Procedure pode reduzir o tráfego na rede, melhorar a performance de um banco de dados, criar tarefas agendadas, diminuir riscos e criar rotinas de processsamento.

Em muitos SGDBs temos o conceito de Stored Procedures, programas desenvolvidos em uma determinada linguagem de script e armazenados no servidor, onde serão processados. No PostgreSQL, as Stored Procedures são conhecidas com o nome de Functions.

**Criando uma Function**

Como exemplo, criaremos uma função que retorna o NomeContato que atende a condição order_id = 10831:


In [None]:
moda()

In [None]:
"""

CREATE FUNCTION NomeContato() RETURNS SETOF VARCHAR AS
          'SELECT Customers.contact_name FROM Orders
          INNER JOIN Customers ON Orders.customer_id = Customers.customer_id
          WHERE Orders.order_id = 10831;'
 LANGUAGE SQL;

"""

Consultando a stored procedure:

In [None]:
""" 

SELECT NomeContato()

"""

In [None]:
"""
create view teste
SELECT  id, nome, sexo, md5(email) from pessoas;

"""

---

## **Views**

---

Views são consideradas pseudo-tables, ou seja, elas são usadas junto a instrução SELECT para apresentar subconjuntos de dados presentes em tabelas reais.

Assim, podemos apresentar as colunas e linhas que foram selecionadas da tabela original ou associada. E como as Views possuem permissões separadas, podemos utilizá-las para restringir mais o acesso aos dados pelos usuários, para que veja apenas o que é necessário.

**Criando uma View**

Como exemplo, criaremos uma view da tabela employees restringindo a consulta, ou seja, apresentando apenas as colunas employee_id, last_name, first_name, title e city.


In [None]:
"""

CREATE VIEW view_employees 
AS SELECT employee_id, last_name, first_name, title, city
FROM employees;

"""

Consultando a view:

In [None]:
"""

select * from view_employees;

"""

---

### **Index**

---

Ao trabalharmos com bancos de dados, temos a necessidade de apresentar resultados com tamanha eficiência e rapidez, no entanto, chega um determinado momento em que o desempenho da base de dados cai, deixando de ser satisfatório dessa forma.

Eis que quando isto acontece, um recurso bastante utilizado para a resolução desse problema é a utilização da indexação no banco de dados.

Quando estamos lidando com SGDBs, como é o caso do PostgreSQL, temos que o índice é uma “cópia” do item que desejamos combinar com uma referência à localização real dos dados.

Quando realizamos buscas nas tabelas sem a utilização de índices, dependendo da quantidade de registros, podemos perceber que a busca é um pouco lenta, pois dessa forma, a pesquisa é realizada de forma sequencial.

Quando dizemos que existe uma pesquisa sequencial, estamos nos referindo a uma busca linha a linha em toda a tabela (ou conjunto de tabelas) da base de dados com o intuito de obter a informação necessária.

**Criando um Indice**

In [None]:
"""

CREATE INDEX order_details_index ON order_details (product_id);

"""

---

## **Exercícios**

---

### **Exercício - Splitgraph (Escopo Aberto)**

<p align="center">
  <img 
    src   = "https://cdn-icons-png.flaticon.com/512/2758/2758751.png" 
    style = "
      border: 0px solid rgba(0, 0, 0, 0.1);
      border-radius: 25px; 
      width: 10%;
      height: 10%;
    "
  />
</p>

Uma das principais atividades de todo profissional de dados é a manipulação de bancos de dados utilizando SQL. Neste desafio, sua tarefa será:

* Extrair informações de um dos bancos de dados presentes no [Splitgraph](https://www.splitgraph.com/) via python e/ou via Dbeaver; 
* Executar diferentes análises exploratórias sobre os dados utilizando os conceitos vistos nesta aula; e
* Armazenar algumas sumarizações dos dados em novas views, views materializadas ou tabelas.

Para a execução deste desafio, você deve:

1. Criar sua conta gratuitamente no site;
2. Gerar uma API_KEY (Username) e uma API_SECRET (Password) na sua conta (Capture estas [informações aqui](https://www.splitgraph.com/settings/sql-credentials));
3. Selecionar 1 dataset dentro do servidor, e usar suas queries SQL, para executar o processo de extração; e
4. Analisar os dados do servidor utilizando as queries dos datasets escolhidos (Consulte a [documentação](https://www.splitgraph.com/docs/sql-client-reference/languages/python)).

In [None]:
import psycopg2

API_KEY = "Seu username"
API_SECRET = "Seu password"

QUERY = """SELECT candidate_normalized, SUM(votes)::integer AS total_votes
    FROM "splitgraph/2016_election:latest".precinct_results
    WHERE state_postal = 'CA'
    GROUP BY candidate_normalized
    ORDER BY total_votes DESC
    LIMIT 5
"""

with psycopg2.connect(
    dsn=f"postgresql://{API_KEY}:{API_SECRET}@data.splitgraph.com:5432/ddn?application_name=psycopg2"
) as conn:
    with conn.cursor() as cur:
        cur.execute(QUERY)
        result = cur.fetchall()
        print(result)

---