# **Aula 02 - SQL mais avançado**

***21 de dezembro de 2022***

---

<p align="center">
  <img 
    src   = "https://cdn-icons-png.flaticon.com/512/2758/2758710.png" 
    style = "
      border: 0px solid rgba(0, 0, 0, 0.01);
      border-radius: 70px; 
      width: 25%;
      height: 25%;
    "
  />
</p>

---

### **Manipulando Datas**

---

Para retirar um valor podemos fazer a função date_part.

In [None]:
# Pegando o mês referente a data atual.

"""

 SELECT date_part('month', current_date)

"""

In [None]:
# Mostrando os meses das vendas.

"""

 SELECT date_part('month', "Date") FROM sale

"""

In [None]:
# Verificando a média da receita mensal.

"""

 SELECT 
    DATE_PART('month', data_venda), 
    AVG(valor_venda) FROM vendas
 GROUP BY DATE_PART('month', data_venda) 
 ORDER BY 1

"""

O **date_part** permite retornar um tipo expecifico de valor da data, porém pode ser nescessario apenas reduzir sua precisão, cortando os valores que não são necessarios, como por exemplo reduzir uma precisão de segundos para uma precisão de meses, para isto usamos a **date_trunc**:

In [None]:
# Pegando a evolução mensal da receita da VanArsdel

"""

SELECT 
  DATE_TRUNC('month', data_venda),
  SUM(valor_venda)
FROM vendas
INNER JOIN produtos
    ON vendas.id_produto = produtos.id
WHERE produto.fabricante = 'VanArsdel' 
GROUP BY 1 
ORDER BY 1;

"""

**Convertendo data para texto:** Outra ação muito utilizada em datas é a conversão para texto com um formato expecífico. Para isto, podemos passar uma coluna contendo datas e enviar o padrão que queremos utilizar com a função:

In [None]:
""" 

SELECT TO_CHAR(date,padrao)

"""

Convertendo a data atual para o padrão dia/mes/ano.

In [None]:
""" 

select to_char(current_date,'DD/MM/YYYY')

"""

---

### **Window Functions**

---

Funções de janela são funções que operam em um conjunto de linhas especificado e retorna um único valor para cada conjunto de linhas (chamada partição).

**Tipos de Funções de Janela**

As Funções de Janela podem ser de 3 tipos:

> **Valor**

Funções deste tipo trabalharão com posições dentro da partição. Exemplo:

* First Value;
* Lag;
* Last_Value; e
* Lead.

> **Agregadas**

Calculam uma função agregada numa partição. Exemplo:

* Avg;
* Count;
* Max;
* Min; e
* Sum.

> **Ranqueamento**

São funções que trabalham com ranqueamento das colunas. Estas são um pouco mais complexas e não serão abordadas neste curso de forma prática, mas ficam citadas para estudo posterior:

* Cume_Dist;
* Dense_Rank;
* Ntile;
* Percent_Rank;
* Rank; e
* Row_Number.

> **Exemplo do uso de Window Function de Valor**

Suponha que desejamos saber qual o primeiro produto comprado em cada zip (ou seja, qual foi a primeira venda de cada loja).

Em um primeiro momento, a solução que passa pela nossa cabeça é algo da seguinte forma:

In [None]:
""" 

SELECT 
    MIN(vendas.data) AS dt_primeira_compra,
    produto,
    vendas.zip
    FROM vendas
    INNER JOIN
    geo ON geo.zip = vendas.zip
    INNER JOIN
    produtos ON produtos.id_produto = vendas.id_produto
    GROUP BY produto, vendas.zip
    ORDER BY zip, dt_primeira_compra

"""

In [None]:
"""

SELECT
    vendas.zip as zip_prim_compra,
    vendas.data,
    produto,
    FIRST_VALUE(vendas.data) OVER (PARTITION BY vendas.zip  ORDER BY vendas.data) AS dt_prim_compra,
    FIRST_VALUE(produto) OVER (PARTITION BY vendas.zip  ORDER BY vendas.data) AS prim_produto
    FROM vendas
    INNER JOIN
    geo ON geo.zip = vendas.zip
    INNER JOIN 
    produtos ON produtos.id_produto = vendas.id_produto
    ORDER BY zip_prim_compra

"""

<p align="center">
  <img 
    src   = "https://blog.sqlauthority.com/i/a/101-2.png" 
    style = "
      border: 0px solid rgba(0, 0, 0, 0.01);
      border-radius: 70px; 
      width: 35%;
      height: 35%;
    "
  />
</p>

---

### **Group Sets**

---

**GroupSet** são cláusulas utilizadas juntas ao **GROUP BY**. Elas criam subgrupos processados em seguida ao **GROUP BY**, por exemplo, podemos querer ver a soma da receita de cada segmento e categoria, com as duas tabelas, e será feito um **GROUP BY** por segmento, seguido de um **GROUP BY** para categoria.

In [None]:
""" 

 SELECT 
    produtos.categoria, 
    produtos.segmento,
    SUM(vendas.revenue) 
  FROM vendas
  INNER JOIN produtos 
    ON vendas.id_produto = produtos.id_produto
  GROUP BY GROUPING SETS ((produtos.categoria), (produtos.segmento)) 
  ORDER BY 1;
  
"""

---

### **Roll Up**

---

Como visto no **GROUPING SETS**, foram efetuados dois GROUP BY no mesmo SELECT, porém podemos querer a soma da receita de segmento por categoria, ou seja, para cada categoria queremos o TOTAL da receita de todos seus segmentos, essa ação pode ser feita usando o comando **RollUP**.

In [None]:
""" 

 SELECT 
    produtos.categoria, 
    produtos.segmento,
    SUM(vendas.revenue) as receita
  FROM vendas
  INNER JOIN produtos 
    ON vendas.id_produto = produtos.id_produto
  GROUP BY ROLLUP((produtos.categoria), (produtos.segmento)) 
  ORDER BY 1;
  
"""

<p align="center">
  <img 
    src   = "https://i.imgur.com/RAtC4cc.png" 
    style = "
      border: 0px solid rgba(0, 0, 0, 0.01);
      border-radius: 70px; 
      width: 35%;
      height: 35%;
    "
  />
</p>

Para deixarmos a leitura mais visual podemos usar a função **COALESCE** que coloca um valor padrão no local em que está nulo.



In [None]:
""" 

 SELECT coalesce("categoria", 'Todas as Categorias') as categoria, 
 coalesce("segmento", 'Todos os segmentos') as segmento,
 sum("revenue") 
 FROM vendas, produtos 
 WHERE vendas.id_produto =  produtos.id_produto
 GROUP BY ROLLUP ((categoria), (segmento)) 
 order by 1;

"""

<p align="center">
  <img 
    src   = "https://i.imgur.com/M9MW74w.png" 
    style = "
      border: 0px solid rgba(0, 0, 0, 0.01);
      border-radius: 70px; 
      width: 35%;
      height: 35%;
    "
  />
</p>

---

### **Casts**

---

As funções **CAST** são usadas para fazer uma conversão dos tipos dos dados. Com ela podemos converter tipos compativeis, como double para float ou data para varchar.

In [None]:
# Convertendo a soma da receita em double para um valor inteiro.

""" 

 SELECT CAST(SUM("Revenue") AS INTEGER) FROM vendas;

"""

In [None]:
# No PostgreSQL, ainda existe uma notação simplificada para o Casting, utilizando o símbolo "::". Neste caso, o exemplo acima ficaria assim:

""" 

 SELECT SUM("Revenue")::INTEGER FROM vendas;

"""

---

### **Case**

---

O comando **CASE** serve para construirmos uma nova coluna, com valores determinados por uma comparação.

In [None]:
""" 

select date_part('month', data) as mes, 
sum(case when produtos.fabricante = 'VanArsdel' then revenue end) as van,
sum(case when produtos.fabricante != 'VanArsdel' then revenue end) as notVan
from vendas, produtos
where vendas.id_produto = produtos.id_produto
group by mes
order by mes

"""

---

### **Manipulando texto**

---

Somando dois textos.

In [None]:
# Concatenando valores.

""" 

 SELECT 'O valor é ' || sum("valor_venda") FROM vendas;

"""

**Length:** A função length permite contar quantas letras existem em um texto e/ou retirar nomes com tamanhos grandes de uma lista.

In [None]:
""" 

 SELECT produto FROM produtos 
 WHERE length(produtos.produto) = 10;

"""

**Lower**: todo texto em caixa baixa.

In [None]:
""" 

SELECT LOWER('Ola');


"""

**Upper**: todo texto em caixa alta.

In [None]:
""" 

SELECT UPPER('Ola');


"""

**Replace**: Substitução de substrings.

In [None]:
""" 

SELECT replace('abcdefabcdef', 'cd', 'XX')


"""

**Like**

Uma ação muito útil é verificar a ocorrência de um valor no texto, por exemplo verificar todos os produtos que começam com a palavra 'Natura'.

Para isto passamos um texto um padrão, no padrão podemos passar o símbolo **_** ou **%** que significa qualquer valor (um coringa). A diferença entre eles é que o **_** serve para apenas um caractere enquanto o **%** para varios.

In [None]:
"""

'vinicius mauricio de almeida' LIKE '%mauricio%'

"""

# Retorna True

In [None]:
"""

'vinicius mauricio de almeida' LIKE '_mauricio_'

"""

# Retorna False

In [None]:
""" 

'vinicius@gmail.com' SIMILAR TO '%@%.com'

"""

In [None]:
# Pegando todos os produtos que o nome começa com Natura.

""" 

 SELECT produto FROM produtos 
 WHERE produto LIKE 'Natura%';

"""

---

## **Exercícios**

---

### **Exercício - Splitgraph (Escopo Aberto)**

<p align="center">
  <img 
    src   = "https://cdn-icons-png.flaticon.com/512/2758/2758751.png" 
    style = "
      border: 0px solid rgba(0, 0, 0, 0.1);
      border-radius: 25px; 
      width: 10%;
      height: 10%;
    "
  />
</p>

Uma das principais atividades de todo profissional de dados é a manipulação de bancos de dados utilizando SQL. Neste desafio, sua tarefa será:

* Extrair informações de um dos bancos de dados presentes no [Splitgraph](https://www.splitgraph.com/) via python e/ou via Dbeaver; 
* Executar diferentes análises exploratórias sobre os dados utilizando os conceitos vistos nesta aula; e
* Armazenar algumas sumarizações dos dados em novas views, views materializadas ou tabelas.

Para a execução deste desafio, você deve:

1. Criar sua conta gratuitamente no site;
2. Gerar uma API_KEY (Username) e uma API_SECRET (Password) na sua conta (Capture estas [informações aqui](https://www.splitgraph.com/settings/sql-credentials));
3. Selecionar 1 dataset dentro do servidor, e usar suas queries SQL, para executar o processo de extração; e
4. Analisar os dados do servidor utilizando as queries dos datasets escolhidos (Consulte a [documentação](https://www.splitgraph.com/docs/sql-client-reference/languages/python)).

In [None]:
import psycopg2

API_KEY = "Seu username"
API_SECRET = "Seu password"

QUERY = """SELECT candidate_normalized, SUM(votes)::integer AS total_votes
    FROM "splitgraph/2016_election:latest".precinct_results
    WHERE state_postal = 'CA'
    GROUP BY candidate_normalized
    ORDER BY total_votes DESC
    LIMIT 5
"""

with psycopg2.connect(
    dsn=f"postgresql://{API_KEY}:{API_SECRET}@data.splitgraph.com:5432/ddn?application_name=psycopg2"
) as conn:
    with conn.cursor() as cur:
        cur.execute(QUERY)
        result = cur.fetchall()
        print(result)

---