# DML e Técnicas Avançadas de Consultas 🧠

![SQL girl meme](https://live.staticflickr.com/65535/49198404911_55085b0307_z.jpg)

## Revisão Aula 02

> Funções: `GROUP BY`, `UNION / UNION ALL`

![SQL Join Image](../img/aula02/join_types0.jpg "SQL Join image")

> Técnicas: Subqueries, Tabelas temporárias - locais, globais e *Common Table Expressions* (CTEs)

**********

![Grupos SQL](../img/aula01/grupos_sql.png)

Os tipos da linguagem SQL são:

- **DQL - Data Query Language** - Linguagem de Consulta de dados.
    - São os comandos de consulta. Exemplos: `SELECT`, `FROM`
- **DML - Data Manipulation Language** - Linguagem de Manipulação de Dados.
    - São os comandos que interagem com os dados dentro das tabelas. Exemplos: `INSERT`, `DELETE`, e `UPDATE`.
- DTL - Data Transaction Language - Linguagem de Transação de Dados.
    - São os comandos para controle de transação. Exemplos: `BEGIN TRANSACTION`, `COMMIT` e `ROLLBACK`

## Inserindo novos dados nas tabelas

Para inserir novos registros em uma tabela existente, o comando `INSERT INTO` deve ser utilizado. A sintaxe básica é a seguinte:

```sql
INSERT INTO <table_name> (coluna1, coluna2, coluna3, ...)
VALUES (valor1, valor2, valor3, ...);
```

Devemos ter atenção às restrições existentes no banco de dados, com relação à integridade dos registros.

In [2]:
-- Exemplo inserir registro único
INSERT INTO station 
(
    [ID],
    [Name],
    [zmine],
    [zdescription],
    [Depth],
    [stn_type]
)
VALUES (
    -- 1,           -- Erro PK (ID 1 já existe)
    1500,
    'TESTE-01',
    'Treinamento SQL',
    'Teste INSERT Treinamento SQL',
    150,
    'Teste'
)

-- Exibir registro recém inserido
SELECT * FROM station WHERE [Name] = 'TESTE-01'

ID,Name,zoriginal_name,zmine,X,zdescription,zlocation,Y,Elevation,TOC,Depth,stn_type,status,zreport_authorities,zmonitoring_type,zmatrix,zregistration_date,zhydrographic_basin,zlegal_framework,zupdate_date,zhydrographic_subbasin,zphoto,zwater_body,zcomment,zdata_source,zrecord_resp,geo_point,zcomplex,zinstall_date,zresp_area,ztype_environment,zdistance,zqaqc_flag
1500,TESTE-01,,Treinamento SQL,,Teste INSERT Treinamento SQL,,,,,150,Teste,,0,,,,,,,,,,,,,,,,,-,,


In [3]:
-- Exemplo inserir múltiplos registros
INSERT INTO lithology ([Station], [from_], [to_], [soil_type], [comment])
VALUES
    (1500, 0, 5, 'A', 'Teste'),
    (1500, 5, 15, 'B', 'Teste'),
    (1500, 15, 22, 'C', 'Teste'),
    (1500, 22, 30, 'D', 'Teste')

-- Exibir registros cadastrados
SELECT * FROM lithology WHERE Station = 1500

Station,from_,to_,soil_type,form_desc,consistency,structure,colour,zcolour_intensity,odor,formation_name,moisture,zmineralized_zone,zapatite_mineralization,zpetrogenetic_series,zcontact_zone,zmagnetism,ztexture,zfragment,zfragment_percet,zeffervescence,comment,zdata_source,zrecord_resp,formation_unit,matgsc,zqaqc_flag
1500,0,5,A,,,,,,,,,,,,,,,,,,Teste,,,,,
1500,5,15,B,,,,,,,,,,,,,,,,,,Teste,,,,,
1500,15,22,C,,,,,,,,,,,,,,,,,,Teste,,,,,
1500,22,30,D,,,,,,,,,,,,,,,,,,Teste,,,,,


In [4]:
-- Melhorar formatação
SELECT
    s.Name          AS [Codigo HGA]
    ,s.stn_type     AS [Tipo Ponto]
    ,l.from_        AS [De (m)]
    ,l.to_          AS [Ate (m)]
    ,l.soil_type    AS [Litologia]
FROM lithology l
    JOIN station s
        ON l.Station = s.ID
WHERE s.[Name] = 'TESTE-01'

Codigo HGA,Tipo Ponto,De (m),Ate (m),Litologia
TESTE-01,Teste,0,5,A
TESTE-01,Teste,5,15,B
TESTE-01,Teste,15,22,C
TESTE-01,Teste,22,30,D


In [8]:
-- Possíveis erros...

INSERT INTO lithology ([Station], [from_], [to_], [soil_type], [comment])
VALUES
    -- (1501, 0, 1, 'Violação FK', 'Errrou')   -- Erro FK
    -- ('Ponto', 0, 1, 'Tipo dado incorreto', 'Não passarás')   -- Erro tipo de dado

    -- (1500, 0, 10, 'A', 'Ok...'),   -- Estrutura Ok, logicamente inconsistente.
    -- (1500, 5, 12, 'B', 'Ok...')
    
    (1500, 0, 10, 'Violação PK', 'Duplicidade')

: Msg 2627, Level 14, State 1, Line 3
Violation of PRIMARY KEY constraint 'PK_lithology_Station_from__tobf5d1cf26b7b4f59990cf'. Cannot insert duplicate key in object 'dbo.lithology'. The duplicate key value is (1500, 0, 10).

> #### 💡 Dica: Para a importação de dados em .xlsx ou .csv, podemos utilizar módulos auxiliares como o **Import Wizard** do SSMS.

##### Exercício: Importação de dados de medição de campo

In [9]:
SELECT * FROM field_measurements$

Station,fm_date,ph,temperature,conductivity,zorp,total_dissolved_solids,dissolved_oxygen,zresistivity,zturbidity,zpressure,measurement_method,zmeasurement_resp,fm_comment,zdata_source,zrecord_resp,zqaqc_flag
23.0,2023-05-07 00:00:00.000,763.0,20.0,1856.0,-119.0,13643.0,62.0,9788.0,426.0,9876.0,Campo,WST,,Treinamento SQL,Treinamento SQL,
23.0,2023-05-08 00:00:00.000,669.0,201.0,2226.0,2833.0,1027.0,69.0,17375.0,158.0,1005.0,Campo,WST,,Treinamento SQL,Treinamento SQL,
23.0,2023-05-09 00:00:00.000,718.0,246.0,2156.0,-922.0,14128.0,99.0,8848.0,22.0,9885.0,Campo,WST,,Treinamento SQL,Treinamento SQL,
23.0,2023-05-10 00:00:00.000,77.0,233.0,1527.0,2555.0,1588.0,74.0,13858.0,74.0,9893.0,Campo,WST,,Treinamento SQL,Treinamento SQL,
23.0,2023-05-11 00:00:00.000,663.0,235.0,1892.0,-872.0,18916.0,52.0,16378.0,279.0,10347.0,Campo,WST,,Treinamento SQL,Treinamento SQL,
23.0,2023-05-12 00:00:00.000,62.0,204.0,1742.0,-1242.0,122.0,65.0,3425.0,2.0,9604.0,Campo,WST,,Treinamento SQL,Treinamento SQL,
23.0,2023-05-13 00:00:00.000,633.0,227.0,151.0,2091.0,1193.0,7.0,1845.0,261.0,9598.0,Campo,WST,,Treinamento SQL,Treinamento SQL,
23.0,2023-05-14 00:00:00.000,663.0,212.0,1651.0,1814.0,10961.0,73.0,12573.0,38.0,9978.0,Campo,WST,,Treinamento SQL,Treinamento SQL,
23.0,2023-05-15 00:00:00.000,65.0,225.0,1938.0,2637.0,9799.0,5.0,10626.0,83.0,10407.0,Campo,WST,,Treinamento SQL,Treinamento SQL,
23.0,2023-05-16 00:00:00.000,705.0,201.0,2139.0,-21.0,19455.0,89.0,347.0,468.0,9866.0,Campo,WST,,Treinamento SQL,Treinamento SQL,


## Deletando registros

Para deletar registros de uma tabela, utiliza-se a instrução `DELETE FROM <tabela>`. 

Para adicionar uma condição de remoção, utilizamos a sintaxe:
```sql
DELETE FROM <tabela> WHERE <condition>;
```

> 💡 Dica: 
> - Para remover **intencionalmente** todas as linhas de uma tabela, o comando `TRUNCATE TABLE <tabela>` é mais eficiente.
> - Ainda, existe o comando `DROP TABLE <tabela>`, que remove a tabela totalmente, inclusive índices, *triggers*, restrições e permissões.

📚 Recomendação de leitura:

- [DELETE *vs* TRUNCATE *vs* DROP](https://sergioleitaodba.wordpress.com/2014/10/20/sql-diferenca-entre-os-comandos-truncate-delete-e-drop/)

***

In [10]:
-- Removendo registros

DELETE FROM lithology WHERE [Station] = 1500 AND [comment] = 'Ok...'

SELECT * FROM lithology WHERE Station = 1500

Station,from_,to_,soil_type,form_desc,consistency,structure,colour,zcolour_intensity,odor,formation_name,moisture,zmineralized_zone,zapatite_mineralization,zpetrogenetic_series,zcontact_zone,zmagnetism,ztexture,zfragment,zfragment_percet,zeffervescence,comment,zdata_source,zrecord_resp,formation_unit,matgsc,zqaqc_flag
1500,0,5,A,,,,,,,,,,,,,,,,,,Teste,,,,,
1500,5,15,B,,,,,,,,,,,,,,,,,,Teste,,,,,
1500,15,22,C,,,,,,,,,,,,,,,,,,Teste,,,,,
1500,22,30,D,,,,,,,,,,,,,,,,,,Teste,,,,,


## Atualizando registros de uma tabela

Para atualizar registros, utilizamos o operador `UPDATE`. A sintaxe segue o seguinte formato:

```sql
UPDATE <tabela>
SET
    coluna1 = valor1,
    [coluna2 = valor2,]
    [coluna3 = valor3,]
WHERE
    <condição>;
```

In [11]:
-- Exemplo UPDATE básico
UPDATE lithology 
    SET [to_] = 100 WHERE Station = 1500 AND [to_] = 30

SELECT * FROM lithology WHERE Station = 1500

Station,from_,to_,soil_type,form_desc,consistency,structure,colour,zcolour_intensity,odor,formation_name,moisture,zmineralized_zone,zapatite_mineralization,zpetrogenetic_series,zcontact_zone,zmagnetism,ztexture,zfragment,zfragment_percet,zeffervescence,comment,zdata_source,zrecord_resp,formation_unit,matgsc,zqaqc_flag
1500,0,5,A,,,,,,,,,,,,,,,,,,Teste,,,,,
1500,5,15,B,,,,,,,,,,,,,,,,,,Teste,,,,,
1500,15,22,C,,,,,,,,,,,,,,,,,,Teste,,,,,
1500,22,100,D,,,,,,,,,,,,,,,,,,Teste,,,,,


## Muito cuidado ⚠️ 
### UPDATE/DELETE sem WHERE!

![UPDATE SEM WHERE](../img/aula03/update_sem_where.jpg)

![UPDATE SEM WHERE](../img/aula03/update_sem_where_cert.png)

> “*Quando executarem algum dos comandos UPDATE ou DELETE sem WHERE pensem que está matando alguém, um gato, um cachorro. É um dos piores cenários que existe. Muito cuidado!*”

In [13]:
-- -- Substituir as litologias do ponto recém criado..
-- UPDATE lithology SET soil_type = 'Litologia' WHERE Station = 1500

-- Erro gravíssimo!
UPDATE lithology SET soil_type = 'Litologia' --WHERE Station = 1500

SELECT * FROM lithology

Station,from_,to_,soil_type,form_desc,consistency,structure,colour,zcolour_intensity,odor,formation_name,moisture,zmineralized_zone,zapatite_mineralization,zpetrogenetic_series,zcontact_zone,zmagnetism,ztexture,zfragment,zfragment_percet,zeffervescence,comment,zdata_source,zrecord_resp,formation_unit,matgsc,zqaqc_flag
165,0,40,Litologia,Itabirito Manganesifero Pobre,Nao Informado,,Marrom,Escuro,Nao Informado,Nao Informado,Nao Informado,,Nao Informado,Nao Informado,Nao Aplicado,Presente,Alterada,,,,,FDCPVZL0074_VF.xlsx,WST,,,
165,40,543,Litologia,Itabirito Friavel Pobre,Friavel,,Cinza,Escuro,Nao Informado,Nao Informado,Nao Informado,,Nao Informado,Nao Informado,Gradacional,Ausente,Foliada,,,,,FDCPVZL0074_VF.xlsx,WST,,,
166,0,4,Litologia,Itabirito Manganesifero Pobre,Friavel,Alterada,Preto,Escuro,Nao Informado,Nao Informado,Nao Informado,,Nao Informado,Nao Informado,Nao Aplicado,Intermediario,Alterada,,,,,FDCPVZL0074_VF.xlsx,WST,,,
166,4,141,Litologia,Metabasica,Friavel,Bandamento composicional,Verde/Oliva,Claro,Nao Informado,Nao Informado,Nao Informado,,Nao Informado,Nao Informado,Brusco,Ausente,Alterada,,,,,FDCPVZL0074_VF.xlsx,WST,,,
166,141,2005,Litologia,Itabirito Manganesifero Pobre,Friavel,Alterada,Preto,Escuro,Nao Informado,Nao Informado,Nao Informado,,Nao Informado,Nao Informado,Brusco,Intermediario,Alterada,,,,,FDCPVZL0074_VF.xlsx,WST,,,
166,2005,2225,Litologia,Itabirito Dolomitico,Compacto,Bandamento composicional,Cinza,Claro,Nao Informado,Nao Informado,Nao Informado,,Nao Informado,Nao Informado,Gradacional,Fraco,Bandada,,,,,FDCPVZL0074_VF.xlsx,WST,,,
166,2225,482,Litologia,Itabirito Manganesifero Pobre,Friavel,Alterada,Preto,Escuro,Nao Informado,Nao Informado,Nao Informado,,Nao Informado,Nao Informado,Gradacional,Intermediario,Alterada,,,,,FDCPVZL0074_VF.xlsx,WST,,,
166,482,5705,Litologia,Itabirito Dolomitico,Compacto,Bandamento composicional,Cinza,Claro,Nao Informado,Nao Informado,Nao Informado,,Nao Informado,Nao Informado,Brusco,Fraco,Bandada,,,,,FDCPVZL0074_VF.xlsx,WST,,,
167,0,666,Litologia,Hematita Friavel,Friavel,,Nao Informado,Nao Informado,Nao Informado,Nao Informado,Nao Informado,,Nao Informado,Nao Informado,Nao Informado,Nao Informado,Nao Informado,,,,"WST: Divergencia de descricao entre arquivos do mesmo poco, considerado a VF.",FDCPVZL0081_VF.xlsx,WST,,,
167,666,717,Litologia,Filito,Nao Informado,,Nao Informado,Nao Informado,Nao Informado,Nao Informado,Nao Informado,,Nao Informado,Nao Informado,Nao Informado,Nao Informado,Nao Informado,,,,"WST: Divergencia de descricao entre arquivos do mesmo poco, considerado a VF.",FDCPVZL0081_VF.xlsx,WST,,,


### Evitando problemas ... DTL (Data Transaction Language)

In [16]:
BEGIN TRAN

-- SELECT * FROM lithology WHERE Station = 1500
UPDATE lithology SET comment = 'Comentario' WHERE Station = 1500
-- SELECT * FROM lithology WHERE Station = 1500

-- ROLLBACK TRAN;
COMMIT TRAN;
GO

SELECT * FROM lithology WHERE Station = 1500

Station,from_,to_,soil_type,form_desc,consistency,structure,colour,zcolour_intensity,odor,formation_name,moisture,zmineralized_zone,zapatite_mineralization,zpetrogenetic_series,zcontact_zone,zmagnetism,ztexture,zfragment,zfragment_percet,zeffervescence,comment,zdata_source,zrecord_resp,formation_unit,matgsc,zqaqc_flag
1500,0,5,Litologia,,,,,,,,,,,,,,,,,,Comentario,,,,,
1500,5,15,Litologia,,,,,,,,,,,,,,,,,,Comentario,,,,,
1500,15,22,Litologia,,,,,,,,,,,,,,,,,,Comentario,,,,,
1500,22,100,Litologia,,,,,,,,,,,,,,,,,,Comentario,,,,,


# Window Functions

## Ranking de grupos de variáveis por um contador 🎾

Por vezes, é necessário **classificar os campos por grupos**, em alguma ordem, para que possa executar análises. Estas situações poderão ser:

1. Quando os dados anuais estão a ser atualizados pelo menos duas vezes por ano e pretende identificar quais as linhas dos seus dados mais recentes com base numa coluna que identifica quando os dados foram importados.
2. Quando você quiser remover linhas 'duplicadas' em sua tabela com base em uma coluna ordenada.

Em outros termos, podemos pensar nisso como **ordenar** a tabela, mas em vez de ordenar todos os dados da tabela, estamos classificando/ordenando grupos e subgrupos dentro da tabela.

Para criar ***rankings*** por um contador, devemos fazer o seguinte:

1. Criar uma nova coluna, `[Nova Coluna]`
2. Atribuir o seguinte valor:

`[Nova Coluna] = [ROW_NUMBER() OVER (PARTITION BY [coluna_1], ... [coluna_n]) ORDER BY [coluna_1], ... [coluna_n] ASC] ASC/DESC;`

### Exemplo: Retornar TOP 3 pontos com mais amostras hidroquímicas por complexo

In [17]:
SELECT
    s.zcomplex				AS [Complexo]
    ,s.[Name]				AS [Codigo HGA]
    ,COUNT(a.sample_id)		AS [N Amostras]
FROM parameter_sample a
    JOIN station s
        ON a.Station = s.ID
GROUP BY s.zcomplex, s.Name

Complexo,Codigo HGA,N Amostras
Complexo A,WST-14,67
Complexo A,WST-15,71
Complexo A,WST-16,20
Complexo A,WST-17,74
Complexo A,WST-18,70
Complexo A,WST-19,41
Complexo A,WST-20,69
Complexo A,WST-21,63
Complexo A,WST-22,109
Complexo A,WST-23,4


In [19]:
WITH n_amostras AS (
	SELECT
		s.zcomplex				AS [Complexo]
		,s.[Name]				AS [Codigo HGA]
		,COUNT(a.sample_id)		AS [N Amostras]
	FROM parameter_sample a
		JOIN station s
			ON a.Station = s.ID
	GROUP BY s.zcomplex, s.Name
),

top_3 AS (
	SELECT
		n_amostras.*
		,ROW_NUMBER() OVER(PARTITION BY n_amostras.Complexo ORDER BY n_amostras.[N Amostras] DESC)	AS rn
	FROM n_amostras 
)

SELECT *
FROM top_3
WHERE rn <= 3

Complexo,Codigo HGA,N Amostras,rn
Complexo A,WST-25,168,1
Complexo A,WST-22,109,2
Complexo A,WST-408,98,3
Complexo B,WST-331,81,1
Complexo B,WST-336,80,2
Complexo B,WST-334,79,3


In [20]:
-- Função RANK()

SELECT
    s.zcomplex				AS [Complexo]
    ,s.[Name]				AS [Codigo HGA]
    ,COUNT(a.sample_id)		AS [N Amostras]
    ,RANK() OVER(PARTITION BY s.zcomplex ORDER BY COUNT(a.sample_id) DESC) AS [Ranking]
FROM parameter_sample a
    JOIN station s
        ON a.Station = s.ID
GROUP BY s.zcomplex, s.Name

Complexo,Codigo HGA,N Amostras,Ranking
Complexo A,WST-25,168,1
Complexo A,WST-22,109,2
Complexo A,WST-408,98,3
Complexo A,WST-17,74,4
Complexo A,WST-15,71,5
Complexo A,WST-18,70,6
Complexo A,WST-26,70,6
Complexo A,WST-20,69,8
Complexo A,WST-107,69,8
Complexo A,WST-24,68,10


In [22]:
-- Outras funções de RANKING

WITH rank AS (
    SELECT
        s.zcomplex				AS [Complexo]
        ,s.[Name]				AS [Codigo HGA]
        ,COUNT(a.sample_id)		AS [N Amostras]
        ,RANK() OVER(PARTITION BY s.zcomplex ORDER BY COUNT(a.sample_id) DESC) AS [Ranking]
        ,DENSE_RANK() OVER(PARTITION BY s.zcomplex ORDER BY COUNT(a.sample_id) DESC) AS [Dense_Ranking]
        ,NTILE(10) OVER(PARTITION BY s.zcomplex ORDER BY COUNT(a.sample_id) DESC) AS [Quartil]
    FROM parameter_sample a
        JOIN station s
            ON a.Station = s.ID
    GROUP BY s.zcomplex, s.Name
)

SELECT * FROM rank WHERE Ranking <= 10

Complexo,Codigo HGA,N Amostras,Ranking,Dense_Ranking,Quartil
Complexo A,WST-25,168,1,1,1
Complexo A,WST-22,109,2,2,1
Complexo A,WST-408,98,3,3,1
Complexo A,WST-17,74,4,4,1
Complexo A,WST-15,71,5,5,1
Complexo A,WST-18,70,6,6,1
Complexo A,WST-26,70,6,6,1
Complexo A,WST-20,69,8,7,1
Complexo A,WST-107,69,8,7,1
Complexo A,WST-24,68,10,8,1


### Window + Agregação 

In [23]:
SELECT DISTINCT
    s.Name
    ,s.zmatrix
    ,s.zcomplex
    ,s.stn_type
    ,COUNT(a.sample_id) OVER(PARTITION BY s.Name)       AS [Qtde Ponto]
    ,COUNT(a.sample_id) OVER(PARTITION BY s.stn_type)   AS [Qtde Tipo]
    ,COUNT(a.sample_id) OVER(PARTITION BY s.zcomplex)   AS [Qtde Complexo]
FROM station s
    JOIN parameter_sample a
        ON s.ID = a.Station

Name,zmatrix,zcomplex,stn_type,Qtde Ponto,Qtde Tipo,Qtde Complexo
WST-107,Efluente,Complexo A,Efluente,69,174,2282
WST-108,Efluente,Complexo A,Efluente,1,174,2282
WST-109,Efluente,Complexo A,Efluente,34,174,2282
WST-110,Efluente,Complexo A,Efluente,50,174,2282
WST-114,Efluente,Complexo A,Efluente,15,174,2282
WST-115,Efluente,Complexo A,Efluente,5,174,2282
WST-118,Agua Superficial,Complexo A,ETA,14,52,2282
WST-119,Agua Superficial,Complexo A,ETA,1,52,2282
WST-120,Agua Superficial,Complexo A,ETA,19,52,2282
WST-121,Agua Superficial,Complexo B,ETA,2,52,1520


In [25]:
WITH groups AS (
    SELECT DISTINCT
        s.Name
        ,s.zmatrix
        ,s.zcomplex
        ,s.stn_type
        ,COUNT(a.sample_id) OVER(PARTITION BY s.Name)       AS [Qtde Ponto]
        ,COUNT(a.sample_id) OVER(PARTITION BY s.stn_type)   AS [Qtde Tipo]
        ,COUNT(a.sample_id) OVER(PARTITION BY s.zcomplex)   AS [Qtde Complexo]
    FROM station s
        JOIN parameter_sample a
            ON s.ID = a.Station
)

SELECT
    groups.*
    -- ,[Representatividade %] = [Qtde Ponto] / [Qtde Tipo]
    ,[Representatividade %] = CAST([Qtde Ponto] AS FLOAT) / CAST([Qtde Tipo] AS FLOAT)
FROM groups

Name,zmatrix,zcomplex,stn_type,Qtde Ponto,Qtde Tipo,Qtde Complexo,Representatividade %
WST-107,Efluente,Complexo A,Efluente,69,174,2282,39655172413793105
WST-108,Efluente,Complexo A,Efluente,1,174,2282,5747126436781609
WST-109,Efluente,Complexo A,Efluente,34,174,2282,19540229885057472
WST-110,Efluente,Complexo A,Efluente,50,174,2282,28735632183908044
WST-114,Efluente,Complexo A,Efluente,15,174,2282,8620689655172414
WST-115,Efluente,Complexo A,Efluente,5,174,2282,28735632183908046
WST-118,Agua Superficial,Complexo A,ETA,14,52,2282,2692307692307692
WST-119,Agua Superficial,Complexo A,ETA,1,52,2282,19230769230769232
WST-120,Agua Superficial,Complexo A,ETA,19,52,2282,36538461538461536
WST-121,Agua Superficial,Complexo B,ETA,2,52,1520,38461538461538464


📚 Recomendações de leitura:

- [SQL: Window Function I – Revisão dos Conceitos.](https://managebi.com/2022/09/30/sql-window-function-conceitos)
- [Ranking Functions (T-SQL)](https://learn.microsoft.com/en-us/sql/t-sql/functions/ranking-functions-transact-sql?view=sql-server-ver16)
- [SQL Window Functions](https://mode.com/sql-tutorial/sql-window-functions/)
- [How to Use Window Functions in SQL – with Example Queries](https://www.freecodecamp.org/news/window-functions-in-sql/)

# Pivotando dados - PIVOT 💃

Operações de "**pivotagem**" para transpor linhas para colunas, são úteis em vários cenários, como o *one-hot encoding* de dados categóricos antes de aplicar modelos de aprendizado de máquina em Python ou simplesmente para melhor formatação.

Uma boa forma de pensar sobre **pivotagem** é a utilização de uma coluna (**pivô**) para rearranjar a visualização da tabela de um formato mais compacto para um formato mais amplo (menos para mais colunas). 

A clássica ferramenta de **tabela dinâmica (*pivot table*)** do Excel é um ótimo exemplo.

![tDin](../img/aula03/pivot_table.png)

Quando vamos **pivotar** os dados, é útil saber quais os valores únicos da coluna que está sendo pivotada. No SQL, utilizamos a função `PIVOT` para realizar esta operação.

### Exemplo: Pluviometria acumulada mensal para o ponto ID = 404

In [26]:
SELECT 
    Station
    ,MONTH([date_])                                             AS [Mês]
    ,IIF(MONTH([date_]) BETWEEN 4 AND 9, 'Seco', 'Chuvoso' )    AS [Período]
    ,YEAR([date_])                                              AS [Ano]
    ,SUM([total_precipitation])                                 AS [Precipitacao]
FROM [meteorology]
WHERE Station = 404
GROUP BY Station, YEAR([date_]), MONTH([date_])
ORDER BY Station, YEAR([date_]), MONTH([date_])

Station,Mês,Período,Ano,Precipitacao
404,1,Chuvoso,2012,42169
404,2,Chuvoso,2012,608
404,3,Chuvoso,2012,1842
404,4,Seco,2012,508
404,5,Seco,2012,54
404,6,Seco,2012,321
404,7,Seco,2012,0
404,8,Seco,2012,38
404,9,Seco,2012,467
404,10,Chuvoso,2012,353


In [30]:
WITH chuva AS (
      SELECT 
            Station
            -- ,MONTH([date_])                                             AS [Mês]
            ,IIF(MONTH([date_]) BETWEEN 4 AND 9, 'Seco', 'Chuvoso')     AS [Período]
            ,YEAR([date_])                                              AS [Ano]
            ,SUM([total_precipitation])                                 AS [Precipitacao]
      FROM [meteorology]
      WHERE Station = 404
      GROUP BY Station, YEAR([date_]), MONTH([date_])
)

-- -- Verificar valores únicos na coluna a ser pivotada
-- SELECT DISTINCT [Período] FROM [chuva]

-- Pivotar coluna [Período] somando as precipitacoes
SELECT Station, Ano, [Seco], [Chuvoso], [Seco] + [Chuvoso] AS [Total]
FROM [chuva]
PIVOT
(
	SUM([Precipitacao]) 
	FOR [Período] IN ([Seco], [Chuvoso])
) AS pivot_table;

Station,Ano,Seco,Chuvoso,Total
404,2012,1.874e+16,10800300000000002,1.2674300000000004e+16
404,2013,1.6426999999999998e+16,12553000000000002,1.4195700000000002e+16
404,2014,19665.0,8178000000000001,101445.0
404,2015,2.101e+16,11887,1.3988000000000002e+16
404,2016,24531.0,14371000000000001,168241.0
404,2017,804.0,11176,1198.0
404,2018,17745.0,101725,11947.0
404,2019,2313.0,10180899999999999,1.24939e+16
404,2020,14868.0,140423,155291.0
404,2021,6872999999999999.0,9358,100453.0


#  Pivotando dados - UNPIVOT 💃

**Unpivoting** data so that you have columns being transposed to rows is useful when trying to structure/format your data consistently for different analytical software programs or for presentation purposes.

A good way to think about **unpivoting** is that you are going from your table being wider and shorter to it being thinner and longer.

To **unpivot** your data, it is quite involved to describe at a high-level so the example below will provide a better description of how it works.

A operação inversa da **pivotagem** ("despivotagem" ou "*unpivot*"), descrita anteriormente, se dá pela transposição de colunas para linhas (mais para menos colunas). Esta é uma operação útil para estruturar/formatar dados no formato tabular (normalmente trabalhado em bancos de dados ou sistemas em geral).

No SQL, usamos a função `UNPIVOT` para executar esta operação.

### Exemplo: Convertendo tabela _"field_measurements"_ para o formato tabular.

In [31]:
SELECT TOP 10 * FROM field_measurements$
SELECT TOP 10 * FROM parameter_result   

Station,fm_date,ph,temperature,conductivity,zorp,total_dissolved_solids,dissolved_oxygen,zresistivity,zturbidity,zpressure,measurement_method,zmeasurement_resp,fm_comment,zdata_source,zrecord_resp,zqaqc_flag
23,2023-05-07 00:00:00.000,763,20,1856,-119,13643,62,9788,426,9876,Campo,WST,,Treinamento SQL,Treinamento SQL,
23,2023-05-08 00:00:00.000,669,201,2226,2833,1027,69,17375,158,1005,Campo,WST,,Treinamento SQL,Treinamento SQL,
23,2023-05-09 00:00:00.000,718,246,2156,-922,14128,99,8848,22,9885,Campo,WST,,Treinamento SQL,Treinamento SQL,
23,2023-05-10 00:00:00.000,77,233,1527,2555,1588,74,13858,74,9893,Campo,WST,,Treinamento SQL,Treinamento SQL,
23,2023-05-11 00:00:00.000,663,235,1892,-872,18916,52,16378,279,10347,Campo,WST,,Treinamento SQL,Treinamento SQL,
23,2023-05-12 00:00:00.000,62,204,1742,-1242,122,65,3425,2,9604,Campo,WST,,Treinamento SQL,Treinamento SQL,
23,2023-05-13 00:00:00.000,633,227,151,2091,1193,7,1845,261,9598,Campo,WST,,Treinamento SQL,Treinamento SQL,
23,2023-05-14 00:00:00.000,663,212,1651,1814,10961,73,12573,38,9978,Campo,WST,,Treinamento SQL,Treinamento SQL,
23,2023-05-15 00:00:00.000,65,225,1938,2637,9799,5,10626,83,10407,Campo,WST,,Treinamento SQL,Treinamento SQL,
23,2023-05-16 00:00:00.000,705,201,2139,-21,19455,89,347,468,9866,Campo,WST,,Treinamento SQL,Treinamento SQL,


zId,Station,sample_id,chemical_name,result_unit,zoriginal_parameter,zoriginal_result,zoriginal_unit,qualifier,result_value,zresult_txt,analysis_method,zquantification_limit,zoutlier,comment,zdata_source,zrecord_resp,dilution_factor,analysis_date,reporting_detection_limit,fraction_code,sampling_precision,CAS_number,zqaqc_flag
463171,14,0475/19-01,Alcalinidade Total,mg/L,Alcalinidade Total,"<20,0",mg/L CaCO3,<,20,,SMEWW 23RD ed. 2320 B,,0,,Treinamento SQL,WST,,,,,,,
563879,14,0475/19-01,Aluminio Dissolvido,mg/L,Aluminio Soluvel,005,mg/L,,5,,Nao Informado,,0,,Treinamento SQL,WST,,,,,,,
563878,14,0475/19-01,Aluminio Total,mg/L,Aluminio Total,005,mg/L,,5,,Nao Informado,,0,,Treinamento SQL,WST,,,,,,,
464631,14,0475/19-01,Condutividade Eletrica,µS/cm,Condutividade,1851,µS/cm,,1851,,SMEWW 23RD ed. 2510 B,,0,,Treinamento SQL,WST,,,,,,,
445880,14,0475/19-01,Cor Real,UC,Cor Real,7,Hazen,,7,,SMEWW 23RD ed. 2120 C,,0,,Treinamento SQL,WST,,,,,,,
505292,14,0475/19-01,DBO,mg/L,DBO (*),"<2,0",mg/L O2,<,2,,Nao Informado,,0,,Treinamento SQL,WST,,,,,,,
451578,14,0475/19-01,DQO,mg/L,DQO,42,mg/L O2,,42,,SMEWW 23RD ed. 5220 D,,0,,Treinamento SQL,WST,,,,,,,
573991,14,0475/19-01,Fenol Total,mg/L,Fenois (*),0003,mg/L,,3,,Nao Informado,,0,,Treinamento SQL,WST,,,,,,,
565847,14,0475/19-01,Ferro Dissolvido,mg/L,Ferro Soluvel,003,mg/L,,3,,Nao Informado,,0,,Treinamento SQL,WST,,,,,,,
556986,14,0475/19-01,Ferro Total,mg/L,Ferro Total,010,mg/L,,1,,Nao Informado,,0,,Treinamento SQL,WST,,,,,,,


In [32]:
-- Aplicar operação inversa da pivotagem na tabela field_measurements

SELECT
	Station
	,[fm_date]				AS [Data Amostra]
	,measurement_method		AS [Metodo Amostra]
	,[Parametro]
	,[Resultado Original]
FROM field_measurements$
UNPIVOT
(
	[Resultado Original]
	FOR [Parametro] IN ([ph], [temperature], [conductivity], [zorp], [total_dissolved_solids], [dissolved_oxygen], [zresistivity], [zturbidity], [zpressure])
) AS tabular;

Station,Data Amostra,Metodo Amostra,Parametro,Resultado Original
23,2023-05-07 00:00:00.000,Campo,ph,763
23,2023-05-07 00:00:00.000,Campo,temperature,20
23,2023-05-07 00:00:00.000,Campo,conductivity,1856
23,2023-05-07 00:00:00.000,Campo,zorp,-119
23,2023-05-07 00:00:00.000,Campo,total_dissolved_solids,13643
23,2023-05-07 00:00:00.000,Campo,dissolved_oxygen,62
23,2023-05-07 00:00:00.000,Campo,zresistivity,9788
23,2023-05-07 00:00:00.000,Campo,zturbidity,426
23,2023-05-07 00:00:00.000,Campo,zpressure,9876
23,2023-05-08 00:00:00.000,Campo,ph,669


In [33]:
-- Renomear os parâmetros

WITH field_measurements_renamed AS (
    SELECT
        Station
        ,[fm_date]                      AS [Data Amostra]
        ,[ph]                           AS [pH]
        ,[temperature]                  AS [Temperatura]
        ,[conductivity]                 AS [Condutividade Elétrica]
        ,[zorp]                         AS [ORP]
        ,[total_dissolved_solids]       AS [Solidos Totais Dissolvidos]
        ,[dissolved_oxygen]             AS [Oxigênio Dissolvido]
        ,[zresistivity]                 AS [Resistividade]
        ,[zturbidity]                   AS [Turbidez]
        ,[zpressure]                    AS [Pressão]
        ,[measurement_method]           AS [Metodo Amostra]
    FROM field_measurements$ f
)

SELECT
	Station
	,[Data Amostra]
    ,[Metodo Amostra]
	,[Parametro]
	,[Resultado Original]
FROM field_measurements_renamed
UNPIVOT
(
	[Resultado Original]
	FOR [Parametro] IN (
        [pH], [Temperatura], [Condutividade Elétrica], [ORP], [Solidos Totais Dissolvidos], [Oxigênio Dissolvido], [Resistividade], [Turbidez], [Pressão]
    )
) AS tabular;

Station,Data Amostra,Metodo Amostra,Parametro,Resultado Original
23,2023-05-07 00:00:00.000,Campo,pH,763
23,2023-05-07 00:00:00.000,Campo,Temperatura,20
23,2023-05-07 00:00:00.000,Campo,Condutividade Elétrica,1856
23,2023-05-07 00:00:00.000,Campo,ORP,-119
23,2023-05-07 00:00:00.000,Campo,Solidos Totais Dissolvidos,13643
23,2023-05-07 00:00:00.000,Campo,Oxigênio Dissolvido,62
23,2023-05-07 00:00:00.000,Campo,Resistividade,9788
23,2023-05-07 00:00:00.000,Campo,Turbidez,426
23,2023-05-07 00:00:00.000,Campo,Pressão,9876
23,2023-05-08 00:00:00.000,Campo,pH,669
