# Manipula√ß√£o de dados com SQL ü¶ë

![SQL](../img/aula02/sql_2.png)

## Revis√£o Aula 01

![Grupos SQL](../img/aula01/grupos_sql.png)

Os tipos da linguagem SQL s√£o:

- **DQL - Data Query Language**¬†- Linguagem de Consulta de dados.
    - S√£o os comandos de consulta. Exemplos:¬†`SELECT`,¬†`FROM`
- **DML - Data Manipulation Language**¬†- Linguagem de Manipula√ß√£o de Dados.
    - S√£o os comandos que interagem com os dados dentro das tabelas. Exemplos:¬†`INSERT`,¬†`DELETE`, e `UPDATE`.

### Ordem de execu√ß√£o dos comandos SQL

O SQL Server n√£o faz o processamento dos dados na ordem de escrita, internamente o SQL Server segue a seguinte ordem:

![Execution Order](../img/aula01/execution_order.png)

## Fun√ß√µes de agrega√ß√£o üçπ

Para obter agrega√ß√µes, a partir de dados agregados, como a contagem de todos os registros pertencentes a uma categoria, precisamos utilizar a instru√ß√£o `GROUP BY` combinada com uma das fun√ß√µes de agrega√ß√£o, `SUM()`, `COUNT()`, `AVG()`, `MAX()`,¬†`MIN()` _etc_.

Fun√ß√µes SQL Server:¬†[Aggregate Functions (Transact-SQL) - SQL Server | Microsoft Learn](https:\learn.microsoft.com\en-us\sql\t-sql\functions\aggregate-functions-transact-sql?view=sql-server-ver16)

In [None]:
USE [SQL_TREINAMENTO]
GO

In [None]:
-- Contagem de pontos cadastrados por matriz
SELECT
    zmatrix        AS [Matriz]
    ,COUNT(ID)     AS [Qtde Pontos]
FROM station
-- GROUP BY [Matriz]       -- Syntax error
GROUP BY [zmatrix]
-- ORDER BY COUNT(ID)
-- ORDER BY [Qtde Pontos]

In [None]:
-- Estat√≠sticas do NA subterr√¢neo por ponto
SELECT
    Station
    ,COUNT(Station)         AS [Medi√ß√µes]
    ,MIN(zwl_elevation)     AS [NA Min]
    ,AVG(zwl_elevation)     AS [NA M√©dio]
    ,MAX(zwl_elevation)     AS [NA Max]
FROM gw_level
GROUP BY Station

In [None]:
-- Estat√≠sticas do NA subterr√¢neo por ponto e ano
SELECT
    Station
    ,YEAR(date_)                      AS [Ano]
    ,COUNT(Station)                   AS [Medi√ß√µes]
    ,ROUND(MIN(zwl_elevation), 2)     AS [NA M√≠nimo]
    ,ROUND(AVG(zwl_elevation), 2)     AS [NA M√©dio]
    ,ROUND(MAX(zwl_elevation), 2)     AS [NA M√°ximo]
FROM gw_level
WHERE
    Station IN (88, 89, 93, 203, 208)
GROUP BY Station, YEAR(date_)
ORDER BY Station, [Ano]

Para aplicar filtros aos grupos agregados, n√£o √© poss√≠vel utilizar o operador `WHERE`. Para isto, devemos usar a instru√ß√£o `HAVING`.

> Ex.: Retornar as mesmas estat√≠sticas anteriores, apenas para grupos com mais de 10 observa√ß√µes...

In [None]:
SELECT
    Station
    ,YEAR(date_)                      AS [Ano]
    ,COUNT(Station)                   AS [Medi√ß√µes]
    ,ROUND(MIN(zwl_elevation), 2)     AS [NA M√≠nimo]
    ,ROUND(AVG(zwl_elevation), 2)     AS [NA M√©dio]
    ,ROUND(MAX(zwl_elevation), 2)     AS [NA M√°ximo]
FROM gw_level
WHERE
    Station IN (88, 89, 93, 203, 208)
    AND COUNT(Station) > 10
GROUP BY Station, YEAR(date_)
-- HAVING COUNT(Station) > 10
ORDER BY Station, [Ano]

## Mesclar m√∫ltiplas tabelas - JOINs ü§∫

Para unir v√°rias tabelas e trazer colunas adicionais, faremos uso do operador `JOIN`, na instru√ß√£o `FROM`.

A sintaxe b√°sica √©: `FROM <tabela_A> [LEFT/RIGHT/INNER/FULL] JOIN <tabela_B> ON <tabela_A.coluna_A> = <tabela_B.coluna_B>`

> **DICA:** Quando se executa um `LEFT/RIGHT JOIN` e s√£o retornados mais registros do que haviam inicialmente na tabela *left* ou *right*, possivelmente h√° registros duplicados (**de acordo com o crit√©rio utilizado no JOIN**).

![SQL Join Image](../img/aula02/join_types0.jpg "SQL Join image")

![SQL Join Image](../img/aula02/join_types.png "SQL Join image")

In [None]:
-- Mesmo agrupamento anterior, apenas para os pontos da "Mina B"

SELECT TOP 100 *
FROM gw_level

[...]

In [None]:
SELECT TOP 5 * FROM station
SELECT TOP 5 * FROM gw_level

In [None]:
SELECT 
    vt.Name AS [TableName]
    ,vf.Name AS [FieldName]
    ,vf.[Description]
FROM ViewField vf
    JOIN ViewTable vt
        ON vf.ViewTable_Id = vt.Id
WHERE
    (vt.Name = 'station' AND vf.Name = 'ID')
    OR (vt.Name = 'gw_level' AND vf.Name = 'Station')

In [None]:
-- Referenciar tabelas e colunas correspondentes

SELECT TOP 100
    -- *
    -- [zdata_source]
    station.[Name]
    ,station.[zlocation]
    ,station.[stn_type]
    ,gw_level.[date_]
    ,gw_level.[zwl_elevation]
    ,gw_level.[depth_]
FROM gw_level
    JOIN station    -- INNER
        ON gw_level.Station = station.ID

In [None]:
SELECT
    s.[Name]                                AS [Codigo HGA]
    ,YEAR(gw.date_)                         AS [Ano]
    ,COUNT(gw.Station)                      AS [Medi√ß√µes]
    ,ROUND(MIN(gw.zwl_elevation), 2)        AS [NA M√≠nimo]
    ,ROUND(AVG(gw.zwl_elevation), 2)        AS [NA M√©dio]
    ,ROUND(MAX(gw.zwl_elevation), 2)        AS [NA M√°ximo]
FROM gw_level gw
    INNER JOIN station s
        ON gw.Station = s.ID
WHERE s.zlocation = 'Mina B'
GROUP BY s.[Name], YEAR(gw.date_)

> **DICA:** Quando n√£o se conhece bem a modelagem e a rela√ß√£o entre as tabelas, pode-se utilizar alguma ferramenta de _Query Builder_ (SSMS, Excel, Power BI, **HGA** _etc_).

## `INNER JOIN` _vs_ `LEFT JOIN`

In [None]:
-- INNER JOIN
SELECT COUNT(s.ID) AS [Qtde]
FROM gw_level gw 
    INNER JOIN station s
        ON gw.Station = s.ID

In [None]:
-- LEFT JOIN: gw_level + station
SELECT COUNT(s.ID) AS [Qtde]
FROM gw_level gw 
    LEFT JOIN station s
        ON gw.Station = s.ID

In [None]:
-- LEFT JOIN: station + gw_level
SELECT COUNT(s.ID) AS [Qtde]
FROM station s
    LEFT JOIN gw_level gw
        ON s.ID = gw.Station
-- WHERE gw.Station IS NULL

In [None]:
SELECT TOP 100
    s.Name          AS [Codigo HGA]
    ,l.from_        AS [De (m)]
    ,l.to_          AS [Ate (m)]
    ,l.soil_type    AS [Litologia]
FROM station s
    LEFT JOIN lithology l
        ON s.ID = l.Station
WHERE s.zmatrix = 'Agua Subterranea'

In [None]:
SELECT
    s.Name          AS [Codigo HGA]
    ,s.stn_type     AS [Tipo Ponto]
    ,s.zcomplex     AS [Complexo]
FROM station s
    LEFT JOIN lithology l
        ON s.ID = l.Station
WHERE s.stn_type LIKE 'Poco%'
    AND l.soil_type IS NULL

## "Concatenando" tabelas

Para anexar tabelas contendo os mesmos campos, podemos utilizar o operador `UNION` entre v√°rios `SELECT <coluna_1>...<column_name_n> FROM <tabela>`.

> **DICA:** `UNION` re√∫ne apenas linhas distintas entre as tabelas (remove duplicidades), enquanto `UNION ALL` re√∫ne todas as linhas entre as tabelas, incluindo as duplicadas.

In [None]:
-- Retornar todos os pontos das minas A e D
SELECT 
    [Name]
    ,zmatrix            AS [Matriz]
    ,stn_type           AS [Tipo Ponto]
    ,zlocation          AS [Local]
FROM station
WHERE [zlocation] = 'Mina A'

UNION
-- UNION ALL

SELECT 
    [Name]
    ,zmatrix            AS [Matriz]
    ,stn_type           AS [Tipo Ponto]
    ,zlocation          AS [Local]
    -- ,zcomplex           AS [Complexo]
FROM station
WHERE [zlocation] = 'Mina D'

In [None]:
-- Retornar todos os pontos das minas A e D
SELECT 
    [Name]
    ,zmatrix            AS [Matriz]
    ,stn_type           AS [Tipo Ponto]
    ,zlocation          AS [Local]
FROM station
WHERE [zlocation] IN ('Mina A', 'Mina D')

# Subqueries ü§π‚Äç‚ôÄÔ∏è

Semelhante √†s **tabelas tempor√°rias**, ***subqueries*** s√£o uma maneira alternativa de armazenar resultados tempor√°rios de suas consultas para executar novas consultas na sequ√™ncia.

Para criar uma **_subquery_**, basta criar uma segunda estrutura `SELECT ... FROM ...`, dentro da cl√°usula `...FROM (...) ...` ou `... WHERE (...) ...` da primeira consulta.

> **DICA:** **Subconsultas** √†s vezes s√£o mais dif√≠ceis de ler e entender do que **tabelas tempor√°rias**. O uso de tabelas **tempor√°rias** permite separar sua l√≥gica para criar a tabela em um formato ordenado intuitivamente.

## Exerc√≠cio: Obter resultados de NA do ponto 'WST-88' acima da m√©dia

In [None]:
-- Primeiro passo: Obter a m√©dia do ponto
SELECT AVG(gw.zwl_elevation)        AS [NA M√©dio]
FROM gw_level gw
    INNER JOIN station s
        ON gw.Station = s.ID
WHERE s.[Name] = 'WST-88'

-- Segundo passo: Selecionar novamente o conjunto de resultados,
-- utilizando as m√©dias calculadas
SELECT TOP 100
    s.[Name]            AS [Codigo HGA]
    ,s.[stn_type]       AS [Tipo Ponto]
    ,gw.date_           AS [Data]
    ,gw.zwl_elevation   AS [Cota NA]
FROM gw_level gw
    INNER JOIN station s
        ON gw.Station = s.ID
WHERE zwl_elevation > (
    SELECT AVG(gw.zwl_elevation)        AS [NA M√©dio]
    FROM gw_level gw
        INNER JOIN station s
            ON gw.Station = s.ID
    WHERE s.[Name] = 'WST-88'
)

### üß† **Pr√©-Desafio**:

> ### Como seria poss√≠vel obter os resultados de NA acima da m√©dia para os pontos 'WST-88' e 'WST-205' em uma √∫nica consulta ??

Obs.: N√£o vale usar `UNION`/`UNION ALL` üòí

******

## Tabelas tempor√°rias

### Tipos de tabelas tempor√°rias üç∫üç∑üçπ

**Tabelas tempor√°rias** s√£o √∫teis para consultas mais complicadas em que voc√™ precisa armazenar os resultados de uma transforma√ß√£o de tabela de forma intermedi√°ria para executar outra transforma√ß√£o na sequ√™ncia.

Existem tr√™s tipos de tabelas tempor√°rias no SQL que poder√° criar:
1. Tabela tempor√°ria local
2. ***Common Table Expression* - CTE**
3. Tabela tempor√°ria global

#### i. Tabela tempor√°ria local
Quando voc√™ cria uma tabela tempor√°ria **local**, ela ser√° armazenanda temporariamente em sua sess√£o SQL atual. Dessa forma, podemos executar o trecho do c√≥digo que cria a **tabela tempor√°ria local**, e em seguida, consultar os resultados e realizar diferentes opera√ß√µes de transforma√ß√£o neles depois.

**Importante:** Quando criamos uma tabela **local**, seus resultados podem ser consultados apenas no mesmo painel onde o c√≥digo para cri√°-la foi escrito.

Para criar uma tabela tempor√°ria **local**, utilizamos a instru√ß√£o `INTO #<temp_table_name>` logo antes de escrever a parte `FROM <table_name>...`.

> **DICA:** Uma tabela tempor√°ria **local** n√£o pode ser substitu√≠da, portanto, executar a consulta de cri√°-la novamente resultar√° em um erro. Portanto, a tabela precisa ser exclu√≠da antes de reexecutar a consulta. Uma maneira sucinta de evitar a cria√ß√£o de tabelas tempor√°rias **locais** e, em seguida exclu√≠-las, √© incluir a seguinte linha no topo do seu c√≥digo: `IF OBJECT_ID('tempdb..#<tabela>') IS NOT NULL DROP TABLE #<tabela>`

In [None]:
-- Tabela tempor√°ria local

IF OBJECT_ID('tempdb..#na_medio') IS NOT NULL DROP TABLE #na_medio
GO

SELECT AVG(gw.zwl_elevation)        AS [NA M√©dio]
INTO #na_medio
FROM gw_level gw
    INNER JOIN station s
        ON gw.Station = s.ID
WHERE s.[Name] = 'WST-88'

-- Segundo passo: Selecionar novamente o conjunto de resultados,
-- utilizando as m√©dias calculadas
SELECT TOP 100
    s.[Name]            AS [Codigo HGA]
    ,s.[stn_type]       AS [Tipo Ponto]
    ,gw.date_           AS [Data]
    ,gw.zwl_elevation   AS [Cota NA]
FROM gw_level gw
    INNER JOIN station s
        ON gw.Station = s.ID
WHERE zwl_elevation > (SELECT * FROM #na_medio)

#### ii. Common Table Expression (CTE)
Ao criar uma **CTE**, ela √© armazenada temporariamente na **consulta atual**. Isso significa que os resultados da consulta n√£o podem ser obtidos em uma parte posterior do c√≥digo. Como a **CTE** n√£o existe fora da consulta atual, n√£o h√° necessidade de exclu√≠-la explicitamente quando for necess√°rio cri√°-la novamente.

Para criar uma **CTE**, envolva sua instru√ß√£o `SELECT...` entre par√™nteses do seguinte c√≥digo, `WITH <cte_name> AS ()...`

> **DICA:** √Ä primeira vista, **CTE**s podem parecer inferiores √†s **tabelas tempor√°rias locais**, mas elas s√£o de fato muito poderosas. Devido √† natureza em que eles s√≥ existem dentro da pr√≥pria execu√ß√£o da consulta, eles podem ser usados na defini√ß√£o de **Views**, para inserir em uma tabela criada e como parte da cria√ß√£o de outros objetos SQL. **Tabelas tempor√°rias locais** tipicamente n√£o podem.

In [None]:
WITH na_medio AS (
    SELECT AVG(gw.zwl_elevation)        AS [NA M√©dio]
    FROM gw_level gw
        INNER JOIN station s
            ON gw.Station = s.ID
    WHERE s.[Name] = 'WST-88'
)

SELECT TOP 100
    s.[Name]            AS [Codigo HGA]
    ,s.[stn_type]       AS [Tipo Ponto]
    ,gw.date_           AS [Data]
    ,gw.zwl_elevation   AS [Cota NA]
FROM gw_level gw
    INNER JOIN station s
        ON gw.Station = s.ID
WHERE zwl_elevation > (SELECT * FROM na_medio)

#### iii. Tabela tempor√°ria global
Quando uma tabela tempor√°ria **global** √© criada, ela √© armazenada *permanentemente* no banco de dados, `[tempdb]`, permitindo que outros usu√°rios do mesmo servidor possam acess√°-la Em contraste com as outras duas tabelas tempor√°rias (**tabelas tempor√°rias locais** e **CTEs**), voc√™ precisa excluir explicitamente as tabelas globais.

Criar uma tabela tempor√°ria **global** √© como criar uma tabela tempor√°ria **local**, basta usar a instru√ß√£o `INTO <##temp_table_name>` logo antes de escrever a parte `FROM <###table_name>...`. Observe a √™nfase em dois s√≠mbolos hash, `##`, em vez de apenas um que √© usado para **tabelas tempor√°rias locais**.

> **AVISO:** O banco de dados `[tempdb]` armazena essas tabelas tempor√°rias **global***, e como esse banco de dados √© um pouco invis√≠vel, pois est√° oculto no *Object Explorer* no SSMS, muitas vezes pode-se esquecer de excluir a tabela depois para economizar espa√ßo. Por isso a cria√ß√£o uma tabela tempor√°ria **global** √© raramente aconselh√°vel. 

## Desafio: Dominando subqueries e CTE's

Notebook completo: üìí [Desafio Aula02](../desafios/aula02/Aula02_Challenge.ipynb)