# Modelagem de dados básica 🧠

**Bancos de dados relacionais** são a base para SQL e para todos os sistemas de banco de dados modernos, como MSSQL Server, IBM DB2, Oracle, MySQL, Microsoft Access dentre outros.

Um banco de dados relacional é um conjunto coletivo de vários conjuntos de dados organizados por tabelas, registros e colunas. Eles estabelecem uma relação bem definida entre tabelas de banco de dados. As tabelas comunicam e compartilham informações, o que facilita a capacidade de pesquisa, organização de dados e geração de relatórios.

## Modelo de dados lógico
![Data Modeling](../img/aula01/model.png)

## Modelo de dados físico
![Data Modeling](../img/aula01/sql_model.png)

Recomendações de leitura: 📖

Modelagem de dados
- [Modelagem Relacional (uma visão geral)](https://medium.com/blog-do-zouza/modelagem-relacional-uma-vis%C3%A3o-geral-44cd8807fc87)
- [Introduction to Data Modeling for Power BI Video Course - SQLBI](https://www.sqlbi.com/p/introduction-to-data-modeling-for-power-bi-video-course/)
- [What is data modeling?](https://www.techtarget.com/searchdatamanagement/definition/data-modeling)

Um conceito central das bases de dados relacionais é **reduzir a redundância nos dados**, em um processo denominado **normalização**. Isto significa que se pretende que os dados sejam armazenados uma única vez. Se os dados são redundantes, você corre o risco de contradição, reduzindo a integridade dos dados.

**Exemplo 1**

![Exemplo 1](../img/aula01/modelling_example.png)

**Exemplo 2**

![Exemplo 2](../img/aula01/modelling_good.png)

## **Desafios**

> Suponha que o campo *Cota Topo (m)* pudesse sofrer alterações com o tempo...
>  
> Como adaptar o modelo para ser compatível com esta variação ?

*Exemplo:* O ponto P1 teve a `Cota Topo` alterada de 215m para 212m em 01/08/2023...

Proposição:

![Desafio Modelagem](../img/aula01/modelling_challenges.png)

Possível solução:

![Solution type 4](../img/aula01/modelling_challenge_solution.png)

Recomendações de leitura: 📖
- [Slowly changing dimension](https://en.wikipedia.org/wiki/Slowly_changing_dimension#Type_4:_add_history_table)
- [Manipulando Slowly Changing Dimensions (SCD) usando Delta Tables](https://medium.com/blog-do-zouza/manipulando-slowly-changing-dimensions-scd-usando-delta-tables-48e16bfb80ad)
- [Slowly Changing Dimension in Data Warehousing](https://medium.com/@Muhammad7Salah/slowly-changing-dimension-in-data-warehouse-7ca21e0e8c9)

## Spoiler:

Tabela ***toc*** do HGA:

![Tabela Station_TOC HGA](../img/aula01/station_toc.png)

**Tabelas** 🛏

No Azure Data Studio/SSMS, dentro da pasta de tabelas, você encontrará todos os dados brutos armazenados no banco de dados.

Você pode expandir ainda mais as tabelas com o símbolo + para visualizar suas colunas, chaves etc.
Às colunas é atribuído um tipo de dados que não pode ser violado, além de configurada as opções de permitir nulos ou não.

Os tipos de dados mais utilizados são os seguintes:

- nvarchar/varchar - armazenar texto de diferentes tipos
- int - Números inteiros (números inteiros)
- decimal - para as casas decimais de uma precisão determinada
- float - Números de ponto flutuante
- datetime - Datas e horas

Cada tabela deve ter uma **Chave primária** (*PK - Primery Key*) à qual todos os outros campos da tabela estejam relacionados. A PK basicamente é um campo ou conjunto de campos com **valores exclusivos por toda a tabela**. Se isso estiver definido para uma tabela, ela poderá ser visualizada na seção *Chaves* abaixo das tabelas. 🗝

**Esquemas** 👩‍👩‍👦

Objetos dentro de um banco de dados podem ser agrupados em diferentes esquemas. 

Permissões em tabelas são geralmente herdadas de permissões nos esquemas, i.e. se você tem permissão para usar um esquema, você tem permissões para usar todas as tabelas dentro dele. 

# Fundamentos de SQL 💻

A linguagem SQL é dividida em comandos agrupados por sua funcionalidade.

![Grupos SQL](../img/aula01/grupos_sql.png)

Os tipos da linguagem SQL são:

- **DQL - Data Query Language** - Linguagem de Consulta de dados.
    - São os comandos de consulta.
    - Exemplos: `SELECT`, `FROM`
    - Em alguns livros o SELECT fica na DML em outros tem um grupo próprio.
- **DML - Data Manipulation Language** <span style="color: var(--vscode-foreground);">- Linguagem de Manipulação de Dados.</span>
    - <span style="color: var(--vscode-foreground);">São os comandos que interagem com os dados dentro das tabelas.</span>
    - <span style="color: var(--vscode-foreground);">Exemplos:&nbsp;</span> `INSERT`<span style="color: var(--vscode-foreground);">,&nbsp;</span> `DELETE` <span style="color: var(--vscode-foreground);">&nbsp;e&nbsp;</span> `UPDATE`
- DDL - Data Definition Language - Linguagem de Definição de Dados.
    - São os comandos que interagem com os objetos do banco (tabelas, views, triggers _etc_).
    - Exemplos: `CREATE`, `ALTER`, `DROP`, `TRUNCATE`, `RENAME` e `COMMENT`.
- <span style="color: var(--vscode-foreground);">DCL - Data Control Language - Linguagem de Controle de Dados.</span>
    - <span style="color: var(--vscode-foreground);">São os comandos para controlar a parte de segurança do banco de dados.</span>
    - <span style="color: var(--vscode-foreground);">Exemplos:&nbsp;</span> `GRANT`<span style="color: var(--vscode-foreground);">,&nbsp;</span> `REVOKE` <span style="color: var(--vscode-foreground);">&nbsp;e&nbsp;</span> `DENY`<span style="color: var(--vscode-foreground);">.</span>
- DTL - Data Transaction Language - Linguagem de Transação de Dados.
    - São os comandos para controle de transação.
    - Exemplos: `BEGIN TRANSACTION`, `COMMIT` e `ROLLBACK`

### Como o HGA interage com o banco de dados SQL ? 

[Bate Papo - HydroGeo Analyst  e SQL_v0.pdf](https://waterltda.sharepoint.com/:b:/s/WST-DataManagement-DashboardsBI/ESR2OpshceVBtSYrI9XiIdoB7816VIRHnlaocHZeU06gxw?e=Axz5A6)

[[Bate Papo] HGA e SQL-20230425_142119-Gravação de Reunião](https://waterltda.sharepoint.com/:v:/s/WSTTeam/ETRmtQo44y5JpPsJZw026wcB1kyFzcleQnTpKFtKH4m1jg?e=rMPvwX)

![HGA + SQL](../img/aula01/hga_sql.png)

## 1. Como obter dados de um banco SQL ? 👓 

Para iniciarmos nossos estudos utilizaremos a instância de dados do banco **SQL_TREINAMENTO** restaurada.

Uma consulta básica no SQL é composta pela a instrução `SELECT ... FROM`. Estes operadores permitem ler registros de uma ou mais tabelas. A sintaxe básica é mostrada a seguir:

```sql
SELECT
    [column_name_1]
    ,...
    ,[column_name_n]
FROM [schema_name].[table_name]
```

A substituição dos nomes das colunas por * retornará **todas** as colunas no conjunto de dados.

> **DICA:** Durante o desenvolvimento de uma consulta SQL, é uma boa prática fazer uso do operador `TOP` - Digite e execute `SELECT TOP 100 * FROM <table_name>` para retornar os primeiros 100 registros de uma tabela. Retornar apenas as 100 linhas superiores será mais rápido para carregar e permite visualizar as colunas e os tipos de dados na tabela escolhida. 

> **DICA PARA FORMATAÇÃO:** Colocar a vírgula em uma nova linha antes da [column_name] permite que você comente rapidamente as colunas que não deseja visualizar.

> **DICA PARA CÓDIGO DE COMENTÁRIO:** Inserindo `-` na frente dos comentários de código. A tecla de atalho para comentar uma linha ou seleção em massa no SQL é tipicamente `Ctrl-K` então `Ctrl-C`. Para descomentar, faça `Ctrl-K` então `Ctrl-U`.

In [None]:
USE [SQL_TREINAMENTO]
GO

In [None]:
-- Exemplo de comentário
SELECT TOP 5
    [Name]
    ,[zoriginal_name]
    ,[zmatrix]
FROM station
GO

In [None]:
-- Alterando o nome das colunas retornadas
SELECT TOP 5
    Name                  AS [Codigo HGA]
    ,zoriginal_name       AS [Nome Original]
    ,zmatrix              AS [Matriz]
FROM station
GO

### Ordem de execução dos comandos SQL

O SQL Server não faz o processamento dos dados na ordem de escrita, internamente o SQL Server segue a seguinte ordem:

![Execution Order](../img/aula01/execution_order.png)

## 2. Como retornar apenas valores únicos de uma coluna ? 🥢

Se o objetivo for visualizar apenas os valores exclusivos em uma coluna, por exemplo para entender quais são os valores possíveis da coluna, use o comando `DISTINCT`.

**CASO DE USO:** *Quero ver todas as matrizes disponíveis na tabela de pontos.*

In [None]:
-- Retornar as matrizes únicas
SELECT DISTINCT zmatrix FROM station

## 3. Filtrando e classificando dados 👽

Para obter/filtrar registros específicos, ao invés de todos os registros, podemos utilizar o operador `WHERE` adiconalmente a uma instrução `SELECT` ... `FROM`. A sintaxe básica deste operador considera o uso de comparadores como `=`, `<`, `>`, `LIKE` e `BETWEEN`. Para utilizar múltiplos critérios no filtro, utilizamos os operadores `AND` e `OR`.

> **DICA:** O operador `LIKE` permite localizar correspondências de texto parciais, utilizando o caractere curinga `%`. Por exemplo, para localizar todos os parâmetros iniciados com a palavra "Solidos", digite e execute `SELECT * FROM zparameters WHERE zchemical_name LIKE 'Solidos%'`.

Para ordenar os resultados de acordo com uma ou mais colunas, o operador `ORDER BY` pode ser utilizado adiconalmente a uma instrução `SELECT` ... `FROM`. Para determinar a ordem de classificação, utilizamos as palavras chave `ASC` ou `DESC`.

In [None]:
-- Filtro simples
SELECT *
FROM station
WHERE zlocation = 'Mina D'

In [None]:
-- Filtro avançado
SELECT *
FROM station
WHERE 
    ([zlocation] = 'Mina A' OR [zlocation] = 'Mina D')
    -- [zlocation] IN ('Mina A', 'Mina D')
    AND [status] = 'Desativado'

In [None]:
-- Parâmetros iniciados com "Solidos"
SELECT *
FROM zparameters
WHERE zchemical_name LIKE 'Solidos%'

In [None]:
-- Mais exemplos de filtros e ordenação
SELECT
    Station
    ,date_              AS [Data]
    ,depth_             AS [Profundidade (m)]
    ,zwl_elevation      AS [Cota NA (m)]
    ,dry_indicator      AS [Seco?]
    ,zstatus            AS [Status]
    ,zdata_type         AS [Tipo Dado]
    ,zinstrument_type   AS [Tipo Instrumento]
    ,zmeasurement_resp  AS [Resp Medicao]
    ,zfrequency         AS [Periodicidade]
FROM gw_level
WHERE [date_] >= '2023-01-01'
-- WHERE [date_] BETWEEN '2023-01-01' AND '2023-02-01'
ORDER BY [Station], [date_] DESC;

## Criando novas colunas 🥘

Para criar uma coluna adicional na tabela consultada, digite o nome da nova coluna na lista de colunas especificada na instrução `SELECT`.

In [None]:
-- Criar novas colunas
SELECT TOP 5
    Name                  AS [Codigo HGA]
    ,zoriginal_name       AS [Nome Original]
    ,zmatrix              AS [Matriz]
    ,'Nova Coluna'        AS [Nova Coluna]
    -- ,[Nova Coluna] = 'Nova Coluna'
FROM station

## Alterando o tipo de dados das colunas 🔊

Pode ser necessário alterar o tipo de dados das colunas para efetuar determinadas operações, tais como:

1. Mudar para um tipo de dados `INT` ou `FLOAT` para usar funções de agregação como `SUM` e `AVERAGE`.
2. Mudar para um tipo de dados `VARCHAR(n)` ou `NVCARCHAR(n)` para concatenar com outras colunas string/text.
3. Alterando duas colunas de tabelas sendo mescladas para o mesmo tipo de dados para concatená-las!

Para isto é necessário utilizar o comando `CAST()` .

## Exercício: Alterando dado de DATETIME para DATE usando `CAST`

1. Usando a função `GETDATE()` é possível retornar o dia e hora atuais. Como podemos retornar apenas a data ??

**Nota:** _Uma instrução `SELECT` não necessita, obrigatoriamente, de terminar com `FROM <tabela>`._

In [None]:
SELECT GETDATE()

In [None]:
SELECT
    Station
    ,date_                              AS [DataHora]
    ,CAST(date_ AS DATE)                AS [Data]
    ,depth_                             AS [Profundidade (m)]
    ,zwl_elevation                      AS [Cota NA (m)]
    ,dry_indicator                      AS [Seco?]
    ,zstatus                            AS [Status]
FROM gw_level
WHERE [date_] >= '2023-01-01'

In [None]:
-- Retornando a data como mês-ano
SELECT TOP 10
    Station
    ,date_                              AS [DataHora]
    ,CAST(date_ AS DATE)                AS [Data]
    -- ,CAST(MONTH(date_) AS VARCHAR) + '-' + CAST(YEAR(date_) AS VARCHAR)   AS [MesAno]
    ,FORMAT(date_, 'MMM/yy')   AS [MesAno]
    ,depth_                             AS [Profundidade (m)]
    ,zwl_elevation                      AS [Cota NA (m)]
    ,dry_indicator                      AS [Seco?]
    ,zstatus                            AS [Status]
FROM gw_level
WHERE [date_] >= '2023-01-01'

## Como retornar um valor baseado em outra coluna ? 🕹

A função `IIF` permite aplicar o equivalente a uma instrução *if-else* no SQL. 

Também é possível utilizar o operador `CASE WHEN ... THEN ... END`.

> **Dica:** Instruções `CASE WHEN` longas são **indesejáveis** no código SQL. Caso o objetivo seja realizar um cálculo com várias condições lógicas (*if-else*) aninhadas, de forma similar a uma tabela de referência, crie uma tabela de referência, por favor.

In [None]:
SELECT
    Station
    ,sample_id      AS [ID Amostra]
    ,sample_date    AS [Data Amostra]
    ,sample_type    AS [Tipo Amostra]
    ,CASE
        WHEN sample_date <= '2019-01-01' THEN 'Pré Instalação'
        WHEN sample_date <= '2022-05-01' THEN 'Durante Instalação'
        -- Condições adicionais...
        ELSE 'Pós Instalação'
    END             AS [Período]
FROM parameter_sample

## Desafio: Cálculo da **vazão operacional de poços**

Escrever uma consulta SQL para calcular a vazão média de cada poço por dia.

Notebook completo: 📒 [Desafio Aula01](../notebooks/desafios/Aula01_Challenge.ipynb)