<font size="6" face="verdana" color="green">
<img src="Figuras/MBAIABD-Logo.png" width=100/>
    <b>Preparação de dados usando <b>funções de janelamento</b> em SQL</b>
</font>

<br><br>

**Objetivo:** Aprender a usar as <b>funções de janelamento</b> (<i>Window functions</i>) em SQL.\
&emsp;&emsp;&emsp;&emsp;&ensp; Também exploramos um pouco mais a Base de Dados __Fapesp-Covid19__ usando esses recursos.
<br>

## Conectar com a Base de Dados

Para começar, é necessário estabelecer a coneção com uma base. \
 * Vamos aqui usar a base __Fapesp-Covid19__: &nbsp; `FapCov-2103`
 * e trabalhar com todos os hospitais que têm desfecho: `D2`.

In [1]:
############## Importar os módulos necessários para o Notebook:
import matplotlib.pyplot as plt
import pandas.io.sql as psql
from ipywidgets import interact  ##-- Interactors
import ipywidgets as widgets     #---
from sqlalchemy import create_engine

############## Conectar com um servidor SQL ###################### --> Postgres
%load_ext sql

# Connection format: %sql dialect+driver://username:password@host:port/database
engine = create_engine('postgresql://postgres:pgadmin@localhost/FapCov-2103')
%sql postgresql://postgres:pgadmin@localhost/FapCov-2103

%sql SET Search_Path To D2; 

The sql extension is already loaded. To reload it, use:
  %reload_ext sql


ModuleNotFoundError: No module named 'psycopg2'

<br><br>
## Motivação: Executar funções de agregaçào sobre grupos de tuplas mantendo as tuplas originais

A tabela `Pacientes` tem dados demográficos sobre os pacientes, incluindo `CD_Municipio` e `AA_Nascimento`.\
Suponha que se quer saber qual é a idade dos dos pacientes mais novos e mais velhos de cada cidade.\
Como os dados foram coletados em 2021, a idade pode ser obtida a grosso modo como
    <font size="2" face="courier" style="background-color:#E0E0FF;" color="#050505">2021 - AA_Nascimento</font>.

In [None]:
%%sql
SELECT CD_Municipio, Min(2021-AA_Nascimento), Max(2021-AA_Nascimento), Count(*) Totalb
    FROM Pacientes
    WHERE CD_Municipio IN ('BARUERI', 'DIADEMA')
    GROUP BY 1;

Podemos ver graficamente esse resultado:

In [None]:
PacientesStat = psql.read_sql("                                                          \
    SELECT CD_Municipio, Min(2021-AA_Nascimento), Max(2021-AA_Nascimento), Count(*) Tot  \
        FROM D2.Pacientes                                                                \
        GROUP BY 1                                                                       \
        ORDER BY 1 NULLS FIRST;", engine)
PacientesStat.plot(x="cd_municipio", y="tot", kind="barh")
PacientesStat.plot(x="cd_municipio",  y=["min", "max"], kind="barh")
PacientesStat.reindex(index=PacientesStat.index[::-1])

Mas e se quizermos saber os dados de cada um desses pacientes?

Para listar os alunos com as menores e maiores idades usando `GROUP BY`:\
&emsp; &#9758; é necessário ler a relação de alunos duas vezes:

In [None]:
%%sql
SELECT P.Id_Paciente, P.CD_Municipio, P.AA_Nascimento, P.Ic_Sexo, MM.IdMin, MM.idMax
    FROM D2.Pacientes P, (SELECT CD_Municipio, Min(2021-AA_Nascimento) IdMin, Max(2021-AA_Nascimento) IdMax
                           FROM D2.Pacientes
                           GROUP BY CD_Municipio) MM
    WHERE (P.CD_Municipio=MM.CD_Municipio AND (2021-AA_Nascimento)=MM.IdMin) OR
          (P.CD_Municipio=MM.CD_Municipio AND (2021-AA_Nascimento)=MM.IdMax)
    ORDER BY Random()
    LIMIT 10;

Analisando o plano de consulta desse comando, consta-se que são executadas duas buscas sequenciais (`-> Seq Scan`) sobre a tabela `Pacientes`:

In [None]:
%%sql
EXPLAIN SELECT P.Id_Paciente, P.CD_Municipio, P.AA_Nascimento, P.Ic_Sexo, MM.IdMin, MM.idMax
    FROM D2.Pacientes P, (SELECT CD_Municipio, Min(2021-AA_Nascimento) IdMin, Max(2021-AA_Nascimento) IdMax
                           FROM D2.Pacientes
                           GROUP BY CD_Municipio) MM
    WHERE (P.CD_Municipio=MM.CD_Municipio AND (2021-AA_Nascimento)=MM.IdMin) OR
          (P.CD_Municipio=MM.CD_Municipio AND (2021-AA_Nascimento)=MM.IdMax)
    ORDER BY Random()
    LIMIT 10;

Para obter o mesmo resultado usando _Window function_ pode ser emitido o seguinte comando:

In [None]:
%%sql
SELECT P.ID_paciente, P.CD_Municipio, 2021-P.AA_nascimento Idade, P.Ic_Sexo,
          Min(2021-AA_Nascimento) OVER(PARTITION BY P.cd_municipio) IdMin,
          Max(2021-AA_Nascimento) OVER(PARTITION BY P.cd_municipio) IdMax
    FROM D2.Pacientes P
    ORDER BY Random()
    LIMIT 10;

Analisando o plano de consulta desse comando, consta-se que é executada uma única busca sequencial sobre a tabela `Pacientes`, além do plano geral ser bem mais simples:

In [None]:
%%sql
EXPLAIN SELECT P.ID_paciente, P.CD_Municipio, 2021-P.AA_nascimento Idade, P.Ic_Sexo,
          Min(2021-AA_Nascimento) OVER(PARTITION BY P.cd_municipio) IdMin,
          Max(2021-AA_Nascimento) OVER(PARTITION BY P.cd_municipio) IdMax
    FROM D2.Pacientes P
    ORDER BY Random()
    LIMIT 10;

<br><br>

## A condição de filtragem para funções de agregação na cláusula `SELECT`

A opção de filtragem para funções de agregação <font size="3" face="courier" style="background-color:#E0E0FF;" color="#050505">[ FILTER (WHERE <condição>) ]</font>
 estende qualquer função de agregação (não apenas window functions) para contabilizar apenas as tuplas em que a condição é atendida.

Por exemplo: _Quantos pacientes existem no total, quantos têm no máximo 50 anos, e quantos têm mais?_

In [None]:
%%sql
SELECT CD_Municipio, Count(*) AS Total,
       Count(*) FILTER (WHERE (2021-AA_Nascimento)<=50) AS "Até 50",
       Count(*) FILTER (WHERE (2021-AA_Nascimento)>50) AS "Mais de 50"
    FROM D2.Pacientes
    GROUP BY CD_Municipio
    ORDER BY CD_Municipio NULLS FIRST;


Algo está errado aqui:\
&emsp; &#9758; A contagem `total` de tuplas nem sempre é igual à soma de quem tem até 50 anos com quem tem mais.

Vamos ver o que está acontecendo:

In [None]:
%%sql
SELECT * FROM D2.PACIENTES
  WHERE cd_municipio='MANAUS'


Verificamos que o atributo `AA_Nascimento` está nulo nessas tuplas.
<div class="alert alert-block alert-info">
    &#x26A0; Um atributo `NULO` não 'é igual' a nenhum valor, não pode ser comparado por operadores de ordem, e o resultado de qualquer operação que o envolva é sempre `NULO`.
    </div>

Portanto, a quantidade `Total` de tuplas é igual à quantidade de `Pacientes` com até 50 anos, com mais de 50 anos e com idade desconhecida:

In [None]:
%%sql
SELECT CD_Municipio, Count(*) AS Total,
       Count(*) FILTER (WHERE (2021-AA_Nascimento)<=50) AS "Até 50",
       Count(*) FILTER (WHERE (2021-AA_Nascimento)>50) AS "Mais de 50",
       Count(*) FILTER (WHERE AA_Nascimento IS NULL) AS "Desconhecido"
    FROM D2.Pacientes
    GROUP BY CD_Municipio
    ORDER BY CD_Municipio NULLS FIRST;

<br><br>

## As _Window Functions_ em SQL

Qualquer <u>função de agregação</u> pode ser usada como uma <u>função de janelamento</u>, acrescentando <font size="3" face="courier" style="background-color:#E0E0FF;" color="#050505"> &nbsp;OVER() </font> &nbsp; seguindo à função.\
A diferença é que
 * como função de agregação, ela <u>'colapsa' todas as tuplas em uma só</u>, e o valor calculado é colocado no atributo correspondente na <u>única tupla</u> do resultado
    * como função de janelamento, <u>todas as tuplas são mantidas</u>, e o valor calculado é repetido no atributo correspondente em <u>todas as tupla</u> do resultado.
    
Por exemplo: <i>Qual a menor idade entre os pacientes?</i>

In [None]:
%%sql
SELECT Id_Paciente, Min(2021-AA_Nascimento)
    FROM D2.Pacientes
    GROUP BY Id_Paciente
    LIMIT 5;

In [None]:
%%sql
SELECT Id_Paciente, CD_Municipio, 2021-AA_Nascimento, Min(2021-AA_Nascimento) OVER() 
    FROM D2.Pacientes
    LIMIT 5

<br><br>

## As _Window Functions_ em SQL

### O parâmetro `PARTITION BY`

 * Uma partição é indicada por uma lista de atributos (ao menos um).
 * Ela é equivalente ao agrupamento executado pelo comando `GROUP BY`, mas sem colapsar as tuplas em uma só.
 * Tanto a sintaxe do parâmetro `PARTITION BY` quanto sua ação é semelhante às da cláusula `GROUP BY'.
 * Quando não é indicada, a tabela inteira é considerada ser uma partição.

Veja no sequinte exemplo, que 
 * `IdMinC` e `IdMaxC` tem o mesmo valor para todas as tuplas do mesmo `CD_Municipio` e
 * `IdMinT` e `IdMaxT` tem o mesmo valor para todas as tuplas da tabela:

In [None]:
%%sql
SELECT SetSeed(.124);
SELECT P.ID_paciente, P.CD_Municipio, 2021-P.AA_nascimento Idade, 
          Min(2021-AA_Nascimento) OVER(PARTITION BY P.cd_municipio) IdMinC,
          Max(2021-AA_Nascimento) OVER(PARTITION BY P.cd_municipio) IdMaxC,
          Min(2021-AA_Nascimento) OVER() IdMinT,
          Max(2021-AA_Nascimento) OVER() IdMaxT
    FROM D2.Pacientes P
    ORDER BY Random()
    LIMIT 10;

<br><br>

### O parâmetro `ORDER BY`

 * Tanto a sintaxe do parâmetro `ORDER BY` quanto sua ação são semelhantes às da cláusula ORDER BY do comando SELECT, cada partição è ordenada separadamente.
 * __Tuplas parceiras__ (_Peer rows_): São todas as tuplas que têm o mesmo valor que a tupla corrente nos atributos da ordenação.

As seguintes funções atribuem uma <b>Ordem</b> às tuplas de uma partição:
 * ___Row Number():___ Número sequencial da tupla na partição (começa em 1).
 * ___Rank():___ Número sequencial da tupla na partição, repetido para tuplas parceiras. Tem ’pulos’.
 * ___Dense Rank():___ Número sequencial do grupo de tuplas parceiras. Sem ’pulos’.
 
Por exemplo:

In [None]:
%%sql
SELECT ID_paciente, CD_Municipio, 2021-AA_nascimento Idade, 
          Row_Number() OVER(ORDER BY 2021-AA_Nascimento) "R#(Idade)",
          Rank()       OVER(ORDER BY 2021-AA_Nascimento) "Rank(Idade)",
          Dense_Rank() OVER(ORDER BY 2021-AA_Nascimento) "DRank(Idade)",
          Row_Number() OVER(PARTITION BY 2021-AA_Nascimento ORDER BY cd_municipio) "R#(cidade/Idade)",
          Row_Number() OVER(PARTITION BY CD_Municipio ORDER BY 2021-aa_nascimento) "R#(Idade/cidade)"
    FROM D2.Pacientes 
        WHERE CD_Municipio IN ('CAMPOS DO JORDAO', 'DIADEMA') AND AA_Nascimento IS NOT NULL
        ORDER BY 2021-AA_nascimento;

<br><br>

### As <i>Window Frame</i>

As <i>Window Frames</i> permite explicitar como o _frame_ associado a cada tupla é constituido.
 * Somente tem sentido declarar <i>frames</i> se a `ordem` das tuplas for indicada.

Algumas _window functions_ permitem trabalhar com outras tuplas além da tupla corrente dentro de uma mesma partição, relativas à ordem indicada. \
  Por exemplo
  * ___LAG___(<expressão> [,_offset_ [, valor default]])\
    __ORDER BY <expressão da ordem> [ASC | DESC]:__ &emsp;&emsp;&emsp;&emsp; Acessa uma tupla anterior à corrente.
  * ___LEAD___(<expressão> [,_offset_ [, valor default]])\
    __ORDER BY <expressão da ordem> [ASC | DESC]:__ &emsp;&emsp;&emsp;&emsp; Acessa uma tupla posterior à corrente.

Por exemplo:
_Quantos dias de separação existem entre os diversos desfechos que cada paciente pode ter?_
<div class="alert alert-block alert-info">
    &#x26A0; Sempre que um paciente retorna a um atendimento ambulatorial é considerado um atendimento;<br>
             Além disso, um paciente internado pode ter alta e depois ser internado novamente;<br>
             E quando um paciente é transferido de uma clínica à outra, é considerado um desfecho para a clínica da qual ele sai.
    </div>

In [None]:
%%sql
SELECT P.id_paciente, P.ic_sexo,
       '## '||RoW_Number(*)OVER(PARTITION BY P.id_paciente ORDER BY D.dt_atendimento)||'##' "Num Atend", 
       D.dt_atendimento, D.de_clinica, D.de_desfecho,
	   '## '||D.dt_atendimento -  lag(D.dt_atendimento) OVER (PARTITION BY P.id_paciente ORDER BY D.dt_atendimento)  "Sep Entre atendimentos"
    FROM D2.Pacientes P JOIN D2.Desfechos D ON P.ID_Paciente = D.ID_Paciente
    WHERE CD_Municipio ='GUARULHOS'
    ORDER by P.id_paciente, D.dt_atendimento
    LIMIT 20

E se quizermos _contabilizar a separação quantos dias de separação existem entre o primeiro atendimento de um paciente e seu(s) desfecho(s)?_

In [None]:
%%sql
SELECT P.id_paciente, P.ic_sexo,
        '## '||RoW_Number(*)OVER(PARTITION BY P.id_paciente ORDER BY D.dt_atendimento)||'##' "Num Atend", 
       D.dt_atendimento, D.de_clinica, D.de_desfecho,
        '## '||D.dt_atendimento -  lag(D.dt_atendimento) OVER (PARTITION BY P.id_paciente ORDER BY D.dt_atendimento) "Sep Entre atendimentos",
        '## '||D.dt_atendimento -  FIRST_Value(D.dt_atendimento) OVER (PARTITION BY P.id_paciente ORDER BY D.dt_atendimento) "Sep do primeiro"
    FROM D2.Pacientes P JOIN D2.Desfechos D ON P.ID_Paciente = D.ID_Paciente
    WHERE CD_Municipio ='GUARULHOS'
    ORDER by P.id_paciente, D.dt_atendimento
    LIMIT 20

### Avaliando a tabela `ExamLabs`

Podemos aplicar a mesma técnica para sequenciar os exames (e analitos medidos) de cada paciente:

In [None]:
%%sql
SELECT P.id_paciente, P.ic_sexo,
       '## '||RoW_Number(*)OVER(PARTITION BY P.id_paciente ORDER BY E.DT_Coleta)||'##' "Num Atend", 
       E.dE_Exame, CASE WHEN E.de_analito=E.DE_Exame THEN '-=-' ELSE E.de_analito END, E.DT_Coleta,
        '## '||E.DT_Coleta -  lag(E.DT_Coleta) OVER (PARTITION BY P.id_paciente ORDER BY E.DT_Coleta, E.DE_Exame, E.de_analito) "Sep Entre exames",
        '## '||E.DT_Coleta -  FIRST_Value(E.DT_Coleta) OVER (PARTITION BY P.id_paciente ORDER BY E.DT_Coleta, E.DE_Exame, E.de_analito)  "Sep do primeiro"
    FROM D2.Pacientes P JOIN D2.ExamLabs E ON P.ID_Paciente = E.ID_Paciente
    WHERE P.CD_Municipio ='GUARULHOS'
    ORDER by P.id_paciente, E.DT_Coleta, E.DE_Exame, E.de_analito
    LIMIT 20;


Quando se trabalha com exames, é mais interessante juntar os analitos de um mesmo exame em uma mesma tupla, ao invés de deixá-los 'espalhados' em várias tuplas.\
No entanto, para isso é necessário ter um conhecimento médico de quais analitos constituem cada exame.\
Vamos analisar um pouco a base de dados, para obter dados sobre exames de colesterol efetuados.\
Vamos assumir que exames de colesterol têm a palavra `colestol` no nome do exame.

Então podemos perguntar:\
_Quais são os tipos de exame de `colesterol`_ feitos em cada hospital, e quais quantidades existem registradas?

In [None]:
%%sql
SELECT De_Exame, De_Hospital, Count(*) 
    FROM D2.ExamLabs 
    WHERE De_Exame~*'colesterol'
    GROUP BY de_exame, de_hospital

Vamos ter uma idéia desses exames.\
_Quais pacientes em que data de coleta, têm exame de colesterol, digamos exames de LDL?_

In [None]:
%%sql
SELECT E.*
    FROM D2.ExamLabs E JOIN D2.Pacientes P on E.id_paciente = P.ID_Paciente
    WHERE P.CD_Municipio ='GUARULHOS' AND
          E.DE_Exame IN('colesterol - fração ldl', 'ldl - colesterol')


Vamos identificar cada exame de `Colesterol` de cada paciente, com um número sequencial para cada exame do mesmo paciente, e um número sequencial para cada analito medido no mesmo exame:

In [None]:
%%sql
--Listar os analitos usados em exame de colesterol:
SELECT P.id_paciente, E.dt_coleta, E.de_exame, E.de_analito,
         DENSE_RANK() OVER(PARTITION BY P.id_paciente ORDER BY E.dt_coleta) AS ExamNum,
         ROW_NUMBER() OVER(PARTITION BY P.id_paciente, E.dt_coleta, E.de_exame~*'coleste' ORDER BY E.de_analito) AS AnalitoNum
         , E.ID_atendimento, e.DE_origem, E.de_Resultado, E.CD_Unidade, E.DE_Hospital, e.CD_ValorReferencia
    FROM D2.ExamLabs E JOIN D2.Pacientes P on E.id_paciente = P.ID_Paciente
    WHERE P.CD_Municipio IN('GUARULHOS', 'OSASCO') AND 
           E.de_exame ~*'colesterol'
    ORDER BY P.id_paciente, analitonum
    LIMIT 20;


Como se pode ver, é interessante juntar os dados dos diversos analitos de cada exame em uma única tupla.
Lembrando que é possível haver mais de um exame de mesmo tipo feito no mesmo dia, e que não temos como desanbiguar as mesmas medidas feitas no mesmo dia, vamos assumir a média dos valores obtidos para o mesmo analito no mesmo exame realizado no mesmo dia.

A consulta pode ser executada assim:
<div class="alert alert-block alert-info">
    &#x26A0; Essa técnica de __transformar colunas em tuplas__ é chamada <font size="3" face="arial" style="background-color:#D0FFFF;" color="#050505"> &nbsp; Pivotamento de relações &nbsp;</font>.
    </div>

In [None]:
%%sql
SELECT P.id_paciente, E.dt_coleta, -- 1 secs 326 msec. 13 rows affected.
       MAX(E.de_hospital) AS Hospital,
       AVG(E.de_resultado::FLOAT) FILTER(WHERE E.de_analito ~*'ldl' AND E.de_analito!~*'vldl') AS LDL,      -- evitar contar vldl como ldl.
       AVG(E.de_resultado::FLOAT) FILTER(WHERE E.de_analito ~*'hdl') AS HDL, 
       AVG(E.de_resultado::FLOAT) FILTER(WHERE E.de_analito ~*'v.*coles')AS VLDL, 
       AVG(E.de_resultado::FLOAT) FILTER(WHERE E.de_analito ~*'n[aã]o.hdl')AS NaoHDL,                       -- aceita nao e não
       AVG(E.de_resultado::FLOAT) FILTER(WHERE E.de_analito IN('Colesterol total', 'COLESTEROL')) AS Total, -- alguns hospitais usam só colesterol para indicar total.
       MAX(E.cd_unidade) AS Unidade
    FROM D2.ExamLabs E JOIN D2.Pacientes P on E.id_paciente = P.ID_Paciente
    WHERE  P.CD_Municipio IN('GUARULHOS', 'OSASCO') AND
         E.de_exame ~*'coleste' AND 
         E.de_resultado!~'[^\d.,+-]'         -- pode haver texto ao invés de números em alguns registros.
    GROUP BY P.id_paciente, E.dt_coleta
    LIMIT 10;

Note que:
 * nem todos os exames medem todos os analitos
 * a unidade de medida é sempre a mesma.
 
A execução de processos de Mineração de Dados diretamente sobre a Base  __Fapesp-Covid19__ não deve geraar bons resultados.\
Mas a extração de sub-tabelas, por exemplo como 

<br><br>

<font size="4" face="verdana" color="green">
     <b>Preparação de dados usando <b>funções de janelamento</b> em SQL</b>
    </font><br>

<font size="10" face="verdana" color="red">
        <b>FIM</b>&nbsp; <img src="Figuras/MBAIABD-Logo.png" width=100/>
    </font>