<font size="6" face="verdana" color="green">
    <img src="Figuras/ICMC_Logo.jpg" width=100>&emsp;&emsp;&emsp;
    <img src="Figuras/Gbdi2005.jpg" width=550><br>
    <b>3 - Preparação de dados usando <b>funções de janelamento</b> em SQL</b>
</font><br>
<font size="5" face="verdana" color="green">3.1 - Conceitos, sintaxe e algumas funções interessantes</font>

<br><br>

**Objetivo:** Aprender a usar as <b>funções de janelamento</b> (<i>Window functions</i>) em SQL.\
&emsp;&emsp;&emsp;&emsp;&ensp; Também exploramos um pouco mais a Base de Dados __Fapesp-Covid19__ usando esses recursos.
<br>

## Conectar com a Base de Dados

Para começar, é necessário estabelecer a coneção com uma base. \
 * Vamos aqui usar a base __Fapesp-Covid19__: &nbsp; `FapCov2103`
 * e trabalhar com todos os hospitais que têm desfecho: `D2`.

In [1]:
############## Importar os módulos necessários para o Notebook:
import matplotlib.pyplot as plt
import pandas.io.sql as psql
from ipywidgets import interact  ##-- Interactors
import ipywidgets as widgets     #---
from sqlalchemy import create_engine

############## Conectar com um servidor SQL ###################### --> Postgres
%load_ext sql

# Connection format: %sql dialect+driver://username:password@host:port/database
engine = create_engine('postgresql://postgres:postgres@localhost/FapCov2103')
%sql postgresql://postgres:postgres@localhost/FapCov2103

%sql SET Search_Path To D2; 

 * postgresql://postgres:***@localhost/FapCov2103
Done.


[]

<br><br>
## Motivação: Executar funções de agregação sobre grupos de tuplas mantendo as tuplas originais

A tabela `Pacientes` tem dados demográficos sobre os pacientes, incluindo `CD_Municipio` e `AA_Nascimento`.\
Suponha que se quer saber qual é a idade dos dos pacientes mais novos e mais velhos de cada cidade.\
Como os dados foram coletados em 2021, a idade pode ser obtida a grosso modo como
    <font size="2" face="courier" style="background-color:#E0E0FF;" color="#050505">2021 - AA_Nascimento</font>.

In [None]:
%%sql
SELECT CD_Municipio, Min(2021-AA_Nascimento), Max(2021-AA_Nascimento), Count(*) Totalb
    FROM Pacientes
    --WHERE CD_Municipio IN ('BARUERI', 'DIADEMA')
    GROUP BY 1;

Como já haviamos feito antes, podemos ver graficamente esse resultado para todos os municípios:

In [None]:
PacientesStat = psql.read_sql("                                                          \
    SELECT CD_Municipio, Min(2021-AA_Nascimento), Max(2021-AA_Nascimento), Count(*) Tot  \
        FROM D2.Pacientes                                                                \
        GROUP BY 1                                                                       \
        ORDER BY 1 DESC NULLS LAST;", engine)
PacientesStat.plot(x="cd_municipio", y="tot", kind="barh", title="Quantidade por município")
PacientesStat.plot(x="cd_municipio",  y=["min", "max"], kind="barh", title="Menor e maior idade de cada município")

Mas e se quizermos saber os dados de cada um desses pacientes (no slide: alunos)?

Para listar os pacientes com as menores e as maiores idades usando `GROUP BY`:\
&emsp; &#9758; é necessário ler a relação de pacientes duas vezes:

In [None]:
%%sql
SELECT P.Id_Paciente, P.CD_Municipio, P.AA_Nascimento, P.Ic_Sexo, MM.IdMin, MM.idMax, 2021-AA_Nascimento Idade
    FROM D2.Pacientes P,
         (SELECT CD_Municipio, Min(2021-AA_Nascimento) IdMin, Max(2021-AA_Nascimento) IdMax
              FROM D2.Pacientes
              GROUP BY CD_Municipio) MM
    WHERE (P.CD_Municipio=MM.CD_Municipio AND (2021-AA_Nascimento)=MM.IdMin) OR
          (P.CD_Municipio=MM.CD_Municipio AND (2021-AA_Nascimento)=MM.IdMax)
    ORDER BY Random()
    LIMIT 10;

Vamos verificar o plano de consulta gerado para executar essa consulta:

In [None]:
%sql Plano << EXPLAIN                                                                         \
  SELECT P.Id_Paciente, P.CD_Municipio, P.AA_Nascimento, P.Ic_Sexo, MM.IdMin, MM.idMax        \
    FROM D2.Pacientes P,                                                                      \
         (SELECT CD_Municipio, Min(2021-AA_Nascimento) IdMin, Max(2021-AA_Nascimento) IdMax   \
              FROM D2.Pacientes                                                               \
              GROUP BY CD_Municipio) MM                                                       \
    WHERE (P.CD_Municipio=MM.CD_Municipio AND (2021-AA_Nascimento)=MM.IdMin) OR               \
          (P.CD_Municipio=MM.CD_Municipio AND (2021-AA_Nascimento)=MM.IdMax)                  \
    ORDER BY Random()                                                                         \
    LIMIT 10;

for i in range(0,len(Plano)):
    print(i+1,Plano[i])

Analisando o plano de consulta desse comando, consta-se que são executadas:
 * duas buscas sequenciais (`-> Seq Scan`) sobre a tabela `Pacientes` nas linhas 7 e 12.

O plano corresponde à execução dos seguintes operadores (indicados por `->`):
 * Linha 12: Busca sequencial sobre todas as tuplas de `Pacientes`
 * Linha 10: Executa o agrupamento usando _hash_ sobre o atributo `pacientes.cd_municipio` (linha 11)
 * Linha 9: Materializa a subquery `MM`
 * Linha 8: Cria um _hash_ sobre `MM`
 * Linha 7: Faz outra busca sequencial sobre todas as tuplas de `Pacientes`
 * Linha 4: Faz a junção do resultado da linha 7 com o resultado da linha 4 (note que os dois `->` estão na mesma indentação, e portanto no mesmo nível da árvore de operadores)<br>
   A condição de junção está indicada na linha 5, e<br>
   as seleções de filtragem estão indicadas na linha 6
 * Linha 2: Ordena os resultados da junção:<br>
   O critério de ordenação é aleatório, como indicado na linha 3
 * Linha 1: limita o resultado a 10 tuplas (_`rows=10`_)

O mesmo resultado pode ser obtido usando uma ___Window function___, emitindo o seguinte comando:

In [None]:
%%sql
SELECT P.ID_paciente, P.CD_Municipio, 2021-P.AA_nascimento Idade, P.Ic_Sexo,
          Min(2021-AA_Nascimento) OVER(PARTITION BY P.cd_municipio) IdMin,
          Max(2021-AA_Nascimento) OVER(PARTITION BY P.cd_municipio) IdMax
    FROM D2.Pacientes P
    ORDER BY Random()
    LIMIT 10;

Analisando o plano de consulta desse comando, constata-se que é executada uma única busca sequencial sobre a tabela `Pacientes`, além do plano geral ser bem mais simples, sem usar nenhuma junção:

In [None]:
%sql Plano << EXPLAIN                                                                \
  SELECT P.ID_paciente, P.CD_Municipio, 2021-P.AA_nascimento Idade, P.Ic_Sexo, \
          Min(2021-AA_Nascimento) OVER(PARTITION BY P.cd_municipio) IdMin,           \
          Max(2021-AA_Nascimento) OVER(PARTITION BY P.cd_municipio) IdMax            \
    FROM D2.Pacientes P                                                              \
    ORDER BY Random()                                                                \
    LIMIT 10;

for i in range(0,len(Plano)):
    print(i+1,Plano[i])

<br><br>

## A condição de filtragem <font size="5" face="courier" style="background-color:#80FFFF;">[FILTER (WHERE $<$condição$>$)]</font> para funções de agregação na cláusula `SELECT`

A opção de filtragem para funções de agregação estende qualquer função de agregação (não apenas window functions) para contabilizar somente as tuplas em que a condição é atendida.

Por exemplo: _Quantos pacientes existem no total, quantos têm no máximo 50 anos, e quantos têm mais?_

In [None]:
%%sql
SELECT CD_Municipio, Count(*) AS Total,
       Count(*) FILTER (WHERE (2021-AA_Nascimento)<=50) AS "Até 50",
       Count(*) FILTER (WHERE (2021-AA_Nascimento)>50) AS "Mais de 50"
    FROM D2.Pacientes
    GROUP BY CD_Municipio
    ORDER BY CD_Municipio NULLS FIRST;


Mas <font color="red">algo está errado aqui!</font>\
&emsp; &#9758; A contagem `total` de tuplas nem sempre é igual à soma de quem tem até 50 anos com quem tem mais.

Vamos ver o que está acontecendo:

In [None]:
%%sql
SELECT * FROM D2.PACIENTES
  WHERE cd_municipio='MANAUS'


Verificamos que o atributo `AA_Nascimento` está __nulo__ em muitas tuplas.
<div class="alert alert-block alert-info">
    &#x26A0; Um atributo `NULO` não 'é igual' a nenhum valor, não pode ser comparado por operadores de ordem, e o resultado de qualquer operação que o envolva é sempre `NULO`.
    </div>

Portanto, a quantidade `Total` de tuplas é igual à quantidade de `Pacientes` com até 50 anos, com mais de 50 anos e com idade desconhecida:

In [None]:
%%sql
SELECT CD_Municipio, Count(*) AS Total,
       Count(*) FILTER (WHERE (2021-AA_Nascimento)<=50) AS "Até 50",
       Count(*) FILTER (WHERE (2021-AA_Nascimento)>50) AS "Mais de 50",
       Count(*) FILTER (WHERE AA_Nascimento IS NULL) AS "Desconhecido"
    FROM D2.Pacientes
    GROUP BY CD_Municipio
    ORDER BY CD_Municipio NULLS FIRST;

<br><br>

## As _Window Functions_ em SQL

Qualquer <u>função de agregação</u> pode ser usada como uma <u>função de janelamento</u>, acrescentando <font size="3" face="courier" style="background-color:#E0E0FF;" color="#050505"> &nbsp;OVER() </font> &nbsp; seguindo à função.\
A diferença é que
 * como função de agregação, ela <u>'colapsa' todas as tuplas em uma só</u>, e o valor calculado é colocado no atributo correspondente na <u>única tupla</u> do resultado
    * como função de janelamento, <u>todas as tuplas são mantidas</u>, e o valor calculado é repetido no atributo correspondente em <u>todas as tupla</u> do resultado.
    
Por exemplo: <i>Qual a menor idade entre os pacientes de cada `Município`?</i>

In [None]:
%%sql
SELECT CD_Municipio, Min(2021-AA_Nascimento)
    FROM D2.Pacientes
    GROUP BY CD_Municipio
    LIMIT 10;

Usando as _window functions_ podemos particionar as tuplas de maneira independente por cidade, de maneira que cada tupla tem o valor da menor idade de seu município, mas preserva todos os seus dados, incluindo a sua idade:

In [None]:
%%sql
SELECT Id_Paciente, CD_Municipio, 2021-AA_Nascimento Idade, 
       Min(2021-AA_Nascimento) OVER(PARTITION BY CD_Municipio) "Menor Idade"
    FROM D2.Pacientes
    ORDER BY Random()
    LIMIT 10;

Cada _window function_ pode particionar as tuplas de maneira independente das demais, até no mesmo comando.\
Na consulta seguinte, acrescentamos quantas tuplas têm aquela `Idade`:

In [None]:
%%sql
SELECT Id_Paciente, CD_Municipio, 2021-AA_Nascimento, 
       Min(2021-AA_Nascimento) OVER(PARTITION BY CD_Municipio),
       Count(2021-AA_Nascimento) OVER(PARTITION BY AA_Nascimento)
    FROM D2.Pacientes
    ORDER BY Random()
    LIMIT 10;

<br><br>

## As _Window Functions_ em SQL

### O parâmetro `PARTITION BY`

 * Uma partição é indicada por uma lista de atributos (ao menos um).
 * Ela é equivalente ao agrupamento executado pelo comando `GROUP BY`, mas sem colapsar as tuplas em uma só.
 * Tanto a sintaxe do parâmetro `PARTITION BY` quanto sua ação é semelhante às da cláusula `GROUP BY'.
 * Quando não é indicada, a tabela inteira é considerada ser uma partição.

Veja no sequinte exemplo, que 
 * `IdMinC` e `IdMaxC` tem o mesmo valor para todas as tuplas do mesmo `CD_Municipio` e
 * `IdMinT` e `IdMaxT` tem o mesmo valor para todas as tuplas da tabela:

In [None]:
%%sql
SELECT SetSeed(.124);
SELECT P.ID_paciente, P.CD_Municipio, 2021-P.AA_nascimento Idade, 
          Min(2021-AA_Nascimento) OVER(PARTITION BY P.cd_municipio) IdMinC,
          Max(2021-AA_Nascimento) OVER(PARTITION BY P.cd_municipio) IdMaxC,
          Min(2021-AA_Nascimento) OVER() IdMinT,
          Max(2021-AA_Nascimento) OVER() IdMaxT
    FROM D2.Pacientes P
    ORDER BY Random()
    LIMIT 10;

<br><br>

### O parâmetro `ORDER BY`

 * Tanto a sintaxe do parâmetro `ORDER BY` quanto sua ação são semelhantes às da cláusula ORDER BY do comando SELECT, cada partição è ordenada separadamente.
 * __Tuplas parceiras__ (_Peer rows_): São todas as tuplas que têm o mesmo valor que a tupla corrente nos atributos da ordenação.

As seguintes funções atribuem uma <b>Ordem</b> às tuplas de uma partição:
 * ___Row Number():___ Número sequencial da tupla na partição (começa em 1).
 * ___Rank():___ Número sequencial da tupla na partição, repetido para tuplas parceiras. Tem ’pulos’.
 * ___Dense Rank():___ Número sequencial do grupo de tuplas parceiras. Sem ’pulos’.
 
Por exemplo:

In [None]:
%%sql
SELECT ID_paciente, CD_Municipio, 2021-AA_nascimento Idade, 
          Row_Number() OVER(ORDER BY 2021-AA_Nascimento) "R#(Idade)",
          Rank()       OVER(ORDER BY 2021-AA_Nascimento) "Rank(Idade)",
          Dense_Rank() OVER(ORDER BY 2021-AA_Nascimento) "DRank(Idade)",
          Row_Number() OVER(PARTITION BY 2021-AA_Nascimento ORDER BY cd_municipio) "R#(cidade/Idade)",
          Row_Number() OVER(PARTITION BY CD_Municipio ORDER BY 2021-aa_nascimento) "R#(Idade/cidade)"
    FROM D2.Pacientes 
        WHERE CD_Municipio IN ('CAMPOS DO JORDAO', 'DIADEMA') AND AA_Nascimento IS NOT NULL
        ORDER BY 2021-AA_nascimento;

<br><br>

### As <i>Window Frame</i>

As <i>Window Frames</i> permite explicitar como o _frame_ associado a cada tupla é constituido.
 * Somente tem sentido declarar <i>frames</i> se a `ordem` das tuplas for indicada.

Algumas _window functions_ permitem trabalhar com outras tuplas além da tupla corrente dentro de uma mesma partição, relativas à ordem indicada. \
  Por exemplo
  * ___LAG___(<expressão> [,_offset_ [, valor default]])\
    __ORDER BY <expressão da ordem> [ASC | DESC]:__ &emsp;&emsp;&emsp;&emsp; Acessa uma tupla anterior à corrente.
  * ___LEAD___(<expressão> [,_offset_ [, valor default]])\
    __ORDER BY <expressão da ordem> [ASC | DESC]:__ &emsp;&emsp;&emsp;&emsp; Acessa uma tupla posterior à corrente.

Por exemplo:
_Quantos dias de separação existem entre os diversos desfechos que cada paciente pode ter?_
<div class="alert alert-block alert-info">
    &#x26A0; Sempre que um paciente retorna a um atendimento ambulatorial é considerado um atendimento;<br>
             Além disso, um paciente internado pode ter alta e depois ser internado novamente;<br>
             E quando um paciente é transferido de uma clínica à outra, é considerado um desfecho para a clínica da qual ele sai.
    </div>

In [None]:
%%sql
SELECT P.id_paciente, P.ic_sexo,
       '## '||RoW_Number(*)OVER(PARTITION BY P.id_paciente ORDER BY D.dt_atendimento)||'##' "Num Atend", 
       D.dt_atendimento, D.de_clinica, D.de_desfecho,
       '## '||D.dt_atendimento -  lag(D.dt_atendimento) OVER (PARTITION BY P.id_paciente ORDER BY D.dt_atendimento)  "Sep Entre atendimentos"
    FROM D2.Pacientes P JOIN D2.Desfechos D ON P.ID_Paciente = D.ID_Paciente
    WHERE CD_Municipio ='GUARULHOS'
    ORDER by P.id_paciente, D.dt_atendimento
    LIMIT 20

E se quizermos _contabilizar a separação quantos dias de separação existem entre o primeiro atendimento de um paciente e seu(s) desfecho(s)?_

In [None]:
%%sql
SELECT P.id_paciente, P.ic_sexo,
        '## '||RoW_Number(*)OVER(PARTITION BY P.id_paciente ORDER BY D.dt_atendimento)||'##' "Num Atend", 
       D.dt_atendimento, D.de_clinica, D.de_desfecho,
        '## '||D.dt_atendimento -  lag(D.dt_atendimento) OVER (PARTITION BY P.id_paciente ORDER BY D.dt_atendimento) "Sep Entre atendimentos",
        '## '||D.dt_atendimento -  FIRST_Value(D.dt_atendimento) OVER (PARTITION BY P.id_paciente ORDER BY D.dt_atendimento) "Sep do primeiro"
    FROM D2.Pacientes P JOIN D2.Desfechos D ON P.ID_Paciente = D.ID_Paciente
    WHERE CD_Municipio ='GUARULHOS'
    ORDER by P.id_paciente, D.dt_atendimento
    LIMIT 20

### Avaliando a tabela `ExamLabs`

Podemos aplicar a mesma técnica para sequenciar os exames (e analitos medidos) de cada paciente:

In [None]:
%%sql
SELECT P.id_paciente,  E.DT_Coleta, P.ic_sexo,
       '## '||RoW_Number(*)OVER(PARTITION BY P.id_paciente ORDER BY E.DT_Coleta::DATE)||'##' "Num Atend", 
       E.dE_Exame, CASE WHEN E.de_analito=E.DE_Exame THEN '-=-' ELSE E.de_analito END,
        '## '||E.DT_Coleta::DATE -  lag(E.DT_Coleta::DATE) OVER (PARTITION BY P.id_paciente ORDER BY E.DT_Coleta::DATE, E.DE_Exame, E.de_analito) "Sep Entre exames",
        '## '||E.DT_Coleta::DATE -  FIRST_Value(E.DT_Coleta::DATE) OVER (PARTITION BY P.id_paciente ORDER BY E.DT_Coleta::DATE, E.DE_Exame, E.de_analito)  "Sep do primeiro"
    FROM D2.Pacientes P JOIN D2.ExamLabs E ON P.ID_Paciente = E.ID_Paciente
    WHERE P.CD_Municipio ='GUARULHOS'
    ORDER by P.id_paciente, E.DT_Coleta::DATE, E.DE_Exame, 3 -- E.de_analito
    LIMIT 20;


Quando se trabalha com exames, é mais interessante juntar os analitos de um mesmo exame em uma mesma tupla, ao invés de deixá-los 'espalhados' em várias tuplas.\
No entanto, para isso é necessário ter um conhecimento médico de quais analitos constituem cada exame.\
Vamos analisar um pouco a base de dados, para obter dados sobre exames de colesterol efetuados.\
Vamos assumir que exames de colesterol têm a palavra `colestol` no nome do exame.

Então podemos perguntar:\
_Quais são os tipos de exame de `colesterol`_ feitos em cada hospital, e quais quantidades existem registradas?

In [None]:
%%sql
SELECT ' ', DE_Exame, DE_Hospital, Count(*) 
    FROM D2.Examlabs
    WHERE DE_Exame~*'coleste'
    GROUP BY DE_Exame, DE_Hospital
      UNION
SELECT 'Total', '-----', '----', Count(*) 
    FROM D2.Examlabs
    WHERE De_Exame~*'coleste'
    ORDER BY 1, DE_Exame;

Vamos ter uma idéia desses exames.\
_Quais pacientes em que data de coleta, têm exame de colesterol, digamos exames de LDL?_

In [None]:
%%sql
SELECT E.*
    FROM D2.ExamLabs E JOIN D2.Pacientes P on E.id_paciente = P.ID_Paciente
    WHERE P.CD_Municipio ='GUARULHOS' AND
          E.DE_Exame IN('colesterol - fração ldl', 'ldl - colesterol')


Vamos identificar cada exame de `Colesterol` de cada paciente, com um número sequencial para cada exame do mesmo paciente, e um número sequencial para cada analito medido no mesmo exame:

In [10]:
%%sql
--Listar os analitos usados em exame de colesterol:
SELECT P.id_paciente, E.dt_coleta, E.de_exame, E.de_analito,
         '## '|| DENSE_RANK() OVER(PARTITION BY P.id_paciente ORDER BY E.dt_coleta)||' ##' AS ExamNum,
         '## '|| ROW_NUMBER() OVER(PARTITION BY P.id_paciente, E.dt_coleta, E.de_exame~*'coleste' ORDER BY E.de_analito)||' ##' AS AnalitoNum
         , E.ID_atendimento, e.DE_origem, E.de_Resultado, E.CD_Unidade, E.DE_Hospital, e.CD_ValorReferencia
    FROM D2.ExamLabs E JOIN D2.Pacientes P on E.id_paciente = P.ID_Paciente
    WHERE P.CD_Municipio IN('GUARULHOS', 'OSASCO') AND 
           E.de_exame ~*'colesterol'
    ORDER BY P.id_paciente, analitonum
    LIMIT 20;

 * postgresql://postgres:***@localhost/FapCov2103
20 rows affected.


id_paciente,dt_coleta,de_exame,de_analito,examnum,analitonum,id_atendimento,de_origem,de_resultado,cd_unidade,de_hospital,cd_valorreferencia
08BB3C593C1A43D31454CD772A7108BE,2020-08-23,"Colesterol não-HDL, soro","Colesterol não-HDL, soro",## 1 ##,## 1 ##,916C6A334FC9C25381FEF8AF44FFD06F,Recepção do Centro Diagnóstico,107,mg/dL,HSL,menor que 130
08BB3C593C1A43D31454CD772A7108BE,2020-08-23,Colesterol Total,Colesterol total,## 1 ##,## 2 ##,916C6A334FC9C25381FEF8AF44FFD06F,Recepção do Centro Diagnóstico,144,mg/dL,HSL,menor que 190
08BB3C593C1A43D31454CD772A7108BE,2020-08-23,Colesterol - Fração HDL,HDL-Colesterol,## 1 ##,## 3 ##,916C6A334FC9C25381FEF8AF44FFD06F,Recepção do Centro Diagnóstico,37,mg/dL,HSL,maior que 40
08BB3C593C1A43D31454CD772A7108BE,2020-08-23,Colesterol Total e Frações,LDL Colesterol,## 1 ##,## 4 ##,916C6A334FC9C25381FEF8AF44FFD06F,Recepção do Centro Diagnóstico,91,mg/dL,HSL,menor que 100
08BB3C593C1A43D31454CD772A7108BE,2020-08-23,Colesterol - Fração LDL,VLDL-Colesterol,## 1 ##,## 5 ##,916C6A334FC9C25381FEF8AF44FFD06F,Recepção do Centro Diagnóstico,160,mg/dL,HSL,< 30
0A3216B3230B58D4B7D71638C1368C3A,2021-01-14,Colesterol Total - URG,Colesterol total,## 1 ##,## 1 ##,2CA6069DD17E03F3623E683855F0D1E8,Recepção do Centro Diagnóstico,166,mg/dL,HSL,menor que 190
0A3216B3230B58D4B7D71638C1368C3A,2021-01-14,Colesterol - Fracao HDL,Hdl-Colesterol,## 1 ##,## 2 ##,2CA6069DD17E03F3623E683855F0D1E8,Recepção do Centro Diagnóstico,44,mg/dL,HSL,maior que a 40
0A3216B3230B58D4B7D71638C1368C3A,2021-01-14,Colesterol - Fração LDL,LDL Colesterol,## 1 ##,## 3 ##,2CA6069DD17E03F3623E683855F0D1E8,Recepção do Centro Diagnóstico,103,mg/dL,HSL,menor que 100
0A3216B3230B58D4B7D71638C1368C3A,2021-01-14,Colesterol - Fração VLDL,V-Colesterol,## 1 ##,## 4 ##,2CA6069DD17E03F3623E683855F0D1E8,Recepção do Centro Diagnóstico,190,mg/dL,HSL,< 30
0EC54431EC9E2B92847628FC9DD4BF1B,2021-04-12,Colesterol Total - URG,Colesterol total,## 1 ##,## 1 ##,BF3BC4F83BC36AFC6C1B919E59CC6D64,Recepção do Centro Diagnóstico,132,mg/dL,HSL,menor que 190



Como se pode ver, é interessante juntar os dados dos diversos analitos de cada exame em uma única tupla.
Lembrando que é possível haver mais de um exame de mesmo tipo feito no mesmo dia, e que não temos como desanbiguar as mesmas medidas feitas no mesmo dia, vamos assumir a média dos valores obtidos para o mesmo analito no mesmo exame realizado no mesmo dia.

A consulta pode ser executada assim:
<div class="alert alert-block alert-info">
    &#x26A0; Essa técnica de __transformar colunas em tuplas__ é chamada <font size="3" face="arial" style="background-color:#D0FFFF;" color="#050505"> &nbsp; Pivotamento de relações &nbsp;</font>.
    </div>

In [9]:
%%sql
SELECT P.id_paciente, E.dt_coleta, -- 1 secs 326 msec. 13 rows affected.
       MAX(E.de_hospital) AS Hospital,
       AVG(regexp_replace(E.de_resultado, ',', '.')::FLOAT) FILTER(WHERE E.de_analito ~*'ldl' AND E.de_analito!~*'vldl') AS LDL,      -- evitar contar vldl como ldl.
       AVG(regexp_replace(E.de_resultado, ',', '.')::FLOAT) FILTER(WHERE E.de_analito ~*'hdl') AS HDL, 
       AVG(regexp_replace(E.de_resultado, ',', '.')::FLOAT) FILTER(WHERE E.de_analito ~*'v.*coles')AS VLDL, 
       AVG(regexp_replace(E.de_resultado, ',', '.')::FLOAT) FILTER(WHERE E.de_analito ~*'n[aã]o.hdl')AS NaoHDL,                       -- aceita nao e não
       AVG(regexp_replace(E.de_resultado, ',', '.')::FLOAT) FILTER(WHERE E.de_analito IN('Colesterol total', 'COLESTEROL')) AS Total, -- alguns hospitais usam só colesterol para indicar total.
       MAX(E.cd_unidade) AS Unidade
    FROM D2.ExamLabs E JOIN D2.Pacientes P on E.id_paciente = P.ID_Paciente
    WHERE  P.CD_Municipio IN('GUARULHOS', 'OSASCO') AND
         E.de_exame ~*'coleste' AND 
         E.de_resultado!~'[^\d.,+-]'         -- pode haver texto ao invés de números em alguns registros.
    GROUP BY P.id_paciente, E.dt_coleta
    LIMIT 10;

 * postgresql://postgres:***@localhost/FapCov2103
10 rows affected.


id_paciente,dt_coleta,hospital,ldl,hdl,vldl,naohdl,total,unidade
08BB3C593C1A43D31454CD772A7108BE,2020-08-23,HSL,91.0,72.0,16.0,107.0,144.0,mg/dL
0A3216B3230B58D4B7D71638C1368C3A,2021-01-14,HSL,103.0,44.0,19.0,,166.0,mg/dL
0EC54431EC9E2B92847628FC9DD4BF1B,2021-04-12,HSL,62.0,56.0,14.0,,132.0,mg/dL
156D90D185ABF17E40984343903A8A9E,2020-08-26,HSL,,41.0,,,134.0,mg/dL
1954BE6F4D09B711242EE2E14C49AED1,2020-03-10,HSL,116.0,112.5,22.0,138.0,225.0,mg/dL
1D1A77411D4501D5E77D9390A8ABFDED,2020-06-22,HSL,54.0,58.0,18.0,72.0,116.0,mg/dL
23E6BCB19CC55A2705F94274A406F30F,2021-01-27,HSL,75.0,77.0,21.0,96.0,154.0,mg/dL
24457BF1DEF82E6983B5973FC2A3C3C3,2020-08-20,HSL,95.0,74.0,24.0,119.0,148.0,mg/dL
25DBA6EF6AA9689454E0013BC8C4F20A,2021-05-12,HSL,138.0,96.0,17.0,155.0,192.0,mg/dL
297F81BE3D052E38CC503F1A733766CB,2020-05-10,HSL,154.0,119.5,20.0,174.0,239.0,mg/dL


Note que:
 * nem todos os exames medem todos os analitos
 * a unidade de medida é sempre a mesma.
 
A execução de processos de Mineração de Dados diretamente sobre a Base  __Fapesp-Covid19__ não deve gerar bons resultados.\
Mas a extração de sub-tabelas, por exemplo como uma tabela de __Exames de colesterol__ ou uma tabela de resultados de __Exames de Covid_ associada a desfecho e a separação em dias entre cada exame e o desfecho pode prover resultados interessantes.

<br><br>

---

<br><br>

Vamos considerar exames específicos para __Covid__. \
Os resultados no atributo `DE_Resultado` desses exames podem ser essencialmente:\
 * Positivo
 * Negativo
 * Indeterminado
 
No entanto, existem vários tipos de exames e nomes para eles no atributo `DE_Exame`, \
ao mesmo tempo em que vários valores podem descrever esses resultados no atributo `DE_Resultado`.\
Para facilitar a análise, vamos registrar esses resultados de maneira persistente no nosso 'atributo-extra' `DE_ResultNum` de tipo númérico.\
Para registrar um número que representa esses códigos, vamos ver a faixa de valores numéricos efetivamente usados para os atributos em que `DE_Resultado` tem de fato valor numérico:

In [None]:
%%sql
SELECT MIN(DE_ResultNum), MAX(DE_ResultNum)
    FROM D2.ExamLabs
    WHERE DE_ResultNum>-999; -- só para garantir a faiza original, caso os códigos de exames de covid já tenham sido inseridos!

Como não existe nenhyum valor negativo abaixo de -32, podemos definir, por exemplo, os seguintes códigos:
 * Positivo: -1000
 * Negativo: -1111
 * Indeterminado: -1234
 * Texto sem significado: -2222

In [None]:
%%sql
UPDATE D2.ExamLabs
    SET DE_ResultNum = CASE WHEN  de_resultado ~*'detectados anticorpos' THEN -1000
            WHEN  de_resultado ~*'(n.o detectado)|(n.o reagente)|(negativo)|(ausencia de anticorpos)' THEN -1111
            WHEN  de_resultado ~*'(detectado)|(reagente)|(positivo)' THEN -1000
            WHEN  de_resultado ~*'(indetect.avel)|(inconclusivo)' THEN -1234
            ELSE -2222 END
    WHERE  De_Exame ~* '(covid)|(sars.cov.2)|(corona)';

Com esse atributo, podemos perguntar: _Liste os dados dos exames e __quantas medidas (`DE_Exames` e `DE_Analito`) diferentes estão associadas a cada paciente numa mesma data)___

In [None]:
%%sql
SELECT DE_resultnum, id_paciente, DT_Coleta, de_exame, de_analito,
       Count(*) OVER(PARTITION BY (ID_Paciente, ID_Atendimento, DT_Coleta) 
                     ORDER BY DT_Coleta::DATE 
                     RANGE BETWEEN INTERVAL '0' DAY PRECEDING AND INTERVAL '0' DAY FOLLOWING), DE_Resultado
    FROM D2.examLabs 
    WHERE  de_resultnum IN(-1000, -1111)
       AND ID_Paciente>'0024B75338C32F6E'
    ORDER BY ID_Paciente, DT_Coleta, de_resultnum
    LIMIT 20

<br><br>

<font size="4" face="verdana" color="green">
     <b>3 - Preparação de dados usando <b>funções de janelamento</b> em SQL</b><br>
        3.1 - Conceitos, sintaxe e algumas funções interessantes
    </font><br>

<font size="10" face="verdana" color="red">
    <img src="Figuras/ICMC_Logo.jpg" width=70>&emsp;&emsp;&nbsp;
    <b>FIM</b>&nbsp;&nbsp;&nbsp;&nbsp;
    <img src="Figuras/Gbdi2005.jpg" width=400>
    </font>