<div style="line-height:18px;">
    <img src="Figuras/ICMC_Logo.jpg" alt="ICMC" width=100>&emsp;&emsp;&emsp;
    <img src="Figuras/Gbdi2005.jpg" alt="GBdI" width=550><br>
    <font color="black" size="5" face="Georgia">&emsp; <i><u>Prof. Dr. Caetano Traina Júnior</u></font><br>
    <font color="black" size="4" face="Georgia">&emsp; &ensp;<i>ICMC-USP São Carlos</font>
<div align="right"><font size="1" face="arial" color="gray">35 seg. / 37 cel</font></div>
    </div><br>

<font size="6" face="verdana" color="green"><b>Preparação de dados usando <b>funções de janelamento</b> em SQL</b></font><br>
<font size="5" face="verdana" color="green">Conceitos, sintaxe e algumas funções interessantes</font>

<br>

<img src="Figuras/Gemini WindowFunctions Sandro Botticelli-3-Axata.png" width=840/>

<br>

<font size=5>Motivação: Exercitar o uso das <b>funções de janelamento</b> (<i>Window functions</i>) em SQL.</font><br>
&emsp;&emsp;&emsp;&emsp;&ensp; Também exploramos um pouco mais a Base de Dados __Fapesp-Covid19__ usando esses recursos.

<br><br>


# 1. Conectar com a Base de Dados

Para começar, é necessário estabelecer a coneção com uma base.
 * Vamos aqui usar a base __Fapesp-Covid19__: &nbsp; `fapcov2103`<br>
   e trabalhar com todos os hospitais que têm desfecho: `D2`.
 * Habilitar que qualquer quantidade de tuplas no resultado seja mostrada: `%config SqlMagic.displaylimit=None`.
 * Vamos também definir uma função para formatar melhor o resultado<br> do plano de consulta gerado pelo otimizador do Postgres: `PrintPlan()`.

In [None]:
############## Importar os módulos necessários para o Notebook:
import matplotlib.pyplot as plt
import pandas.io.sql as psql
from ipywidgets import interact  ##-- Interactors
import ipywidgets as widgets     #---
from sqlalchemy import create_engine, text

############## Conectar com um servidor SQL ###################### --> Postgres
%load_ext sql

# Connection format: %sql dialect+driver://username:password@host:port/database
engine = create_engine('postgresql://postgres:pgadmin@localhost/fapcov2103')
%sql postgresql://postgres:pgadmin@localhost/fapcov2103
%config SqlMagic.displaylimit=None

%sql SET Search_Path To D2; 

############## Definir uma função para listar corretamente os planos de consulta ########
def PrintPlan(pl):
    print('\nPlano:+','-'*100, sep='')
    i=0
    for linha in pl:
        i+=1
        print(' %4d |' % i,linha[0])
    print('------+','-'*100,'\n', sep='')


Verificar se o atributo `AA_Nascimento` está definido na tabela de `Pacientes`:

In [None]:
%%sql
SELECT * FROM Pacientes LIMIT 2;

<FONT COLOR='VIOLET'>A célula seguinte deve ser executada somente se o atributo `AA_Nascimento` não tiver sido criado:</FONT>\
<small>(SE existe o atributo AA_Nasc no lugar dele)</small>

<br><br>
# 2. Funções de agregação mantêm as tuplas originais

As Funções de agregação são executadas sobre grupos de tuplas, mas elas mantêm as tuplas originais

A tabela `Pacientes` tem dados demográficos sobre os pacientes, incluindo `CD_Municipio` e `AA_Nascimento`.\
Suponha que se quer saber qual é a idade dos pacientes mais novos e mais velhos de cada cidade.\
Como os dados foram coletados em 2021, a idade pode ser obtida a grosso modo como
    <font size="2" face="Lucida Console" style="background-color:#E0E0FF;" color="#050505">&nbsp;2021 - AA_Nascimento </font>.

In [None]:
%%sql
SELECT CD_Municipio, Min(2021-AA_Nascimento), Max(2021-AA_Nascimento), Count(*) Totalb
    FROM Pacientes
    --WHERE CD_Municipio IN ('BARUERI', 'DIADEMA')
    GROUP BY CD_Municipio;

Como já haviamos feito antes, podemos ver graficamente esse resultado para todos os municípios:

In [None]:
PacientesStat = psql.read_sql(text(                                                       \
    "SELECT CD_Municipio, Min(2021-AA_Nascimento), Max(2021-AA_Nascimento), Count(*) Tot  \
         FROM D2.Pacientes                                                                \
         GROUP BY 1                                                                       \
         ORDER BY 1 DESC NULLS LAST;"), engine)
PacientesStat.plot(x="cd_municipio", y="tot", kind="barh", title="Quantidade por município", figsize=(7, 3.2))
PacientesStat.plot(x="cd_municipio",  y=["min", "max"], kind="barh", title="Menor e maior idade de cada município", figsize=(7, 3.2))

Mas... e se quisermos saber os dados de cada um desses `Pacientes` (corresponde nos <i>slides</i> a `Alunos`)?

Para listar os pacientes que têm as menores e as maiores idades usando `GROUP BY`:\
&emsp; <font size="4">&#128073;&#127996;</font> é necessário ler a relação de pacientes duas vezes:

In [None]:
%%sql
SELECT P.Id_Paciente, P.CD_Municipio, P.AA_Nascimento, P.Ic_Sexo, MM.IdMin, MM.idMax, 2021-AA_Nascimento Idade
    FROM D2.Pacientes P,
         (SELECT CD_Municipio, Min(2021-AA_Nascimento) IdMin, Max(2021-AA_Nascimento) IdMax
              FROM D2.Pacientes
              GROUP BY CD_Municipio) MM
    WHERE (P.CD_Municipio=MM.CD_Municipio AND (2021-AA_Nascimento)=MM.IdMin) OR
          (P.CD_Municipio=MM.CD_Municipio AND (2021-AA_Nascimento)=MM.IdMax)
    ORDER BY Random()
    LIMIT 10;

<br>

Vamos analisar o plano de consulta desse comando:

In [None]:
%sql Plano << EXPLAIN ANALYZE                                                                 \
  SELECT P.Id_Paciente, P.CD_Municipio, P.AA_Nascimento, P.Ic_Sexo, MM.IdMin, MM.idMax        \
    FROM D2.Pacientes P,                                                                      \
         (SELECT CD_Municipio, Min(2021-AA_Nascimento) IdMin, Max(2021-AA_Nascimento) IdMax   \
              FROM D2.Pacientes                                                               \
              GROUP BY CD_Municipio) MM                                                       \
    WHERE (P.CD_Municipio=MM.CD_Municipio AND (2021-AA_Nascimento)=MM.IdMin) OR               \
          (P.CD_Municipio=MM.CD_Municipio AND (2021-AA_Nascimento)=MM.IdMax)                  \
    ORDER BY Random() \
    LIMIT 10;

PrintPlan(Plano)

Analisando o plano de consulta desse comando, consta-se que são executadas:
 * duas buscas sequenciais (`-> Seq Scan`) sobre a tabela `Pacientes` nas linhas 9 e 16.

O plano corresponde à execução dos seguintes operadores (indicados por `->`):
 * Linha 16: Busca sequencial sobre todas as tuplas de `Pacientes`
 * Linha 13: Executa o agrupamento usando _hash_ sobre o atributo `pacientes.cd_municipio` (linha 13)
 * Linha 12: Materializa a <i>subquery</i> `MM`
 * Linha 10: Cria um _hash_ sobre `MM`
 * Linha 9: Faz outra busca sequencial sobre todas as tuplas de `Pacientes`
 * Linha 5: Faz a junção do resultado da linha 10 com o resultado da linha 9 <br>(note que os dois `->` estão na mesma indentação, e portanto no mesmo nível da árvore de operadores)<br>
   A condição de junção está indicada na linha 6, e<br>
   as seleções de filtragem estão indicadas na linha 7
 * Linha 2: Ordena os resultados da junção:<br>
   O critério de ordenação é aleatório, como indicado na linha 3
 * Linha 1: limita o resultado a 10 tuplas (_`rows=10`_) e produz o resultado final.

<br>

O mesmo resultado pode ser obtido usando uma ___Window function___, emitindo o seguinte comando:

In [None]:
%%sql
SELECT P.ID_paciente, P.CD_Municipio, 2021-P.AA_nascimento Idade, P.Ic_Sexo,
          Min(2021-AA_Nascimento) OVER(PARTITION BY P.cd_municipio) IdMin,
          Max(2021-AA_Nascimento) OVER(PARTITION BY P.cd_municipio) IdMax
    FROM D2.Pacientes P
    ORDER BY Random()
    LIMIT 10;

Analisando o plano de consulta desse comando,
 * constata-se que é executada uma única busca sequencial sobre a tabela `Pacientes` (Linha 9),<br>
    além do plano geral ser bem mais simples, <b>sem usar nenhuma junção;</b>
 * no entanto, existe um gasto em gerar as partições, que somente seria atenuado com um grande volume de tuplas no resultado <br>(porque aqui está sendo feita uma ordenação):

In [None]:
%sql Plano << EXPLAIN ANALYZE                                                        \
  SELECT P.ID_paciente, P.CD_Municipio, 2021-P.AA_nascimento Idade, P.Ic_Sexo,       \
          Min(2021-AA_Nascimento) OVER(PARTITION BY P.cd_municipio) IdMin,           \
          Max(2021-AA_Nascimento) OVER(PARTITION BY P.cd_municipio) IdMax            \
    FROM D2.Pacientes P                                                              \
    ORDER BY Random()                                                                \
    LIMIT 10;

PrintPlan(Plano)

<br><br>

# 3. Condição de filtragem de tuplas em funções de agregação

A opção de filtragem <font size="4" face="Lucida Console" style="background-color:#E0E0FF;">[FILTER (WHERE $<$condição$>$)]</font> para funções de agregação\
estende <u>qualquer função de agregação</u> (não apenas <i>window functions</i>) para contabilizar somente as tuplas em que a `condição` é atendida.

Por exemplo: _Quantos pacientes existem no total, quantos têm no máximo 50 anos, e quantos têm mais?_

In [None]:
%%sql
SELECT CD_Municipio, Count(*) AS Total,
       Count(*) FILTER (WHERE (2021-AA_Nascimento)<=50) AS "Até 50",
       Count(*) FILTER (WHERE (2021-AA_Nascimento)>50) AS "Mais de 50"
    FROM D2.Pacientes
    GROUP BY CD_Municipio
    ORDER BY CD_Municipio NULLS FIRST;

Mas <font color="red">algo está errado aqui!</font>\
  &emsp; veja por exemplo os pacientes de `SANTO ANDRE`:<br>

In [None]:
%%sql
SELECT CD_Municipio, Count(*) AS Total,
       Count(*) FILTER (WHERE (2021-AA_Nascimento)<=50) AS "Até 50",
       Count(*) FILTER (WHERE (2021-AA_Nascimento)>50) AS "Mais de 50"
    FROM D2.Pacientes
    WHERE CD_Municipio='SANTO ANDRE'
    GROUP BY CD_Municipio;

&emsp; <font size=6>&#9758;</font> A contagem `total` de tuplas nem sempre é igual à soma de quem tem até 50 ( $\le$ ) anos com quem tem mais de 50 anos ( $>$ ).

Vamos ver o que está acontecendo:

In [None]:
%%sql
SELECT * FROM D2.PACIENTES
    WHERE cd_municipio='SANTO ANDRE'
    ORDER BY ID_Paciente
    LIMIT 6;


Verificamos que o atributo `AA_Nascimento` está __nulo__ em muitas tuplas.
<div class="alert alert-block alert-info">
    <font size="4">&#x26A0;</font> Um atributo `NULO` não 'é igual' a nenhum valor, não pode ser comparado por operadores de ordem, e o resultado de qualquer operação que o envolva é sempre `NULO`.
    </div>

Portanto, a quantidade `Total` de tuplas é igual à quantidade de `Pacientes` com até 50 anos, com mais de 50 anos e com idade desconhecida:

In [None]:
%%sql
SELECT CD_Municipio, Count(*) AS Total,
       Count(*) FILTER (WHERE (2021-AA_Nascimento)<=50) AS "Até 50",
       Count(*) FILTER (WHERE (2021-AA_Nascimento)>50) AS "Mais de 50",
       Count(*) FILTER (WHERE AA_Nascimento IS NULL) AS "Desconhecido"
    FROM D2.Pacientes
    GROUP BY CD_Municipio
    ORDER BY CD_Municipio NULLS FIRST;

<br>

Veja também as diversas variações que podem existir da <font color='cyan'>Função de agregação</font> `Count()`:
  *  `Count(*)` - Conta quantas tuplas existem,
  *  `Count(<atr>)` - Conta quantas tuplas tem valor no atributo indicado,
  *  `Count(DISTINCT <atr>)` - Conta quantos valores diferentes do atributo indicado existem.

In [None]:
%%sql
SELECT CD_Municipio, Count(*) AS Total,
       Count(*) FILTER (WHERE (2021-AA_Nascimento)<=50) AS "Até 50",
       Count(*) FILTER (WHERE (2021-AA_Nascimento)>50) AS "Mais de 50",
       Count(AA_Nascimento) AS "Nasc. Conhecido",
       Count(DISTINCT AA_Nascimento) AS "Idades Conhecidas"
    FROM D2.Pacientes
    WHERE CD_Municipio='SANTO ANDRE'
    GROUP BY CD_Municipio;

<br>

Veja que apesar de __12__ pacientes terem data de nascimento conhecida, existem apenas __2__ anos de nascimento distintos:

In [None]:
@interact(Limit=widgets.IntSlider(value=6, min=1, max=34,description='Limite:'))
def funcao(Limit):
    ###########################################################################
    %sql Unid <<                                                              \
    SELECT CD_Municipio, ID_Paciente, AA_Nascimento, 2021-AA_Nascimento  Idade\
        FROM D2.Pacientes                                                     \
        WHERE CD_Municipio='SANTO ANDRE' AND                                  \
              AA_Nascimento IS NOT NULL                                       \
        LIMIT {{Limit}};

print('\nPopulaçào por Cor e Sexo:\n', Unid, sep='')

<br><br>

# 4. Cláusula `WITHIN GROUP` em funções de agregação

A opção de filtragem <font size="4" face="Lucida Console" style="background-color:#E0E0FF;">[WITHIN GROUP (ORDER BY $<$atr$>$)]</font> para funções de agregação\
estende qualquer função de agregação para <u>prover uma ordem para as tuplas da Relação de Entrada.</u>

Vamos considerar que queremos explorar<br>
 &emsp; a quantidade de exames que foram feitos pelos diversos pacientes,<br>
 &emsp; e a quantidade de atendimentos prestados a cada paciente.<br>
Vamos considerar apenas pacientes que foram atendidos mais de uma vez.

Podemos materializar esse resultado na seguinte visão:<br>
 &emsp; &emsp; <font color='magenta'>(Esse comando demora na ordem de <b>30~35 seg</b>)</font>

In [None]:
%%sql
DROP MATERIALIZED VIEW IF EXISTS ExamPorAtend;
CREATE MATERIALIZED VIEW ExamPorAtend AS
    SELECT P.ID_Paciente, 
	       COUNT(*) TotExams,
		   COUNT(DISTINCT E.ID_Atendimento) TotAtend
        FROM Pacientes P JOIN ExamLabs E
	        ON P.ID_Paciente = E.ID_Paciente
        GROUP BY P.ID_Paciente
		HAVING COUNT(DISTINCT E.ID_Atendimento)>1;

SELECT COUNT(*) FROM ExamPorAtend;

<br>

Vamos ver os 10 pacientes com maior quantidade de atendimentos, e mais 10 quaisquer outros,<br>
 &emsp; em ordem de quantidade de atendimentos:

In [None]:
%%sql
(SELECT * FROM ExamPorAtend ORDER BY 3 DESC, 2 DESC LIMIT 10)
  UNION
(SELECT * FROM ExamPorAtend ORDER BY Random() LIMIT 10)
  ORDER BY 3 DESC, 2 DESC;

<br>

Sobre essa tabela:<br>
 &emsp; <i>Qual a quantidade mais frequente de exames por pacientes</i>?<br>
 &emsp; <i>Qual a quantidade mais frequente deatendimentos por pacientes</i>?<br>
E considerando essas mesmas quantidades, mas apenas para <i>pacientes com mais de <b>3</b> atendimentos</i>?

In [None]:
%%sql
SELECT Mode() WITHIN GROUP (ORDER BY TotAtend) ModaAtend,
	   Mode() WITHIN GROUP (ORDER BY TotExams) ModaExames,
	   Mode() WITHIN GROUP (ORDER BY TotAtend) FILTER(WHERE TotAtend>3) ModaAtend4,
	   MOde() WITHIN GROUP (ORDER BY TotExams) FILTER(WHERE TotAtend>3) ModaExames4
    FROM ExamPorAtend

<br>

A  <font color='cyan'>Função de agregação</font> `Rank(<valor>)` indica qual a posição que,<br>
 &emsp; <font color='teal'> hipoteticamente,</font> o valor indicado ocuparia na ordem indicada,<br>
 &emsp; de maneira que valores repetidos empatam na mesma posição, levando a falhas na sequencia numeração<br>
 &emsp; (se duas tuplas empatam na terceira posição, nenhuma tupla está na quarta posição).

Por exemplo:<br>
 &emsp; <i>Quantos pacientes fizeram <b>menos de 20</b> exames?<br>
 &emsp; <i>Quantos pacientes fizeram <b>menos de 100</b> exames?<br>
 &emsp; <i>Quantos pacientes fizeram <b>mais de 20</b> exames?<br>
 &emsp; <i>Quantos pacientes fizeram <b>mais de 100</b> exames?


In [None]:
%%sql
SELECT Count(*) "Total Pacientes",
       Rank(20) WITHIN GROUP (ORDER BY TotExams) "Menos de 20",
       Rank(100) WITHIN GROUP (ORDER BY TotExams) "Menos de 100",
       Rank(20) WITHIN GROUP (ORDER BY TotExams DESC) "Mais de 20",
       Rank(100) WITHIN GROUP (ORDER BY TotExams DESC) "Mais de 100"
FROM ExamPorAtend;

<br>

As  <font color='cyan'>Funções de agregação</font> `Percentile_Disc(<valor>)` e `Percentile_Cont(<valor>)`, (porcentagem discreta e porcentagem Continua) indicam <br>
 &emsp; o valor que ocupa a posição indicada pelo valor de porcentagem indicado, na ordem indicada.<br>
Por exemplo, `Percentile_Cont(.50)` corresponde ao valor que está na posição de 50% da lista,<br>
  portanto corresponde à <b>mediana</b> do conjunto ordenado.

Note que `Percentile_Cont(<valor>)` indica um valor continuo.<br>
 &emsp; <font size=5>&#9758;</font> Portanto, se a posição não corresponde a um valor inteiro, é feita a apreoximação entre o valor anterior e posterior.

Essa função é a indicada quando queremos obter, por exemplo, a mediana de um <b>atributo numérico</b>.<br>
No entanto, quando o atributo é não numerico: por exemplo, é um `TEXT`,<br>
  &emsp; então deve ser usada a função `Percentile_Disc(<valor>)`.<br>
  &emsp; Ela retorna a primeira tupla que equivale ou ultrapassa a possição indicada.

Por exemplo:<br>
 &emsp; <i>Qual é a mediana e o primeiro quartil do número de exames</i>?<br>
 &emsp; <i>e se for usada a função `Percentile_Disc()`</i>?<br>
 &emsp;  &emsp; (nesse caso, ambos os pares de valores são iguais, pois existe uma quantidade par de tuplas na tabela)

In [None]:
%%sql
SELECT Percentile_Cont(.50) WITHIN GROUP (ORDER BY TotExams) "Mediana",
       Percentile_Disc(.50) WITHIN GROUP (ORDER BY TotExams) "Mediana Discreta",
       Percentile_Cont(.25) WITHIN GROUP (ORDER BY TotExams) "1-Quartil",
       Percentile_Disc(.25) WITHIN GROUP (ORDER BY TotExams) "1-Quartil Discreto"
FROM ExamPorAtend;

<br>

A tabela Pg_Aggregate do meta-esquema de Postgres indica a lista de funções de agregação disponíveis.<br>
Entre outros, ela tem os atributos:<ul>
  <li> `AggKind` indica o tipo da função, com os valores:<ul>
      <li> <b>n</b> agregação normal, como MAX, COUNT, etc.
      <li> <b>o</b> agregação de conjuntos ordenados
      <li> <b>h</b> agregação de conjuntos hipotéticos, subclasse de agregação de conjuntos ordenados.
      </ul>
  <li> `AggnNmDirectArgs` indica quantos atributos podem ser colocados diretamente como argumentos da função.<br>
     &emsp;  &emsp; (veja que `Mode()` não pode receber argumentos)
  <li> <b>Variações</b>:  Note-se que nessa tabela existe uma tupla para cada tipo de argumento que a função pode receber.<br>
 &emsp;  &emsp; Funções com <i>overload</i> nos tipos de parâmetros contam múltiplas vezes.
  </ul>

A documentação de todas as funções está no capítulo <a href='https://www.postgresql.org/docs/current/functions-aggregate.html'>Aggregate Functions do Manual do Postgres</>.

In [None]:
%%sql
SELECT DISTINCT ON(AggFnOid::TEXT) RegExp_Replace(AggFnOid::TEXT, '.*\.', '') "Função", 
       AggKind, 
       AggNumDirectArgs, 
       Count(AggFnOid::TEXT) OVER(Partition BY AggFnOid::TEXT) "Variações"
	FROM Pg_Aggregate
	WHERE AggKind IN ('o', 'h')
	ORDER BY AggFnOid::TEXT;

<b>CURIOSIDADE:</b><br>
Quantas funções de cada tipo estão disponíveis?


In [None]:
%%sql
SELECT AggKind, Count(*), Count(DISTINCT AggFnOid::TEXT)
	FROM Pg_Aggregate
	GROUP BY AggKind;

<br>

---

<img src="Figuras/Gemini WindowFunctions Sandro Botticelli-Axata.png" width=900/>


<br><br>

# 5. As _Window Functions_ em SQL

Qualquer <u>função de agregação</u> pode ser usada como uma <u>função de janelamento</u>, acrescentando <font size="3" face="Lucida Console" style="background-color:#E0E0FF;"> &nbsp;OVER() </font> &nbsp; seguindo à função.\
A diferença é que
 * como <b>função de agregação,</b> ela <u>'colapsa' todas as tuplas em uma só</u>, e o valor calculado é colocado no atributo correspondente na <u>única tupla</u> do resultado
 * como <b>função de janelamento,</b> <u>todas as tuplas são mantidas</u>, e o valor calculado é repetido no atributo correspondente em <u>todas as tupla</u> do resultado.
    
Por exemplo: <i>Qual a menor idade entre os pacientes de cada `Município`?</i>

In [None]:
%%sql
SELECT CD_Municipio, Min(2021-AA_Nascimento)
    FROM D2.Pacientes
    GROUP BY CD_Municipio
    LIMIT 10;

Usando as _window functions_ podemos particionar as tuplas de maneira independente por cidade, de maneira que cada tupla tem o valor da menor idade de seu município, mas preserva todos os seus dados, incluindo a sua idade:

In [None]:
%%sql
SELECT Id_Paciente, CD_Municipio, 2021-AA_Nascimento Idade, 
       Min(2021-AA_Nascimento) OVER(PARTITION BY CD_Municipio) "Menor Idade"
    FROM D2.Pacientes
   --- Não existe cláusula GROUP BY ---
    ORDER BY Random()
    LIMIT 10;

Cada _window function_ pode particionar as tuplas de maneira independente das demais, até no mesmo comando.\
Na consulta seguinte, acrescentamos quantas tuplas têm aquela `Idade`:

In [None]:
%%sql
SELECT Id_Paciente, CD_Municipio, 2021-AA_Nascimento Idade, 
       Min(2021-AA_Nascimento)   OVER(PARTITION BY CD_Municipio),
       Count(2021-AA_Nascimento) OVER(PARTITION BY AA_Nascimento)
    FROM D2.Pacientes
    ORDER BY Random()
    LIMIT 10;

<br><br>

# 6. As _Window Functions_ em SQL

### 6.1. O parâmetro `PARTITION BY`

 * Uma partição é indicada por uma lista de atributos (ao menos um).
 * Ela é equivalente ao agrupamento executado pelo comando `GROUP BY`, mas sem colapsar as tuplas em uma só.
 * Tanto a sintaxe do parâmetro `PARTITION BY` quanto sua ação é semelhante às da cláusula `GROUP BY'.
 * Quando não é indicada, a tabela inteira é considerada ser uma partição.

Veja no exemplo seguinte que:
 * `IdMinC` e `IdMaxC` tem o mesmo valor para todas as tuplas do mesmo `CD_Municipio` e
 * `IdMinT` e `IdMaxT` tem o mesmo valor para todas as tuplas da tabela:

In [None]:
%%sql
SELECT SetSeed(.1242);
SELECT P.ID_paciente, P.CD_Municipio, 2021-P.AA_nascimento Idade, 
          Min(2021-AA_Nascimento) OVER(PARTITION BY P.cd_municipio) IdMinC,
          Max(2021-AA_Nascimento) OVER(PARTITION BY P.cd_municipio) IdMaxC,
          Min(2021-AA_Nascimento) OVER() IdMinT,
          Max(2021-AA_Nascimento) OVER() IdMaxT
    FROM D2.Pacientes P
    ORDER BY Random()
    LIMIT 10;

<br><br>

### 6.2. O parâmetro `ORDER BY`

 * Tanto a sintaxe do parâmetro `ORDER BY` quanto sua ação são semelhantes às da cláusula ORDER BY do comando SELECT, cada partição é ordenada separadamente.
 * __Tuplas parceiras__ (_Peer rows_): São todas as tuplas em que os atributos de ordenação têm o mesmo valor que os da tupla corrente.

As seguintes funções atribuem a <b>Ordem</b> dos atributos da ordenação às tuplas de uma partição:
 * ___Row Number():___ Número sequencial da tupla na partição (começa em 1).
 * ___Rank():___ Número sequencial da tupla na partição, repetido para tuplas parceiras. Tem ’pulos’.
 * ___Dense Rank():___ Número sequencial do grupo de tuplas parceiras. Sem ’pulos’.
 
Por exemplo:

In [None]:
%%sql
SELECT ID_paciente, CD_Municipio, 2021-AA_nascimento Idade, 
          Row_Number() OVER(ORDER BY 2021-AA_Nascimento) "R#(Idade)",
          Rank()       OVER(ORDER BY 2021-AA_Nascimento) "Rank(Idade)",
          Dense_Rank() OVER(ORDER BY 2021-AA_Nascimento) "DRank(Idade)",
          Row_Number() OVER(PARTITION BY 2021-AA_Nascimento ORDER BY cd_municipio) "R#(cidade/Idade)",
          Row_Number() OVER(PARTITION BY CD_Municipio ORDER BY 2021-aa_nascimento) "R#(Idade/cidade)"
    FROM D2.Pacientes 
        WHERE CD_Municipio IN ('CAMPOS DO JORDAO', 'DIADEMA') AND AA_Nascimento IS NOT NULL
        ORDER BY 2021-AA_nascimento;

<br><br>

## 6.3. As _Window Frame_

As <i>Window Frames</i> permitem explicitar como o _frame_ associado a cada tupla é constituído.
 * Somente tem sentido declarar <i>frames</i> quando a `ordem` das tuplas estiver indicada.

Algumas _window functions_ permitem trabalhar com outras tuplas além da tupla corrente, sempre dentro da mesma partição e indicadas de maneira relativa à ordem indicada. \
  Por exemplo
  * ___LAG___(<expressão> [,_offset_ [, valor default]])\
    __ORDER BY <expressão da ordem> [ASC | DESC]:__ &emsp;&emsp;&emsp;&emsp; Acessa uma tupla anterior à corrente.
  * ___LEAD___(<expressão> [,_offset_ [, valor default]])\
    __ORDER BY <expressão da ordem> [ASC | DESC]:__ &emsp;&emsp;&emsp;&emsp; Acessa uma tupla posterior à corrente.

Por exemplo:
_Quantos dias de separação existem entre os diversos desfechos que cada paciente pode ter?_
<div class="alert alert-block alert-info">
    <font size="4">&#x26A0;</font> Sempre que um paciente retorna a um atendimento ambulatorial é considerado um atendimento;<br>
             Além disso, um paciente internado pode ter alta e depois ser internado novamente;<br>
             E quando um paciente é transferido de uma clínica à outra, é considerado um desfecho para a clínica da qual ele sai.
    </div>

In [None]:
%%sql
SELECT P.id_paciente, P.ic_sexo,
       '## '||RoW_Number() OVER(PARTITION BY P.id_paciente ORDER BY D.dt_atendimento)||'##' "Num Atend", 
--           ^============^
       D.dt_atendimento, D.de_clinica, D.de_desfecho,
       '** '||D.dt_atendimento -  Lag(D.dt_atendimento) OVER (PARTITION BY P.id_paciente ORDER BY D.dt_atendimento)  "Sep Entre atendimentos"
--                               ^=====================^
    FROM D2.Pacientes P JOIN D2.Desfechos D ON P.ID_Paciente = D.ID_Paciente
    WHERE CD_Municipio ='GUARULHOS'
    ORDER by P.id_paciente, D.dt_atendimento
    LIMIT 20

E se quisermos _contabilizar quantos dias de separação existem entre o primeiro atendimento de um paciente e seu(s) desfecho(s)?_

In [None]:
%%sql
SELECT P.id_paciente, P.ic_sexo,
        '## '||RoW_Number(*) OVER(PARTITION BY P.id_paciente ORDER BY D.dt_atendimento)||'##' "Num Atend", 
       D.dt_atendimento, D.de_clinica, D.de_desfecho,
        '## '||D.dt_atendimento -  Lag(D.dt_atendimento) OVER (PARTITION BY P.id_paciente ORDER BY D.dt_atendimento) "Sep Entre atendimentos",
        '## '||D.dt_atendimento -  FIRST_Value(D.dt_atendimento) OVER (PARTITION BY P.id_paciente ORDER BY D.dt_atendimento) "Sep do primeiro"
--                                ^=============================^
    FROM D2.Pacientes P JOIN D2.Desfechos D ON P.ID_Paciente = D.ID_Paciente
    WHERE CD_Municipio ='GUARULHOS'
    ORDER by P.id_paciente, D.dt_atendimento
    LIMIT 20

# 7. Avaliando a tabela `ExamLabs`

Podemos aplicar a mesma técnica para sequenciar os exames (e analitos medidos) de cada paciente.\
Aqui:
 * Usamos uma junção sobre as tabelas `Pacientes` e `ExamLabs`
 * Podemos particionar sobre atributos de uma tabela, ordenar por atributos de outra, etc.\
     <font size="1" color="magenta"> (porque as <i>window functions</i> operam <b>depois</b> das cláusulas `FROM` e `WHERE`.)</font>

In [None]:
%%sql
SELECT P.id_paciente,  E.DT_Coleta, P.ic_sexo,
       '## '||RoW_Number(*) OVER(PARTITION BY P.id_paciente ORDER BY E.DT_Coleta::DATE)||'##' "Num Atend", 
       E.dE_Exame, CASE WHEN E.de_analito=E.DE_Exame THEN '-=-' ELSE E.de_analito END,
        '## '||E.DT_Coleta::DATE -  Lag(E.DT_Coleta::DATE) OVER (PARTITION BY P.id_paciente ORDER BY E.DT_Coleta::DATE, E.DE_Exame, E.de_analito) "Sep Entre exames",
        '## '||E.DT_Coleta::DATE -  FIRST_Value(E.DT_Coleta::DATE) OVER (PARTITION BY P.id_paciente ORDER BY E.DT_Coleta::DATE, E.DE_Exame, E.de_analito)  "Sep do primeiro"
    FROM D2.Pacientes P JOIN D2.ExamLabs E ON P.ID_Paciente = E.ID_Paciente
--          ^^^^^^^^^^^         ^^^^^^^^^^
    WHERE P.CD_Municipio ='GUARULHOS'
    ORDER by P.id_paciente, E.DT_Coleta::DATE, E.DE_Exame, 3 -- E.de_analito
    LIMIT 20;


Quando se trabalha com exames, é mais interessante juntar os analitos de um mesmo exame em uma mesma tupla, ao invés de deixá-los 'espalhados' em várias tuplas.\
No entanto, para isso é necessário ter um <font size="3" color="teal">conhecimento médico de quais analitos constituem cada exame.</font>

Vamos analisar a base de dados, para obter dados sobre os exames de colesterol efetuados.\
Vamos assumir que exames de colesterol têm a palavra `colestol` no nome do exame.

Então podemos perguntar:\
_Quais são os tipos de exame de `colesterol`_ feitos em cada hospital, e quais quantidades existem registradas?

In [None]:
%%sql
SELECT ' ' " ", DE_Exame, DE_Hospital, Count(*) 
    FROM D2.Examlabs
    WHERE DE_Exame~*'coleste'
    GROUP BY DE_Exame, DE_Hospital
      UNION
SELECT 'Total', '-----', '-----', Count(*) 
    FROM D2.Examlabs
    WHERE De_Exame~*'coleste'
    ORDER BY 1, DE_Exame;

Vamos ter uma ideia desses exames.\
_Quais pacientes em que data de coleta, têm exame de colesterol, digamos exames de LDL?_

In [None]:
%%sql
SELECT P.ID_Paciente, E.DT_Coleta, E.DE_Exame, E.DE_Analito
    FROM D2.ExamLabs E JOIN D2.Pacientes P on E.id_paciente = P.ID_Paciente
    WHERE P.CD_Municipio ='GUARULHOS' AND
          E.DE_Exame ~*'colesterol.*ldl'
    LIMIT 10

<br>

Vamos identificar cada exame de `Colesterol` de cada paciente, com um número sequencial para cada exame do mesmo paciente, e um número sequencial para cada analito medido no mesmo exame:

In [None]:
%%sql
--Listar os analitos usados em exame de colesterol:
SELECT P.id_paciente, E.dt_coleta, E.de_exame, E.de_analito,
         '## '|| DENSE_RANK() OVER(PARTITION BY P.id_paciente ORDER BY E.dt_coleta)||' ##' AS ExamNum,
         '## '|| ROW_NUMBER() OVER(PARTITION BY P.id_paciente, E.dt_coleta, E.de_exame~*'coleste' ORDER BY E.de_analito)||' ##' AS AnalitoNum
         , E.ID_atendimento, e.DE_origem, E.de_Resultado, E.CD_Unidade, E.DE_Hospital, e.CD_ValorReferencia
    FROM D2.ExamLabs E JOIN D2.Pacientes P on E.id_paciente = P.ID_Paciente
    WHERE P.CD_Municipio ='GUARULHOS' AND 
           E.de_exame ~*'colesterol'
    ORDER BY P.id_paciente, analitonum
    LIMIT 20;


Como se pode ver, é interessante juntar os dados dos diversos analitos de cada exame em uma única tupla.\
Lembrando que é possível haver mais de um exame de mesmo tipo feito no mesmo dia, e que não temos como desambiguar as  medidas de um mesmo analito feitas num mesmo dia, vamos assumir a média dos valores obtidos para o mesmo analito no mesmo exame realizado no mesmo dia.

A consulta pode ser executada usando o <font size="4" face="arial" style="background-color:#D0FFFF;" color="#050505"> &nbsp; Pivotamento de relações.&nbsp;</font>:
<div class="alert alert-block alert-info">
    <font size="4">&#x26A0;</font> A técnica de <b>transformar atributos</b> (colunas) em <b>tuplas</b> (linhas) é equivalente a <b>transpor</b> uma matriz,<br>
    &emsp; e é chamada <font size="3" face="arial" style="background-color:#D0FFFF;" color="#050505"> &nbsp; Pivotamento de relações.&nbsp;</font><br>
    &emsp; <font size="4">&#x2691;</font> Esta relação pode ser salva para ser usada posteriormente. <font size="4">&#x2691;</font>
    </div>

In [None]:
%%sql
SELECT P.id_paciente, E.dt_coleta, -- 1 secs 326 msec. 13 rows affected.
       MAX(E.de_hospital) AS Hospital,
       AVG(E.de_resultado::FLOAT) FILTER(WHERE E.de_analito ~*'ldl' AND E.de_analito!~*'vldl') AS LDL,              -- evitar contar vldl como ldl.
       AVG(E.de_resultado::FLOAT) FILTER(WHERE E.de_analito ~*'hdl') AS HDL, 
       AVG(E.de_resultado::FLOAT) FILTER(WHERE E.de_analito ~*'v.*coles')AS VLDL, 
       AVG(E.de_resultado::FLOAT) FILTER(WHERE E.de_analito ~*'n[aã]o.hdl')AS NaoHDL,                               -- aceita nao e não
       AVG(E.de_resultado::FLOAT) FILTER(WHERE Lower(E.de_analito) IN ('colesterol total', 'colesterol')) AS Total, -- alguns hospitais usam só colesterol para indicar total.
       MAX(E.cd_unidade) AS Unidade
    FROM D2.ExamLabs E JOIN D2.Pacientes P on E.id_paciente = P.ID_Paciente
    WHERE  P.CD_Municipio IN('GUARULHOS', 'OSASCO') AND
         E.de_exame ~*'coleste' AND 
         E.de_resultado!~'[^\d.,+-]'                -- pode haver texto ao invés de números em alguns registros.
    GROUP BY P.id_paciente, E.dt_coleta
    LIMIT 10;

Note que:
 * nem todos os exames medem todos os analitos
 * neste caso, a unidade de medida é sempre a mesma.
 
A execução de processos de Mineração de Dados diretamente sobre a Base  __Fapesp-Covid19__ provavelmente não gera bons resultados.\
Mas a extração de sub-tabelas, por exemplo como uma tabela de __Exames de colesterol__ ou uma tabela de resultados de __Exames de Covid_ associada a desfecho e a separação em dias entre cada exame e o desfecho pode prover resultados interessantes.

<br><br>

---

<br><br>

Vamos considerar exames específicos para __Covid__. \
Os resultados no atributo `DE_Resultado` desses exames podem ser essencialmente:\
 * Positivo
 * Negativo
 * Indeterminado
 
No entanto, existem vários tipos de exames e nomes para eles no atributo `DE_Exame`, \
&emsp; ao mesmo tempo em que vários valores podem descrever esses resultados no atributo `DE_Resultado`.\
Para facilitar a análise, vamos registrar esses resultados de maneira persistente no nosso 'atributo-extra' `DE_ResultNum` de tipo numérico.\
Para registrar um número que representa esses códigos, vamos ver a faixa de valores numéricos efetivamente usados para os atributos em que `DE_Resultado` tem de fato valor numérico:

<div class="alert alert-block alert-info">
<b>NOTA:</b><br>
O atributo `DE_ResultNum` não existe originalmente nos dados distribuidos pela FAPESP:<br>
&emsp; &emsp; Ele foi calculado no <i>script</i> de carga da base: `COVID19_Corrige_21_02.sql`<br>
&emsp; &emsp; como o comando:<br>
<font face="Lucida Console" style="background-color:#E0E0FF;">
ALTER TABLE ExamLabs ADD COLUMN IF NOT EXISTS DE_resultNum FLOAT;<br>
UPDATE ExamLabs <br>
&emsp; &emsp;  SET DE_resultNum=Replace(Substring(de_resultado, '-?\d+,?\d*'), ',', '.')::FLOAT; -- in 15 min 33 secs.
</font></div>

In [None]:
%%sql
SELECT MIN(DE_ResultNum), MAX(DE_ResultNum)
    FROM D2.ExamLabs
    WHERE DE_ResultNum>-999; -- só para garantir a faixa original, caso os códigos de exames de covid já tenham sido inseridos!

Como não existe nenhum valor negativo abaixo de −32, podemos definir, por exemplo, os seguintes códigos:
 * Positivo: −1000
 * Negativo: −1111
 * Indeterminado: −1234
 * Texto sem significado: −2222

In [None]:
%%sql
UPDATE D2.ExamLabs
    SET DE_ResultNum = CASE WHEN  de_resultado ~*'detectados anticorpos' THEN -1000
            WHEN  de_resultado ~*'(n.o detectado)|(n.o reagente)|(negativo)|(ausencia de anticorpos)' THEN -1111
            WHEN  de_resultado ~*'(detectado)|(reagente)|(positivo)' THEN -1000
            WHEN  de_resultado ~*'(indetect.avel)|(inconclusivo)' THEN -1234
            ELSE -2222 END
    WHERE  De_Exame ~* '(covid)|(sars.cov.2)|(corona)';

<br>

Podemos verificar quantos desses tipos de exames existem:

In [None]:
examPosNeg = psql.read_sql(text(
"SELECT CASE WHEN DE_ResultNum=-1000 THEN 'Positivo'           \
             WHEN DE_ResultNum=-1111 THEN 'Negativo'            \
             WHEN DE_ResultNum=-1234 THEN 'Indeterminado'        \
             WHEN DE_ResultNum=-2222 THEN 'Texto sem significado' \
             END DE_ResultNum,                                    \
             Count(*) Quantos                                     \
    FROM D2.examLabs                                              \
    WHERE DE_Resultnum< -33                                       \
    GROUP BY DE_Resultnum;"), engine)

print(examPosNeg, '\n\n')

examPosNeg.plot(labels=examPosNeg.loc[:,"de_resultnum"], y="quantos", kind="pie", ylabel="", title="Quantidades de exames", figsize=(6, 5))


Com esse atributo, podemos perguntar:<br>
<i>Liste os dados dos exames e <b>quantas medidas (`DE_Exames` e `DE_Analito`)</b> diferentes estão associadas a cada paciente numa mesma data)</i>.

In [None]:
%%sql
SELECT DE_resultnum, id_paciente, DT_Coleta, de_exame, de_analito,
       Count(*) OVER(PARTITION BY (ID_Paciente, ID_Atendimento, DT_Coleta) 
                     ORDER BY DT_Coleta::DATE 
                     RANGE BETWEEN INTERVAL '0' DAY PRECEDING AND INTERVAL '0' DAY FOLLOWING) "--Quantos--",
        DE_Resultado
    FROM D2.examLabs 
    WHERE  de_resultnum IN(-1000, -1111)
       AND ID_Paciente>'0024B75338C32F6E'
    ORDER BY ID_Paciente, DT_Coleta, de_resultnum
    LIMIT 20

<br><br>

<font size="5" face="verdana" color="green">
     <b>3 - Preparação de dados usando <b>funções de janelamento</b> em SQL</b><br>
        Conceitos, sintaxe e algumas funções interessantes
    </font><br>

<font size="10" face="verdana" color="red">
    <img src="Figuras/ICMC_Logo.jpg" alt="ICMC" width=70>&emsp;&emsp;&nbsp;
    <b>FIM</b>&nbsp;&nbsp;&nbsp;&nbsp;
    <img src="Figuras/Gbdi2005.jpg" alt="GBdI" width=400>
    </font>


<img src="Figuras/Gemini WindowFunctions Sandro Botticelli-2.jpg" width=900/>

