<font size="6" face="verdana" color="green">
<img src="Figuras/MBAIABD-Logo.png" width=100/>
    <b>Índices em SQL: Exemplo da aula </b>
</font>

<br><br>

**Objetivo:** Explorar o exemplo final apresentado na aula teórica sobre índices, usando o SGBD <img src="Figuras/Postgres.png" width=130/> sobre a Base de Dados __Fapesp-Covid19__.
<br>

## Conectar com a Base de Dados

Para começar, é necessário estabelecer a coneção com a base __Fapesp-Covid19__: &nbsp; `FapCov-2103`
 * Vamos trabalhar com todos os hospitais que têm desfecho: `D2`.

In [1]:
############## Importar os módulos necessários para o Notebook:
import matplotlib.pyplot as plt
import pandas.io.sql as psql
import re
import timeit
from ipywidgets import interact  ##-- Interactors
import ipywidgets as widgets     #---
from sqlalchemy import create_engine

############## Conectar com um servidor SQL ###################### --> Postgres
%load_ext sql

# Connection format: %sql dialect+driver://username:password@host:port/database
engine = create_engine('postgresql://postgres:pgadmin@localhost/FapCov-2103')
%sql postgresql://postgres:pgadmin@localhost/FapCov-2103

%sql SET Search_Path To D2; 

The sql extension is already loaded. To reload it, use:
  %reload_ext sql


ModuleNotFoundError: No module named 'psycopg2'

Inicialmente, vamos verificar os Índices e relações existentes na base de dados:

In [None]:
%%sql
SELECT  CASE RelKind WHEN 'i' THEN 'Índice' WHEN 'r' THEN 'Tabela' ELSE 'Outra coisa' END "O que é",
        C.RelName Nome, C.RelPages "Paginas de 8K", 
        TO_CHAR(C.RelTuples, '999G999G999') "Num. Tuplas", C.RelNAtts "Num. Atributos"
    FROM PG_Class C JOIN PG_NameSpace S ON C.RelNameSpace = S.OId
    WHERE  NspName ='d2'
    ORDER BY 1,2;

Para este _Notebook_ executar corretamente, é necessário que exista a tabela `ExamLabsC`, criada no _notebook_ `4.1-Indexacao`.
<br><br><br>

## Reprodução dos exemplos mostrados em aula sobre a Base de Dados `FAPESP-Covid-19`

_Quais são os principais tipos de exames registrados?_

In [None]:
TStart = timeit.default_timer()
%sql Result <<             \
SELECT DE_Exame, Count(*)  \
    FROM D2.ExamLabs       \
    GROUP BY 1             \
    ORDER BY 2 DESC        \
    LIMIT 20;

TElapsed = timeit.default_timer() - TStart
print(Result)
print('Tempo de execução:', round(1000*TElapsed, 2),'ms.')

Então selecionamos as classes principais:
 * Hemograma,
 * Gasometria,
 * Plasma
 
Digamos que estamos interessados também em:
 * Covid
 * Colesterol.
 
Vamos modificar a tabela 'ExamnLabs'.\
já que tinhamos feito uma cópia (_clusterizada_) dela, vampos usar essa cópia para evitar alterar os dados originais.\
<div class="alert alert-block alert-info">
    &#x26A0; Como essa operação aumenta o tamanho de todas as tuplas armazenadas em disco, muito provalvelmente ela '_desclusteriza_' a tabela, e se for interessante manter a tabela _clusterizada_, um novo comando deve ser emitido:<br>
    &emsp;&emsp;&emsp;<font size="2" face="courier" style="background-color:#E0E0FF;" color="#050505">CLUSTER ExamLabsC</font> 
    </div>

Vamos:
 * acrescentar um atributo à tabela, para indicar a classe de cada exame,<br>
   usando o tipo `INTEGER` como uma representação binària da classe.<br>
   <font size="1"  color="red">(Esse comando pode demorar mais de 5 minutos.)</font><br>

In [None]:
%%sql
ALTER TABLE D2.ExamLabsC DROP COLUMN IF EXISTS TP_EXame;
ALTER TABLE D2.ExamLabsC ADD COLUMN TP_EXame INTEGER;

UPDATE D2.ExamLabsC
    SET TP_Exame=(De_Exame ~* 'colest')::INT *               b'000001'::INT +
                 (De_Exame ~* 'hemograma')::INT *            b'000010'::INT +
                 (De_Exame ~* 'plasma')::INT *               b'000100'::INT +
                 (De_Exame ~* '(covid)|(sars.cov.2)')::INT * b'001000'::INT +
                 (De_Exame ~* 'gasometria')::INT *           b'010000'::INT;

Vamos contabilizar a quantidade de tuplas com cada tipo de exame:

In [None]:
TStart = timeit.default_timer()
%sql Result <<                                                                                  \
SELECT To_Char(Count(*) FILTER (WHERE TP_Exame&b'000001'::INT!=0), '99G999G999') AS Colest,     \
       To_Char(Count(*) FILTER (WHERE TP_Exame&b'000010'::INT!=0), '99G999G999') AS Hemograma,  \
       To_Char(Count(*) FILTER (WHERE TP_Exame&b'000100'::INT!=0), '99G999G999') AS Plasma,     \
       To_Char(Count(*) FILTER (WHERE TP_Exame&b'001000'::INT!=0), '99G999G999') AS Covid,      \
       To_Char(Count(*) FILTER (WHERE TP_Exame&b'010000'::INT!=0), '99G999G999') AS Gasometria, \
       To_Char(Count(*) FILTER (WHERE TP_Exame=0), '99G999G999') AS Outros                      \
    FROM D2.ExamLabsC;

TElapsed = timeit.default_timer() - TStart
print(Result)
print('Tempo de execução:', round(1000*TElapsed, 2),'ms.')

E vamos verificar se existe alguma tupla que seja de mais de um tipo:

In [None]:
TStart = timeit.default_timer()
%sql Result <<                                                              \
SELECT ID_Paciente, (TP_Exame&1)     + (TP_Exame>>1)&1 + (TP_Exame>>2)&1 +  \
          (TP_Exame>>3)&1  + (TP_Exame>>4)&1 + (TP_Exame>>5)&1 "Erro"       \
    FROM D2.ExamLabsC                                                       \
    WHERE ((TP_Exame&1)    + (TP_Exame>>1)&1 + (TP_Exame>>2)&1 +            \
           (TP_Exame>>3)&1 + (TP_Exame>>4)&1 + (TP_Exame>>5)&1 ) >1         \
    LIMIT 20;

TElapsed = timeit.default_timer() - TStart
print(Result)
print('Tempo da verificação:', round(1000*TElapsed, 2),'ms.')

Nenhum exame tem mais de um tipo, o que está correto.

Vamos agora medir o tempo de execução de uma consulta que recupera todos os exames de `Colesterol`, como antes:

In [None]:
%%capture
TStart = timeit.default_timer()
for i in range(10):
    %sql SELECT DE_Exame, DE_Analito, DE_Resultado \
                       FROM D2.ExamLabsC           \
                       WHERE de_exame ~* 'Colest';

TElapsed_Colest = timeit.default_timer() - TStart

In [None]:
print('Tempo médio de execução:', round(100*TElapsed_Colest, 2),'ms.')

Se usarmos o novo atributo (que evita ter que processar o padrão da expressão regular nas 6,8 MTuplas):

In [None]:
%%capture
%sql DROP INDEX IF EXISTS ExLab_DeColestDeAnalitoDeResult_IX

TStart = timeit.default_timer()
for i in range(10):
    %sql SELECT DE_Exame, DE_Analito, DE_Resultado  \
             FROM D2.ExamLabsC                      \
             WHERE TP_Exame=1;

TElapsed_ColestD = timeit.default_timer() - TStart

In [None]:
print('Tempo de execução:', round(100*TElapsed_ColestD, 2),'ms.')
print('Simplesmente usando o novo atributo, sem precisar processar a expressào regular, o ganho é de aproximadamente', round(TElapsed_Colest/TElapsed_ColestD, 1), 'vezes.')

Vamos criar um índice que seja adequado para essa consulta.

Pode ser criado um índice:
 * parcial,
 * incluindo atributos que permitam executar consultas por cobertura.

In [None]:
TStart = timeit.default_timer()
%sql                                                                        \
CREATE INDEX ExamLab_DeColestDeAnalitoDeResult_IX ON D2.ExamLabsC(DE_Exame) \
    INCLUDE (DE_Analito, DE_Resultado)                                      \
    WHERE TP_Exame=1;

TElapsed = timeit.default_timer() - TStart
print('Tempo de criação do índice:', round(1000*TElapsed, 2),'ms.')

Vamos agora re-executar essa consulta usando o novo índice:

In [None]:
%%capture
TStart = timeit.default_timer()
for i in range(10):
    %sql SELECT DE_Exame, DE_Analito, DE_Resultado  \
             FROM D2.ExamLabsC                      \
             WHERE TP_Exame=1;

TElapsed_ColestD_CI = timeit.default_timer() - TStart

In [None]:
print('Tempo de execução:', round(100*TElapsed_ColestD_CI, 2),'ms.')
print('Usando o novo atributo agora indexado, o ganho é de aproximadamente', round(TElapsed_ColestD/TElapsed_ColestD_CI, 1), 'vezes.')

Vamos executar consultas equivalentes para exames de hemograma.
 * Veja que esses exames constituem quase metade do total de tuplas!

In [None]:
%sql DROP INDEX IF EXISTS ExamLab_DeHemoDeAnalitoDeResult_IX

TStart = timeit.default_timer()
%sql                                                                      \
CREATE INDEX ExamLab_DeHemoDeAnalitoDeResult_IX ON D2.ExamLabsC(DE_Exame) \
    INCLUDE (DE_Analito, DE_Resultado)                                    \
    WHERE TP_Exame=2;

TElapsed = timeit.default_timer() - TStart
print('Tempo de criação do índice:', round(1000*TElapsed, 2),'ms.')

Mesmo com o índice criado, esse índice não será usado se não for indicada a condição `TP_Exame=2` na consulta:

In [None]:
%%sql
EXPLAIN ANALYZE SELECT DE_Exame, DE_Analito, DE_Resultado
            FROM D2.ExamLabsC
            WHERE DE_Exame='Hemograma, sangue total' AND
                  DE_Analito ~* 'bastonetes';

In [None]:
Str=str(_)
ExecTime=float(re.search('Execution Time: (.+) ms', Str).group(1))
print('Tempo de execução de uma consulta em busca sequencial:',ExecTime, 'ms.')

Veja que é usada a busca sequencial `Seq Scan on ExamLabsC`, e a consulta leva mais de 3 segundos para executar!

Usando a condição na consulta, o índice passa a ser usado como indice cobertura numa consulta `index only`:

In [None]:
%%capture

TStart = timeit.default_timer()
for i in range(10):
    %sql SELECT DE_Exame, DE_Analito, DE_Resultado         \
             FROM D2.ExamLabsC                             \
             WHERE TP_Exame=2 AND                          \
                   DE_Exame='Hemograma, sangue total' AND  \
                   DE_Analito ~* 'bastonetes';

TElapsed_HemoD_CI = timeit.default_timer() - TStart

In [None]:
print('Tempo de execução:', round(100*TElapsed_HemoD_CI, 2),'ms.')
print('ganho no tempo de execução:', round(ExecTime/(TElapsed_HemoD_CI*100)),'vezes.')

<br><br><br>

## Deixando a base como estava no início

É interessante reverter todas as operações de criação de índices feitas por este ___Notebook___ .

A tabela duplicada `ExamLabC` e seu índice `ExamLabsc_IDAt_IDPa_IX` podem ser removidos agora.

In [None]:
%%sql
DROP INDEX IF EXISTS ExamLab_DEColestDEAnalitoDEResult_IX;
DROP INDEX IF EXISTS ExamLab_DEHemoDEAnalitoDEResult_IX;
DROP INDEX IF EXISTS ExamLabsC_IDAt_IDPa_IX;

%%sql
DROP TABLE ExamLabC;

In [None]:
%%sql
SELECT  CASE RelKind WHEN 'i' THEN 'Índice' WHEN 'r' THEN 'Tabela' ELSE 'Outra coisa' END "O que é",
        C.RelName Nome, C.RelPages "Paginas de 8K", 
        TO_CHAR(C.RelTuples, '999G999G999') "Num. Tuplas", C.RelNAtts "Num. Atributos"
    FROM PG_Class C JOIN PG_NameSpace S ON C.RelNameSpace = S.OId
    WHERE  NspName ='d2'
    ORDER BY 1,2;

<br><br>

<font size="5" face="verdana" color="green">
         <b>Índices em SQL: Exemplo da aula </b>
    </font><br>

<font size="10" face="verdana" color="red">
        <b>FIM</b>&nbsp; <img src="Figuras/MBAIABD-Logo.png" width=100/>
    </font>