<font size="6" face="verdana" color="green">
<img src="Figuras/MBAIABD-Logo.png" width=100/>
    <b>Índices em SQL</b>
</font>

<br><br>

**Objetivo:** Entender o conceito de índices na Linguagem SQL e as técnicas de como usá-los bem para agilizar consultas.\
&emsp;&emsp;&emsp;&emsp;&emsp;&ensp; Exemplos baseados nos índices disponíveis em <img src="Figuras/Postgres.png" width=130/>.\
&emsp;&emsp;&emsp;&emsp;&emsp;&ensp; Também agilizamos consultas analíticasna Base de Dados __Fapesp-Covid19__ usando índices.
<br>

## Conectar com a Base de Dados

Para começar, é necessário estabelecer a coneção com uma base.
 * Vamos aqui usar a base __Fapesp-Covid19__: &nbsp; `FapCov-2103`
 * e trabalhar com todos os hospitais que têm desfecho: `D2`.

<img src="Figuras/SintaxIndicesPostgres.png" width=600/>

<font size="3" color="red">__CUIDADO__:</font> Algumas consultas podem levar minutos para executar,\
em particular aquelas executadas sem índices, mas também a própria criação dos índices.

In [1]:
############## Importar os módulos necessários para o Notebook:
import matplotlib.pyplot as plt
import pandas.io.sql as psql
import re
from ipywidgets import interact  ##-- Interactors
import ipywidgets as widgets     #---
from sqlalchemy import create_engine
import timeit

############## Conectar com um servidor SQL ###################### --> Postgres
%load_ext sql

# Connection format: %sql dialect+driver://username:password@host:port/database
engine = create_engine('postgresql://postgres:pgadmin@localhost/FapCov-2103')
%sql postgresql://postgres:pgadmin@localhost/FapCov-2103

%sql SET Search_Path To D2; 

The sql extension is already loaded. To reload it, use:
  %reload_ext sql


ModuleNotFoundError: No module named 'psycopg2'

<div class="alert alert-block alert-info">
    &#x26A0; Veja que sempre que medimos tempo de execução, o valor obtido é aproximado.<br>
    &#9654; Assim é conveniente executar cada comando algumas vezes e tomar a média.
    </div>

<br><br>
## Motivação: Agilizar operações de busca usando índices.

### Remover todos os índices para avaliar buscas sem índices

O índice mais básico é o índice `B-tree` sobre um atributo com cardinalidade de domínio elevada.\
 * Ele é empregado com particular vantagem sobre as chaves da relação\
 * E é mais efetivo quanto maior a relação.


Inicialmente, vamos verificar os Índices existentes sobre as relações da base de dados:

In [None]:
%%sql
SELECT SchemaName, TableName, IndexName, IndexDef 
    FROM Pg_Indexes
    WHERE tablename !~*'(PG_)|(sql)'
    ORDER BY 1, 2, 3

Vamos apagar todos os índices das relações do Esquema `D2`.\
   * Como podemos ver no _script_ de carga dos dados dessa base de dados e pelo nome dado aos índices, os índices `PK_Paciente` e `PK_Desfechos` foram criados para atender às restrições de chave primária das respectivas relações.\
     Portanto, para apagar esses índices, as restrições precisam ser removidas.
   * Já o índice `ExamLabs_IdPaciente` foi criado sem vínculo com qualquer restrição.\
     Assim ele é um índice 'comum' e deve ser removido como tal.

<div class="alert alert-block alert-info">
    &#x26A0; Aqui usamos a alternativa `IF EXISTS` caso as células do <i>notebook</i> sejam executadas em outra ordem.<br>
    &emsp;&emsp;Ela não é necessária para execução sequencial do <i>notebook</i>.
    </div>

In [None]:
%%capture
%%sql
ALTER TABLE D2.Pacientes DROP CONSTRAINT IF EXISTS PK_Pacient;
ALTER TABLE D2.Pacientes DROP CONSTRAINT IF EXISTS PK_Pacient_INC_sx;
ALTER TABLE D2.Desfechos DROP CONSTRAINT IF EXISTS PK_Desfechos;
DROP INDEX IF EXISTS D2.ExamLabs_IDAt_IDPa_IX;
DROP INDEX IF EXISTS D2.ExamLabs_IDAt_IDPaDtEv_AnRe_IX;
DROP INDEX IF EXISTS D2.ExamLabs_IDAt_IH;
DROP INDEX IF EXISTS D2.ExamLabsc_idat_idpa_ix;
DROP INDEX IF EXISTS D2.Pacientes_Ho_IXP1;
DROP INDEX IF EXISTS D2.Pacientes_IdPa_XNa_IHX;
DROP INDEX IF EXISTS D2.Pacientes_IdPa_XNa_IXX;
DROP INDEX IF EXISTS D2.PK_Pacient_Inc_Sx;
DROP TABLE IF EXISTS D2.ExamLabsc CASCADE;

<br>

### Índice sobre `ID_Paciente` na relação `Pacientes`

Vamos considerar a chave da relação `Pacientes` (uma relação pequena), e recuperar uma tupla, medindo o tempo para isso:

In [None]:
%%time
%%sql
SELECT * FROM Pacientes WHERE ID_Paciente='0858A46AEFCF4ACD';


Ou, pela média de 10 execuções:

In [None]:
%%capture
TStart = timeit.default_timer()
for i in range(10):
    %sql Result << SELECT * FROM Pacientes WHERE ID_Paciente='0858A46AEFCF4ACD';

TElapsedPA_SI = timeit.default_timer() - TStart  ## Time Elapsed na tabela Pacientes Sem ïndice

In [None]:
print('Gastou',round(100*TElapsedPA_SI, 2),'ms por comando')

 
 Vamos recriar o ínidce de chave primária, restabelecendo a chave primária: 

In [None]:
%%sql
ALTER TABLE D2.Pacientes ADD CONSTRAINT PK_Pacient PRIMARY KEY (ID_Paciente);


Agora com o índice criado, re-executamos a mesma consulta:

In [None]:
%%capture
TStart = timeit.default_timer()
for i in range(10):
    %sql Result << SELECT * FROM Pacientes WHERE ID_Paciente='0858A46AEFCF4ACD';
               
TElapsedPA_CI = timeit.default_timer() - TStart  ## Time Elapsed na tabela Pacientes Com ïndice

In [None]:
print(round(1000*TElapsedPA_CI/10, 2),'ms por comando')
print('Vemos que o ganho é de aproximadamente', round(TElapsedPA_SI/TElapsedPA_CI), 'vezes.')

<br><br>
### Índices sobre dados da relação `ExamLabs`

Tal como provido pela FAPESP, a relação `ExamLabs` não tem chave primária. Porque:
 * Cada paciente pode ter diversos atendimentos. Então a chave de cada `Atendimento` será `ID_Atendimento` mais `ID_ Paciente`;
 * Cada atendimento de cada paciente pode ter diversos exames, em vários dias. Então a chave de um exames deve conter os atributos `ID_Atendimento` mais `ID_ Paciente` mais `DE_Exame` mais `DT_Coleta`;
 * Cada um desses exames pode medir diversos analitos. \
   A princípio, cada analito poderia ser obtido individualmente acrescentando a esses quatro atributos mais o `DE_Analito`, mas como existem exames repetidos no mesmo dia, os cinco atributos não são suficientes para individualizar cada medida;
 * Não existe nenhum atributo na base que indique a sequencia com que o mesmo analito foi medido para o mesmo paciente no mesmo atendimento no mesmo exame no mesmo dia.\
   &#9758; Assim, não existe chave para as medidas nessa tabela.

&emsp;

Vamos considerar que queremos obter os dados de um dado `Exame` num dado `Dia` de um `Paciente` num dado `Atendimento`.\
Vamos inicialmente medir o tempo sem usar um índice.

In [None]:
%%capture
TStart = timeit.default_timer()
for i in range(10):
    %sql Result << SELECT ID_Atendimento, ID_Paciente, DT_Coleta, DE_Exame, DE_Analito, DE_Resultado \
        FROM ExamLabs                                                                                \
        WHERE ID_Paciente='A1CC5033C1610500' AND                                                     \
              ID_Atendimento='9A3B81E36E043714B4BFF8108CCCC51F' AND                                  \
              DT_Coleta='2020-08-16' AND                                                             \
              DE_Exame='hemograma completo, sangue total'

TElapsedEL_SI = timeit.default_timer() - TStart  ## Time Elapsed na tabela ExamLabs Sem ïndice

In [None]:
print(round(100*TElapsedEL_SI, 2),'ms por comando')

<br>

Vamos recriar o ínidce sobre `ID_Atendimento e ``ID_Paciente`: 
<font size="1"  color="red">(Esse comando pode demorar mais de 2 minutos.)
    </font><br>

In [None]:
TStart = timeit.default_timer()
%sql CREATE INDEX ExamLabs_IDAt_IDPa_IX ON D2.ExamLabs(ID_Atendimento, ID_Paciente); 
TElapsed = timeit.default_timer() - TStart
print('Gastou', round(1000*TElapsed, 2),'ms Para criar o índice B-Tree')


Agora com o índice criado, re-executamos a mesma consulta:

In [None]:
%%capture
TStart = timeit.default_timer()
for i in range(10):
    %sql Result << SELECT ID_Atendimento, ID_Paciente, DT_Coleta, DE_Exame, DE_Analito, DE_Resultado \
        FROM ExamLabs                                                                                \
        WHERE ID_Paciente='A1CC5033C1610500' AND                                                     \
              ID_Atendimento='9A3B81E36E043714B4BFF8108CCCC51F' AND                                  \
              DT_Coleta='2020-08-16' AND                                                             \
              DE_Exame='hemograma completo, sangue total'

TElapsedEL_CI = timeit.default_timer() - TStart  ## Time Elapsed na tabela Exampalbs com ïndice

In [None]:
print(round(100*TElapsedEL_CI, 2),'ms por comando')
print('Vemos que o ganho é de aproximadamente', round(TElapsedEL_SI/TElapsedEL_CI), 'vezes.')

<br>

E se quizermos usar um índice `HASH`?\
Em <img src="Figuras/Postgres.png" width=130/> não podemos usar um índice composto usando `HASH`.\
Podemos criar um índice `HASH` apenas sobre o atributo `IC_Atendimento`, assim:

In [None]:
TStart = timeit.default_timer()
%sql CREATE INDEX ExamLabs_IDAt_IH ON D2.ExamLabs USING HASH(ID_Atendimento);
TElapsed = timeit.default_timer() - TStart
print('Gastou', round(1000*TElapsed, 2),'ms Para criar o índice Hash')

Agora existem dois índices que envolvem o atributo `ID_Atendimento` na tabela `ExamLabs`.\
Como podemos saber qual índice será usado numa dada consulta?

__Resposta:__ solicitando o plano de consulta: \
(Vide o _notebook_ `1.2-ExploraDS-Alunos80K`)

In [None]:
%%sql
EXPLAIN SELECT ID_Atendimento, ID_Paciente, DT_Coleta, DE_Exame, DE_Analito, DE_Resultado
    FROM ExamLabs 
    WHERE ID_Paciente='A1CC5033C1610500' AND
          ID_Atendimento='9A3B81E36E043714B4BFF8108CCCC51F' AND
          DT_Coleta='2020-08-16' AND
          DE_Exame='hemograma completo, sangue total'

<br>

Como se pode ver na primeira linha, foi usado o índice usando a _B-tree_:   `Index Scan using ExamLabs_IdAt_IdPa_IX on ExamLabs`

Isso significa que, pelo menos para essa consulta, o índice `Hash` é inútil, e pode ser removido.

<br><br>

## Tabela '_clusterizada_' por um índice

Vamos clusterizar a tabela `ExamLabs`.
Para podermos comparar o efeito, vamos primeiro duplicar a tabela copiando-a numa tabela `ExamLabsC`, e depois clusterizar uma delas pelo índice `ExamLabs_IDAt_IDPa_IX`.
<dd>1.  Duplicar a tabela</dd>

In [None]:
TStart = timeit.default_timer()
%sql DROP TABLE IF EXISTS ExamLabsC;
%sql SELECT * INTO ExamLabsC FROM  ExamLabs;
TElapsed = timeit.default_timer() - TStart
print('Gastou', round(1000*TElapsed, 2),'ms Para copiar a tabela.')

Como estamos trabalhando numa outra tabela, então temos que recriar o índice.

<dd>2.  Criar o índice `ExamLabsC_IDAt_IDPa_IX ON D2.ExamLabsC(ID_Atendimento, ID_Paciente)`

In [None]:
TStart = timeit.default_timer()
%sql CREATE INDEX ExamLabsC_IDAt_IDPa_IX ON D2.ExamLabsC(ID_Atendimento, ID_Paciente); 
TElapsed = timeit.default_timer() - TStart
print('Gastou', round(1000*TElapsed, 2),'ms para criar o índice.')

<dd>3. Clusterizar a tabela  ExamLabsC</dd>

In [None]:
TStart = timeit.default_timer()
%sql CLUSTER  ExamLabsC USING ExamLabsC_IDAt_IDPa_IX;
TElapsed = timeit.default_timer() - TStart
print('Gastou', round(1000*TElapsed, 2),'ms Para clusterizar a tabela.')

Agora vamos re-executar novamente a mesma consulta, sobre a tabela clusterizada:

In [None]:
%%capture
TStart = timeit.default_timer()
for i in range(10): 
    %sql Result << SELECT ID_Atendimento, ID_Paciente, DT_Coleta, DE_Exame, DE_Analito, DE_Resultado \
        FROM ExamLabsC                                                                               \
        WHERE ID_Paciente='A1CC5033C1610500' AND                                                     \
              ID_Atendimento='9A3B81E36E043714B4BFF8108CCCC51F' AND                                  \
              DT_Coleta='2020-08-16' AND                                                             \
              DE_Exame='hemograma completo, sangue total';

TElapsedELC_CI = timeit.default_timer() - TStart  ## Time Elapsed na tabela Exampalbs Clusterizada com ïndice

In [None]:
print(round(100*TElapsedELC_CI, 2),'ms por comando')
print('Vemos que\no ganho sobre uma tabela não clusterizada sem índice é de aproximadamente', round(TElapsedEL_SI/TElapsedEL_CI), 'vezes.')
print('O ganho sobre uma tabela clusterizada com índice é de aproximadamente', round(TElapsedEL_SI/TElapsedELC_CI), 'vezes.')

<br><br>

## Índices de Cobertura

Os tipos e valores dos analitos são os atributos que se procura com grande frequência.<br>
Então, ao invés de ter toda a tabela clusterizada, pode ser interessante ter um índice que inclua `DE_Analito` e `DE_Resultado` como atributos `INCLUDED`, para que a consulta tenha tal índice como sendo __de cobertura__.

In [None]:
TStart = timeit.default_timer()
%sql                                                                                                       \
CREATE INDEX ExamLabs_IDAt_IDPaDtEv_AnRe_IX ON D2.ExamLabs(ID_Atendimento, ID_Paciente,DT_Coleta,DE_Exame) \
    INCLUDE (DE_Analito, DE_Resultado); 
TElapsed = timeit.default_timer() - TStart
print('Gastou', round(1000*TElapsed, 2),'ms para criar o índice included.')

Para usar esse índice como de cobertura, não devemos usar os atributos que não estão incluídos nele.\
Então, ao invés de solicitarmos todos os tributos (*), solicitamos apenas os atributos que estão no índice:

In [None]:
%%capture
TStart = timeit.default_timer()
for i in range(10):
    %sql Result <<                                                                            \
    EXPLAIN SELECT ID_Atendimento, ID_Paciente, DT_Coleta, DE_Exame, DE_Analito, DE_Resultado \
        FROM ExamLabs                                                                         \
            WHERE ID_Paciente='A1CC5033C1610500' AND                                          \
                  ID_Atendimento='9A3B81E36E043714B4BFF8108CCCC51F' AND                       \
                  DT_Coleta='2020-08-16' AND                                                  \
                  DE_Exame='hemograma completo, sangue total'

TElapsedEL_CIC = timeit.default_timer() - TStart  ## Time Elapsed na tabela Exampalbs com ïndice de cobertura

In [None]:
print(round(100*TElapsedEL_CIC, 2),'ms por comando')
print('Vemos que o ganho é de aproximadamente', round(TElapsedEL_SI/TElapsedEL_CIC,1), 'vezes.')

Vamos verificar o plano de consulta escolhido:

In [None]:
%%sql
EXPLAIN SELECT ID_Atendimento, ID_Paciente, DT_Coleta, DE_Exame, DE_Analito, DE_Resultado 
    FROM ExamLabs
        WHERE ID_Paciente='A1CC5033C1610500' AND                     
              ID_Atendimento='9A3B81E36E043714B4BFF8108CCCC51F' AND  
              DT_Coleta='2020-08-16' AND                             
              DE_Exame='hemograma completo, sangue total'

Podemos ver na linha 1 que o índice permitiu uma consulta percorrendo só o índice:\
&emsp;`Index Only Scan using ExamLabs_IDAt_IDPaDtRv_AnRe_IX on ExamLabs `

<br><br>

## Índices de expressão

são índices úteis para indexar expressões que comparam os atributos usados na consulta com expressões sobre os dados armazenados.

Por exemplo, suponha que seja frequente buscar por pacientes com determinada idade.\
Como o que está armazenado é o ano de nascimento, a busca é feita subtraindo o ano de 2021 (o ano da coleta dos dados): 
<font size="2" face="arial" style="background-color:#D0FFE0;" color="#050505"> &nbsp; 2021-AA_Nascimento </font>.\
Então pode ser criado um índice sobre essa expressão.

Mas antes, para poder comparar, vamos executar a seguinte consulta sem índice:

In [None]:
%%capture
######Garantir que não existam índices remanescentes de execuções anteriores: ####
%sql DROP INDEX IF EXISTS D2.Pacientes_IDPa_XNA_IHX;
%sql DROP INDEX IF EXISTS D2.Pacientes_IDPa_XNA_IXX;

TStart = timeit.default_timer()
for i in range(10):
    %sql SELECT * FROM Pacientes WHERE 2021-AA_Nascimento=80
TElapsedPA_xNa_SI = timeit.default_timer() - TStart

In [None]:
print('Gastou',round(100*TElapsedPA_xNa_SI, 2),'ms por comando')

Vamos verificar o plano de consulta:

In [None]:
%%sql
EXPLAIN 
    SELECT * FROM Pacientes WHERE 2021-AA_Nascimento=80;

Como verificamos na primeira linha, a busca foi executada usando busca sequencial (_Seq Scan_).

<br>

Vamos agora criar um índice sobre essa expressão.\
Como é um atributo só, vamos aproveitar para criar também o mesmo índice usando _hash_.\
Criamos primeiro o índice _Hash_:

In [None]:
TStart = timeit.default_timer()
%sql DROP INDEX IF EXISTS D2.Pacientes_IDPa_XNA_IHX;
%sql CREATE INDEX Pacientes_IDPa_XNA_IHX ON D2.Pacientes USING HASH((2021-AA_Nascimento)); 
TElapsedPA_CrIH = timeit.default_timer() - TStart
print('Gastou', round(1000*TElapsedPA_CrIH, 2),'ms Para criar o índice Hash')

Então re-executamos a mesma consulta:

In [None]:
%%capture
TStart = timeit.default_timer()
for i in range(10):
    %sql SELECT * FROM Pacientes WHERE 2021-AA_Nascimento=80
TElapsedPA_xNa_CIH = timeit.default_timer() - TStart

In [None]:
print('Gastou',round(100*TElapsedPA_xNa_CIH, 2),'ms por comando')

Vamos verificar o plano de consulta:

In [None]:
%%sql
EXPLAIN 
    SELECT * FROM Pacientes WHERE 2021-AA_Nascimento=80;

Como vericamos na terceira linha, a busca foi executada usando o índice _Hash_: `Index Scan on Pacientes_IDPa_XNA_IHX `.

<br>

A sequir criamos um índice equivalente sobre a mesma expressão, mas usando uma _B_Tree_:

In [None]:
TStart = timeit.default_timer()
%sql DROP INDEX IF EXISTS D2.Pacientes_IDPa_XNA_IXX;
%sql CREATE INDEX Pacientes_IDPa_XNA_IXX ON D2.Pacientes((2021-AA_Nascimento)); 
TElapsedPA_xNa_CIB = timeit.default_timer() - TStart
print('Gastou', round(1000*TElapsedPA_xNa_CIB, 2),'ms Para criar o índice B-tree')

Então re-executamos a mesma consulta:

In [None]:
%%capture
TStart = timeit.default_timer()
for i in range(10):
    %sql SELECT * FROM Pacientes WHERE 2021-AA_Nascimento=80
TElapsedPA_xNa_SI = timeit.default_timer() - TStart

In [None]:
print('Gastou',round(100*TElapsedPA_xNa_SI, 2),'ms por comando')

Vamos verificar o plano de consulta:

In [None]:
%%sql
EXPLAIN 
    SELECT * FROM Pacientes WHERE 2021-AA_Nascimento=80;

Como vericamos na terceira linha, a busca foi agora foi executada usando o índice _B_tree_: `Index Scan on Pacientes_IDPa_XNA_IXX`.

Para que um índice de expressão seja usado, é necessário que a expressão indexada seja usada de forma idêntica na consulta.\
Uma expressão diferente embora aritmeticamente equivalente não aciona o uso do índice.\

Por exemplo, 

In [None]:
%%sql
EXPLAIN 
    SELECT * FROM Pacientes WHERE AA_Nascimento=2021-80;

<br>

Aqui podemos concluir também, a respeito dos índices _B-Tree_ e _Hash_ que:
 * Entre um índice _Hash_ e _B-Tree_ não existe muita diferença no tempo de execução, um ou outro podem ser escolhido dependendo da consulta e dos dados armazenados;
 * Um índice _Hash_ tende a ser construido na metade do tempo de uma _B-Tree_, e tende a ocupar bem menos espaço na memória secundária.
 * Mas um índice _B-Tree_ é em geral mais vantajoso, pois pode responder não apenas a consultas por igualdade mas também por relações de ordem.

<br><br>

## Índices parciais

Um Índice Parcial indexa apenas parte dos dados armazenados na tabela: 
 <font size="3"  style="background-color:#E0E0F0;" color="#050505">apenas as tuplas em que os atributos na tupla atendem à condição especificada na cláusula `WHERE` do índice</font>    

A restrição para que esse atributo seja usado é que a mesma condição da cláusula `WHERE` do índice deve estar presente na  cláusula `WHERE` do comando.
<br>

Por exemplo, vamos assumir que é frequente acessar apenas os pacientes do hospital `'BPSP'`.\
Vamos contar quantos pacientes são, e medir o tempo medio para contar isso 10 vezes:

In [None]:
%%capture
TStart = timeit.default_timer()
for i in range(10):
    %sql SELECT Count(*) FROM D2.Pacientes WHERE De_Hospital='BPSP';
TElapsedHO_SI = timeit.default_timer() - TStart

In [None]:
print('Gastou',round(100*TElapsedHO_SI, 2),'ms por comando')

Veja que a condição desse comando é: `WHERE De_Hospital='BPSP'`\
Podemos criar um índice com essa condição e então re-executar o comando:

In [None]:
%sql DROP INDEX IF EXISTS D2.Pacientes_Ho_IXP1;

TStart = timeit.default_timer()
%sql CREATE INDEX Pacientes_Ho_IXP1 ON D2.Pacientes(ID_Paciente) WHERE DE_Hospital='BPSP'; 
print('Gastou',round(1000*(timeit.default_timer() - TStart), 2),'ms para criar o índice.')

In [None]:
%%capture
TStart = timeit.default_timer()
for i in range(10):
    %sql SELECT Count(*) FROM D2.Pacientes WHERE De_Hospital='BPSP';
TElapsedHO_SI = timeit.default_timer() - TStart

In [None]:
print('Gastou',round(100*TElapsedHO_SI, 2),'ms por comando')

<br><br>

## Índices com chave de acesso única

Índices `Unique` não permitem que existam duas tuplas com o mesmo valor no atributo indexado.\
Eles são automaticamente criados quando se declara uma chave (primária ou não).\

Se quizermos usar algum índice diferente do padrão quando a chave é declarada, devemos indicar qual índice  usar (que já deve estar previamente criado).

Por exemplo, vamos assumir que é frequente perguntarmos o `IC_Sexo` de um paciente, dado seu `ID_Paciente`.\
Essa consulta poderia ser respondida por um índice de cobertura para essa consulta colocando `IC_`Sexo como atributo _included_.

Para isso é necessário criar o índice e então declará-lo na definição da restrição de integridade da chave primária.

Vamos inicialmente medir o tempo de uma consula sem que esse índice exista, embora o índice da chave primária exista:

In [None]:
%%capture
TStart = timeit.default_timer()
for i in range(10):
    %sql SELECT IC_Sexo FROM Pacientes WHERE ID_Paciente='E7AF3F82BC56AD87';
TElapsedPA_CI2 = timeit.default_timer() - TStart

In [None]:
print('Gastou',round(100*TElapsedPA_CI2, 2),'ms por comando')

Vamos verificar o plano de consulta:

In [None]:
%%sql
EXPLAIN
    SELECT IC_Sexo FROM Pacientes WHERE ID_Paciente='E7AF3F82BC56AD87';

Como podemos verificar, o acesso já foi feito usando `Index Scan using PK_Pacient.`

A seguir criamos o índice que inclui `IC_Sexo` e o substituimos para ser o índice usado para validação da chave primária, assim:

<dd>1.  Criamos o índice com o atributo _included_</dd>

In [None]:
%%sql 
ALTER TABLE D2.Pacientes DROP CONSTRAINT IF EXISTS PK_Pacient_INC_Sx;
ALTER TABLE D2.Pacientes DROP CONSTRAINT IF EXISTS PK_Pacient;

CREATE UNIQUE INDEX PK_Pacient_INC_Sx ON D2.Pacientes(ID_Paciente) INCLUDE (IC_Sexo);

<dd>2.  Remover temprariamente a restrição de integridade</dd><br>

Veja que o índice que já existia é removido também.

In [None]:
%%sql 
SELECT SchemaName, TableName, IndexName, IndexDef 
    FROM Pg_Indexes
    WHERE tablename='pacientes'
    ORDER BY 1, 2, 3

<dd>3.  Recriar a restrição de chave primária usando o novo índice</dd>

In [None]:
%%sql
ALTER TABLE Pacientes
    ADD PRIMARY KEY USING INDEX PK_Pacient_INC_Sx;

Vamos re-executar a mesma consulta:

In [None]:
%%capture
TStart = timeit.default_timer()
for i in range(10):
    %sql SELECT IC_Sexo FROM Pacientes WHERE ID_Paciente='E7AF3F82BC56AD87';
TElapsedPA_CI2 = timeit.default_timer() - TStart

In [None]:
print('Gastou',round(100*TElapsedPA_CI2, 2),'ms por comando')

Vamos verificar o plano de consulta:

In [None]:
%%sql
EXPLAIN
    SELECT IC_Sexo FROM Pacientes WHERE ID_Paciente='E7AF3F82BC56AD87';

Como podemos verificar, o acesso agora foi feito usando `Index`<u>`Only`</u>`Scan using PK_Pacient_INC_Sx.`
 
 Como a busca recupera uma única tupla e o acesso anterior já era indexado, o ganho de tempo é pequeno, mas significativo de qualquer maneira.\
 E muito mais significativo se a consulta recuperar muitas tuplas, ou for parte da preparaçào de dados para uma análise posterior.
 
<br><br><br>

## Deixando a base como estava no início

Todos os índices e alterações feitas por este ___Notebook___ estão gravadas de maneira permanente na base de dados.\
Se o Notebook for ser executado novamente, é interessante reverter todas as operações.
<div class="alert alert-block alert-info">
    &#x26A0; As coneções feitas com o módulo `sqlalchemy` consideram cada acesso ao banco como uma transação.<br>
    Com isso, não adianta iniciar uma transação no início do <i>notebook</i> para reverter no final abortando a transação, pois ela é finalizada já no primeiro comando.<br>
    As alteraçòes devem ser feitas uma a uma.
    </div>

No entanto, vamos deixar a tabela duplicada `ExamLabC` e seu índice `ExamLabsc_IDAt_IDPa_IX`, para usar no _notebook seguinte: `4.2-Indexacao_ExemploAula`.

In [None]:
%%capture
%%sql
ALTER TABLE D2.Pacientes DROP CONSTRAINT IF EXISTS PK_Pacient_INC_sx;
ALTER TABLE D2.Pacientes ADD CONSTRAINT PK_Pacient PRIMARY KEY (ID_Paciente);
DROP INDEX IF EXISTS D2.ExamLabs_IDAt_IDPa_IX;
DROP INDEX IF EXISTS D2.ExamLabs_IDAt_IDPaDtEv_AnRe_IX;
DROP INDEX IF EXISTS D2.ExamLabs_IDAt_IH;
DROP INDEX IF EXISTS D2.Pacientes_Ho_IXP1;
DROP INDEX IF EXISTS D2.Pacientes_IdPa_XNa_IHX;
DROP INDEX IF EXISTS D2.Pacientes_IdPa_XNa_IXX;
DROP INDEX IF EXISTS D2.PK_Pacient_Inc_Sx;

In [None]:
%%sql
SELECT SchemaName, TableName, IndexName, IndexDef 
    FROM Pg_Indexes
    WHERE tablename !~*'(PG_)|(sql)'
    ORDER BY 1, 2, 3

<br><br>

<font size="5" face="verdana" color="green">
     <b>Índices em SQL</b>
    </font><br>

<font size="10" face="verdana" color="red">
        <b>FIM</b>&nbsp; <img src="Figuras/MBAIABD-Logo.png" width=100/>
    </font>