<font size="6" face="verdana" color="green">
<img src="Figuras/MBAIABD-Logo.png" width=100/>
    <b>Exploração inicial das tabelas da Base de dados <u>Alunos80K</u></b>
</font>

<br><br>
**Objetivo:** Olhar rapidamente o conteúdo das tabelas que existem na base de Dados `Alunos80K`\
__Adicional:__ Verificar o plano da consulta escolhido pelo SGBD &nbsp; <img src="Figuras/Postgres.png" width=130/>.

<br>

## Conectar com a Base de Dados

Para começar, é necessário estabelecer a coneção com a base:

In [1]:
############## Importar os módulos necessários para o Notebook:
from ipywidgets import interact  ##-- Interactors
import ipywidgets as widgets     #---
from sqlalchemy import create_engine


############## Conectar com um servidor SQL ###################### --> Postgres
%load_ext sql

# Connection format: %sql dialect+driver://username:password@host:port/database
engine = create_engine('postgresql://postgres:pgadmin@localhost/Alunos80')
%sql postgresql://postgres:pgadmin@localhost/Alunos80

The sql extension is already loaded. To reload it, use:
  %reload_ext sql


ModuleNotFoundError: No module named 'psycopg2'

<br><br>
## Explorar rapidamente o que tem na base de dados

As tabelas usadas nos exemplos são: `Alunos`, `Discip`, `Turma`, `Matricula` e `Professor`.<br>

Vamos verificar a quantidade de atributos e de tuplas dessas tabelas:

In [None]:
%%sql
SELECT TC.RelName, TC.RelNatts,                                -- --> Nome da relação e número de atributos
       TC.RelTuples::INT, TC.RelPages                          -- --> Quantidade de tuplas e quantidade de páginas em disco
    FROM pg_catalog.pg_tables TN JOIN Pg_Class TC ON TN.TableName=TC.RelName
    WHERE TableName IN ('alunos', 'discip', 'turma', 'matricula', 'professor')
    ORDER BY 1;

<br>

Esta base é semelhante à base Alunos15, mas:
 * ela é maior. Por exemplo, tem 80.000 alunos, 6.200 professores, mais de 620 mil matrículas, etc.\
   Isso se reflete também na necessidade de muitas páginas por tabela.
 * alguns atributos tiveram os tipos modificados. Veja por exemplo o atributo `Idade` de `Alunos`
 * existem mais atributos em várias tabelas. Por exemplo, a tabela `Matrícula` tem diversos atributos para guardar notas intermediárias:

In [None]:
%%sql
SELECT C.RelName, A.AttRelId, A.AttName, A.AttNum, A.AttLen, A. AttTypId, T.TypName
    FROM Pg_Class C JOIN Pg_Attribute A ON C.OID = A.AttRelId
                    JOIN Pg_Type T      ON A.AttTypId=T.OID
    WHERE (C.RelName = 'alunos' OR C.RelName = 'matricula')
      AND A.AttNum>0   -- AttNum<0 ==> Atributo de sistema
    ORDER BY 1,4;


Existem algumas tabelas 'intermediárias', que foram usadas para preparar a geração aleatória das tabelas alvo.\
Por exemplo, a tabela 'Unidade':

In [None]:
@interact(Limit=widgets.IntSlider(value=5, min=1, max=42,description='Limite:'))
def funcao(Limit):
    #####################
    %sql Unid <<        \
    SELECT *            \
        FROM Unidade    \
        LIMIT :Limit;

    print('\nUnidades da USP:\n', Unid, sep='')


Podemos ver todas as tabelas consultando o esquema da Base de dados:

<br><br>

## Como verificar o <b>plano da consulta</b> escolhido pelo SGBD &nbsp; <img src="Figuras/Postgres.png" width=130/>.
<div class="alert alert-block alert-info"> 
    &#x26A0; Infelizmente <font size="3" face="arial" style="background-color:#FFE0E0;" color="#050505">Jupyter Notebook</font> ajusta o resultado das consultas à direita, o que embaralha um pouco a analise dos resultados de um `EXPLAIN`.<br>
    Esses comando é melhor vizualizado num aplicativo IDE (<i><b>I</b>ntegrated <b>D</b>evelopment <b>E</b>nvironment</i>, como `PgAdimin` ou 'DBeaver'.
    </div>
<br>

Se um comando de manipulaçào de dados em SQL (`SELECT`, `INSERT`, `UPDATE` ou `DELETE`) for precedido por `EXPLAIN`, ele não será executado, mas será mostrado o plano a ser usado em sua execução, com as respectivas estimativas de custo. 
  * As estimativas são dadas em unidades arbitrárias, portanto são úteis apenas para comparar diferentes planos.
  * As operações são dadas numa árvore de comandos (é uma hierarquia), onde cada operador é indicado pelo símbolo `->`

Por exemplo, o plano gerado pelo SGBD para executar o comando anterior pode ser visto solicitando-se:

In [None]:
%%sql
EXPLAIN
    SELECT *
        FROM Unidade
        LIMIT 5;

Aqui o comando começa a ser executado pelo operador no menor nível da hierarquia: O operador `Seq Scan`:\
 * `Seq Scan` significa <i><b>Seq</b>uential <b>Scan</b></i>: executa uma busca sequencial sobre toda a tabela `Unidade`, e se prevê que:
   * o custo inicial é `0.00` (não se espera nada para começar a receber as tuplas da resposta)
   * o custo final desse operador é `1.42` unidades de tempo numa unidade arbitrária (pelo jargão da área: `1.42 Timerons`
   * espera-se recuperar `rows=42` tuplas
   * e que cada tupla tenha em média `width=66` bytes.

Depois de lida a tabela sequencialmente, o resultado é limitado pelo operador `Limit`:\
 * `Limit` trunca o resultado obtido pelo operador subordinado `Seq Scan` e se prevê que:
   * o custo inicial é `0.00`
   * o custo final desse operador e portanto da consulta como um todo é `0.17` unidades de tempo `Timerons`
   * espera-se recuperar `rows=5` tuplas
   * e que cada tupla tenha em média `width=66` bytes.

<br>

Se quizermos obter medidas de uma execução real, acrescentamos `ANALYZE` ao `EXPLAIN`:

In [None]:
%%sql
EXPLAIN ANALYZE
    SELECT *
        FROM Unidade
        LIMIT 5;

`ANALYZE` inclui às informações mostradas pelo `EXPLAIN` também as medidas reais da execução.\
Veja que o comando é executado de fato, mas o SGBD não transfere o resultado para o solicitante, apenas tranfere os dados da explicação.\
Aqui vemos que o comando começa a ser executado pelo operador `Seq Scan`:\
 * `Seq Scan` além da previsão já mostrada antes, ele acrescenta os dados reais da execução:
   * o custo inicial real é `actual time=0.018` (leva `0.018` milisegundos (20 microsegundos) para  obter a primeira tupla da resposta)
   * o custo final desse operador é `0,019`ms (gasta-se `19-18=01` microsegundo para obter todas as respostas)
   * espera-se recuperar `rows=42` tuplas
   * e uma única varredura `loops=1` é suficiente.
 * `Limit` trunca o resultado obtido pelo operador subordinado `Seq Scan` gastando:
   * o custo inicial é `0.020`ms
   * o custo final da consulta como um todo é `0.022`ms
   * recuperam-se `rows=5` tuplas
   * eem uma única `loops=1` varredura.

O tempo que o SGBD gastou para executar o planejamento da consulta foi de `Planning Time: 0.100 ms`\
O tempo que o SGBD gastou para executar a consulta foi de `Execution Time: 0.038 ms`

<div class="alert alert-block alert-info">
    &#x26A0; O tempo real de execução da consulta é medido pelo <i>clock</i> do Sistema Operacional, portanto pode variar um pouco entre cada execução.<br>
    &#9654; Você pode re-executar o comando diversas vezes para verificar isso.<br>
    Note também que o custo previsto não muda.
    </div>

A documentação completa do comando pode ser encontrada em: https://www.postgresql.org/docs/current/sql-explain.html

<br><br>
<font size="4" face="verdana" color="green">
     <b>Exploração inicial das tabelas da Base de dados Alunos80K</b>
    </font><br>

    
<font size="10" face="verdana" color="red">
        <b>FIM</b>&nbsp; <img src="Figuras/MBAIABD-Logo.png" width=100/>
    </font>