<font size="6" face="verdana" color="green">
<img src="Figuras/MBAIABD-Logo.png" width=100/>
    <b>Redução de dados</b> - Conceitos Básicos e Amostragem Aleatória
</font>

<br><br>
**Objetivo:** Aprender técnicas para __Redução de Dados__  em SQL que sejam úteis para adequar os dados aos requisitos de operações de análise de dados.\
São tratados aqui:
 * Conceitos Básicos
 * Amostragem Aleatória
<br>

## Conectar com a Base de Dados

Para começar, é necessário estabelecer a coneção com a base. \
Vamos aqui usar a base `Alunos80K`.

In [1]:
############## Importar os módulos necessários para o Notebook:
from ipywidgets import interact  ##-- Interactors
import ipywidgets as widgets     #---
from sqlalchemy import create_engine
import re, timeit

############## Conectar com um servidor SQL ###################### --> Postgres
%load_ext sql

# Connection format: %sql dialect+driver://username:password@host:port/database
engine = create_engine('postgresql://postgres:pgadmin@localhost/Alunos80')
%sql postgresql://postgres:pgadmin@localhost/Alunos80

The sql extension is already loaded. To reload it, use:
  %reload_ext sql


ModuleNotFoundError: No module named 'psycopg2'

<br><br>

## Técnicas de Redução de Cardinalidade
__Amostragem de dados__

Aqui, o objetivo é escolher subconjuntos dos dados originais em:
 * Amostragem aleatória
 * Amostragem dirigida
   * Baseadas em Histogramas;
   * Baseadas em Classes;
   * Baseadas em Densidade.

<br><br>

### Funções de geração de números aleatórios em SQL

<div class="alert alert-block alert-warning"><font color=#000090>
    <font size="4"  style="background-color:#E0E060;" color="#050505">Função para geração de números aleatórios em SQL:</font><br>
    <font size="3" face="courier" color=#202020>Random()</font> - Gera valor aleatório no intervalo [0.0, 1.0] em distribuição uniforme.<br>
    <font size="3" face="courier" color=#202020>SetSeed(REAL)</font> - Define a semente para as chamadas subsequentes da funcao `Random()`.<br>
        &emsp;&emsp;&emsp;&emsp;&emsp;&emsp;&emsp;&emsp;&emsp; Recebe um valor aleatório em [0.0, 1.0]
</div>

Por exemplo:\
<i>Gerar um número aleatório entre zero e um, e outro inteiro entre zero e 100:</i>

In [None]:
%%sql
SELECT Random(), Round(100*Random());


_Gerar uma sequência com diversos números:_ 

In [None]:
%%sql
SELECT I AS Seq, Random() AS Valor
    FROM GENERATE_SERIES(1, 10) WITH ORDINALITY I;


_Gerar uma mesma sequência duas vezes:_ 

In [None]:
%sql SELECT SetSeed(.1234);
%sql Seq << SELECT I AS Seq, Random() AS Valor FROM GENERATE_SERIES(1, 10) WITH ORDINALITY I;
print(Seq)
%sql SELECT SetSeed(.1234);
%sql Seq << SELECT I AS Seq, Random() AS Valor FROM GENERATE_SERIES(1, 12) WITH ORDINALITY I; -- mas agora gerar dois a mais!
print(Seq)

<div class="alert alert-block alert-warning"><font color=#000090>
    <font size="4"  style="background-color:#E0E060;" color="#050505">Função para geração de números aleatórios em SQL, em distribuição normal</font><br>

<font size="3" face="courier" color=#202020>Normal_Rand(N, Avg, Sd)</font> - Gera valor aleatório em distribuição normal.<br>
&emsp;&emsp;&emsp;&emsp;&emsp;&emsp;&emsp; `N` – Quantidade de tuplas a ser gerada;<br>
&emsp;&emsp;&emsp;&emsp;&emsp;&emsp;&emsp; `Avg` – Valor da média da distribuição gerada;<br>
&emsp;&emsp;&emsp;&emsp;&emsp;&emsp;&emsp; `Sd` – Desvio padrão da distribuição.<br>
</div>

Essa função está definida no __`módulo de extensão`__ `TableFunc`, portanto para usá-la é necessário incluir esse módulo no gerenciador.\
Isso deve ser feito uma vez só (ele fica instalado), com o comando:

In [None]:
%%sql 
CREATE EXTENSION IF NOT EXISTS tablefunc;

Por exemplo:\
<i>Gerar 10 números com média 5 e desvio padrão 2:</i>

In [None]:
%%sql
SELECT Row_Number() OVER () AS Seq, Valor
    FROM Normal_Rand(10, 5, 2) AS Valor
    ORDER BY 1;

É importante avaliar o tempo gasto pelos comandos.
Como o tempo pode variar um pouco entre execuções, é interessante também que essa medida seja feita pela média de diversas execuções.

Por exemplo, para avaliar o tempo de uma execução pode ser usado o comando `EXPLAIN ANALYZE`, que mostra como a consulta é executada e:
 * o tempo total de execução da consulta no servidor `Execution Time:`
 * o tempo de compilação do comando SQL: `Planning Time:`

In [None]:
%%sql
EXPLAIN ANALYZE SELECT Row_Number() OVER () AS Seq, Valor
FROM Normal_Rand(100, 5, 2) AS Valor
ORDER BY 1;

A média de execução total, incluindo a transmissão de dados para o notebook pode ser medido pelo próprio Python.\
Por exemplo para obter o tempo médio de 10 execuções de uma consulta que avalia a média e o desvio padrão de uma sequencia de 1.000.000 de números aleatórios gerada pela função:

In [None]:
%%capture
TStart = timeit.default_timer()
for i in range(10):
    %sql Result << SELECT Count(*), Avg(Valor), StdDev(Valor)    \
                       FROM Normal_Rand(1000000, 5, 2) AS Valor;

TElapsedPA_SI = timeit.default_timer() - TStart  ## Time Elapsed na tabela Pacientes Sem ïndice

In [None]:
print('Gastou',round(100*TElapsedPA_SI, 2),'ms por comando')

<br><br>

### A Cláusula TABLESAMPLE em SQL

<div class="alert alert-block alert-warning"><font color=#000090>
    <font size="4"  style="background-color:#E0E060;" color="#050505">Sintaxe geral da cláusula `TABLESAMPLE` em SQL <font size="2">&emsp;(Padrão ISO-SQL-2003)</font></font><br>
SELECT $<$atributos$>$<br>
&emsp;&emsp;FROM $<$tabela$>$<br>
&emsp;&emsp;&emsp;&emsp;TABLESAMPLE $<$método$>$ ($<$argumento$>$ [, . . .])<br>
&emsp;&emsp;&emsp;&emsp;&emsp;&emsp;[REPEATABLE $<$semente$>$]
</font></div>

Onde:
 * $<$método$>$ pode ser `BERNOULLI` ou `SYSTEM` (pelo padrao)
 * $<$argumento$>$  depende do método (porcentagem de 1,0 a 100,0)
 * $<$semente$>$ é o valor de inicialização da sequência de aleatórios.

`BERNOULLI` – é equivalente a:\
&emsp;&emsp; `SELECT * FROM $<$tabela$>$ WHERE 100*Random() $<$ Argumento;`
 * Volta uma quantidade mais correta das tuplas pedidas,
 * mas é mais lento (apesar de usar _bitmap_ para gerar os _`RowId`_).
 * <font color="red"> <u>É útil para tabelas não muito grandes.</u></font>
 
`SYSTEM` – Lê a porcentagem especificada de páginas da tabela e retorna  as suas tuplas correspondentes.
 * É bem mais rápido, mas:
 * volta uma quantidade aproximada de tuplas;
 * pode ser tendencioso se houver tendência na armazenagem das tuplas.
 * <font color="red"> <u>Deve ser usado apenas para tabelas grandes.</u></font>

Exemplo: _Participar uma tabela `T` em dois subconjuntos de tuplas_
 * _`TR` com $1/4$ para treino e_
 * _`TE` com $3/4$ para teste_:

In [None]:
%%sql
ALTER TABLE Alunos DROP COLUMN IF EXISTS Separa CASCADE;
ALTER TABLE Alunos
    ADD COLUMN Separa CHAR    ---- ’R’ → Treino, ’E’ → Teste
    NOT NULL DEFAULT 'E';

WITH Treino AS (SELECT NUSP
                  FROM Alunos TABLESAMPLE BERNOULLI (25) REPEATABLE(1234)
             )
UPDATE Alunos
SET Separa='R'
    WHERE EXISTS (SELECT * FROM Treino WHERE Alunos.NUSP=Treino.NUSP);

SELECT Count(*) FILTER (WHERE Separa='R') Treino,
       Count(*) FILTER (WHERE Separa='E') Teste
    FROM Alunos
    LIMIT 10

<div class="alert alert-block alert-info">
    &#x26A0; Como não vamos mais usar o atributo `Separa`, podemos removê-lo.
    </div>

In [None]:
%%sql
ALTER TABLE Alunos DROP COLUMN Separa;

<br><br>

##  Amostragem Aleatória de tuplas em SQL

Além da abordagem usando `TABLESAMPLE`, como ilustrada no exemplo anterior, ´e possível as funções de geração de aleatórios, gerando amostragens mais _controladas_.

__Exemplo 1:__ _Retornar 10% das tuplas._

In [None]:
%%sql
WITH Amostra as (SELECT *
                     FROM Alunos
                     WHERE Random() < .10)
  SELECT Count(*) FROM Amostra;

 * <font color="green">O conjunto não tem repetição,</font><br>
 * <font color="red">mas pode não ter exatamente 10% das tuplas.</font><br>
 * <font color="#909000">Requer um _table scan_  sobre toda a tabela.</font>

<br><br>

__Exemplo 2:__ _Retornar uma quantidade predefinida de tuplas (p.ex. k=1000)._

In [None]:
%%sql
WITH Amostra AS (SELECT *
                    FROM Alunos
                    ORDER BY Random()
                    LIMIT 1000)
  SELECT Count(*) FROM Amostra;

 * <font color="green">O conjunto não tem repetição, e tem exatamente a quantidade de tuplas pedida.</font><br>
 * <font color="red">Mas requer um _table scan_ de toda a tabela, mais a ordenação dos atributos aleatórios! &#9758;  Complexidade $O(N + N · \log N)$</font><br>
 * <font color="#909000">⋆ É possível adotar medidas para melhorar substancialmente o custo.</font>

<br><br>

__Exemplo 3:__ _Retornar uma quantidade predefinida de tuplas (p.ex. $k=1000$)._
 * Obter uma sobre-amostragem com $p′$ pouco maior do que a taxa $p$ desejada.
 
Por exemplo recuperar 20% a mais do que a taxa de amostragem.<br>
  * Para $k=1000$ sobre a tabela `Alunos` com 80.000 tuplas, então $p=\frac{1000}{80000}=0,0125$.
  * Com $p = 0,0125\%$, pode-se recuperar a fração $p′ = p + 20\% = 0,0125 + 0,0125\cdot1,20\% = 0,015\%$ da tabela:

Exemplo 3:

In [None]:
%%sql
WITH Amostra AS (SELECT *
                     FROM Alunos
                     WHERE Random() < 0.015
                     LIMIT 1000)
  SELECT Count(*) FROM Amostra;

 * <font color="##00D000">Quanto maior o valor de sobre-amostragem, menor a chance da cláusula `WHERE` produzir menos do que $k$ tuplas,</font>
 * <font color="#77AA22">mas também prejudica mais a aleatoriedade do resultado</font>
 * <font color="909000">e mais lento o comando fica.</font>

Vamos avaliar as três alternativas,  criando uma tabela de teste:

In [None]:
%%sql
DROP TABLE IF EXISTS Teste;
CREATE TABLE Teste(
    Id INT,
    Dados NUMERIC DEFAULT random()*1000
    );

INSERT INTO Teste
    SELECT * FROM Generate_Series(1, 1000000);

Qual a quantidade de páginas ocupadas em disco por essa tabela?\
(as paginas em <img src="Figuras/Postgres.png" width=120> são de 8 KBytes)

%sql VACUUM ANALYZE Teste;

In [None]:
%%sql
SELECT RelName, To_CHAR(RelTuples, '999G999G999') AS Num_Tplas,
       RelPages                                   AS Num_Paginas,
       pg_size_pretty(Pg_Relation_Size(OId))      AS Tamanho
    FROM pg_Class WHERE RelName='teste';

Agora avaliando as três alternativas:

__Alternativa 1:__

In [None]:
%sql Str <<                            \
EXPLAIN ANALYZE SELECT * FROM Teste    \
    WHERE 100*Random() < .10;

print(Str)
Alt1=float(re.search('Execution Time: (.+) ms', str(Str)).group(1))

<br>

__Alternativa 2:__

In [None]:
%sql Str <<                                             \
    EXPLAIN ANALYZE SELECT * FROM Teste                 \
                        ORDER BY Random() LIMIT 1000;
print(Str)
Alt2=float(re.search('Execution Time: (.+) ms', str(Str)).group(1))

<br>

__Alternativa 3:__

In [None]:
%sql Str <<                                                 \
    EXPLAIN ANALYZE SELECT * FROM Teste                     \
                        WHERE Random() < 0.015 LIMIT 1000;
print(Str)
Alt3=float(re.search('Execution Time: (.+) ms', str(Str)).group(1))

In [None]:
print('Tempo de execução da alternativa 1:',Alt1, 'ms.')
print('Tempo de execução da alternativa 2:',Alt2, 'ms.')
print('Tempo de execução da alternativa 3:',Alt3, 'ms.')

<br>

__Exemplo 4:__
_Particionar a tabela a ser processada em:_
 * um conjunto de treino 
 * mais 10 conjuntos de teste.

<br>

__Alternativa 1:__ Associar um novo atributo, com o valor de 0 a 10, sendo um deles (digamos ‘0’) para indicar o conjunto de treino.\
(pode não ser repetitivo)

In [None]:
%%sql
ALTER TABLE Alunos
    ADD COLUMN IF NOT EXISTS Separa Smallint;    ---- 0 → Treino, i>0 → Teste_i;

UPDATE Alunos SET Separa=Trunc(11*Random());

SELECT Separa, Count(*)
    FROM Alunos
    GROUP BY Separa
    ORDER BY Separa;

__Alterenativa 2:__
Usar uma função de _hash_ sobre a chave ou qualquer combinação única de atributos da tabela.

<div class="alert alert-block alert-warning"><font color=#000090>
    <font size="4"  style="background-color:#E0E060;" color="#050505">Funções _Hash_ para atributos de tipo TEXT em SQL - <img src="Figuras/Postgres.png" width=120/>
        </font> <br>
<font size="3" face="courier" color=#202020>HashText(Text)</font> - Gera um n´umero aleatório de tipo INT4.<br>
<font size="3" face="courier" color=#202020>MD5(Text)</font> - Calcula o valor _hash_ em MD5 do argumento (tipo TEXT) e retorna um TEXT como um valor com 32 dígitos hexadecimais.<br>
&emsp;&emsp;&emsp;&emsp;&emsp;&emsp; `Text` – É o valor (da chave) a ser convertido.<br>
</font></div>

Por exemplo:

In [None]:
%%sql
SELECT HashText('José da Silva'), MD5('José da Silva');

Particionar usando a Alternativa 2 (que é repetitiva):

In [None]:
%%sql
ALTER TABLE Alunos ADD COLUMN IF NOT EXISTS SubConj SmallInt;
UPDATE Alunos * SET SubConj=Abs(HashText(NUSP::TEXT) % 11);

SELECT SubConj, Count(*)
    FROM Alunos
    GROUP BY SubConj
    ORDER BY SubConj;

Como o valor desse atributo é imutavel, ele nem precisa ser "materializado": pode ser obtido numa VIEW.

In [None]:
%%sql
ALTER TABLE Alunos DROP COLUMN IF EXISTS SubConj;
DROP VIEW IF EXISTS PreparaAluno;

CREATE VIEW PreparaAluno AS
    SELECT *, Abs(HashText(Nome) % 11) AS SubConj
        FROM Alunos;
        
SELECT * FROM  PreparaAluno
    LIMIT 10

<br><br>

<font size="4" face="verdana" color="green">
     <b>Redução de dados</b> - Conceitos Básicos e Amostragem Aleatória
    </font><br>

<font size="10" face="verdana" color="red">
        <b>FIM</b>&nbsp; <img src="Figuras/MBAIABD-Logo.png" width=100/>
    </font>