<font size="6" face="verdana" color="green">
<img src="Figuras/MBAIABD-Logo.png" width=100/>
    <b>Redução de dados</b>
</font>

<br><br>
**Objetivo:** Aprender técnicas para __Redução de Dados__  em SQL que sejam úteis para adequar os dados aos requisitos de operações de análise de dados.

<br>

## Conectar com a Base de Dados

Para começar, é necessário estabelecer a coneção com a base. \
Vamos aqui usar a base `Alunos80K`.

In [1]:
############## Importar os módulos necessários para o Notebook:
from ipywidgets import interact  ##-- Interactors
import ipywidgets as widgets     #---
from sqlalchemy import create_engine
import re, timeit
import pandas.io.sql as pdsql

############## Conectar com um servidor SQL ###################### --> Postgres
%load_ext sql

# Connection format: %sql dialect+driver://username:password@host:port/database
engine = create_engine('postgresql://postgres:pgadmin@localhost/Alunos80')
%sql postgresql://postgres:pgadmin@localhost/Alunos80

The sql extension is already loaded. To reload it, use:
  %reload_ext sql


ModuleNotFoundError: No module named 'psycopg2'

<br><br>

## Técnicas de Redução de Cardinalidade por Amostragem Dirigida Baseada em Histogramas

Aqui, o objetivo é escolher subconjuntos dos dados originais em:
 * Amostragem dirigida
   * Baseadas em Histogramas Equi-largura;
   * Baseadas em Histogramas Equi-altura;
   * Baseadas em Histogramas Equi-entropia;

<br><br>

### Redução de Cardinalidade por Amostragem Dirigida Baseada em Histogramas Equi-largura

<div class="alert alert-block alert-warning"><font color=#000090>
    <font size="4"  style="background-color:#E0E060;" color="#050505">Histogramas em Equi-largura (para <u>um</u> atributo)</font><br>
 <dd>1 - Encontra-se o menor e o maior valor do domínio do atributo  &#9758; Domínio ativo;</dd>
 <dd>2 - Divide-se o domínio ativo na quantidade de faixas definida pelo analista, criando-se faixas de valores de igual largura para o domínio daquele atributo:<br>
     &emsp; $faixa(x) \rightarrow \mathbb{N}$ é o número do bin do valor $x$;<br>
     &emsp; (opcionalmente pode-se eliminar os k-menores e os k-maiores valores para reduzir distorções);</dd>
 <dd>3 - Atribui-se a cada tupla o valor do contra-domínio correspondente;</dd>
 <dd>4 - Gera-se o histograma contando-se a quantidade de tuplas em cada bin;</dd>
 <dd>5 - Opcional: pode-se mostrar o histograma ao analista, para controle.</dd> 
</font></div>

<b>Exemplo 1.1:</b>\
<i>Histograma de `Idades` da tabela `Alunos`:</i>

In [None]:
TStart = timeit.default_timer()
Hist_Idade = pdsql.read_sql('''
    SELECT Idade, Count(*) Tot 
        FROM Alunos 
        GROUP BY 1 
        ORDER BY 1''', engine)
TElapsed = timeit.default_timer() - TStart
Hist_Idade.plot(x="idade", y="tot", kind="bar", title='Quantidade de alunos por idade', figsize=(18, 5))
print('Tempo de execução:', round(1000*TElapsed, 2),'ms.')

<font color='red'>Problema:</font> Somente existem bins para os dados que existem.

<b>Exemplo 1.2:</b>
Solução para incluir todos os bins:

In [None]:
TStart = timeit.default_timer()
Hist_Idade = pdsql.read_sql('''
    SELECT Bins.B AS Idade, 
           CASE WHEN Tab.Conta IS NULL THEN 0
                ELSE Tab.Conta END Tot
        FROM
            (WITH Lim AS (
                SELECT Min(Idade) Mi, Max(Idade) Ma
                    FROM Alunos)
                SELECT Generate_Series(Lim.Mi+1, Lim.Ma-1) AS B FROM Lim) AS Bins
                    LEFT OUTER JOIN
            (SELECT Idade, Count(*) Conta
                FROM Alunos
                GROUP BY Idade) AS Tab ON Bins.B=Tab.Idade;''', engine)

TElapsed = timeit.default_timer() - TStart
Hist_Idade.plot(x="idade", y="tot", kind="bar", 
                title='Quantidade de alunos por idade, desconsiderando o menor e o maior como outlier', figsize=(20, 5))
print('Tempo de execução:', round(1000*TElapsed, 2),'ms.')

<b>Exemplo 1.3:</b>
Histograma agrupando as `Idades` de cinco em cinco na tabela `Alunos`:

In [None]:
TStart = timeit.default_timer()
Hist_Idade = pdsql.read_sql('''
    SELECT Floor(Idade/5.00)*5 as Idade, Count(*) AS tot
        FROM Alunos
        GROUP BY 1
        ORDER BY 1;''', engine)

TElapsed = timeit.default_timer() - TStart
Hist_Idade.plot(x="idade", y="tot", kind="bar", 
                title='Quantidade de alunos por grupos de 5 idades', figsize=(4, 5))
print(Hist_Idade, '\nTempo de execução:', round(1000*TElapsed, 2),'ms.')

<b>Exemplo 1.4:</b>
Histograma agrupando as `Idades` da tabela `Alunos` em cinco _bins_:

<br>

Para grupar bins segundo uma função de distribuição das tuplas em _bins_ (ou _buckets_), podemos usar a função `Width_bucket`:

<div class="alert alert-block alert-warning"><font color="black">
    <font size="4"  style="background-color:#E0E060;" color="#050505">Função para dividir números em várias faixas -  <img src="Figuras/Postgres.png" width=120></font><br>
    <font size="3" face="courier" color=#0000C0>Width_bucket(Valor Real, Ini Real, Fim Real, Count INT)</font><br>
    &emsp;&emsp;&emsp;&emsp; Retorna em qual faixa (_bucket_) o Valor dado está dentro dos números entre 
    <font size="3" face="courier" color=#0000C0>Ini</font> e 
    <font size="3" face="courier" color=#0000C0>Fim</font>, dividindo por 
    <font size="3" face="courier" color=#0000C0>Count</font> pontos de corte (quer dizer, divide em 
    <font size="3" face="courier" color=#0000C0>Count</font>+1 faixas).
    </font>
</div>


In [None]:
TStart = timeit.default_timer()
Hist_Idade = pdsql.read_sql('''
    WITH MinMax AS (SELECT Min(Idade) Mi, Max(Idade)-Min(Idade)+3 Ma 
                        FROM Alunos)
      SELECT Width_bucket(Idade, (SELECT Mi FROM MinMax),
                                 (SELECT Ma FROM MinMax), 4) as Bin,
             Count(*) Tot
      FROM Alunos
      GROUP BY 1
      ORDER BY 1;''', engine)

TElapsed = timeit.default_timer() - TStart
Hist_Idade.plot(x="bin", y="tot", kind="bar", 
                title='Quantidade de alunos por idade, desconsiderando o menor e o maior como outlier', figsize=(4, 5))
print(Hist_Idade, '\nTempo de execução:', round(1000*TElapsed, 2),'ms.')

<b>Exemplo 1.4:</b>\
Para indicar a faixa de variação das idades, ao invés do índice do _bin_, podemos concatenar o início e final de cada faixa como uma string assim (veja a especificação do atributo `Faixa`):

In [None]:
TStart = timeit.default_timer()
Hist_Idade = pdsql.read_sql('''
    WITH MinMax AS (SELECT 4 AS NB, Min(Idade) AS Mi, Max(Idade)-Min(Idade)+3 AS Ma FROM Alunos)
      SELECT Bin,
             Trunc((SELECT Mi FROM MinMax) + ((Bin-1)*((SELECT Ma FROM MinMax)-(SELECT Mi FROM MinMax))/(SELECT NB FROM MinMax)),2) AS Ini,
             Trunc(((SELECT Mi FROM MinMax) + (Bin)*((SELECT Ma FROM MinMax)-(SELECT Mi FROM MinMax)) / (SELECT NB FROM MinMax)-1),2) AS Fim,
             Trunc((SELECT Mi FROM MinMax) + ((Bin-1)*((SELECT Ma FROM MinMax)-(SELECT Mi FROM MinMax))/(SELECT NB FROM MinMax)),2)::TEXT || ' a ' ||
                 Trunc(((SELECT Mi FROM MinMax) + (Bin)*((SELECT Ma FROM MinMax)-(SELECT Mi FROM MinMax)) / (SELECT NB FROM MinMax)-1),2)::TEXT AS Faixa,
              Tot
          FROM ( SELECT Width_Bucket(Idade, (SELECT Mi FROM MinMax), (SELECT Ma FROM MinMax), (SELECT NB FROM MinMax)) AS Bin, 
                        Count(*) as Tot
                     FROM Alunos
                     GROUP BY Bin
                     ORDER BY Bin) Histo;''', engine)

TElapsed = timeit.default_timer() - TStart
Hist_Idade.plot(x="faixa", y="tot", kind="bar", 
                title='Quantidade de alunos por idade em cinco bins', figsize=(4, 5))
print(Hist_Idade, '\nTempo de execução:', round(1000*TElapsed, 2),'ms.')

<br><br>

### Redução de Cardinalidade por Amostragem Dirigida Baseada em Histogramas Equi-altura

<br>

Histogramas Equi-altura em geral usam a __função de janelamento__ `NTile`.

<div class="alert alert-block alert-warning"><font color=#000000>
    <font size="4"  style="background-color:#E0E060;" color="#050505">Função de Janelamento NTILE</font><br>
    <font size="3" face="courier" color=#0000C0>NTILE(NBins) OVER (<br>
        &emsp;&emsp;&emsp;&emsp;[PARTITION BY $<$atrib particao$>$, ... ]<br>
        &emsp;&emsp;&emsp;&emsp;[ORDER BY $<$atrib para ‘<i>tiling</i>’$>$ [ASC | DESC], ...]<br>
        &emsp;&emsp;&emsp;&emsp; );
        </font><br>
    <b>onde:</b><br>
    &emsp;&emsp;&emsp;&emsp; <font size="3" face="courier" color=#0000C0>NBins</font> é o número de bins onde as tuplas serão distribuídas;<br>
    &emsp;&emsp;&emsp;&emsp; <font size="3" face="courier" color=#0000C0>PARTITION BY $<$atribs particao$>$</font> pode indicar possíveis classificações para gerar histogramas distintos;<br>
    &emsp;&emsp;&emsp;&emsp;&emsp;&emsp;&emsp;&emsp;(em geral não é usado para esta aplicação)<br>
    &emsp;&emsp;&emsp;&emsp; <font size="3" face="courier" color=#0000C0>ORDER BY $<$atrib para ‘<i>tiling</i>’$>$ [ASC | DESC], ...</font> deve indicar qual(is)
atributos compõe cada dimensão do histograma.<br>
    </font>
</div>

<br>
<b>Exemplo 2.1:</b><br>
<i>Gerar um Histograma em Equi-altura das `Idades` com 10 bins da tabela `Alunos`:</i>

In [None]:
TStart = timeit.default_timer()
Hist_Idade = pdsql.read_sql('''
WITH Temp AS (SELECT Bin, Min(idade) Mi, Max(Idade) Ma
                  FROM (SELECT *,
                               NTILE(11) OVER(ORDER By Idade) AS Bin
                            FROM Alunos) AS Partes
                  GROUP BY Bin)
  SELECT Temp.Mi::TEXT ||' a '|| (Temp.Ma-1)::TEXT AS Faixa, Count(*) Tot
      FROM Alunos, Temp
      WHERE Idade>=Mi AND Idade<Ma
      GROUP BY Temp.Bin, Temp.Mi, Temp.Ma
      ORDER BY Bin''', engine)

TElapsed = timeit.default_timer() - TStart
Hist_Idade.plot(x="faixa", y="tot", kind="bar", 
                title='Histograma em Equi-altura de Alunos.Idade', figsize=(4, 5))
print(Hist_Idade, '\nTempo de execução:', round(1000*TElapsed, 2),'ms.')

Veja que essa é uma solução <font color="red">aproximada</font>, porque `NTILE` não respeita a divisão de valores.\
Por isso, faixas de `Idade` que não cabem em uma údica divisão de _'tiling'_ são colapsadas numa única, gerando menos faixas do que a divisão original.

Por outro lado, note que o histograma 'tenta' obter uma 'altura o mais igual possível', juntando uma quantidade variável de idades diferentes num mesmo _bin_.

<br><br>

__Exemplo 2.2__
Gerar um histogramas em Equi-altura sobre a tabela Alunos dividindo:
 * `Idades` com 3 bins e
 * `Cidades`com 4 bins

In [None]:
TStart = timeit.default_timer()
Hist_Idade = pdsql.read_sql('''
    SELECT BinI, BinC, Min(Idade), Min(Cidade), Max(Idade), Max(Cidade), Count(*)
        FROM (SELECT *, NTILE(3) OVER(ORDER By idade) AS BinI, NTILE(4) OVER(ORDER By Cidade) AS BinC
                  FROM Alunos) AS Partes
        GROUP BY CUBE(Bini, Binc)
        ORDER BY Bini, Binc;''', engine)

TElapsed = timeit.default_timer() - TStart
print(Hist_Idade, '\nTempo de execução:', round(1000*TElapsed, 2),'ms.')

### Amostragem baseada em Hitogramas

Para executar uma amostragem baseada em histograma:
<dd>1 Cria-se o histograma multidimensional com os atributos mais importantes,</dd>
<dd>2 executa-se o processo de discretização dos atributos escolhidos,</dd>
<font color="red"><dd>3 e finalmente escolhem-se tuplas do conjunto original o mais aleatoriamente possível, mas de tal maneira que cada bin do histograma gerado atenda a determinada propriedade (p. ex. todos tenham o mesmo número de tuplas, ou tenha um valor mínimo e máximo para aquela quantidade de tuplas, etc.).</dd></font>
<dd>* Esse último passo é relativamente independente do processo de geração do histograma, e pode ser executado em complexidade linear sobre a cardinalidade $N$
do conjunto e independente da complexidade $F$ dos atributos e da dimensionalidade $E$): é $O(N)$.</dd>
<br>

<b>Exemplo 3.1)</b>\
Amostragem usando Histograma de `Idades` da tabela `Alunos` de cinco em cinco anos, saturando em no máximo 1% das tuplas em cada bin:

In [None]:
TStart = timeit.default_timer()
Hist_Idade = pdsql.read_sql('''
WITH Histo AS (SELECT Floor(Idade/5.00)*5 as Ini, Count(*) AS Conta
                   FROM Alunos
                   GROUP BY Ini),
     MaxBin AS (SELECT (Max(Conta)/Min(Conta))::Double Precision AS Mx FROM Histo),
     Sample AS (SELECT * 
                   FROM Alunos A, Histo H
                   WHERE H.Ini<=A.Idade AND H.Ini+5>A.Idade AND
                         Random()*H.Conta/(SELECT Mx FROM Maxbin) <0.01)
  SELECT Ini::TEXT||' a '||(Ini+4) IniIdade, Count(*) Contagem
      FROM Sample
      GROUP BY Ini
      ORDER BY Ini''', engine)

TElapsed = timeit.default_timer() - TStart
Hist_Idade.plot(x="iniidade", y="contagem", kind="bar", 
                title='Amostragem usando 1% d', figsize=(4, 5))
print(Hist_Idade, '\nTempo de execução:', round(1000*TElapsed, 2),'ms.')

Lembrando a quantidade de tuplas na tabela, agrupadas de 5 em 5 idades:

In [None]:
TStart = timeit.default_timer()
Hist_Idade = pdsql.read_sql('''
WITH Temp AS (SELECT Bin, Min(idade) Mi, Max(Idade) Ma
                  FROM (SELECT *,
                               NTILE(11) OVER(ORDER By Idade) AS Bin
                            FROM Alunos) AS Partes
                  GROUP BY Bin)
  SELECT Temp.Mi::TEXT ||' a '|| (Temp.Ma-1)::TEXT AS Faixa, Count(*) Tot
      FROM Alunos, Temp
      WHERE Idade>=Mi AND Idade<Ma
      GROUP BY Temp.Bin, Temp.Mi, Temp.Ma
      ORDER BY Bin''', engine)

TElapsed = timeit.default_timer() - TStart
Hist_Idade.plot(x="faixa", y="tot", kind="bar", 
                title='Quantidade de alunos por idade em grupos de cinco', figsize=(4, 5))
print(Hist_Idade, '\nTempo de execução:', round(1000*TElapsed, 2),'ms.')

<br><br>

## Técnicas de Redução de Dimensionalidade

### Medir as propriedades dos espaços de dados dos atributos

<b>Exemplo:</b>\
<i>Em quantas tuplas o atributo 'nota da primeira prova': `NotaP1` da relação de `Matriculas` é nulo?<br>
    E qual a sua variáncia?<\i>

In [None]:
TStart = timeit.default_timer()
%sql Result <<                                         \
SELECT Count(*) FILTER(WHERE NotaP1 IS NULL) AS Nulos, \
    Count(*) AS Total,                                 \
    Trunc(Variance(NotaP1),4) Variancia                \
    FROM Matricula;
TElapsed = timeit.default_timer() - TStart

print(Result, '\nTempo de execução:', round(1000*TElapsed, 2),'ms.')

<br><br>

Criar uma função para obter,
  * de todos os atributos de uma tabela:
    * a quantidade de nulos
    * a Cardinalidade do domínio,
  * dos atributos de tipos numéricos:
    * a Variância 
    * o Desvio Padrão.

In [None]:
%%sql
DROP FUNCTION IF EXISTS MinhasEstatísticas;
CREATE OR REPLACE FUNCTION MinhasEstatisticas(Tab TEXT) RETURNS
    TABLE(NomeAtrib TEXT,
          Tipo TEXT, 
          Nulls INTEGER,
          Cardinality INTEGER,
          Variance DOUBLE PRECISION,
          StdDev DOUBLE PRECISION)
    AS $$
       DECLARE Var_r Record;
               Var_Cmd TEXT;
               Var_Cmd2 TEXT;
  BEGIN
    Var_Cmd='SELECT A.AttName::TEXT AN, T.TypName::TEXT ATy
                 FROM pg_Class C, pg_attribute A, pg_type T
                 WHERE C.RelName NOT LIKE ''pg_%'' AND C.RelName NOT LIKE ''sql_%'' AND
                       C.RelKind=''r'' AND
                       A.AttRelId=C.OID AND
                       A.AttTypId=T.OID AND A.AttNum>0 AND
                       C.RelName = '''||Tab||'''';
    FOR Var_r IN EXECUTE Var_Cmd LOOP
        Var_Cmd2:='SELECT Count(*) from '||Tab||' WHERE '||Var_r.AN||' IS NULL;';
        EXECUTE Var_Cmd2 INTO Nulls;
        Var_Cmd2:='SELECT Count(DISTINCT '||Var_r.AN||'), ';
        IF Var_r.ATy IN('int2', 'int4', 'int8', 'float4', 'float8', 'numeric') THEN
            Var_Cmd2:=Var_Cmd2||'Var_Pop('||Var_r.AN||'), stddev_pop('||Var_r.AN||')'; 
          ELSE
            Var_Cmd2:=Var_Cmd2||'NULL, NULL'; 
          END IF;
        Var_Cmd2:=Var_Cmd2||' FROM '||Tab||';';
        EXECUTE Var_Cmd2 INTO Cardinality, Variance, StdDev;
        NomeAtrib:=Var_r.AN;
        Tipo:=Var_r.ATy;
        RETURN NEXT;
    END LOOP;
END; $$ LANGUAGE plpgsql;

Por exemplo, avaliar os dados da relação `Alunos` usando essa função:

In [None]:
TStart = timeit.default_timer()
%sql Result << SELECT *                      \
         FROM MinhasEstatisticas('alunos');
TElapsed = timeit.default_timer() - TStart

print(Result, '\nTempo de execução:', round(1000*TElapsed, 2),'ms.')

Por exemplo, avaliar os dados da relação `Matricula`:

In [None]:
TStart = timeit.default_timer()
%sql Result << SELECT *                      \
         FROM MinhasEstatisticas('matricula');
TElapsed = timeit.default_timer() - TStart

print(Result, '\nTempo de execução:', round(1000*TElapsed, 2),'ms.')

<br><br>

## Técnicas de compressão de valores de atributos

<b>Exemplo 4.1a:</b>\
<i>Analisar as notas dos alunos desprezando os dígitos fracionários<\i>:

In [None]:
TStart = timeit.default_timer()
%sql Result <<                         \
    SELECT Floor(NotaP1) as ContaNota, \
           Count(*) as Contagem        \
    FROM Matricula                     \
    GROUP BY ContaNota                 \
    ORDER BY ContaNota;
TElapsed = timeit.default_timer() - TStart

print(Result, '\nTempo de execução:', round(1000*TElapsed, 2),'ms.')

<b>Exemplo 4.1b:</b>\
<i>Analisar as notas dos alunos por níveis</i>:

In [None]:
TStart = timeit.default_timer()
%sql Result <<                         \
    SELECT CASE Floor(NotaP1/2)        \
                WHEN 1 THEN 'I'        \
                WHEN 2 THEN 'C'        \
                WHEN 3 THEN 'B'        \
                WHEN 4 THEN 'A'        \
                WHEN 5 THEN 'A'        \
                ELSE 'R'               \
                END AS Conceito,       \
            Count(*) as Contagem       \
        FROM Matricula                 \
        GROUP BY Conceito              \
        ORDER BY Conceito;
TElapsed = timeit.default_timer() - TStart

print(Result, '\nTempo de execução:', round(1000*TElapsed, 2),'ms.')

<br><br>

<font size="4" face="verdana" color="green">
     <b>Redução de dados</b>
    </font><br>

<font size="10" face="verdana" color="red">
        <b>FIM</b>&nbsp; <img src="Figuras/MBAIABD-Logo.png" width=100/>
    </font>