<font size="6" face="verdana" color="green">
<img src="Figuras/MBAIABD-Logo.png" width=100/>
    <b>Preparação de dados agregados em SQL</b>
</font>

<br><br>
**Objetivo:** Aprender a usar as opções `CUBE`, `ROLLUP` e assemelhadas na cláusula `GROUP BY` do comando `SELECT` em SQL.
<br>

## Conectar com a Base de Dados

Para começar, é necessário estabelecer a coneção com a base. \
Vamos aqui usar a base `Alunos80K`.

In [1]:
############## Importar os módulos necessários para o Notebook:
from ipywidgets import interact  ##-- Interactors
import ipywidgets as widgets     #---
from sqlalchemy import create_engine

############## Conectar com um servidor SQL ###################### --> Postgres
%load_ext sql

# Connection format: %sql dialect+driver://username:password@host:port/database
engine = create_engine('postgresql://postgres:pgadmin@localhost/Alunos80')
%sql postgresql://postgres:pgadmin@localhost/Alunos80

The sql extension is already loaded. To reload it, use:
  %reload_ext sql


ModuleNotFoundError: No module named 'psycopg2'

<br><br>
## RECORDAÇÃO: Explorando a cláusula `GROUP BY` num comando `SELECT`
__Agrupar os dados de uma tabela__

Aqui, o objetivo é agrupar os dados que estão em uma tabela só.

Por exemplo:\
<i>Listar a média das `Idades` dos `Alunos` de cada `Cidade`:</i>

In [None]:
%%sql
SELECT Cidade, Count(*), Trunc(Avg(Idade),2)
    FROM Alunos
    GROUP BY Cidade
    ORDER BY Count(*) DESC
    LIMIT 10;


Nem todas as tuplas precisam ser submetidas ao operador de agrupamento: aquelas de interesse podem ser filtradas por condições na cláusula `WHERE`.

Por exemplo:\
<i>Listar a média das `Idades` dos `Alunos` de cada `Cidade` de Minas Gerais:</i>

In [None]:
%%sql
SELECT Cidade, Count(*), Trunc(Avg(Idade),2)
    FROM Alunos
    WHERE Cidade ~ '-RJ'
    GROUP BY Cidade
    ORDER BY Count(*) DESC
    LIMIT 10;

<br>

__Agrupar os dados de várias tabelas__

Aqui, o objetivo é agrupar os dados que estão em várias tabelas.\
Elas devem primeiros ser 'juntadas' por operações de junção, gerando uma única tabela que é submetida ao operador de __agrupamento__.

Por exemplo:\
<i>Selecionar, para cada aluno, seu nome, a média das notas das disciplinas e em quantas disciplinas __ele foi aprovado__ (NF >= 5):</i>

In [None]:
%%sql
SELECT A.Nome, Trunc(AVG(M.NF), 2), Count(*)
    FROM Alunos A JOIN Matricula M ON A.NUSP = M.NUSP
    WHERE M.NF >= 5
    GROUP BY A.Nome
    LIMIT 10;

<br>

__Agrupar os dados de uma tabela, selecionando apenas alguns grupos__

__Primeiro exemplo__

Aqui, o objetivo é agrupar os dados que podem estar em qualquer quantidade de tabelas,\
possivelmente filtrando apenas algumas tuplas para serem agrupadas,\
mas, depois que os grupos forem calculados, filtrar apenas alguns deles.\
Veja que é necessário usaar uma condição que 'seleciona' alguns grupos: ele opera sobre a relação-resultado do operador de agrupamento.

Por exemplo:\
<i>Selecionar para cada aluno, seu nome, a média das notas das disciplinas e em quantas disciplinas __ele foi aprovado__ (NF >= 5), considerando apenas alunos aprovados __em pelo menos três disciplinas__:</i>

In [None]:
@interact(NAprov=widgets.IntSlider(value=3, min=1, max=12,description='Número Aprovações:'))
def funcao(NAprov):
    ##################################################################
    %sql Aprovd <<                                                   \
        SELECT A.Nome, Trunc(AVG(M.NF), 2), Count(*)                 \
             FROM Alunos A JOIN Matricula M ON A.NUSP = M.NUSP       \
             WHERE M.NF BETWEEN 5.0 AND 10.0                         \
             GROUP BY A.Nome                                         \
             HAVING COUNT(*)>=:NAprov                                \
            LIMIT 10;

    print('\nAlunos aprovados:\n', Aprovd, sep='')

<br>

__Segundo exemplo__

Aqui, o objetivo é tratar o agrupamento de dados proveniente de muitas tabelas - o que é comumente chamado de __desnormalização__ em uma __tabela _flat___.

Por exemplo:\
<i>Selecionar os nomes dos `Alunos` que fizeram uma mesma `Disciplina` mais de uma vez.
    Listar também <b>o `nome da disciplina`</b>, o `número de vezes` que ele cursou e a `nota máxima` que obteve (considerando todas as vezes que cursou).:</i>

In [None]:
%%sql
SELECT A.Nome, D.Nome, Count(*), Max(M.NF)
    FROM Alunos A JOIN Matricula M  ON A.NUSP = M.NUSP
                  JOIN Turma T      ON T.Codigo = M.CodigoTurma
                  JOIN Discip D     ON D.Sigla = T.Sigla
    GROUP BY A.Nome, D.Nome
    HAVING Count(*)>1;

<br><br>
## Tabela para ilustrar agrupamentos numa modelagem Multidimensional

Para tratar diversas dimensões, vamos considerar uma tabela alternativa para armazenar as matrículas, que inclui o <b>A</b>no e o <b>S</b>emestre a matrícula: a tabela `MatriculaAS`:

In [None]:
%%sql
SELECT A.AttNum, A.AttName, T.TypName
    FROM Pg_Class C JOIN Pg_Attribute A ON C.OID = A.AttRelId
                    JOIN Pg_Type T      ON A.AttTypId=T.OID
    WHERE C.RelName = 'matriculaas' AND A.AttNum>0
    ORDER BY 1;

Assim, temos nessa tabela as seguintes dimensões:
 * <b>Aluno:</b> representado por `NUSP`
 * <b>Disciplina:</b> representado por `Sigla`
 * <b>Tempo:</b> representado pela concatenação de `Ano` e `Semestre`

e os atributos __fatos__:
 * `NotaP1`, `NotaP2`, `NotaSub`, `MediaP`, `MediaT`, `NF` e `Frequencia`.
 
<br><br>

Como essa é uma tabela diferente da tabela `Matricula`, apenas para efeito de reconhecimento dos dados armazenados, vamos repetir a consulta anterior sobre ela:

In [None]:
%%sql
SELECT A.Nome, D.Nome, Count(*), Max(M.NF)
    FROM Alunos A JOIN MatriculaAS M  ON A.NUSP = M.NUSP
                  JOIN Turma T      ON T.Codigo = M.CodigoTurma
                  JOIN Discip D     ON D.Sigla = T.Sigla
    GROUP BY A.Nome, D.Nome
    HAVING Count(*)>1;

__Exemplo de projeção em `RollUP`__

Exemplo 1: Avaliar as dimensões `Disciplina` e `Nome`:

<i>Obter a `lista de notas` obtidas por cada `Aluno` em cada `Disciplina`, com as respectivas `vnotas finais: (NF)` em cada `Disciplina`:

In [None]:
@interact(Limit=widgets.IntSlider(value=5, min=0, max=200, step=5,description='Limite:'))
def funcao(Limit):
    ####################################################################################
    %sql Matr <<                                                                       \
    SELECT D.Sigla, A.Nome, Count(*) "#vezes cursada", Trunc(AVG(M.NF), 2)  NotaFinal  \
        FROM Alunos A JOIN MatriculaAS M ON A.NUSP = M.NUSP                            \
                      JOIN Turma T     ON T.Codigo = M.CodigoTurma                     \
                      JOIN Discip D    ON D.Sigla = T.Sigla                            \
        GROUP BY ROLLUP (D.Sigla, A.Nome)                                              \
        ORDER BY D.Sigla NULLS FIRST,                                                  \
                 A.Nome  NULLS FIRST,                                                  \
                 NotaFinal                                                             \
        LIMIT :Limit;                                                                  \

    print('\n Lista de notas:\n', Matr, sep='')

__Exemplo de projeção em `RollUP`__

Exemplo 2: Avaliar as dimensões  `Nome` e `Disciplina`:\
Aqui apenas invertemos a ordem dos atributos na especificação do `ROLLUP`.

<i>Obter as `notas`, a `média geral` e a quantidade de `Disciplinas` cursadas por cada `Aluno`:

In [None]:
@interact(Limit=widgets.IntSlider(value=10, min=0, max=200, step=5,description='Limite:'))
def funcao(Limit):
    ####################################################################################
    %sql Matr <<                                                                       \
    SELECT D.Sigla, A.Nome, Count(*) "#vezes cursada", Trunc(AVG(M.NF), 2)  NotaFinal  \
        FROM Alunos A JOIN MatriculaAS M ON A.NUSP = M.NUSP                            \
                      JOIN Turma T     ON T.Codigo = M.CodigoTurma                     \
                      JOIN Discip D    ON D.Sigla = T.Sigla                            \
        WHERE A.Nome IS NOT NULL                                                       \
        GROUP BY ROLLUP (A.Nome, D.Sigla)                                              \
        ORDER BY A.Nome NULLS FIRST,                                                   \
                 D.Sigla  NULLS FIRST,                                                 \
                 NotaFinal                                                             \
        LIMIT :Limit;                                                                  \

    print('\nResultado:\n', Matr, sep='')

__Exemplo de todas projeção: `CUBE`__

Avaliar as dimensões `Disciplina` e `Nome`:

<i>Obter a `lista de notas` obtidas por cada `Aluno` em cada `Disciplina`, com as respectivas `notas finais: (NF)` em cada `Disciplina` <b>e as `médias` de cada `Aluno`:</i>

<div class="alert alert-block alert-info">
    A clausula `HAVING` foi colocada aqui visando reduzir a cardinalidade e assim facilitar a visualização do resultado.<br>
    &#x26A0; Quando o resultado deve ser submetido a um <b>processo de Mineração de dados</b>, normalmente essa cláusula não é usada.
    </div>

In [None]:
@interact(Limit=widgets.IntSlider(value=5, min=0, max=200, step=5,description='Limite:'),
          Having=widgets.IntSlider(value=1, min=0, max=12, description='Num. Matriculas:'))
def funcao(Limit, Having):
    ####################################################################################
    %sql Matr <<                                                                       \
    SELECT D.Sigla, A.Nome, Count(*) "#vezes cursada", Trunc(AVG(M.NF), 2)  NotaFinal  \
        FROM Alunos A JOIN MatriculaAS M ON A.NUSP = M.NUSP                            \
                      JOIN Turma T     ON T.Codigo = M.CodigoTurma                     \
                      JOIN Discip D    ON D.Sigla = T.Sigla                            \
        GROUP BY CUBE (D.Sigla, A.Nome)                                                \
        HAVING Count(*)>:Having                                                        \
        ORDER BY D.Sigla NULLS FIRST,                                                  \
                 A.Nome  NULLS FIRST,                                                  \
                 NotaFinal                                                             \
        LIMIT :Limit;                                                                  \

    print('\n Lista de notas:\n', Matr, sep='')

__Exemplo de projeções individuais: `GROUPING SETS`__

Avaliar as dimensões `Disciplina` e `Nome`:

<i>Obter a `média geral` de cada `Aluno` (em todas as `Disciplina`), e a `média geral` de cada `Disciplina`, com as respectivas contagens:

In [None]:
@interact(Limit=widgets.IntSlider(value=15, min=0, max=200, step=5,description='Limite:'),
          Having=widgets.IntSlider(value=6, min=0, max=12, description='Num. Matriculas:'))
def funcao(Limit, Having):
    ####################################################################################
    %sql Matr <<                                                                       \
    SELECT D.Sigla, A.Nome, Count(*) "#vezes cursada", Trunc(AVG(M.NF), 2)  NotaFinal  \
        FROM Alunos A JOIN MatriculaAS M ON A.NUSP = M.NUSP                            \
                      JOIN Turma T     ON T.Codigo = M.CodigoTurma                     \
                      JOIN Discip D    ON D.Sigla = T.Sigla                            \
        GROUP BY GROUPING SETS (D.Sigla, A.Nome, ())                                   \
        HAVING Count(*)>:Having                                                        \
        ORDER BY D.Sigla NULLS FIRST,                                                  \
                 A.Nome  NULLS FIRST,                                                  \
                 NotaFinal                                                             \
        LIMIT :Limit;                                                                  \

    print('\n Lista de notas:\n', Matr, sep='')

<br><br>
## Um docinho sitático

A sintaxe da linguagem SQL numera cada atributo colocado na cláusula `SELECT`, e o índice de cada atributo pode ser usado no comando nas cláusulas `GROPU BY` e `ORDER BY` (a sintaxe não adminte seu uso nas clásulas `WHERE` e `HAVING` porque isso levaria a um conflito sintático).

No comando anterior, a numeração dos atributos fica:
  * 1: D.Sigla
  * 2: A.Nome
  * 3: Count(*) (também identificado pelo <i>alias</i>`"#vezes cursada"`)
  * 4: Trunc(AVG(M.NF), 2) (também identificado pelo <i>alias</i>`NotaFinal`)
  
Portanto, o comando pode ser reescrito como:

In [None]:
@interact(Limit=widgets.IntSlider(value=15, min=0, max=200, step=5,description='Limite:'),
          Having=widgets.IntSlider(value=6, min=0, max=12, description='Num. Matriculas:'))
def funcao(Limit, Having):
    ####################################################################################
    %sql Matr <<                                                                       \
    SELECT D.Sigla, A.Nome, Count(*) "#vezes cursada", Trunc(AVG(M.NF), 2)  NotaFinal  \
        FROM Alunos A JOIN MatriculaAS M ON A.NUSP = M.NUSP                            \
                      JOIN Turma T     ON T.Codigo = M.CodigoTurma                     \
                      JOIN Discip D    ON D.Sigla = T.Sigla                            \
        GROUP BY GROUPING SETS (D.Sigla, A.Nome, ())                                   \
        HAVING Count(*)>:Having                                                        \
        ORDER BY 1 NULLS FIRST,                                                        \
                 2 NULLS FIRST,                                                        \
                 4                                                                     \
        LIMIT :Limit;                                                                  \

    print('\n Lista de notas:\n', Matr, sep='')

<br>

__Outro exemplo:__ \
podem ser usados tanto atributos da relação quanto expressões:

In [None]:
%%sql
SELECT CASE
            WHEN Grau <'MS-3' THEN 'Sem Doutorado'
            WHEN Grau ='MS-3' THEN 'Doutor'
            WHEN Grau >'MS-3' THEN 'Pós-Doutor'
            ELSE 'Desconhecido' END AS "O que", --> Primeiro atributo
       COUNT(*)                                 --> Segundo atributo
    FROM professor
    GROUP BY ROLLUP (1);

<br>

## Dependências entre atributos

### Dimensão expressa por mais de um atributo

Pode ocorrer que uma dimensão corresponde a diversos atributos.

Por exemplo, suponha que os `Professores` podem ter `nomes` repetidos, e que se usa sua `Idade` e `Cidade natal` para desempatar ((`Nome, Idade, Cidade`) é UNIQUE).\
Como o `Número funcional` do professor é chave, ele pode ser usado:\
(estou filtrando apenas sobre um nome de professor que é sabido estar repetido da base, para facilitar a visualização)

In [None]:
%%sql
SELECT M.CodigoT, P.NNFuncional, Count((M.CodigoT, P.NNFuncional)) Total
    FROM Professor P JOIN Ministra M ON P.NNFuncional=M.NNFuncProf
    WHERE P.Nome='José da Silva'
    GROUP BY GROUPING SETS (M.CodigoT, P.NNFuncional)

Mas perde-se a possibilidade de identificação do professor.\
Isso pode ser resolvido com o `GROUPING SETS`:

In [None]:
%%sql
SELECT M.CodigoT, P.NNFuncional, P.Nome, P.Idade, P.Cidade, Count((M.CodigoT, P.NNFuncional)) Total
    FROM Professor P JOIN Ministra M ON P.NNFuncional=M.NNFuncProf
    WHERE P.Nome='José da Silva'
    GROUP BY GROUPING SETS (M.CodigoT, (P.NNFuncional, P.Nome, P.Idade, P.Cidade));

<br><br>
### O modelo Floco de Neve: Hieraquias de Dimensões

Por exemplo, temos que:
  * a relação `TurmaE`, além da `Sigla` que identifica cada turma, tem também qual é o `Instituto` e o `Departamento` a que cada turma corresponde
  * a relação `Professor` identifica cada professor pelo seu `NUSP`, e registra seu `Nome`, que não é único, mas pode ser desambiguado pelo `Grau`, `Idade` e `Cidade` do professor
  * a relação `Ministra` associa a cada `Turma` um ou mais `Professores` para ministrá-la:

In [None]:
%%sql
SELECT C.RelName, A.AttNum, A.AttName, T.TypName
    FROM Pg_Class C JOIN Pg_Attribute A ON C.OID = A.AttRelId
                    JOIN Pg_Type T      ON A.AttTypId=T.OID
    WHERE C.RelName ~*'(TurmaE)|(Professor)|(^Ministra)' AND A.AttNum>0
    ORDER BY 1,2;

Queremos analisar quantas `Disciplinas` foram ministradas pelos diversos `Institutos` e `Departamentos`: `ROLLUP(Sigla, Depto, Sigla)`\
e também pelos `Professores` e seus vários `Níveis`: `ROLLUP(Grau, NFunc)`,\
de tal maneira que cada professor é identificado por seu `Numero USP` e `Nome`: `(P.NNFuncional, P.Nome)`\
<div class="alert alert-block alert-info">
    &#x26A0; O resultado provavelmente não é indicado para avaliaçào textual, mas sim para processos de visualização ou análise mais elaborados. 
    </div>

De qualquer maneira, ele pode ser obtido assim:

In [None]:
%%sql
SELECT T.Sigla, T.DeptoId, T.Sigla,
       P.Grau, P.NNFuncional, P.Nome,          Count((T.Codigo, P.NNFuncional)) Total
    FROM Professor P JOIN Ministra M ON P.NNFuncional=M.NNFuncProf
                     JOIN TurmaE T ON M.CodigoT=T.Codigo
    GROUP BY ROLLUP(T.Sigla, T.DeptoId, T.Sigla), ROLLUP(P.Grau, (P.NNFuncional, P.Nome))
    LIMIT 10;

<br><br>

## A função `GROUPING`

A função `GROUPING` pode ser aplicada a um atributo (em &nbsp; <img src="Figuras/Postgres.png" width=100/> podem ser mais de um) resultante de uma operação de agrupamento e retorna o inteiro _um_ (1) quando o valor do atributo é um `null` criado por um operador de agrupamento, e retorna _zero_ para qualquer outro valor, incluindo um `null` armazenado.

Por exemplo:
<div class="alert alert-block alert-info">
    A cláusula <font size="3" face="courier" style="background-color:#E0E0FF;" color="#050505">ORDER BY Random()</font> visa escolher aleatoriamente algumas tuplas para serem mostradas aqui.<br>    
    &#x26A0; Ela não deve ser usada em uma aplicação real.<br>
        Pode ser necessário re-executar o comando algumas vezes para obter um conjunto interessante...
    </div>

In [None]:
%%sql
SELECT CASE WHEN GROUPING(Cidade)=1 THEN '-' ELSE Cidade      END AgCidade,
       CASE WHEN GROUPING(Idade)=1  THEN '-' ELSE Idade::TEXT END AgIdade,
       Count(*)
    FROM Alunos A
    GROUP BY GROUPING SETS (Cidade, Idade, ())
    ORDER BY Random()
    LIMIT 20;

<br>
A função `GROUPING` pode ser usada tambéem na cláusula `HAVING`:

In [None]:
%%sql
SELECT CASE WHEN GROUPING(Cidade)=1 THEN '-' ELSE Cidade      END AgCidade,
       CASE WHEN GROUPING(Idade)=1  THEN '-' ELSE Idade::TEXT END AgIdade,
       Count(*)
    FROM Alunos A
    GROUP BY GROUPING SETS (Cidade, Idade, ())
        HAVING NOT((Cidade IS Null AND GROUPING(Cidade)=0) OR
                   (idade IS Null AND GROUPING(Idade)=0))
    ORDER BY Random()
    LIMIT 20;

<br><br>

### A função `GROUPING` em 

No gerenciador <img src="Figuras/Postgres.png" width=100/>, a função `GROUPING` pode receber qualquer número $n$ de atributos como argumento, e ela retorna um número inteiro entre $0$ e $2^n − 1$.\
O retorno corresponde ao número que em binário é 1 para cada atributo que tenha `null` gerado por um operador de agrupamento e zero para os demais casos, incluindo `null` armazenado.

Por exemplo:

In [None]:
%%sql
SELECT Cidade, Idade, Count(*), '  -->' " ",
       GROUPING(Cidade) AgCid, 
       GROUPING(Idade) AgId,
       GROUPING(Cidade,Idade) GrupoId
    FROM Alunos A
    GROUP BY GROUPING SETS (Cidade, Idade, ())
    ORDER BY GrupoId DESC
    LIMIT 20;

<br><br>

<font size="4" face="verdana" color="green">
     <b>Preparação de dados agregados em SQL</b>
    </font><br>

<font size="10" face="verdana" color="red">
        <b>FIM</b>&nbsp; <img src="Figuras/MBAIABD-Logo.png" width=100/>
    </font>