<div style="line-height:18px;">
    <img src="Figuras/ICMC_Logo.jpg" alt="ICMC" width=100>&emsp;&emsp;&emsp;
    <img src="Figuras/Gbdi2005.jpg" alt="GBdI" width=550><br>
    <font color="black" size="5" face="Georgia">&emsp; <i><u>Prof. Dr. Caetano Traina Júnior</u></font><br>
    <font color="black" size="4" face="Georgia">&emsp; &ensp;<i>ICMC-USP São Carlos</font>
<div align="right"><font size="1" face="arial" color="gray"> 3 Seg &emsp; &emsp; &emsp; 39 cel</font></div>
    </div><br>

<font size="6" face="verdana" color="green"><b>4. Preparação de dados<br>
usando <u>Tipos de Dados Não-Atômicos</u> em SQL</b></font><br>
<br>

<img src="Figuras/Gemini_Multidimensional-Brasil1-Axata.png" width=840/>

<br>

**Objetivo:** 
&emsp; Aprender a trabalhar com atributos que têm valores não-atômicos em SQL, <br>
Usando como exemplo a Base de Dados do <b>censo Brasileiro de 2022: Censo22</b>
  * Enumeradores
  * Tipos de dados compostos (tupla)
  * Tipos de dados Multivalorados: _Arrays_
  * Converter Arrays para conjunto de tuplas e vice-versa:
  * Usar <b>Funções de janelamento</b> (<i>Window functions</i>) para _arrays_.
<br><br>

---

<br>

<br><br>

# 1. Conectar com o Servidor Postgres <br>&emsp;e com o Esquema dos Dados do <b>Censo de 2022</b>

 * Vamos conectar com a base de dados sobre o Brasil: Base __Brasil__
 * e usar como <i>default</i> o  esquema do Censo de de 2022: Esquema <b>Censo de 2022</b>

Para isso, é necessário:
  * Carregar os módulos necessários,
  * estabelecer a conexão com o servidor da base de dados,<br>
      &emsp; indicando o acesso ao esquema <i>default</i> `Censo22`, e
  * liberar o <i>notebook</i> para mostrar qualquer quantidade de tuplas retornadas pela consulta.


In [None]:
############## Importar os módulos necessários para o Notebook:
from ipywidgets import interact  ##-- Interactors
import ipywidgets as widgets     #---
from sqlalchemy import create_engine

############## Conectar com um servidor SQL na base Alunos 15 ###################### --> Postgres.Alunos15
%load_ext sql

# Connection format: %sql dialect+driver://username:password@host:port/database
engine = create_engine('postgresql://postgres:pgadmin@localhost/brasil')
%sql postgresql://postgres:pgadmin@localhost/brasil
%config SqlMagic.displaylimit=None

%sql SET Search_Path TO Censo22, public;


<br>

Podemos verificar qual é:
  * A base de dados a que estamos conectados,
  * Qual é o esquema <i>default</i>, e
  * quais outros esquemas podem ser verificados em sequência<br>
com o comando:

In [None]:

%sql DB << SELECT Current_Database(), CURRENT_SCHEMA(), CURRENT_SCHEMAS(False);

print('\nA Base e os esquemas:\n', DB, sep='')


<br>

Com essa resposta, verificamos que estamos conectados à base de dados `brasil`, gerenciada pelo <img src="Figuras/Postgres.png" width=120>,<br>
  &emsp; accessando primeiro o esquema `censo22`, e se o objeto procurado não for encontrado, procura a seguir no esquema `public`.


<a id="#dados_censo22"></a>

<br><br>

# 2. Verificar os dados armazenados

Vamos verificar, no metaesquema da base, quais tabelas estão definidas nos esquemas "correntes".

Note que:
  * A função `CURRENT_SCHEMAS()` retorna um `Array de Textos`, <br>
    onde cada `Texto` é o nome de um esquema onde se procura o objeto de interesse.
  * A função `Unnest(AnyArray)` "desaninha" o <i>array</i> em uma tabela, <br>
    onde cada tupla tem o valor de um texto.

No comando seguinte, a tabela retornada por `UNNEST` é renomeada para `Esqs`,<br>
  &emsp; e o atributo desaninhado é chamado `Esq`:

In [None]:
%%sql
SELECT *
    FROM UNNEST(CURRENT_SCHEMAS(False)) Esqs(Esq)


<br>

Listar as tabrelas que estão nesses esquemas:

In [None]:
%%sql
SELECT SchemaName, TC.RelName, TC.RelNatts,                    -- --> Nome do esquema, da relação, número de atributos
       TC.RelTuples::INT, TC.RelPages                          -- --> Quantidade de tuplas e quantidade de páginas em disco
    FROM pg_catalog.pg_tables TN JOIN Pg_Class TC ON TN.TableName=TC.RelName,
	     UNNEST(CURRENT_SCHEMAS(False)) Esqs(Esq)
    WHERE SchemaName = Esqs.Esq
    ORDER BY 1, 2;

<br>

Vamos lembrar quais são os dados armazenados nas relações do esquema `Public`:
  * `BrCcidades` &ndash; Tem dados sobre a população das cidades e suas coordenadas;
  * `BrCcidades` &ndash; Tem dados sobre os estados: coordenadas do centro geográfico e de sua capital,<br>
       &emsp; porcentagem da area do estado em cada bioma, e região do Brasil onde o estado está;
  * `BrCcidades` &ndash; Tem dados de cada cidade: DDD, fuso e se é uma capital.



In [None]:
%sql Cidades << SELECT * FROM BrCidades \
                   ORDER BY Random() LIMIT 3;

%sql Estados << SELECT * FROM BrEstados \
                   ORDER BY Random() LIMIT 3;

%sql DadosCid << SELECT * FROM tabcidades \
                   ORDER BY Random() LIMIT 3;

print('Cidades:', Cidades,
      'Estados:', Estados,
      'DadosCid:', DadosCid, sep='\n')

<br><br><br>

# 3.Trabalhando com o tipo <b>Enumerador</b>

Considere a tabela  `DadosCid`.<br>
Ela tem o atributo `Fuso`, de tipo inteiro, que corresponde à defasagem do horário da cidade em relação à hora padrão internacional.<br>
Essa informação também é, frequentemente, indicada por um nome, correspondente a uma cidade importante que está no mesmo fuso.

## 3.1. Criar um novo tipo <b>Enumerador</b>

Vamos definir um nome para os fusos onde o Brasil tem cidades.

Para isso, vamos definir primeiro o enumerador, cujos valores são os nomes de fusos válidos.<br>
 &emsp; &emsp; Note-se que pode haver mais de um nome para o mesmo fuso, então todos os nomes são valores válidos para o enumerador:

In [None]:
%%sql
DROP TYPE IF EXISTS TP_NomeFuso CASCADE;
CREATE TYPE TP_NomeFuso AS
    ENUM ('America/Noronha',
          'America/Sao_Paulo', 'America/Brasília', 'America/Recife', 
          'America/Porto_Velho', 'America/Manaus',
          'America/Rio_Branco');

<br>

A função `Enum_Range` mostra quais são os valores definidos para um enumerador:

In [None]:
%%sql
SELECT Generate_Subscripts(Enum_Range(null::TP_NomeFuso), 1) AS Sequencia,
       Unnest(Enum_Range(null::TP_NomeFuso)) AS Valor
       -------^^^^^^^^^^---------------------------

<br>

Veja que a ordem dos valores é assumida como sendo a ordem em que eles são definidos.

<b>Por exemplo:</b>

In [None]:
%%sql
SELECT 'America/Noronha'::TP_NomeFuso < 'America/Sao_Paulo' "Noronha Antes SP", 
       'America/Brasília'::TP_NomeFuso < 'America/Sao_Paulo' "Brasilia Antes SP",
       'America/Brasília'::TP_NomeFuso <= 'America/Sao_Paulo' "Brasilia AntesOuigual SP"
    ;

<br><br>

## 3.2. Associar informações correspondentes a cada tipo <b>Enumerador</b>

Um enumerador é apenas uma lista de valores válidos.

Frequentemente, é necessário associar outros atributos a cada valor de enumerador.<br>
No exemplo de fusos horários, é necessário associar a cada nome qual é a defasagem correspondente.<br>
  &emsp; Isso pode ser feito com uma tabela, que relaciona cada nome de fuso com a defasagem correspondente.

Vamos criar e inicializar essa tabela, mas 
  &emsp; ATENÇÃO:<br>
  &emsp;  &emsp; Como o esquema <i>default</i> está marcado como `Censo`, se quizermos criar essa tabela no esquema `Public`,<br>
  &emsp;  &emsp; o esquema deve ser declarado explicitamente (nem precisa estar na lista de esquemas <i>default</i> correntes).<br>
  &emsp;  &emsp; Uma vez criado, como ele fica na lista de esquemas correntes, o esquema não precisa mais ser explicitado:

In [None]:
%%sql
DROP TABLE IF EXISTS Public.Fusos;
CREATE TABLE Public.Fusos (
    Nome TP_NomeFuso,
    Defasa INT);

INSERT INTO Fusos VALUES ('America/Noronha', -2),
                         ('America/Sao_Paulo',-3),
                         ('America/Brasília', -3),
                         ('America/Recife', -3),
                         ('America/Porto_Velho', -4),
                         ('America/Manaus', -4),
                         ('America/Rio_Branco', -5);

<br>

Note que uma tabela somente tem suas estatísticas levantadas depois que for analisada:<br>
  &emsp; (Note a quantidade de `RelTuples` e `RelPages` indicada)

In [None]:
%%sql
SELECT SchemaName, TC.RelName, TC.RelNatts,                    -- --> Nome do esquema, da relação, número de atributos
       TC.RelTuples::INT, TC.RelPages                          -- --> Quantidade de tuplas e quantidade de páginas em disco
    FROM pg_catalog.pg_tables TN JOIN Pg_Class TC ON TN.TableName=TC.RelName,
	     UNNEST(CURRENT_SCHEMAS(False)) Esqs(Esq)
    WHERE SchemaName = Esqs.Esq
    ORDER BY 1, 2;

<br>

 Para que as estatísticas sejam analisadas, deve ser usado o comando `ANALIZE`:

In [None]:
%%sql
ANALYZE Fusos;

SELECT SchemaName, TC.RelName, TC.RelNatts,                    -- --> Nome do esquema, da relação, número de atributos
       TC.RelTuples::INT, TC.RelPages                          -- --> Quantidade de tuplas e quantidade de páginas em disco
    FROM pg_catalog.pg_tables TN JOIN Pg_Class TC ON TN.TableName=TC.RelName,
	     UNNEST(CURRENT_SCHEMAS(False)) Esqs(Esq)
    WHERE SchemaName = Esqs.Esq
    ORDER BY 1, 2;

## 3.3. Atribuir enumeradores a atributos

Atributos de tipo Enumerador podem existir em quaisquer tabelas.

Vamos acrescentar um atributo na tabela `TabCidades` com um nome de fuso correspondente à defasagem de fuso já presente nessa tabela.

Para isso, é necessário:
  * Criar o novo atributo, cujo tipo é o Enumerador, e
  * Inserir o valor do atributo, usando um dos nomes do fuso associado à defasagem, tal como armazenado na talela de `Fusos`.<br>

Note-se que, como existem diversos nomes para a mesma defasagem, é necessário escolher um deles para ser o <i>default</i>.<br>
   &emsp; Aqui escolhemos o primeiro  enumerador que tem essa defasagem.<br>
   &emsp; &emsp; (com isso, o primeiro valor do enumerador que está associado a essa defasagem é o escolhido).

In [None]:
%%sql
ALTER TABLE TabCidades 
    ADD COLUMN IF NOT EXISTS NomeFuso TP_NomeFuso;

UPDATE TabCidades
    SET NomeFuso= F.Nome
    FROM (SELECT MIN(Nome) Nome, Defasa Defasa
              FROM Fusos
              GROUP BY Defasa) F
    WHERE F.Defasa=TabCidades.Fuso;

<br>

Podemos atribuir um valor diretamente a um atributo de tipo enumerador.

Por exemplo:

In [None]:
%%sql
UPDATE TabCidades
    SET NomeFuso='America/Sao_Paulo'
    WHERE (Municipio, UF)=('São Carlos', 'SP');

<br>
Mas note que os valores são sensíveis à caixa das letras e a $<$brancos$>$.<br>
  &emsp; <font color='red'>O próximo comando está desabilitado. Se habilitar, ele dá erro:</font>

<br><br>
# 4. Tipos de dados não atômicos em Postgres

O SGBDR <img src="Figuras/Postgres.png" width=100> é um modelo pós-relacional que incorpora conceitos do <font size="3" color="red"><b>Modelo Objeto-Relacional</b></font>, entre eles
 * Tipos de dados Multivalorados ___ARRAYS___
 * Tipos compostos (tuplas)
 
Então vamos trabalhar aqui com  ___Arrays___ e __Tuplas__.
<br>

<br><br>

---
 
<br>

## 4.1 Tipos de dados Multivalorados

O Tipo <font face="arial" style="background-color:#D0FFFF;" color="#050505"> &nbsp; <b>Array</b> &nbsp;</font>:
 * Corresponde a atributos que são matrizes multidimensionais de dimensões variáveis
 * O tipo-base pode ser qualquer tipo elementar: números, cadeias, tempo, tuplas, etc.
 * Cada elemento do <font face="arial" style="background-color:#D0FFFF;" color="#050505"> &nbsp; <b>Array</b> &nbsp; </font> pode ser acessado por um índice de tipo `inteiro`

<br><br>

Existem duas representações sintáticas para valores de ARRAYs:
<div class="alert alert-block alert-warning"><font size="4"  color=#000090>
    <b><font style="background-color:#E0E060;" color="#050505">Como uma "constante literal" (texto comum):</font></b><br>
   &#8226; <font face="courier"> &ensp;’{val1, val2, ...}’</font><br>
   &#8226; <font face="courier">  &ensp;’{{val11, val12, ...}, {val21, val22, ...} }’</font><br>
    <b><font size="4"  style="background-color:#E0E060;" color="#050505">Como um "construtor de <font face="arial" style="background-color:#D0FFFF;" color="#050505"> &nbsp; <b>Array</b> &nbsp;</font>":</font></b><br>
   &#8226; <font face="courier"> &ensp;ARRAY[val1, val2, ...]</font><br>
   &#8226; <font face="courier"> &ensp;ARRAY[[val11, val12, ...], <br>&emsp;&emsp;&emsp;&emsp;&emsp;[val21, val22, ...], ...<br>&emsp;&emsp;&emsp;&emsp;&ensp;]</font><br>
    </font>
</div>

Por exemplo, seja um arranjo unidimensional:

In [None]:
%sql res <<                                                \
SELECT '{1, 2, 3}'::INT[] A1,                              \
        '{ruim, regular,Bom,ótimo}'::TEXT[] A2,    \
        ARRAY[4,5,6] A3,                                   \
        ARRAY['vermelho', 'amarelo', 'verde'] A4;
print(res)

<br>

Exemplo de um arranjo bidimensional (matriz):

In [None]:
%sql tup << \
SELECT '{11, 12, 13},{21,22,23}' B1,'{ruim, regular,bom,ótimo},{bad,regular,good,excellent}' B2,  \
        ARRAY[[11, 12, 13],[21,22,23]] B3, ARRAY[['vermelho', 'amarelo', 'verde'],['red','yellow','green']] B4
print(tup)

Podemos consultar um valor em um arranjo:

In [None]:
%%sql
SELECT (ARRAY[[11, 12, 13],[21,22,23]])[1][3],
       (ARRAY[['vermelho', 'amarelo', 'verde'],['red','yellow','green']])[1][2],
       (ARRAY[['vermelho', 'amarelo', 'verde'],['red','yellow','green']])[2][3]

<br>

---

<br><br>

A Função `CURRENT_SCHEMAS()` retorna um <i>Array</i> de nomes de esquemas.<br>
De fato, a lista de esquemas correntes é um exemplo de atributo multivalorado.


In [None]:
%sql SELECT CURRENT_SCHEMAS(False);

<br>

---

<br><br>

Nas tabelas do `Esquema Censo22`, existem diversos atributos monovalorados que correspondem, de fato, às dimensões de um <b>Vetor multivalorado</b>.

Por exemplo, considere a tabela `BRCid_EducSuperior`:

In [None]:
%%sql
SELECT *  
    FROM BRCid_EducSuperior 
    ORDER BY Random() LIMIT 5;

<br>

Essa tabela contém apenas a identificação de cada cidade (com Município+UF, ou Cidade),<br>
  &emsp; mais um <b>Vetor</b> bidimensional com a quantidade de pessoascom  formação em curso de graduação concluído, onde:
  * Uma dimensão corresponde à  área de conhecimento:
    * Superior: Total da população com Nível Superior
    * Educ: Educação
    * Artes: Artes e humanidades
    * CSociais: Ciências sociais, comunicação e informação
    * Admin: Negócios, administração e direito
    * Ciencias: Ciências naturais, matemática e estatística
    * TIC: Computação e Tecnologias da Informação e Comunicação (TIC)
    * Eng: Engenharia, produção e construção
    * Agric: Agricultura, silvicultura, pesca e veterinária
    * Saude: Saúde e bem-estar
    * Serv: Serviços
  * e a outra dimensão corresponde ao sexo: H: Homem ou M: Mulher.

Vamos definir esses dados como um <b>Vetor bidimensional</b>, onde os índices são indicados por <b>Enumeradores</b>.<br>
  &emsp; Para isso, é necessário:
 * <b>1)</b> Primeiro definir as dimensões como Enumeradores:


In [None]:
%%sql
DROP TYPE IF EXISTS TP_AreaConhec CASCADE;
CREATE TYPE TP_AreaConhec AS
    ENUM ('Superior', 'Educ', 'Artes', 'CSociais', 'Admin', 'Ciencias', 'TIC', 'Eng', 'Agric', 'Saude', 'Serv,', 'NaoSabe');

DROP TYPE IF EXISTS TP_Sexo CASCADE;
CREATE TYPE TP_Sexo AS
    ENUM ('Homem', 'Mulher');

<br>

 * <b>2)</b> Segundo, definir um atributo como um vetor bidimensional de `INTEGER`
 * <b>3)</b> Carregar os valores desse atributo, a partir dos demais atributos.

Esses dois passos podem ser executados ou numa tabela que já existe ou criando uma nova tabela.<br>
Para não alterar a tabela já existente (que poderia comprometer a re-execução de <i>notebooks</i> de aulas anteriores),<br>
  &emsp; vamos criar uma tabela identificada por `Cidade` e tendo um atributo de valores da população de nível superior:

In [None]:
%%sql
DROP TABLE IF EXISTS Cid_EducSuperior;
CREATE TABLE Cid_EducSuperior(
    Municipio TEXT,
    UF CHAR(2),
    PopNSup INTEGER[][]
    );

INSERT INTO Cid_EducSuperior
    SELECT Municipio, UF,
           ARRAY[
             [Hsuperior, HEduc, HArtes, HCSociais, HAdmin, HCiencias, HTIC, HEng, HAgric, HSaude, HServ, HNaoSabe],
             [Msuperior, MEduc, MArtes, MCSociais, MAdmin, MCiencias, MTIC, MEng, MAgric, MSaude, MServ, MNaoSabe] ]
        FROM BRCid_EducSuperior;


<br>

Vamos ver algumas tuplas dessa tabela:

In [None]:
%%sql
SELECT *  
    FROM Cid_EducSuperior 
    ORDER BY Random() LIMIT 5;

<br>

Com a população de nível superior como um atributo multi-valorado bidimrensional, é mais fácil reponder a questões como:

<i>A soma da população das várias áreas é igual à população total de nível superior reportada?</i>

Vamos avaliar isso em separado para Homens e mulheres.<br>
Para obter os índices de cada dimensão, vamos usar a <font color='teal'>Função `Enum_Range`</font> como um valor definido numa relação de índices:

In [None]:
%%sql

-- ## calcula o valor dos índices de interesse em cada dimensão: -----------------
WITH Indices AS (SELECT Array_Position(Enum_Range(null::TP_Sexo), 'Mulher') Mulher,
                        Array_Position(Enum_Range(null::TP_Sexo), 'Homem') Homem,
                        Array_Position(Enum_Range(null::TP_AreaConhec), 'Superior') Superior)

SELECT Municipio, UF, PopNSup, '--->' " ",
       PopNSup[Mulher][Superior] "Report M",             --    vvvv 2 para pular a primeira coluna, que já tem o total das demais
			  (SELECT SUM(x) FROM UNNEST(PopNSup[Mulher:Mulher][2:]) x)  "Sum M",
       PopNSup[Homem][Superior] "______Report H",
			  (SELECT SUM(x) FROM UNNEST(PopNSup[Homem:Homem][2:]) x)  "Sum H"
    FROM Cid_EducSuperior, Indices 
    ORDER BY Random() LIMIT 5;

<br><br>

## 4.2 Tipos compostos (tuplas)

Atributos compostos são chamados `tuplas` em SQL.\
A sintaxe para tuplas em SQL corresponde a colocar os atributos componentes entre `( )`, separados por vírgula:
<div class="alert alert-block alert-warning"><font color=#000090>
    <font size="4"  style="background-color:#E0E060;" color="#050505">Sintaxe para declarar <b>um valor de tupla</b>
    </font><br>
    <font size="3" face="courier" color=#300040>
        &emsp;&emsp;$<$valor de tupla$>$ = ($<$valor atr1$>, \ldots$)</font>
        </font>
</div>

Por exemplo, os atributos:
  * `Municipio` - Nome do municipio
  * `UF` - Unidade Federativa (estado) do município

Podem ser vistos juntos como um atributo, só de tipo tupla, onde cada atributo é um componente da tupla que identifica a cidade:

In [None]:
%%sql
SELECT ((Municipio, UF)) Cidade, NomeFuso
    FROM TabCidades
    ORDER BY RANDOM()
    LIMIT 2;

<br>

As diversas tabelas sobre municípios dos Esquemas `Censo22` e `Public` que se referem a municípios usam esses atributos para identificar cada cidade.

Podemos definir um novo <u>Tipo de dados <b>Cidade</b>,</u> que correspondente ao par <b>$<$Município, UF$>$</b>:

In [None]:
%%sql
DROP TYPE IF EXISTS TP_Cidade CASCADE;
CREATE TYPE TP_Cidade AS (
    Municipio TEXT, 
    UF CHAR(2)
    );

<br>

A seguir acrescentamos um novo atributo na tabela que estamos interessado, por exemplo `TabCidades`, `BRCidades` e `BRCid_EducSuperior`:


In [None]:
%%sql
ALTER TABLE TabCidades
    ADD COLUMN IF NOT EXISTS Cidade TP_Cidade;
ALTER TABLE BRCidades
    ADD COLUMN IF NOT EXISTS Cidade TP_Cidade;
ALTER TABLE BRCid_EducSuperior
    ADD COLUMN IF NOT EXISTS Cidade TP_Cidade;

<br>

A carga desse atributo nas tabelas pode ser feita com o comando seguinte:

In [None]:
%%sql
UPDATE TabCidades
    SET Cidade = (Municipio, UF);

UPDATE BRCidades
    SET Cidade = (Municipio, UF);

UPDATE BRCid_EducSuperior
    SET Cidade = (Municipio, UF);


<br>

Como os atributos originais continuam lá, ambas as formas de identificação permanecem presentes:

In [None]:
%sql Tab << \
SELECT Cidade, Municipio, UF, DDD               \
    FROM TabCidades ORDER BY Random() LIMIT 5;

print(Tab)

<br>

A junção das três tabelas agora pode ser feita comparando apenas esse atributo:


In [None]:
%%sql
SELECT C.Cidade, Populacao, DDD, 
       Trunc(100.*(HSuperior+MSuperior)/Populacao) "PctSuperior" 
    FROM TabCidades C JOIN BRCidades ON C.Cidade = BRCidades.Cidade
                      JOIN BRCid_EducSuperior ON C.Cidade = BRCid_EducSuperior.Cidade
    WHERE Populacao>200_000
    ORDER BY Random()
    LIMIT 5;

<br>

## 4.3. Explorando dados compostos e multi-valorados

No caso da tabela `Cid_EducSuperior`, como estamos 'livres' para alterá-la alterá-la à vontade,<br>
vamos substituir $<$ `Municipio, UF`$>$ pela tupla `Cidade`:

In [None]:
%%sql
ALTER TABLE Cid_EducSuperior
    ADD COLUMN IF NOT EXISTS Cidade TP_Cidade;

UPDATE Cid_EducSuperior
    SET Cidade = (Municipio, UF);

ALTER TABLE Cid_EducSuperior
    DROP COLUMN IF EXISTS Municipio,
    DROP COLUMN IF EXISTS UF


<br>
e ver rapidamente como ficou:

In [None]:
%%sql
SELECT * FROM Cid_EducSuperior
    ORDER BY Random() LIMIT 5;

<br>

Essa consulta mostra como os dados estão armazenados.\
No entanto, fica um pouco difícil interpretar os valores do atributo `PopNSup`, 

Se queremos ver todos os atributos da mesma `área de conhecimento`, <br>
  &emsp; podemos fazer um _cast_ do  <font Color="teal">Valor de um atributo de tipo tupla</font> com a definição do seu tipo<br>
  &emsp; e pedir <font Color="cyan">todos os atributos componentes (`*`)</font>:   &emsp; &emsp; &emsp; &emsp;  &emsp; &emsp; &emsp; &emsp; &emsp; &emsp; &emsp; &emsp; &emsp; &emsp; &emsp; &emsp; &star; com `(valor::TP_Cidade).*`

Para facilitar a visualização, também podemos 
  * Mostrar o Nome do índice de cada tupla dentro do <array</i>>:  &emsp; &emsp; &emsp; &emsp; &emsp; &emsp; &emsp; &emsp; &emsp; &emsp; &emsp; &emsp; &emsp; &star; com `Unnest(Enum_Range(null::TP_AreaConhec))`
  * Mostrar <font Color="teal">cada valor</font> do <i>array</i> de áreas de conhecumento `TP_AreaConhec`:  &emsp; &emsp; &emsp; &emsp; &emsp; &emsp; &emsp; &emsp; &star; com `UNNEST(PopNSup)`
    * Os valores de cada <font Color="cyan">dimensão do atributo</font> `PopNSup` pela dimensão de homes e mulheres: &emsp; &star; com `(PopNSUP[i:i][1:])`

Vamos solicitar essas informações de uma cidade específica (mostrando o <i>Array</i> original para comparar)

In [None]:
%%sql
SELECT  (Cidade::TP_Cidade).*, 
       Generate_Subscripts(PopNSup, 2) Indice,
       Unnest(Enum_Range(null::TP_AreaConhec)) AS Area,
	   (UNNEST(PopNSup[1:1][1:])) Homens,
	   (UNNEST(PopNSup[2:2][1:])) Mulheres,
	   PopNSup

    FROM Cid_EducSuperior
    WHERE Cidade =('São Carlos'::TEXT, 'SP'::Char(2))


<br>

Ou podemos mostrar os dados de algumas poucas cidades:

In [None]:
%%sql
SELECT  (Cidade::TP_Cidade).*, 
       Generate_Subscripts(PopNSup, 2) Indice,
       Unnest(Enum_Range(null::TP_AreaConhec)) AS Area,
	   (UNNEST(PopNSup[1:1][1:])) Homens,
	   (UNNEST(PopNSup[2:2][1:])) Mulheres

    FROM Cid_EducSuperior
    ORDER BY PopNSup[1][1]+PopNSup[2][1] DESC -- Total de Pessoal de nível superior
    LIMIT 2*12;


<br>

 Veja que o resultado <font size="4" color="violet">"<i>parece</i>"</font> o resultado de uma junção.

 No entanto, não foi feita nenhuma junção, apenas se <b>projetaram</b> os atributos de interesse, <b>selecionados</b> de <b>uma única tabela</b>.
 
<table align="left"><tr>
    <td width="700"><div class="alert alert-block alert-info"><font size="4">&#x26A0;</font>
        <font face="Georgia", size=3> 
            &emsp;  Essa forma de definir os dados <font color="red">viola a normalização das relações</font><br>
            &emsp; &emsp; &emsp; &emsp; No entanto, para consultar os dados, ela é muito mais rápida.</font>.
        </font></div><br></td>
</tr></table>
<br>


<br><br>

---

<br><br>

# 5. Comparações por similaridade

Podemos comparar por similaridade o valor de um dado atributo $\mbox{A}$ de duas tuplas $X=t_1[\mbox{A}], Y=t_2[\mbox{A}]$\
&emsp; definindo um <b>Coeficiente de Similaridade ($Cs$),</b> ou uma <b>Função de Distância ($Fd$).</b>\
  * Um Coeficiente de Similaridade aumenta conforme aumenta a similaridade;
  * Uma Função de Distância diminui conforme aumenta a similaridade, e é zero quando os dois valores são iguais.

Quando os dados são de tipo multidimensionais no formato $X=[x_1...x_n], Y=[y_1...y_n]$, \
é comum usar $Fd(X, Y)$ baseadas numa <b>Minkowski</b>,  no formato:\
&emsp; $Fd(X,Y)=\sqrt[p]{\sum_{i=1}^{n}|x_i-y_i|^p}$

Por exemplo, é comum usar as funções:
  * `Euclidiana`, com $p=2$,
  * `Manhattan`, com $p=1$

Essas funções podem ser facilmente definidas em `PlPgSQL`, como, por exemplo, a função `Manhattan`:

In [None]:
%%sql
DROP FUNCTION IF EXISTS ManhattanDist(A ANYARRAY, B ANYARRAY);
CREATE FUNCTION ManhattanDist(A ANYARRAY, B ANYARRAY) RETURNS DOUBLE PRECISION 
    AS $$
        DECLARE
            Dim INT;
            Tot DOUBLE PRECISION:=0.0;
        BEGIN
            Dim:=LEAST(Array_Length(A,1), Array_Length(B,1));
            FOR i IN 1..Dim LOOP
                Tot:=Tot+ABS(COALESCE(A[i],0)-COALESCE(B[i],0));
            END LOOP;
            RETURN Tot;
        END;
$$  LANGUAGE plpgsql IMMUTABLE RETURNS NULL ON NULL INPUT;


<br>

Com isso podemos medir, por exemplo, a similaridade entre a distribuição absoluta por áreas de conhecimento entre as várias cidades, <br>
usando diretamente o atributo `PopNSUP` para a quantidade de `Homens` ou `Mulheres` da população com nível superior entre pares de cidades.

Por exemplo, comparando no conjunto $S$ de características de `Proporção de pessoal por área de Ensino Superior`<br>
  &emsp; considerando os `Homens`<br>
  &emsp; representado pelo atributo `PopNSup`,<br>
  &emsp; usando a distancia `Manhattan`,<br>
  &emsp; &emsp; para recuperar as cinco ($k=5$) cidades $s_i\in S$ mais semelhantes<br>
  &emsp; ao `Centro de Consulta (Query center)` <b> $s_q$</b>=`'São Carlos, SP'`:

Para isso, precisamos 'extrair' a `Linha` correspondente (Linha 1) aos ``Homens` do atributo bidimensional` PopNSup`, o que é feito com:

In [None]:
%%sql

SELECT S.Cidade "s_i.Nome",
       ARRAY(SELECT Unnest(S.PopNSup[1:1])) "si",
       S.PopNSup "Matriz"
        FROM Cid_EducSuperior S
		ORDER BY RANDOM()
        LIMIT 5; 

<br>

Podemos usar esses valores para procurar:<br>
<i>Quais são as 10 cidades mais semelhantes a `São Carlos, SP`<br>
&emsp; considerando a distribuição por área de conhecimento em nível superior de `Mulheres`?</i>

In [None]:
%%sql

SELECT Qc.Cidade "sq.Nome", S.Cidade "s_i.Nome", 
       ARRAY(SELECT Unnest(Qc.PopNSup[2:2]))  "sq", 
	   ARRAY(SELECT Unnest(S.PopNSup[2:2])) "si",
       ROUND(ManhattanDist(ARRAY(SELECT Unnest(Qc.PopNSup[2:2])), ARRAY(SELECT Unnest(S.PopNSup[2:2])))::NUMERIC, 3) "Similaridade"
        FROM Cid_EducSuperior Qc, Cid_EducSuperior S
        WHERE Qc.Cidade =('São Carlos'::TEXT, 'SP'::Char(2))
		ORDER BY 5
        LIMIT 10; 

Usar a distribuição absoluta pode ter distorções devido ao tamanho das cidades.<br>
É melhor tratar a distribuição relativa considerando a `População` total de cada cidade (disponível na tabela `BRCidades`)<br>
pois reduz a distorção quando as cidades comparadas têm a população total muito diferente.

Vamos criar um novo atributo multivalorado na tabela `Cid_EducSuperior` com a proporção do pessoal de cada área de conhecimento em relação ao total da população.

In [None]:
%%sql
ALTER TABLE Cid_EducSuperior
    DROP COLUMN IF EXISTS PropNSup;

ALTER TABLE Cid_EducSuperior
    ADD COLUMN PropNSup FLOAT[];

UPDATE Cid_EducSuperior CC
    SET PropNSup = (SELECT ARRAY(SELECT ROUND(100.*(H+M)/Populacao, 2) FROM
                          Unnest(PopNSup[1:1][1:]) WITH ORDINALITY AS u1(H, i) JOIN 
                          Unnest(PopNSup[2:2][1:]) WITH ORDINALITY AS u2(M, j)
                                ON i = j ) )
    FROM BRCidades C
    WHERE CC.Cidade = C.Cidade;


<br>
Veja que para fazer as comparações não é necessário armazenar os valores relativos.<br>
Mas se eles não forem armazenados, eles precisam ser recalculados para cada comparação efetuada.

Vamos ver o resultado das distribuições totais relativas de algumas cidades.


In [None]:
%%sql
SELECT * FROM Cid_EducSuperior
    ORDER BY Random() LIMIT 5;

<br>

Agora podemos medir a similaridade entre a distribuição relativa por áreas de conhecimento<br>
da população com nível superior entre pares de cidades.

Por exemplo, comparando no conjunto $S$ da característica de `Proporção de pessoal por área de Ensino Superior`<br>
  &emsp; representado pelo atributo `PropNSup`,<br>
  &emsp; usando como `Centro de Consulta (Query center)` <b> $s_q$</b>=`'São Carlos, SP'`,<br>
  &emsp; usando a distancia `Manhattan`,<br>
   &emsp; &emsp;Recuperar as cinco (5) cidades $s_i\in S$ mais semenhantes a $s_q$:

In [None]:
%%sql
SELECT Qc.Cidade "sq.Nome", S.Cidade "s_i.Nome", 
       Qc.PropNSup "sq", S.PropNSup::FLOAT[] "si",
       ROUND(ManhattanDist(Qc.PropNSup, S.PropNSup)::NUMERIC,3) "Similaridade"
        FROM Cid_EducSuperior Qc, Cid_EducSuperior S
        WHERE Qc.Cidade =('São Carlos'::TEXT, 'SP'::Char(2))
		ORDER BY 5
        LIMIT 10; 

<br><br>

# 6. Finalização

Vamos deixar a base de dados como estava antes da execução do <i>notebook</i>.<br>
Para isso:<\ol>
  <li> Removemos a tabela 'Cid_EducSuperior'
  <li> Removemos a informação do fuso de cada `Cidade` na tabela `TabCidades`
  <li> Removemos o atributo que concatena o nome e o estado de cada cidade nas tabelas `TabCidades`, `BRCidades` e `BRCid_EducSuperior`
  <li> Removemos todos os tipos de dados criados: `TP_NomeFuso`, `TP_AreaConhec`, `TP_Sexo`, `TP_Cidade`
  </ol>

<br>

In [None]:
%%sql
DROP TABLE IF EXISTS Cid_EducSuperior;

DROP TABLE IF EXISTS Public.Fusos;
ALTER TABLE TabCidades 
    ADD COLUMN IF NOT EXISTS NomeFuso TP_NomeFuso;

ALTER TABLE TabCidades
    ADD COLUMN IF NOT EXISTS Cidade TP_Cidade;
ALTER TABLE BRCidades
    ADD COLUMN IF NOT EXISTS Cidade TP_Cidade;
ALTER TABLE BRCid_EducSuperior
    ADD COLUMN IF NOT EXISTS Cidade TP_Cidade;

DROP TYPE IF EXISTS TP_NomeFuso CASCADE;
DROP TYPE IF EXISTS TP_AreaConhec CASCADE;
DROP TYPE IF EXISTS TP_Sexo CASCADE;
DROP TYPE IF EXISTS TP_Cidade CASCADE;


<br><br><br>

<img src="Figuras/Gemini_Multidimensional-Brasil3.jpg" width=840/>

<br>

<font size=5 color="blue">
# Exercício para a próxima aula
</font><br>

<br>

O exercício deve ser feito usando a base de dados do Censo Brasileiro de 2022 e a tabela `BRCid_PopCorSexo`.<br>
 &emsp; Essa tabela tem dados sobre a população segundo a cor e o sexo, mas diferente da tabela `BRCid_Cid_EducSuperior`, <br>
 &emsp; esta tem as medidas considerando `Homens`, `Mulheres` e também o `Total`.

<b>Questões:</b><br><ol>
  <li> <i>Quais são as 10 cidades com população maior do que 100 mil habitantes mais próximas de 'São Carlos, SP', <br>
    considerando a distância `Manhattan` e</i><ol>
    <li> A distribuição só de Mulheres, 
    <li> A distribuição só de Homens,
    <li> Só a distribuição total. 
    </ol>
<!-- comment
   <li> <i>Quais são as 10 cidades com população maior do que 100 mil habitantes mais próximas de 'São Carlos, SP', <br>
 &emsp; &emsp; considerando as 3 distribuições simultaneamente, integrando as 3 listas da questão anterior usando `BM25`
 -->
  </ol>

<br>

Para isso:
<!--  * Escreva uma função em `PlPgSQL`que defina a função `Euclidiana`, -->
  * Crie uma nova tabela que tenha como atributos:
    * a identificação da cidade como uma tupla com o `Nome` e a `UF` da `Cidade`, e
    * um atributo bidimensional com as contagens de homens, mulheres e população total para cada cor dos habitantes.
  * Calcule enumeradores adequados para as dimensões do atributo multidimensional criado.
  * Acrescente à essa tabela um atributo bidimensional com as proporções de cada valor de Cor/Sexo
  * Execute as consultas solicitadas


<br><br>

<font size="5" face="verdana" color="green">
    <b>Preparação de dados <!-- usando <b>funções de janelamento --></b> em SQL</b><br></font>
<font size="4" face="verdana" color="green">
    <b>Atributos Não atômicos: Compostos e Multivalorados (<i>Arrays</i>)</b>
    </font><br>

<font size="10" face="verdana" color="red">
    <img src="Figuras/ICMC_Logo.jpg" alt="ICMC" width=70>&emsp;&emsp;&nbsp;
    <b>FIM</b>&nbsp;&nbsp;&nbsp;&nbsp;
    <img src="Figuras/Gbdi2005.jpg" alt="GBdI" width=400>
    </font>

<br>

<img src="Figuras/Gemini_Multidimensional-Brasil2.jpg" width=840/>

<br>
    