<div style="line-height:18px;">
    <img src="Figuras/ICMC_Logo.jpg" alt="ICMC" width=100>&emsp;&emsp;&emsp;
    <img src="Figuras/Gbdi2005.jpg" alt="GBdI" width=550><br>
    <font color="black" size="5" face="Georgia">&emsp; <i><u>Prof. Dr. Caetano Traina Júnior</u></font><br>
    <font color="black" size="4" face="Georgia">&emsp; &ensp;<i>ICMC-USP São Carlos</font>
<div align="right"><font size="1" face="arial" color="gray"> 05 seg.&nbsp;31 cel</font></div>
    </div><br>

<font size="6" face="verdana" color="green"><b><b>5 - Tipo de dados <b>JSON</b> em SQL</b></font>
        
<br><br>
<img src="Figuras/DocumentosJSon-DuasPartes-2H-Acima.jpg" width=1000/>
<br><br>


<b>Objetivo:</b> Aprender a usar o tipo de dados __JSON__ em SQL, usando a Base de Dados __Nobel__.
<br>

**Requisitos:** 
  * Base de dados já criada para armazenar as tabelas da  Base de Dados __Nobel__;
  * Dados das tabelas `Premios`, `Premiados` e `Paizes` já carregados.

# 1. Conectar com a Base de Dados

Para começar, é necessário estabelecer a conexão com uma base. 
 * Vamos usar a base __Nobel__: &nbsp;

In [None]:
############## Importar os módulos necessários para o Notebook:
import matplotlib.pyplot as plt
import pandas.io.sql as psql
import json                      ##-- Json Pretty Print
import re                        ##-- Regular Expressions

from ipywidgets import interact  ##-- Interactors
import ipywidgets as widgets     #---
from sqlalchemy import create_engine

############## Conectar com um servidor SQL na base de daos Nobel ###################### --> Postgres.Nobel
%load_ext sql

# Connection format: %sql dialect+driver://username:password@host:port/database
engine = create_engine('postgresql://postgres:pgadmin@localhost/nobel')
%sql postgresql://postgres:pgadmin@localhost/nobel
%config SqlMagic.displaylimit=None

############## Definir uma função para listar Planos de consulta ########
def PrintPlan(pl):
    print('\nPlano:+','-'*100, sep='')
    i=0
    for linha in pl:
        i+=1
        print(' %4d |' % i,linha[0])
    print('------+','-'*100,'\n', sep='')

%sql SET DATESTYLE TO YMD;

<br><br>

## 1.1. Criar alguns dados simples para servir de exemplo

Para ter uma tabela simples, para exemplificar, vamos recriar nesta Base de Dados, a tabela `Médicos` criada no _Notebook_ anterior:

In [None]:
%%sql
DROP TABLE IF EXISTS Medicos;
DROP TYPE IF EXISTS Medico CASCADE;
CREATE TYPE Medico AS (
    Nome TEXT,
    CRM NUMERIC(8,0),
    Idade SMALLINT,
    Cidade TEXT
    );

CREATE TABLE Medicos (
    Hospitais TEXT[], 
    Quem Medico,
    Inicio INT[]
    );

In [None]:
Query='''('{"FMRJ", "Policlínica Geral-RJ", "Instituto Soroterápico Federal", "Instituto Oswaldo Cruz"}',  
           ('Oswaldo Cruz', 1234, 44, 'São Luís do Paraitinga-SP'), 
          '{1887, 1894, 1899, 1909}'),
         ('{"BPSP", "FMUSP", "Santa Casa de Misericórdia-SP", "Barnes hospital-St. Louis,EUA", "HCSP"}', 
           ('Euryclides Zerbini',2345 ,81, 'Guaratinguetá-SP'), 
          '{1925, 1930, 1944,1945, 1982}');
     '''

%sql INSERT INTO Medicos VALUES {{Query}}

<br>

Vamos verificar __os dados armazenados:__

In [None]:
%sql Result << SELECT * FROM Medicos;
print(Result)

<br><br>

# 2. Os Tipos de dados <b>JSON</b> em <img src="Figuras/Postgres.png" width=130>

O SGBDR <img src="Figuras/Postgres.png" width=120> é um modelo pós-relacional que incorpora conceitos do <font size="3" color="red"><b>Modelo de Documentos</b></font>.\
Ele tem dois tipos de dados definidos para armazenar dados Json:
 * `Json`: representa os dados o mais parecido possícel com a cadeia de dados de entrada
 * `Jsonb`: (Json binário): os dados são submetidos ao _parser_ e são armazenados já interpretados

A especificação JSON declara que os dados devem ser usados em codificação `UTF-8`.\
<img src="Figuras/Postgres.png" width=120> flexibiliza essa restrição e usa a codificação que estiver ativa para uma base de dados.

 * O campo chave `key` de um valor em JSON é sempre representado como uma cadeia de caracteres: `'Nome', 'NUSP'`
 * O campo chave `value` pode ser de tipo:
   * <i>string</i>: 'azul', 'São Carlos'
   * <i>number</i>: `1`, `2`, `3`
   * <i>boolean</i>: `true`, `false`
   * <i>null</i>:  `null`
   * <i>array</i>: `[1, 2, 3]`
   * <i>tupla</i>: `{c1:v1, c2:v2}`

Por exemplo:

In [None]:
%sql Query <<                                                                                     \
SELECT '3'::json            Numero,                                                                 \
       '"São Carlos"'::json Texto,                                                                    \
       'true'::json         Boolean,                                                                    \
       'null'::json         Nulo,                                                                         \
       '[1, 2, 3]'::json    Arranjo,                                                                        \
       '{"Nome":"José da Silva", "NUSP":"1234", "Cidade":"Ibitinga", "Idade": 25}'::json Tupla;

print(Query)


<br>

A função  `To_Json(Tupla)` converte um dado de tipo `tupla` para um valor `Json`.\
Por exemplo, pode-se transformar cada linha de uma tabela num documento `Json`, como por exemplo usando a tabela de `Médicos` criada no Notebook _anterior_:

In [None]:
%sql Result << \
    SELECT To_Json(Medicos) FROM Medicos;
print(Result)

<br>

Ler nesse formato é cansativo.<br>
No entanto, a definição do padrão Json espera que os dados sejam legíveis por <b>máquinas</b> e por <b>humanos</b>.

O módulo `json` do `python` tem a função <b>`json_formatted_str()`</b> que reformata a _string_ de entrada para uma melhor visualização de cada objeto:

In [None]:
for i in range(0,len(Result)):
    print('\n', Result[i])
    json_object = json.loads(re.sub('(,\\))$', ']',                       ## Remove o fecha ) do final
                             re.sub('^(\\()',  '[',                       ## Remove o abre ( do início
                             re.sub('\'',   '"', str(Result[i])) )))    ## troca todos os \\' por \"
    json_formatted_str = json.dumps(json_object, indent=2, ensure_ascii=False)
    print(json_formatted_str)

<img src="Figuras/Postgres.png" width=120> também tem recurso equivalente: a função <b>`JsonB_Pretty(JsonB)`</b>:\
(Embora o Jupyter "reformate" para imprimir tudo centralizado...)

In [None]:
%sql Result << \
    SELECT JsonB_pretty(To_JsonB(Medicos)) FROM Medicos;
for i in range(0,len(Result)):
    print(i+1, ': ',Result[i], sep='')

print(Result)

Ou pode-se converter um atributo de tupo `tupla` para uma representaçào em `Json`:

In [None]:
%sql Result << \
    SELECT To_Json(Quem), Hospitais, Inicio FROM Medicos;
print(Result)

<br>

Mesmo que um dado não esteja declarado como `Json`, se a cadeia de caracteres estiver no formato correto, ele pode ser transformado em `Json` para usar esses operadores:

In [None]:
%sql Result << \
    SELECT TO_Json(Quem)->>'nome', JsonB_Array_Elements(To_JsonB(Hospitais)), JsonB_Array_Elements(To_JsonB(Inicio)) FROM Medicos;
print(Result)

<br>

Veja que os dados são convertidos para `Json` seguindo a mesma ordem dos atributos na tabela;

Se for usado um tipo `JSonB`, os dados são colocados visando agilizar as buscas, por exemplo para usar busca binária para localizar as chaves e decodificar os dados:

In [None]:
%sql Result << \
    SELECT JsonB_Pretty(To_JsonB(Quem)), Hospitais, Inicio FROM Medicos;
print(Result)

Objetos Json e JsonB não armazenam chaves repetidas (só retém a última), mas Json preserva a ordem delas:

In [None]:
%%sql
SELECT '{"Nome"\:"José da Silva", "NUSP"\:1234, "Nome"\:"Maria da Silva"}'::json, '--------' " ",
       '{"Nome"\:"José da Silva", "NUSP"\:1234, "Nome"\:"Maria da Silva"}'::jsonb;

<br><br>

# 3. Atualização de objetos JSON em <img src="Figuras/Postgres.png" width=130>: Inserir novas tuplas

Objetos Json podem ser inseridos, atualizados e apagados em <img src="Figuras/Postgres.png" width=120>, usando os comandos usuais de `INSERT`, `UPDATE` e `DELETE`.\
Para verificar isso, vamos criar uma nova tabela que armazena os mesmos dados de um médico como objetos Json ao invés de tuplas.\
Nesse caso, como não existe uma estrutura pré-definida para os atributos a serem armazenados, criamos a tabela simplesmente como:

In [None]:
%%sql
DROP TABLE IF EXISTS JMedicos;
CREATE TABLE JMedicos (
    id SERIAL NOT NULL PRIMARY KEY,
    Medico JsonB NOT NULL
    );

Aqui criamos um atributo `ID` _fora da cadeia __Json___, para emular a maneira como __Mongo__ opera.\
O atributo `ID` é gerado automaticamente como um valor `SERIAL`, e já indexado por _default_.\
Um valor `SERIAL` em <img src="Figuras/Postgres.png" width=120> leva em conta o acesso concorrênte e distribuído, tal como em MONGO, mas usa um algoritmo diferente para a alocação de valores (que pode ser parametrizado com um comando `CREATE SEQUENCE` (Vide: https://www.postgresql.org/docs/current/sql-createsequence.html)

A tabela está inicialmente vazia e pode armazenar quaisquer objetos Json.\
Obviamente, queremos armazenar objetos que sigam a estrutura de atendimentos que os médicos dão a cada hospital, mas a sintaxe não obriga a isso.\
Vamos inserir um novo médico:

In [None]:
%%sql
INSERT INTO JMedicos(Medico) VALUES('{"hospitais": ["Instituto Soroterápico Federal","Hospital de Jurujuba", " Instituto Oswaldo Cruz"],
                            "quem":{"nome": "Carlos Chagas", "crm": 3456, "idade": 55, "cidade": " Oliveira, MG"},
                            "inicio": [1902, 1904, 1906]
                            }');
SELECT JsonB_Pretty(Medico) FROM JMedicos;

Podemos inserir dados a partir de outras tabelas:

In [None]:
%%sql
INSERT INTO JMedicos(Medico) (
    SELECT To_Json(Medicos) 
        FROM Medicos);

SELECT Medico FROM JMedicos;

Ou, se quizermos obter o `ID` de cada objeto:

In [None]:
%%sql
SELECT ID, Medico FROM JMedicos;

<br><br>

# 4. Consultando objetos JSON em <img src="Figuras/Postgres.png" width=130>

Existem quatro operadores fundamentais usados para consultar dados em formato Json em <img src="Figuras/Postgres.png" width=120>:
 * o operador `->`  retorna o valor do objeto JSON indcado pela chave como um `texto`
 * o operador `->>` retorna o valor do objeto JSON indcado pela chave como um objeto `Json` ou `JsonB`, conforme o objeto original
 * o operador `#>`  retorna o valor do objeto JSON indicado pelo caminho como um `texto`
 * o operador `#>>` retorna o valor do objeto JSON indicado pelo caminho como um objeto `Json` ou `JsonB`, conforme o objeto original:

In [None]:
%%sql
SELECT           Medico -> 'quem'->>'nome' "Chave para Texto",
       PG_TypeOf(Medico -> 'quem'->>'nome'),
                 Medico -> 'quem'->'nome' "Chave para Json",
       PG_TypeOf(Medico -> 'quem'->'nome'),
                 Medico #>> '{quem,nome}' "Caminho para Texto",
       PG_TypeOf(Medico #>> '{quem,nome}'),
                 Medico #> '{quem,nome}' "Caminho para Json",
       PG_TypeOf(Medico #> '{quem,nome}')
    FROM JMedicos;

<br><br><br>
<img src="Figuras/DocumentosJSon-DuasPartes-2H-Abaixo.jpg" width=1000/>
<br><br>

Consultas ficam mais interessantes sobre bases com mais dados.\
Vamos consultar as tabelas da base de dados de __Prêmios Nobel.__ <font size="2" color="magenta">(Essas tabelas foram criadas sem um atributo `ID`.)</font>\
Vamos começar com a tabela de `Premios`:

In [None]:
%sql Result << \
    SELECT * FROM Premios LIMIT 3;
print(Result)

<br>

Esses dados podem ser usados para montar uma tabela "tradicional", como por exemplo:

In [None]:
%sql Result <<                                                                                   \
SELECT Premio->'year' Ano, Premio->>'year' "Ano JSON",                                            \
           Premio->>'category' Categoria,                                                          \
           (Premio->'laureates'->0->>'firstname') ||' '|| (Premio->'laureates'->0->>'surname') G1,  \
           (Premio->'laureates'->1->>'firstname') ||' '|| (Premio->'laureates'->1->>'surname') G2,   \
           (Premio#>>'{laureates, 0, firstname}') ||' '|| (Premio#>>'{laureates, 0, surname}') G3,    \
           (Premio#>>'{laureates, 1, firstname}') ||' '|| (Premio#>>'{laureates, 1, surname}') G4      \
        FROM Premios                                                                                    \
        LIMIT 5;
print(Result)

Note que:
 * como os operadores `->` e `#>` retornam um objeto `Json`, eles podem ser encadeados para navegar pela hierarquia de 'sub-objetos json' 
 * como os operadores `->>` e `#>>` retornam um objeto `Texto`, eles não podem ser seguidos por outros operadores para dados `Json`
 * quando `->` ou `->>` tem como o operando da direita um valor inteiro, ele é interpretado como o __índice__ de um _array_ de objetos `Json`, onde o primeiro é o `índice 0 (zero)'
 * quando `#>` ou `#>>` tem a indicação de um valor inteiro, ele é interpretado como o __índice__ de um _array_ de objetos `Json`, onde o primeiro é o `índice 0 (zero)'
 * se uma `chave` não é encontrada, ele apenas retorna `NULL`.

<br>

Podemos usar os operadores `JSON` na cláusula `WHERE` para filtrar as tuplas desejadas.\
_Retorne todos os premiados no ano 2000:_

In [None]:
%sql Result <<                                                                                  \
SELECT Premio->'year' Ano,                                                                       \
           Premio->>'category' Categoria,                                                         \
           (Premio->'laureates'->0->>'firstname') ||' '|| (Premio->'laureates'->0->>'surname') G1, \
           (Premio#>>'{laureates, 1, firstname}') ||' '|| (Premio#>>'{laureates,1,surname}') G2,    \
           (Premio#>>'{laureates, 2, firstname}') ||' '|| (Premio#>>'{laureates,2,surname}') G3      \
       FROM Premios                                                                                  \
        WHERE CAST(Premio->>'year' AS INT) =2021     --<<<<<< Retorna somente os prêmios de 2021  <<<<<<<<
print(Result)

<br>

Veja que a consulta acima não é a melhor solução para tratar _arrays_ de tamanho variável:\
&emsp;&emsp; &#9758; Ela assume que existem __dois__ ganhadores `G1` e `G2` em cada prêmio, mas pode ser mais ou menos que isso.

Uma solução melhor é extrair cada elemento `desaninhando` cada elemento numa tupla separada.\
As funções `Json_Array_Elements` e `JsonB_Array_Elements` atendem a esse propósito:

In [None]:
%%sql
SELECT Premio->>'year' Ano,
           Premio->>'category' Categoria, 
           JsonB_Array_Length (Premio->'laureates') NGanhadores,
           ((JsonB_Array_Elements(Premio->'laureates'))->>'firstname')  ||' '|| ((JsonB_Array_Elements(Premio->'laureates'))->>'surname') Nome
        FROM Premios 
        WHERE (Premio->>'year')::INT =2021
        ORDER BY Ano, Categoria, Nome;

<br>

# 5. Dados `JSON` em agrupamentos e agregações

Valores `JSON` podem ser usados em comandos de agrupamento e agregação seguindo as mesmas regras dos demais atributos.

Por exemplo:
 * _Em quantos anos houve premiação em cada categoria?_
 * _Quantos prêmios foram atribuídos em cada categoria?_
 * _E quantos foram atribuídos neste século?_

In [None]:
%%sql
SELECT Premio->>'category' Categoria, 
       Count(JsonB_Array_Length (Premio->'laureates')) Anos,
       SUM(JsonB_Array_Length (Premio->'laureates')) Total,
       SUM(JsonB_Array_Length (Premio->'laureates')) FILTER (WHERE (Premio->>'year')::INT >2000) Pos_2000
    FROM Premios 
    GROUP BY Premio->>'category';

<br>

# 6. Comparação de documentos

O operador `@>` verifica se um documento contém outro, retornando `true` ou `false` para cada tupla.\
Ele é muito para buscar as tuplas que têm os valores pedidos\
Por exemplo:
_Recuperar os ganhadores de medicina em 2021:_

In [None]:
%%sql
SELECT Premio->>'year' Ano,
           Premio->>'category' Categoria, 
           JsonB_Array_Length (Premio->'laureates') NGanhadores,
           ((JsonB_Array_Elements(Premio->'laureates'))->>'firstname')  ||' '||
           ((JsonB_Array_Elements(Premio->'laureates'))->>'surname') Nome
        FROM Premios 
        WHERE (Premio @> '{"year":"2021", "category":"medicine"}')
        ORDER BY Ano, Categoria, Nome;

O operador `?` verifica se um documento contém a chave indicada, retornando `true` ou `false` para cada tupla.\
Ele é muito para buscar as tuplas que têm as chaves pedidas\
Por exemplo:
_Recuperar os `Paises`que não têm código:_

In [None]:
%%sql
SELECT Pais->>'name'
       FROM Paises
       WHERE NOT Pais ? 'code';

<br><br>

# 7. Atualização de dados Json em <img src="Figuras/Postgres.png" width=120>: `UPDATE`

A atualização de dados em Json é mais elaborada do que que a atualização em tuplas, porque existem vários significados do que se entende por "atualização".\
De fato, todas as seguintes operações são `atualização de tuplas`:
 * Inserir uma nova chave num documento já existente
 * Remover uma chave
 
Por exemplo, suponha que queremos indicar a modalidade contemplada para os premiados em medicina no ano de 2021.<br>
Como essa chave não existe, ela pode ser criada com:

In [None]:
%%sql
SELECT *                        --------------------------- ANTES DA ATUALIZAÇÃO
    FROM Premios 
    WHERE (Premio->>'year')::INT =2021 AND Premio->>'category'='medicine';
UPDATE Premios
    SET Premio = Premio || '{"Modality": "Physiology "}';
SELECT *                        --------------------------- DEPOIS DA ATUALIZAÇÃO
    FROM Premios 
    WHERE (Premio->>'year')::INT =2021 AND Premio->>'category'='medicine';

<br>

Veja que para substituir o valor de uma chave, basta atribuir um novo valor, porque um objeto Json não deve ter chaves repetidas.

In [None]:
%%sql
UPDATE Premios
    SET Premio = Premio || '{"Modality": "PHYSIOLOGY"}';
SELECT *                        --------------------------- DEPOIS DA ATUALIZAÇÃO
    FROM Premios 
    WHERE (Premio->>'year')::INT =2021 AND Premio->>'category'='medicine';

<br>

Uma chave pode ser removida com:

In [None]:
%%sql
UPDATE Premios
    SET Premio = Premio - 'Modality';
SELECT *
    FROM Premios 
    WHERE (Premio->>'year')::INT =2021 AND Premio->>'category'='medicine';

<br>

# 8. Indexação de dados __Json__

Nós vamos estudar estruturas de indexação mais detalhadamente em aulas seguintes.

Mas apenas para iniciar, veja que qualquer chave de um atributo __JSON__ pode ser indexado, como qualquer outro atributo:

In [None]:
%%sql
DROP INDEX IF EXISTS Premio_Name_IX;
CREATE INDEX Premio_Name_IX ON Premios(((Premio->'laureates'->>'firstname')::TEXT||' '||(Premio->'laureates'->>'surname')::TEXT));

In [None]:
%%sql
DROP INDEX IF EXISTS Premiado_Name_IX;
CREATE INDEX Premiado_Name_IX ON Premiados(((Premiados->>'firstname')||' '||(Premiados->>'surname')));

In [None]:
%%sql
SELECT (Premiados->>'firstname')||' '||(Premiados->>'surname') Quem, 
          (Premiados->>'bornCountry') Pais,
          ((JsonB_Array_Elements(Premiados->'prizes'))->>'year') Quando,
          ((JsonB_Array_Elements(Premiados->'prizes'))->>'category') Categoria, 
          *
    FROM Premiados
    WHERE (Premiados->>'firstname')||' '||(Premiados->>'surname')='Marie Curie';

<br>

Podemos verificar o plano de consulta das consultas <br>
  &emsp; <font color='violet'>(nesse caso, o plano escolhido usa a uma busca sequencial (`SeqScan`), <br>
  &emsp; provavelmente porque a tabela é muito pequena para justificar o uso do índice)</font>

In [None]:
%sql  Plano << EXPLAIN                                                       \
SELECT (Premiados->>'firstname')||' '||(Premiados->>'surname') Quem, \
          (Premiados->>'bornCountry') Pais,\
          ((JsonB_Array_Elements(Premiados->'prizes'))->>'year') Quando,\
          ((JsonB_Array_Elements(Premiados->'prizes'))->>'category') Categoria, \
          *\
    FROM Premiados\
    WHERE (Premiados->>'firstname')||' '||(Premiados->>'surname')='Marie Curie';


PrintPlan(Plano)

<br><br>

<font size="5" face="verdana" color="green">
     <b>5 - Tipo de dados <b>JSON</b> em SQL
    </font><br>

<font size="10" face="verdana" color="red">
    <img src="Figuras/ICMC_Logo.jpg" alt="ICMC" width=70>&emsp;&emsp;&nbsp;
    <b>FIM</b>&nbsp;&nbsp;&nbsp;&nbsp;
    <img src="Figuras/Gbdi2005.jpg" alt="GBdI" width=400>
    </font>

<br><br>
<img src="Figuras/DocumentosJSon-9.jpg" width=1000/>
<br>