<div style="line-height:18px;">
    <img src="Figuras/ICMC_Logo.jpg" alt="ICMC" width=100>&emsp;&emsp;&emsp;
    <img src="Figuras/Gbdi2005.jpg" alt="GBdI" width=550><br>
    <font color="black" size="5" face="Georgia">&emsp; <i><u>Prof. Dr. Caetano Traina Júnior</u></font><br>
    <font color="black" size="4" face="Georgia">&emsp; &ensp;<i>ICMC-USP São Carlos</font>
<div align="right"><font size="1" face="arial" color="gray">01 Seg. &nbsp; 13 cel</font></div>
    </div><br>

<font size="6" face="verdana" color="green"><b>5 - Carga inicial das tabelas da Base de Dados: <br>&emsp; &emsp; <u>Prêmios Nobel</u></b></font>

<br><br>
<img src="Figuras/DocumentosJSon-DuasPartes-1H_Acima.jpg" width=1000/>
<br><br>

**Objetivo:** Preparar uma base de dados a partir de dados em formato __JSON__ em SQL, usando a <big>Base de Dados __Nobel__</big>.

<br>

<b>Atividades:<b> <ol>
  <li> Criar a <big>Base de Dados __Nobel__</big>.
  <li> Carregar os dados a partir de arquivos.
  </ol>

# 1. Criar a Base de Dados `Nobel`

Para começar, é necessário estabelecer uma conexão com uma base:
 * Quando se usa o módulo `SQLalchemy`, o driver `psycopg2` (ou 3) é usado internamente para conectar com uma base de dados.
 * Como queremos criar uma base de dados, é necessário conectar com uma base já existente e, a seguir, tendo os privilégios necessários, criar a base de dados. 
 * Um servidor <img src="Figuras/Postgres.png" width=120> sempre é criado com uma base de dados `postgres` <br>
   (veja que ela pode ser apagada ou renomeada, mas é recomendável não fazer isso)

 * Vamos então conectar com a base `postgres`:

In [None]:
############## Importar os módulos necessários para o Notebook:
import matplotlib.pyplot as plt
import pandas.io.sql as psql
from ipywidgets import interact  ##-- Interactors
import ipywidgets as widgets     #---
from sqlalchemy import create_engine

############## Conectar com um servidor SQL na Base postgres ###################### --> Postgres.postgres
%load_ext sql

# Connection format: %sql dialect+driver://username:password@host:port/database
engine = create_engine('postgresql://postgres:pgadmin@localhost/postgres')
%sql postgresql://postgres:pgadmin@localhost/postgres
#engine = create_engine('postgresql://1234:palchave@143.107.183.83/postgres')
#%sql postgresql://1234:palchave@143.107.183.83/postgres
%config SqlMagic.displaylimit=None

%sql DB << SELECT Current_Database();
print(DB)

Estamos conectados ao Servidor <img src="Figuras/Postgres.png" width=90> na base de dados `postgres`.<br><br>
Então podemos criar uma nova base de dados: `Nobel`.\
Caso ela já exista, queremos apagar, para garantir que temos uma base sem alterações.

Em <img src="Figuras/Postgres.png" width=90>, os comandos para apagar e recriar uma base de dados devem ser executados numa transação única.\
No entanto, as mágicas `%sql` e `%%sql` operam por _default_ abrindo e fechando uma transação para cada comando emitido para o servidor, o que é chamado `Auto Commit`.

Isso causa conflito para a criação de uma base de dados e, portanto, é necessário antes pedir para o `Notebook` operar sem `Auto Commit`.\
Para isso, vamos finalizar qualquer transação corrente que possa estar aberta e pedir para que o sistema opere sem `Auto Commit`.\
A seguir, vamos reabilitá-lo para voltar à operação normal do _Notebook_.

&emsp; <font size="5">&#9758;</font> Isso é feito usando uma __mágica nativa__ do ambiente de mágicas do `Jupyter-lab`: `%config`

In [None]:
## Desabilitar o Autocommit:
%config SqlMagic.autocommit=False

In [None]:
%%sql 
COMMIT;
DROP DATABASE IF EXISTS Nobel WITH (FORCE);
COMMIT;
CREATE DATABASE Nobel
    WITH OWNER = postgres
    ENCODING = 'UTF8';
COMMIT;

Se não houve erro, a nova base de dados está criada, vazia!

Antes de continuar, podemos restaurar a conexão do `Notebook` com o servidor para operação normal,\
re-habilitando o `Auto-commit` entre comandos SQL:

In [None]:
## Reabilitar o Autocommit:
%config SqlMagic.autocommit=True


<br>

Podemos verificar se a nova base existe na lista de `databases` do servidor em que estamos conectados:

In [None]:
%%sql
SELECT DatName, DatIsTemplate, DatAllowConn, DatCollate
    FROM PG_Database

<br><br>

A base recém-criada está vazia. Devemos então carregá-la.
<br><br>
<img src="Figuras/DocumentosJSon-DuasPartes-1H_Abaixo.jpg" width=1000/>
<br><br>

# 2. Carregar a base de dados a partir dos arquivos armazenados no computador

Ainda estamos conectados na `Database postgres`.

Para trabalhar na base `Nobel`, precisamos antes nos conectar nela.<br>
Isso é feito com um comando usual de conexao:


In [None]:
# Connection format: %sql dialect+driver://username:password@host:port/database
engine = create_engine('postgresql://postgres:pgadmin@localhost/nobel')
%sql postgresql://postgres:pgadmin@localhost/nobel
#engine = create_engine('postgresql://1234:palchave@143.107.183.83/nobel')
#%sql postgresql://1234:palchave@143.107.183.83/nobel
%config SqlMagic.displaylimit=None

%sql DB << SELECT Current_Database();
print(DB)

<br>

Os dados sobre os <font size="4" face="verdana" color="green">Prêmios Nobel</font> pode ser obtidos em<ul>
  <li> https://www.nobelprize.org/ ou
  <li> https://github.com/jdorfman/awesome-json-datasets
  </ul>

A leitura de uma tabela JSON é mais fácil se a leitura for primeiro feita como uma estrutura de texto e depois analisada usando o parser do próprio <img src="Figuras/Postgres.png" width=90>.\
Isso requer o dobro de espaço de armazenagem (em disco), mas é a maneira mais flexível.

No entanto, deve-se considerar que a maioria das outras alternativas requerem o uso de ferramentas externas,
  - que também vão armazenar o texto,
  - portanto não existe muita diferença em termos de custo de memória,
  - mas essas alternativas requerem o uso de duas ferramentas diferentes.

No caso do _dataset_ `Nobel`, os dados são fornecidos em três arquivos,\
cada um em formato de um texto __JSON__ constituído por um _array_ de objetos do tipo correspondente:
  * `prêmios`, `premiados`, `países`.

<br>

Dessa maneira, podemos usar só uma tabela `temporaria` para recuperar cada arquivo texto:<br>


In [None]:
%%sql
DROP TABLE IF EXISTS Temporaria;
CREATE TABLE Temporaria ( Linha TEXT);

<br>

Vamos criar as tabelas da base de dados `Nobel`, cada uma contendo apenas um atributo de tipo JSONB, para armazenar um objeto de seu tipo respectivo por tupla:

In [None]:
%%sql
DROP TABLE IF EXISTS Premios, Premiados, Paises CASCADE;
CREATE TABLE Premios (Premio jsonb NOT NULL);
CREATE TABLE Premiados (Premiados jsonb NOT NULL);
CREATE TABLE Paises (Pais jsonb NOT NULL);

Agora podemos carregar cada tabela:<ol>
  <li> Ler o arquivo-texto em disco,
  <li> a partir dele, usar o _parser_ para dados Json do <img src="Figuras/Postgres.png" width=120> para transferir os dados já formatados para as tabelas respectivas:
  </ol>

In [None]:
%%sql
--== Carrega a tabela Premios
COPY Temporaria FROM 'C:/Dados/Nobel/Prize.json';
INSERT INTO Premios
    SELECT (jsonb_array_elements ((RegExp_Replace(Linha, '""', '"', 'g')::Jsonb)->'prizes')) FROM Temporaria;
DELETE FROM Temporaria;

--== Carrega a tabela Premiados
DELETE FROM Temporaria;
COPY Temporaria FROM 'C:/Dados/Nobel/Laureate.json';
INSERT INTO Premiados
    SELECT (jsonb_array_elements ((RegExp_Replace(Linha, '""', '"', 'g')::Jsonb)->'laureates')) FROM Temporaria;
DELETE FROM Temporaria;

--== Carrega a tabela Paises
DELETE FROM Temporaria;
COPY Temporaria FROM 'C:/Dados/Nobel/Country.json';
INSERT INTO Paises
    SELECT (jsonb_array_elements ((Linha::Jsonb)->'countries')) FROM Temporaria;
DELETE FROM Temporaria;

<br>

Vamos verificar quantas tuplas cada tabela tem:

In [None]:
%%sql
SELECT 'Premios', Count(*) FROM Premios
  UNION
SELECT 'Premiados', Count(*) FROM Premiados
  UNION
SELECT 'Paises', Count(*) FROM Paises;


Vamos ver o conteúdo de cada tabela.

Como é a tabela `Premios`?

In [None]:
%%sql
SELECT * FROM Premios LIMIT 5;

<br>

Essa tabela tem diversos atributos, cada um indicado por um par `<chave, valor>`.\
Essa tabela é relativamente sofisticada, portanto temos que trabalhar nela para acessar os objetos JSON...

Mas ela está carregada, portanto deixa isso

<br>

E como é a tabela `Paises`?

In [None]:
%%sql
SELECT * FROM Paises LIMIT 5;

<br>

Essa tabela é mais simples para interpretar.<br>Vamos começar por ela.

Podemos ver facilmente que cada objeto JSON - cada `Pais` - tem apenas dois atributos: o seu `Nome` e um `Código`.\
Podemos usar uma sintaxe de acesso JSON para 'ver' esses dados como uma tabela tradicional:

In [None]:
%%sql
SELECT pais->'code' Codigo, pais->'name' Nome
    FROM Paises
    LIMIT 5;

<br><br>
<font size="5" face="verdana" color="green">
    <b>Carga inicial das tabelas da Base de Dados:<br> &emsp; &emsp; &emsp; &emsp; <u>Prêmios Nobel</u></b>
    </font><br>

<font size="10" face="verdana" color="red">
    <img src="Figuras/ICMC_Logo.jpg" alt="ICMC" width=70>&emsp;&emsp;&nbsp;
    <b>FIM</b>&nbsp;&nbsp;&nbsp;&nbsp;
    <img src="Figuras/Gbdi2005.jpg" alt="GBdI" width=400>
    </font>

<br><br>
<img src="Figuras/DocumentosJSon-8.jpg" width=1000/>
<br><br>
