<div style="line-height:18px;">
    <img src="Figuras/ICMC_Logo.jpg" alt="ICMC" width=100>&emsp;&emsp;&emsp;
    <img src="Figuras/Gbdi2005.jpg" alt="GBdI" width=550><br>
    <font color="black" size="5" face="Georgia">&emsp; <i><u>Prof. Dr. Caetano Traina Júnior</u></font><br>
    <font color="black" size="4" face="Georgia">&emsp; &ensp;<i>ICMC-USP São Carlos</font>
<div align="right"><font size="1" face="arial" color="gray">28 cel</font></div>
    </div><br>

<font size="6" face="verdana" color="green"><b>7 - Carga inicial das tabelas da Base de Dados: <br>&emsp; &emsp; <u>GeoNames</u></b></font>
        
<br>
<br>

<img src="Figuras/Colunar-DuasPartesH-2-Acima.jpg" width=900/>

<br>

<br><br>

**Objetivo:** Fazer a carga da tabela `GeoNames` no esquema padrão de uma Base de Dados 
<img src="Figuras\Postgres.png" alt="Postgres" width=100><img src="Figuras/HydraDB.png" alt="HydraDB" width=100>.\
Os dados são obtidos a partir do arquivo `allCountries.zip` obtido no 
<a href="http://download.geonames.org/export/dump/"><i>site</i> oficial do Geo Names</a>.

<br>

# 1. Inicialização

Como estaremos usando uma base de dados rodando dockerizada, <br>
precisamos passar os dois arquivos de dados baixados para executar a carga inicial para o ambiente do _container_ <font size=4>>`hydra_pg16`:</font>

<font color="red">Aqui você deve baixar os arquivos na sua estrutura de diretório e inicializar o _container_.</font>\
<font color="red">Os dois comandos seguintes devem ter </font>
  * <font color="red">o endereço do arquivo baixado</font>
  * <font color="red">e o nome do _container_ corrigido para seu ambiente operacional.</font>

In [2]:
!docker cp C:/SolE/Databases/Dados/Cidades-USCities/GeoNames/allCountries.txt hydra_pg16:.

!docker cp C:/SolE/Databases/Dados/Cidades-USCities/GeoNames/CountryInfo.tsv hydra_pg16:.

<br>

Para formatar corretamente o resultado do comando `EXPLAIN QUERY`, podemos definir a seguinte função:

In [3]:
############## Definir uma função para listar Planos de consulta ########
def PrintPlan(pl):
    print('\nPlano:+','-'*100, sep='')
    i=0
    for linha in pl:
        i+=1
        print(' %4d |' % i,linha[0])
    print('------+','-'*100,'\n', sep='')


<br>

## Conectar com um Servidor

Para executar as operações no SGBD, é necessário estabelecer uma conexão com uma base:
 * Quando se usa o módulo `SQLalchemy`, o driver `psycopg2` (ou 3) é usado internamente para conectar com uma base de dados.
 * Vamos carregar os dados numa base de dados padrão de um servidor <img src="Figuras/Postgres.png" width=100>: a base de dados `postgres` <br>

<br>


Vamos conectar num  servidor <img src="Figuras/Postgres.png" width=100> operando numa variante <img src="Figuras/HydraDB.png" width=100>:

In [4]:
############## Importar os módulos necessários para o Notebook:
import matplotlib.pyplot as plt
import pandas.io.sql as psql
from ipywidgets import interact  ##-- Interactors
import ipywidgets as widgets     #---
import time                      #--  Medir tempo de execução de comandos
from sqlalchemy import create_engine

############## Conectar com um servidor SQL na Base postgres ###################### --> Postgres.postgres
%load_ext sql

# Connection format: %sql dialect+driver://username:password@host:port/database
engine = create_engine('postgresql://postgres:pgadmin@localhost:5440/postgres')
%sql postgresql://postgres:pgadmin@localhost:5440/postgres
%config SqlMagic.displaylimit=None

%sql DB << SELECT Version();
print(DB)

+---------------------------------------------------------------------------------------------------------------------+
|                                                       version                                                       |
+---------------------------------------------------------------------------------------------------------------------+
| PostgreSQL 16.3 (Debian 16.3-1.pgdg120+1) on x86_64-pc-linux-gnu, compiled by gcc (Debian 12.2.0-14) 12.2.0, 64-bit |
+---------------------------------------------------------------------------------------------------------------------+


<br>

Vamos verificar que os arquivos de dados estão disponíveis para a cópia no _site_ do servidor:

In [5]:
%%sql
SELECT * FROM pg_ls_dir('/') T(Arquivo)
    WHERE Arquivo ~* '(.txt)|(tsv)';

arquivo
CountryInfo.tsv
allCountries.txt


<br>

## 1.2. Criar a tabela `GeoNames`

Vamos criar a tabela  `GeoNames`, usando o formato <font size=4 color='blue'>colunar</font>.<br>
Veja que se a tabela já existir (por exemplo, porque este _notebook_ já foi executado anteriormente), então apagamos e recriamos a tabela.

In [6]:
%%time
%%capture
%%sql
DROP TABLE IF EXISTS GeoNames CASCADE;
CREATE TABLE GeoNames(
    GeoNameId      INTEGER, -- PRIMARY KEY
    Name           TEXT,
    AsciiName      TEXT,
    AlternateNames TEXT,
    Lat            NUMERIC(13,5),
    Long           NUMERIC(13,5),
    FeatureClass   CHAR(1),
    FeatureCode    TEXT,
    Country    CHAR(2),
    CC2            TEXT,
    Admin1Code     TEXT,
    Admin2Code     TEXT,
    Admin3Code     TEXT,
    Admin4Code     TEXT,
    Population     BIGINT,
    Elevation      BIGINT,
    Dem            BIGINT,
    TimeZone       TEXT,
    Modification   DATE
    ) USING Columnar;

COMMENT ON TABLE GeoNames                      IS 'Geographical Points covering all countries and contains over eleven million placenames';
COMMENT ON COLUMN GeoNames.GeoNameId           IS ' integer id of record in GeoNames database';
COMMENT ON COLUMN GeoNames.Name                IS ' name of geographical point (utf8) varchar(200)';
COMMENT ON COLUMN GeoNames.AsciiName           IS ' name of geographical point in plain ascii characters, varchar(200)';
COMMENT ON COLUMN GeoNames.AlternateNames      IS ' alternatenames, comma separated, ascii names automatically transliterated, convenience attribute from alternatename table, varchar(10000)'; 
COMMENT ON COLUMN GeoNames.Lat                 IS ' latitude in decimal degrees (wgs84)';
COMMENT ON COLUMN GeoNames.Long                IS ' longitude in decimal degrees (wgs84)';
COMMENT ON COLUMN GeoNames.FeatureClass        IS 'A: country, state, region,... H: stream, lake, ... L: parks,area, ... P: city, village,... R: road, railroad  S: spot, building, farm ...  T: mountain,hill,rock,... U: undersea... V: forest,heath,...http://www.geonames.org/export/codes.html, char(1) feature classes';
COMMENT ON COLUMN GeoNames.Country             IS ' ISO-3166 2-letter country code, 2 characters';
COMMENT ON COLUMN GeoNames.CC2                 IS ' alternate country codes, comma separated, ISO-3166 2-letter country code, 200 characters';
COMMENT ON COLUMN GeoNames.Admin1Code          IS ' fipscode (subject to change to iso code), see exceptions below, see file admin1Codes.txt for display names of this code; varchar(20)';
COMMENT ON COLUMN GeoNames.Admin2Code          IS ' code for the second administrative division, a county in the US, see file admin2Codes.txt; varchar(80) ';
COMMENT ON COLUMN GeoNames.Admin4Code          IS ' code for third level administrative division, varchar(20)';
COMMENT ON COLUMN GeoNames.Admin2Code          IS ' code for fourth level administrative division, varchar(20)';
COMMENT ON COLUMN GeoNames.Population          IS ' bigint (8 byte int) ';
COMMENT ON COLUMN GeoNames.Elevation           IS ' in meters, integer';
COMMENT ON COLUMN GeoNames.Dem                 IS ' digital elevation model, srtm3 or gtopo30, average elevation of 3''x3'' (ca 90mx90m) or 30''x30'' (ca 900mx900m) area in meters, integer. srtm processed by cgiar/ciat.';
COMMENT ON COLUMN GeoNames.TimeZone            IS ' the iana timezone id (see file timeZone.txt) varchar(40)';
COMMENT ON COLUMN GeoNames.Modification        IS ' date of last modification in yyyy-MM-dd format';


CPU times: total: 31.2 ms
Wall time: 65.1 ms


Vamos garantir que o comando foi executado corretamente, verificando:
  * que a documentação da tabela foi carregada corretamente, e
  * qual é o método de acesso (MAF) usado para essa tabela.

In [7]:
%%time
%%sql
----
SELECT PG_AM.AMName, obj_description(PG_Class.OID) 
    FROM pg_Class JOIN PG_AM
       ON pg_Class.RelAM = PG_AM.OID
    WHERE RelName='geonames';


CPU times: total: 0 ns
Wall time: 13.9 ms


amname,obj_description
columnar,Geographical Points covering all countries and contains over eleven million placenames


<br>

A tabela agora deve ser carregada.
  * Mas aqui temos um probleminha: <font color="red">os dados originais às vezes têm erros de formatação que impedem a carga.</font>

Para evitar que o comando de carga aborte:
  * carregamos toda a tabela como se ela tivesse todas as linhas com um atributo só, de tipo texto,
  * e fazemos a interpretação de cada atributo posteriormente, internamente ao SGBD.\
    &emsp; Isso aumenta o tempo de carga, mas evita que o processo seja abortado num arquivo MUITO grande.

Portanto, criamos uma tabela onde cada tupla é um texto só, que concatena todos os atributos de cada tupla.<br>
Para essa tabela, é melhor fazer a armazenagem por linha.<br>
Como &nbsp;<img src="Figuras/HydraDB.png" width=100>&nbsp;pode tratar tabelas armazenadas tanto por linhas quanto por colunas, <br>
 &emsp; vamos garantir que a tabela use a armazenagem por linha, e já carregamos os dados brutos.<br>
   &emsp; <font color='magenta'>(Aprox 12 a 20 Seg.):</font>

In [8]:
%%time  
%%sql
---- Criar uma tabela que tem toda a tupla como um texto composto. -----------------------------------------
DROP TABLE IF EXISTS GeoNamesTEXT CASCADE;
CREATE TABLE GeoNamesTEXT(
    Tupla TEXT
    ) USING Heap;

---- -- Copiar os nomes textuais para GeoNamesTEXT  --------------------------------------------------------
COPY GeoNamesTEXT FROM '/allCountries.txt' 
    WITH (DELIMITER E'\b', NULL '', HEADER false);


CPU times: total: 0 ns
Wall time: 12.1 s


Agora copiamos "manualmente" cada atributo que atende ao formato especificado.<br>
Os valores que estiverem apresentando algum erro de formato serão descartados (ficando com `nulos`).<br>
<font color="red"> &emsp; Como devem ser muito poucos, não vamos nos importar com eles, <br>
     &emsp;  &emsp;  &emsp; mas numa situação mais real isso pode precisar ser tratado.</font>

Vamos definir o estilo de dados do tipo `DATA` para aquele usado no arquivo `AllCountries.txt` (Ano, mês, dia padrão ISO).<br>
Para não mudar permanentemente esse _setup_, rodamos o comando dentro de uma transação.

   &emsp; <font color='magenta'>(Essa é a carga real, e ela é demorada: ~4 a 9 minutos!):</font>

In [9]:
%%time
%%sql
START TRANSACTION;
SET DateStyle to YMD, ISO;
INSERT INTO GeoNames 
    SELECT (string_to_array(Tupla, E'\t'))[1]::INTEGER AS GeoNameId,
           (string_to_array(Tupla, E'\t'))[2]  AS Name,
           (string_to_array(Tupla, E'\t'))[3]  AS AsciiName,
           (string_to_array(Tupla, E'\t'))[4]  AS AlternateNames,
           NULLIF((string_to_array(Tupla, E'\t'))[5],'')::NUMERIC(13,5) AS Lat,
           NULLIF((string_to_array(Tupla, E'\t'))[6],'')::NUMERIC(13,5) AS Long,
           (string_to_array(Tupla, E'\t'))[7]  AS FeatureClass,
           (string_to_array(Tupla, E'\t'))[8]  AS FeatureCode,
           (string_to_array(Tupla, E'\t'))[9]  AS Country,
           (string_to_array(Tupla, E'\t'))[10] AS CC2,
           (string_to_array(Tupla, E'\t'))[11] AS Admin1Code,
           (string_to_array(Tupla, E'\t'))[12] AS Admin2Code,
           (string_to_array(Tupla, E'\t'))[13] AS Admin3Code,
           (string_to_array(Tupla, E'\t'))[14] AS Admin4Code,
           NULLIF((string_to_array(Tupla, E'\t'))[15],'')::BIGINT  AS Population,
           NULLIF((string_to_array(Tupla, E'\t'))[16],'')::INTEGER AS Elevation,
           NULLIF((string_to_array(Tupla, E'\t'))[17],'')::INTEGER AS DEM,
           (string_to_array(Tupla, E'\t'))[18] AS TimeZone,
           NULLIF((string_to_array(Tupla, E'\t'))[19],'')::DATE AS Modification
           FROM GeoNamesTEXT;

DROP TABLE GeoNamesTEXT;
COMMIT;

CPU times: total: 15.6 ms
Wall time: 2min 47s


<br>

## 1.3. Criar a tabela `Countries`

Queremos acrescentar um atributo à tabela `GeoNames` para indicar a qual <b>Continente</b> cada país pertence.

A tabela `Countries` contém dados sobre os países, incluindo em qual continente cada um está.

Vamos primeiro criar e carregar a tabela `CountryInfo`.

Os atributos `Neighbours` e `Languages` contêm respectivamente:
  * um atributo textual com uma lista dos países fronteiriços a cada pais
  * um atributo textual com uma lista das linguagens oficiais de cada pais.\
Então, vamos aproveitar para já transformar essas listas em atributos de tipo _array_ de textos.

In [10]:
%%time
%%sql
DROP TABLE IF EXISTS Countries CASCADE;
CREATE TABLE Countries(
    ISO  CHAR(2),
    ISO3 CHAR(3),
    ISO_Numeric CHAR(3),
    Fips CHAR(2),
    Country TEXT,
    Capital TEXT,
    Area FLOAT,
    Population  INTEGER,
    Continent CHAR(2),
    Tld TEXT,
    CurrencyCode CHAR(3),
    CurrencyName TEXT,
    Phone TEXT,
    PCode_Format TEXT,
    PCode_Regex  TEXT,
    Languages    TEXT,
    geonameid INTEGER,
    neighbours TEXT,
    EquivalentFipsCode TEXT
    );

-- Copy CountryInfo to Countries ----------------------------------------------------------
COPY Countries 
    FROM '/CountryInfo.tsv' 
    WITH (DELIMITER E'\t', NULL '', HEADER true);

-- Change column type of Neighbours and Languages to Text array
ALTER TABLE Countries 
    ALTER COLUMN Neighbours SET DATA TYPE TEXT[] USING  String_To_Array(Neighbours, ',');
ALTER TABLE Countries 
    ALTER COLUMN Languages SET DATA TYPE TEXT[] USING  String_To_Array(Languages, ',');
    

CPU times: total: 0 ns
Wall time: 54.8 ms


<br>

Vamos ver algumas tuplas dessa tabela:


In [11]:
%%sql
SELECT * 
    FROM Countries
    WHERE Country ~*'^BR'

iso,iso3,iso_numeric,fips,country,capital,area,population,continent,tld,currencycode,currencyname,phone,pcode_format,pcode_regex,languages,geonameid,neighbours,equivalentfipscode
BN,BRN,96,BX,Brunei,Bandar Seri Begawan,5770.0,428962,AS,.bn,BND,Dollar,673,@@####,^([A-Z]{2}d{4})$,"['ms-BN', 'en-BN']",1820814,['MY'],
BR,BRA,76,BR,Brazil,Brasilia,8511965.0,209469333,SA,.br,BRL,Real,55,#####-###,^d{5}-d{3}$,"['pt-BR', 'es', 'en', 'fr']",3469034,"['SR', 'PE', 'BO', 'UY', 'GY', 'PY', 'GF', 'VE', 'CO', 'AR']",
IO,IOT,86,IO,British Indian Ocean Territory,Diego Garcia,60.0,4000,AS,.io,USD,Dollar,246,,,['en-IO'],1282588,,
VG,VGB,92,VI,British Virgin Islands,Road Town,153.0,29802,,.vg,USD,Dollar,+1-284,,,['en-VG'],3577718,,


<br>

Agora podemos acrescentar o continente em cada tupla de `Geoname`:<br>
   &emsp; <font color='magenta'>(Aprox 30 a 40 Seg.):</font>

In [12]:
%%time
%%sql
ALTER TABLE GeoNames 
    ADD COLUMN Continent CHAR(2);
UPDATE GeoNames G
    SET Continent = C.Continent
    FROM Countries C
    WHERE G.Country = C.ISO;

CPU times: total: 0 ns
Wall time: 28.3 s


## 1.4. Duplicar a tabela `GeoNames` com armazenagem em Colunas e em Linhas

Para efeito de comparação:
 * Vamos copiar a tabela `GeoNames_L` em outra idêntica, agora usando o formato <font size=4 color='blue'>por linhas</font>.<br>
 * Vamos também limpar (`VACUUM FULL`) e resetar as estatísticas (`VACUUM ANALYZE`) de ambas as tabelas.

<div class="alert alert-block alert-info">
    &#x26A0; Como os comandos para apagar e recriar uma base de dados devem ser executados numa transação única, vamos:<br>
    &emsp; &bullet; configurar o _Notebook_ para operar sem `Auto Commit`; <br>
    &emsp; &bullet; e reabilitá-lo logo a seguir, para voltar à operação normal do _Notebook_.
    </div>

   &emsp; <font color='magenta'>(Aprox 40 a 60 Seg.):</font>

In [13]:
## Desabilitar o Autocommit:
%config SqlMagic.autocommit=False

In [14]:
%%time
%%sql
COMMIT;
VACUUM FULL GeoNames;
DROP TABLE IF EXISTS GeoNames_L;
CREATE TABLE GeoNames_L (LIKE GeoNames) USING Heap;
INSERT INTO  GeoNames_L SELECT * FROM GeoNames;
VACUUM FULL GeoNames_L;
VACUUM ANALYZE GeoNames;
VACUUM ANALYZE GeoNames_L;
COMMIT;

CPU times: total: 0 ns
Wall time: 55.8 s


In [15]:
## Reabilitar o Autocommit:
%config SqlMagic.autocommit=True

<br>

Vamos verificar o espaço necessário para armazenar ambas as tabelas.

In [16]:
%%sql
SELECT C.RelName "Tabela", PG_AM.AMName "AM", C.RelPages "N# Pags", Pg_Size_Pretty(8000*C.RelPages::BigInt) "N# Pags"
    FROM pg_Class C JOIN PG_AM
       ON C.RelAM = PG_AM.OID
     WHERE C.RelName ~* 'geonames' ;

Tabela,AM,N# Pags,N# Pags_1
geonames,columnar,57514,439 MB
geonames_l,heap,263056,2007 MB


Observe o número de páginas das tabelas:
  * `GeoNames` &ndash; &emsp; que guarda os dados de maneira colunar,
  * `GeoNames_L` &ndash; que guarda os dados de maneira linear.

Veja que, <big><font color="green">nesse exemplo, a melhor capacidade de compressão da armazenagem colunar<br>
&emsp; &emsp; &emsp; permitiu comprimir os dados <u>quase 5 vezes!</u></font></big>

<br><br>


<br>
<img src="Figuras/Colunar-DuasPartesH-2-Abaixo.jpg" width=900/>
<br>

<br><br>

# 2. Executar consultas sobre a tabela GeoNames

Com a base criada, podemos executar consultas.

Nosso objetivo aqui é <big>comparar o tempo de execução de um mesmo comando sobre as tabelas armazenadas por linhas e por colunas.</big>

Uma medida imediata é: \
<i><b>Q1:</b> Qual é o tempo que leva para executar a contagem de quantas tuplas a tabela tem?</i>

In [17]:
T0 = time.time()
%sql SELECT Count(*) FROM GeoNames;

TCntTudo  = time.time()
%sql SELECT Count(*) FROM GeoNames_L;

TCntTudo_L = time.time()
print('Tempo de contagem em Geonames:  ',TCntTudo - T0 ,'ms')
print('Tempo de contagem em Geonames:_L',TCntTudo_L - TCntTudo,'ms')
print('  Ganho:', (TCntTudo_L - TCntTudo) / (TCntTudo - T0))

Tempo de contagem em Geonames:   0.11167573928833008 ms
Tempo de contagem em Geonames:_L 0.27834630012512207 ms
  Ganho: 2.492450928902951


<br>

<i><b>Q1:</b> Qual é o tempo que leva para executar uma operação de agrupamento?</i>\
&emsp; &emsp; (Neste exemplo, agrupando por países (`Country`)

In [18]:
T0 = time.time()
%sql SELECT Country, Count(*) FROM GeoNames GROUP BY Country;

TCntPCountry  = time.time()
%sql SELECT Country, Count(*) FROM GeoNames_L GROUP BY Country;

TCntPCountry_L = time.time()
print('Tempo de contagem em Geonames:  ',TCntPCountry-T0,'ms')
print('Tempo de contagem em Geonames:_L',TCntPCountry_L-TCntPCountry,'ms')
print('  Ganho:', (TCntPCountry_L - TCntPCountry) / (TCntPCountry - T0))

Tempo de contagem em Geonames:   0.23855113983154297 ms
Tempo de contagem em Geonames:_L 0.5693042278289795 ms
  Ganho: 2.3865081014955685


<br>

# 3. Trabalhar com tabelas particionadas

Vamos particionar a tabela `GeoNames` por continentes.

Primeiro, vamos ver quantas tuplas existem por continente:

In [19]:
%%sql
SELECT Continent, To_Char(Count(*), 'FM99G999G999')
    FROM GeoNames
    GROUP BY Continent;

continent,to_char
AF,1258817
AN,21131
AS,4193676
EU,2623256
,3273671
OC,367058
SA,561655
,6518


<br>

Verificamos que existem sete continentes, e algumas tuplas que não estão em continente algum \
&emsp; &emsp; (provavelmente correspondem a pontos de interesse no oceano).

Além disso, existe um desbalanceamento bem forte: compare `Asia: AS` com `Oceania: OC` e com `Antarctica: AN`!

Vamos ver como essa consulta foi executada:

In [20]:
%sql Plano <<                                \
EXPLAIN ANALYZE  SELECT Continent, Count(*)  \
    FROM GeoNames                            \
    GROUP BY Continent;

PrintPlan(Plano)


Plano:+----------------------------------------------------------------------------------------------------
    1 | Finalize GroupAggregate  (cost=10199.45..10205.78 rows=7 width=11) (actual time=294.367..296.440 rows=8 loops=1)
    2 |   Group Key: continent
    3 |   ->  Gather Merge  (cost=10199.45..10205.47 rows=49 width=11) (actual time=294.356..296.429 rows=51 loops=1)
    4 |         Workers Planned: 7
    5 |         Workers Launched: 7
    6 |         ->  Sort  (cost=9199.33..9199.35 rows=7 width=11) (actual time=266.628..266.629 rows=6 loops=8)
    7 |               Sort Key: continent
    8 |               Sort Method: quicksort  Memory: 25kB
    9 |               Worker 0:  Sort Method: quicksort  Memory: 25kB
   10 |               Worker 1:  Sort Method: quicksort  Memory: 25kB
   11 |               Worker 2:  Sort Method: quicksort  Memory: 25kB
   12 |               Worker 3:  Sort Method: quicksort  Memory: 25kB
   13 |               Worker 4:  Sort Method: quicksort  

Verificamos que a consulta explorou o paralelismo _multi-thread_ do processador!

Vamos verificar quantos processadores (<i>threads</i>) estão disponíveis:\
&emsp; Lembrar que ao menos um sempre fica reservado para controle. \
&emsp; &emsp; (O que pode ser definido pelo parâmetro `parallel processes per maintenance operation`).

In [21]:
%%sql
SHOW max_worker_processes;

max_worker_processes
8


Isso significa que podemos melhorar a execução das consultas se organizarmos melhor os dados:
  * <font color="red">As tuplas dos diversos continentes estão espalhadas por toda a tabela.</font>
  * <font color="green">Podemos particionar a tabela, de maneira que cada `Country` esteja em uma partição!</font>

Vamos então <b>criar uma terceira tabela `GeoNames`</b> com os mesmos dados (!):
  * Chamada `GeoNames_C`,
  * usando o formato colunar,
  * mas agora particionados por `Continent`.\
  * Além disso, vamos "balancear" um pouco as partições,\
    &emsp;  colocando as tuplas de continentes pouco representados juntas: Antárctica, Oceania e nulos.

In [22]:
%%time
%%sql
DROP TABLE IF EXISTS GeoNames_C CASCADE;
CREATE TABLE GeoNames_C (LIKE GeoNames) USING Columnar;
CREATE TABLE GeoNames_C_AF (CHECK ( Continent='AF')) INHERITS (GeoNames_C);
CREATE TABLE GeoNames_C_AS (CHECK ( Continent='AS')) INHERITS (GeoNames_C);
CREATE TABLE GeoNames_C_EU (CHECK ( Continent='EU')) INHERITS (GeoNames_C);
CREATE TABLE GeoNames_C_NA (CHECK ( Continent='NA')) INHERITS (GeoNames_C);
CREATE TABLE GeoNames_C_SA (CHECK ( Continent='SA')) INHERITS (GeoNames_C);
CREATE TABLE GeoNames_C_Other (CHECK ( Continent IN ('AN', 'OC') OR Continent IS NULL)) INHERITS (GeoNames_C);

CREATE RULE GeoNamesRule_AF AS ON INSERT TO GeoNames_C WHERE Continent='AF' 
    DO INSTEAD INSERT INTO GeoNames_C_AF VALUES (NEW.*);
CREATE RULE GeoNamesRule_AS AS ON INSERT TO GeoNames_C WHERE Continent='AS' 
    DO INSTEAD INSERT INTO GeoNames_C_AS VALUES (NEW.*);
CREATE RULE GeoNamesRule_EU AS ON INSERT TO GeoNames_C WHERE Continent='EU' 
    DO INSTEAD INSERT INTO GeoNames_C_EU VALUES (NEW.*);
CREATE RULE GeoNamesRule_NA AS ON INSERT TO GeoNames_C WHERE Continent='NA' 
    DO INSTEAD INSERT INTO GeoNames_C_NA VALUES (NEW.*);
CREATE RULE GeoNamesRule_SA AS ON INSERT TO GeoNames_C WHERE Continent='SA' 
    DO INSTEAD INSERT INTO GeoNames_C_SA VALUES (NEW.*);
CREATE RULE GeoNamesRule_Other AS ON INSERT TO GeoNames_C WHERE Continent IN ('AN', 'OC') OR Continent IS NULL
    DO INSTEAD INSERT INTO GeoNames_C_Other VALUES (NEW.*);

CPU times: total: 31.2 ms
Wall time: 117 ms


<br>

Agora podemos fazer a carga da tabela.
Veja que as operações podem ser feitas diretamente na tabela inteira: `GeoNaMes_C`,\
&emsp;   * <font color="teal">porque  as `RULES` definidas orientam onde cada tupla é colocada.</font>

   &emsp; <font color='magenta'>(Aprox 40 a 60 Seg.):</font>

In [23]:
%%time
%%sql
INSERT INTO  GeoNames_C SELECT * FROM GeoNames;

CPU times: total: 0 ns
Wall time: 38.2 s


<br>

Agora vamos levantar as estatísticas da tabela para ajudar na otimização das consultas.\
Mas antes, vamos limpar o espaço das tabelas e levantar as estatísticas dos dados armazenados.

In [24]:
## Desabilitar o Autocommit:
%config SqlMagic.autocommit=False

In [25]:
%%time
%%sql
COMMIT;
VACUUM FULL GeoNames_C;
VACUUM ANALYZE GeoNames_C;

CPU times: total: 0 ns
Wall time: 2.92 s


In [26]:
## Reabilitar o Autocommit:
%config SqlMagic.autocommit=True

In [27]:
%%time
%%sql
SELECT C.RelName "Tabela", PG_AM.AMName "AM", C.RelPages "N# Pags", Pg_Size_Pretty(8000*C.RelPages::BigInt) "N# Pags"
    FROM pg_Class C JOIN PG_AM
       ON C.RelAM = PG_AM.OID
    WHERE C.RelName ~* 'geonames'
    ORDER BY 1;

CPU times: total: 0 ns
Wall time: 6.63 ms


Tabela,AM,N# Pags,N# Pags_1
geonames,columnar,57514,439 MB
geonames_c,columnar,2,16 kB
geonames_c_af,columnar,5242,40 MB
geonames_c_as,columnar,20765,158 MB
geonames_c_eu,columnar,12950,99 MB
geonames_c_na,columnar,14338,109 MB
geonames_c_other,columnar,1702,13 MB
geonames_c_sa,columnar,2453,19 MB
geonames_l,heap,263056,2007 MB


<br>

Vamos refazer a contagem das quantidades de tuplas por continente, agora na tabela particionada.

Qual o plano de consulta gerado?

In [28]:
%sql Plano <<                                \
EXPLAIN ANALYZE  SELECT Continent, Count(*)  \
    FROM GeoNames_C                          \
    GROUP BY Continent;

PrintPlan(Plano)


Plano:+----------------------------------------------------------------------------------------------------
    1 | Finalize GroupAggregate  (cost=52728.23..52730.00 rows=7 width=11) (actual time=687.817..690.816 rows=8 loops=1)
    2 |   Group Key: geonames_c.continent
    3 |   ->  Gather Merge  (cost=52728.23..52729.86 rows=14 width=11) (actual time=687.811..690.808 rows=9 loops=1)
    4 |         Workers Planned: 2
    5 |         Workers Launched: 2
    6 |         ->  Sort  (cost=51728.20..51728.22 rows=7 width=11) (actual time=666.336..666.339 rows=3 loops=3)
    7 |               Sort Key: geonames_c.continent
    8 |               Sort Method: quicksort  Memory: 25kB
    9 |               Worker 0:  Sort Method: quicksort  Memory: 25kB
   10 |               Worker 1:  Sort Method: quicksort  Memory: 25kB
   11 |               ->  Partial HashAggregate  (cost=51728.04..51728.11 rows=7 width=11) (actual time=666.314..666.318 rows=3 loops=3)
   12 |                     Group Key

<br>

Qual o ganho em tempo de execução, tomando como base o tempo de execução de contagem na tabela armazenada por linha?

In [29]:
T0 = time.time()
%sql SELECT Country, Count(*) FROM GeoNames GROUP BY Country;
TCntPCountry  = time.time()

%sql SELECT Country, Count(*) FROM GeoNames_L GROUP BY Country;
TCntPCountry_L  = time.time()

%sql SELECT Country, Count(*) FROM GeoNames_C GROUP BY Country;
TCntPCountry_C = time.time()

print('Tempo de contagem em Geonames:  ',TCntPCountry-T0,'ms')
print('Tempo de contagem em Geonames:_L',TCntPCountry_L-TCntPCountry,'ms')
print('Tempo de contagem em Geonames:_C',TCntPCountry_C-TCntPCountry_L,'ms')

print('  Ganho L para C:', (TCntPCountry - T0) / (TCntPCountry_L - TCntPCountry))
print('  Ganho L para C particionado:', (TCntPCountry - T0) / (TCntPCountry_C - TCntPCountry_L))

Tempo de contagem em Geonames:   0.24018049240112305 ms
Tempo de contagem em Geonames:_L 0.5421085357666016 ms
Tempo de contagem em Geonames:_C 0.3542909622192383 ms
  Ganho L para C: 0.44304871913053573
  Ganho L para C particionado: 0.6779187673788226


<br><br>

#4. Finalização

pode ser interessante remover as tabelas particionadas `GeoNames_C`, o que pode ser feito com o comando:<br>
   &emsp; <font color='red'>(que deve ser re-habilitado)</font>

<br><br>
<font size="5" face="verdana" color="green">
    <b>Carga inicial das tabelas da Base de Dados: <br>&emsp; &emsp; &emsp; &emsp; <u>GeoNames</u></b>
    </font><br>

<font size="10" face="verdana" color="red">
    <img src="Figuras/ICMC_Logo.jpg" alt="ICMC" width=70>&emsp;&emsp;&nbsp;
    <b>FIM</b>&nbsp;&nbsp;&nbsp;&nbsp;
    <img src="Figuras/Gbdi2005.jpg" alt="GBdI" width=400>
    </font>