<div style="line-height:18px;">
    <img src="Figuras/ICMC_Logo.jpg" alt="ICMC" width=100>&emsp;&emsp;&emsp;
    <img src="Figuras/Gbdi2005.jpg" alt="GBdI" width=550><br>
    <font color="black" size="5" face="Georgia">&emsp; <i><u>Prof. Dr. Caetano Traina Júnior</u></font><br>
    <font color="black" size="4" face="Georgia">&emsp; &ensp;<i>ICMC-USP São Carlos</font>
    <div align="right"><font size="1" face="arial" color="gray"> Gerando Embeddings: Tot >12 min, 39 cel</font></div>
    <div align="right"><font size="1" face="arial" color="gray"> Lendo Embeddings: Tot 32 s, 40 cel</font></div>
    </div><br>

<font size="6" face="verdana" color="green"><b>Índices aproximados em SQL</b></font>
        
<br>

<font size=5>Motivação: Executar operações de busca por similaridade usando índices aproximados</font>

**Objetivos:** <ol>
    <li>Entender o conceito de índices aproximados e seu uso na Linguagem SQL.\
    <li>Exemplos baseados nos índices disponíveis na extensão `PGVector`em <img src="Figuras/Postgres.png" width=100/>.\
    <li>Também avaliamos como agilizar consultas analíticas usando índices aproximados em um servidor <img src="Figuras/Postgres.png" width=100/><img src="Figuras/HydraDB.png" width=100>.
    <li>Preparar uma base de dados contendo "<i>`embedings`</i>" de objetos extraídos por modelos de aprendizado baseados em LLM,<br> (Receitas de pratos com 32.7K tuplas),<br>
        para consultas em SQL usando uma <b>Base de Dados modificada</b> a partir do <i>dataset</i> <a href="https://huggingface.co/datasets/arya123321/recipes"><u><b>Recipes</b> (obtido aqui)</u></a>.
</ol>
    <br><br>

----

<br>


Como estaremos usando uma base de dados rodando dockerizada, precisamos passar os arquivos de dados para a carga inicial para o ambiente do _container_ `hydra_pg15`:

In [7]:
!pip install matplotlib pandas sqlalchemy[postgres] ipython-sql ipywidgets psycopg2-binary

Collecting psycopg2-binary
  Downloading psycopg2_binary-2.9.11-cp313-cp313-manylinux2014_x86_64.manylinux_2_17_x86_64.whl.metadata (4.9 kB)
Downloading psycopg2_binary-2.9.11-cp313-cp313-manylinux2014_x86_64.manylinux_2_17_x86_64.whl (4.2 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m4.2/4.2 MB[0m [31m50.7 MB/s[0m  [33m0:00:00[0m
[?25hInstalling collected packages: psycopg2-binary
Successfully installed psycopg2-binary-2.9.11


In [18]:
############## Importar os módulos necessários para o Notebook:
import matplotlib.pyplot as plt
import pandas.io.sql as psql
import timeit
from sqlalchemy import create_engine

############## Conectar com um servidor SQL na Base postgres ###################### --> Postgres.postgres
%load_ext sql
%config SqlMagic.style = '_DEPRECATED_DEFAULT'

# Connection format: %sql dialect+driver://username:password@host:port/database
engine = create_engine('postgresql://postgres:postgres@pgvector:5432/postgres')
%sql postgresql://postgres:postgres@pgvector:5432/postgres

%sql DB << SELECT Version();
print(DB)

The sql extension is already loaded. To reload it, use:
  %reload_ext sql
 * postgresql://postgres:***@pgvector:5432/postgres
1 rows affected.
Returning data to local variable DB
+--------------------------------------------------------------------------------------------------------------------+
|                                                      version                                                       |
+--------------------------------------------------------------------------------------------------------------------+
| PostgreSQL 17.6 (Debian 17.6-1.pgdg13+1) on x86_64-pc-linux-gnu, compiled by gcc (Debian 14.2.0-19) 14.2.0, 64-bit |
+--------------------------------------------------------------------------------------------------------------------+


<br>

----

<br>

# 1. Conectar com a Base de Dados

Para começar, é necessário estabelecer uma conexão com um servidor de base de dados:
 * Quando se usa o módulo `SQLalchemy`, o driver `psycopg2` (ou 3) é usado internamente para conectar com uma base de dados.
 * Vamos carregar os dados numa base de dados padrão de um servidor <img src="Figuras/HydraDB.png" width=100>: a base de dados `postgres` <br>

In [19]:
%%sql
SELECT * FROM pg_ls_dir('/datasets/Recipes/') T(Arquivo)
    WHERE Arquivo ~* '\.tsv';

 * postgresql://postgres:***@pgvector:5432/postgres
5 rows affected.


arquivo
ShIngredients.tsv
ShEmbeddings.tsv
ShRecipe_ingredients.tsv
ShRecipes.tsv
ShNutrients.tsv


Vamos:
  * ativar a extensão `vector` se ela estiver desativada,
  * Tornar `Heap` o método de armazenagem padrão (`Hydra` usa `columnar` por padrão, mas aqui queremos que a tabela esteja armazenada por `tuplas`),
  * E vamos constatar que os arquivos para a carga de dados estão disponíveis no diretório dockerizado.

In [20]:
%%sql
-- Ativar 'vector' se estiver desativado
CREATE EXTENSION IF NOT EXISTS vector WITH SCHEMA public;

-- Tornar 'Heap' o método de armazenagem padrão
SET Default_Table_Access_Method = Heap;

-- Verificar os arquivos 'csv' disponíveis no diretório do SO:
SELECT * FROM pg_ls_dir('/datasets/Recipes') T(Arquivo)
    WHERE Arquivo ~* 'tsv';

 * postgresql://postgres:***@pgvector:5432/postgres
Done.
Done.
5 rows affected.


arquivo
ShIngredients.tsv
ShEmbeddings.tsv
ShRecipe_ingredients.tsv
ShRecipes.tsv
ShNutrients.tsv


Vamos verificar os métodos de acesso que estão disponíveis.\
Eles estão descritos no Dicionário de dados do Meta-esquema Postgres na tabela `PG_AM`.\
O Atributo `AMType` indica se o `AM`pode ser aplicado a um índice (`i`) ou a uma tabela  (`t`).

Como podemos ver, estão disponíveis os índices comuns como `BTree` e `HASH`,\
&emsp; outros índices especiais do Postgres, e\
&emsp; os índices para consultas por similaridade aproximadas `IVFflat` e `HNSW`.

In [21]:
%%sql
SELECT * FROM PG_AM
    ORDER BY AMType, AMName

 * postgresql://postgres:***@pgvector:5432/postgres
9 rows affected.


oid,amname,amhandler,amtype
3580,brin,brinhandler,i
403,btree,bthandler,i
2742,gin,ginhandler,i
783,gist,gisthandler,i
405,hash,hashhandler,i
16449,hnsw,hnswhandler,i
16447,ivfflat,ivfflathandler,i
4000,spgist,spghandler,i
2,heap,heap_tableam_handler,t


<br>

# 2. Carregar a base de dados

Os dados qaue iremos usar para o exemplo correspondem a uma base de dados com: 
  * duas <b>Tabelas de Entidades</b>
    * `Recipes` e
    * `Ingredients` e
  * uma <b>Tabela de relacionamentos
    * `Recipe_ingredients`</b>.

A tabela `Recipes` contem um atributo `Embedding` com o texto com cada receita, onde aparecem os ingredientes usados.\
Para este exemplo, iremos extrair desse atributo os vetores de `embeddings`.

<br>

Vamos criar e carregar as tabelas:


In [22]:
%%sql
-----------------------------------------------------------------------
DROP TABLE IF EXISTS Ingredients CASCADE;
CREATE TABLE public.Ingredients (
    ID INTEGER NOT NULL,
    Title TEXT
);

DROP TABLE IF EXISTS Recipe_Ingredients CASCADE;
CREATE TABLE public.Recipe_Ingredients (
    ID integer NOT NULL,
    Recipe_ID INTEGER,
    Ingredient_ID INTEGER,
    Quantity TEXT,
    Unit_key INTEGER
);

DROP TABLE IF EXISTS Recipes CASCADE;
CREATE TABLE public.Recipes (
    ID integer NOT NULL,
    Title TEXT,
    Description TEXT,
    Category TEXT,
    Rating NUMERIC(4,2),
    PrepTime TEXT
);


--==============================================================================
-- LOAD Tables
COPY Ingredients (ID, Title)
	FROM '/datasets/Recipes/ShIngredients.tsv'
    	WITH (DELIMITER E'\t', NULL E'', QUOTE E'\001', ENCODING 'UTF8', HEADER TRUE, FORMAT CSV);

COPY Recipe_Ingredients (ID, Recipe_Id, Ingredient_Id, Quantity, Unit_Key)
	FROM '/datasets/Recipes/ShRecipe_ingredients.tsv'
    	WITH (DELIMITER E'\t', NULL E'', QUOTE E'\001', ENCODING 'UTF8', HEADER TRUE, FORMAT CSV);

COPY Recipes (ID, Title, Description, Category, Rating, PrepTime)
	FROM '/datasets/Recipes/ShRecipes.tsv'
    	WITH (DELIMITER E'\t', NULL E'', QUOTE E'\001', ENCODING 'UTF8', HEADER TRUE, FORMAT CSV);

--==================================================================================================
-- Definir as constraints
ALTER TABLE Ingredients ADD CONSTRAINT Ingredients_PK PRIMARY KEY(ID);

ALTER TABLE Recipes ADD CONSTRAINT Recipes_PK PRIMARY KEY(ID);
ALTER TABLE Recipes ADD CONSTRAINT Recipes_TitleUnique UNIQUE (Title);

ALTER TABLE Recipe_Ingredients ADD CONSTRAINT RecIng_PK PRIMARY KEY(ID);
ALTER TABLE Recipe_Ingredients ADD CONSTRAINT RecIng_FK_RecID FOREIGN KEY(Recipe_Id) REFERENCES Recipe_Ingredients(Id);
ALTER TABLE Recipe_Ingredients ADD CONSTRAINT RecIng_FK_IngID FOREIGN KEY(Ingredient_Id) REFERENCES Ingredients(Id);


 * postgresql://postgres:***@pgvector:5432/postgres
Done.
Done.
Done.
Done.
Done.
Done.
62306 rows affected.
308448 rows affected.
32710 rows affected.
Done.
Done.
Done.
Done.
Done.
Done.


[]

<br>
Vamos verificar quantas tuplas foram carregadas em cada tabela:

In [23]:
%%sql
SELECT 'Ingredients', Count(*)        FROM ingredients UNION
SELECT 'Recipes', Count(*)            FROM recipes     UNION
SELECT 'Recipe_Ingredients', Count(*) FROM recipe_ingredients;

 * postgresql://postgres:***@pgvector:5432/postgres
3 rows affected.


?column?,count
Ingredients,62306
Recipe_Ingredients,308448
Recipes,32710


<br>

Com as tabelas carregadas, podemos apagar os arquivos originais do _container_:

<br><br>

# 3. Executar consultas `Tradicionais`

Com a base criada, podemos executar as consultas usuais.

Vamos ver rapidamente o que tem nas tabelas:

In [25]:
%sql ingr << SELECT * FROM Ingredients LIMIT 5;
%sql rec  << SELECT ID, Title, \
                    LEFT(Description, 150)||  CASE WHEN LENGTH(Description)>=150 THEN ' ....' ELSE '' END Description, \
                    Category FROM Recipes LIMIT 5;
%sql rin  << SELECT * FROM Recipe_Ingredients LIMIT 5;

print ('Ingredients:\n', ingr, sep='')
print ('Recipes:\n', rec, sep='')
print ('Recipe_Ingredients:\n', rin, sep='')


 * postgresql://postgres:***@pgvector:5432/postgres
5 rows affected.
Returning data to local variable ingr
 * postgresql://postgres:***@pgvector:5432/postgres
5 rows affected.
Returning data to local variable rec
 * postgresql://postgres:***@pgvector:5432/postgres
5 rows affected.
Returning data to local variable rin
Ingredients:
+----+---------------------------------------------------+
| id |                       title                       |
+----+---------------------------------------------------+
| 1  |             sprigs fresh sage, chopped            |
| 2  |     (14.5 ounce) can Swanson(R) Chicken Broth     |
| 3  | collard green leaf, rib removed, or more to taste |
| 4  |    tablespoons chilled butter, cut into pieces    |
| 5  |            tablespoons adobo seasoning            |
+----+---------------------------------------------------+
Recipes:
+----+----------------------------+---------------------------------------------------------------------------------------------

Veja que podem ser usadas normalmente as operações de comparação tradicionais, baseadas em:
  * <b>R</b>elações de <b>I</b>dentidade  (<b>RI</b> &mdash; $\theta \in \{=, \ne\}$)
  * <b>R</b>elações de <b>O</b>rdem       (<b>RO</b> &mdash; $\theta \in \{<, \le, >, \ge\}$)
  * <b>R</b>elações de <b>C</b>ontinência (<b>RC</b> &mdash; $\theta \in \{\supset,\supseteq, \subset, \subseteq\}$)

Por exemplo, podemos mostrar a tabela de relacionamentos `Recipe_Ingredients` pelos nomes dos ingredientes, receitas, etc,<br>
&emsp; &emsp; comparando as chaves primárias e estrangeiras por identidade (<b>$\theta \stackrel{\mbox{\small RI}}{\rightarrow}$ '='</b>)

In [26]:
%sql ring << \
SELECT RI.ID, R.Title, I.Title, RI.Quantity, RI.Unit_key                       \
    FROM Recipe_Ingredients RI JOIN Ingredients I ON RI.Ingredient_ID = I.ID   \
                               JOIN Recipes R     ON RI.Recipe_ID     = R.ID   \
    ORDER BY Random()                                                           \
    LIMIT 5;

print ('Recipe_Ingredients:\n', ring, sep='')

 * postgresql://postgres:***@pgvector:5432/postgres
5 rows affected.
Returning data to local variable ring
Recipe_Ingredients:
+--------+--------------------------+-------------------------------+----------+----------+
|   id   |          title           |            title_1            | quantity | unit_key |
+--------+--------------------------+-------------------------------+----------+----------+
| 22052  |      Pie Iron Tacos      |      (8 ounce) jar salsa      |    1     |   None   |
| 53658  |      Calico Mussels      |     cloves garlic, minced     |    3     |   None   |
| 17118  |    Beth's Baked Fish     | (4 ounce) fillets cod fillets |    2     |   None   |
| 260611 | Honey Mustard-Soy Salmon |    teaspoon dried rosemary    |    1     |   None   |
| 54746  |     Cabbage Lasagna      |         cooking spray         |          |   None   |
+--------+--------------------------+-------------------------------+----------+----------+


Também podemos comparar por <b>R</b>elações de <b>C</b>ontinência.<br>
Por exemplo, podemos perguntar:<br>
<i><b>Q1</b> &ndash; Qual receita leva entre seus ingredientes _bife fatiado_ (_beef, chopped_)?</i>

Veja que estamos usando o operador de comparação por <b>C</b>ontinência: (<b>$\theta \stackrel{\mbox{\small RC}}{\rightarrow}$ '$\supseteq$'</b>)

In [27]:
%%sql
SELECT R.Title, I.Title
    FROM Recipes R JOIN Recipe_Ingredients RI ON R.Id = RI.Recipe_Id
                   JOIN Ingredients I ON RI.Ingredient_Id = I.Id
    WHERE I.Title ~* '(?=.*beef)(?=.*chopped)';

 * postgresql://postgres:***@pgvector:5432/postgres
30 rows affected.


title,title_1
Mock Sliders,"(12 ounce) can corned beef, chopped"
Hot Chipped Beef Dip,"(2 ounce) package dried beef, chopped"
Magic Pickle Dip,"(2 ounce) package thinly sliced dried beef, chopped"
Bagel Dip,"(2 ounce) packages dried beef, chopped"
Chipped Beef Cheese Ball,"(2.5 ounce) package chipped beef, chopped"
Holiday Cheese Ball,"(2.5 ounce) package smoked sliced beef, chopped"
Traditional Christmas Cheese Ball,"(2.5 ounce) package thinly sliced smoked beef, chopped"
Mississippi Six,"(4 ounce) jar dried beef, chopped"
Cream Cheese and Chopped Dried Beef Ball,"(4 ounce) jar dried beef, chopped"
Dilly Rye Boat Dip,"(4 ounce) jar dried chipped beef, chopped"


<br>

# 4. Executar consultas por similaridade

Existem dois comparadores principais por <b>R</b>elações de <b>S</b>imilaridade &ensp; (<b>RS</b> &mdash; $\theta \in \{r_q, kNN_q\}$):
  * $r_q$: consultas por abrangência (<i>similarity range queries</i>),
  * $kNN_q$: consultas aos $k$-vizinhos mais próximos (<i>k-nearest neighbors</i>).
<br>

Para executar consultas por similaridade, deve ser definida uma <font size=4 color='green'>Função de Distância</font> sobre o atributo a ser comparado.<br>
Uma função de distância $f(a_1, a_2)$ compara dois valores $a_1$ e $a_2$ de um mesmo domínio, e:<ul>
  <li> Retorna um número Real não-negativo atendendo as propriedades:<ul>
      <li> <b>Não negatividade:</b>  $f(a_1,a_2)\ge 0$
      <li> <b>Identidade dos indiscerníveis:</b> Somente é zero se $a_1=a_2$, e
      <li> <b>Simetria:</b>  $f(a_1,a_2)=f(a_2,a_1)$
      </ul>
  <li> Se além dessas propriedades, também for atendido:<ul>
      <li> <b>Desigualdade triangular:</b>  $f(a_1,a_2)\le f(a_1,a_3)+f(a_3,a_2)$ para qualquer $a_3$ do mesmo domínio,<br>
      então a função é chamada de métrica.<br>
       &emsp; <font size="4">&#128073;&#127997;</font> Essa propriedade é muito interessante para efetuar "podas" no espaço de busca<br>
       &emsp; &emsp; &ensp; indexado por uma Estrutura de Indexação Métrica, e pode agilizar a execução das consultas.</ul>
  <li> O módulo `PGVector` disponibiliza algumas funções de distância.<br>
       Elas pode ser chamadas usando um operador de comparação específico para cada uma,<br>
       ou podem ser usadas para a criação de índices, usando um adaptador (que segue o formato `<TDado>_<FuncDist>_OPS`):<br>
      As seguintes função estão disponíveis a partir de sua versão `V0.7`:<ul>
      <li> <-> - Distância Euclidiana (ou Norma $L_2$) (Métrica): `<TDado>_L2_OPS`
      <li> <+> - Distância Manhattan (ou Norma $L_1$ (Métrica): `<TDado>_L1_OPS`
      <li> <=> - Distância do Cosseno (não métrica): `<TDado>_Cosine_OPS`
      <li> <#> - (negative) Produto interno (_inner product_ <font color="red">é tratada como se fosse, mas não é uma distância de fato,<br> 
          pois pode retornar valores negativos</font>): `<TDado>_IP_OPS`
      <li> <~> - Distância de Hamming (métrica): `Bit_Hamming_OPS`
      <li> <%> - Distância de Jaccard (métrica) (onde um objeto pertence ou não a um conjunto segundo um mapa de _bits_): `Bit_Jcaccard_OPS`
      </ul>

Para usar essas funções, é necessário ter um atributo com um tipo adequado.<br>
Os seguintes tipos de dados definidos pelo módulo `PGVector` podem ser usados:<ul>
  <li> `Vector` - até 2.000 dimensões
  <li> `HalfVec` - até 4.000 dimensões
  <li> `Bit` - até 64.000 dimensões
  <li> `SparseVec` até 1.000 elementos não zero
  </ul>

A aplicação por exelência dessa extensão é consultar e indexar valores de <i>embeddings</i> extraídos de <font color="blue" size=4>objetos complexos</font><br>
&emsp; &emsp; tais como: textos longos, imagens, audios, etc.

<br> 

Usando nossa base de exemplo, vamos extrair os vetores de `Embeddings` do atributo `Description` da tabela `Recipes`.<br>
Para isso, precisamos usar um `transformador` (<i>transformer</i>: um modelo de extração de _embeddings_,<br> que em geral é um LLM (_Large Language Model baseado em aprendizado profundo).

O módulo `sentence_transformers` de `Python` provê diversos transformadores.<br>
Vamos usar o `multi-qa-MiniLM-L6-cos-v1`, que opera sobre sentenças e parágrafos,<br>
&emsp; &emsp; &bullet; extraindo vetores densos de 384 dimensões,<br>
&emsp; &emsp; &bullet; e adequado para buscas semânticas<br>
&emsp; &emsp; (pares de vetores com distância pequena tendem a representar frases com significados semelhantes).

&emsp; <font size="4">&#128073;&#127997;</font>O <i>transformer</i> ``multi-qa-MiniLM-L6-cos-v1`` não é particularmente preciso, <br>
&emsp; &emsp; &emsp; estou usando aqui apenas porque ele gera um vetor relativamente pequeno e é (relativamente) rápido.

Vamos então<ol>
  <li> Carregar o módulo `sentence_transformers`,<br>
  <li> Ativar o <i>transformer</i> `multi-qa-MiniLM-L6-cos-v1`<br>
  <li> Definir uma função para converter arrays de <i>Embeddings</i> em `Python` para<br>
      &emsp; o formato de array em Postgres (valores entre [ ] separandos por vírgula)
  </ol>

In [28]:
%%capture
from sentence_transformers import SentenceTransformer

model = SentenceTransformer('multi-qa-MiniLM-L6-cos-v1')

## Definir uma função para conversão de formatos de Embeddings para texto, 
## para passar em formato de array (entre [ ] separando por vírgula) por comando SQL INSERT
def ToVec(Emb):
    v='['+str(Emb[0])
    for dim in Emb[1:]:
        v=v+', '+str(dim)
    v=v+']'
    return v


ModuleNotFoundError: No module named 'sentence_transformers'

<br>

## 4.1. Obter os ___Embeddings___

Vamos acrescentar um atributo para receber os _`Embedding`_ na tabela `Recipes`:

In [29]:
%%sql
ALTER TABLE Recipes
    ADD COLUMN IF NOT EXISTS Embedding Vector(384);

 * postgresql://postgres:***@pgvector:5432/postgres
Done.


[]

Vamos gerar os _embeddings_ e gravá-los no atributo `Embedding` da tabela `Recipes`:<br>
&emsp; <font color='red'>(Isso pode levar vários minutos: ~20 a 50 conversões por segundo)</red>
  * Estou testando por `Description NOT NULL` porque existem receitas sem descrição...

<div class="alert alert-block alert-danger"><font face="Georgia", size=3> 
        <font  size="4">&#128073;&#127997; Atenção:</font> Extrair os <i>embeddings demora muito.</i><br>
        <font  size="4">&#9654;</font> Depois de extraídos a primeira vez, é possível agilizar o processo armazenando os valores extraídos, <br>
            &emsp; &emsp; e nas próximas re-execuções do <i>notebook</i> apenas reler os dados gravados ao invés de extraí-los de novo.
    </font></div><br>

<div class="alert alert-block alert-danger"><font face="Georgia", size=3> 
        <font  size="4">&#9654;</font> Habilitar as células seguintes para extrair os <i>embeddings</i>:
    </font></div>

<br>

<div class="alert alert-block alert-danger"><font face="Georgia", size=3> 
        <font  size="4">&#9654;</font> Habilitar as células seguintes para recuperar os <i>embeddings</i> gravados:
    </font></div>

Copiar o arquivo com os dados para o ambiente do <i>container</i>:

<br>

A carga dos dados para a base de dados Postgres é feita integrando-os na tabela de `Receitas`<br>
&emsp; &emsp; <font color='red'>(Isso pode levar de 90 a 120 segundos)</red>

In [32]:
%%sql
DROP TABLE IF EXISTS Temp CASCADE;
CREATE TABLE Temp (
    ID integer NOT NULL PRIMARY KEY,
    Embedding Vector(384)
    );

COPY Temp
	FROM '/datasets/Recipes/ShEmbeddings.tsv'
    	WITH (DELIMITER E'\t', NULL E'', QUOTE E'\001', ENCODING 'UTF8', HEADER TRUE, FORMAT CSV);

UPDATE Recipes
    SET Embedding = Temp.Embedding
    FROM TEMP
    WHERE Recipes.ID=Temp.ID;

DROP TABLE Temp;

 * postgresql://postgres:***@pgvector:5432/postgres
Done.
Done.
32710 rows affected.
32710 rows affected.
Done.


[]

<br>

Finalmente, podemos remover o arquivo de carga dos _embeddings_:

<br>

<div class="alert alert-block alert-danger"><font face="Georgia", size=3> 
        <font  size="4">&#9654;</font> Fim da carga de <i>embeddings</i>.
    </font></div>
<br>

<br>

O resultado da célula do _notebook_ que executa a extração de <I>embeddings</i> foi suprimido com o comando `%%capture` porque ele é muito longo e desinteressante.<br>
No entanto, se houver erro, nos também não o vemos.

Independente de como os <I>embeddings</i> foram extraídos, podemos verificar se todas as tuplas que têm `Descrição` agora têm o `Embedding` também:<br>
&emsp; &emsp; <font size="4">&#128073;&#127997;</font> <font color=#888888>Nesse arquivo não deve haver uma tupla sem descrição.</font>

In [33]:
%%sql
SELECT COUNT(*) total, 
       COUNT(*) FILTER (WHERE Description IS NOT NULL) "Com descrição", 
       COUNT(*) FILTER (WHERE Embedding IS NOT NULL) "Com Embedding"
    FROM Recipes;

 * postgresql://postgres:***@pgvector:5432/postgres
1 rows affected.


total,Com descrição,Com Embedding
32710,32710,32710


<br>

Existe alguma receita que contenha o termo `'Feijoada'`?

In [34]:
%%sql
SELECT Title FROM Recipes where title~*'(Feijoada)'
limit 10;


 * postgresql://postgres:***@pgvector:5432/postgres
2 rows affected.


title
Feijoada (Brazilian Black Bean Stew)
Chef John's Brazilian Feijoada


<br>

Agora que já temos um atributo que pode ser comparado por similaridade, podemos perguntar:<br>
&emsp; <font style="font-size: 12px; color: gray">(essa é uma consulta por similaridade, corresponde a uma busca aos $k$-vizinhos mais próximos)</font><br><br>

<i><b>Q2</b> &ndash; Quais são as dez receitas mais parecidas com aquela chamada "Feijoada (Brazilian Black Bean Stew)"</i>?<br>
&emsp; &emsp; Vamos usar a distância do cosseno.

In [40]:
Query = """
SELECT  RBase.Title,
        RMatch.id,
        RMatch.Title,
        RBase.embedding <=> RMatch.embedding Cos_Dist
    FROM (SELECT *
              FROM Recipes
              WHERE Title = 'Zucchini Soup') RBase,
          Recipes AS RMatch
    ORDER BY RBase.embedding <=> RMatch.embedding
    LIMIT 10;
"""
res= %sql $Query
print(res)

 * postgresql://postgres:***@pgvector:5432/postgres
10 rows affected.
+---------------+-------+-----------------------------------------+---------------------+
|     title     |   id  |                 title_1                 |       cos_dist      |
+---------------+-------+-----------------------------------------+---------------------+
| Zucchini Soup | 23005 |              Zucchini Soup              |         0.0         |
| Zucchini Soup | 22145 |     Zucchini Soup with Curry Spices     | 0.23289678194810437 |
| Zucchini Soup | 21114 |      Light and Creamy Zucchini Soup     | 0.23343033096646204 |
| Zucchini Soup | 20426 |            Zucchini for Lunch           |  0.2526072787589352 |
| Zucchini Soup | 19224 |            Zucchini Parmesan            |  0.2611369426074841 |
| Zucchini Soup | 25697 |       Mexican Zucchini Cheese Soup      |  0.2617281171274356 |
| Zucchini Soup | 21372 |           Zucchini Summer Soup          |  0.2829343631506859 |
| Zucchini Soup | 22729 |  Zuc

Vamos agora medir o tempo dessa consulta (ainda sem índice) pegando a média de 10 execuções:

In [20]:
%%capture
TStart = timeit.default_timer()
for i in range(10):
    res= %sql $Query

TElapsedSqScan = timeit.default_timer() - TStart  ## Time Elapsed usando HNSW

In [21]:
print('Gastou',round(100*TElapsedSqScan, 2),'ms por comando sem usar índice.')

Gastou 19.45 ms por comando sem usar índice.


<br>

Para verificar o efeito de variar as funções de distância, vamos comparar algumas delas<br>
&emsp; e constatar que nesse <i>dataset</i> elas têm resultado muito parecido.

Primeiro, vamos ver quais funções de distância estão disponíveis para um índice `HNSW`:<br>
&emsp; &emsp; (`Operadores de comparação` - `Operator class` ou `OPS`, no jargão de Postgres)

In [22]:
%%sql
SELECT am.amname AS index_method,
       opc.opcname AS opclass_name,
       opc.opcintype::regtype AS indexed_type,
       opc.opcdefault AS is_default
    FROM PG_AM am, PG_OpClass OPC
    WHERE opc.opcmethod = am.oid
         AND am.amname='hnsw'
    ORDER BY index_method, opclass_name;

 * postgresql://postgres:***@localhost:5440/postgres
3 rows affected.


index_method,opclass_name,indexed_type,is_default
hnsw,vector_cosine_ops,vector,False
hnsw,vector_ip_ops,vector,False
hnsw,vector_l2_ops,vector,False


<br>

A seguir, executamos a consulta anterior para esses diversos operadores:

In [23]:
%%time
Query3Dist = """ WITH Base AS (
    SELECT  RBase.Title,
            RMatch.id,
            RMatch.Title Similar,
            ROUND((RBase.embedding <-> RMatch.embedding)::NUMERIC, 4) Euclid_Dist,
            ROW_NUMBER() OVER (ORDER BY RBase.embedding <-> RMatch.embedding) Euclid_Ord,
            ROUND((RBase.embedding <=> RMatch.embedding)::NUMERIC, 4) Cos_Dist,
            ROW_NUMBER() OVER (ORDER BY RBase.embedding <=> RMatch.embedding) Cos_Ord,
            ROUND((RBase.embedding <#> RMatch.embedding)::NUMERIC, 4) Cos_Dist,
            ROW_NUMBER() OVER (ORDER BY RBase.embedding <#> RMatch.embedding) Cos_Ord
        FROM (SELECT *
                  FROM Recipes
                  WHERE Title = 'Feijoada (Brazilian Black Bean Stew)') RBase,
              Recipes AS RMatch)
    (SELECT * FROM BASE ORDER BY 4 LIMIT 30)
    UNION
    (SELECT * FROM BASE ORDER BY 4 DESC LIMIT 10)
    ORDER BY 4; 
    """

res= %sql $Query3Dist
print(res)

 * postgresql://postgres:***@localhost:5440/postgres
40 rows affected.
+--------------------------------------+-------+----------------------------------------------+-------------+------------+----------+---------+------------+-----------+
|                title                 |   id  |                   similar                    | euclid_dist | euclid_ord | cos_dist | cos_ord | cos_dist_1 | cos_ord_1 |
+--------------------------------------+-------+----------------------------------------------+-------------+------------+----------+---------+------------+-----------+
| Feijoada (Brazilian Black Bean Stew) |  4832 |     Feijoada (Brazilian Black Bean Stew)     |    0.0000   |     1      |  0.0000  |    1    |  -1.0000   |     1     |
| Feijoada (Brazilian Black Bean Stew) | 25941 |        Chef John's Brazilian Feijoada        |    0.5417   |     2      |  0.1467  |    2    |  -0.8533   |     2     |
| Feijoada (Brazilian Black Bean Stew) |  5502 |                 Black Beans        

<br>

---

<br>

# 5. Criação de um índice HNSW sobre um Vetor de <i>embeddings</i>

Vamos criar um índice `HNSW` sobre o atributo `Embedding` da tabela de `Receitas`:


In [24]:
TStart = timeit.default_timer()

%sql                             \
DROP INDEX IF EXISTS HNSW_Embed;  \
CREATE INDEX HNSW_Embed ON Recipes \
    USING HNSW(Embedding Vector_Cosine_OPS) WITH (EF_Construction=40, M=12);

TElapsedCriaHNSW = timeit.default_timer() - TStart  ## Time Elapsed usando HNSW

 * postgresql://postgres:***@localhost:5440/postgres
Done.
Done.


In [25]:
print('Gastou', round(TElapsedCriaHNSW, 3),'s para criar o índice.')

Gastou 7.196 s para criar o índice.


Vamos re-executar a consulta e ver o novo tempo:=

In [26]:
%%capture
TStart = timeit.default_timer()
for i in range(10):
    res= %sql $Query

TElapsedHNSW = timeit.default_timer() - TStart  ## Time Elapsed usando HNSW

In [27]:
print('Gastou',round(100*TElapsedHNSW, 2),'ms por comando quando o índice está disponível.')

Gastou 21.37 ms por comando quando o índice está disponível.


<br>

Vamos verificar os índices que temos disponíveis:

In [28]:
%%sql
SELECT
    T.SchemaName,
    T.TableName,
    C.RelTuples::BIGINT                            AS Num_Rows,
    PG_Size_Pretty(PG_Relation_size(C.Oid))        AS Table_Size,
    PSAI.IndexRelName                              AS Index_Name,
    PG_Size_Pretty(PG_Relation_Size(I.IndexRelID)) AS Index_Size,
    CASE WHEN I.IndISUnique THEN 'Y' ELSE 'N' END  AS "unique",
	PG_Indexes.IndexDef
FROM
    PG_Tables T
    LEFT JOIN PG_Class C ON T.TableName = C.RelName
    LEFT JOIN PG_Index I ON C.Oid = I.IndRelID
    LEFT JOIN PG_Stat_all_indexes PSAI ON I.IndexRelID = PSAI.IndexRelID
	JOIN PG_Indexes ON (t.tablename, PSAI.indexrelname) = (PG_Indexes.TableName, PG_Indexes.IndexName)
WHERE
    T.SchemaName ='public' AND PSAI.IndexRelName IS NOT NULL;
	


 * postgresql://postgres:***@localhost:5440/postgres
9 rows affected.


schemaname,tablename,num_rows,table_size,index_name,index_size,unique,indexdef
public,nutrients,32710,1576 kB,nutrients_pk,736 kB,Y,CREATE UNIQUE INDEX nutrients_pk ON public.nutrients USING btree (id)
public,products,50000,95 MB,products_pkey,1112 kB,Y,CREATE UNIQUE INDEX products_pkey ON public.products USING btree (id)
public,products,50000,95 MB,gin_descr,7240 kB,N,"CREATE INDEX gin_descr ON public.products USING gin (to_tsvector('english'::regconfig, description))"
public,recipessh,32710,54 MB,titleunique,1552 kB,Y,CREATE UNIQUE INDEX titleunique ON public.recipessh USING btree (title)
public,recipe_ingredients,308448,13 MB,recing_pk,6784 kB,Y,CREATE UNIQUE INDEX recing_pk ON public.recipe_ingredients USING btree (id)
public,ingredients,62306,4672 kB,ingredients_pk,1384 kB,Y,CREATE UNIQUE INDEX ingredients_pk ON public.ingredients USING btree (id)
public,recipes,32710,70 MB,recipes_pk,1448 kB,Y,CREATE UNIQUE INDEX recipes_pk ON public.recipes USING btree (id)
public,recipes,32710,70 MB,recipes_titleunique,3072 kB,Y,CREATE UNIQUE INDEX recipes_titleunique ON public.recipes USING btree (title)
public,recipes,32710,70 MB,hnsw_embed,64 MB,N,"CREATE INDEX hnsw_embed ON public.recipes USING hnsw (embedding vector_cosine_ops) WITH (ef_construction='40', m='12')"


<br>

Vamos ver o resultado (podemos usar o último gerado, já que são todos iguais):

In [29]:
print(res)

+--------------------------------------+-------+----------------------------------------+---------------------+
|                title                 |   id  |                title_1                 |       cos_dist      |
+--------------------------------------+-------+----------------------------------------+---------------------+
| Feijoada (Brazilian Black Bean Stew) |  4832 |  Feijoada (Brazilian Black Bean Stew)  |         0.0         |
| Feijoada (Brazilian Black Bean Stew) | 25941 |     Chef John's Brazilian Feijoada     | 0.14674411454866343 |
| Feijoada (Brazilian Black Bean Stew) |  5502 |              Black Beans               |  0.2553115334921148 |
| Feijoada (Brazilian Black Bean Stew) | 10658 |  Jacy's Middle-Eastern Fava Bean Stew  | 0.32259809970855713 |
| Feijoada (Brazilian Black Bean Stew) | 30024 |      Vaca Frita (Pan-Fried Beef)       | 0.34638539872256413 |
| Feijoada (Brazilian Black Bean Stew) |  2021 | Instant Pot(R) Cuban-Style Black Beans |  0.35214308785

<br>

Mas o índice ainda não está sendo.

Para constatar isso, vamos ver o plano de consulta que essa consulta está usando:<br>
&emsp; &emsp; <font color=#888888> Mas antes definimos uma função para listar Planos de consulta num formato amigável:

In [30]:
############## Definir uma função para listar Planos de consulta ###########
def PrintPlan(pl):
    print('\nPlano:+','-'*100, sep='')
    i=0
    for linha in pl:
        i+=1
        linha=str(linha[0])
        if len(linha)>350: 
            linha=linha[0:350]+' ...'
        print(' %4d |' % i,linha)
    print('------+','-'*100,'\n', sep='')

In [31]:
ExpQuery = 'EXPLAIN VERBOSE '+ Query
plano= %sql $ExpQuery

PrintPlan(plano)


 * postgresql://postgres:***@localhost:5440/postgres
12 rows affected.

Plano:+----------------------------------------------------------------------------------------------------
    1 | Limit  (cost=10416.26..10416.28 rows=10 width=64)
    2 |   Output: recipes.title, rmatch.id, rmatch.title, ((recipes.embedding <=> rmatch.embedding))
    3 |   ->  Sort  (cost=10416.26..10498.03 rows=32710 width=64)
    4 |         Output: recipes.title, rmatch.id, rmatch.title, ((recipes.embedding <=> rmatch.embedding))
    5 |         Sort Key: ((recipes.embedding <=> rmatch.embedding))
    6 |         ->  Nested Loop  (cost=0.41..9709.41 rows=32710 width=64)
    7 |               Output: recipes.title, rmatch.id, rmatch.title, (recipes.embedding <=> rmatch.embedding)
    8 |               ->  Index Scan using recipes_titleunique on public.recipes  (cost=0.41..8.43 rows=1 width=58)
    9 |                     Output: recipes.id, recipes.title, recipes.description, recipes.category, recipes.rating, 

<br>

# 5.1 Usando um _embedding_ como centro de consulta

E se quisermos procurar uma `receita` usando como constante de busca um exemplo de `Descrição`?

Nesse caso será necessário primeiro extrair o <i>embedding</i> correspondente da constante.

Por exemplo:

In [32]:
QueryEmbed = ToVec(model.encode('Easy recipe that uses only 1 pan.'))

<br>

A busca pode ser feita agora usando uma consulta padrão:

In [33]:
CenterQuery = """
SELECT Title, LEFT(Description, 150)|| CASE WHEN LENGTH(Description)>=150 THEN ' ....' ELSE '' END Description,
       Round((:QueryEmbed <=> Embedding)::Numeric, 3) AS Dist,
       RANK() OVER (ORDER BY :QueryEmbed <=> Embedding) AS Rank
    FROM Recipes
    ORDER BY :QueryEmbed <=> Embedding
    LIMIT 10;"""
res= %sql $CenterQuery

print(res)


 * postgresql://postgres:***@localhost:5440/postgres
10 rows affected.
+------------------------------------------------+-------------------------------------------------------------------------------------------------------------------------------------------------------------+-------+------+
|                     title                      |                                                                         description                                                                         |  dist | rank |
+------------------------------------------------+-------------------------------------------------------------------------------------------------------------------------------------------------------------+-------+------+
|               Easy Taco Skillet                |                                          Easy recipe that uses only one pan. This recipe can be made for under $10!                                         | 0.063 |  1   |
| Chicken and Broccoli Fettuccini

<br>

Veja que aqui o índice `HNSW` é usado na linha  5:<br> `->  Index Scan using hnsw_embed on public.recipes ...`

In [34]:
ExpQuery = 'EXPLAIN VERBOSE '+ CenterQuery
plano= %sql $ExpQuery

PrintPlan(plano)


 * postgresql://postgres:***@localhost:5440/postgres
7 rows affected.

Plano:+----------------------------------------------------------------------------------------------------
    1 | Limit  (cost=72.54..83.98 rows=10 width=106)
    2 |   Output: title, (("left"(description, 150) || CASE WHEN (length(description) >= 150) THEN ' ....'::text ELSE ''::text END)), (round(((('[0.021321084,-0.027477082,-0.051717266,0.015555393,-0.053796757,-0.026147926,-0.012383288,-0.028154692,0.048557445,0.02504862,-0.042727273,-0.061138473,-0.009559155,-0.053979605,-0.013515898,-0.07999319,0.05545851 ...
    3 |   ->  WindowAgg  (cost=72.54..37486.26 rows=32710 width=106)
    4 |         Output: title, ("left"(description, 150) || CASE WHEN (length(description) >= 150) THEN ' ....'::text ELSE ''::text END), round(((('[0.021321084,-0.027477082,-0.051717266,0.015555393,-0.053796757,-0.026147926,-0.012383288,-0.028154692,0.048557445,0.02504862,-0.042727273,-0.061138473,-0.009559155,-0.053979605,-0.0135158

<br>

Vamos medir o tempo que essa consulta está gastando para ser executada com o índice:

In [35]:
%%capture

TStart = timeit.default_timer()
for i in range(10):
    res= %sql $CenterQuery

TElapsedHNSW = timeit.default_timer() - TStart  ## Time Elapsed usando HNSW

In [36]:
print('Gastou',round(100*TElapsedHNSW, 2),'ms por comando quando o índice está disponível.')

Gastou 6.96 ms por comando quando o índice está disponível.


<br>

E qual seria o tempo se o índice não estivesse disponível?


In [37]:
%%capture
%sql SET enable_indexscan = off;

TStart = timeit.default_timer()
for i in range(10):
    res= %sql $CenterQuery

TElapsedNoHNSW = timeit.default_timer() - TStart  ## Time Elapsed usando HNSW

In [38]:
print('Gastou',round(100*TElapsedNoHNSW, 2),'ms por comando quando o índice NÃO está disponível.')
print('O índice provê um ganho de ~',round(TElapsedNoHNSW/TElapsedHNSW, 2),' vezes em velocidade.', sep='')


Gastou 39.9 ms por comando quando o índice NÃO está disponível.
O índice provê um ganho de ~5.74 vezes em velocidade.


In [39]:
%sql SET enable_indexscan = off;
resExata= %sql $CenterQuery

%sql SET enable_indexscan = on;
resAprox= %sql $CenterQuery

print('Consulta exata:\n', resExata)
print('Consulta Aproximada:\n', resAprox)


 * postgresql://postgres:***@localhost:5440/postgres
Done.
 * postgresql://postgres:***@localhost:5440/postgres
10 rows affected.
 * postgresql://postgres:***@localhost:5440/postgres
Done.
 * postgresql://postgres:***@localhost:5440/postgres
10 rows affected.
Consulta exata:
 +------------------------------------------------+-------------------------------------------------------------------------------------------------------------------------------------------------------------+-------+------+
|                     title                      |                                                                         description                                                                         |  dist | rank |
+------------------------------------------------+-------------------------------------------------------------------------------------------------------------------------------------------------------------+-------+------+
|               Easy Taco Skillet                | 

Muito bom.<br>
Apesar da consulta aproximada não garantir que o resultado é &nbsp;<b><u>o</u></b>&nbsp; exato, <br>
nesse caso ele foi igual ao exato, apesar de ser obtido em ~4 vezes mais rapidamente.

<br>

---

<br>

Será que tem alguma `receita` que tenha <u>exatamente</u> esse texto?


In [40]:
%%sql
SELECT ID, Title, LEFT(Description, 150)||' ....' Description,
       :QueryEmbed <=> Embedding AS Dist
    FROM Recipes
    WHERE Description ~'Easy recipe that uses only .* pan.'  --- Tem uma que osa 'one', mas não '1'!!!
    ORDER BY 4
    LIMIT 10;

 * postgresql://postgres:***@localhost:5440/postgres
1 rows affected.


id,title,description,dist
13909,Easy Taco Skillet,Easy recipe that uses only one pan. This recipe can be made for under $10! ....,0.0626325011253357


<br> 

Interessante... na resposta aproximada não existe nenhuma `receita` que tenha o texto exato.<br><br>
&emsp; <font size="4">&#x26A0;</font> Isso reforça o fato que essas técnicas são destinadas a tratar dados que existem em grandes quantidades.<br>
&emsp; &emsp; Uma base com apenas 720 `receitas` é muito pouco: foi usado aqui apenas para ilustrar as <b>técnicas</b> que estão disponíveis.<br>
&emsp; &emsp; <u>E sem demorar para ter as respostas.</u>

<br><br>

<font size="5" face="verdana" color="green">
     <b>Índices aproximados em SQL</b>
    </font><br>

<font size="10" face="verdana" color="red">
    <img src="Figuras/ICMC_Logo.jpg" alt="ICMC" width=70>&emsp;&emsp;&nbsp;
    <b>FIM</b>&nbsp;&nbsp;&nbsp;&nbsp;
    <img src="Figuras/Gbdi2005.jpg" alt="GBdI" width=400>
    </font>