# NOTEBOOK - TÉCNICAS DE BUSCA E INDEXAÇÃO

<br>

----

<br>

# 1. Conectar com a Base de Dados

Para começar, é necessário estabelecer uma conexão com um servidor de base de dados:
 * Quando se usa o módulo `SQLalchemy`, o driver `psycopg2` (ou 3) é usado internamente para conectar com uma base de dados.
 * Vamos carregar os dados numa base de dados padrão de um servidor <img src="Figuras/HydraDB.png" width=100>: a base de dados `postgres` <br>

In [None]:
#!docker cp "/home/filipe/USP 2025/Mineração Grandes Bases/Data/Recipes/ShNutrients.tsv" hydra:/

In [45]:
############## Importar os módulos necessários para o Notebook:
import matplotlib.pyplot as plt
import pandas.io.sql as psql
import pandas as pd
import timeit
from sqlalchemy import create_engine, text

############## Conectar com um servidor SQL na Base postgres ###################### --> Postgres.postgres
%load_ext sql

# Connection format: %sql dialect+driver://username:password@host:port/database
engine = create_engine('postgresql://postgres:postgres@localhost:5440/postgres')
%sql postgresql://postgres:pgadmin@localhost:5440/postgres
%config SqlMagic.named_parameters="enabled"

%sql DB << SELECT Version();
print(DB)

The sql extension is already loaded. To reload it, use:
  %reload_ext sql


+-----------------------------------------------------------------------------------------------------------------------+
|                                                        version                                                        |
+-----------------------------------------------------------------------------------------------------------------------+
| PostgreSQL 14.13 (Debian 14.13-1.pgdg120+1) on x86_64-pc-linux-gnu, compiled by gcc (Debian 12.2.0-14) 12.2.0, 64-bit |
+-----------------------------------------------------------------------------------------------------------------------+


Confirmando arquivos no docker.

Vamos:
  * ativar a extensão `vector` se ela estiver desativada,
  * Tornar `Heap` o método de armazenagem padrão (`Hydra` usa `columnar` por padrão, mas aqui queremos que a tabela esteja armazenada por `tuplas`),
  * E vamos constatar que os arquivos para a carga de dados estão disponíveis no diretório dockerizado.

In [46]:
%%sql
-- Ativar 'vector' se estiver desativado
CREATE EXTENSION IF NOT EXISTS vector WITH SCHEMA public;

-- Tornar 'Heap' o método de armazenagem padrão
SET Default_Table_Access_Method = Heap;

-- Verificar os arquivos 'tsv' disponíveis no diretório do SO:
SELECT * FROM pg_ls_dir('/') T(Arquivo)
    WHERE Arquivo ~* 'tsv';

arquivo
ShEmbeddings.tsv
ShRecipe_ingredients.tsv
ShIngredients.tsv
ShNutrients.tsv
ShRecipes.tsv


Vamos verificar os métodos de acesso que estão disponíveis.\
Eles estão descritos no Dicionário de dados do Meta-esquema Postgres na tabela `PG_AM`.\
O Atributo `AMType` indica se o `AM`pode ser aplicado a um índice (`i`) ou a uma tabela  (`t`).

Como podemos ver, estão disponíveis os índices comuns como `BTree` e `HASH`,\
&emsp; outros índices especiais do Postgres, e\
&emsp; os índices para consultas por similaridade aproximadas `IVFflat` e `HNSW`.

In [47]:
%%sql
SELECT * FROM PG_AM
    ORDER BY AMType, AMName

oid,amname,amhandler,amtype
3580,brin,brinhandler,i
403,btree,bthandler,i
2742,gin,ginhandler,i
783,gist,gisthandler,i
405,hash,hashhandler,i
16639,hnsw,hnswhandler,i
16637,ivfflat,ivfflathandler,i
4000,spgist,spghandler,i
16420,columnar,columnar.columnar_handler,t
2,heap,heap_tableam_handler,t


<br>

# 2. Carregar a base de dados

Os dados qaue iremos usar para o exemplo correspondem a uma base de dados com: 
  * duas <b>Tabelas de Entidades</b>
    * `Recipes` e
    * `Ingredients` e
  * uma <b>Tabela de relacionamentos
    * `Recipe_ingredients`</b>.

A tabela `Recipes` contem um atributo `Embedding` com o texto com cada receita, onde aparecem os ingredientes usados.\
Para este exemplo, iremos extrair desse atributo os vetores de `embeddings`.

<br>

Vamos criar e carregar as tabelas:


In [48]:
%%sql
-- Criar tabela Nutrientes mantendo primary key em id
DROP TABLE IF EXISTS Nutrientes CASCADE;
CREATE TABLE public.Nutrientes (
    id INT PRIMARY KEY,
    calories FLOAT,
    carbohydrates_g FLOAT,
    sugars_g FLOAT,
    fat_g FLOAT,
    saturated_fat_g FLOAT,
    cholesterol_mg FLOAT,
    protein_g FLOAT,
    dietaryfiber_g FLOAT,
    sodium_mg FLOAT,
    caloriesfromfat FLOAT,
    calcium_mg FLOAT,
    iron_mg FLOAT,
    magnesium_mg FLOAT,
    potassium_mg FLOAT,
    zinc_mg FLOAT,
    phosphorus_mg FLOAT,
    vitaminaa_iu FLOAT,
    niacinequivalents_mg FLOAT,
    vitaminb6_mg FLOAT,
    vitamin_c_mg FLOAT,
    folate_mcg FLOAT,
    thiamin_mg FLOAT,
    riboflavin_mg FLOAT,
    vitamine_iu FLOAT,
    vitamink_mcg FLOAT,
    biotin_mcg FLOAT,
    vitaminb12_mcg FLOAT,
    monofat_g FLOAT,
    polyfat_g FLOAT,
    transfattyacid_g FLOAT,
    omega3fattyacid_g FLOAT,
    omega6fattyacid_g FLOAT
);

In [49]:
# Verifica se a tabela já foi carregada
# Ajuste sua conexão
with engine.connect() as conn:
    count = conn.execute(text("SELECT COUNT(*) FROM public.Nutrientes")).scalar()

if count == 0:
    print("Tabela 'nutrientes' está vazia. Carregando arquivo TSV...")
    path = "/home/filipe/USP 2025/Mineração Grandes Bases/Data/Recipes/ShNutrients.tsv"
    df = pd.read_csv(path, sep="\t")
    df.to_sql("nutrientes", engine, if_exists="append", index=False)
    print(f"✔ Dados carregados com sucesso ({len(df)} linhas).")
else:
    print(f"✔ Tabela 'nutrientes' já possui dados ({count} linhas). Nada será carregado.")


Tabela 'nutrientes' está vazia. Carregando arquivo TSV...
✔ Dados carregados com sucesso (32710 linhas).


In [50]:
%%sql
SELECT * FROM NUTRIENTES LIMIT 10;

id,calories,carbohydrates_g,sugars_g,fat_g,saturated_fat_g,cholesterol_mg,protein_g,dietaryfiber_g,sodium_mg,caloriesfromfat,calcium_mg,iron_mg,magnesium_mg,potassium_mg,zinc_mg,phosphorus_mg,vitaminaa_iu,niacinequivalents_mg,vitaminb6_mg,vitamin_c_mg,folate_mcg,thiamin_mg,riboflavin_mg,vitamine_iu,vitamink_mcg,biotin_mcg,vitaminb12_mcg,monofat_g,polyfat_g,transfattyacid_g,omega3fattyacid_g,omega6fattyacid_g
13214,464.7,63.0,35.4,19.2,6.2,160.1,12.1,2.1,365.9,173.1,126.3,2.9,39.4,281.3,,,393.9,4.6,,0.6,84.7,0.3,,,,,,,,,,
25638,661.7,69.1,5.0,27.0,15.7,74.8,30.5,3.3,2388.6,242.9,372.9,5.5,57.3,457.5,,,754.7,15.6,,2.5,186.2,0.6,,,,,,,,,,
3,163.8,17.2,5.3,7.7,3.4,111.1,6.4,0.4,234.5,69.0,65.6,1.2,11.2,115.4,,,347.8,2.3,,0.1,43.5,0.2,,,,,,,,,,
4,353.1,3.9,1.1,25.4,11.4,118.0,26.5,1.1,719.7,228.4,59.0,2.5,35.4,436.9,,,618.3,9.0,,7.4,25.8,0.7,,,,,,,,,,
5,169.8,28.1,0.6,4.0,0.6,,4.8,1.1,292.8,36.3,7.3,1.8,10.5,55.4,,,0.8,4.1,,,89.1,0.3,,,,,,,,,,
13216,410.0,53.1,31.7,18.9,9.9,146.0,13.6,3.0,437.1,169.7,65.2,0.5,8.1,102.2,,,538.1,1.1,,1.4,17.2,,,,,,,,,,,
8,858.2,66.7,10.7,48.7,29.9,141.6,37.7,3.4,879.3,438.2,863.1,3.3,76.2,458.8,,,1745.0,11.5,,0.5,149.0,0.5,,,,,,,,,,
9,251.7,29.7,18.2,13.6,5.9,35.8,4.5,1.2,209.4,122.2,30.3,1.0,21.6,114.3,,,256.7,3.1,,,36.1,0.1,,,,,,,,,,
10,115.8,18.4,1.1,2.8,1.3,5.6,3.8,0.6,313.9,24.8,79.2,1.1,4.5,29.1,,,,1.8,,,45.9,0.2,,,,,,,,,,
13219,233.6,36.9,19.6,7.7,3.9,17.1,4.0,1.8,258.7,69.6,20.4,1.5,1.9,24.7,,,196.3,0.1,,,33.8,,,,,,,,,,,


In [51]:
%%sql
--Adicionar coluna de embeddings, do tipo vector, com os valores da tabela
ALTER TABLE public.Nutrientes ADD COLUMN embeddings vector(32);

In [52]:
%%sql
-- Criação dos vetores
UPDATE nutrientes
SET embeddings = ARRAY[
    COALESCE(calories, 0),
    COALESCE(carbohydrates_g, 0),
    COALESCE(sugars_g, 0),
    COALESCE(fat_g, 0),
    COALESCE(saturated_fat_g, 0),
    COALESCE(cholesterol_mg, 0),
    COALESCE(protein_g, 0),
    COALESCE(dietaryfiber_g, 0),
    COALESCE(sodium_mg, 0),
    COALESCE(caloriesfromfat, 0),
    COALESCE(calcium_mg, 0),
    COALESCE(iron_mg, 0),
    COALESCE(magnesium_mg, 0),
    COALESCE(potassium_mg, 0),
    COALESCE(zinc_mg, 0),
    COALESCE(phosphorus_mg, 0),
    COALESCE(vitaminaa_iu, 0),
    COALESCE(niacinequivalents_mg, 0),
    COALESCE(vitaminb6_mg, 0),
    COALESCE(vitamin_c_mg, 0),
    COALESCE(folate_mcg, 0),
    COALESCE(thiamin_mg, 0),
    COALESCE(riboflavin_mg, 0),
    COALESCE(vitamine_iu, 0),
    COALESCE(vitamink_mcg, 0),
    COALESCE(biotin_mcg, 0),
    COALESCE(vitaminb12_mcg, 0),
    COALESCE(monofat_g, 0),
    COALESCE(polyfat_g, 0),
    COALESCE(transfattyacid_g, 0),
    COALESCE(omega3fattyacid_g, 0),
    COALESCE(omega6fattyacid_g, 0)
]::vector;


In [53]:
# Ajustando estatísticas
%sql ANALYZE nutrientes;

In [54]:
%%sql
-- Criação do índice para o atributo vetorial
DO $$
DECLARE
    lists_value INT;
BEGIN
    -- Remove o índice se já existir
    IF EXISTS (
        SELECT 1 FROM pg_indexes
        WHERE schemaname = 'public'
          AND indexname = 'nutrientes_embeddings_ivfflat_idx'
    ) THEN
        EXECUTE 'DROP INDEX public.nutrientes_embeddings_ivfflat_idx';
    END IF;

    -- Calcula lists = max(10, ceil(sqrt(n)))
    SELECT GREATEST(10, CEIL(SQRT(COUNT(*)))) INTO lists_value
    FROM public.nutrientes;

    -- Cria o índice IVFFlat com lists dinâmico
    EXECUTE format(
        'CREATE INDEX nutrientes_embeddings_ivfflat_idx
         ON public.nutrientes
         USING ivfflat (embeddings vector_l2_ops)
         WITH (lists = %s);',
         lists_value
    );
END $$;


## Executar consultas:


### 1. Selecionar as 10 receitas que têm os nutrientes mais semelhantes àquela que se chama (o title contém) ’egg fried rice’.

In [55]:
%%sql
-- Seleciona o target (vetor da receita cujos nutrientes contém 'egg fried rice')
WITH target AS (
    SELECT embeddings AS query_embedding
    FROM RECIPES
    JOIN NUTRIENTES ON RECIPES.ID = NUTRIENTES.ID
    WHERE title ILIKE 'egg fried rice'
),

-- Seleciona os 10 vetores de nutrientes mais próximos, incluindo a distância
nearest AS (
    SELECT 
        n.ID, 
        n.embeddings,
        n.embeddings <-> t.query_embedding AS distance
    FROM NUTRIENTES n, target t
    ORDER BY distance
    LIMIT 10
)

-- Retorna os dados dos 10 vetores mais próximos com distância
SELECT 
    r.id as id, 
    r.title as title,
    round(n.distance::numeric, 2) as distance
FROM RECIPES r
JOIN nearest n ON r.ID = n.ID
ORDER BY n.distance;


id,title,distance
4526,Egg Fried Rice,0.0
24749,Grilled Buffalo Wings,70.9
32494,Deidra's Hot Wings,95.18
26432,Lemon Soup,105.98
1399,Maria's Mexican Rice,115.93
30379,Fried Dill Pickles,119.64
24369,Pickletini,123.59
18533,Sambal Sauce,126.36
8311,Best Ever Carne Asada Marinade,126.59
24815,Easy Instant Pot(R) Mexican Rice,128.06


### 2. Executar uma consulta que recupere as 10 receitas que tanto sejam as mais semelhantes à descrição quanto aos nutrientes daquela chamada ’egg fried rice’.

Para integrar os resultados de ambas as consultas, use a função de “fusão por ranqueamento recíproco” 

Reciprocal Rank Fusion (RRF), definida como:
$$RRF(R_{knn1},R_{knn2}) = \sum_{i \in R_{knn2}} \frac{1}{60+O_{1i}} + \sum_{i \in R_{knn1}} \frac{1}{60+O_{2i}}$$
onde o valor 60 é um parâmetro usado para amortizar o impacto de ordenações muito discrepantes entre os $R_{knni}$. O valor 60 foi sugerido pelos autores originais do trabalho, mas pode (e usualmente deve) ser avaliado empiricamente.

In [56]:

%%sql

--------------------------------------------------------------
-- Calculos e dados de semelhança à descrição
WITH target_desc AS (
    SELECT embedding AS query_embedding
    FROM RECIPES
    WHERE title ILIKE 'egg fried rice'
),
knn_desc AS (
    SELECT
        r.id,
        r.title,
        ROW_NUMBER() OVER (ORDER BY r.embedding <-> t.query_embedding) AS rank_desc
    FROM RECIPES r, target_desc t
    ORDER BY r.embedding <-> t.query_embedding
),

--------------------------------------------------------------
-- Calculos e dados de semelhança aos nutrientes
target_nutr AS (
    SELECT embeddings AS query_embedding
    FROM RECIPES
    JOIN NUTRIENTES ON RECIPES.ID = NUTRIENTES.ID
    WHERE title ILIKE 'egg fried rice'
),
knn_nutr AS (
    SELECT
        r.id,
        r.title,
        ROW_NUMBER() OVER (ORDER BY n.embeddings <-> t.query_embedding) AS rank_nutr
    FROM NUTRIENTES n
    JOIN RECIPES r ON r.ID = n.ID
    CROSS JOIN target_nutr t
    ORDER BY n.embeddings <-> t.query_embedding
),

--------------------------------------------------------------
-- Calculando o RRF de acordo com a fórmula fornecida
rrf AS (
    SELECT
        COALESCE(d.id, n.id) AS recipe_id,
        COALESCE(d.title, n.title) AS title,
        COALESCE(1.0/(60 + d.rank_desc), 0) + COALESCE(1.0/(60 + n.rank_nutr), 0) AS rrf_score
    FROM knn_desc d
    FULL OUTER JOIN knn_nutr n ON d.id = n.id
)
SELECT recipe_id, title, rrf_score
FROM rrf
ORDER BY rrf_score DESC
LIMIT 10;


recipe_id,title,rrf_score
4526,Egg Fried Rice,0.0325224748810153
9971,Spaghetti With Red Clam Sauce,0.0164329464548225
24749,Grilled Buffalo Wings,0.0161823513729672
7192,One-Pan Chicken Dinner,0.0159162086857318
32494,Deidra's Hot Wings,0.0159137540487603
26432,Lemon Soup,0.0158572340919647
5013,Easy Tzatziki Sauce,0.0156862144955925
28155,Instant Rolls,0.0154871900076536
1399,Maria's Mexican Rice,0.0154158673378624
30379,Fried Dill Pickles,0.0152296645732094
