In [None]:
# pip install faiss-cpu sentence-transformers langchain PyPDF2

In [2]:
import os
from PyPDF2 import PdfReader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.embeddings import HuggingFaceEmbeddings
from langchain.vectorstores import FAISS


In [3]:

# Step 1: Load and preprocess the PDF
def load_pdf(file_path):
    """Loads a PDF file and extracts its text."""
    reader = PdfReader(file_path)
    text = ""
    for page in reader.pages:
        text += page.extract_text() + "\n"
    return text

# Example file path for Brazilian food regulation PDF
file_path = "../Castro_Cofre_Zurita/data/biblioteca-de-alimentos.pdf"

pdf_text = load_pdf(file_path)


In [4]:

# Step 2: Split the document into chunks
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
chunks = text_splitter.split_text(pdf_text)


In [5]:

# Step 3: Generate embeddings using Hugging Face
embedding_model = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")
embeddings = embedding_model.embed_documents(chunks)


  embedding_model = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")
  from .autonotebook import tqdm as notebook_tqdm
To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development


In [7]:

# Step 4: Create a vector database with FAISS
vector_store = FAISS.from_texts(chunks, embedding_model)


In [8]:

# Step 5: Implement a basic retriever
def retrieve_documents(query, k=5):
    """Retrieve the top-k most relevant documents for a given query."""
    query_embedding = embedding_model.embed_query(query)
    docs = vector_store.similarity_search(query, k=k)
    return docs


In [9]:

# Example query
query = "What are the labeling regulations for food products in Brazil?"
results = retrieve_documents(query)

# Display results
for i, doc in enumerate(results):
    print(f"Result {i + 1}:\n{doc}\n")


Result 1:
page_content='RDC 720/2022  - Requisitos sanitários dos alimentos nutricionalmente modificados.   
Alterada por:  
RDC 839/2023  - Comprovação de segurança e autorização de uso de novos alimentos e novos 
ingredientes.  
Documento relacionado : 
Perguntas e respostas sobre modificações na composição de alimentos padronizados para alegações 
nutricionais . 
 
RDC 839/2023  - Comprovação de segurança e autorização de uso de novos alimentos e novos ingredientes.  
1.25.  Admissibilidade de análise realizada por Autoridade Reguladora Estrangeira 
Equivalente (AREE)  
 
Tema  Regulatório 3.1 da Agenda Regulatória 2024/2025  - A regulamentar.  
1.26.  Regulamentação dos alimentos para fins médicos  
 
Tema Regulatório 3.10 da Agenda Regulatória 2024/2025 - A regulamentar.  
1.27.  Regulamentação dos alimentos plant -based  
 
Tema Regulatório 3.11 da Agenda Regulatória 2024/2025 - A regulamentar.  
2. Informações ao consumidor  
2.1. Rotulagem  de Alimentos'

Result 2:
page_content

In [10]:
# Example query 2
query = "Quais são as normas de rotulagem de produtos alimentícios no Brasil?"
results = retrieve_documents(query)

# Display results
for i, doc in enumerate(results):
    print(f"Result {i + 1}:\n{doc}\n")

Result 1:
page_content='e de rotulagem de aditivos edulcorantes em  alimentos . 
 
 Tema Regulatório 3.23 da Agenda Regulatória 2024/2025: Revisão da regulamentação sobre rotulagem  dos 
principais alimentos alergênicos . 
Tema Regulatório 3.24 da Agenda Regulatória 2024/2025: Revisão da regulamentação sobre rotulagem  geral 
de alimentos embalados . 
Tema 3.25 da Agenda Regulatória 2024/2025: Revisão da regulamentação sobre rotulagem  nutricional dos 
alimentos embalados . 
Decreto -Lei 986/1969  – Institui normas básicas sobre alimentos . 
Alterad o por:  
Lei 13.305/2016  – Altera Decreto -Lei 986/1969 para dispor sobre rotulagem de alimentos com lactose . 
 
Decreto 4.680/2003  – Regulamenta o direito à informação  quanto aos alimentos e ingredientes alimentares 
destinados ao consumo humano ou animal que contenham ou sejam produzidos a partir de organismos 
geneticamente modificados . 
 Ato relacionado:'

Result 2:
page_content='Sanitária (TFVS), Peticionamento de Recursos, etc.  

In [12]:
# Example query 3
query = "Quais são as normas de rotulagem nutricional dos alimentos embalados no Brasil?"
results = retrieve_documents(query)

# Display results
for i, doc in enumerate(results):
    print(f"Result {i + 1}:\n{doc}\n")




Result 1:
page_content='e de rotulagem de aditivos edulcorantes em  alimentos . 
 
 Tema Regulatório 3.23 da Agenda Regulatória 2024/2025: Revisão da regulamentação sobre rotulagem  dos 
principais alimentos alergênicos . 
Tema Regulatório 3.24 da Agenda Regulatória 2024/2025: Revisão da regulamentação sobre rotulagem  geral 
de alimentos embalados . 
Tema 3.25 da Agenda Regulatória 2024/2025: Revisão da regulamentação sobre rotulagem  nutricional dos 
alimentos embalados . 
Decreto -Lei 986/1969  – Institui normas básicas sobre alimentos . 
Alterad o por:  
Lei 13.305/2016  – Altera Decreto -Lei 986/1969 para dispor sobre rotulagem de alimentos com lactose . 
 
Decreto 4.680/2003  – Regulamenta o direito à informação  quanto aos alimentos e ingredientes alimentares 
destinados ao consumo humano ou animal que contenham ou sejam produzidos a partir de organismos 
geneticamente modificados . 
 Ato relacionado:'

Result 2:
page_content='embalados.    
Documento s relacionado s: 
Perguntas

In [13]:
# Example query 4
query = "What regulations are related to alcoholic beverages in Brazil?"
results = retrieve_documents(query)

# Display results
for i, doc in enumerate(results):
    print(f"Result {i + 1}:\n{doc}\n")

Result 1:
page_content='BIBLIOTECA DE  
ALIMENTOS  
Atualizada em 06.11.202 4 
Coordenação de Processos Regulatórios – CPROR  
Assessoria de Melhoria da Qualidade Regulatória – ASREG  
Gabinete do Diretor -Presidente  
 
AGENDA REGULATÓRIA 
Ciclo Bienal  
2024 -2025  
 
 APRESENTAÇÃO  
 
 As Bibliotecas são documentos que reúnem todas as normas vigentes de determinado 
macrotema, divididos por temas. O objetivo é facilitar o acesso e a compreensão do Estoque 
Regulatório ao público interno e externo, bem como aprimorar o processo de elaboração e 
revisão das normativas.  
 
 
Não deixe de consultar também a Biblioteca de Temas Transversais , que abrange assuntos 
aplicados a todos os macrotemas, tais como: Autorização de Funcionamento de Empresa 
(AFE), Certificação de Boas Práticas de Fabricação (CBPF), Taxas de Fiscalização de Vigilância 
Sanitária (TFVS), Peticionamento de Recursos, etc.  
 
  No setor de alimentos, a Anvisa coordena, supervisiona e controla as atividades de registr

In [14]:
# Example query 5
query = "Quais são as normas de bebidas alcoólicas no Brasil?"
results = retrieve_documents(query)

# Display results
for i, doc in enumerate(results):
    print(f"Result {i + 1}:\n{doc}\n")

Result 1:
page_content='Arrendamento Residencial, institui o arrendamento residencial com opção de compra, e a Lei no 
11.265, de 3 de janeiro de 2006, que regulamenta a comercialização de alimentos para lactentes e 
crianças de primeira infância e a de produtos de puericultura correlatos, e dá outras providências.  
Ato relacionado:  
Decreto 9.579/2018  – Consolida atos normativos editados pelo Poder Executivo federal que dispõem 
sobre a temática do lactente, da criança e do adolescente e do aprendiz, e sobre o Conselho Nacional 
dos Direitos da Criança e do Adolescente, o Fundo Nacional para a Criança e o Adolescente e os 
programas federais da criança e do adolescente . 
 
INC 9/2002  – Embalagens destinadas ao acondicionamento de produtos hortícolas ''in natura'' . 
 
RDC 21/2001  – Regulamento técnico para irradiação de alimentos . 
 
RDC 429/2020  - Rotulagem nutri cional dos alimentos embalados.   
Alterada por :'

Result 2:
page_content='Sanitária (TFVS), Peticionamento de Re