
# PROJETO PRÁTICO 2 — Agente Farmacêutico Explicador de Bulas (RAG)

**Curso:** LangChain — Criando Chatbots Inteligentes com RAG (Foundation)  
**Dificuldade:** Intermediário  

Este projeto representa a **evolução direta do Projeto 1**, incorporando:
- Múltiplos documentos
- Chunking mais estratégico
- Enriquecimento com metadados
- Maior controle semântico e rastreabilidade



## Dependências

```bash
pip install langchain==0.1.20 langchain-community==0.0.38 langchain-openai==0.1.7 chromadb pypdf
```


In [1]:
#!pip uninstall -y langchain langchain-core langchain-community langchain-openai
#!pip install langchain==0.1.20 langchain-community==0.0.38 langchain-openai==0.1.7
#!pip install pypdf
#!pip install chromadb



In [2]:
# Importa o módulo para manipulação de variáveis de ambiente
import os

# Loader responsável por ler arquivos PDF
from langchain.document_loaders import PyPDFLoader

# Responsável por dividir textos grandes em chunks menores
from langchain.text_splitter import RecursiveCharacterTextSplitter

# Classe que transforma texto em embeddings vetoriais
# from langchain.embeddings import OpenAIEmbeddings
from langchain_ollama import OllamaEmbeddings

# Banco vetorial para armazenamento e busca semântica
from langchain.vectorstores import Chroma

# Modelo de linguagem conversacional
from langchain.chat_models import ChatOpenAI

# Cadeia pronta de Perguntas e Respostas com RAG
from langchain.chains import RetrievalQA


In [3]:

# Define a chave da API da OpenAI como variável de ambiente
# (Nunca versionar essa chave em repositórios públicos)
# os.environ["OPENAI_API_KEY"] = "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"



## 1️⃣ Definição do Problema

Bulas farmacêuticas possuem:
- Linguagem técnica
- Grande volume de texto
- Informações sensíveis

O objetivo do agente é **interpretar corretamente as bulas**,
respondendo perguntas **somente com base nos documentos**,
evitando qualquer tipo de alucinação.



## 2️⃣ Seleção e Organização das Bulas

Cada bula representa um medicamento diferente.
Utilizamos múltiplos PDFs como base de conhecimento.


In [4]:

# Lista com os caminhos dos arquivos PDF das bulas
caminhos_bulas = [
    "dipirona.pdf",
    "paracetamol.pdf"
]

# Lista que armazenará todos os documentos carregados
documentos = []

# Percorre cada bula
for caminho in caminhos_bulas:

    # Cria o loader do PDF
    loader = PyPDFLoader(caminho)

    # Carrega o conteúdo do PDF
    docs = loader.load()

    # Adiciona o nome do medicamento como metadado
    for doc in docs:
        doc.metadata["medicamento"] = caminho.split("/")[-1].replace(".pdf", "")

    # Adiciona os documentos à lista principal
    documentos.extend(docs)

# Exibe a quantidade total de páginas carregadas
len(documentos)


11

In [5]:
# print(documentos)


## 3️⃣ Extração, Limpeza e Chunking

Dividimos o conteúdo das bulas em blocos menores,
preservando contexto por meio de sobreposição.


In [6]:

# Cria o objeto responsável pelo chunking
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=600,      # Tamanho máximo de cada chunk
    chunk_overlap=150   # Sobreposição entre chunks
)

# Divide os documentos em chunks
chunks = text_splitter.split_documents(documentos)

# Quantidade total de chunks gerados
len(chunks)


61

In [7]:
# chunks


## 4️⃣ Enriquecimento com Metadados

Os metadados permitem:
- Filtragem
- Explicabilidade
- Melhor relevância na recuperação


In [8]:

# Percorre cada chunk para classificar semanticamente seu conteúdo
for chunk in chunks:

    # Normaliza o texto para facilitar as verificações
    texto = chunk.page_content.lower()

    # Identificação do medicamento
    if "identificação do medicamento" in texto or "composição" in texto:
        chunk.metadata["categoria"] = "identificacao"

    # Indicações terapêuticas
    elif "indicação" in texto or "para que este medicamento é indicado" in texto:
        chunk.metadata["categoria"] = "indicacao"

    # Funcionamento do medicamento
    elif "como este medicamento funciona" in texto or "ação" in texto:
        chunk.metadata["categoria"] = "como_funciona"

    # Contraindicações
    elif "contraindicação" in texto or "quando não devo usar" in texto:
        chunk.metadata["categoria"] = "contraindicacao"

    # Advertências e precauções
    elif "advertência" in texto or "precaução" in texto or "o que devo saber antes de usar" in texto:
        chunk.metadata["categoria"] = "advertencias_precaucoes"

    # Interações medicamentosas
    elif "interação" in texto or "interações medicamentosas" in texto:
        chunk.metadata["categoria"] = "interacoes"

    # Posologia e modo de uso
    elif "dose" in texto or "posologia" in texto or "como devo usar" in texto:
        chunk.metadata["categoria"] = "posologia_modo_uso"

    # Reações adversas
    elif "reações adversas" in texto or "quais os males" in texto:
        chunk.metadata["categoria"] = "reacoes_adversas"

    # Armazenamento
    elif "onde, como e por quanto tempo posso guardar" in texto or "armazenar" in texto:
        chunk.metadata["categoria"] = "armazenamento"

    # Superdosagem
    elif "quantidade maior do que a indicada" in texto or "superdosagem" in texto:
        chunk.metadata["categoria"] = "superdosagem"

    # Conteúdo geral / administrativo
    else:
        chunk.metadata["categoria"] = "geral"



In [9]:
import random

# Seleciona dois chunks aleatórios
chunks_aleatorios = random.sample(chunks, 2)

# Imprime os metadados e um trecho do conteúdo
for i, chunk in enumerate(chunks_aleatorios, start=1):
    print(f"\n--- Chunk Aleatório {i} ---")
    print("Metadados:")
    print(chunk.metadata)
    print("\nConteúdo (início):")
    print(chunk.page_content[:300])



--- Chunk Aleatório 1 ---
Metadados:
{'source': 'dipirona.pdf', 'page': 8, 'medicamento': 'dipirona', 'categoria': 'como_funciona'}

Conteúdo (início):
Inclusão Inicial de Texto 
de Bula - RDC 60/12 
19/09/2013 0793099/13-2 
10459 - GENÉRICO - 
Inclusão Inicial de Texto 
de Bula - RDC 60/12 
19/09/2013 Versão inicial VP/VPS Comprimido 
13/03/2014 0184145/14-9 
10452 - GENÉRICO - 
Notificação de Alteração 
de Texto de Bula - RDC 
60/12 
13/03/2014 0

--- Chunk Aleatório 2 ---
Metadados:
{'source': 'dipirona.pdf', 'page': 5, 'medicamento': 'dipirona', 'categoria': 'como_funciona'}

Conteúdo (início):
Caso se esqueça de tomar uma dose, tome -a assim que possível. No entanto, se estiver próximo do 
horário da próxima dose, espere por este horário, respeitando sempre o intervalo determinado pelo modo 
de usar. Não usar o medicamento em dobro para compensar doses esquecidas.  
 
Em caso de dúvidas, 



## 5️⃣ Geração de Embeddings e Banco Vetorial


In [10]:
#!pip install chromadb


In [11]:
# Embeddings (forma correta e atual)
# from langchain_openai import OpenAIEmbeddings
from langchain_ollama import OllamaEmbeddings

# Vector Store
from langchain_community.vectorstores import Chroma

# Inicializa o modelo de embeddings (forma atual)
# embeddings = OpenAIEmbeddings(
#     model="text-embedding-3-small"  # opcional, mas recomendado
# )
# 1. Inicializa embeddings locais via Ollama
# Não precisa de API_KEY, pois o servidor roda em http://localhost:11434
embeddings = OllamaEmbeddings(
    model="nomic-embed-text"
)

# Cria o banco vetorial com os chunks
vectorstore = Chroma.from_documents(
    documents=chunks,
    embedding=embeddings,
    persist_directory="./chroma_bulas"
)



## 6️⃣ Recuperação de Contexto (Retriever)


In [12]:

# Cria o retriever para busca semântica
retriever = vectorstore.as_retriever(
    search_kwargs={"k": 4}  # Número de chunks retornados
)



## 7️⃣ Integração com Pipeline RAG


In [13]:
# ollama pull llama3.2 no Terminal Bash
from langchain_ollama import ChatOllama

# Inicializa o modelo de linguagem
# llm = ChatOpenAI(
#     model="gpt-4o-mini",
# )

# Inicializa o modelo local via Ollama
# O Llama 3.2 rodará de forma nativa na GPU do seu chip M3
llm = ChatOllama(
    model="llama3.2",
    temperature=0  # Mantemos 0 para respostas mais factuais baseadas nas regras de futebol
)
# Cria a cadeia RAG
qa_chain = RetrievalQA.from_chain_type(
    llm=llm,
    chain_type="stuff",
    retriever=retriever,
    return_source_documents=True
)



## 8️⃣ Testes e Validação das Respostas


In [14]:
# Pergunta de teste
pergunta = "Quais são as contraindicações da dipirona?"

# Executa a pergunta no agente RAG (forma atual)
resposta = qa_chain.invoke(pergunta)

print("Pergunta:")
print(pergunta)

print("\nResposta do Agente:")
print(resposta["result"])

print("\nTrechos utilizados como contexto:\n")

# Percorre os documentos recuperados
for i, doc in enumerate(resposta["source_documents"], start=1):
    print(f"--- Trecho {i} ---")

    # Metadados principais
    print(f"Medicamento: {doc.metadata.get('medicamento', 'N/A')}")
    print(f"Categoria: {doc.metadata.get('categoria', 'N/A')}")
    print(f"Documento: {doc.metadata.get('source', 'Documento desconhecido')}")
    print(f"Página: {doc.metadata.get('page', 'N/A')}")

    # Conteúdo recuperado
    print("\nConteúdo do chunk:")
    print(doc.page_content)
    print("\n")


Pergunta:
Quais são as contraindicações da dipirona?

Resposta do Agente:
Não encontrei informações explícitas sobre contraindicações específicas da dipirona no texto fornecido. No entanto, é importante notar que a dipirona pode ter efeitos adversos quando usada concomitantemente com outros medicamentos ou em pacientes com certas condições de saúde.

De acordo com o texto, a dipirona pode causar redução na concentração sanguínea de bupropiona, portanto, recomenda-se cautela quando a dipirona e a bupropiona são usadas concomitantemente. Além disso, a dipirona pode reduzir o efeito do ácido acetilsalicílico na agregação plaquetária, portanto, essa combinação deve ser usada com precaução em pacientes que tomam baixa dose de ácido acetilsalicílico para cardioproteção.

É importante lembrar que a dipirona é um medicamento que pode ter efeitos adversos, especialmente quando usado concomitantemente com outros medicamentos ou em pacientes com certas condições de saúde. Portanto, é fundamental 

In [15]:
# Pergunta de teste 1
pergunta = "Qual é a posologia recomendada do paracetamol para adultos?"

# Executa a pergunta no agente RAG
resposta = qa_chain.invoke(pergunta)

print("Pergunta:")
print(pergunta)

print("\nResposta do Agente:")
print(resposta["result"])

print("\nTrechos utilizados como contexto:\n")

for i, doc in enumerate(resposta["source_documents"], start=1):
    print(f"--- Trecho {i} ---")
    print(f"Medicamento: {doc.metadata.get('medicamento', 'N/A')}")
    print(f"Categoria: {doc.metadata.get('categoria', 'N/A')}")
    print(f"Documento: {doc.metadata.get('source', 'Documento desconhecido')}")
    print(f"Página: {doc.metadata.get('page', 'N/A')}")
    print("\nConteúdo do chunk:")
    print(doc.page_content)
    print("\n")


Pergunta:
Qual é a posologia recomendada do paracetamol para adultos?

Resposta do Agente:
Não tenho essa informação. A informação sobre a posologia do paracetamol (ou dipirona monoidratada, como mencionado no texto) não está presente na texto fornecido. Se você precisar de informações sobre a dosagem recomendada de paracetamol para adultos, recomendo consultar um profissional de saúde ou uma fonte confiável de informação médica.

Trechos utilizados como contexto:

--- Trecho 1 ---
Medicamento: paracetamol
Categoria: posologia_modo_uso
Documento: paracetamol.pdf
Página: 0

Conteúdo do chunk:
imentos ricos em glicídeos. Eliminado pela urina, principalmente na forma de 
conjugados glicuronídios e sulfatos.
INDICAÇÕES:
Alternativa ao ácido acetilsalicílico no tratamento de cefaléia, dismenorréia, mi-
algia leve a moderada, artralgia, febre, dor pós-operatória, dor pós-parto e dor 
crônica causada pelo câncer.
DOSE:
Via oral ou retal, adultos e crianças acima de 12 anos, 325 a 500mg cada 3


## ✅ Conclusão

Neste Projeto 2, evoluímos para um RAG mais próximo de cenários reais,
com maior controle sobre:
- Qualidade semântica
- Organização dos documentos
- Explicabilidade das respostas

Esse padrão pode ser aplicado em sistemas de:
- Saúde
- Jurídico
- Compliance
- RH
