
# PROJETO PRÁTICO 2 — Agente Farmacêutico Explicador de Bulas (RAG)

**Curso:** LangChain — Criando Chatbots Inteligentes com RAG (Foundation)  
**Dificuldade:** Intermediário  

Este projeto representa a **evolução direta do Projeto 1**, incorporando:
- Múltiplos documentos
- Chunking mais estratégico
- Enriquecimento com metadados
- Maior controle semântico e rastreabilidade



## Dependências

```bash
pip install langchain==0.1.20 langchain-community==0.0.38 langchain-openai==0.1.7 chromadb pypdf
```


In [None]:
#!pip uninstall -y langchain langchain-core langchain-community langchain-openai
#!pip install langchain==0.1.20 langchain-community==0.0.38 langchain-openai==0.1.7
#!pip install pypdf
#!pip install chromadb



Found existing installation: langchain 0.1.20
Uninstalling langchain-0.1.20:
  Successfully uninstalled langchain-0.1.20
Found existing installation: langchain-core 0.1.53
Uninstalling langchain-core-0.1.53:
  Successfully uninstalled langchain-core-0.1.53
Found existing installation: langchain-community 0.0.38
Uninstalling langchain-community-0.0.38:
  Successfully uninstalled langchain-community-0.0.38
Found existing installation: langchain-openai 0.1.7
Uninstalling langchain-openai-0.1.7:
  Successfully uninstalled langchain-openai-0.1.7
Collecting langchain==0.1.20
  Using cached langchain-0.1.20-py3-none-any.whl.metadata (13 kB)
Collecting langchain-community==0.0.38
  Using cached langchain_community-0.0.38-py3-none-any.whl.metadata (8.7 kB)
Collecting langchain-openai==0.1.7
  Using cached langchain_openai-0.1.7-py3-none-any.whl.metadata (2.5 kB)
Collecting langchain-core<0.2.0,>=0.1.52 (from langchain==0.1.20)
  Using cached langchain_core-0.1.53-py3-none-any.whl.metadata (5.9 

^C


In [1]:
# Importa o módulo para manipulação de variáveis de ambiente
import os

# Loader responsável por ler arquivos PDF
from langchain.document_loaders import PyPDFLoader

# Responsável por dividir textos grandes em chunks menores
from langchain.text_splitter import RecursiveCharacterTextSplitter

# Classe que transforma texto em embeddings vetoriais
from langchain.embeddings import OpenAIEmbeddings

# Banco vetorial para armazenamento e busca semântica
from langchain.vectorstores import Chroma

# Modelo de linguagem conversacional
from langchain.chat_models import ChatOpenAI

# Cadeia pronta de Perguntas e Respostas com RAG
from langchain.chains import RetrievalQA


ModuleNotFoundError: No module named 'langchain.document_loaders'

In [3]:

# Define a chave da API da OpenAI como variável de ambiente
# (Nunca versionar essa chave em repositórios públicos)
os.environ["OPENAI_API_KEY"] = "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"



## 1️⃣ Definição do Problema

Bulas farmacêuticas possuem:
- Linguagem técnica
- Grande volume de texto
- Informações sensíveis

O objetivo do agente é **interpretar corretamente as bulas**,
respondendo perguntas **somente com base nos documentos**,
evitando qualquer tipo de alucinação.



## 2️⃣ Seleção e Organização das Bulas

Cada bula representa um medicamento diferente.
Utilizamos múltiplos PDFs como base de conhecimento.


In [4]:

# Lista com os caminhos dos arquivos PDF das bulas
caminhos_bulas = [
    "dipirona.pdf",
    "paracetamol.pdf"
]

# Lista que armazenará todos os documentos carregados
documentos = []

# Percorre cada bula
for caminho in caminhos_bulas:

    # Cria o loader do PDF
    loader = PyPDFLoader(caminho)

    # Carrega o conteúdo do PDF
    docs = loader.load()

    # Adiciona o nome do medicamento como metadado
    for doc in docs:
        doc.metadata["medicamento"] = caminho.split("/")[-1].replace(".pdf", "")

    # Adiciona os documentos à lista principal
    documentos.extend(docs)

# Exibe a quantidade total de páginas carregadas
len(documentos)


11

In [5]:
print(documentos)

[Document(page_content='  \n \n \n \n \n \n \n \n \ndipirona monoidratada \n \nBrainfarma Indústria Química e Farmacêutica S.A. \n \n \nComprimido  \n1g \n \n \n \n \n \n \n', metadata={'source': 'dipirona.pdf', 'page': 0, 'medicamento': 'dipirona'}), Document(page_content=' \ndipirona monoidratada – comprimido - Bula para o paciente  1 \n \nI - IDENTIFICAÇÃO DO MEDICAMENTO: \n \ndipirona monoidratada \nMedicamento genérico Lei nº 9.787, de 1999. \n \nAPRESENTAÇÕES \nComprimido. \nEmbalagens contendo 10 ou 100 comprimidos.  \n \nVIA DE ADMINISTRAÇÃO: ORAL \n \nUSO ADULTO E PEDIÁTRICO ACIMA DE 15 ANOS. \n \nCOMPOSIÇÃO \nCada comprimido contém: \ndipirona monoidratada ...................................................................................................................... 1000mg \nexcipientes q.s.p. ..................................................................................................................... 1 comprimido \n(macrogol, metabissulfito de sódio, dióxido d


## 3️⃣ Extração, Limpeza e Chunking

Dividimos o conteúdo das bulas em blocos menores,
preservando contexto por meio de sobreposição.


In [5]:

# Cria o objeto responsável pelo chunking
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=600,      # Tamanho máximo de cada chunk
    chunk_overlap=150   # Sobreposição entre chunks
)

# Divide os documentos em chunks
chunks = text_splitter.split_documents(documentos)

# Quantidade total de chunks gerados
len(chunks)


61

In [7]:
chunks

[Document(page_content='dipirona monoidratada \n \nBrainfarma Indústria Química e Farmacêutica S.A. \n \n \nComprimido  \n1g', metadata={'source': 'dipirona.pdf', 'page': 0, 'medicamento': 'dipirona'}),
 Document(page_content='dipirona monoidratada – comprimido - Bula para o paciente  1 \n \nI - IDENTIFICAÇÃO DO MEDICAMENTO: \n \ndipirona monoidratada \nMedicamento genérico Lei nº 9.787, de 1999. \n \nAPRESENTAÇÕES \nComprimido. \nEmbalagens contendo 10 ou 100 comprimidos.  \n \nVIA DE ADMINISTRAÇÃO: ORAL \n \nUSO ADULTO E PEDIÁTRICO ACIMA DE 15 ANOS. \n \nCOMPOSIÇÃO \nCada comprimido contém: \ndipirona monoidratada ...................................................................................................................... 1000mg', metadata={'source': 'dipirona.pdf', 'page': 1, 'medicamento': 'dipirona'}),
 Document(page_content='dipirona monoidratada ...................................................................................................................... 1000mg 


## 4️⃣ Enriquecimento com Metadados

Os metadados permitem:
- Filtragem
- Explicabilidade
- Melhor relevância na recuperação


In [6]:

# Percorre cada chunk para classificar semanticamente seu conteúdo
for chunk in chunks:

    # Normaliza o texto para facilitar as verificações
    texto = chunk.page_content.lower()

    # Identificação do medicamento
    if "identificação do medicamento" in texto or "composição" in texto:
        chunk.metadata["categoria"] = "identificacao"

    # Indicações terapêuticas
    elif "indicação" in texto or "para que este medicamento é indicado" in texto:
        chunk.metadata["categoria"] = "indicacao"

    # Funcionamento do medicamento
    elif "como este medicamento funciona" in texto or "ação" in texto:
        chunk.metadata["categoria"] = "como_funciona"

    # Contraindicações
    elif "contraindicação" in texto or "quando não devo usar" in texto:
        chunk.metadata["categoria"] = "contraindicacao"

    # Advertências e precauções
    elif "advertência" in texto or "precaução" in texto or "o que devo saber antes de usar" in texto:
        chunk.metadata["categoria"] = "advertencias_precaucoes"

    # Interações medicamentosas
    elif "interação" in texto or "interações medicamentosas" in texto:
        chunk.metadata["categoria"] = "interacoes"

    # Posologia e modo de uso
    elif "dose" in texto or "posologia" in texto or "como devo usar" in texto:
        chunk.metadata["categoria"] = "posologia_modo_uso"

    # Reações adversas
    elif "reações adversas" in texto or "quais os males" in texto:
        chunk.metadata["categoria"] = "reacoes_adversas"

    # Armazenamento
    elif "onde, como e por quanto tempo posso guardar" in texto or "armazenar" in texto:
        chunk.metadata["categoria"] = "armazenamento"

    # Superdosagem
    elif "quantidade maior do que a indicada" in texto or "superdosagem" in texto:
        chunk.metadata["categoria"] = "superdosagem"

    # Conteúdo geral / administrativo
    else:
        chunk.metadata["categoria"] = "geral"



In [7]:
import random

# Seleciona dois chunks aleatórios
chunks_aleatorios = random.sample(chunks, 2)

# Imprime os metadados e um trecho do conteúdo
for i, chunk in enumerate(chunks_aleatorios, start=1):
    print(f"\n--- Chunk Aleatório {i} ---")
    print("Metadados:")
    print(chunk.metadata)
    print("\nConteúdo (início):")
    print(chunk.page_content[:300])



--- Chunk Aleatório 1 ---
Metadados:
{'source': 'dipirona.pdf', 'page': 4, 'medicamento': 'dipirona', 'categoria': 'como_funciona'}

Conteúdo (início):
ácido úrico) em pacientes utilizando dipirona. 
 
Informe ao seu médico ou cirurgião-dentista se você está fazendo uso de algum outro medicamento. 
 
5. ONDE, COMO E POR QUANTO TEMPO POSSO GUARDAR ESTE MEDICAMENTO?  
Conservar em temperatura ambiente (entre 15 e 30°C). Proteger da luz e umidade.  
N

--- Chunk Aleatório 2 ---
Metadados:
{'source': 'dipirona.pdf', 'page': 4, 'medicamento': 'dipirona', 'categoria': 'posologia_modo_uso'}

Conteúdo (início):
A dipirona monoidratada apresenta-se como comprimido oblongo, branco a levemente amarelado. 
Antes de usar, observe o aspecto do medicamento. Caso ele esteja no prazo de validade e você 
observe alguma mudança no aspecto, consulte o farmacêutico para saber se poderá utilizá -lo. 
Todo medicamento de



## 5️⃣ Geração de Embeddings e Banco Vetorial


In [8]:
#!pip install chromadb


Collecting chromadb
  Downloading chromadb-1.4.0-cp39-abi3-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (7.2 kB)
Collecting build>=1.0.3 (from chromadb)
  Downloading build-1.3.0-py3-none-any.whl.metadata (5.6 kB)
Collecting pybase64>=1.4.1 (from chromadb)
  Downloading pybase64-1.4.3-cp312-cp312-manylinux1_x86_64.manylinux2014_x86_64.manylinux_2_17_x86_64.manylinux_2_5_x86_64.whl.metadata (8.7 kB)
Collecting posthog<6.0.0,>=2.4.0 (from chromadb)
  Downloading posthog-5.4.0-py3-none-any.whl.metadata (5.7 kB)
Collecting onnxruntime>=1.14.1 (from chromadb)
  Downloading onnxruntime-1.23.2-cp312-cp312-manylinux_2_27_x86_64.manylinux_2_28_x86_64.whl.metadata (5.1 kB)
Collecting opentelemetry-exporter-otlp-proto-grpc>=1.2.0 (from chromadb)
  Downloading opentelemetry_exporter_otlp_proto_grpc-1.39.1-py3-none-any.whl.metadata (2.5 kB)
Collecting pypika>=0.48.9 (from chromadb)
  Downloading PyPika-0.48.9.tar.gz (67 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m

In [8]:
# Embeddings (forma correta e atual)
from langchain_openai import OpenAIEmbeddings

# Vector Store
from langchain_community.vectorstores import Chroma

# Inicializa o modelo de embeddings (forma atual)
embeddings = OpenAIEmbeddings(
    model="text-embedding-3-small"  # opcional, mas recomendado
)

# Cria o banco vetorial com os chunks
vectorstore = Chroma.from_documents(
    documents=chunks,
    embedding=embeddings,
    persist_directory="./chroma_bulas"
)



## 6️⃣ Recuperação de Contexto (Retriever)


In [9]:

# Cria o retriever para busca semântica
retriever = vectorstore.as_retriever(
    search_kwargs={"k": 4}  # Número de chunks retornados
)



## 7️⃣ Integração com Pipeline RAG


In [10]:

# Inicializa o modelo de linguagem
llm = ChatOpenAI(
    model="gpt-4o-mini",
)

# Cria a cadeia RAG
qa_chain = RetrievalQA.from_chain_type(
    llm=llm,
    chain_type="stuff",
    retriever=retriever,
    return_source_documents=True
)


  warn_deprecated(



## 8️⃣ Testes e Validação das Respostas


In [12]:
# Pergunta de teste
pergunta = "Quais são as contraindicações da dipirona?"

# Executa a pergunta no agente RAG (forma atual)
resposta = qa_chain.invoke(pergunta)

print("Pergunta:")
print(pergunta)

print("\nResposta do Agente:")
print(resposta["result"])

print("\nTrechos utilizados como contexto:\n")

# Percorre os documentos recuperados
for i, doc in enumerate(resposta["source_documents"], start=1):
    print(f"--- Trecho {i} ---")

    # Metadados principais
    print(f"Medicamento: {doc.metadata.get('medicamento', 'N/A')}")
    print(f"Categoria: {doc.metadata.get('categoria', 'N/A')}")
    print(f"Documento: {doc.metadata.get('source', 'Documento desconhecido')}")
    print(f"Página: {doc.metadata.get('page', 'N/A')}")

    # Conteúdo recuperado
    print("\nConteúdo do chunk:")
    print(doc.page_content)
    print("\n")


Pergunta:
Quais são as contraindicações da dipirona?

Resposta do Agente:
As contraindicações da dipirona incluem:

1. Pacientes com hipersensibilidade conhecida à dipirona ou a outros derivados pirazólicos.
2. Crianças menores de 3 meses ou que pesem menos de 5 kg.
3. Uso em pacientes com hipotensão preexistente, redução de fluidos corpóreos, desidratação, instabilidade circulatória ou insuficiência circulatória incipiente, devido ao risco de reações hipotensivas.
4. Pacientes com insuficiência grave nos rins ou no fígado.
5. Durante a amamentação, deve-se evitar o uso durante e por até 48 horas após a administração, pois a dipirona é eliminada no leite materno.

Para mais detalhes, é importante consultar as seções específicas sobre contraindicações e precauções do medicamento.

Trechos utilizados como contexto:

--- Trecho 1 ---
Medicamento: dipirona
Categoria: contraindicacao
Documento: dipirona.pdf
Página: 3

Conteúdo do chunk:
supervisão médica quando se administra dipirona a cria

In [13]:
# Pergunta de teste 1
pergunta = "Qual é a posologia recomendada do paracetamol para adultos?"

# Executa a pergunta no agente RAG
resposta = qa_chain.invoke(pergunta)

print("Pergunta:")
print(pergunta)

print("\nResposta do Agente:")
print(resposta["result"])

print("\nTrechos utilizados como contexto:\n")

for i, doc in enumerate(resposta["source_documents"], start=1):
    print(f"--- Trecho {i} ---")
    print(f"Medicamento: {doc.metadata.get('medicamento', 'N/A')}")
    print(f"Categoria: {doc.metadata.get('categoria', 'N/A')}")
    print(f"Documento: {doc.metadata.get('source', 'Documento desconhecido')}")
    print(f"Página: {doc.metadata.get('page', 'N/A')}")
    print("\nConteúdo do chunk:")
    print(doc.page_content)
    print("\n")


Pergunta:
Qual é a posologia recomendada do paracetamol para adultos?

Resposta do Agente:
A posologia recomendada do paracetamol para adultos é de 325 a 500 mg a cada 3 horas, ou 325 a 650 mg a cada 4 horas, com uma dose diária máxima de 4 g.

Trechos utilizados como contexto:

--- Trecho 1 ---
Medicamento: paracetamol
Categoria: como_funciona
Documento: paracetamol.pdf
Página: 0

Conteúdo do chunk:
de 12 anos, 10 a 15mg/kg cada 4 horas, conforme necessário (máxima, 5x/dia).
 
REAÇÕES ADVERSAS:
Reações raras: agranulocitose, anemia, dermatite alérgica, hepatite, cólica renal, 
insuﬁ  ciência renal, piúria estéril (urina escura), trombocitopenia.
 
PRECAUÇÕES:
- Evitar bebidas alcoólicas.
- O risco/benefício deve ser avaliado em situações clínicas como: alcoolismo, 
doenças hepáticas, hepatite viral, fenilcetonúria, comprometimento renal grave.
INTERAÇÕES:
- Doses elevadas potencializam a ação dos anticoagulantes cumarínicos e in-
dandiônicos.


--- Trecho 2 ---
Medicamento: dipirona
C


## ✅ Conclusão

Neste Projeto 2, evoluímos para um RAG mais próximo de cenários reais,
com maior controle sobre:
- Qualidade semântica
- Organização dos documentos
- Explicabilidade das respostas

Esse padrão pode ser aplicado em sistemas de:
- Saúde
- Jurídico
- Compliance
- RH
