# **LangChain**
**Autor:** [Anderson França](https://www.linkedin.com/in/anderson-m-franca/) | **Contato:** [github.com/andfranca](https://github.com/andfranca/proadi-sus-ciencia-de-dados-ia)

<a href="https://creativecommons.org/licenses/by/4.0/deed.en"><img align="left" width="80" src="https://mirrors.creativecommons.org/presskit/buttons/88x31/png/by-nc.png"/></a>

## **Lang Chain**

O LangChain é uma ferramenta que organiza o fluxo de trabalho quando usamos modelos de IA.  Ele permite estruturar o processo técnico, ligando o modelo a dados, documentos, APIs e outras ferramentas.
Com o LangChain, controlamos cada etapa:
- Definimos como as informações chegam até o modelo
- Estabelecemos o que acontece antes e depois da resposta
- Integramos o modelo a sistemas externos de forma prática


In [None]:
# Instalar bibliotecas
!pip install langchain langchain-community langchain-core
!pip install langchain-ollama

### **Modelos**

O LangChain pode trabalhar com dois formatos de modelo principais.

- O primeiro é o **LLM**, o modelo de linguagem simples. Aqui, a gente manda um texto direto, como se fosse uma pergunta ou comando, e o modelo devolve uma resposta objetiva, sem se preocupar com contexto ou memória. É o mais indicado para tarefas pontuais, como gerar um texto, fazer um resumo ou explicar um conceito.
- O segundo é o **Chat Model**, que organiza a interação em formato de conversa. Aqui, a gente estrutura as mensagens simulando um chat real, onde o modelo entende quem está falando e o que está sendo dito. Esse formato é muito útil quando queremos manter o contexto da conversa, como em chatbots ou assistentes virtuais.

Ambos funcionam dentro do LangChain, e a escolha depende do tipo de interação que precisamos para o nosso fluxo




In [12]:
# Definindo modelo LLM

modelo_llm = "llama3"  # ou "gemma:2b"

In [36]:
#LLM com Ollama
from langchain_ollama import OllamaLLM

llm = OllamaLLM(model=modelo_llm)
resposta = llm.invoke("Explique de forma simples o que é vigilância sanitária.")
print(resposta)

Vigilância sanitária é a atividade de monitorar e controlar as condições de saúde pública em uma região ou país. É como um "olho" atento que observa e interveniu para prevenir doenças e proteger a população.

A vigilância sanitária tem como objetivo:

1. Detectar e investigar surtos de doenças;
2. Monitorar as condições de saúde da população;
3. Implementar medidas preventivas e controladoras para reduzir a disseminação de doenças;
4. Avaliar o impacto das intervenções realizadas.

As atividades mais comuns da vigilância sanitária incluem:

* Coletar dados sobre a saúde da população, como doenças e mortes;
* Investigar surtos de doenças para entender sua origem e se espalharam;
* Realizar visitas e inspeções em locais públicos, como restaurantes e hospitais, para garantir que estejam seguindo os padrões de saúde;
* Fornecer orientação e treinamento para profissionais da saúde e ao público em geral sobre como prevenir doenças;
* Realizar campanhas de vacinação e outras intervenções prev

In [None]:
#Chat model com Ollama
from langchain_ollama import ChatOllama
from langchain.schema import HumanMessage

chat = ChatOllama(model=modelo_llm)

texto = "Explique a ia no contexto da área da saúde"

mensagem = [HumanMessage(content=texto)]

resposta = chat.invoke(mensagem)

print(resposta.content)

Inteligência Artificial (IA) é uma abordagem que visa replicar o pensamento humano, permitindo que as máquinas tomem decisões e executuem tarefas de forma autônoma. No contexto da área da saúde, a IA tem sido aplicada em diversas áreas, revolucionando a forma como os profissionais de saúde trabalham.

Aqui estão algumas das principais áreas em que a IA está sendo utilizada na área da saúde:

1. **Diagnóstico**: A IA pode ajudar os médicos a diagnosticar doenças mais rápido e preciso, analisando grandes quantidades de dados e imagem médica.
2. **Previsão de saída hospitalar**: A IA pode predizer com mais precisão o tempo de permanência dos pacientes em hospitais, permitindo que os profissionais de saúde planejem melhor a atenção ao paciente.
3. **Gerenciamento de doenças crônicas**: A IA pode ajudar a gerenciar tratamentos para doenças crônicas, como diabetes e hipertensão, monitorando as variáveis dos pacientes e fornecendo alertas e recomendações personalizadas.
4. **Assistência ao pa

### **Prompt Template**

Escrever prompts diretamente no código funciona em testes simples, mas rapidamente se torna desorganizado.  Os Prompt Templates permitem estruturar os prompts de forma clara, reutilizável e organizada. 

Com eles, criamos um “molde” de prompt, deixando espaços para preencher com as variáveis a cada interação.



In [37]:
from langchain_core.prompts import PromptTemplate
from langchain_ollama import OllamaLLM

# Criando o Prompt Template
template = PromptTemplate.from_template(
    "Explique de forma simples o conceito de {tema}."
)

# Conectando ao Ollama
llm = OllamaLLM(model=modelo_llm)

# Preenchendo o prompt com o valor da variável
prompt_preenchido = template.format(tema="vigilância sanitária")

# Executando o modelo com o prompt final
resposta = llm.invoke(prompt_preenchido)

print(resposta)


A Vigilância Sanitária é um conjunto de ações que visa monitorar e controlar doenças, garantindo a saúde da população. É como uma "rede de segurança" que detecta e combate ameaças à saúde pública.

Imagine que o seu corpo é uma cidade, e as doenças são invasores mal-intencionados. A Vigilância Sanitária é a polícia municipal que:

1. **Monitora** os movimentos das doenças (invasores) para detectar quando elas chegam à cidade.
2. **Identifica** quais doenças estão presentes e quantas pessoas foram afetadas.
3. **Análisa** as razões pelas quais essas doenças surgiram e como se espalharam.
4. **Desenvolve** planos para prevenir a propagação das doenças e controlá-las quando já estão presentes.
5. **Executa** esses planos, trabalhando com outros serviços de saúde e comunidades para minimizar os danos causados pelas doenças.

A Vigilância Sanitária é importante porque ajuda a:

* Prevenir epidemias (saídas em massa de pessoas doentes)
* Reduzir o impacto das doenças na população
* Melhorar 

#### **Prompt template com input de usuário**

In [39]:
from langchain_ollama import OllamaLLM
from langchain_core.prompts import PromptTemplate

# Conectar ao Ollama
llm = OllamaLLM(model=modelo_llm)

# Prompt para o LLM identificar o tema da fala do usuário
prompt_identificar_tema = "A seguinte frase do usuário foi: '{pergunta}'. Qual o tema principal dessa frase? Responda apenas com o tema, sem explicações."

# Prompt Template estruturado para explicar o tema
template_explicacao = PromptTemplate.from_template(
    "Explique de forma simples o conceito de {tema}."
)

# Pergunta do usuário via terminal
pergunta_usuario = input("Sobre o que você gostaria de falar?")

# Primeiro, o modelo identifica o tema
prompt_identificado = prompt_identificar_tema.format(pergunta=pergunta_usuario)
tema = llm.invoke(prompt_identificado)

print(f"\nTema identificado: {tema}")

# Depois, usamos o tema no Prompt Template para gerar a explicação
prompt_preenchido = template_explicacao.format(tema=tema)
resposta = llm.invoke(prompt_preenchido)

print("\nResposta final:")
print(resposta)


Tema identificado: Análise de dados governamentais

Resposta final:
Análise de dados governamentais é um processo que envolve a coleta, processamento e interpretação de informações sobre as políticas públicas, programas e serviços oferecidos pelo governo.

O objetivo da análise de dados governamentais é:

1. Entender melhor como o governo está trabalhando: Qual são os resultados dos esforços do governo? O que funciona bem e o que não?
2. Tomar decisões informadas: Com base nos dados, os líderes políticos podem tomar decisões mais eficazes sobre como investir recursos públicos.
3. Aumentar a transparência: A análise de dados governamentais ajuda a mostrar ao público como o governo está trabalhando e quais são seus resultados.

Algumas das práticas comuns da análise de dados governamentais incluem:

* Coleta de dados sobre as políticas públicas, como a assistência social, a saúde pública e a educação.
* Análise de indicadores econômicos, como o PIB e a inflação.
* Estudos de caso para a

___

### **LCEL**

O LCEL (LangChain Expression Language) é uma forma mais direta e visual de criar Cadeias no LangChain.  Ele permite encadear componentes, como Prompt Templates, modelos e parsers, de maneira limpa e legível, usando o operador |, em vez de criar classes complicadas ou múltiplas variáveis.

`Entrada | cadeia_de_processamento | modelo`

In [41]:
from langchain_ollama import OllamaLLM
from langchain_core.prompts import PromptTemplate
from langchain_core.output_parsers import StrOutputParser

# Conectar ao modelo
llm = OllamaLLM(model=modelo_llm)

# Criar o Template
prompt = PromptTemplate.from_template("Dê uma breve definição de {tema}.")

# Cria o Output Parser para texto simples
parser = StrOutputParser()

# Encadear com LCEL
chain = prompt | llm | StrOutputParser()

# Executar o fluxo de forma simples
resposta = chain.invoke({"tema": "vigilância sanitária"})

print(resposta)

A vigilância sanitária é a atividade sistemática e contínua de observação, investigação e intervenção para prevenir, detectar e controlar doenças, ferimentos e outros problemas de saúde pública, protegendo assim a população de riscos à saúde. Ela envolve a coleta e análise de dados, a realização de inspeções e testes em estabelecimentos e comunidades, bem como a educação e comunicação para promover hábitos saudáveis e prevenir problemas de saúde.


### **Output Parser**

O Output Parser é o componente responsável por transformar a resposta bruta do modelo em um formato limpo, estruturado e fácil de utilizar.

In [None]:
from langchain_ollama import OllamaLLM
from langchain_core.prompts import PromptTemplate
from langchain_core.output_parsers import JsonOutputParser
from pydantic import BaseModel

# Define o formato esperado em JSON
class NotaFiscal(BaseModel):
    numero: str
    data_emissao: str
    valor_total: float

parser = JsonOutputParser(pydantic_schema=NotaFiscal)
llm = OllamaLLM(model=modelo_llm)

# Prompt orienta o modelo a organizar os dados em JSON
prompt = PromptTemplate.from_template(
    "{format_instructions}\nOrganize as seguintes informações da nota fiscal no formato JSON:\n{dados}"
)

# Monta a Chain
chain = prompt | llm | parser

# Dados da nota fornecidos de forma bruta
dados_nota = """
Nota 1: O numero 12548 Data de Emissão: 25/06/2025 Valor: 3478.90
Nota 2: numero 12793 Data: 25/06/2025 Valor: 470.90
"""

# Executa o fluxo
resposta = chain.invoke({
    "dados": dados_nota,
    "format_instructions": parser.get_format_instructions()
})

print(resposta)

{'notas': [{'numero': 12548, 'data_emissão': '25/06/2025', 'valor': 3478.9}, {'numero': 12793, 'data_emissão': '25/06/2025', 'valor': 470.9}]}


### **Documement Loader**
Os Document Loaders são ferramentas que facilitam esse processo. Eles fazem a leitura e a organização desses documentos, transformando o conteúdo bruto em um formato que o sistema de IA consegue entender e trabalhar.


- PyPDFLoader - Carrega conteúdo de arquivos PDF.
- TextLoader - Carrega arquivos .txt.
- UnstructuredHTMLLoader - Carrega arquivos .html salvos no computador.
- WebBaseLoader - Carrega conteúdo diretamente de uma página da internet.    

In [None]:
# Carregar PDF usando PyPDFLoader

from langchain_community.document_loaders import PyPDFLoader

# Caminho do arquivo PDF
caminho_arquivo = "PDFs/IN332.pdf"

# Cria o loader do PDF
loader = PyPDFLoader(caminho_arquivo)

# Carrega o conteúdo do PDF em documentos estruturados
documentos = loader.load()

# Exibe o conteúdo carregado
for doc in documentos:
    print(doc.page_content)

In [13]:
from langchain_community.document_loaders import PyPDFLoader
from langchain_ollama import OllamaLLM
from langchain_core.prompts import PromptTemplate
from langchain_core.output_parsers import StrOutputParser

# Carrega o conteúdo do PDF
loader = PyPDFLoader("PDFs/IN332.pdf")
documentos = loader.load()

# Pegamos o conteúdo da primeira página como exemplo
texto_pdf = " ".join([doc.page_content for doc in documentos])

# Define o modelo de IA
llm = OllamaLLM(model=modelo_llm)

# Cria o Prompt Template
prompt = PromptTemplate.from_template( "Resuma estritamente em português:\n{conteudo}")

# Cria o Output Parser
parser = StrOutputParser()

# Monta o fluxo da Chain
chain = prompt | llm | parser

# Executa o fluxo com o texto do PDF
resumo = chain.invoke({"conteudo": texto_pdf})

print(resumo)

Resumo:

Instrução Normativa nº 2, de 02 de julho de 2025, que estabelece normas para a embalagem e rotulagem de produtos fumígenos derivados do tabaco.

Capítulo I: Disposições Gerais

* Estabelece as disposições gerais para a embalagem e rotulagem de produtos fumígenos derivados do tabaco.
* Define que os produtos com embalagens em desacordo com esta Instrução Normativa devem ser recolhidos até o dia 2 de novembro de 2025.

Capítulo II: Advertências Sanitárias e Mensagens

* Estabelece normas para as advertências sanitárias e mensagens a serem utilizadas nas embalagens de produtos fumígenos derivados do tabaco.
* Define que os modelos das advertências sanitárias se encontram disponíveis no portal eletrônico da ANVISA.

Capítulo III: Disposições Finais

* Estabelece as disposições finais para a aplicação desta Instrução Normativa.
* Define que os produtos fabricados em conformidade com esta Instrução Normativa até o dia 1º de novembro de 2025 podem ser comercializados, não sendo neces

### **HTML Loader**

In [None]:
pip install unstructured

In [14]:
from langchain_community.document_loaders import WebBaseLoader


loader = WebBaseLoader("https://www.gov.br/anvisa/pt-br/assuntos/noticias-anvisa/2025/anvisa-proibe-comercializacao-de-cogumelos-da-empresa-mush-mush-club")
documentos = loader.load()
print(documentos[0].page_content)

























































Anvisa proíbe comercialização de extratos de cogumelos da empresa Mush Mush Club — Agência Nacional de Vigilância Sanitária - Anvisa



























Ir para o
      Conteúdo
      1


Ir para a
      Página Inicial
      2


Ir para o menu de
      Navegação
      3


Ir para a
      Busca
      4


Ir para o
      Mapa do site
      5




Atenção!
Seu navegador não pode executar javascript. Alguns recursos podem não funcionar corretamente.











Abrir menu principal de navegação






Agência Nacional de Vigilância Sanitária - Anvisa





                        Termos mais buscados
                    




                                   imposto de renda
                                




                                   inss
                                




                                   assinatura
                                




                                   enem
                       

In [15]:
print(documentos[0].metadata)

{'source': 'https://www.gov.br/anvisa/pt-br/assuntos/noticias-anvisa/2025/anvisa-proibe-comercializacao-de-cogumelos-da-empresa-mush-mush-club', 'title': 'Anvisa proíbe comercialização de extratos de cogumelos da empresa Mush Mush Club — Agência Nacional de Vigilância Sanitária - Anvisa', 'description': 'Os produtos, que vinham sendo comercializados como medicamentos, não possuem regularização sanitária.', 'language': 'pt-br'}


### **Text Splitters**

Os Text Splitters são ferramentas que dividem o texto em partes menores e organizadas, chamadas de chunks, facilitando o processamento e o uso dessas informações no fluxo de IA.


#### **Tipos de Text Splitters**

- **RecursiveCharacterTextSplitter**
Faz divisões inteligentes, tentando manter parágrafos, sentenças e palavras inteiras sempre que possível. É o splitter padrão para textos gerais.

- **CharacterTextSplitter**
Divide o texto de forma simples, com base em um caractere específico (como espaço ou quebra de linha), sem análise de estrutura do texto.

- **TokenTextSplitter**
Divide o texto com base no número de tokens, respeitando o limite de processamento dos modelos de IA. Ideal para quem precisa ter controle exato do tamanho dos pedaços.

- **CodeTextSplitter**
Divide arquivos de código fonte (Python, JavaScript, etc.), respeitando blocos de código e estruturas de linguagem, sem quebrar a lógica dos scripts.


In [17]:
from langchain_text_splitters import RecursiveCharacterTextSplitter

# Texto de exemplo
texto = """
A Resolução-RE 2.425 da Anvisa, publicada no Diário Oficial da União desta terça-feira (1º/7), proibiu  a fabricação, a distribuição, a comercialização, a propaganda e o uso de todos os lotes dos produtos Mushdrops - Cogumelo Turkey Tail; Mushdrops - Cogumelo Chaga; Mushdrops - Cogumelo Juba de Leão; Mushdrops - Cogumelo Reishi; e Mushdrops - Cogumelo Cordyceps, fabricados pela empresa  Mush Mush Club Ltda., CNPJ 52.883.086/0001-41.  A medida também estabelece a apreensão desses produtos.  

Os produtos proibidos, que vinham sendo comercializados como medicamentos, não possuem regularização sanitária, sendo fabricados por empresa sem Autorização de Funcionamento (AFE) para fabricação de medicamentos. Assim, não é possível garantir a segurança de uso desses produtos, nem saber a sua procedência e o controle de riscos durante a sua produção.  

As ações de fiscalização determinadas são aplicáveis a todos os produtos fabricados pela empresa Mush Mush Club Ltda., bem como a quaisquer pessoas físicas ou jurídicas e veículos de comunicação que comercializem ou divulguem os referidos produtos.  
"""

# Define o Splitter
splitter = RecursiveCharacterTextSplitter(
    chunk_size=50,
    chunk_overlap=10
)

# Aplica o Splitter
chunks = splitter.split_text(texto)

# Exibe os pedaços gerados
for i, chunk in enumerate(chunks):
    print(f"Chunk {i+1}: {chunk}\n")

Chunk 1: A Resolução-RE 2.425 da Anvisa, publicada no

Chunk 2: no Diário Oficial da União desta terça-feira

Chunk 3: (1º/7), proibiu  a fabricação, a distribuição, a

Chunk 4: a comercialização, a propaganda e o uso de todos

Chunk 5: de todos os lotes dos produtos Mushdrops -

Chunk 6: - Cogumelo Turkey Tail; Mushdrops - Cogumelo

Chunk 7: Cogumelo Chaga; Mushdrops - Cogumelo Juba de

Chunk 8: Juba de Leão; Mushdrops - Cogumelo Reishi; e

Chunk 9: Reishi; e Mushdrops - Cogumelo Cordyceps,

Chunk 10: fabricados pela empresa  Mush Mush Club Ltda.,

Chunk 11: Ltda., CNPJ 52.883.086/0001-41.  A medida também

Chunk 12: também estabelece a apreensão desses produtos.

Chunk 13: Os produtos proibidos, que vinham sendo

Chunk 14: sendo comercializados como medicamentos, não

Chunk 15: não possuem regularização sanitária, sendo

Chunk 16: sendo fabricados por empresa sem Autorização de

Chunk 17: de Funcionamento (AFE) para fabricação de

Chunk 18: de medicamentos. Assim, não é possível gara

___

### **Modelos de EMBEDDINGS**

Os modelos de embeddings transformam textos, frases ou documentos em vetores numéricos que representam o significado do conteúdo.
Essa transformação é fundamental para que a IA consiga comparar, buscar ou agrupar informações de forma eficiente, já que o modelo não entende o texto diretamente, mas sim os padrões numéricos.


O LangChain oferece integração com diversos provedores de embeddings:
- OpenAI, Azure, Google Gemini, Hugging Face, Ollama, Cohere, MistralAI, entre outros


Usamos a interface padrão Embeddings com dois métodos principais:
- **embed_documents (texts)** - gera embeddings para uma lista de textos
- **embed_query(text)** - gera embedding para uma única consulta


In [None]:
# Embeddings de documentos
embeddings_model = OpenAIEmbeddings()

# Lista de frases para converter em vetores
textos = [
    "Olá, como você está?",
    "Quero saber mais sobre IA.",
    "Me dê um resumo do último artigo."
]

# Geração de embeddings (vetores) dessas frases
vetores = embeddings_model.embed_documents(textos)

# Resultado visualizado como lista de vetores
print(vetores)

In [None]:
# Inicializa o modelo de embeddings (exemplo hipotético)
embeddings_model = OpenAIEmbeddings()

# Frase de consulta para gerar um vetor
consulta = "Explique os efeitos colaterais da vacina."

# Geração de embedding da consulta
vetor_consulta = embeddings_model.embed_query(consulta)

___


### **Vector Stores**

Depois de gerar os embeddings dos documentos ou chunks, precisamos armazená-los de forma eficiente para que o sistema possa fazer buscas semânticas rápidas e precisas.

Os **Vector Stores** são bancos de dados especializados em armazenar e organizar esses vetores. Eles permitem buscar informações com base na similaridade de significado, e não apenas por palavras exatas.


In [None]:
pip install chromadb

In [22]:
from langchain_community.vectorstores import Chroma
from langchain_ollama import OllamaEmbeddings

# Usa o modelo Gemma para gerar os embeddings via Ollama
embeddings_model = OllamaEmbeddings(model="gemma:2b")

# Lista de documentos ou chunks para adicionar ao Vector Store
documentos = [
    "A Anvisa proibiu a comercialização do lote 7894 do produto X.",
    "O recolhimento de medicamentos deve ocorrer imediatamente.",
    "A vigilância sanitária fiscaliza alimentos e medicamentos em todo o país."
]

# Cria o Vector Store com Chroma e os embeddings do Gemma
vector_store = Chroma.from_texts(
    documentos,
    embedding=embeddings_model
)

# Consulta de exemplo para busca por similaridade
consulta = "Qual o procedimento para recolhimento de produtos?"

# Busca documentos semelhantes no Vector Store
resultados = vector_store.similarity_search(consulta)

# Exibe os documentos mais relevantes
for doc in resultados:
    print(doc.page_content)

O recolhimento de medicamentos deve ocorrer imediatamente.
A vigilância sanitária fiscaliza alimentos e medicamentos em todo o país.
A Anvisa proibiu a comercialização do lote 7894 do produto X.


### **Retrievers**

Depois de armazenar os documentos como vetores no Vector Store, precisamos de uma forma prática e eficiente de buscar apenas os pedaços mais relevantes de informação quando o usuário faz uma pergunta.

Os Retrievers são os componentes responsáveis por isso.

Eles conectam o Vector Store ao fluxo de IA, realizando buscas baseadas em similaridade de significado, e não apenas em palavras exatas.


In [None]:
from langchain_community.vectorstores import Chroma
from langchain_ollama import OllamaEmbeddings

# Modelo de embeddings (exemplo com Gemma via Ollama)
embeddings_model = OllamaEmbeddings(model=modelo_llm)

# Criação do Vector Store com documentos
vector_store = Chroma.from_texts(
    ["Produto X foi recolhido por decisão da Anvisa.",
     "A vigilância sanitária fiscaliza alimentos.",
     "O alerta sanitário foi emitido em junho."],
    embedding=embeddings_model
)

# Criação do Retriever
retriever = vector_store.as_retriever()

# Consulta de exemplo
consulta = "O que a Anvisa faz sobre produtos irregulares?"

# Busca por documentos semelhantes
resultados = retriever.invoke(consulta)

# Exibe os documentos mais relevantes
for doc in resultados:
    print(doc.page_content)

A Anvisa proibiu a comercialização do lote 7894 do produto X.
A vigilância sanitária fiscaliza alimentos e medicamentos em todo o país.
A vigilância sanitária fiscaliza alimentos.
A vigilância sanitária fiscaliza alimentos.


### **Fluxo Completo Q&A**



In [19]:
from langchain_community.document_loaders import PyPDFLoader
from langchain_ollama import OllamaLLM
from langchain_core.prompts import PromptTemplate

# Carrega o conteúdo do PDF
loader = PyPDFLoader("PDFs/IN332.pdf")
documentos = loader.load()

# Junta o conteúdo das páginas em um único texto
texto_pdf = " ".join([doc.page_content for doc in documentos])

# Inicializa o modelo de linguagem (exemplo com Gemma)
llm = OllamaLLM(model="gemma:2b")

# Define o prompt para pergunta e resposta simples
prompt = PromptTemplate.from_template(
    "A partir do texto abaixo, responda à pergunta do usuário:\n\n{conteudo}\n\nPergunta: {pergunta}\nResposta:"
)

# Preenche o prompt com o conteúdo e a pergunta
entrada_prompt = prompt.format(
    conteudo=texto_pdf,
    pergunta="Qual o objetivo principal dessa instrução normativa?"
)

# Faz o modelo gerar a resposta
resposta = llm.invoke(entrada_prompt)

# Exibe a resposta
print(resposta)

O objetivo principal da instrução normativa é garantir a qualidade e a segurança das embalagens de produtos fumígenos derivados do tabaco, seguindo as normas estabelecidas pela ANVISA.


### **Apêndice**

#### **Resolução exercício**

In [18]:
from langchain_ollama import OllamaLLM
from langchain_core.prompts import PromptTemplate
from langchain_core.output_parsers import JsonOutputParser
from pydantic import BaseModel

# Define o formato esperado para o JSON
class AlertaSanitario(BaseModel):
    data_alerta: str
    produto: str
    marca: str
    lote: str
    fabricante: str
    recomendacao: str

# Cria o Output Parser
parser = JsonOutputParser(pydantic_schema=AlertaSanitario)

# Define o modelo de IA
llm = OllamaLLM(model=modelo_llm)

# Cria o Prompt com instrução clara
prompt = PromptTemplate.from_template(
    "{format_instructions}\nA partir do texto abaixo, extraia as informações do alerta sanitário no formato JSON:\n{dados}"
)

# Texto do comunicado da Anvisa
texto_alerta = """
A Anvisa informa que no dia 25/06/2025 foi emitido um alerta sanitário para o produto álcool em gel marca CleanCare, lote 7894, devido à presença de contaminantes acima do permitido. O fabricante responsável é a empresa Indústrias Brasil Química Ltda. A recomendação é o recolhimento imediato do lote em todo o território nacional.
"""

# Monta o fluxo da Chain
chain = prompt | llm | parser

# Executa o fluxo
resposta = chain.invoke({
    "dados": texto_alerta,
    "format_instructions": parser.get_format_instructions()
})

print(resposta)

{'alertDate': '25/06/2025', 'product': {'name': 'álcool em gel', 'brand': 'CleanCare', 'lotNumber': '7894'}, 'reason': 'presença de contaminantes acima do permitido', 'manufacturer': 'Indústrias Brasil Química Ltda.', 'recommendation': 'recolhimento imediato do lote em todo o território nacional'}


#### Persistir Chroma DB

In [None]:
from langchain_community.vectorstores import Chroma
from langchain_ollama import OllamaEmbeddings

# Modelo de embeddings
embeddings_model = OllamaEmbeddings(model="gemma:2b")

# Lista de documentos ou chunks para armazenar
documentos = [
    "Alerta sanitário da Anvisa para o produto X.",
    "O recolhimento do lote 7894 deve ser imediato.",
    "Fiscalização da Anvisa garante segurança dos medicamentos."
]

# Caminho onde o Chroma irá armazenar o banco local
caminho_armazenamento = "chroma_db"

# Cria o Vector Store com persistência
vector_store = Chroma.from_texts(
    documentos,
    embedding=embeddings_model,
    persist_directory=caminho_armazenamento
)

# Salva o banco no diretório especificado
vector_store.persist()

In [None]:
vector_store = Chroma(
    persist_directory="chroma_db",
    embedding_function=embeddings_model
)

### Texto grande RAG

In [5]:
from langchain_text_splitters import RecursiveCharacterTextSplitter

# Exemplo de texto grande
texto_grande = """
A Anvisa informa que, conforme a Instrução Normativa nº 332, é proibida a comercialização dos produtos que apresentarem inconformidades sanitárias. Além disso, o recolhimento dos lotes afetados deve ser imediato. A fiscalização deve ocorrer em todo o território nacional para garantir a segurança do consumidor...
(continua o texto grande)
"""

# Define o Splitter
splitter = RecursiveCharacterTextSplitter(
    chunk_size=500,
    chunk_overlap=50
)

# Quebra o texto em chunks
chunks = splitter.split_text(texto_grande)

In [7]:
from langchain_community.vectorstores import Chroma
from langchain_ollama import OllamaEmbeddings


embeddings = OllamaEmbeddings(model="phi3:mini")

vector_store = Chroma.from_texts(
    texts=chunks,
    embedding=embeddings,
    persist_directory="chroma_db"
)

In [8]:
vector_store = Chroma(
    persist_directory="chroma_db",
    embedding_function=embeddings
)
retriever = vector_store.as_retriever()

In [9]:
from langchain_ollama import OllamaLLM
from langchain.chains import RetrievalQA

llm = OllamaLLM(model="phi3:mini")

rag_chain = RetrievalQA.from_chain_type(
    llm=llm,
    retriever=retriever
)

In [10]:
pergunta = "O que determina a Anvisa sobre recolhimento de produtos?"
resposta = rag_chain.invoke(pergunta)
print(resposta["result"])

A Instrução Normativa nº 332 da Anvisa estabelece que o recolhimento dos lotes afetados por inconformidades sanitárias é imediato para garantir a segurança do consumidor. Isso significa que, se um produto apresentar problemas de saúde associados à sua comercialização, ele deve ser removido rapidamente do mercado e recolhido para evitar qualquer risco aos consumidores. A Anvisa garante fiscalização em todo o território nacional nesse contexto.
