### Importar bibliotecas

In [None]:
import os
import hashlib
from datetime import datetime
import gradio as gr
import shutil

from langchain_community.document_loaders import PyPDFLoader
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_openai.embeddings import OpenAIEmbeddings
from langchain_openai import ChatOpenAI
from langchain_chroma import Chroma
from langchain.memory import ConversationBufferMemory
from langchain.memory import ConversationBufferMemory
from langchain.chains import ConversationalRetrievalChain


### Variáveis de ambiente

In [None]:
import os
from dotenv import load_dotenv

load_dotenv()

if not load_dotenv:
    print('Chaves não foram carregadas')
else:
    print('Chaves API carregadas com sucesso')
    
os.environ["OPENAI_API_KEY"]=os.getenv("OPENAI_API_KEY")


LLM_MODEL = "gpt-4o-mini"
EMBEDDING_MODEL = "text-embedding-3-small"
db_name = "vector_db"

Chaves API carregadas com sucesso


### Tracking

In [28]:
from langchain_core.tracers import LangChainTracer
from langchain_core.callbacks import CallbackManager
from langchain_core.runnables import RunnableConfig

tracer = LangChainTracer(project_name="RAG_LGPD")
callback_manager = CallbackManager([tracer])
config = RunnableConfig(callback_manager=callback_manager)

### Data Ingestion, Split, Embed and Store

In [None]:
datadir = 'data'
docs = []

# Função auxiliar para gerar ID único com base no caminho do arquivo
def generate_doc_id(filepath):
    return hashlib.sha1(filepath.encode()).hexdigest()


### 1. Carrega arquivos
for root, _,files in os.walk(datadir):
    for file in files:
        filepath= os.path.join(root, file)
        if os.path.isfile(filepath):
            if file.lower().endswith("pdf"):
                ## Trata arquivos PDF
                ext = 'pdf'
                loader=PyPDFLoader(filepath)
                loaded_doc = loader.load()
                ## Adição de metadados
                for d in loaded_doc:
                    d.metadata.update({
                        "source": filepath,
                        "filename": os.path.basename(filepath),
                        "filetype": ext,
                        "doc_id": generate_doc_id(filepath),
                        "ingest_date": datetime.now().isoformat()
                })
                ## Gera lista com os documentos carregados
                docs.extend(loaded_doc)
                print(f"Arquivo {file} carregado")
                
            

### 2. Divide documentos carregados em chunks
splitter = RecursiveCharacterTextSplitter(chunk_size=1000,
                                          chunk_overlap=50)
splitted_docs = splitter.split_documents(docs)
print(f"Total de chunks gerados: {len(splitted_docs)}")
           

### 3. Converte documentos em embeddings
embedding = OpenAIEmbeddings(model=EMBEDDING_MODEL)


### 4. Armazena documentos no banco de dados vetorial
## Verifica se o BD já existe e apaga se for o caso
if os.path.exists(db_name):
    C#hroma(persist_directory=db_name, embedding_function=embedding).delete_collection()
    shutil.rmtree(db_name)
## Cria banco de dados
vectorstore = Chroma.from_documents(splitted_docs, embedding, persist_directory=db_name)
print(f'Banco de dados {db_name} gerado e embeddings carregados com sucesso')


Arquivo cartilha_lgpd_diagramada_3.pdf carregado
Arquivo estudo-preliminar-tratamento-de-dados-crianca-e-adolescente.pdf carregado
Arquivo estudo-tecnico-a-lgpd-e-o-tratamento-de-dados-pessoais-para-fins-academicos-e-para-a-realizacao-de-estudos-por-orgao-de-pesquisa.pdf carregado
Arquivo estudo_de_casos_sobre_anonimizacao_de_dados_na_lgpd_.pdf carregado
Arquivo estudo_tecnico_sandbox_regulatorio_versao_publica.pdf carregado
Arquivo estudo_tecnico_sobre_anonimizacao_de_dados_na_lgpd_uma_visao_de_processo_baseado_em_risco_e_tecnicas_computacionais.pdf carregado
Arquivo estudo_tecnico_sobre_anonimizacao_de_dados_na_lgpd___analise_juridica.pdf carregado
Arquivo guia_da_atuacao_do_encarregado_anpd.pdf carregado
Arquivo nota-tecnia-5_2025_fis_cgf_versao-publica_ocultado (1).pdf carregado
Arquivo nota-tecnia-5_2025_fis_cgf_versao-publica_ocultado.pdf carregado
Arquivo nota-tecnica-11_2025_fis_cgf_ocultado.pdf carregado
Arquivo nota-tecnica-no-12-2023-cgf-anpd-inep.pdf carregado
Arquivo nota-

Ignoring wrong pointing object 1 65536 (offset 0)
Ignoring wrong pointing object 29 65536 (offset 0)
Ignoring wrong pointing object 32 65536 (offset 0)
Ignoring wrong pointing object 35 65536 (offset 0)
Ignoring wrong pointing object 65 65536 (offset 0)
Ignoring wrong pointing object 98 65536 (offset 0)
Ignoring wrong pointing object 101 65536 (offset 0)
Ignoring wrong pointing object 104 65536 (offset 0)
Ignoring wrong pointing object 107 65536 (offset 0)
Ignoring wrong pointing object 110 65536 (offset 0)
Ignoring wrong pointing object 113 65536 (offset 0)
Ignoring wrong pointing object 117 65536 (offset 0)
Ignoring wrong pointing object 120 65536 (offset 0)
Ignoring wrong pointing object 123 65536 (offset 0)
Ignoring wrong pointing object 126 65536 (offset 0)
Ignoring wrong pointing object 129 65536 (offset 0)
Ignoring wrong pointing object 132 65536 (offset 0)
Ignoring wrong pointing object 135 65536 (offset 0)
Ignoring wrong pointing object 138 65536 (offset 0)
Ignoring wrong poin

Arquivo ITA_1.pdf carregado


Ignoring wrong pointing object 1 65536 (offset 0)
Ignoring wrong pointing object 22 65536 (offset 0)
Ignoring wrong pointing object 27 65536 (offset 0)
Ignoring wrong pointing object 47 65536 (offset 0)
Ignoring wrong pointing object 52 65536 (offset 0)
Ignoring wrong pointing object 57 65536 (offset 0)
Ignoring wrong pointing object 71 65536 (offset 0)


Arquivo RESP2077278-20231009.pdf carregado


Ignoring wrong pointing object 1 65536 (offset 0)
Ignoring wrong pointing object 26 65536 (offset 0)
Ignoring wrong pointing object 31 65536 (offset 0)
Ignoring wrong pointing object 54 65536 (offset 0)
Ignoring wrong pointing object 57 65536 (offset 0)
Ignoring wrong pointing object 60 65536 (offset 0)
Ignoring wrong pointing object 63 65536 (offset 0)
Ignoring wrong pointing object 66 65536 (offset 0)
Ignoring wrong pointing object 69 65536 (offset 0)
Ignoring wrong pointing object 72 65536 (offset 0)
Ignoring wrong pointing object 75 65536 (offset 0)
Ignoring wrong pointing object 79 65536 (offset 0)


Arquivo STJ_201703001256_tipo_integra_161018989.pdf carregado


Ignoring wrong pointing object 1 65536 (offset 0)
Ignoring wrong pointing object 26 65536 (offset 0)
Ignoring wrong pointing object 31 65536 (offset 0)
Ignoring wrong pointing object 54 65536 (offset 0)
Ignoring wrong pointing object 57 65536 (offset 0)
Ignoring wrong pointing object 60 65536 (offset 0)
Ignoring wrong pointing object 63 65536 (offset 0)
Ignoring wrong pointing object 66 65536 (offset 0)
Ignoring wrong pointing object 69 65536 (offset 0)
Ignoring wrong pointing object 72 65536 (offset 0)
Ignoring wrong pointing object 75 65536 (offset 0)
Ignoring wrong pointing object 79 65536 (offset 0)


Arquivo STJ_202201522622_tipo_integra_178204788 (1).pdf carregado


Ignoring wrong pointing object 1 65536 (offset 0)
Ignoring wrong pointing object 22 65536 (offset 0)
Ignoring wrong pointing object 27 65536 (offset 0)
Ignoring wrong pointing object 47 65536 (offset 0)
Ignoring wrong pointing object 52 65536 (offset 0)
Ignoring wrong pointing object 57 65536 (offset 0)
Ignoring wrong pointing object 62 65536 (offset 0)
Ignoring wrong pointing object 67 65536 (offset 0)
Ignoring wrong pointing object 72 65536 (offset 0)
Ignoring wrong pointing object 81 65536 (offset 0)
Ignoring wrong pointing object 86 65536 (offset 0)
Ignoring wrong pointing object 92 65536 (offset 0)
Ignoring wrong pointing object 97 65536 (offset 0)
Ignoring wrong pointing object 102 65536 (offset 0)
Ignoring wrong pointing object 107 65536 (offset 0)
Ignoring wrong pointing object 112 65536 (offset 0)


Arquivo STJ_202201522622_tipo_integra_178204788.pdf carregado
Arquivo STJ_202304319744_tipo_integra_251442219.pdf carregado
Arquivo Constituicao-Compilado.pdf carregado
Arquivo L8078.pdf carregado
Arquivo lei-13709-14-agosto-2018-787077-normaatualizada-pl.pdf carregado
Total de chunks gerados: 4602
Banco de dados vector_db gerado e embeddings carregados com sucesso


### Camadas de abstração do LangChain

Camada 1: LLM  
Camada 2: Memory  
Camada 3: Retriever  


In [37]:
from langchain_core.callbacks import StdOutCallbackHandler

## Configuração do LLM
llm = ChatOpenAI(temperature=0.3, model=LLM_MODEL)

## Configuração da memória do chat
memory = ConversationBufferMemory(memory_key="chat_history", return_messages=True)

## Configuração do Retriever
retriever = vectorstore.as_retriever()

conversation_chain = ConversationalRetrievalChain.from_llm(llm=llm, 
                                                           retriever=retriever, 
                                                           memory=memory,
                                                           callbacks=[StdOutCallbackHandler()])


### Testando

In [38]:
query = "Você pode descrever em detalhes o que é a LGPD ?"
response = conversation_chain.invoke({"question": query})
print(response["answer"])



[1m> Entering new ConversationalRetrievalChain chain...[0m


[1m> Entering new StuffDocumentsChain chain...[0m


[1m> Entering new LLMChain chain...[0m
Prompt after formatting:
[32;1m[1;3mSystem: Use the following pieces of context to answer the user's question. 
If you don't know the answer, just say that you don't know, don't try to make up an answer.
----------------
Lei Geral de Proteção de Dados Pessoais – LGPD 
4
LGPD num relance
A Lei Geral de Proteção de Dados 
Pessoais – LGPD – regula o tratamento 
de dados pessoais de pessoas 
naturais (físicas) (dentro e fora do 
país). Ela visa proteger direitos 
fundamentais, como a liberdade, a 
privacidade, o livre desenvolvimento 
e a personalidade. Esta cartilha apresenta um panorama 
sobre a Lei 13.709 de 2018 , para que a administração pública e 
os servidores do Estado tomem conhecimento sobre o tema. 
A LGPD busca trazer mais segurança e inovação quanto a 
proteção e tratamento de dados pessoais no país.
Veja, em um relan

### Criando UI com Gradio

In [39]:
def chat(message, history):
    response = conversation_chain.invoke({"question": message})
    return response['answer']

In [None]:
view = gr.ChatInterface(chat).launch()

  self.chatbot = Chatbot(


* Running on local URL:  http://127.0.0.1:7863
* To create a public link, set `share=True` in `launch()`.




[1m> Entering new ConversationalRetrievalChain chain...[0m


[1m> Entering new LLMChain chain...[0m
Prompt after formatting:
[32;1m[1;3mGiven the following conversation and a follow up question, rephrase the follow up question to be a standalone question, in its original language.

Chat History:

Human: Você pode descrever em detalhes o que é a LGPD ?
Assistant: A Lei Geral de Proteção de Dados Pessoais (LGPD), formalmente conhecida como Lei nº 13.709/2018, é uma legislação brasileira que regula o tratamento de dados pessoais de pessoas naturais, tanto dentro quanto fora do país. A LGPD foi criada com o objetivo de proteger direitos fundamentais, como a liberdade, a privacidade, o livre desenvolvimento e a personalidade dos indivíduos.

A LGPD estabelece diretrizes para como as organizações devem coletar, processar, distribuir, armazenar e divulgar informações de indivíduos, assegurando que esses dados sejam utilizados de forma apropriada e responsável. A lei busca trazer mais 