In [65]:
import logging

logging.basicConfig()
logging.getLogger("langchain.retrievers.multi_query").setLevel(logging.INFO)

In [48]:
from langchain_community.document_loaders import PyPDFLoader

document_path = [r'data\jurisprudencia\STJ_202201522622_tipo_integra_178204788.pdf',
                 r'data\lei\lei-13709-14-agosto-2018-787077-normaatualizada-pl.pdf']
docs = []
for file in document_path:
    loader = PyPDFLoader(file)
    doc = loader.load()
    docs.extend(doc)
print(f'N√∫mero de documentos carregados: {len(docs)}')
print(docs[0].metadata)


Ignoring wrong pointing object 1 65536 (offset 0)
Ignoring wrong pointing object 26 65536 (offset 0)
Ignoring wrong pointing object 31 65536 (offset 0)
Ignoring wrong pointing object 54 65536 (offset 0)
Ignoring wrong pointing object 57 65536 (offset 0)
Ignoring wrong pointing object 60 65536 (offset 0)
Ignoring wrong pointing object 63 65536 (offset 0)
Ignoring wrong pointing object 66 65536 (offset 0)
Ignoring wrong pointing object 69 65536 (offset 0)
Ignoring wrong pointing object 72 65536 (offset 0)
Ignoring wrong pointing object 75 65536 (offset 0)
Ignoring wrong pointing object 79 65536 (offset 0)


N√∫mero de documentos carregados: 40
{'producer': 'iText 2.1.5 (by lowagie.com)', 'creator': 'PyPDF', 'creationdate': '2025-05-12T10:58:36-03:00', 'moddate': '2025-05-12T10:58:36-03:00', 'source': 'data\\jurisprudencia\\STJ_202201522622_tipo_integra_178204788.pdf', 'total_pages': 12, 'page': 0, 'page_label': '1'}


In [49]:
from langchain_text_splitters import RecursiveCharacterTextSplitter

## Testar:
## chunk_size = 500, 1000, 1500, 2000
## chunk_overlap = 100, 150, 200, 300
split = RecursiveCharacterTextSplitter(
    chunk_size=500,
    chunk_overlap=50,
    add_start_index=True,
    separators=["\n\n\n", "\n\n", "\n", ".", ";", ","]
)
splitted_docs = split.split_documents(docs)
print(f"Total de chunks {len(splitted_docs)}")

Total de chunks 253


In [None]:
from langchain_huggingface import HuggingFaceEmbeddings
import os

os.environ["HF_HUB_DISABLE_SYMLINKS_WARNING"] = "1"

#HuggingFace : rufimelo/Legal-BERTimbau-large ou rufimelo/Legal-BERTimbau-base
#embeddings = HuggingFaceEmbeddings(model_name="neuralmind/bert-base-portuguese-cased")

embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/paraphrase-multilingual-mpnet-base-v2")

In [51]:
import faiss
from langchain_community.vectorstores import FAISS

vector_store = FAISS.from_documents(splitted_docs, 
                                    embedding=embeddings,
                                    )

vector_store.save_local(folder_path="data",
                        index_name="index_db")


## Retriever

In [52]:
## Pergunta do usu√°rio
question = """
QUal √© a jurisprud√™ncia atual sobre a LGPD ?
"""

In [53]:
## LLM para o retriever
from langchain_openai import ChatOpenAI
import os

OPENAI_API_KEY = os.getenv("OPENAI_API_KEY")
llm = ChatOpenAI(model="gpt-4o")

In [54]:
from typing import List

from langchain_core.output_parsers import BaseOutputParser
from langchain_core.prompts import PromptTemplate
from pydantic import BaseModel, Field


# Output parser will split the LLM result into a list of queries
class LineListOutputParser(BaseOutputParser[List[str]]):
    """Output parser for a list of lines."""

    def parse(self, text: str) -> List[str]:
        lines = text.strip().split("\n")
        return list(filter(None, lines))  # Remove empty lines


output_parser = LineListOutputParser()

QUERY_PROMPT = PromptTemplate(
    input_variables=["question"],
    template="""Voc√™ √© um assistente jur√≠dico especializado em LGPD. Sua tarefa √© gerar cinco 
    vers√µes diferentes da pergunta do usu√°rio para recuperar documentos relevantes sobre LGPD 
    de uma base de dados vetorial. Gere perspectivas alternativas focadas em:
    1. Aspectos legais espec√≠ficos
    2. Jurisprud√™ncia relacionada
    3. Direitos dos titulares
    4. Obriga√ß√µes dos controladores
    5. Penalidades e san√ß√µes
    
    Forne√ßa essas perguntas alternativas separadas por quebras de linha.
    Pergunta original: {question}""",
)

# Chain
llm_chain = QUERY_PROMPT | llm | output_parser

In [55]:
from langchain.retrievers.multi_query import MultiQueryRetriever

# Run
retriever = MultiQueryRetriever(
    retriever=vector_store.as_retriever(
        search_type="similarity",
        search_kwargs={"k": 5}  # Aumentado para mais contexto
    ), 
    llm_chain=llm_chain, 
    parser_key="lines"
)

# Results
unique_docs = retriever.invoke(question)
len(unique_docs)

20

In [56]:
from langchain_openai import ChatOpenAI
import os

OPENAI_API_KEY = os.getenv("OPENAI_API_KEY")
llm = ChatOpenAI(model="gpt-4o")

In [61]:
from langchain_core.prompts import ChatPromptTemplate, MessagesPlaceholder

system_prompt = """
    Voc√™ √© um assistente jur√≠dico especializado na Lei Geral de Prote√ß√£o de Dados (LGPD - Lei n¬∫ 13.709/2018).

INSTRU√á√ïES PARA RESPOSTA:
1. Use as informa√ß√µes dispon√≠veis**: Trabalhe com as informa√ß√µes presentes nos documentos, mesmo que sejam parciais
2. Seja √∫til: Forne√ßa o m√°ximo de informa√ß√£o relevante dispon√≠vel nos documentos
3. Contextualize: Explique conceitos jur√≠dicos quando necess√°rio
4. Cite fontes: Quando poss√≠vel, mencione artigos da LGPD ou refer√™ncias jurisprudenciais
5. Seja claro sobre limita√ß√µes: Se algum aspecto espec√≠fico n√£o estiver detalhado, mencione isso, mas forne√ßa o que est√° dispon√≠vel

IMPORTANTE: Os documentos podem conter informa√ß√µes fragmentadas. Use seu conhecimento jur√≠dico para interpretar e conectar as informa√ß√µes de forma coerente.

Apenas declare que a informa√ß√£o n√£o est√° dispon√≠vel se realmente N√ÉO houver NENHUMA informa√ß√£o relevante nos documentos fornecidos.

CONTEXTO DOS DOCUMENTOS:
{context}
"""

prompt = ChatPromptTemplate.from_messages([
    ("system", system_prompt),
    MessagesPlaceholder(variable_name="chat_history", optional=True),
    ("human", "{input}")
])

In [62]:
from langchain.chains.combine_documents import create_stuff_documents_chain
from langchain.chains import create_retrieval_chain

# Criar chains
document_chain = create_stuff_documents_chain(llm, prompt)
retrieval_chain = create_retrieval_chain(retriever, document_chain)

print("‚úì Sistema RAG configurado com sucesso!")


‚úì Sistema RAG configurado com sucesso!


In [63]:
try:
    result = retrieval_chain.invoke({
        "input": question,
        "chat_history": []  # Hist√≥rico vazio para primeira consulta
    })
    
    print("=== PERGUNTA ===")
    print(question)
    
    print("\n=== RESPOSTA ===")
    print(result["answer"])
    
    print(f"\n=== DOCUMENTOS UTILIZADOS ({len(result['context'])}) ===")
    for i, doc in enumerate(result["context"][:3]):  # Mostrar apenas os 3 primeiros
        print(f"\nDocumento {i+1}:")
        print(f"Fonte: {doc.metadata.get('source', 'N/A')}")
        print(f"P√°gina: {doc.metadata.get('page', 'N/A')}")
        print(f"Conte√∫do: {doc.page_content[:200]}...")
        
except Exception as e:
    print(f"Erro na consulta: {e}")

=== PERGUNTA ===

QUal √© a jurisprud√™ncia atual sobre a LGPD ?


=== RESPOSTA ===
A jurisprud√™ncia sobre a Lei Geral de Prote√ß√£o de Dados (LGPD) no Brasil ainda est√° em desenvolvimento, j√° que a lei √© relativamente recente, tendo sido sancionada em 2018. No entanto, algumas tend√™ncias e decis√µes j√° come√ßaram a se consolidar. Com base nos documentos fornecidos, posso destacar alguns pontos relevantes:

1. **Fundamenta√ß√£o da LGPD em Decis√µes Judiciais**: A LGPD tem sido invocada em casos relacionados √† prote√ß√£o de dados pessoais, complementando a legisla√ß√£o consumerista, como o C√≥digo de Defesa do Consumidor (CDC). Isso √© exemplificado pelo uso da LGPD para argumentar sobre a seguran√ßa de dados pessoais e potenciais indeniza√ß√µes decorrentes de vazamentos de dados.

2. **Dados Sens√≠veis**: De acordo com o Art. 5¬∫, II, da LGPD, dados considerados sens√≠veis exigem um tratamento diferenciado. A jurisprud√™ncia tem destacado a import√¢ncia de classificar corretamen

In [64]:
def consultar_lgpd(pergunta: str, chat_history: list = None):
    """
    Fun√ß√£o para fazer consultas ao sistema RAG LGPD
    """
    if chat_history is None:
        chat_history = []
    
    try:
        result = retrieval_chain.invoke({
            "input": pergunta,
            "chat_history": chat_history
        })
        
        return {
            "pergunta": pergunta,
            "resposta": result["answer"],
            "documentos_fonte": len(result["context"]),
            "contexto": result["context"]
        }
    except Exception as e:
        return {
            "pergunta": pergunta,
            "resposta": f"Erro ao processar consulta: {e}",
            "documentos_fonte": 0,
            "contexto": []
        }

# Exemplo de uso da fun√ß√£o
perguntas_teste = [
    "Quais s√£o os direitos dos titulares de dados na LGPD?",
    "Qual √© o prazo para responder ao titular sobre seus dados?",
    "Quais s√£o as penalidades previstas na LGPD?",
    "O que diz a jurisprud√™ncia sobre consentimento na LGPD?"
]

print("=== TESTANDO M√öLTIPLAS CONSULTAS ===")
for pergunta in perguntas_teste[:2]:  # Testar apenas 2 para n√£o sobrecarregar
    resultado = consultar_lgpd(pergunta)
    print(f"\nüìã PERGUNTA: {resultado['pergunta']}")
    print(f"üìÑ DOCUMENTOS: {resultado['documentos_fonte']}")
    print(f"‚úÖ RESPOSTA: {resultado['resposta'][:300]}...")
    print("-" * 80)

=== TESTANDO M√öLTIPLAS CONSULTAS ===

üìã PERGUNTA: Quais s√£o os direitos dos titulares de dados na LGPD?
üìÑ DOCUMENTOS: 13
‚úÖ RESPOSTA: Os direitos dos titulares de dados pessoais est√£o previstos no art. 18 da Lei Geral de Prote√ß√£o de Dados (LGPD). Esses direitos s√£o fundamentais para garantir a prote√ß√£o da privacidade e dos dados pessoais dos indiv√≠duos. Veja os principais direitos listados na LGPD:

1. **Confirma√ß√£o da exist√™ncia ...
--------------------------------------------------------------------------------

üìã PERGUNTA: Qual √© o prazo para responder ao titular sobre seus dados?
üìÑ DOCUMENTOS: 13
‚úÖ RESPOSTA: A Lei Geral de Prote√ß√£o de Dados Pessoais (LGPD) n√£o estabelece de maneira expl√≠cita um prazo espec√≠fico para que o controlador responda √†s solicita√ß√µes dos titulares sobre seus dados. No entanto, o artigo 18 da LGPD assegura ao titular, dentre v√°rios direitos, o de obter do controlador:

- Confirma...
---------------------------------------