In [6]:
from langchain_ollama import ChatOllama
from llms import get_llama
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_community.document_loaders import PyMuPDFLoader
from langchain_core.prompts import PromptTemplate
from langchain.chains import LLMChain
from langchain_chroma import Chroma
from pydantic import BaseModel, Field

from config import Config

print(Config.OLLAMA_MODEL, Config.OLLAMA_CONTEXT_SIZE)

llama3.2 6144


In [7]:
def split_documents(file_path, page_start=None, page_end=None):
    loader = PyMuPDFLoader(file_path=file_path)
    doc = loader.load()[page_start:page_end]

    text_splitter = RecursiveCharacterTextSplitter(
        chunk_size=Config.SPLITTER_CHUNK_SIZE,
        chunk_overlap=Config.SPLITTER_CHUNK_OVERLAP
    )
    docs = text_splitter.split_documents(doc)
    return docs

In [8]:
from langchain_core.output_parsers import JsonOutputParser

class CabecalhoJsonOutputParser(JsonOutputParser):
    def get_format_instructions(self):
        return """'A saída deve ser formatada em JSON, conforme o esquema JSON abaixo.\n\nPor exemplo, para o esquema {"properties": {"foo": {"title": "Foo", "description": "uma lista de strings", "type": "array", "items": {"type": "string"}}}, "required": ["foo"]}\no objeto {"foo": ["bar", "baz"]} é uma instância bem formatada do esquema. O objeto {"properties": {"foo": ["bar", "baz"]}} não está bem formatado.\n\nEsse é o esquema de saída:\n```{'properties': {'data_do_julgamento': {'description': 'Data do julgamento', 'title': 'Data Do Julgamento', 'type': 'string'}, 'numero_do_processo': {'description': 'Numero do processo ou numero do recurso eleitoral', 'title': 'Numero Do Processo', 'type': 'string'}, 'origem': {'description': 'Origem do processo', 'title': 'Origem', 'type': 'string'}, 'relator': {'description': 'Relator do processo', 'title': 'Relator', 'type': 'string'}, 'recorrentes': {'description': 'Lista de recorrentes do processo', 'items': {'additionalProperties': {'type': 'string'}, 'type': 'object'}, 'title': 'Recorrentes', 'type': 'array'}, 'recorridos': {'description': 'Lista de recorridos do processo', 'items': {'additionalProperties': {'type': 'string'}, 'type': 'object'}, 'title': 'Recorridos', 'type': 'array'}}, 'required': ['data_do_julgamento', 'numero_do_processo', 'origem', 'relator', 'recorrentes', 'recorridos'], 'title': 'Cabecalho', 'type': 'object'}```"""

In [9]:
from pprint import pprint
from langchain_ollama import OllamaEmbeddings
from langchain.chains import create_retrieval_chain
from langchain.chains.combine_documents import create_stuff_documents_chain


def stuff(docs, host, results, key, prompt_template, output_model: BaseModel, parser_type = JsonOutputParser):
    parser = parser_type(pydantic_object=output_model)
    prompt = PromptTemplate(
        template=prompt_template,
        input_variables=["context"],
        partial_variables={"format_instructions": parser.get_format_instructions()},
    )

    print("PROMPT")
    pprint(prompt)
    
    llm: ChatOllama = get_llama(host=host)

    embeddings_model = OllamaEmbeddings(
        base_url=Config.OLLAMA_EMBEDDINGS_BASE_URL,
        model=Config.OLLAMA_EMBEDDINGS_MODEL
    )
    vectorstore = Chroma(
        collection_name='acordaos',
        embedding_function=embeddings_model,
    )
    vectorstore.add_documents(documents=docs)
    retriever = vectorstore.as_retriever()

    document_chain = create_stuff_documents_chain(llm, prompt)
    retrieval_chain = create_retrieval_chain(retriever, document_chain)

    print(f"calling {host}")

        
    result = retrieval_chain.invoke({'input': 'Comece.'})
    pprint(result)
    parsed = parser.parse(result['answer'])
    pprint(parsed)
    # result = format_chain.invoke({'context': result['output_text']})

    print('\a')
    print(f"\nHOST {host}:\n")

    # simplificar_prompt = PromptTemplate.from_template(
    #     '''
    #     Simplifique a linguagem usada no texto. Para isso, siga as seguintes diretrizes
    #     '''
    # )

    results[key]['response'] = result['answer']
    results[key]['prompt'] = [
        str(prompt),
    ]

    # history.save('mapreduce', '', result['text'])
    return result

In [11]:
from typing import List, Optional, Dict

class Recorrente(BaseModel):
    recorrente: str = Field(description="Nome do recorrente")
    advogados: List[str] = Field(description="Nomes e OABs dos advogados")

class Recorrido(BaseModel):
    recorrido: str = Field(description="Nome do recorrido")
    advogados: Optional[List[str]] = Field(description="Nomes e OABs dos advogados")

class Cabecalho(BaseModel):
    data_do_julgamento: str = Field(description="Data do julgamento")
    numero_do_processo: str = Field(description="Numero do processo ou numero do recurso eleitoral")
    origem: str = Field(description="Origem do processo")
    relator: str = Field(description="Relator do processo")
    recorrentes: list[dict[str, str]] = Field(description="Lista de recorrentes do processo")
    recorridos: list[dict[str, str]] = Field(description="Lista de recorridos do processo")

In [12]:
print(Cabecalho.model_json_schema())

{'properties': {'data_do_julgamento': {'description': 'Data do julgamento', 'title': 'Data Do Julgamento', 'type': 'string'}, 'numero_do_processo': {'description': 'Numero do processo ou numero do recurso eleitoral', 'title': 'Numero Do Processo', 'type': 'string'}, 'origem': {'description': 'Origem do processo', 'title': 'Origem', 'type': 'string'}, 'relator': {'description': 'Relator do processo', 'title': 'Relator', 'type': 'string'}, 'recorrentes': {'description': 'Lista de recorrentes do processo', 'items': {'additionalProperties': {'type': 'string'}, 'type': 'object'}, 'title': 'Recorrentes', 'type': 'array'}, 'recorridos': {'description': 'Lista de recorridos do processo', 'items': {'additionalProperties': {'type': 'string'}, 'type': 'object'}, 'title': 'Recorridos', 'type': 'array'}}, 'required': ['data_do_julgamento', 'numero_do_processo', 'origem', 'relator', 'recorrentes', 'recorridos'], 'title': 'Cabecalho', 'type': 'object'}


In [13]:
results = {
    "cabecalho": {},
    "relatorio": {},
    "voto": {},
    "decisao": {},
}

In [14]:
file_path = "documentos/acordaos/0600012-49_REl_28052024_1.pdf"

In [15]:
start_page = 0
end_page = 1
doc = split_documents(file_path, start_page, end_page)

In [19]:
cabecalho_prompt = """
    Extraia do texto as informações conforme as instruções de formatação.

    {format_instructions}
    
    ### Contexto
    
    {context}

    ### Resposta
    """

In [None]:
result = stuff(doc, 0, results, 'cabecalho', cabecalho_prompt, Cabecalho)

PROMPT
PromptTemplate(input_variables=['context'], input_types={}, partial_variables={'format_instructions': 'The output should be formatted as a JSON instance that conforms to the JSON schema below.\n\nAs an example, for the schema {"properties": {"foo": {"title": "Foo", "description": "a list of strings", "type": "array", "items": {"type": "string"}}}, "required": ["foo"]}\nthe object {"foo": ["bar", "baz"]} is a well-formatted instance of the schema. The object {"properties": {"foo": ["bar", "baz"]}} is not well-formatted.\n\nHere is the output schema:\n```\n{"properties": {"data_do_julgamento": {"description": "Data do julgamento", "title": "Data Do Julgamento", "type": "string"}, "numero_do_processo": {"description": "Numero do processo ou numero do recurso eleitoral", "title": "Numero Do Processo", "type": "string"}, "origem": {"description": "Origem do processo", "title": "Origem", "type": "string"}, "relator": {"description": "Relator do processo", "title": "Relator", "type": "

Number of requested results 4 is greater than number of elements in index 2, updating n_results = 2


calling 0


In [54]:
start_page = 2
end_page = 5
doc = split_documents(file_path, start_page, end_page)

In [55]:
relatorio_prompt = PromptTemplate.from_template(
    """
    ### SISTEMA
    Você é um especialista jurídico com foco em simplificação de textos legais. Sua tarefa é analisar acórdãos judiciais e gerar um resumo simplificado, acessível ao público geral, sem perder a precisão jurídica. O formato do documento simplificado deve ser claro, objetivo e seguir uma estrutura pré-definida.

    Preencha o acórdão simplificado utilizando as informações fornecidas em cada bloco. Siga o formato abaixo para garantir que todos os elementos necessários sejam cobertos e organizados conforme a estrutura do acórdão:

    ```
    **2. Relatório (O Caso)**

    Resuma de forma objetiva os fatos apresentados no acórdão, destacando em 3 parágrafos, com no máximo 3 linhas cada um, e, quando for o caso, caixa de texto explicativa, tudo em texto contínuo.

    O QUE DEVE CONTER EM CADA PARÁGRAFO:

    2.1. Parágrafo 1: Descreva as informações do processo inicial analisado pelo juiz, indicando:

    ◦ **O que o autor pediu?**

    **◦ O que o réu alegou para se defender?**

    2.2. Parágrafo 2: Apresente a decisão do juiz no processo inicial, descrevendo o que o juiz decidiu e as justificativas legais usadas, Cite artigos de lei e fundamentos jurídicos relevantes, considerando:

    ◦ **O que o juiz decidiu?**

    **◦ Quais foram as justificativas legais da decisão?**

    **◦ Cite artigos de lei e fundamentos jurídicos relevantes**

    2.3. Parágrafo 3: Descreva de forma simples quem recorreu e o que alegou, indicando:

    ◦ **Quem recorreu?**

    **◦ O que alegou para recorrer?**

    2.4. Parágrafo 4: Caixa de Texto Explicativa com Termos Jurídicos Relevante para compreensão do assunto principal

    ◦ **A caixa de texto explicativa tem o objetivo de fornecer definições e explicações simples de termos, expressões ou assuntos jurídicos relevantes para a compreensão do assunto principal do acórdão, ajudando o leitor a entender o contexto e o conteúdo legal envolvido.**

    **◦ Exemplo: “Propaganda antecipada negativa: A propaganda eleitoral antecipada negativa acontece quando, antes de 16 de agosto do ano eleitoral (art. 36 da Lei nº 9.504/1997), alguém faz críticas para prejudicar adversários políticos e influenciar eleitores. Essa prática é proibida e pode resultar em multa”.**
    ```

    ### CONTEXTO

    {context}

    ### RESPOSTA
    """
)

In [56]:
result = stuff(doc, 0, results, 'relatorio', relatorio_prompt)

calling 0
{'answer': '**2. Relatório (O Caso)**\n'
           '\n'
           '### O que o autor pediu?\n'
           '\n'
           'O autor, Antônio Ilomar Vasconcelos Cruz, recorreu contra a '
           'decisão do Tribunal Regional Eleitoral do Ceará, que havia negado '
           'seu pedido de reforma da sentença e julgamento improcedente da '
           'Representação. Ele argumentou que não realizou propaganda '
           'eleitoral ou conduta que possa macular o princípio de isonomia '
           'entre os candidatos.\n'
           '\n'
           '### O que o réu alegou para se defender?\n'
           '\n'
           'A Promotoria Eleitoral, representada pelo Procurador Regional '
           'Eleitoral Samuel Miranda Arruda, pugnou pelo não provimento do '
           'recurso. Ela argumentou que o recorrente realizou propaganda '
           'irregular, com pedido explícito de votos, e que a infraestrutura '
           'do evento e o local onde fora realizado seriam indicat

In [57]:
start_page = 5
end_page = 11
doc = split_documents(file_path, start_page, end_page)

In [58]:
voto_prompt = PromptTemplate.from_template(
    """
    ### SISTEMA
    Você é um especialista jurídico com foco em simplificação de textos legais. Sua tarefa é analisar acórdãos judiciais e gerar um resumo simplificado, acessível ao público geral, sem perder a precisão jurídica. O formato do documento simplificado deve ser claro, objetivo e seguir uma estrutura pré-definida.

    Preencha o acórdão simplificado utilizando as informações fornecidas em cada bloco. Siga o formato abaixo para garantir que todos os elementos necessários sejam cobertos e organizados conforme a estrutura do acórdão:

    ```
    ### 3. Voto (Argumentação/ Motivação/ Fundamentação)

    Apresente as razões jurídicas que embasaram a decisão do Tribunal, destacando, em 2 parágrafos, com no máximo 3 linhas, de texto contínuo, considerando:
    
    ◦ **Quais foram os princípios legais aplicados.**
    
    **◦ A interpretação dada à legislação.**
    
    **◦ Argumentos relevantes usados na motivação.**
    
    **◦ Use uma linguagem simples e evite jargões técnicos sempre que possível.**
    
    O QUE DEVE CONTER EM CADA PARÁGRAFO:
    
    3.1. Parágrafo 1: Fundamentação de Fato e de Direito: 
    
    ◦ **Explique os fatos relevantes.**
    
    **◦ Apresente a fundamentação jurídica, citando artigos de lei, precedentes jurisprudenciais que embasam a decisão do Tribunal.**
    
    3.2. Parágrafo 2: Conclusão e Decisão:
    
    ◦ **Conclusão do Voto.**
    
    **◦ Decisão Final com possíveis implicações.**
    ```

    ### CONTEXTO

    {context}

    ### RESPOSTA
    """
)

In [59]:
result = stuff(doc, 0, results, 'voto', voto_prompt)

calling 0
{'answer': '### 3. Voto (Argumentação/Motivação/Fundamentação)\n'
           '\n'
           '#### 3.1. Parágrafo 1: Fundamentação de Fato e de Direito:\n'
           '\n'
           'O caso em julgamento envolveu a realização de propaganda eleitoral '
           'antecipada por parte do representado, que fazia expressa alusão à '
           'sua candidatura e pedido explícito de votos. Os documentos '
           'colacionados à inicial demonstram claramente essa conduta.\n'
           '\n'
           'A fundamentação jurídica é baseada na Lei 9.504/97, que regula as '
           'eleições diretas para prefeito. O artigo 36-A desse diploma legal '
           'estabelece que a propaganda eleitoral só pode ser realizada '
           'durante o período oficial de campanha. Além disso, o artigo 36, § '
           '3º, prevê penalidade para atos não abrangidos pelo rol do artigo '
           '36-A.\n'
           '\n'
           '#### 3.2. Parágrafo 2: Conclusão e Decisão:\n'
     

In [60]:
start_page = 10
end_page = 12
doc = split_documents(file_path, start_page, end_page)

In [61]:
decisao_prompt = PromptTemplate.from_template(
    """
    ### SISTEMA
    Você é um especialista jurídico com foco em simplificação de textos legais. Sua tarefa é analisar acórdãos judiciais e gerar um resumo simplificado, acessível ao público geral, sem perder a precisão jurídica. O formato do documento simplificado deve ser claro, objetivo e seguir uma estrutura pré-definida.

    Preencha o acórdão simplificado utilizando as informações fornecidas em cada bloco. Siga o formato abaixo para garantir que todos os elementos necessários sejam cobertos e organizados conforme a estrutura do acórdão:

    ```
    ### **4. Resultado do Julgamento (Dispositivo):**

    Informe de maneira direta e clara o resultado final da decisão, incluindo em 2 parágrafos, com no máximo 3 linhas em cada um, em texto contínuo:
    
    4.1. Parágrafo 1: Resultado do Julgamento
    
    Aqui, deverá ser informado o resultado final da decisão, se a decisão foi unânime ou não, se manteve a decisão original ou a modificou.
    
    **◦ Resuma o resultado do julgamento de forma clara e objetiva.**
    
    **◦ Exemplo: “O Tribunal Regional Eleitoral do Ceará, por unanimidade, decidiu manter a decisão original, entendendo que...".**
    
    4.2. Parágrafo 2: Decisão Clara e Direta
    
    **◦ Indique de forma concisa apenas uma das opções considerando o PDF ou texto inserido:
    - Recurso Negado;
    - Recurso Aceito;
    - Recurso Parcialmente Aceito.**
    
    **◦ Exemplo: "Recurso Negado."**
    ```

    ### CONTEXTO

    {context}
    """
)

In [62]:
result = stuff(doc, 0, results, 'decisao', decisao_prompt)

calling 0
{'answer': '### **4. Resultado do Julgamento (Dispositivo):**\n'
           '\n'
           '#### Parágrafo 1: Resultado do Julgamento\n'
           '\n'
           'O Tribunal Regional Eleitoral do Ceará, por unanimidade, decidiu '
           'manter a decisão original, entendendo que a utilização de jingle '
           'de campanha faz expressa alusão à candidatura e extrai pedido '
           'explícito de votos.\n'
           '\n'
           '#### Parágrafo 2: Decisão Clara e Direta\n'
           '\n'
           'Recurso Negado.',
 'context': [Document(metadata={'author': '', 'creationDate': "D:20240604121301-03'00'", 'creator': '', 'file_path': 'documentos/acordaos/0600012-49_REl_28052024_1.pdf', 'format': 'PDF 1.7', 'keywords': '', 'modDate': "D:20240604121301-03'00'", 'page': 2, 'producer': 'iText® 7.1.16 ©2000-2021 iText Group NV (AGPL-version)', 'source': 'documentos/acordaos/0600012-49_REl_28052024_1.pdf', 'subject': '', 'title': '', 'total_pages': 12, 'trapped': ''

In [63]:
prompts = f"""# Cabeçalho

{results['cabecalho']['prompt']}

# Relatório

{results['relatorio']['prompt']}

# Voto

{results['voto']['prompt']}

# Decisão

{results['decisao']['prompt']}
"""
print(len(prompts))
pprint(prompts)

7533
('# Cabeçalho\n'
 '\n'
 '["input_variables=[\'context\'] input_types={} partial_variables={} '
 "template='\\\\n    ### Sistema\\\\n\\\\n    Extraia do texto somente as "
 'seguintes informações:\\\\n    \\\\n    -   Número do processo (ou número do '
 'recurso eleitoral)\\\\n    -   Origem\\\\n    -   Relator\\\\n    -   '
 'Recorrente\\\\n    -   Advogados(as)\\\\n    -   Recorrido\\\\n    -   '
 'Assunto\\\\n    \\\\n    Formate sua resposta como uma lista, assim:\\\\n    '
 '\\\\n    -   Número do processo: Número do processo\\\\n    -   Origem: '
 'Origem\\\\n    -   Relator: Relator\\\\n    -   Recorrente: '
 'Recorrente\\\\n    -   Advogados: Advogados(as)\\\\n    -   Recorrido: '
 'Recorrido\\\\n    -   Assunto: Assunto, em 2 ou 3 palavras\\\\n    \\\\n    '
 '### Exemplo de entrada:\\\\n    \\\\n    ```\\\\n    PODER '
 'JUDICIÁRIO\\\\n    TRIBUNAL REGIONAL ELEITORAL DO CEARÁ\\\\n    \\\\n    '
 'RECURSO ELEITORAL N. 0600012-49.2024.6.06.0033\\\\n    ORIGEM: '
 'CANINDÉ/C

In [64]:
acordao = f"""{results['cabecalho']['response']}

{results['relatorio']['response']}

{results['voto']['response']}

{results['decisao']['response']}
"""
print(len(acordao))
pprint(acordao)

4426
('-   Número do processo: 0600012-49.2024.6.06.0033\n'
 '-   Origem: CANINDÉ/CE\n'
 '-   Relator: DESEMBARGADOR ELEITORAL DANIEL CARVALHO CARNEIRO\n'
 '-   Recorrente: ANTÔNIO ILOMAR VASCONCELOS CRUZ\n'
 '-   Advogados(as): FRANCISCO JARDEL RODRIGUES DE SOUSA - OAB CE32787-A, '
 'LIDENIRA CAVALCANTE MENDONÇA VIEIRA - OAB CE0016731\n'
 '-   Recorrido: MINISTÉRIO PÚBLICO ELEITORAL\n'
 '-   Assunto: Propaganda Eleitoral\n'
 '\n'
 '**2. Relatório (O Caso)**\n'
 '\n'
 '### O que o autor pediu?\n'
 '\n'
 'O autor, Antônio Ilomar Vasconcelos Cruz, recorreu contra a decisão do '
 'Tribunal Regional Eleitoral do Ceará, que havia negado seu pedido de reforma '
 'da sentença e julgamento improcedente da Representação. Ele argumentou que '
 'não realizou propaganda eleitoral ou conduta que possa macular o princípio '
 'de isonomia entre os candidatos.\n'
 '\n'
 '### O que o réu alegou para se defender?\n'
 '\n'
 'A Promotoria Eleitoral, representada pelo Procurador Regional Eleitoral '
 'Samu

In [69]:
simplificar_prompt = PromptTemplate.from_template("""
    Simplifique o texto, mantendo sua estrutura original e seguindo as seguintes diretivas:

    1. Utilize sempre uma linguagem simples e direta, evitando termos técnicos desnecessários. Caso seja imprescindível usar um termo jurídico específico, certifique-se de explicá-lo claramente.
    2. Mantenha o número de parágrafos e linhas conforme indicado para cada seção.
    3. Assegure-se de que as informações jurídicas sejam precisas e que a fundamentação legal esteja diretamente relacionada ao caso em discussão.
    4. Siga as regras de linguagem simples: seja empático e cordial, use frases curtas, escreva na ordem direta e em voz ativa, coloque as informações mais importantes no início e utilize verbos de ação.
    5. Revise o texto para garantir que seja claro e acessível, evitando siglas, jargões e termos técnicos. Confirme se todas as diretrizes e restrições foram cumpridas.
    6. Adote uma escrita humanizada, procurando aproximar o texto da forma como um ser humano se expressaria, para tornar a comunicação mais próxima e compreensível.

    ### CONTEXTO

    ```
    {context}
    ```

    ### RESPOSTA
""")

In [70]:
simplificar_chain = simplificar_prompt | get_llama(0)

In [71]:
result = simplificar_chain.invoke({'context': acordao})

In [72]:
pprint(result.content)

('**Contexto**\n'
 '\n'
 'O caso em questão envolveu a realização de propaganda eleitoral antecipada '
 'por parte do representado, que fazia expressa alusão à sua candidatura e '
 'pedido explícito de votos. A fundamentação jurídica é baseada na Lei '
 '9.504/97, que regula as eleições diretas para prefeito.\n'
 '\n'
 '**O que o autor pediu?**\n'
 '\n'
 'O autor recorreu contra a decisão do Tribunal Regional Eleitoral do Ceará, '
 'argumentando que não realizou propaganda eleitoral ou conduta que possa '
 'macular o princípio de isonomia entre os candidatos.\n'
 '\n'
 '**O que o réu alegou para se defender?**\n'
 '\n'
 'A Promotoria Eleitoral pugnou pelo não provimento do recurso, argumentando '
 'que o recorrente realizou propaganda irregular e que a infraestrutura do '
 'evento e o local onde fora realizado seriam indicativos do objetivo de '
 'ampliar o alcance da mensagem de sua pré-candidatura.\n'
 '\n'
 '**O que o juiz decidiu?**\n'
 '\n'
 'O Tribunal Regional Eleitoral do Ceará