In [1]:
import os

In [2]:
import weaviate
from weaviate.embedded import EmbeddedOptions

# client = weaviate.connect_to_embedded()

weaviate_client = weaviate.WeaviateClient(
    embedded_options=EmbeddedOptions(
        persistence_data_path="../weaviate_persistence"
    )
)

weaviate_client

{"action":"startup","default_vectorizer_module":"none","level":"info","msg":"the default vectorizer modules is set to \"none\", as a result all new schema classes without an explicit vectorizer setting, will use this vectorizer","time":"2024-10-10T18:32:35Z"}
{"action":"startup","auto_schema_enabled":true,"level":"info","msg":"auto schema enabled setting is set to \"true\"","time":"2024-10-10T18:32:35Z"}
{"level":"info","msg":"No resource limits set, weaviate will use all available memory and CPU. To limit resources, set LIMIT_RESOURCES=true","time":"2024-10-10T18:32:35Z"}
{"level":"info","msg":"module offload-s3 is enabled","time":"2024-10-10T18:32:35Z"}
{"level":"info","msg":"open cluster service","servers":{"Embedded_at_8079":46565},"time":"2024-10-10T18:32:35Z"}
{"address":"172.17.0.2:46566","level":"info","msg":"starting cloud rpc server ...","time":"2024-10-10T18:32:35Z"}
{"level":"info","msg":"starting raft sub-system ...","time":"2024-10-10T18:32:35Z"}
{"address":"172.17.0.2:46

<weaviate.client.WeaviateClient at 0x7fc4950f7990>

In [3]:
from unstructured.chunking.title import chunk_by_title
from langchain_core.documents import Document
from unstructured.partition.auto import partition

def get_langchain_docs(elements, filename):

    # create chunks to better rag
    chunks = chunk_by_title(elements, max_characters=1500, new_after_n_chars=1000, overlap=150)
    
    documents = []
    # convert to the Langchain format
    for chunk in chunks:
        metadata = chunk.metadata.to_dict()
        # print("---------------------")
        # print(metadata)
        # print("---------------------")
        # print(chunk.text)

        del metadata["languages"]
        if "filename" in metadata:
            metadata["source"] = metadata["filename"]
        else:
            metadata["source"] = filename
            metadata["filename"] = filename

        documents.append(Document(page_content=chunk.text, metadata=metadata))

    return documents

{"action":"telemetry_push","level":"info","msg":"telemetry started","payload":"\u0026{MachineID:873cb916-ef00-4cc4-bcd4-78da2f61c874 Type:INIT Version:1.26.1 NumObjects:0 OS:linux Arch:amd64 UsedModules:[]}","time":"2024-10-10T18:32:37Z"}


In [4]:
folder_path = "../docs"

path, dirs, files = next(os.walk(folder_path))
        
documents_all = []
for file in files:
    with open( os.path.join(path, file), 'rb') as f:
        print(f'Opening file: {file}')
        
        # open file, clean, segment
        elements = partition(file=f)
        
        documents = get_langchain_docs(elements, file)
        documents_all.extend(documents)

documents_all

Opening file: PJeMídiasDesktop - Envio de Provas em MP4.pdf
Opening file: Manual_de_utilização_do_PJe_sem_certificado_digital.pdf
Opening file: PJE - Processo Judicial Eletrônico.pdf
Opening file: PJeMídias - Acesso à gravação de audiências ou perícias.pdf
Opening file: Instalação do PJePortable v. 1.13.10 - para uso do PJe.pdf
Opening file: TRT04 - Manual para advogados e peritos (cadastramento de dados bancários para créditos em processos do TRT04).pdf
Opening file: MANUAL FUNCIONAMENTO DAS PROCURADORIAS NO PJE.pdf
Opening file: Zoom - CDTI OAB.pdf
Opening file: TRT04 - PJE 2.10.1 - Manual de autuação no  painel do procurador.pdf
Opening file: PROCEDIMENTOS PARA ENVIO DE CÁLCULOS DO PJECALC NO PJE PARA ADVOGADOS.pdf
Opening file: guiapje-advogados.pdf
Opening file: Manual.pdf
Opening file: TRT04 - Guia para participação em audiências_sessões com a ferramenta Zoom.pdf
Opening file: guiapje-usuarios.pdf
Opening file: processo_judicial_eletronico_grafica2.pdf
Opening file: TRT04 - MANUA

[Document(metadata={'filetype': 'application/pdf', 'page_number': 1, 'orig_elements': 'eJzNW11z2zYW/SscP7Uzrozvj7y5iXfrbGtnHGdfsp0MCFw4bCVRFSknbWf/+16ApC1ZTi1Nl44yGQ0PdSlR9+DgHlzQ7/88ginMYN5+qMLRi+Ko5MREaZi03HPOtYpWUyBCxOgN8/7ouDiaQeuCax3G/3nk63oZqrlrocl46n6vV+2Hj1DdfGzxjBEML+nPfqpC+xFPSqvw5KKu5m266v17wdnEHBd6In4+LgZEbQelIo/AFIvwqPm9aWGW7v1N9RmmbxfOw9F/8Y1YTaH9fQHpLbdYTCvv2qqenyxCPMq3NL9ZuZt82++PYH5zlD5tgWc+zFezEpZ4nqbPaeFz+iFHp+3KTas/XKgLmBVMnRB2wgij6cOG7/kBXMAr8bKtxBKPNy6MZoJGap3xUoMThjoenbR0pMQyRScEcyfZRKbkDVirDnMuJvwRnONHT28+s9xj9K3zcX11TcR68q+rdgqP5Z7EyKMuGXHWEJDE4qdqUEIHomOUcaTcU2NyLq2akJTbHjNGOiyITlw8xF38Yef+zWv46T8rQiCEyjXFK2h+bevFTmQEwxk1kWkRSCCCWc8iUyQIi+9oMCORgUm1mGtuu3HeQ8U7KKyZiEdwDj9sKs7mt1VdBCjc8rdVdVs36ThzQ1cB34HitmcK6p0IstLTEiwygzfgS5yiLLgoVKSUSkFhLLVIPcFTzPBeLR3mSRRdUdATvY27+MOmCK90xWJZe2ga5OcX5MVXrmp2ooPT0hPCubJOgNYeNcKp9iXB+iEIF2PRgbMSKoSzvjAMWJJeIVokhWzhHP/sdDw5Ztfp+AY+++mqqW5dSjMUsV7OXFsXk5/eiG/XOblwyyXe2y1cpysf4YYqGSh1TChCqA6GUvBMRcZCqZ3j5VjcEJMKhaC0c0QDZrx3SHjAH

In [18]:
print( documents_all[0].page_content )

Atualizado em 26/02/2021

TRT04

PJeMídias Desktop

Envio de arquivos de áudio e vídeo

para processos judiciais

(exclusivamente formato .MP4)

ATENÇÃO: este material é destinado a advogados e peritos que atuam no

TRT04.

1 - Cadastro de Advogados

1

2 - Instalação

1

3 - Funcionamento

3

4 - Erros e Soluções

Erro CKR_DEVICE_ERROR ao assinar mídias

12 13

PODER JUDICIÁRIO TRIBUNAL REGIONAL DO TRABALHO Secretaria de Tecnologia de Informação e Comunicação Coordenadoria de Implantação de Sistemas

1 - Cadastro de Advogados

Para acessar o PJe Mídias é necessário antes realizar o cadastro no sistema

Escritório Digital

do CNJ, pelo link: https://www.escritoriodigital.jus.br ou

https://www.escritoriodigital.jus.br/escritoriodigital/login.faces .

No primeiro acesso ao Escritório Digital, o processo de cadastro de novo

usuário irá consultar o Cadastro Nacional de Advogado (CNA). Havendo registro

desse usuário no CNA (ou seja, sendo efetivamente advogado registrado na OAB),

a senh

In [5]:
from langchain_community.embeddings import GPT4AllEmbeddings
        
model_name = "nomic-embed-text-v1.f16.gguf"

gpt4all_kwargs = {'allow_download': 'True'}

embeddings_provider = GPT4AllEmbeddings(
    model_name=model_name,
    gpt4all_kwargs=gpt4all_kwargs
)
embeddings_provider


Failed to load libllamamodel-mainline-cuda.so: dlopen: libcudart.so.11.0: cannot open shared object file: No such file or directory
Failed to load libllamamodel-mainline-cuda-avxonly.so: dlopen: libcudart.so.11.0: cannot open shared object file: No such file or directory


GPT4AllEmbeddings(model_name='nomic-embed-text-v1.f16.gguf', n_threads=None, device='cpu', gpt4all_kwargs={'allow_download': 'True'}, client=<gpt4all.gpt4all.Embed4All object at 0x7fc39723c890>)

In [8]:
from langchain_weaviate.vectorstores import WeaviateVectorStore

index_name = "index1"

weaviate_client.connect()

vector_store = WeaviateVectorStore.from_documents(documents,  embeddings_provider, client=weaviate_client, index_name=index_name)
vector_store

{"action":"hnsw_prefill_cache_async","level":"info","msg":"not waiting for vector cache prefill, running in background","time":"2024-10-10T18:33:45Z","wait_for_cache_prefill":false}
{"level":"info","msg":"Created shard index1_1FAgltT4bhuU in 1.387671ms","time":"2024-10-10T18:33:45Z"}
{"action":"hnsw_vector_cache_prefill","count":1000,"index_id":"main","level":"info","limit":1000000000000,"msg":"prefilled vector cache","time":"2024-10-10T18:33:45Z","took":47496}


<langchain_weaviate.vectorstores.WeaviateVectorStore at 0x7fc3657e2390>

In [34]:
# retriever = vector_store.as_retriever(search_type="mmr", fetch_k=20)
retriever = vector_store.as_retriever(search_type="similarity", k=4)  #default settings from langchain

In [35]:
from langchain_core.prompts import PromptTemplate

prompt_rag_basic = (
    "You are an assistant for question-answering tasks. "
    "Use the following pieces of retrieved context to answer the question. "
    "If you don't know the answer, just say that you don't know. "
    "Use three sentences maximum and keep the answer concise."
    "Question: {question} "
    "Context: {context} "
    "Answer: "
)

prompt_rag_basic_lc = PromptTemplate.from_template(prompt_rag_basic)

In [36]:
from langchain_google_genai import ChatGoogleGenerativeAI

llm_gemini = ChatGoogleGenerativeAI(
    model="gemini-1.5-flash-latest",
    temperature=0.5,
    max_tokens=None,
    timeout=None,
    max_retries=500,
)

In [39]:
from langchain.schema import StrOutputParser
from langchain_core.runnables import RunnablePassthrough

def format_docs(docs):
    print("Documents retrieved used as context:")
    for doc in docs:
        print(f"=============================== Filename: {doc.metadata['filename']}")
        print(doc.page_content)

    return "\n\n".join(doc.page_content for doc in docs)


rag_chain = (
    {"context": retriever | format_docs, "question": RunnablePassthrough()}
    | prompt_rag_basic_lc
    | llm_gemini
    | StrOutputParser()
)

In [42]:
response = rag_chain.invoke("como acessar o PJe?")

print("================== AI response")
print( response )

Documents retrieved used as context:
Material elaborado pela SETIC/CIS

3

PODER JUDICIÁRIO TRIBUNAL REGIONAL DO TRABALHO Secretaria de Tecnologia de Informação e Comunicação Coordenadoria de Implantação de Sistemas

Caso a máquina já possua uma versão do PJeMídias é necessário que ela

seja desinstalada previamente para se fazer o novo download.

Ao final do download do arquivo podem aparecer as mensagens abaixo,

devendo-se clicar em “Mais informações”:

E depois clicar em “Executar assim mesmo”:

Pode aparecer também a imagem abaixo, devendo-se clicar em “Manter”:

Material elaborado pela SETIC/CIS

4

PODER JUDICIÁRIO TRIBUNAL REGIONAL DO TRABALHO Secretaria de Tecnologia de Informação e Comunicação Coordenadoria de Implantação de Sistemas

Importante destacar que é necessário que na máquina o programa JAVA

esteja instalado.

4 - Envio de vídeos

Para acessar o PJeMídias Desktop deve ser preenchido o CPF no campo

usuário e a senha cadastrada. Realizado o login, o sistema direcion