# Imports and preparation

In [1]:
import os

In [2]:
import numpy as np

In [3]:
import pandas as pd

In [4]:
from tqdm import tqdm

In [30]:
import time, gc

In [6]:
from util import util_elastic

In [7]:
from util import util_search

In [48]:
from haystack.nodes import SentenceTransformersRankerLimit
from haystack.nodes import MonoT5RankerLimit 

In [10]:
# Para ter repetibilidade nos resultados
random_state = 1

# Tratar valores infinitos (+ e -) como np.NaN
pd.options.mode.use_inf_as_na = True

# IMPORTANTE para tornar figuras interativas
# %matplotlib notebook

# Tamanho padrão das figuras
figsize=(10,6)

pd.set_option('display.max_row', 1000)

pd.set_option('display.max_columns', 50)

pd.set_option('display.column_space', 40)
pd.set_option('display.max_colwidth', 100)
pd.set_option('display.width', 200)


In [11]:
PATH_QUERY = '../data/index_juris/query.csv'
PATH_QREL =  '../data/index_juris/qrel.csv'

In [12]:
PATH_SEARCH_EXPERIMENT =  '../data/search/index_juris/search_experiment.csv'
PATH_SEARCH_RESULT =  '../data/search/index_juris/search_experiment_result.csv'

# Create reference to index (elastic search)

Documentation https://docs.haystack.deepset.ai/docs
https://haystack.deepset.ai/tutorials/09_dpr_training 


In [13]:
index_dict = util_elastic.return_indexes('indir', parm_print=True)

Index: indir_index_juris
{'health': 'yellow', 'status': 'open', 'index': 'indir_index_juris', 'uuid': 'pkdKp2wmTAOM0HyrusfENQ', 'pri': '1', 'rep': '1', 'docs.count': '13252', 'docs.deleted': '0', 'store.size': '276.4mb', 'pri.store.size': '276.4mb'}

There are no index with name indir%


In [16]:
INDEX_NAME = 'indir_index_juris'

In [19]:
index = util_elastic.return_index(parm_index_name=INDEX_NAME)


Qtd de documentos 13252

Qtd de embeddings 13252

Documento.id=1: <Document: id=1, content='O termo é "Abandono de cargo".
Abandono de cargo tem definição: "Configura abandono de cargo a ausên...'>


# Load search pipelines

In [34]:
# Test query
parm_query = "trata-se de uma denúncia contra o prefeito de Manhuaçu por não haver pago os funcionários da área de limpeza urbana"
parm_query = "A transferência de documentos da entidade para local impróprio ao armazenamento, causando a perda de informações ou inviabilizando seu manuseio, de forma a impedir a atuação do TCU, é causa de responsabilização do gestor que a ordenou."

In [38]:
import importlib
importlib.reload(util_elastic)

<module 'util.util_elastic' from '/home/borela/fontes/ind-ir/code/util/util_elastic.py'>

In [32]:
# defining retriever BM25
pipeline_bm25 = util_elastic.return_pipeline_bm25(index)


In [37]:
doc_search_return = pipeline_bm25.run(
    query=parm_query,
    params={
        "Retriever": {
            "top_k": 10,
            "filters":{"class": ["Termo"]}
        }})
util_search.detail_document_found(doc_search_return)


Parâmetros usados: {'Retriever': {'top_k': 10, 'filters': {'class': ['Termo']}}}
Consulta: A transferência de documentos da entidade para local impróprio ao armazenamento, causando a perda de informações ou inviabilizando seu manuseio, de forma a impedir a atuação do TCU, é causa de responsabilização do gestor que a ordenou.
Qtd documentos retornados: 10
Primeiro docto:
<Document: id=1102005, content='O termo é "Plano de contratações".
Plano de contratações tem definição: "É o documento no qual a org...'>

Último (10):
<Document: id=6627, content='O termo é "Matriz de fiscalização".
Matriz de fiscalização tem definição: "Uma matriz de fiscalizaçã...'>
Seguem os nomes dos termos recuperados em ordem de score
0 : ['Plano de contratações', 0.9857202004884205]
1 : ['Competência do TCU', 0.9850136948440441]
2 : ['Teletrabalho', 0.9823720344893851]
3 : ['Nexo de causalidade', 0.9818282753435749]
4 : ['Processo administrativo de responsabilização', 0.9816628569708713]
5 : ['Ofício de requisiç

In [41]:
## defining retriever STS (sentence similarity)
nome_modelo_embedding_model_sts_rufimelo = "rufimelo/Legal-BERTimbau-sts-large-ma-v3"
# requer Embedding dimensions of the model (1024) don't match the embedding dimensions of the document store (768). Initiate ElasticsearchDocumentStore again with arg embedding_dim=1024.
# nome_modelo = "unicamp-dl/ptt5-base-pt-msmarco-100k-v2"
# nome_modelo = "pierreguillou/bert-base-cased-squad-v1.1-portuguese"
nome_caminho_modelo = "/home/borela/fontes/relevar-busca/modelo/" + nome_modelo_embedding_model_sts_rufimelo
assert os.path.exists(nome_caminho_modelo), f"Path para {nome_caminho_modelo} não existe!"

In [43]:
pipeline_sts = util_elastic.return_pipeline_sts(index, nome_caminho_modelo)

In [44]:
doc_search_return = pipeline_sts.run(
    query=parm_query,
    params={
        "Retriever": {
            "top_k": 10,
            "filters":{"class": ["Termo"]}
        }})
util_search.detail_document_found(doc_search_return)


Parâmetros usados: {'Retriever': {'top_k': 10, 'filters': {'class': ['Termo']}}}
Consulta: A transferência de documentos da entidade para local impróprio ao armazenamento, causando a perda de informações ou inviabilizando seu manuseio, de forma a impedir a atuação do TCU, é causa de responsabilização do gestor que a ordenou.
Qtd documentos retornados: 10
Primeiro docto:
<Document: id=2577, content='O termo é "Afastamento de responsável".
Afastamento de responsável tem definição: "No início ou no c...'>

Último (10):
<Document: id=83, content='O termo é "Anulação".
Anulação tem definição: "É o ato ou a decisão, de caráter judicial ou administ...'>
Seguem os nomes dos termos recuperados em ordem de score
0 : ['Afastamento de responsável', 0.9546168861748239]
1 : ['Risco de controle', 0.9431321899255821]
2 : ['Vazamento de dados', 0.942404112002669]
3 : ['Trancamento das contas', 0.9341491636096659]
4 : ['Revisão de ofício', 0.9297291992714615]
5 : ['Responsabilidade perante o controle ex

## Reranking - minilm_pt


mMiniLM-L6-v2-pt-msmarco-v2 is a multilingual miniLM-based model finetuned on a Portuguese translated version of MS MARCO passage dataset. In the v2 version, the Portuguese dataset was translated using Google Translate. Further information about the dataset or the translation method can be found on our mMARCO: A Multilingual Version of MS MARCO Passage Ranking Dataset and mMARCO repository.


In [55]:
nome_modelo_ranking_pt = 'unicamp-dl/mMiniLM-L6-v2-pt-v2'
nome_caminho_modelo = "/home/borela/fontes/relevar-busca/modelo/" + nome_modelo_ranking_pt
assert os.path.exists(nome_caminho_modelo), f"Path para {nome_caminho_modelo} não existe!"

In [56]:
#ranker_minilm_pt = SentenceTransformersRanker(model_name_or_path=nome_caminho_modelo)
ranker_minilm_pt = SentenceTransformersRankerLimit(model_name_or_path=nome_caminho_modelo, limit_query_size=350)

In [50]:
doctos_retornados_ranker = ranker_minilm_pt.predict(query=parm_query,documents = doc_search_return['documents'], top_k=5)
print(doctos_retornados_ranker[0],  doctos_retornados_ranker[0].meta['name'])
util_search.detail_document_found(doctos_retornados_ranker)

<Document: id=1110487, content='O termo é "Vazamento de dados".
Vazamento de dados tem definição: "Transmissão não-autorizada de dad...'> Vazamento de dados
1110487 0.0024509401991963387 Vazamento de dados
1000057 0.0007997120846994221 Termo de sigilo
2663 0.0002845456183422357 Trancamento das contas
1101311 0.00022979704954195768 Risco de controle
15291 0.00013715452223550528 Revisão de ofício


## Reranking - monot5_3b


In [52]:
nome_modelo_monot5_multilingual = 'unicamp-dl/ptt5-base-pt-msmarco-100k-v2'
# "A mono-ptT5 reranker model (850 mb) pretrained in the BrWac corpus, finetuned for 100k steps on Portuguese translated version of MS MARCO passage dataset. The portuguese dataset was translated using Google Translate.")
nome_caminho_modelo = "/home/borela/fontes/relevar-busca/modelo/" + nome_modelo_monot5_multilingual
assert os.path.exists(nome_caminho_modelo), f"Path para {nome_caminho_modelo} não existe!"

In [53]:
ranker_monot5_multilingual = MonoT5RankerLimit(model_name_or_path=nome_caminho_modelo, limit_query_size=350)

In [57]:
doctos_retornados_ranker = ranker_monot5_multilingual.predict(query=parm_query,documents = doc_search_return['documents'], top_k=5)
print(doctos_retornados_ranker[0],  doctos_retornados_ranker[0].meta['name'])
util_search.detail_document_found(doctos_retornados_ranker)

<Document: id=2663, content='O termo é "Trancamento das contas".
Trancamento das contas tem definição: "O Tribunal ordenará o tra...'> Trancamento das contas
2663 -6.416285991668701 Trancamento das contas
2577 -6.9923858642578125 Afastamento de responsável
1000057 -8.37442398071289 Termo de sigilo
5098 -8.556228637695312 Responsabilidade perante o controle externo
15291 -9.356241226196289 Revisão de ofício
1110487 -9.744372367858887 Vazamento de dados
6397 -9.853102684020996 Ato vinculado
1101311 -10.173725128173828 Risco de controle
15939 -10.493630409240723 Erro de procedimento
83 -11.372177124023438 Anulação


## Criar pipelines

In [None]:
### Experimentando pipeline retriever bm25 + reranking 
pipe_bm25_ranker_monot5_3b = Pipeline()
pipe_bm25_ranker_monot5_3b.add_node(component=retriever_bm25, name="Retriever", inputs=["Query"])
pipe_bm25_ranker_monot5_3b.add_node(component=ranker_monot5_3b, name="Ranker", inputs=["Retriever"])  # "Retriever" é o nome do nó anterior
result = pipe_bm25_ranker_monot5_3b.run(query=parm_query)
resume_documentos(result)
Com filtro
result = pipe_bm25_ranker_monot5_3b.run(query=parm_query, params={'Retriever': {'top_k': 10, 'filters': {'qtd_indexacao_sistema_normas_segecex': {'$gte': 1}}}, 'Ranker': {'top_k': 10}})
resume_documentos(result)

# Data load

## Query data load

In [None]:
df_query = pd.read_csv(PATH_QUERY)

In [None]:
df_query.shape

(16022, 11)

In [None]:
df_query.head()

Unnamed: 0,ID,TEXT,REFERENCE_LIST,PARADIGMATIC,AREA_NAME,AREA_ID_DESCRIPTOR,NORMATIVE_PROCESS_TYPE,NORMATIVE_IDENTIFICATION,NORMATIVE_DATE,NORMATIVE_AUTHOR_TYPE,NORMATIVE_AUTHOR_NAME
0,34899,A transferência de documentos da entidade para local impróprio ao armazename...,"Lei Ordinária 8.443/1992, art. 58, inciso II",,Responsabilidade,775,REPRESENTAÇÃO,Acórdão 2669/2012 - Plenário,2012-10-03,RELATOR,JOSÉ JORGE
1,30271,"A contratação de médicos e profissionais da área de saúde, como colaboradore...",,,Pessoal,1131,REPRESENTAÇÃO,Acórdão 2669/2012 - Plenário,2012-10-03,RELATOR,JOSÉ JORGE
2,26574,"Para que seja conhecido o recurso de revisão, não basta apenas que se aprese...",,,Direito processual,5288,TOMADA DE CONTAS,Acórdão 514/2013 - Plenário,2013-03-13,RELATOR,ANA ARRAES
3,17902,A contratação de serviços comuns de engenharia que possam ser objetivamente ...,,,Licitação,932,RELATÓRIO DE LEVANTAMENTO,Acórdão 3144/2012 - Plenário,2012-11-21,RELATOR,ANA ARRAES
4,26089,"A Fundação Banco do Brasil, por receber recursos da União, deve observar, qu...",,,Competência do TCU,5095,TOMADA DE CONTAS ESPECIAL,Acórdão 2071/2013 - Plenário,2013-08-07,RELATOR,JOSÉ JORGE


## Qrel data load

In [22]:
df_qrel = pd.read_csv(PATH_QREL)

In [23]:
df_qrel.shape

(94653, 3)

In [24]:
df_qrel.head()

Unnamed: 0,ID_QUERY,ID_DOCTO,TYPE
0,158,15147,INDEXACAO_EXTRA
1,37,15147,INDEXACAO_EXTRA
2,178,15147,INDEXACAO_EXTRA
3,14564,15147,INDEXACAO_EXTRA
4,9219,15147,INDEXACAO_EXTRA


In [None]:
raise Exception ('Stop execution')