In [1]:
import os
import sys

In [2]:
IN_COLAB='google.colab' in sys.modules

In [3]:
if IN_COLAB:
    from google.colab import drive

    WORKING_FOLDER="/content/drive/MyDrive/unicamp/ia368v_dd/trabalho_final_UNICAMP-IR/artigo/unicamp_IR"

    drive.mount('/content/drive', force_remount=True)

    os.chdir(WORKING_FOLDER)

    TREC_EVAL="/content/drive/MyDrive/unicamp/ia368v_dd/pyserini/tools/eval/trec_eval.9.0.4/trec_eval"
else:
    WORKING_FOLDER="/media/eduseiti/bigdata01/unicamp/ia368v_dd/unicamp_IR/"
    TREC_EVAL="/media/eduseiti/bigdata01/unicamp/ia368v_dd/pyserini/tools/eval/trec_eval.9.0.4/trec_eval"

In [4]:
import pandas as pd
import numpy as np

In [5]:
pd.set_option('display.max_colwidth', None)
pd.set_option('display.max_rows', 500)

In [46]:
ALL_EVALUATIONS="tests/evaluation_18_retrievers_000_009_sampled_50_queries_gpt-4-1106-preview_20240130.tsv"

BM25_RUN="tests/200-queries-passagens-by-BM25-pt_v2_with_query_id_run.txt"
BM25_E5_RUN="tests/bm25_e5_docs_000_999_50_sampled_queries_run.txt"
BM25_MT5_RUN="tests/200-queries-passagens-by-BM25-mT5_v4_with_query_id_run.txt"
SPLADE_RUN="tests/splade_pt_result_with_clueweb_id_run.txt"
COLBERTX_RUN="tests/colbertx_all_znormalized_validation_scores_000_199_run.txt"

E5_RUN="tests/e5_docs_000_999_50_sampled_queries_run.txt"
E5_BASE_RUN="tests/e5_base_docs_000_999_50_sampled_queries_run.txt"
SPLADE_MT5_RUN="tests/splade_mt5_docs_000_099_50_sampled_queries_run.txt"

BM25_1M_RUN="tests/bm25_1M_docs_000_999_sampled_50_queries_run.txt"
BM25_1M_MASSIVEWEB_RUN="tests/bm25_massiveweb_1M_docs_000_999_sampled_50_queries_run.txt"

COLBERTX_1M_MASSIVEWEB_RUN="tests/colbertx_massiveweb_1M_docs_000_999_sampled_50_queries_run.txt"

E5_COLBERTX_RRF_RUN="tests/colbertx_e5_RRF_000_999_sampled_50_queries_run.txt"
E5_SPLADE_RRF_RUN="tests/splade_e5_fixed_RRF_000_999_sampled_50_queries_run.txt"

ADAV2_RUN="tests/adav2_1M_docs_000_999_sampled_50_queries_run.txt"

BM25_MT5_1M_MASSIVEWEB_RUN="tests/bm25_mt5_1M_docs_fixed_000_099_sampled_50_queries_run.txt"

COLBERTX_1M_MASSIVEWEB_RUN="tests/colbertx_massiveweb_1M_docs_000_999_sampled_50_queries_run.txt"

BM25_E5_1M_MASSIVEWEB_RUN="tests/bm25_e5_1M_docs_fixed_000_999_sampled_50_queries_run.txt"

In [7]:
TEXT_EMBEDDING_3_LARGE_1M_MASSIVEWEB="tests/text-embedding-3-large_1M_docs_000_999_sampled_50_queries.tsv"

In [8]:
DATASET_1M_FIELDS=['bm25_1M_massiveweb', 
                   'colbertx_1M_massiveweb', 
                   'adav2', 
                   'bm25_mT5_1M_massiveweb_fix', 
                   'bm25_e5_1M_massiveweb', 
                   'text-embbeding-3-large_1M_massiveweb']

In [9]:
def prepare_run_format(results_filename, add_index=True, score_field='score', invert_score=False, retriever_name="retriever"):

    results_df = pd.read_csv(results_filename, sep='\t')

    display(results_df.head())

    results_grouped_df = results_df.groupby("query_id")['passage_id'].count()

    how_many_passages_per_question = results_grouped_df.iloc[0]

    if invert_score:
        print("Inverting score values in '{}' field...".format(score_field))

        results_df['score_inv'] = 1 - results_df[score_field]
        score_field = 'score_inv'

    run_df = results_df.sort_values(["query_id", score_field], ascending=[True, False])

    run_df['Q0'] = "Q0"
    run_df['comment'] = retriever_name

    if add_index:
        run_df['index'] = np.tile(list(range(1, how_many_passages_per_question + 1)), results_grouped_df.shape[0])

    output_filename = "{}_run.txt".format(os.path.splitext(results_filename)[0])

    print("output_filename={}".format(output_filename))

    run_df[['query_id', 'Q0', "passage_id", "index", score_field, "comment"]].to_csv(output_filename, header=None, index=False, sep=" ")

    return output_filename, run_df

In [47]:
retrievers_results = []

In [84]:
retrievers_1M_results = []

### Format GPT-4 evaluations to qrels format

In [12]:
qrels_filename = os.path.join(os.path.dirname(ALL_EVALUATIONS), "{}_qrel.txt".format(os.path.splitext(os.path.basename(ALL_EVALUATIONS))[0]))
qrels_1M_filename = os.path.join(os.path.dirname(ALL_EVALUATIONS), "{}_1M_qrel.txt".format(os.path.splitext(os.path.basename(ALL_EVALUATIONS))[0]))

In [13]:
if os.path.exists(qrels_filename) == False:
    eval_df = pd.read_csv(ALL_EVALUATIONS, sep='\t')

    eval_df

    eval_df.drop_duplicates("query_id")[['query_id', 'query']]

    #### Check scores distribution on the current qrels

    np.unique(eval_df['score'].to_numpy(), return_counts=True)

    for group_name, group_df in eval_df.groupby('query_id'):
        print("\nquery_id={}".format(group_name))

        print(np.unique(group_df['score'].to_numpy(), return_counts=True))

    eval_df.groupby('query_id').count()

    eval_df.groupby('query_id').count()['query'].describe()

    #### Prepare the qrels format for trec_eval tools

    eval_df['0'] = '0'

    print("\n\n")
    print(qrels_filename)
    print(qrels_1M_filename)

    eval_df.sort_values('query_id')[['query_id', '0', 'passage_id', 'score']].to_csv(qrels_filename, header=None, index=False, sep=" ")


    #### Select 1M dataset evaluations

    eval_df[eval_df[DATASET_1M_FIELDS].sum(axis=1) > 0].sort_values('query_id')[['query_id', '0', 'passage_id', 'score']].to_csv(qrels_1M_filename, header=None, index=False, sep=" ")

else:
    print("QRELS files ({}) already created...".format(qrels_filename))


query_id=1
(array([0, 1, 2, 3]), array([21, 50, 19, 10]))

query_id=2
(array([0, 1, 2, 3]), array([117,   2,   1,   2]))

query_id=9
(array([0, 1, 2, 3]), array([72, 10, 15,  6]))

query_id=11
(array([0, 1, 2, 3]), array([58, 20,  8,  2]))

query_id=13
(array([0, 1, 2, 3]), array([44, 17, 24,  5]))

query_id=15
(array([0, 1, 2, 3]), array([38, 23,  4, 17]))

query_id=17
(array([0, 1, 2, 3]), array([33, 10,  2, 39]))

query_id=20
(array([0, 1, 2, 3]), array([18, 68, 30,  8]))

query_id=21
(array([0, 1, 2, 3]), array([56, 25, 11, 22]))

query_id=22
(array([0, 1, 2, 3]), array([62, 17,  2,  7]))

query_id=24
(array([0, 1, 2, 3]), array([68, 35, 13,  2]))

query_id=26
(array([0, 1, 2, 3]), array([14, 19, 16, 33]))

query_id=28
(array([0, 1, 2, 3]), array([62, 24, 13,  4]))

query_id=47
(array([0, 1, 2, 3]), array([58, 33, 34,  2]))

query_id=49
(array([0, 1, 2, 3]), array([33, 32, 24,  2]))

query_id=51
(array([0, 1, 2, 3]), array([41, 24, 14,  1]))

query_id=54
(array([0, 1, 2, 3]), arra

## 10M dataset

### Compute BM25 nDCG@10

In [48]:
result = !{TREC_EVAL} -c -mndcg_cut.10 \
    {qrels_filename} tests/200-queries-passagens-by-BM25-pt_v2_with_query_id_run.txt

In [49]:
retrievers_results.append({'retriever':'BM25', 'nDCG@10': result[0].split('\t')[-1]})

In [50]:
retrievers_results

[{'retriever': 'BM25', 'nDCG@10': '0.4471'}]

### Compute BM25 + E5 nDCG@10

In [51]:
result = !{TREC_EVAL} -c -mndcg_cut.10 \
    {qrels_filename} {BM25_E5_RUN}

In [52]:
retrievers_results.append({'retriever':'BM25+E5', 'nDCG@10': result[0].split('\t')[-1]})

### Compute BM25 + mT5 nDCG@10

In [53]:
result = !{TREC_EVAL} -c -mndcg_cut.10 \
    {qrels_filename} {BM25_MT5_RUN}

In [54]:
retrievers_results.append({'retriever':'BM25+mT5', 'nDCG@10': result[0].split('\t')[-1]})

### Compute SPLADE nDCG@10

In [55]:
result = !{TREC_EVAL} -c -mndcg_cut.10 \
    {qrels_filename} {SPLADE_RUN}

In [56]:
retrievers_results.append({'retriever':'SPLADEv2_pt-BR', 'nDCG@10': result[0].split('\t')[-1]})

### Compute ColBERTX nDCG@10

In [57]:
result = !{TREC_EVAL} -c -mndcg_cut.10 \
    {qrels_filename} {COLBERTX_RUN}

In [58]:
retrievers_results.append({'retriever':'ColBERT-X_mMARCO_pt-BR', 'nDCG@10': result[0].split('\t')[-1]})

### Compute E5 nDCG@10

In [59]:
result = !{TREC_EVAL} -c -mndcg_cut.10 \
    {qrels_filename} {E5_RUN}

In [60]:
retrievers_results.append({'retriever':'E5', 'nDCG@10': result[0].split('\t')[-1]})

### Compute E5 base nDCG@10

In [61]:
result = !{TREC_EVAL} -c -mndcg_cut.10 \
    {qrels_filename} {E5_BASE_RUN}

In [62]:
retrievers_results.append({'retriever':'E5 base', 'nDCG@10': result[0].split('\t')[-1]})

### Compute SPLADE + mT5 nDCG@10

In [63]:
result = !{TREC_EVAL} -c -mndcg_cut.10 \
    {qrels_filename} {SPLADE_MT5_RUN}

In [64]:
retrievers_results.append({'retriever':'SPLADEv2_pt-BR + mT5', 'nDCG@10': result[0].split('\t')[-1]})

### Compute E5 + ColBERT-X RRF nDCG@10

In [65]:
result = !{TREC_EVAL} -c -mndcg_cut.10 \
    {qrels_filename} {E5_COLBERTX_RRF_RUN}

In [66]:
retrievers_results.append({'retriever':'E5 + ColBERT-X mMARCO_pt-BR RRF', 'nDCG@10': result[0].split('\t')[-1]})

### Compute E5 + SPLADE RRF nDCG@10

In [67]:
result = !{TREC_EVAL} -c -mndcg_cut.10 \
    {qrels_filename} {E5_SPLADE_RRF_RUN}

In [68]:
retrievers_results.append({'retriever':'E5 + SPLADEv2_pt-BR RRF', 'nDCG@10': result[0].split('\t')[-1]})

### Compute BM25 1M nDCG@10

In [69]:
result = !{TREC_EVAL} -c -mndcg_cut.10 \
    {qrels_filename} {BM25_1M_RUN}

retrievers_results.append({'retriever':'BM25 1M', 'nDCG@10': result[0].split('\t')[-1]})

### Compute BM25 1M massiveweb filtered nDCG@10

In [70]:
result = !{TREC_EVAL} -c -mndcg_cut.10 \
    {qrels_filename} {BM25_1M_MASSIVEWEB_RUN}

retrievers_results.append({'retriever':'BM25 1M massiveweb', 'nDCG@10': result[0].split('\t')[-1]})

### Compute ColBERT-X 1M massiveweb filtered nDCG@10

In [71]:
result = !{TREC_EVAL} -c -mndcg_cut.10 \
    {qrels_filename} {COLBERTX_1M_MASSIVEWEB_RUN}

retrievers_results.append({'retriever':'ColBERT-X_mMARCO_pt-BR 1M massiveweb', 'nDCG@10': result[0].split('\t')[-1]})

### Compute ADAv2 1M massiveweb filtered nDCG@10

In [72]:
result = !{TREC_EVAL} -c -mndcg_cut.10 \
    {qrels_filename} {ADAV2_RUN}

retrievers_results.append({'retriever':'ADA v2 1M massiveweb', 'nDCG@10': result[0].split('\t')[-1]})

### Compute BM25 + mT5 1M massiveweb filtered nDCG@10

In [73]:
result = !{TREC_EVAL} -c -mndcg_cut.10 \
    {qrels_filename} {BM25_MT5_1M_MASSIVEWEB_RUN}

retrievers_results.append({'retriever':'BM25+mT5 1M massiveweb', 'nDCG@10': result[0].split('\t')[-1]})

### Compute BM25 + E5 1M massiveweb filtered nDCG@10

In [74]:
result = !{TREC_EVAL} -c -mndcg_cut.10 \
    {qrels_filename} {BM25_E5_1M_MASSIVEWEB_RUN}

retrievers_results.append({'retriever':'BM25+E5 1M massiveweb', 'nDCG@10': result[0].split('\t')[-1]})

### Prepare text-embedding-3-large 1M massiveweb filtered run and compute nDCG@10

In [43]:
text_embedding_3_large_filename, _ = prepare_run_format(TEXT_EMBEDDING_3_LARGE_1M_MASSIVEWEB, retriever_name="BM25+E5")

Unnamed: 0,query_id,query,passage_id,colbertx_id,position,score,passage
0,1,Qual a maior característica da fauna brasileira?,clueweb22-pt0001-01-18874_0,4875435,1,0.660179,"Conheça 11 lindos animais típicos da fauna brasileira / Incrível Conheça 11 lindos animais típicos da fauna brasileira 4--4 Compartilhe no Facebook Compartilhe no Facebook Compartilhe no Pinterest Que o Brasil é gigante, todos nós sabemos e até já demos aqui exemplos chocantes sobre isso. Mas um outro exemplo dessa grandiosidade é quando sabemos que o país abriga 17% das espécies de aves e 10% das de anfíbios e mamíferos de todo o mundo. Neste post, o Incrível.club vai te mostrar uma lista de animais típicos do país. Mico-leão dourado © Nadine Doerle / Pixabay Este macaco “ruivo” ficou famoso ao tornar-se um símbolo de espécies brasileiras em extinção. O cuidado para a preservação da espécie, que é nativa da Mata Atlântica e aparece na nota de 20 reais, começou nos anos 1970 e se intensificou duas décadas depois. Embora a situação tenha melhorado, o risco de extinção ainda existe. Tamanduá-bandeira © joelfotos / Pixabay Este gigante que ama comer formigas — pode devorar até 30 mil por dia, inclusive cupins — é também um forte: com seus 2,20 metros, consegue até brigar com uma onça pintada. E vencer. Embora ele exista originalmente nas três Américas, já foi extinto em países como Estados Unidos e em Estados brasileiros como Espírito Santo e Rio e Janeiro. Onça pintada"
1,1,Qual a maior característica da fauna brasileira?,clueweb22-pt0000-45-00944_12,2137843,2,0.638983,"A Amazônia apresenta a maior diversidade de espécies de mamíferos entre os biomas brasileiros. Das 397 espécies de mamíferos amazônicos, a maioria (58%) não ocorre em nenhum outro bioma brasileiro. É a mais alta proporção de endemismo entre os biomas terrestres do Brasil (Paglia et al, no prelo). A Amazônia também é o bioma brasileiro com mais alta diversidade de espécies de lagartos (109) e de serpentes (138) (Rodrigues, 2005). Soma-se ao alto índice de endemismos e alto número de espécies a alta diversidade de ecossistemas no vasto território amazônico. É preciso considerar a fragilidade dessa intrincada rede de relações das espécies entre si e com o ambiente, configurada em múltiplos arranjos de vegetação e de hábitats, de cujo equilíbrio depende o clima, a qualidade da água, o solo, a reciclagem de nutrientes e demais serviços ambientais."
2,1,Qual a maior característica da fauna brasileira?,clueweb22-pt0001-46-05303_17,7028401,3,0.636957,"http://www.klimanaturali.org/2014/03/biomas-e-fitofisionomias-brasileiros.html 8/17 f15/03/2018 BIOMAS E FITOFISIONOMIAS BRASILEIROS: CARACTERÍSTICAS E EVOLUÇÃO DA FAUNA E FLORA - Klima Naturali™ colonização no Brasil e os ciclos de desenvolvimento do país SITE  BRASIL  MUNDO  CIÊNCIAS  GERAL  levaram o homem a ocupar e destruir parte desse espaço. Fauna e Flora Rica em diversidade de espécies, a Mata Atlântica está entre Pesquisa no Site...  as cinco regiões do mundo com maior número de espécies endêmicas. Os animais podem ser considerados generalistas ou especialistas. Os generalistas apresentam hábitos alimentares variados, alta taxa de crescimento e dispersão; vivem em áreas de vegetação aberta e secundária, tolerantes e capazes de aproveitar diferentes recursos oferecidos pelo meio ambiente. Os animais especialistas são mais exigentes em relação aos habitats nos quais vivem, com dieta especí ca, uma alteração no meio ambiente exige dos animais especialistas a procura de novos habitats. Grupos da Mata Atlântica Mamíferos – A Mata Atlântica possui cerca de 250 espécies de mamíferos, das quais 55 são endêmicas. Os mamíferos são os"
3,1,Qual a maior característica da fauna brasileira?,clueweb22-pt0000-17-01771_19,827062,4,0.628107,"A fauna brasileira está entre as mais diversas do mundo. Entretanto, toda essa riqueza vem sendo constantemente ameaçada devido a execrável prática de comércio ilícito de diversas espécies. Desse modo... Redação completa Enviada em: 02/09/2017 Vida Os animais da fauna brasileira são variados, diversificados em cores, formas e espécies, possuem uma pluralidade única, em todo o mundo, e por conseguinte, atraem a atenção daqueles,... Redação completa Enviada em: 07/09/2017 Desde o início do século XVI, com a chegada oficial da colonização portuguesa ao Brasil, cultiva-se a ideia de que a fauna e flora da pátria são infinitas. Nesse sentido o homem começou a apropriar-se... Redação completa Enviada em: 08/09/2017 Tráfico. Roubo. Desenvolvimento. Progresso, são pilares da biopirrataria. Hodiernamente, o número de espécies silvestres contrabandeadas tem uma tendência ao aumento, pois os países desenvolvidos gara... Redação completa Enviada em: 14/09/2017 Relativo o combate ao comércio ilegal de animais silvestres, é possível afirmar que muitos países como o Brasil, apresentam uma rica biodiversidade, porém com o tráfico de animais silvestres ocorrendo... Redação completa Enviada em: 12/09/2017"
4,1,Qual a maior característica da fauna brasileira?,clueweb22-pt0000-55-02859_3,2605803,5,0.619571,"Fauna do Pantanal - Répteis, aves, mamíferos e peixes. Isso faz do pantanal uma das faunas mais ricas do planeta. Flora do Pantanal - Vegetação, em geral, vinda de outros biomas adaptadas às poucas áreas secas ou áreas alagáveis e uma grande diversidade de espécies de plantas aquáticas. Veja também: Pantanal. Fauna e flora dos Pampas Fauna dos Pampas - Animais de planícies como algumas aves, veados, tatus, etc. Flora dos Pampas - Poucas árvores esparsas e diversas espécies de gramíneas. Os pampas correm risco de desaparecimento por conta do avanço da produção agropecuária, sobretudo, da criação de gado. Veja também: Pampa. Fauna e flora da Mata Atlântica Fauna da Mata Atlântica - Diversas espécies de pequenos primatas, felinos Flora da Mata Atlântica - Floresta tropical que abriga a maior diversidade de espécies por unidade de área. A Mata Atlântica preserva uma série de animais e plantas em risco de extinção, que sofre com queimadas, tráfico de animais e processos de urbanização. Veja também: Mata Atlântica. Fauna e flora da Amazônia A Amazônia é o maior bioma brasileiro, também é o que possui a maior biodiversidade. Fauna da Amazônia - Maior coleção de animais do planeta, muitas ainda não catalogadas por pesquisadores."


output_filename=tests/text-embedding-3-large_1M_docs_000_999_sampled_50_queries_run.txt


In [75]:
result = !{TREC_EVAL} -c -mndcg_cut.10 \
    {qrels_filename} {text_embedding_3_large_filename}

retrievers_results.append({'retriever':'text-embedding-3-large 1M massiveweb', 'nDCG@10': result[0].split('\t')[-1]})

### Check the overall results

In [76]:
pd.DataFrame(retrievers_results)

Unnamed: 0,retriever,nDCG@10
0,BM25,0.4471
1,BM25+E5,0.637
2,BM25+mT5,0.7118
3,SPLADEv2_pt-BR,0.581
4,ColBERT-X_mMARCO_pt-BR,0.6282
5,E5,0.5568
6,E5 base,0.3963
7,SPLADEv2_pt-BR + mT5,0.6974
8,E5 + ColBERT-X mMARCO_pt-BR RRF,0.6385
9,E5 + SPLADEv2_pt-BR RRF,0.6281


## 1M dataset

### Compute BM25 1M massiveweb filtered nDCG@10

In [85]:
result = !{TREC_EVAL} -c -mndcg_cut.10 \
    {qrels_1M_filename} {BM25_1M_MASSIVEWEB_RUN}

retrievers_1M_results.append({'retriever':'BM25 1M massiveweb', 'nDCG@10': result[0].split('\t')[-1]})

### Compute ColBERT-X massiveweb filtered nDCG@10

In [86]:
result = !{TREC_EVAL} -c -mndcg_cut.10 \
    {qrels_1M_filename} {COLBERTX_1M_MASSIVEWEB_RUN}

retrievers_1M_results.append({'retriever':'ColBERT-X_mMARCO_pt-BR 1M massiveweb', 'nDCG@10': result[0].split('\t')[-1]})

### Compute ADA v2 massiveweb filtered nDCG@10

In [87]:
result = !{TREC_EVAL} -c -mndcg_cut.10 \
    {qrels_1M_filename} {ADAV2_RUN}

retrievers_1M_results.append({'retriever':'ADA v2 1M massiveweb', 'nDCG@10': result[0].split('\t')[-1]})

### Compute BM25 + mT5 1M massiveweb filtered nDCG@10

In [88]:
result = !{TREC_EVAL} -c -mndcg_cut.10 \
    {qrels_1M_filename} {BM25_MT5_1M_MASSIVEWEB_RUN}

retrievers_1M_results.append({'retriever':'BM25+mT5 1M massiveweb', 'nDCG@10': result[0].split('\t')[-1]})

### Compute BM25 + E5 1M massiveweb filtered nDCG@10

In [89]:
result = !{TREC_EVAL} -c -mndcg_cut.10 \
    {qrels_1M_filename} {BM25_E5_1M_MASSIVEWEB_RUN}

retrievers_1M_results.append({'retriever':'BM25+E5 1M massiveweb', 'nDCG@10': result[0].split('\t')[-1]})

### Compute text-embedding-3-large 1M massiveweb filtered nDCG@10

In [90]:
result = !{TREC_EVAL} -c -mndcg_cut.10 \
    {qrels_1M_filename} {text_embedding_3_large_filename}

retrievers_1M_results.append({'retriever':'text-embedding-3-large 1M massiveweb', 'nDCG@10': result[0].split('\t')[-1]})

### Check the overall results

In [91]:
pd.DataFrame(retrievers_1M_results).sort_values('nDCG@10')

Unnamed: 0,retriever,nDCG@10
0,BM25 1M massiveweb,0.4014
1,ColBERT-X_mMARCO_pt-BR 1M massiveweb,0.4944
4,BM25+E5 1M massiveweb,0.5449
2,ADA v2 1M massiveweb,0.5668
5,text-embedding-3-large 1M massiveweb,0.637
3,BM25+mT5 1M massiveweb,0.6625
