# Aula 8 - Solução dos exercícios - Parte 1 - Geração de queries

Leandro Carísio Fernandes

<br>

Objetivo: gerar dataset para treino de modelos de buscas usando a técnica do InPars e avaliar um modelo reranqueador treinado neste dataset no TREC-COVID:

    - Entrada: 3-5 exemplos few-shot + documento amostrado da coleção do TREC-COVID
    - Saída: query que seja relevante para o documento amostrado
    - É opcional fazer a etapa de filtragem usando as queries de maior prob descrita no Artigo.   
    - Como modelo gerador, use um dos seguintes modelos:
        - ChatGPT-3.5-turbo: ~1 USD para cada 1k exemplos
        - FLAN-T5 (base, large ou XL), LLAMA-(7,13B), Alpaca-(7/13B), que são possiveis de rodar no Colab Pro.
        - Também tem a inference-api da HF: https://huggingface.co/inference-api.
        - Com exceção do LLAMA, é possivel usar zero-shot ao inves de few-shot.
    - Dado 1k-10k pares <query sintética; documento>, treinar um modelo reranqueador miniLM igual ao da aula 2/3.
    - Exemplos negativos (i.e., <query sintética; doc não relevant) vem do BM25: dado a query sintetica, retornar top 1000 com o BM25, e amostrar aleatoriamente alguns documentos como negativo
    - Começar treino do miniLM já treinado no MS MARCO

Avaliar no TREC-COVID e comparar com o reranqueador apenas treinado no MSMARCO

Nota: Também usar o dataset dos colegas para obter diversidade de exemplos: Assim que tiver gerado o dataset sintético, favor colocar na planilha, assim outras pessoas podem usa-lo.

    - Para aumentar a aleatoriedade, seed usada deve o seu numero na planilha.

Colocar dataset no formato jsonlines:
{"query": query, "positive_doc_id": doc_id, "negative_doc_ids": [opcional]}\n 


In [1]:
%%time

url_trec_covid = 'https://public.ukp.informatik.tu-darmstadt.de/thakur/BEIR/datasets/trec-covid.zip'


!pip install openai -q
!pip install wget -q
!pip install -qU huggingface_hub datasets

CPU times: total: 15.6 ms
Wall time: 11 s


In [15]:
%%time
from pathlib import Path
import wget
import json
import zipfile

    
if not Path('./collections/trec-covid.zip').is_file():
    !mkdir collections
    wget.download(url_trec_covid, out='./collections/')
    with zipfile.ZipFile('./collections/trec-covid.zip', 'r') as zip_ref:
        zip_ref.extractall('./collections/')

    
def carrega_corpus_trec_covid():
    retorno = []
    with open('./collections/trec-covid/corpus.jsonl') as corpus:
        for i, line in enumerate(corpus):
            doc = json.loads(line)
            retorno.append( doc )
            if (i % 10000 == 0):
                print(f'Processado {i} documentos')
    return retorno

corpus_trec_covid = carrega_corpus_trec_covid()

Processado 0 documentos
Processado 10000 documentos
Processado 20000 documentos
Processado 30000 documentos
Processado 40000 documentos
Processado 50000 documentos
Processado 60000 documentos
Processado 70000 documentos
Processado 80000 documentos
Processado 90000 documentos
Processado 100000 documentos
Processado 110000 documentos
Processado 120000 documentos
Processado 130000 documentos
Processado 140000 documentos
Processado 150000 documentos
Processado 160000 documentos
Processado 170000 documentos
CPU times: total: 1.52 s
Wall time: 2.06 s


In [107]:
import os
import openai

openai.api_key = os.getenv('API_KEY_OPENAI')

def adiciona_query_gpt_no_doc(idx):
    texto = corpus_trec_covid[idx]['text']

    msg = f"Formulate ONE query for the following passage. \
            Consider how a human use a search engine. Randomly choose if your question starts with what, how, why or which. \
            \n\n\
            {texto}"

    response = openai.ChatCompletion.create(model="gpt-3.5-turbo",
                messages=[
                    {"role": "system", "content": "You're cataloging documents and need to associate queries with document passages."},
                    {"role": "user", "content": msg}
                ],
                temperature=0,
                max_tokens=500)

    corpus_trec_covid[idx]['query'] = response['choices'][0]['message']['content']

    
def adiciona_query_no_corpus(nome_arquivo, indices):
    with open(nome_arquivo, 'a', encoding='utf-8') as arquivo:
        for i, idx in enumerate(indices):
            adiciona_query_gpt_no_doc(idx)
            
            doc = {"positive_doc_id": corpus_trec_covid[idx]["_id"], "query": corpus_trec_covid[idx]['query']}
            
            arquivo.write(f"{json.dumps(doc)}\n")
            
            if i % 20 == 0:
                print(f'{i} documentos processados')
    


In [62]:
import numpy as np

np.random.seed(8)

indices_candidatos = np.random.randint(0, high=len(corpus_trec_covid)-1, size=2000)
indices = [i for i in indices_candidatos if len(corpus_trec_covid[i]['text']) > 300]
indices = indices[0:1000]

In [109]:
#adiciona_query_no_corpus('leandro_carisio_20230428_01.jsonl', indices[600:])

0 documentos processados
20 documentos processados
40 documentos processados
60 documentos processados
80 documentos processados
100 documentos processados
120 documentos processados
140 documentos processados
160 documentos processados
180 documentos processados
200 documentos processados
220 documentos processados
240 documentos processados
260 documentos processados
280 documentos processados
300 documentos processados
320 documentos processados
340 documentos processados
360 documentos processados
380 documentos processados


In [157]:
#adiciona_query_no_corpus('leandro_carisio_20230428_01.jsonl', indices)

0 documentos processados


In [2]:
from huggingface_hub import login
login()

VBox(children=(HTML(value='<center> <img\nsrc=https://huggingface.co/front/assets/huggingface_logo-noborder.sv…

In [4]:
import datasets
ds = datasets.load_dataset('unicamp-dl/trec-covid-experiment')

Downloading builder script:   0%|          | 0.00/1.90k [00:00<?, ?B/s]

Downloading and preparing dataset trec-covid-experiment/default to C:/Users/caris/.cache/huggingface/datasets/unicamp-dl___trec-covid-experiment/default/0.0.0/e8f516bf1f4cd83299422fabc7d8b2baec58a8fe01f2ff03afe3db652b47a1b8...


Downloading data files:   0%|          | 0/4 [00:00<?, ?it/s]

Downloading data:   0%|          | 0.00/309 [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/346 [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/74.8k [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/173k [00:00<?, ?B/s]

Generating example split: 0 examples [00:00, ? examples/s]

Generating example2 split: 0 examples [00:00, ? examples/s]

Generating eduseiti_100_queries_expansion_20230428_01 split: 0 examples [00:00, ? examples/s]

Generating leandro_carisio_20230428_01 split: 0 examples [00:00, ? examples/s]

Dataset trec-covid-experiment downloaded and prepared to C:/Users/caris/.cache/huggingface/datasets/unicamp-dl___trec-covid-experiment/default/0.0.0/e8f516bf1f4cd83299422fabc7d8b2baec58a8fe01f2ff03afe3db652b47a1b8. Subsequent calls will reuse this data.


  0%|          | 0/4 [00:00<?, ?it/s]

In [6]:
import pandas as pd

In [7]:
df = pd.concat((v.to_pandas().assign(origin=k) for k,v in ds.items()),
               ignore_index=True)
df

Unnamed: 0,query,positive_doc_id,negative_doc_ids,origin
0,This is a example query 1,doc1,"[xxx, yyy, zzz]",example
1,This is another example query,doc2,"[aaa, bbb, ccc]",example
2,Example of query with no negative doc_ids,doc2,[],example
3,This is a example query 1 (file 2),doc12222,"[xxx, yyy, zzz]",example2
4,This is another example query (file 2),doc12345,"[aaa, bbb, ccc]",example2
...,...,...,...,...
1465,What are the recent nanoscience advancements f...,8nwwhu9d,[],leandro_carisio_20230428_01
1466,What is the role of neutrophils in the pathoge...,c4wy70hf,[],leandro_carisio_20230428_01
1467,Why is pulmonary metastasectomy widely and inc...,xv47an66,[],leandro_carisio_20230428_01
1468,How does the use of concurrent suction while d...,bjozlk01,[],leandro_carisio_20230428_01


In [13]:
pd.unique(df.origin)

array(['example', 'example2',
       'eduseiti_100_queries_expansion_20230428_01',
       'leandro_carisio_20230428_01'], dtype=object)