# Laboratório Elastic Search

# Atividade

## Contexto
O objetivo deste laboratório é explorar diferentes mecanismos de busca dentro e fora do Elastic Search!
Para isto, iremos explorar uma base de verificações de notícia de uma agência de checagem, chamada [Lupa](https://lupa.uol.com.br/).
O papel de uma agência de checagem é analisar uma notícia e verificar sua veracidade, gerar um veredito e retornar sua análise.

Neste laboratório, iremos nos preocupar apenas com o texto da análise e em como recuperá-los através de diferentes estratégias de busca.

## Tarefas
### Tarefa 1
- Cada uma das equipes receberá 2 queries fixas, chamadas de QF1 e QF2, e a tarefa do grupo será a criação de mais 2 queries, chamadas de QP1 e QP2. As queries devem seguir o formato de uma pergunta ou declaração textual e ela será usada na próxima tarefa para realizar buscas. As equipes podem se inspirar nas notícias fornecidas (presentes no csv da tarefa 2) para montá-las. Cada query deve ser composta por até 100 caracteres.
- A equipe deve enviar suas QP1 e QP2 via o [formulário](https://forms.gle/b3AcG79oCRhw65CH7)

### Tarefa 2
- Após a criação das QP1 e QP2, cada equipe possuirá 4 queries (QF1; QF2; QP1 e QP2).
- Cada grupo irá realizar 4 tipos de busca. Uma busca léxica com BM25 (pelo ElasticSearch), uma busca semântica (pelo ElasticSearch), uma busca híbrida (manualmente utilizando as duas buscas anteriores) e uma estratégia de busca de sua preferência (neste lab ela será chamada de busca criativa), diferente das anteriores.
- As buscas léxica e semântica já estão implementadas, os grupos devem gerar a implementação das buscas híbridas e da busca criativa.
- A busca criativa será a busca usada para a competição!
- Cada grupo durante a implementação de suas buscas deve testar diferentes pré-processamentos nos dados para verificar como os resultados podem melhorar. Alguns pré-processamentos já foram implementados, mas os grupos não precisam se limitar aos pré-processamentos apresentados. Vocês podem buscar na internet implementações de outros pré-processamentos, criar padrões regex, etc. Observe que os dados precisarão ser reindexados no ElasticSearch sempre que os pré-processamentos forem modificados (inseridos, removidos ou mudados de ordem)!

- Enquanto vocês testam seus pré-processamentos e algoritmos de busca, ao analisar os resultados obtidos para uma determinada query, anotem o nível de relevância de cada documento lido em relação à query. Observe que esse procedimento pode ser realizado continuamente durante o processo de implementação, pois a relevância de um documento para uma query independe de implementação de buscadores. Essa anotação deve ser realizada (online) em formato csv via [formulário](https://forms.gle/ipKHwaPQbkrYrFhZA), que será fornecido pela organização do Lab. No caso dos integrantes discordarem sobre a avaliação considerem a média dos valores.
*ATENÇÃO! Para facilitar a avaliação de seu desempenho enquanto desenvolvem e a geração das anotações no formato correto, disponibilizamos esse [template](https://docs.google.com/spreadsheets/d/1fF0fuLgbIQu_5plOnI54iYwqywZuXKLYRUDeKaDCgKI/edit?usp=sharing) que inclui importação, avaliação, recuperação de gabarito e exportação. Crie uma cópia do template para usá-lo. Não é obrigatório usar o template.*
    - A planilha que o time vai devolver tem o seguinte formato:
        - doc_id, query_id, relevance
        - 120, QP1, 2
        - 487, QP1, 1
        - ...
    - Cada busca deve possuir pelo menos 10 resultados anotados.
    - Não modifique o código que realiza o carregamento dos dados para que o doc_id seja consistente com os demais grupos!
    - A rotulação deve possuir uma gradação em 3 níveis:
        - 0: Não é Relevante
        - 1: Pouco Relevante
        - 2: Muito Relevante 
- A entrega desta tarefa será feita através de um formulário para entregar um .zip contendo todo o repositório e o código utilizado autocontido (com listagem das dependências utilizadas no requirements.txt se necessário) e suas buscas implementadas. Este código será reexecutado, então organize o código para que ele possa ser reexecutado em outra máquina.
- A partir deste momento, nenhum grupo poderá alterar suas buscas novamente, então tenham ciência que esta será sua implementação final que será usada para a competição.

### Tarefa 3
- O grupo receberá (pelo slack) 3 queries adicionais (QA1; QA2 e QA3).
- A tarefa do grupo será a execução do MESMO CÓDIGO submetido na tarefa anterior com estas 3 queries e a anotação dos dados (a planilha de anotações será disponibilizada pelo discord).
- Nesta etapa, o grupo NÃO PODE FAZER ALTERAÇÕES nos pré-processamentos definidos ou nas implementações de suas buscas.
- Quando esgotar o prazo de envio da tarefa a planilha será bloqueada para modificações.
- IMPORTANTE: O seu código entregue na tarefa 2 será reexecutado com estas 3 queries (assim como você fez) para garantir que os resultados batem com os seus. Os grupos que mudarem suas buscas ou pré-processamentos na tarefa 3 terão sua nota penalizada e serão desclassificados da competição.

## Competição
A competição será realizada através da comparação dos resultados das buscas criativas em uma base de documentos (corpus) utilizada pela organização do Lab.
Para que você atinja um bom desempenho na competição, é importante se atentar ao seu processo de criação de queries e na qualidade da rotulação dos documentos, pois elas serão seus guias do quão boa sua busca está se saindo!

Como métrica de avaliação, esta competição irá utilizar a média do NDCG calculado para cada query. 

## Ferramental
Para executar este lab não é necessário uma máquina com GPU, mas a máquina deve ter capacidade de virtualização, além de possuir o Docker e o Python instalado.

Será utilizado o ElasticSearch (e opcionalmente o Kibana) no ambiente docker.

Para realizar o lab é recomendado o uso de Python 3.12, além de um venv ou ambiente conda.

Você deve instalar as dependências do requirements.txt.

## Detalhes
Ao executar o docker compose, além de ser levantado o ElasticSearch, também é levantada uma interface visual chamada Kibana.

O Kibana é um frontend para facilitar o acionamento de algumas operações do ElasticSearch e controle de configurações específicas, observar métricas etc. Ela pode ser utilizada para fins de debug. Para quem tiver curiosidade, acesse o URI: http://localhost:5601 após levantar o serviço com o docker compose.

## Dúvidas
Caso tenham dúvidas, é só entrar em contato pelo nosso servidor do Discord.

-----------------------
# Código


## Passos de preparação do ambiente

(bash) Para instalar os requirements em um venv, execute os comandos abaixo a partir do diretório desse repositório

```
python3.12 -m venv elastic-lab
source elastic-lab/bin/activate
pip install -r requirements.txt
```

Para desativar o venv quando tiver terminado
```
deactivate
```

### Imports

In [24]:
import zipfile
import requests
import os
import pandas as pd
from datetime import datetime
import re
import warnings
import subprocess
warnings.filterwarnings("ignore")
from collections import OrderedDict

from elasticsearch import Elasticsearch

from sentence_transformers import SentenceTransformer

import nltk
from nltk import word_tokenize
from nltk.stem import PorterStemmer
import sklearn

nltk.download('punkt_tab')
nltk.download('stopwords')

import spacy
import unidecode

[nltk_data] Downloading package punkt_tab to /home/mignoe/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!
[nltk_data] Downloading package stopwords to /home/mignoe/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


### Passo 0: Subir Stack do Elastic (ElasticSearch e Kibana)

In [25]:
!python -m spacy download pt_core_news_sm # Caso o comando não funcione, execute-o no terminal

Collecting pt-core-news-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_sm-3.8.0/pt_core_news_sm-3.8.0-py3-none-any.whl (13.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m13.0/13.0 MB[0m [31m6.6 MB/s[0m  [33m0:00:01[0m eta [36m0:00:01[0m
[?25h[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_sm')


In [26]:
subprocess.call(["docker", "compose", "up", "-d"])
# Se esse comando falhar ou retornar 1, execute-o diretamente no terminal para identificar o erro.
# PS: O docker deve estar instalado e rodando

unable to get image 'docker.elastic.co/kibana/kibana:8.17.3': permission denied while trying to connect to the Docker daemon socket at unix:///var/run/docker.sock: Get "http://%2Fvar%2Frun%2Fdocker.sock/v1.51/images/docker.elastic.co/kibana/kibana:8.17.3/json": dial unix /var/run/docker.sock: connect: permission denied


1

### Passo 1: Baixar dados do Lupa

In [27]:
# Base de dados de notícias da Lupa
url = "https://docs.google.com/uc?export=download&confirm=t&id=1W067Md2EbvVzW1ufzFg17Hf7Y9cCZxxr"
filename = "articles_lupa_lab_elasticsearch.zip"
data_path = "data"
zip_file_path = f"{data_path}/{filename}"

os.makedirs(data_path, exist_ok=True)

# Baixa o zip
with open(zip_file_path, "wb") as f:
    f.write(requests.get(url, allow_redirects=True).content)

# Extrai o csv do zip
with zipfile.ZipFile(zip_file_path, 'r') as zip_ref:
    zip_ref.extractall(data_path)
    
output_file = f"{data_path}/articles_lupa.csv"
assert os.path.exists(output_file)

### Passo 2: Pré-processar os dados e gerar embeddings

In [28]:
# Implementações de pré-processamentos de texto. Modifiquem, adicionem, removam conforme necessário.
class Preprocessors:
    STOPWORDS = set(nltk.corpus.stopwords.words('portuguese'))
    
    def __init__(self):
        self.stemmer = PorterStemmer()
        self.spacy_nlp = spacy.load("pt_core_news_sm") # Utiliza para lematização
        
    # Remove stopwords do português
    def remove_stopwords(self, text):
        # Tokeniza as palavras
        tokens = word_tokenize(text)
        # Remove as stop words
        tokens = [word for word in tokens if word not in self.STOPWORDS]

        return ' '.join(tokens)
    
    # Realiza a lematização
    def lemma(self, text):
        return " ".join([token.lemma_ for token in self.spacy_nlp(text)])
    
    # Realiza a stemização
    def porter_stemmer(self, text):
        # Tokeniza as palavras
        tokens = word_tokenize(text)

        for index in range(len(tokens)):
            # Realiza a stemização
            stem_word = self.stemmer.stem(tokens[index])
            tokens[index] = stem_word

        return ' '.join(tokens)

    # Transforma o texto em lower case
    def lower_case(self, str):
        return str.lower()

    # Remove urls com regex
    def remove_urls(self, text):
        url_pattern = r'https?://\S+|www\.\S+'
        without_urls = re.sub(pattern=url_pattern, repl=' ', string=text)
        return without_urls

    # Remove números com regex
    def remove_numbers(self, text):
        number_pattern = r'\d+'
        without_number = re.sub(pattern=number_pattern,
    repl=" ", string=text)
        return without_number

    # Converte caracteres acentuados para sua versão ASCII
    def accented_to_ascii(self, text):
        text = unidecode.unidecode(text)
        return text

In [29]:
# Carregar o modelo gerador de embeddings
model = SentenceTransformer('sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2')

# Caminho para salvar o dataframe de notícias
data_df_path = "data/data_df.pkl"

# Selecione diferentes pré-processamentos
# Exemplo:
"""
preprocessor = Preprocessors()
preprocessing_steps = [
    preprocessor.remove_urls,
    preprocessor.remove_stopwords,
]
"""

preprocessing_steps = [
    # Adicione os pré-processamentos aqui
]

RECREATE_DF = True

# Cria o data frame se ele já existir ou se a variável RECREATE_INDEX for verdadeira
# Ou (exclusivo) carrega o dataframe salvo
if not os.path.exists(data_df_path) or RECREATE_DF:    
    df = pd.read_csv(output_file, sep=";")[["Título", "Texto", "Data de Publicação"]]
    df["Data de Publicação"] = df["Data de Publicação"].apply(lambda str_date: datetime.strptime(str_date.split(" - ")[0], "%d.%m.%Y"))
    df.sort_values("Data de Publicação", inplace=True, ascending=False)

    df = df.sample(frac=0.5, random_state=42).reset_index(drop=True)

    df["Embeddings"] = [None] * len(df)
    df["doc_id"] = df.reset_index(drop=True).index

    for i, row in df.iterrows():
        texto_completo = row["Texto"].strip() + "\n" + row["Título"].strip()
        
        df.at[i, "Texto completo"] = texto_completo
        texto_processado = texto_completo
        for preprocessing_step in preprocessing_steps:
            texto_processado = preprocessing_step(texto_processado)
        
        df.at[i, "Texto processado"] = texto_processado
        embeddings = model.encode(texto_completo).tolist()
        df.at[i, "Embeddings"] = embeddings
        
    print("Geração de embeddings finalizada.")
    
    with open(data_df_path, "wb") as f:
        df.to_pickle(f)
else:
    with open(data_df_path, "rb") as f:
        df = pd.read_pickle(f)
    print("Dataframe carregado de arquivo.")

Geração de embeddings finalizada.


### Passo 3: Indexar dados no ElasticSearch (Lembrem-se de reindexar os dados se os pré-processamentos mudarem)

In [30]:
es = Elasticsearch(
    hosts = [{'host': "localhost", 'port': 9200, "scheme": "https"}],
    basic_auth=("elastic","elastic"),
    verify_certs = False,
)

In [31]:
RECREATE_INDEX = True

index_name = "verificacoes_lupa"

# Se a flag for True e se o índice existir, ele é deletado
if RECREATE_INDEX and es.indices.exists(index=index_name):
    es.indices.delete(index=index_name)
    print(f"Índice '{index_name}' deletado.")

# Cria o índice e popula com os dados
if not es.indices.exists(index=index_name):
    es.indices.create(index=index_name, mappings={
        "properties": {
            "doc_id": {"type": "integer"},
            "full_text": {"type": "text"},
            "processed_text": {"type": "text"},
            "embeddings": {"type": "dense_vector", "dims": 384}
        }
    })
    print(f"Índice '{index_name}' criado.")
    
    for i, row in df.iterrows():
        es.index(index=index_name, id=row["doc_id"], body={
            "doc_id": row["doc_id"],
            "full_text": row["Texto completo"],
            "processed_text": row["Texto processado"],
            "embeddings": row["Embeddings"]
        })
    print("Índice preenchido.")

print("Indexação finalizada.")

Índice 'verificacoes_lupa' deletado.
Índice 'verificacoes_lupa' criado.
Índice preenchido.
Indexação finalizada.


## Tarefas

### Tarefa 1: Criar query
Crie as queries da tarefa 1 (QP1 e QP2), as queries devem ser perguntas ou declarações de até 100 caracteres.

Inspire-se nas notícias presente no csv (data/articles_lupa.csv) para gerar queries interessantes.

Submetam as queries ao formulário.

### Tarefa 2: Implementação e realização das buscas
Agora que você montou suas queries, realize cada uma das buscas para cada uma das queries (QF1; QF2; QP1 e QP2).

In [32]:
# Estas serão as queries QF1 e QF2
with open("data/queries_fixadas.txt", "r") as f:
    queries_fixadas = [line.strip() for line in f.readlines()]
    assert len(queries_fixadas) == 2
    QF1 = queries_fixadas[0]
    QF2 = queries_fixadas[1]
    
# Preencha aqui as queries do grupo
QP1 = "Avanço da ultra direita na Argentina são um alerta para o avanço do radicalismo político."
QP2 = "Receitas caseiras combatem a dengue."

queries = OrderedDict()
queries["QF1"] = QF1
queries["QF2"] = QF2
queries["QP1"] = QP1
queries["QP2"] = QP2

#### Busca Léxica

In [33]:
# Implementação de busca esparsa (léxica) com BM25
def lexical_search(queries: dict[str, str]):
    lexical_results = {}
    for query_id, query in queries.items():
        
        # Pré-processa os dados
        for preprocessing_step in preprocessing_steps:
            query = preprocessing_step(query)
        
        search_query = {
            "query": {
                "match": {
                    "processed_text": query
                }
            }
        }

        # Realiza a busca
        response = es.search(index=index_name, body=search_query)
        
        hits_results = []
        # Recupera os resultados
        for hit in response["hits"]["hits"]:
            hits_results.append((hit["_source"]["doc_id"], hit["_score"]))
        lexical_results[query_id] = hits_results
        
    return lexical_results

#### Busca Semântica

In [34]:
# Realiza busca semântica (densa) com KNN exato
def semantic_search(queries: dict[str, str]):
    semantic_results = {}
    
    for query_id, query_text in queries.items():
        # Aplica todos os pré-processamentos aos dados
        for preprocessing_step in preprocessing_steps:
            query_text = preprocessing_step(query_text)
            
        query_vector = model.encode(query_text).tolist()
        
        
        search_query = {
            "query": {
                "script_score": {
                    "query": {"match_all": {}},
                    "script": {
                        "source": "cosineSimilarity(params.query_vector, 'embeddings') + 1.0",
                        "params": {"query_vector": query_vector}
                    }
                }
            }
        }

        # Realiza a busca
        response = es.search(index=index_name, body=search_query)
        
        hits_results = []
        # Recupera top 10 resultados
        for hit in response["hits"]["hits"]:
            hits_results.append((hit["_source"]["doc_id"], hit["_score"]))
            
        semantic_results[query_id] = hits_results

    return semantic_results

[(1398, 1.6198413),
 (2188, 1.5457911),
 (1429, 1.5361311),
 (2555, 1.5249093),
 (1887, 1.520974),
 (487, 1.5090816),
 (1300, 1.5019044),
 (1125, 1.4750738),
 (151, 1.473715),
 (333, 1.4682178)]

#### Busca Híbrida

In [75]:
# Busca híbrida ou RRF. Implemente sua solução aqui. Você pode realizar as duas buscas anteriores (léxica e semântica) como base para formar a busca híbrida.
from collections import defaultdict


def compute_RRF(hits_search, k=60): 
    return {doc_id: (1 / (k + position_rank)) for position_rank, (doc_id, _) in enumerate(hits_search)}


def hybrid_search(queries: dict[str, str]):

    semantic_search_results, lexical_search_results = semantic_search(queries), lexical_search(queries)

    hybrid_results = {}

    for (query_id, _) in queries.items():

        lexical_hits = lexical_search_results.get(query_id)
        semantic_hits = semantic_search_results.get(query_id)

        documents_score = dict()
        for doc_id, score in compute_RRF(lexical_hits).items():
            documents_score[doc_id] = score
        
        for doc_id, score in compute_RRF(semantic_hits).items():
            if doc_id in documents_score.keys():
                documents_score[doc_id] += score
            else:
                documents_score[doc_id] = score


        hybrid_results[query_id] = sorted(documents_score.items(), key=lambda item: item[1], reverse=True)

    return hybrid_results

#### Busca Criativa

In [36]:
# Implemente sua própria estratégia de busca, podendo ela ser esparsa, densa ou híbrida. Implemente algo como "more_like_this", "BM35", "fuzzy" etc.
def creative_search(queries: dict[str, str]):
    ## TODO: Implementar busca híbrida
    pass

#### Execução das buscas

In [37]:
search_functions = [
    ("lexical", lexical_search),
    ("semantic", semantic_search),
    # ("hybrid", hybrid_search),
    # ("creative", creative_search)
]

def run_all_searches(queries: dict[str, str]):
    all_search_results = {}
    for search_name, search_function in search_functions:
        results = search_function(queries)
        all_search_results[search_name] = results
    return all_search_results

#### Analise os resultados da busca e aprimore a busca!

In [44]:
all_search_results = run_all_searches(queries)
search_results_df = pd.DataFrame(all_search_results)
search_results_df

Unnamed: 0,lexical,semantic
QF1,"[(2328, 14.540847), (1887, 12.884943), (1429, ...","[(1398, 1.6198413), (2188, 1.5457911), (1429, ..."
QF2,"[(1621, 16.960016), (1237, 16.362827), (2183, ...","[(1237, 1.8542497), (1722, 1.837998), (510, 1...."
QA1,[],"[(1720, 1.4058946), (1896, 1.4039208), (1014, ..."
QA2,[],"[(1720, 1.4058946), (1896, 1.4039208), (1014, ..."
QA3,[],"[(1720, 1.4058946), (1896, 1.4039208), (1014, ..."


In [48]:
def generate_exploded_df(search_results_df):
    exploded_search_results_df = pd.concat([search_results_df[col].explode() for col in search_results_df.columns], axis=1)
    exploded_search_results_df = exploded_search_results_df.apply(lambda l: [doc_id for doc_id, _ in l])
    return exploded_search_results_df

def generate_found_docs_text_df(exploded_search_results_df, all_docs_df):
    # Recupera os ids únicos dos documentos
    documents_ids = set(exploded_search_results_df.to_numpy().flatten().tolist())

    # Salva os textos e os ids dos documetnos que foram encontrados ems usas buscas
    documents_df = all_docs_df[all_docs_df["doc_id"].isin(documents_ids)][["Texto processado", "doc_id"]]
    return documents_df

exploded_df = generate_exploded_df(search_results_df)
found_docs_text_df = generate_found_docs_text_df(exploded_df, all_docs_df=df)

def save_results_to_file(exploded_df: pd.DataFrame,
                         found_docs_text_df: pd.DataFrame,
                         exploded_df_save_filepath: str = "data/search_results.csv",
                         found_docs_text_save_filepath: str = "data/documents.csv"):
    exploded_df.to_csv(exploded_df_save_filepath)
    found_docs_text_df.to_csv(found_docs_text_save_filepath)
    print("Resultados das buscas salvos em 'data/search_results.csv'.")
    print("Documentos de interesse salvos em 'data/documents.csv'.")
    
save_results_to_file(exploded_df, found_docs_text_df)
exploded_df

Resultados das buscas salvos em 'data/search_results.csv'.
Documentos de interesse salvos em 'data/documents.csv'.


Unnamed: 0,lexical,semantic
QF1,2328,1398
QF1,1887,2188
QF1,1429,1429
QF1,1976,2555
QF1,2505,1887
QF1,2205,487
QF1,1561,1300
QF1,2521,1125
QF1,1689,151
QF1,2545,333


In [49]:
def generate_id_map(all_docs_df, output_csv_path):
    """
    Exports a stable mapping of ALL documents used in Elasticsearch.

    The doc_id values will exactly match those returned by search results.
    """

    required_cols = {"doc_id", "Título", "Texto processado"}
    missing = required_cols - set(all_docs_df.columns)
    if missing:
        raise ValueError(f"Missing required columns: {missing}")

    id_map_df = (
        all_docs_df[["doc_id", "Título", "Texto processado"]]
        .rename(columns={
            "Título": "title",
            "Texto processado": "content"
        })
        .sort_values("doc_id")   # optional, but good for reproducibility
        .reset_index(drop=True)
    )

    id_map_df.to_csv(output_csv_path, sep=";", index=False)

    return id_map_df

generate_id_map(df, "data/id_map.csv")

Unnamed: 0,doc_id,title,content
0,0,É falso que houve megaprotesto na Alemanha con...,Circula pelas redes sociais uma foto que mostr...
1,1,Estudo não aponta que carga viral de vacinados...,Circula pelas redes sociais que um estudo publ...
2,2,É antiga foto de manifestante em cima de carro...,Circula nas redes sociais uma foto de um homem...
3,3,Diretor da Anvisa não pediu demissão e critico...,Circula pelas redes sociais que um diretor da ...
4,4,Jogadoras da seleção de futebol não posaram in...,Circula nas redes uma imagem de duas jogadoras...
...,...,...,...
2565,2565,Es falso que farmacias de Italia estén distrib...,Circula en las redes sociales que las farmacia...
2566,2566,Foto viral que mostra Faixa de Gaza após bomba...,Circula pelas redes sociais uma foto que mostr...
2567,2567,É falso que STF afastou Bolsonaro do controle ...,Circula nas redes sociais que o Supremo Tribun...
2568,2568,É falso que Magazine Luiza 'financia' fome dos...,Na Comissão Parlamentar de Inquérito (CPI) das...


#### Anote as relevâncias na sua planilha!

### Tarefa 3: Reexecutar a busca para as novas queries e rotular os dados

In [46]:
# Preencha aqui com as queries adicionais do seu grupo
QA1 = "O lula se embriaga com frequência?"
QA2 = 'O Bolsonaro entrou no covil dos ursos?'
QA3 = "T?"

queries = OrderedDict()
queries["QF1"] = QF1
queries["QF2"] = QF2
queries["QA1"] = QA1
queries["QA2"] = QA2
queries["QA3"] = QA3


all_search_results = run_all_searches(queries)
search_results_df = pd.DataFrame(all_search_results)
search_results_df

Unnamed: 0,lexical,semantic
QF1,"[(2328, 14.540847), (1887, 12.884943), (1429, ...","[(1398, 1.6198413), (2188, 1.5457911), (1429, ..."
QF2,"[(1621, 16.960016), (1237, 16.362827), (2183, ...","[(1237, 1.8542497), (1722, 1.837998), (510, 1...."
QA1,"[(1198, 7.6909056), (2350, 7.3567934), (509, 7...","[(1092, 1.48345), (2225, 1.4829543), (804, 1.4..."
QA2,"[(1489, 25.36289), (2063, 10.847254), (1410, 6...","[(1489, 1.7344192), (107, 1.7213908), (2159, 1..."
QA3,"[(2392, 8.281427), (2176, 7.9516735), (1108, 7...","[(1464, 1.3425059), (2126, 1.3298243), (1172, ..."


In [47]:
exploded_df = generate_exploded_df(search_results_df)
found_docs_text_df = generate_found_docs_text_df(exploded_df, all_docs_df=df)

def save_results_to_file(exploded_df: pd.DataFrame,
                         found_docs_text_df: pd.DataFrame,
                         exploded_df_save_filepath: str = "data/search_results.csv",
                         found_docs_text_save_filepath: str = "data/documents.csv"):
    exploded_df.to_csv(exploded_df_save_filepath)
    found_docs_text_df.to_csv(found_docs_text_save_filepath)
    print("Resultados das buscas salvos em 'data/search_results.csv'.")
    print("Documentos de interesse salvos em 'data/documents.csv'.")
    
save_results_to_file(exploded_df, found_docs_text_df)
exploded_df

Resultados das buscas salvos em 'data/search_results.csv'.
Documentos de interesse salvos em 'data/documents.csv'.


Unnamed: 0,lexical,semantic
QF1,2328,1398
QF1,1887,2188
QF1,1429,1429
QF1,1976,2555
QF1,2505,1887
QF1,2205,487
QF1,1561,1300
QF1,2521,1125
QF1,1689,151
QF1,2545,333


#### Anote os resultados na sua planilha!

#### A competição utilizará o NDCG médio por query para computar seu desempenho.