# Codigo para geração do indice invertido

In [226]:
import pandas
import math
import nltk
import numpy as np
import string

In [227]:
class WordInfo:
    'Classe que guarda informações sobre a palavra, como documentos em que ocorre, tf em cada documento e calculo de idf'

    def __init__(self, word) : # Contrutor da classe recebe apenas a palavra em questão
        self.word = word
        self.idf = 0
        self.docs = {} # Dicionario que mapeia doc_id ao tf da palavra

    def found(self, doc_id) : # Metodo que realiza a contagem do tf da palavra
        if(doc_id in self.docs) : # Se o doc_id está mapeado, incrementa-o
            self.docs[doc_id] += 1
        else :
            self.docs[doc_id] = 1 # Caso contrario, define-o como 1
            
    def calculateIDF(self, totaldocs) : # Metodo de calculo do idf, recebendo o total de documentos
        df = len(self.docs) # Numero de documentos em que a palavra ocorre 
        if (df > 0) :
            self.idf = math.log((totaldocs + 1)/df)
            
    def getIds(self) : # Metodo que retorna todos os doc_ids em que a palavra ocorre
        return list(self.docs.keys())
    
    def getTf(self, doc_id) : # Metodo que retorna o tf da palavra em um documento, ou 0 caso não ocorra
        return self.docs.get(doc_id, 0)

In [228]:
tabela = pandas.read_csv('estadao_noticias_eleicao.csv')
tabela.fillna('', inplace=True) # Preenchendo os campos vazios da tabela com ''

In [229]:
mapa = {} # Dicionario/Mapa que representa o indice invertido

In [230]:
documentos = {} # Dicionario que guarda os documentos e seus tamanhos

In [231]:
for index, linha in tabela.iterrows() : # Iterando sobre as noticias no arquivo
    id = linha['idNoticia'] # Recuperando o idNoticia da noticia atual
    texto = nltk.word_tokenize(linha['titulo'] + ' ' + linha['subTitulo'] + ' ' + linha['conteudo']) # Tokenização do texto
    documentos[id] = len(texto) # Mapeamento do documento com seu tamanho
    for palavra in texto: # Iterando sobre as palavras na Noticia
        if (palavra not in string.punctuation): # Só ocorre o mapeamento se a palavra não é uma pontuação
            if (palavra.lower() not in mapa) : # Se a palavra ainda não foi mapeada, mapeia-a
                mapa[palavra.lower()] = WordInfo(palavra.lower())
            mapa[palavra.lower()].found(id) # Contabiliza a ocorrencia da palavra no documento atual

for k in mapa.keys() : # Laço para realizar o calculo dos idfs de cada palavra mapeada
    mapa[k].calculateIDF(len(documentos))

# Funções de Consultas Booleanas(And, Or e geral)

In [232]:
def searchAnd(palavra1, palavra2) :
    docs1 = mapa[palavra1.lower()].getIds() # Recupera todos as noticias em que "palavra1" ocorreu
    docs2 = mapa[palavra2.lower()].getIds() # Recupera todos as noticias em que "palavra2" ocorreu
    result = set() # Cria um conjunto vazio
    result.update(docs1) # Preenche o conjunto com os ids das noticias que "palavra1" aparece
    result = result.intersection(docs2) # Mantem no conjunto apenas os ids que as duas palavras ocorrem.
    return list(result)

In [233]:
def searchOr(palavra1, palavra2) :
    docs1 = mapa[palavra1.lower()].getIds() # Recupera todos as noticias em que "palavra1" ocorreu
    docs2 = mapa[palavra2.lower()].getIds() # Recupera todos as noticias em que "palavra2" ocorreu
    result = set() # Cria um conjunto vazio
    result.update(docs1) # Preenche o conjunto com os ids das noticias que "palavra1" aparece
    result.update(docs2) # Preenche o conjunto com os ids das noticias que "palavra2" aparece, por ser conjunto as duplicadas são eliminadas
    return list(result)

In [234]:
def search(consulta) :
    partes = consulta.split(' ')
    if (len(partes) < 2) : # Se a consulta só tem uma palavra
        return mapa[partes[0].lower()].getIds() # Recupera os ids que a palavra aparece
    elif (partes[1].upper() == 'AND') : # Se é uma consulta AND
        return searchAnd(partes[0], partes[2]) # Chama a função de consulta AND
    elif (partes[1].upper() == 'OR') : # Se é uma consulta OR
        return searchOr(partes[0], partes[2]) # Chama a função de consulta OR

# Funções de Consultas Vetoriais

In [235]:
def busca_binaria(consulta) :
    palavras = consulta.split(' ') # Quebrando a consulta em palavras
    relevant_docs = set(mapa[palavras[0]].getIds()) # Inicia o conjunto de documentos relevantes
    # Laço que realiza interseção dos conjuntos, para mantes apenas documentos em que todas as palavras a consulta ocorre
    for i in range(1, len(palavras)) :
        relevant_docs = relevant_docs.intersection(set(mapa[palavras[i]].getIds()))
    # Como é busca binaria, apenas retorna os primeiros 5 documentos que contem todas as palavras
    return list(map(str, relevant_docs))[:5]

In [236]:
def busca_tf(consulta) :
    palavras = consulta.split(' ') # Quebrando a consulta em palavras
    relevant_docs = set(mapa[palavras[0]].getIds()) # Inicia o conjunto de documentos relevantes
    # Laço que realiza interseção dos conjuntos, para mantes apenas documentos em que todas as palavras a consulta ocorre
    for i in range(1, len(palavras)) :
        relevant_docs = relevant_docs.intersection(set(mapa[palavras[i]].getIds()))
    result = [] # Lista que será gerado o resultado
    for doc_id in relevant_docs : # Para cada documento relevante
        scores = [mapa[w].getTf(doc_id) for w in palavras] # Obtem os tfs de cada palavra da consulta
        # Cria uma tupla (score, doc_id) somando os tfs obtidos e coloca na lista
        score_id = (sum(scores), doc_id)
        result.append(score_id)
    # Ordena do maior para o menor, por ser tupla, considera apenas o primeiro elemento para ordenar (o score)
    result = sorted(result, reverse=True) 
    result = [str(t[1]) for t in result] # A lista passa a ser apenas dos doc_ids como strings (por causa da função mapk)
    return result[:5] # Retorna os 5 primeiros

In [237]:
def busca_tfidf(consulta) :
    palavras = consulta.split(' ') # Quebrando a consulta em palavras
    relevant_docs = set(mapa[palavras[0]].getIds()) # Inicia o conjunto de documentos relevantes
    # Laço que realiza interseção dos conjuntos, para mantes apenas documentos em que todas as palavras a consulta ocorre
    for i in range(1, len(palavras)) :
        relevant_docs = relevant_docs.intersection(set(mapa[palavras[i]].getIds()))
    result = [] # Lista que será gerado o resultado
    for doc_id in relevant_docs : # Para cada documento relevante
        scores = [mapa[w].getTf(doc_id) * mapa[w].idf for w in palavras] # Calcula tf * idf de cada palavra da consulta
        # Cria uma tupla (score, doc_id) somando os resultados obtidos e coloca na lista
        score_id = (sum(scores), doc_id)
        result.append(score_id)
    # Ordena do maior para o menor, por ser tupla, considera apenas o primeiro elemento para ordenar (o score)
    result = sorted(result, reverse=True)
    result = [str(t[1]) for t in result] # A lista passa a ser apenas dos doc_ids como strings (por causa da função mapk)
    return result[:5] # Retorna os 5 primeiros

In [238]:
def busca_bm25(consulta) :
    k = 6 # 6 foi o valor de K que maximizou o resultado da função mapk
    palavras = consulta.split(' ') # Quebrando a consulta em palavras
    relevant_docs = set(mapa[palavras[0]].getIds()) # Inicia o conjunto de documentos relevantes
    # Laço que realiza interseção dos conjuntos, para mantes apenas documentos em que todas as palavras a consulta ocorre
    for i in range(1, len(palavras)) :
        relevant_docs = relevant_docs.intersection(set(mapa[palavras[i]].getIds()))
    result = [] # Lista que será gerado o resultado
    for doc_id in relevant_docs : # Para cada documento relevante
        # Calcula tf*(k+1)/(tf + k) * idf de cada palavra da consulta
        scores = [(mapa[w].getTf(doc_id)*(k+1))/(mapa[w].getTf(doc_id) + k) * mapa[w].idf for w in palavras]
        # Cria uma tupla (score, doc_id) somando os resultados obtidos e coloca na lista
        score_id = (sum(scores), doc_id)
        result.append(score_id)
    # Ordena do maior para o menor, por ser tupla, considera apenas o primeiro elemento para ordenar (o score)
    result = sorted(result, reverse=True)
    result = [str(t[1]) for t in result] # A lista passa a ser apenas dos doc_ids como strings (por causa da função mapk)
    return result[:5] # Retorna os 5 primeiros

# Avaliação Buscas Vetoriais

## Definição da função de comparação, Leitura do gabarito e realização das consultas

In [239]:
def apk(actual, predicted, k=10):
    if len(predicted)>k:
        predicted = predicted[:k]

    score = 0.0
    num_hits = 0.0

    for i,p in enumerate(predicted):
        if p in actual and p not in predicted[:i]:
            num_hits += 1.0
            score += num_hits / (i+1.0)

    if not actual:
        return 0.0

    return score / min(len(actual), k)

def mapk(actual, predicted, k=10):
    return np.mean([apk(a,p,k) for a,p in zip(actual, predicted)])

In [240]:
gabarito = pandas.read_csv('gabarito.csv')

In [241]:
binaria_result, tf_result, tfidf_result, bm25_result = [], [], [], []
for consulta in gabarito.str_busca :
    binaria_result.append(busca_binaria(consulta))
    tf_result.append(busca_tf(consulta))
    tfidf_result.append(busca_tfidf(consulta))
    bm25_result.append(busca_bm25(consulta))

## 1. Mapk Busca Binaria

In [242]:
mapk(gabarito.busca_binaria, binaria_result, k=5)

1.0

## 2. Mapk Busca TF

In [243]:
mapk(gabarito.tf, tf_result, k=5)

0.9199999999999999

## 3. Mapk TF-IDF

In [244]:
mapk(gabarito.tfidf, tfidf_result, k=5)

0.7253333333333334

## 4. Mapk BM25

In [245]:
mapk(gabarito.bm25, bm25_result, k=5)

0.7626666666666667

# "Do melhor ao pior, como se saíram os modelos? Justifique sua resposta"

Comparado ao gabarito:
    1. Vetor binario
    2. TF
    3. BM25
    4. TF-IDF
Nos meus testes, acredito que seja simplesmente porque alguns documentos tem a mesma pontuação e a ordem ficou invertida comparado ao gabarito, fora isso, o BM25 parece melhor nos resultados, seguido por TF-IDF, TF e vetor binario.