# Codigo para geração do indice invertido

In [1]:
import pandas as pd
import math
import nltk
from nltk import bigrams
from nltk.corpus import stopwords
from nltk.tokenize import RegexpTokenizer
import numpy as np
import string
from scipy import sparse
import scipy.sparse as sps

In [2]:
class WordInfo:
    'Classe que guarda informações sobre a palavra, como documentos em que ocorre, tf em cada documento e calculo de idf'

    def __init__(self, word) : # Contrutor da classe recebe apenas a palavra em questão
        self.word = word
        self.idf = 0
        self.docs = {} # Dicionario que mapeia doc_id ao tf da palavra

    def found(self, doc_id) : # Metodo que realiza a contagem do tf da palavra
        if(doc_id in self.docs) : # Se o doc_id está mapeado, incrementa-o
            self.docs[doc_id] += 1
        else :
            self.docs[doc_id] = 1 # Caso contrario, define-o como 1
            
    def calculateIDF(self, totaldocs) : # Metodo de calculo do idf, recebendo o total de documentos
        df = len(self.docs) # Numero de documentos em que a palavra ocorre 
        if (df > 0) :
            self.idf = math.log(((totaldocs + 1)/df))
            
    def getIds(self) : # Metodo que retorna todos os doc_ids em que a palavra ocorre
        return list(self.docs.keys())
    
    def getTf(self, doc_id) : # Metodo que retorna o tf da palavra em um documento, ou 0 caso não ocorra
        return self.docs.get(doc_id, 0)

In [3]:
tabela = pd.read_csv("estadao_noticias_eleicao.csv", encoding="utf-8")
tabela.fillna('', inplace=True) # Preenchendo os campos vazios da tabela com ''

In [4]:
content = tabela.titulo + " " + tabela.subTitulo + " " +  tabela.conteudo

In [5]:
tokenizer = RegexpTokenizer(r'\w+')
tokens_lists = content.apply(lambda text: tokenizer.tokenize(text.lower()))

In [6]:
corpus = [token for tokens_list in tokens_lists for token in tokens_list]

In [7]:
vocab = set(corpus)
vocab = list(vocab)
vocab = {word:i for i, word in enumerate(vocab)}

In [8]:
mapa = {} # Dicionario/Mapa que representa o indice invertido

In [9]:
documentos = {} # Dicionario que guarda os vetores dos documentos

In [11]:
for index, linha in tabela.iterrows() : # Iterando sobre as noticias no arquivo
    id = linha['idNoticia'] # Recuperando o idNoticia da noticia atual
    texto = tokenizer.tokenize(linha['titulo'] + ' ' + linha['subTitulo'] + ' ' + linha['conteudo']) # Tokenização do texto
    documentos[id] = {}
    for palavra in texto: # Iterando sobre as palavras na Noticia
        if (palavra not in string.punctuation): # Só ocorre o mapeamento se a palavra não é uma pontuação
            if (palavra.lower() not in mapa) : # Se a palavra ainda não foi mapeada, mapeia-a
                mapa[palavra.lower()] = WordInfo(palavra.lower())
            mapa[palavra.lower()].found(id) # Contabiliza a ocorrencia da palavra no documento atual
            documentos[id][vocab[palavra.lower()]] = 1

for k in mapa.keys() : # Laço para realizar o calculo dos idfs de cada palavra mapeada
    mapa[k].calculateIDF(len(documentos))
    index_palavra = vocab[k]
    for doc_i in documentos.keys() :
        if (index_palavra in documentos[doc_i]) :
            documentos[doc_i][index_palavra] = mapa[k].getTf(doc_i) * mapa[k].idf

# Funções de Consultas Booleanas(And, Or e geral)

In [8]:
def searchAnd(palavra1, *palavras) :
    docs1 = mapa[palavra1.lower()].getIds() # Recupera todos as noticias em que "palavra1" ocorreu
    docs2 = mapa[palavra2.lower()].getIds() # Recupera todos as noticias em que "palavra2" ocorreu
    result = set() # Cria um conjunto vazio
    result.update(docs1) # Preenche o conjunto com os ids das noticias que "palavra1" aparece
    for palavra in palavras :
        docs = mapa[palavra.lower()].getIds()
        result = result.intersection(docs)
    return list(result)

In [9]:
def searchOr(palavra1, *palavras) :
    docs1 = mapa[palavra1.lower()].getIds()
    result = set() # Cria um conjunto vazio
    result.update(docs1) # Preenche o conjunto com os ids das noticias que "palavra1" aparece
    for palavra in palavras :
        docs = mapa[palavra.lower()].getIds()
        result.update(docs)
    return list(result)

In [10]:
def search(consulta) :
    partes = consulta.split(' ')
    if (len(partes) < 2) : # Se a consulta só tem uma palavra
        return mapa[partes[0].lower()].getIds() # Recupera os ids que a palavra aparece
    elif (partes[1].upper() == 'AND') : # Se é uma consulta AND
        return searchAnd(partes[0], partes[2]) # Chama a função de consulta AND
    elif (partes[1].upper() == 'OR') : # Se é uma consulta OR
        return searchOr(partes[0], partes[2]) # Chama a função de consulta OR

# Funções de Consultas Vetoriais

In [11]:
def busca_binaria(consulta) :
    palavras = consulta.split(' ') # Quebrando a consulta em palavras
    relevant_docs = set(mapa[palavras[0]].getIds()) # Inicia o conjunto de documentos relevantes
    # Laço que realiza interseção dos conjuntos, para mantes apenas documentos em que todas as palavras a consulta ocorre
    for i in range(1, len(palavras)) :
        relevant_docs = relevant_docs.intersection(set(mapa[palavras[i]].getIds()))
    # Como é busca binaria, apenas retorna os primeiros 5 documentos que contem todas as palavras
    return list(relevant_docs)[:5]

In [12]:
def busca_tf(consulta) :
    palavras = consulta.split(' ') # Quebrando a consulta em palavras
    relevant_docs = set(mapa[palavras[0]].getIds()) # Inicia o conjunto de documentos relevantes
    # Laço que realiza interseção dos conjuntos, para mantes apenas documentos em que todas as palavras a consulta ocorre
    for i in range(1, len(palavras)) :
        relevant_docs = relevant_docs.intersection(set(mapa[palavras[i]].getIds()))
    result = [] # Lista que será gerado o resultado
    for doc_id in relevant_docs : # Para cada documento relevante
        scores = [mapa[w].getTf(doc_id) for w in palavras] # Obtem os tfs de cada palavra da consulta
        # Cria uma tupla (score, doc_id) somando os tfs obtidos e coloca na lista
        score_id = (sum(scores), doc_id)
        result.append(score_id)
    # Ordena do maior para o menor, considerando apenas o primeiro elemento da tupla para ordenar (o score)
    result = sorted(result, reverse=True, key=lambda tup: tup[0]) 
    result = [t[1] for t in result] # A lista passa a ser apenas dos doc_ids
    return result[:5] # Retorna os 5 primeiros

In [13]:
def busca_tfidf(consulta) :
    palavras = consulta.split(' ') # Quebrando a consulta em palavras
    relevant_docs = set(mapa[palavras[0]].getIds()) # Inicia o conjunto de documentos relevantes
    # Laço que realiza interseção dos conjuntos, para mantes apenas documentos em que todas as palavras a consulta ocorre
    for i in range(1, len(palavras)) :
        relevant_docs = relevant_docs.intersection(set(mapa[palavras[i]].getIds()))
    result = [] # Lista que será gerado o resultado
    for doc_id in relevant_docs : # Para cada documento relevante
        scores = [] # Lista para guardar os scores de cada palavra da consulta
        for w in palavras : # Calcula tf * idf de cada palavra da consulta e adiciona na lista
            m_palavra = mapa[w]
            w_score = m_palavra.getTf(doc_id) * m_palavra.idf
            scores.append(w_score)
        # Cria uma tupla (score, doc_id) somando os resultados obtidos e coloca na lista
        score_id = (sum(scores), doc_id)
        result.append(score_id)
    # Ordena do maior para o menor, considerando apenas o primeiro elemento da tupla para ordenar (o score)
    result = sorted(result, reverse=True, key=lambda tup: tup[0])
    result = [t[1] for t in result] # A lista passa a ser apenas dos doc_ids
    return result[:5] # Retorna os 5 primeiros

In [14]:
def busca_bm25(consulta) :
    k = 6 # 6 foi o valor de K que maximizou o resultado da função mapk
    palavras = consulta.split(' ') # Quebrando a consulta em palavras
    relevant_docs = set(mapa[palavras[0]].getIds()) # Inicia o conjunto de documentos relevantes
    # Laço que realiza interseção dos conjuntos, para mantes apenas documentos em que todas as palavras a consulta ocorre
    for i in range(1, len(palavras)) :
        relevant_docs = relevant_docs.intersection(set(mapa[palavras[i]].getIds()))
    result = [] # Lista que será gerado o resultado
    for doc_id in relevant_docs : # Para cada documento relevante
        scores = [] # Lista para guardar os scores de cada palavra da consulta
        for w in palavras : # Calcula tf*(k+1)/(tf + k) * idf de cada palavra da consulta e adiciona na lista
            m_palavra = mapa[w]
            tf = m_palavra.getTf(doc_id)
            w_score = (tf*(k+1))/(tf + k) * m_palavra.idf
            scores.append(w_score)
        # Cria uma tupla (score, doc_id) somando os resultados obtidos e coloca na lista
        score_id = (sum(scores), doc_id)
        result.append(score_id)
    # Ordena do maior para o menor, considerando apenas o primeiro elemento da tupla para ordenar (o score)
    result = sorted(result, reverse=True, key=lambda tup: tup[0])
    result = [t[1] for t in result] # A lista passa a ser apenas dos doc_ids
    return result[:5] # Retorna os 5 primeiros

# Funções para calcular a similaridade

In [15]:
def distance(docQ, docI) :
    score = 0
    for word_index in docQ.keys() :
        score += docQ[word_index] * docI.get(word_index, 0)
    return score

In [43]:
def top5(docQ) :
    top = [(id_doc, distance(docQ, documentos[id_doc])) for id_doc in list(documentos.keys())[:5]]
    top = sorted(top, reverse=True, key=lambda tup: tup[1])
    for i in list(documentos.keys())[5:]:
        d = distance(docQ, documentos[i])
        j = 4
        while (d > top[j][1] and j > 0) :
            j -= 1
        top.insert(j+1, (i, d))
        top = top[:5]
    return top

In [44]:
top5(documentos[1])

[(1, 10373.831340546792),
 (7, 4539.375061954259),
 (6554, 4124.683707865925),
 (3942, 3893.220158262253),
 (7017, 3387.111891626281)]