# Codigo para geração do indice invertido

In [22]:
import pandas
import math

In [23]:
class WordInfo:
    'Informação sobre a palavra'

    def __init__(self, word) :
        self.word = word
        self.idf = 0
        self.docs = {}

    def found(self, doc_id) :
        if(doc_id in self.docs) :
            self.docs[doc_id] += 1
        else :
            self.docs[doc_id] = 1
            
    def calculateIDF(self, totaldocs) :
        df = len(self.docs)
        if (df > 0) :
            self.idf = math.log((totaldocs + 1)/df)
            
    def getIds(self) :
        return list(self.docs.keys())

In [24]:
tabela = pandas.read_csv('noticias_estadao.csv')

In [25]:
mapa = {} # Dicionario/Mapa que representa o indice invertido

In [26]:
documentos = {}

In [27]:
def conta(palavra, id_doc) :
    mapeada = False
    for doc in mapa[palavra.lower()] :
        if (doc[0] == id_doc) :
            mapeada = True
            doc[1] += 1
    if (not mapeada) :
        mapa[palavra.lower()].append([id, 1])

In [28]:
for index, linha in tabela.iterrows() : # Iterando sobre as noticias no arquivo
    id = linha['idNoticia'] # Recuperando o idNoticia da noticia atual
    texto = linha['titulo'] + ' ' + linha['conteudo'] # Unindo "Titulo" e "Conteudo" da Noticia
    documentos[id] = len(texto) - 1
    texto = texto.split(' ')
    for palavra in texto: # Iterando sobre as palavras na Noticia
        if (palavra.lower() not in mapa) : 
            mapa[palavra.lower()] = WordInfo(palavra.lower())
        mapa[palavra.lower()].found(id)

In [33]:
for k in mapa.keys() :
    mapa[k].calculateIDF(len(documentos))

# Funções de Consultas (And, Or e geral)

In [43]:
def searchAnd(palavra1, palavra2) :
    docs1 = mapa[palavra1.lower()].getIds() # Recupera todos as noticias em que "palavra1" ocorreu
    docs2 = mapa[palavra2.lower()].getIds() # Recupera todos as noticias em que "palavra2" ocorreu
    result = set() # Cria um conjunto vazio
    result.update(docs1) # Preenche o conjunto com os ids das noticias que "palavra1" aparece
    result = result.intersection(docs2) # Mantem no conjunto apenas os ids que as duas palavras ocorrem.
    return list(result)

In [44]:
def searchOr(palavra1, palavra2) :
    docs1 = mapa[palavra1.lower()].getIds() # Recupera todos as noticias em que "palavra1" ocorreu
    docs2 = mapa[palavra2.lower()].getIds() # Recupera todos as noticias em que "palavra2" ocorreu
    result = set() # Cria um conjunto vazio
    result.update(docs1) # Preenche o conjunto com os ids das noticias que "palavra1" aparece
    result.update(docs2) # Preenche o conjunto com os ids das noticias que "palavra2" aparece, por ser conjunto as duplicadas são eliminadas
    return list(result)

In [45]:
def search(consulta) :
    partes = consulta.split(' ')
    if (len(partes) < 2) : # Se a consulta só tem uma palavra
        return mapa[partes[0].lower()].getIds() # Recupera os ids que a palavra aparece
    elif (partes[1].upper() == 'AND') : # Se é uma consulta AND
        return searchAnd(partes[0], partes[2]) # Chama a função de consulta AND
    elif (partes[1].upper() == 'OR') : # Se é uma consulta OR
        return searchOr(partes[0], partes[2]) # Chama a função de consulta OR

# 1. debate, presidenciável (AND e OR)

In [46]:
assert len(search("debate OR presidencial")) == 1770

In [47]:
assert len(search("debate AND presidencial")) == 201

# 2. presidenciáveis, corruptos (AND e OR)

In [48]:
assert len(search("presidenciáveis OR corruptos")) == 164

In [53]:
assert len(search("presidenciáveis AND corruptos")) == 0

# 3. Belo, Horizonte (AND e OR)

In [50]:
assert len(search("Belo OR Horizonte")) == 331

In [51]:
assert len(search("Belo AND Horizonte")) == 242