# Codigo para geração do indice invertido

In [26]:
import pandas

In [27]:
tabela = pandas.read_csv('noticias_estadao.csv')

In [29]:
mapa = {} # Dicionario/Mapa que representa o indice invertido

In [30]:
for index, linha in tabela.iterrows() : # Iterando sobre as noticias no arquivo
    id = linha['idNoticia'] # Recuperando o idNoticia da noticia atual
    texto = linha['titulo'] + ' ' + linha['conteudo'] # Unindo "Titulo" e "Conteudo" da Noticia
    texto = texto.split(' ')
    for palavra in texto: # Iterando sobre as palavras na Noticia
        if (palavra.lower() in mapa) : # Se a palavra já esta no mapa:
            if (id not in mapa[palavra.lower()]) : # E o idNoticia da noticia atual ainda não foi listado para essa palavra:
                mapa[palavra.lower()].append(id) # Adiciona o idNoticia atual na lista de noticias em que a palavra aparece
        else : # Se a palavra não esta no mapa:
            mapa[palavra.lower()] = [id] # Mapeia a palavra, sendo o idNoticia atual o único em que ela ocorreu até o momento

# Funções de Consultas (And, Or e geral)

In [31]:
def searchAnd(palavra1, palavra2) :
    docs1 = mapa[palavra1.lower()] # Recupera todos as noticias em que "palavra1" ocorreu
    docs2 = mapa[palavra2.lower()] # Recupera todos as noticias em que "palavra2" ocorreu
    result = set() # Cria um conjunto vazio
    result.update(docs1) # Preenche o conjunto com os ids das noticias que "palavra1" aparece
    result = result.intersection(docs2) # Mantem no conjunto apenas os ids que as duas palavras ocorrem.
    return list(result)

In [32]:
def searchOr(palavra1, palavra2) :
    docs1 = mapa[palavra1.lower()] # Recupera todos as noticias em que "palavra1" ocorreu
    docs2 = mapa[palavra2.lower()] # Recupera todos as noticias em que "palavra2" ocorreu
    result = set() # Cria um conjunto vazio
    result.update(docs1) # Preenche o conjunto com os ids das noticias que "palavra1" aparece
    result.update(docs2) # Preenche o conjunto com os ids das noticias que "palavra2" aparece, por ser conjunto as duplicadas são eliminadas
    return list(result)

In [33]:
def search(consulta) :
    partes = consulta.split(' ')
    if (len(partes) < 2) : # Se a consulta só tem uma palavra
        return mapa[partes[0].lower()] # Recupera os ids que a palavra aparece
    elif (partes[1].upper() == 'AND') : # Se é uma consulta AND
        return searchAnd(partes[0], partes[2]) # Chama a função de consulta AND
    elif (partes[1].upper() == 'OR') : # Se é uma consulta OR
        return searchOr(partes[0], partes[2]) # Chama a função de consulta OR

# 1. debate, presidenciável (AND e OR)

In [34]:
assert len(search("debate OR presidencial")) == 1770

In [35]:
assert len(search("debate AND presidencial")) == 201

# 2. presidenciáveis, corruptos (AND e OR)

In [36]:
assert len(search("presidenciáveis OR corruptos")) == 164

In [37]:
assert len(search("presidenciáveis AND corruptos")) == 0

# 3. Belo, Horizonte (AND e OR)

In [38]:
assert len(search("Belo OR Horizonte")) == 331

In [39]:
assert len(search("Belo AND Horizonte")) == 242