In [None]:
import pandas as pd
import nltk
nltk.download('punkt')

tabela = pd.read_csv('noticias_estadao.csv')
tabela.set_index("idNoticia", inplace=True)


#Lê e separa as palavras de um texto de determidada notícia, para adicionar ou atualizar o índice 'palavra' do dicionário
def cataloga_palavras(dicionario, texto, idNoticia):
    palavras = nltk.word_tokenize(texto)
    #mesmo que uma palavra apareça várias vezes no texto,só é necessário adicionar o id dessa notícia uma vez, por isso é utilizado set
    palavras = set(palavras)
    for palavra in palavras:
        palavra = palavra.lower()   #o algoritmo não é case-sensitive
        if palavra in dicionario:
            dicionario[palavra].append(idNoticia)
        else:
            dicionario[palavra] = [idNoticia]
            
dicionario = {}

#Cataloga as palavras de todas as notícias da tabela
for index, row in tabela.iterrows():
    cataloga_palavras(dicionario, row['conteudo'], index)
    cataloga_palavras(dicionario, row['titulo'], index)

In [16]:
#Retorna os ids de notícias que possuem aquela palavra
def indice_invertido(palavra):
    return dicionario[palavra]
    
#Faz a busca de um ou dois termos, com os operadores booleanos AND e OR
def search(termos):
    termos = termos.split()
    if len(termos) == 1:   #Caso haja apenas um termo na busca
        return indice_invertido(termos[0].lower())
    indice1 = indice_invertido(termos[0].lower())
    indice2 = indice_invertido(termos[2].lower())
    if termos[1] == "OR":
        return set(indice1 + indice2)   #OR consiste na junção dos resultados, desconsiderando as repetições
    else:
        retorno = []
        for i in indice1:
            for j in indice2:
                if i == j:      #AND deve retornar apenas as notícias em que os dois termos estão presentes
                    retorno.append(j)
        return set(retorno)
    
print(search("candidatos"))
    
assert len(search("Campina AND Grande")) == 12
assert len(search("debate OR presidencial")) == 1770
assert len(search("debate AND presidencial")) == 201
assert len(search("presidenciáveis OR corruptos")) == 164
assert len(search("presidenciáveis AND corruptos")) == 0
assert len(search("Belo OR Horizonte")) == 331
assert len(search("Belo AND Horizonte")) == 242

[3125, 6953, 5974, 7014, 3476, 5886, 5535, 7354, 1445, 3883, 3024, 1208, 1210, 1257, 2195, 2790, 5516, 7130, 3218, 6783, 5889, 5889, 6785, 2150, 5425, 5161, 3567, 7440, 2116, 1877, 3531, 2969, 5237, 3505, 2117, 2243, 3485, 3058, 5428, 3129, 4919, 2442, 2627, 5005, 717, 1234, 1186, 1424, 3368, 6766, 3446, 3506, 3650, 3655, 1508, 5834, 1507, 7329, 4161, 2691, 3426, 1773, 1324, 1327, 3643, 4569, 5734, 2623, 1781, 2927, 4170, 3206, 2065, 1131, 2027, 1355, 1729, 3998, 2468, 2328, 2813, 4287, 1128, 795, 6730, 3287, 2516, 1746, 1746, 4428, 5575, 5481, 1162, 7480, 4747, 2188, 4552, 6168, 3521, 2756, 5337, 6575, 4828, 6436, 2846, 7563, 4364, 4923, 4873, 4653, 2907, 1898, 6370, 375, 7642, 1372, 4296, 1999, 2668, 4810, 1993, 1490, 6479, 1489, 2092, 2302, 1422, 1349, 3809, 1175, 3698, 5066, 5809, 5978, 4484, 7091, 1237, 2768, 5180, 6878, 6638, 1034, 5012, 1399, 4177, 844, 2849, 5126, 5687, 829, 4887, 1398, 7365, 1695, 1700, 6096, 4541, 1274, 1201, 2721, 647, 3772, 6896, 3522, 3528, 3150, 7013, 368