# Lab01 - Busca Booleana

## Indice invertido

O método a seguir permite construir um indice invertido.

In [26]:
import nltk as n

inverted_index = {}
def build_inverted_index(data):
    data["noticia"] = data.titulo + " " + data.conteudo
    for index, doc in data.iterrows():
        doc.noticia = doc.noticia.lower()
        words = [str(word) for word in n.word_tokenize(doc.noticia)]
        for word in words:
            inverted_index.setdefault(word, []).append(doc.idNoticia)

    return inverted_index

## Implementação dos métodos de busca

Criando um método de busca genérico podendo receber pesquisas com apenas um termo, dois termos com *and* ou com *or*.

In [9]:
def search(term):
    term = n.word_tokenize(term)

    if len(term) == 1:
        return _search_one_term(term[0])
    elif len(term) == 3 and term[1].upper() == "AND":
        return _search_and(term[0], term[2])
    elif len(term) == 3 and term[1].upper() == "OR":
        return _search_or(term[0], term[2])

Método de busca com apenas um termo.

In [10]:
def _search_one_term(term):
    if inverted_index.has_key(term.lower()):
        return sorted(list(set(inverted_index[term.lower()])))
    else:
        return None

Metodo de busca *and* com apenas dois termos.

In [11]:
def _search_and(first_term, second_term):
    if inverted_index.has_key(first_term.lower()) and inverted_index.has_key(second_term.lower()):
        return sorted(list(set(inverted_index[first_term.lower()]) & set(inverted_index[second_term.lower()])))
    else:
        return None

Metodo de busca *or* com apenas dois termos.

In [12]:
def _search_or(first_term, second_term):
    if inverted_index.has_key(first_term.lower()) and inverted_index.has_key(second_term.lower()):
        return sorted(list(set(inverted_index[first_term.lower()]) | set(inverted_index[second_term.lower()])))
    elif inverted_index.has_key(first_term.lower()):
        return sorted(list(set(inverted_index[first_term.lower()])))
    elif inverted_index.has_key(second_term.lower()):
        return sorted(list(set(inverted_index[second_term.lower()])))
    else:
        return None

## Importação do data-set

In [24]:
import pandas as p

data = p.read_csv("data-set/estadao_noticias_eleicao.csv", encoding = "utf-8")[:100]
data = data.replace(np.NAN, "")

content = data.titulo + " " + data.subTitulo + " " + data.conteudo
# content = content.fillna("")

tokenizer = RegexpTokenizer(r'\w+')
tokens_lists = content.apply(lambda text: tokenizer.tokenize(text.lower()))
stopword_ = stopwords.words('portuguese')
filtered_tokens = tokens_lists.apply(lambda tokens: [token for token in tokens if token not in stopword_])
tokens = [token for tokens_list in filtered_tokens for token in tokens_list]
print (tokens)

['pt', 'espera', '30', 'mil', 'pessoas', 'festa', 'esplanada', 'objetivo', 'é', 'demonstrar', 'apoio', 'popular', 'dilma', 'tentar', 'reduzir', 'questionamentos', 'adversários', 'brasília', 'após', 'desgaste', 'provocado', 'lançamento', 'medidas', 'impopulares', 'anúncio', 'ministério', 'nomes', 'contestados', 'movimentos', 'sociais', 'surgimento', 'manifestações', 'pró', 'impeachment', 'pt', 'pretende', 'mobilizar', 'menos', '30', 'mil', 'pessoas', 'encher', 'esplanada', 'ministérios', 'tornar', 'posse', 'presidente', 'dilma', 'rousseff', 'grande', 'endosso', 'popular', 'segundo', 'mandato', 'petista', 'palácio', 'planalto', 'avaliação', 'é', 'mobilização', 'sociedade', 'civil', 'é', 'fundamental', 'mostrar', 'presidente', 'possui', 'legitimidade', 'apoio', 'popular', 'ajudaria', 'desencorajar', 'aventureiros', 'queiram', 'questionar', 'resultado', 'urnas', 'vai', 'ser', 'posse', 'caráter', 'marcadamente', 'político', 'sentido', 'disputa', 'festa', 'celebração', 'vitória', 'diz', 'gil

## Chamada ao método de contrução de indice invertido


In [25]:
build_inverted_index(data)
print (inverted_index.keys())

AttributeError: 'float' object has no attribute 'lower'

## Sanity Check

In [15]:
assert len(search("Campina AND Grande")) == 12

In [16]:
assert len(search("Campina OR Grande")) == 1656

In [17]:
assert search("Campina AND Grande") == [1068, 1370, 1770, 1952, 1987, 2763, 2777, 2779, 4802, 5382, 5870, 6694]

Para validar um busca *or* podemos usar a seguinte propriedade de operação de conjuntos

![OR](https://njadnrfof9.execute-api.us-east-1.amazonaws.com/prod/svg?tex=%7CA%5C%3A%5Ccup%5C%3AB%7C%5C%3A%3D%5C%3A%7CA%7C%5C%3A%2B%5C%3A%7CB%7C%5C%3A%5C%3A-%5C%3A%7CA%5Ccap%20B%7C)

In [18]:
assert len(search("Campina OR Grande")) == len(search("Campina")) + len(search("Grande")) - len(search("Campina AND Grande"))

## Exemplos de execução

debate *AND* presidencial

In [19]:
assert len(search("debate AND presidencial")) == 201

debate *OR* presidencial

In [20]:
assert len(search("debate OR presidencial")) == 1770

presidenciáveis *AND* corruptos

In [21]:
assert len(search("presidenciáveis AND corruptos")) == 0

presidenciáveis *OR* corruptos

In [22]:
assert len(search("presidenciáveis OR corruptos")) == 164

Belo *OR* Horizonte

In [23]:
assert len(search("Belo OR Horizonte")) == 331

Belo *AND* Horizonte

In [24]:
assert len(search("Belo AND Horizonte")) == 242