# Lab 1 - Parte 1 - Busca Booleana

Nessa atividade foi implementado um modelo de busca booleana, bem como operadores conjuntivo e disjuntivo em uma busca desse tipo.

Inicialmente, foram importadas as bibliotecas necessárias

In [1]:
import csv
import re
import timeit
from sortedcontainers import SortedList

Definem-se algumas constantes referente a posicionamento de colunas no csv usado como entrada.

In [3]:
TITLE_INDEX = 0
BODY_INDEX = 1
ID_INDEX = 2

Em seguida, foi implementada a função responsável por encher o índice invertido da pesquisa.

In [4]:
def fillInvertedIndex(pageId, text, invertedIndex):
    for word in text.split(' '):
        lowerWord = word.lower()
        if lowerWord not in invertedIndex:
            invertedIndex[lowerWord] = SortedList()

        if pageId not in invertedIndex[lowerWord]:
            invertedIndex[lowerWord].add(pageId)

Nessa função vê-se que existe um mapeamento entre termo e uma lista de documentos (*postings*) e que essa lista está ordenada para facilitar, posteriormente, as operações de merge. Vê-se também que as palavras são padronizadas para que todas fiquem com carácteres minúsculos.

## Operações

De posse de um índice invertido, é possível, então, construir as operações de busca conjuntiva e disjuntiva. 

A operação conjuntiva foi implementada conforme segue:

In [5]:
def searchAnd(firstTerm, secondTerm, invertedIndex):
    results = SortedList()

    firstTermList = invertedIndex[firstTerm.lower()]
    secondTermList = invertedIndex[secondTerm.lower()]

    i = 0
    j = 0

    while True:
        if firstTermList[i] == secondTermList[j]:
            results.add(firstTermList[i])

        if firstTermList[i] > secondTermList[j]:
            j += 1
            if j == len(secondTermList):
                break

        else:
            i += 1
            if i == len(firstTermList):
                break

    return results

Verifica-se que pegam-se as duas listas de documentos dos termos buscados, a partir daí caminha-se nas duas listas achando os elementos que se encontram na interseção. 

Analogamente, foi definida a função de operação disjuntiva:

In [7]:
def searchOr(firstTerm, secondTerm, invertedIndex):
    results = SortedList()
    for pageId in invertedIndex[firstTerm.lower()]:
        results.add(pageId)

    for pageId in invertedIndex[secondTerm.lower()]:
        if pageId not in results:
            results.add(pageId)

    return results

O algoritmo da busca disjuntiva é, portanto, mais simples, e trata-se de uma união entre as duas listas de documentos.

Finalmente, foi criada um função para direcionar para processar a busca e direcionar para a operação correta:

In [8]:
def search(input):
    terms = input.split(' ')
    if len(terms) == 1:
        return invertedIndex[terms[0]]

    else:
        if (terms[1] == 'AND'):
            return searchAnd(terms[0], terms[2], invertedIndex)

        if (terms[1] == 'OR'):
            return searchOr(terms[0], terms[2], invertedIndex)

## Buscando

Definidas as funções de suporte e o modelo de busca e indexação, torna-se possível o carregamento dos dados e testes de corretude.

Primeiramente, foi feito o carregamento dos dados:

In [12]:
invertedIndex = dict()
pages = dict()

with open('estadao.csv', 'rt', encoding='utf8') as csvfile:
    estadao = csv.reader(csvfile)

    for index, row in enumerate(estadao):
        if index == 0:
            continue

        pageId = int(row[ID_INDEX])

        title = row[TITLE_INDEX]
        body = row[BODY_INDEX]

        pages[pageId] = {'title': title, 'body': body}

        fillInvertedIndex(pageId, title, invertedIndex)
        fillInvertedIndex(pageId, body, invertedIndex)

Feito isso, é possível testar o índice invertido construído:

In [14]:
print(invertedIndex['ciro'])

SortedList([16, 19, 46, 49, 55, 87, 235, 252, 310, 374, 417, 494, 657, 688, 791, 793, 836, 838, 861, 866, 868, 900, 972, 1006, 1009, 1114, 1364, 1425, 1433, 1656, 1665, 1738, 1760, 1813, 1834, 1840, 1906, 1921, 1926, 1949, 2004, 2050, 2242, 2264, 2277, 2554, 2631, 2634, 2659, 2725, 2778, 2780, 2949, 2965, 2967, 2971, 3008, 3054, 3055, 3064, 3071, 3362, 3440, 3514, 3716, 3725, 3770, 3824, 3966, 3971, 4141, 4207, 4631, 4725, 4730, 4736, 4792, 4803, 4814, 4827, 4828, 4838, 4841, 4858, 4948, 5134, 5145, 5168, 5183, 5193, 5276, 5282, 5335, 5365, 5388, 5391, 5453, 5458, 5465, 5519, 5521, 5573, 5637, 5860, 5999, 6051, 6132, 6146, 6169, 6183, 6287, 6288, 6344, 6441, 6459, 6500, 6586, 6656, 6800, 6860, 7005, 7211, 7270, 7299, 7307, 7338, 7367, 7390, 7443, 7509, 7513, 7532, 7560, 7563])


Bem como os algoritmos de busca, fazendo uma pesquisa por documentos que contenham os termos Ciro e Gomes.

In [17]:
print(search('ciro AND gomes'))

SortedList([16, 19, 49, 55, 374, 494, 657, 791, 793, 836, 838, 900, 1006, 1114, 1425, 1738, 1760, 1813, 1834, 1840, 1906, 1921, 1926, 1949, 2004, 2050, 2242, 2264, 2277, 2554, 2659, 2725, 2778, 2780, 3008, 3362, 3514, 3716, 3770, 3824, 4631, 4736, 4803, 4838, 4841, 4948, 5134, 5145, 5168, 5183, 5276, 5282, 5335, 5365, 5388, 5453, 5458, 5519, 5521, 5573, 5860, 5999, 6051, 6132, 6146, 6169, 6183, 6287, 6288, 6344, 6441, 6500, 6800, 6860, 7005, 7270, 7299, 7307, 7367, 7390, 7443, 7509, 7513])


Verificando um dos documentos fornecidos pela busca, tem-se:

In [19]:
print(pages[16])

{'body': 'Convidado para ocupar o Ministério da Educação no novo mandato da presidente Dilma Rousseff o governador do Ceará Cid Gomes Pros já tem uma lista de prioridades que deverá por em prática nas primeiras semanas de janeiro Gomes esteve ontem em Brasília onde se reuniu com o atual ministro da pasta Henrique Paim e parte da equipe do governo federal Conversei com o Paim sobre algumas questões postas no calendário do Ministério Na primeira semana depois da posse será divulgado o reajuste do piso dos professores Na segunda o resultado do Enem Exame Nacional do Ensino Médio na terceira e quarta abertura do Sisu Sistema de Seleção Unificada afirmou ao Broadcast Político serviço em tempo real da Agência Estado De saída do governo estadual e de mudança para Brasília Cid Gomes destaca como principal meta como ministro da Educação o debate sobre uma revisão da grade curricular do Ensino Médio Não será um currículo para todo o Brasil mas vai procurar respeitar as questões regionais ressalt

## Corretude

Para testar a corretude do algoritmo implementado, foram testados os *asserts* fornecidos como requisitos da atividade

In [27]:
assert(len(search('debate OR presidencial')) == 1770)
assert(len(search('debate AND presidencial')) == 201)

assert(len(search('presidenciáveis OR corruptos')) == 164)
assert(len(search('presidenciáveis AND corruptos')) == 0)

assert(len(search('Belo OR Horizonte')) == 331)
assert(len(search('Belo AND Horizonte')) == 242)