# Parte 1 - Índice Invertido e Busca Booleana

O objetivo desta atividade é construir um índice invertido a partir de um conjunto de notícias. Após a indexação, iremos realizar buscas booleanas sobre o indexador.
  
Os [dados](https://raw.githubusercontent.com/fonluiz/SRI/master/mini-project-1/data/local_newspaper_news(pt-br).csv) utilizados na construção do índece invertido foram retirados do site [Estadão Online](http://www.estadao.com.br/). Trata-se de um arquivo csv com três colunas - titulo, conteudo e idNoticia. 

O código abaixo exibe as primeiras linhas do arquivo csv.

In [1]:
import pandas as pd

news_df = pd.read_csv("data/local_newspaper_news(pt-br).csv", engine = "python")

news_df.head()

NameError: name 'pd' is not defined

### Passo 1: Criar o índice invertido

Um indice invertido é uma estrutura que guarda cada palavra em uma coleção de documentos e juntamente com essas palavras, guarda uma lista de todos os documentos em que essa palavra aparece.

A melhor estrutura de dados para se utilizar na construção de um índice invertido é tabelas hash. 

Em Python, dicionários são implementados utilizando tabelas hash. Dicionário é um array cujos índeces são obtidos aplicando uma função hash nas chaves.

In [None]:
"""Cria uma estrutura de índice invertido.

argumentos:
df -- Um dataframe pandas 
"""
def create_indexer(df):
    global indexer
    indexer = {}

    for index, row in df.iterrows():
        document = row['titulo'] + " " + row['conteudo']
        document = preprocess(document)
        doc_id = row['idNoticia']

        for term in document.split():
            if term in indexer:
                indexer[term].add(doc_id)
            else:
                indexer[term] = set([doc_id])

"""Converte uma string para caixa baixa."""
def preprocess(text):
    return text.lower()


### Passo 2: Definir a função de busca

A função de busca deve ser capaz de fazer consultas simples de um termo ou consultas de dois termos com os operadores AND e OR. A entrada da função é uma string, por exemplo, "debate OR presidencial".

Abaixo encontra-se o código dessa função de busca.

In [None]:
"""Executa uma busca booleana conjuntiva.

argumentos:
term1 -- o primeiro termo a se buscar
term2 -- o segundo termo a se buscar
"""
def and_search(term1, term2):
    term1 = preprocess(term1)
    term2 = preprocess(term2)

    posting1 = indexer[term1]
    posting2 = indexer[term2]

    return (posting1 & posting2)


"""Executa uma busca booleana disjuntiva.

argumentos:
term1 -- o primeiro termo a se buscar
term2 -- o segundo termo a se buscar
"""
def or_search(term1, term2):
    term1 = preprocess(term1)
    term2 = preprocess(term2)

    posting1 = indexer[term1]
    posting2 = indexer[term2]

    return (posting1 | posting2)


"""Executa uma busca booleana qualquer na estrutura de índece invertido.

argumentos:
query -- A consulta a se fazer, que deve conter o(s) termo(s) a se buscar e um operador (opcional)
"""
def search(query):
    and_op = " AND "
    or_op = " OR "

    if and_op in query:
        terms = query.split(and_op)
        return and_search(terms[0], terms[1])
    elif or_op in query:
        terms = query.split(or_op)
        return or_search(terms[0], terms[1])
    else:
        query = preprocess(query)
        return indexer[query]

### Parte 3: Avaliação das funções de busca

Vamos testar as seguintes consultas e imprimir os resultados.

1. candidatos
2. debate, presidencial (AND e OR);
3. presidenciáveis, corruptos (AND e OR);
4. Belo, Horizonte (AND e OR)

In [None]:
# Primeiro criamos o indexer
create_indexer(news_df)

# print(search("candidatos"))
# print(search("debate OR presidencial"))
# print(search("debate AND presidencial"))
# print(search("presidenciáveis OR corruptos"))
# print(search("presidenciáveis AND corruptos"))
# print(search("Belo OR Horizonte"))
# print(search("Belo AND Horizonte"))

assert len(search("debate OR presidencial")) == 1770
assert len(search("debate AND presidencial")) == 201

assert len(search("presidenciáveis OR corruptos")) == 164
assert len(search("presidenciáveis AND corruptos")) == 0

assert len(search("Belo OR Horizonte")) == 331
assert len(search("Belo AND Horizonte")) == 242