In [2]:
import pandas as pd
import numpy as np
import nltk
from textblob import TextBlob

In [3]:
dados = pd.read_csv('../data/noticias_estadao.csv')

### Visão geral dos dados

In [4]:
dados.head()

Unnamed: 0,titulo,conteudo,idNoticia
0,PT espera 30 mil pessoas em festa na Esplanada,BRASÍLIA - Após o desgaste provocado com o lan...,1
1,Alckmin toma posse de olho no Planalto,"Reeleito em outubro, o governador tucano Geral...",2
2,Seis obstáculos e desafios do segundo mandato ...,1. Rearranjo das contas A nova equipe econôm...,3
3,Veja os desafios dos governadores que assumem ...,"No Acre, governador reeleito quer erradicar an...",4
4,PT impulsiona cerimônia de posse da Dilma nas ...,"Os perfis da presidente Dilma Rousseff, nas re...",5


In [5]:
print("Os dados tem %d observações e %d colunas" % dados.shape)

Os dados tem 7643 observações e 3 colunas


### Índices invertidos

A função calcula os índices invertidos para a base de dados, considerando as colunas **titulo** e **conteudo** para a construção. Não há diferenciação entre letras maiúsculas e minúsculas nas palavras (são transformadas em minúsculo no algoritmo).

A estrutura da dados utilizada é um dicionário onde as chaves são as palavras e o conteúdo são sets contendo os índices de cada notícia onde essa palavra aparece.

In [6]:
def calcula_indices_invertidos(data):
    indices = {}
    for index, row in data.iterrows():
        palavras_titulo = TextBlob(row["titulo"]).words
        palavras_conteudo = TextBlob(row["conteudo"]).words
        
        for palavra in palavras_titulo:
            palavra_low = palavra.lower()
            if(palavra_low in indices):
                indices[palavra_low].add(row["idNoticia"])
            else:
                indices[palavra_low] = {row["idNoticia"]}
                
        for palavra in palavras_conteudo:
            palavra_low = palavra.lower()
            if(palavra_low in indices):
                indices[palavra_low].add(row["idNoticia"])
            else:
                indices[palavra_low] = {row["idNoticia"]}
    return(indices)

indices_invertidos = calcula_indices_invertidos(dados)

### Algoritmos de Busca

#### Busca um termo
A busca de apenas um termo é feita através de uma consulta simples no dicionário de índices invertidos.
O método retorna um set vazio se a palavra não for encontrada.

In [7]:
def busca_um_termo(termo):
    try:
        return(indices_invertidos[termo])
    except KeyError:
        return(set())

#### Busca AND
A busca AND de 2 termos é feita usando a operação de intersecção de conjuntos entre duas consultas diretas no dicionário de índices invertidos.

O método retorna um set vazio se uma das palavras não for encontrada.

In [8]:
def busca_and(termo1, termo2):
    try:
        busca1 = indices_invertidos[termo1]
        busca2 = indices_invertidos[termo2]
        return(busca1 & busca2)
    except KeyError:
        return(set())

#### Busca OR
A busca OR de 2 termos é feita usando a operação de união de conjuntos entre duas consultas diretas no dicionário de índices invertidos.

In [9]:
def busca_or(termo1, termo2):
    try:
        busca1 = indices_invertidos[termo1]
    except KeyError:
        busca1 = set()
        
    try:
        busca2 = indices_invertidos[termo2]
    except KeyError:
        busca2 = set()
        
    return(busca1 | busca2)

#### Busca booleana
O algoritmo generaliza as consultas de busca de um termo, and e or, além disso, trata casos em que a entrada não corresponde à uma entrada válida, como número inválido de argumentos ou uso de um operador inváĺido.

In [10]:
def busca_booleana(*args):
    if (len(args) != 3 and len(args) != 1):
        return("Número inválido de argumentos")
    if(len(args) == 1):
        termo = args[0].lower()
        return(busca_um_termo(termo))
    elif(args[2] == "AND"):
        termo1 = args[0].lower()
        termo2 = args[1].lower()
        return(busca_and(termo1, termo2))
    elif(args[2] == "OR"):
        termo1 = args[0].lower()
        termo2 = args[1].lower()
        return(busca_or(termo1, termo2))
    else:
        return("Operador inválido, use 'AND' ou 'OR'")

### Questão Bônus - Busca AND de n termos

O método abaixo realiza a busca AND de n termosele realiza uma otimização fazer a primeira operação de AND entre o maior e o menor conjunto de id's, deste modo, o maior tamanho possível para a resultado final é o tamanho da menor lista, o que reduz o tempo de cálculo dos AND's seguintes.

O método retorna um set vazio se uma das palavras não for encontrada.

In [None]:
def busca_and_n_termos(*args):
    result = []
    for i in range(len(args)):
        try:
            result.append(busca_um_termo(args[i]))
        except KeyError:
            return(set())
        
    result.sort(key = lambda item: len(item))
    busca = result[0] & result[-1]
    
    for i in range(len(result)-1, 1, -1):
        busca = busca & result[i]
        
    return(busca)

### Consultas

In [None]:
busca_booleana("Campina", "Grande", "AND")

In [None]:
busca_booleana("candidatos")

In [None]:
busca_booleana("debate", "presidencial", "AND")

In [None]:
busca_booleana("debate", "presidencial", "OR")

In [None]:
busca_booleana("presidenciáveis", "corruptos", "AND")

In [None]:
busca_booleana("presidenciáveis", "corruptos", "OR")

In [None]:
busca_booleana("Belo", "Horizonte", "AND")

In [None]:
busca_booleana("Belo", "Horizonte", "OR")

 ### Asserts

In [20]:
assert len(busca_booleana("debate", "presidencial", "OR")) , ""== 1770
assert len(busca_booleana("debate", "presidencial", "AND")) == 201
assert len(busca_booleana("presidenciáveis", "corruptos","OR")) == 164
assert len(busca_booleana("presidenciáveis", "corruptos", "AND"))== 0
assert len(busca_booleana("Belo", "Horizonte", "OR")) == 331
assert len(busca_booleana("Belo", "Horizonte", "AND")) == 242