# Lab 02 - Parte 1 - Expansão de Consultas

## Indice invertido

O método a seguir permite construir um indice invertido.

In [1]:
# coding: utf-8

import nltk
import re
import pandas as p
import numpy as np
from unicodedata import normalize
from scipy import sparse
from nltk import bigrams
from nltk.corpus import stopwords
from nltk.tokenize import RegexpTokenizer
from collections import OrderedDict


def build_inverted_index(data):
    inverted_index = {}
    for index, doc in data.iteritems():
        doc = doc.lower()
        words = [clear_text(word) for word in nltk.word_tokenize(doc)]
        words = [str(word) for word in words]
        for word in words:
            inverted_index.setdefault(word, []).append(index + 1)
            
    return inverted_index

Este método remove todos os caracteres especiais do texto bem como sua acentuação.

In [2]:
def clear_text(text):
    pattern = re.compile('[^a-zA-Z0-9 ]')
    text = normalize('NFKD', text).encode('ASCII', 'ignore').decode('ASCII')
    return pattern.sub(' ', text)

## Implementação dos métodos de busca

Criando um método de busca genérico podendo receber pesquisas com *n* termos.

In [3]:
def search(inverted_index, term):
    terms = [normalize('NFKD', word.decode('utf-8')).encode('ASCII', 'ignore') for word in nltk.word_tokenize(term.lower())]
    if len(terms) >= 1:
        return _search_or(inverted_index, terms)
    else:
        return None

Metodo de busca *or* com *n* termos.

In [4]:
def _search_or(inverted_index, terms):
    result_set = set(inverted_index[terms[0]])
    for term in terms[1:]:
        result_set = result_set.union(set(inverted_index[term]))
    return list(result_set)

## Metodo que permite  contruir a matrix de termos-termos 

In [5]:
def co_occurrence_matrix(corpus):
    vocab = set(corpus)
    vocab = list(vocab)
    n = len(vocab)
   
    vocab_to_index = {word:i for i, word in enumerate(vocab)}
    
    bi_grams = list(bigrams(corpus))

    bigram_freq = nltk.FreqDist(bi_grams).most_common(len(bi_grams))

    I=list()
    J=list()
    V=list()
    
    for bigram in bigram_freq:
        current = bigram[0][1]
        previous = bigram[0][0]
        count = bigram[1]

        I.append(vocab_to_index[previous])
        J.append(vocab_to_index[current])
        V.append(count)
        
    co_occurrence_matrix = sparse.coo_matrix((V,(I,J)), shape=(n,n))

    return co_occurrence_matrix, vocab_to_index

## Importação do data-set

In [6]:
data = p.read_csv("data-set/estadao_noticias_eleicao.csv", encoding = "utf-8")
data = data.replace(np.NAN, "")
content = data.titulo + " " + data.subTitulo + " " + data.conteudo


### Removendo pontuação

In [7]:
tokenizer = RegexpTokenizer(r'\w+')
tokens_lists = content.apply(lambda text: tokenizer.tokenize(text.lower()))

### Removendo stopwords

In [8]:
stopword_ = stopwords.words('portuguese')
filtered_tokens = tokens_lists.apply(lambda tokens: [token for token in tokens if token not in stopword_])

# 1 - Construção da  matrix de termos-termos 

### Transformando lista de listas em uma lista

In [9]:
tokens = [token for tokens_list in filtered_tokens for token in tokens_list]

In [10]:
matrix, vocab = co_occurrence_matrix(tokens)
consultable_matrix = matrix.tocsr()
inverted_vocab = {vocab[key]: key for key in vocab}

# 2 - Metodo que retorna as top-3 palavras mais frequentes de acordo com a matriz de ocorrência

In [11]:
def get_co_ocurrences(co_matrix, inv_vocab, term, N = 3):
    np_array = np.reshape(co_matrix[term].toarray(), -1)
    return list(OrderedDict({inv_vocab[idx]: np_array[idx] for idx in (-np_array).argsort()[:N]}).keys())

# 3 - Metodo que expande a consulta original com os termos retornados no passo 2 acima.

In [12]:
def expanded_query(terms):
    query = []
    terms = [normalize('NFKD', word.decode('utf-8')).encode('ASCII', 'ignore') for word in nltk.word_tokenize(terms.lower())]
    if len(terms) > 1:
        for term in terms:
            query.append(term)
            query.extend(get_co_ocurrences(consultable_matrix, inverted_vocab, vocab[term]))    
    else:
        query.append(terms[0])
        query.extend(get_co_ocurrences(consultable_matrix, inverted_vocab, vocab[terms[0]]))    
    
    return " ".join(term for term in set(query))

# 4 - Fazer uma busca disjuntiva (OR) considerando a nova consulta.

## Chamada ao método de contrução de indice invertido


In [13]:
inverted_index_values = build_inverted_index(content)


# Respondendo às perguntas

### Quais os termos retornados para a expansão de cada consulta?

In [14]:
queries = ['candidatos', 'debate presidencial ', 'corruptos', 'compra voto', 'partidos', 'regime semiaberto']
expand_query = []
for query in queries:
    ext_query = expanded_query(query)
    expand_query.append(ext_query)
    print 'Query original: %s' % query
    print 'Número de documentos retornados na consulta original: %d' % len(search(inverted_index_values, query))
    print 'Query expandida: %s' % ext_query
    print 'Número de documentos retornados na consulta expandida: %d' % len(search(inverted_index_values, ext_query.encode('utf8')))

Query original: candidatos
Número de documentos retornados na consulta original: 1428
Query expandida: governo presidência candidatos oposição
Número de documentos retornados na consulta expandida: 6070
Query original: debate presidencial 
Número de documentos retornados na consulta original: 1804
Query expandida: deste sobre 2010 aécio eleitoral político debate presidencial
Número de documentos retornados na consulta expandida: 6953
Query original: corruptos
Número de documentos retornados na consulta original: 53
Query expandida: partido corruptores corruptos disse
Número de documentos retornados na consulta expandida: 5614
Query original: compra voto
Número de documentos retornados na consulta original: 1657
Query expandida: dilma distrital refinaria voto pasadena votos compra presidente
Número de documentos retornados na consulta expandida: 6151
Query original: partidos
Número de documentos retornados na consulta original: 1685
Query expandida: políticos base aliados partidos
Númer

### Você acha que esses termos são de fato relacionados com a consulta original? Justifique.

Os termos retornados pelo método *expanded_query* estão relacionados de certa forma com os termos da consulta original pois esses termos são os que mais aparecem em conjunto com a busca desejada e podem se gerar uma maior aproximação com o que se deseja pesquisar. Podemos ver com mais clareza nas consultas: *partidos* , *compra voto*, *corruptos*, *candidatos* essa aproximação. Outra ponto que podemos observar é que a quantidade de documentos retornados pela consulta expandida, trazendo muito mais documentos complementando assim a pesquisa.

### Compare os documentos retornados para a consulta original com a consulta expandida. Quais resultados você acha que melhor capturam a necessidade de informação do usuário? Por que?

A consulta expandida retorna resultados melhores, pois usa os termos que estão mais relacionados com a consulta original, ficando mais significativa e retornando resultados de possíveis palavras que o usuário poderia usar para melhoras as proximas consultas.

### A expansão de consultas é mais adequada para melhorar o recall ou o precision? Por que?

Com a consulta expandinda o recall melhora, já que o recall é a razão entre o total de documentos relevantes na busca e a quantidade total de documentos relevantes, ou seja, quanto maior for a quantidade de documentos retornados maior será a quantidade de documentos relevantes. Entretando a precisão com um recall alto irá diminui já que ela é a razão entre a quantidade de documentos relevantes na busca e a quantidade de documentos totais presentes na busca.