# Expansão de Consultas

<h3>Autora: Dandara Sousa </h3>

Essa é a resolução da primeira parte do segundo lab da disciplina de Recuperação da Informação. Nesta atividade a ideia é exercitar a noção de expansão de consultas. Utilizando mais uma vez a coleção de dados de notícias os passos a serem executados são:
1. Escrever uma função que receba uma coleção de documentos e retorne uma matrix de termos-termos contendo as frequências de co-ocorrência de duas palavras consecutivas no texto (bigramas).
2. Escrever uma função que receba um certo termo de consulta e a matriz construída no passo 1 acima e retorne as top-3 palavras em ordem decrescente de frequência.
3. Expandir a consulta original com os termos retornados no passo 2 acima.
4. Fazer uma busca disjuntiva (OR) considerando a nova consulta.

Em seguida, escolhendo três termos de consulta, responder:
1. Quais os termos retornados para a expansão de cada consulta?
2. Você acha que esses termos são de fato relacionados com a consulta original? Justifique.
3. Compare os documentos retornados para a consulta original com a consulta expandida. Quais resultados você acha que melhor capturam a necessidade de informação do usuário? Por que?
4. A expansão de consultas é mais adequada para melhorar o recall ou o precision? Por que?

In [6]:
import pandas as pd
import numpy as np
import nltk as nl
from scipy import sparse
from nltk import bigrams    
import scipy.sparse as sps
from nltk.corpus import stopwords
from nltk.tokenize import RegexpTokenizer

Primeiro, vamos relembrar o conjunto de dados. Ele é formado por notícias do Estadão com as seguintes informações: o timestamp, o título da notícia, o subtítulo da notícias, o conteúdo da notícia, a url e, por último, o id.

In [2]:
df = pd.read_csv("estadao_noticias_eleicao.csv", encoding='utf-8')
df = df.replace(np.nan, '', regex = True)
content = df.titulo + " " + df.conteudo
content = content.fillna("")
df.head()

Unnamed: 0,timestamp,titulo,subTitulo,conteudo,url,idNoticia
0,2014-12-31T00:00:00Z,PT espera 30 mil pessoas em festa na Esplanada,Objetivo é demonstrar apoio popular a Dilma e ...,BRASÍLIA - Após o desgaste provocado com o lan...,"http://politica.estadao.com.br/noticias/geral,...",1
1,2014-12-31T00:00:00Z,Alckmin toma posse de olho no Planalto,Governador reeleito tenta amarrar tucanos paul...,"Reeleito em outubro, o governador tucano Geral...","http://politica.estadao.com.br/noticias/geral,...",2
2,2014-12-31T00:00:00Z,Seis obstáculos e desafios do segundo mandato ...,"Em meio a escândalo de corrupção, presidente t...",1. Rearranjo das contas A nova equipe econôm...,"http://politica.estadao.com.br/noticias/geral,...",3
3,2014-12-31T00:00:00Z,,Veja as principais fotos do dia e dos eventos ...,,"http://fotos.estadao.com.br/fotos/politica,dil...",4
4,2014-12-31T00:00:00Z,,Veja as principais fotos do dia e dos eventos ...,,"http://fotos.estadao.com.br/fotos/politica,dil...",5


<h4>Bigrama</h4>

*A função a seguir foi desenvolvida por Allan Sales e pode ser encontrada [aqui](https://github.com/allansales/information-retrieval/blob/master/Lab%203/coocurrence_matrix.ipynb).*

In [8]:
def co_occurrence_matrix(corpus):
    vocab = set(corpus)
    vocab = list(vocab)
    n = len(vocab)
   
    vocab_to_index = {word:i for i, word in enumerate(vocab)}
    
    bi_grams = list(bigrams(corpus))

    bigram_freq = nl.FreqDist(bi_grams).most_common(len(bi_grams))

    I=list()
    J=list()
    V=list()
    
    for bigram in bigram_freq:
        current = bigram[0][1]
        previous = bigram[0][0]
        count = bigram[1]

        I.append(vocab_to_index[previous])
        J.append(vocab_to_index[current])
        V.append(count)
        
    co_occurrence_matrix = sparse.coo_matrix((V,(I,J)), shape=(n,n))

    return co_occurrence_matrix, vocab_to_index

In [9]:
tokenizer = RegexpTokenizer(r'\w+')
tokens_lists = content.apply(lambda text: tokenizer.tokenize(text.lower()))

stopword_ = stopwords.words('portuguese')
filtered_tokens = tokens_lists.apply(lambda tokens: [token for token in tokens if token not in stopword_])

In [10]:
tokens = [token for tokens_list in filtered_tokens for token in tokens_list]
matrix, vocab = co_occurrence_matrix(tokens)
ccMatrix = matrix.tocsr()
vocabIds = {v: k for k, v in vocab.items()}

<h4>Expansão</h4>

Para a expansão da busca é preciso antes criar uma função que possibilita isso. Nessa função, dado um termo a ideia é expandir a busca para outros termos próximos à ele.

In [11]:
def expansion(term, n):
    line = ccMatrix[vocab[term]].toarray()
    expanded = np.argpartition(line[0], -n,)[-n:]
    exp = []
    
    for term_id in expanded:
        exp.append(vocabIds[term_id])
    return exp

<h4>Geração de tokens</h4>

Para que as buscas sejam efetuadas utilizando o algoritmo de índices invertidos é necessário que tokens sejam gerados. Assim haverá uma ligação sobre qual token (no nosso caso, as palavras das notícias) aparece em qual notícia através do id desta notícia.

In [12]:
def term_freq(term, doc):
    return len(list(filter((lambda x: x == term), doc)))

In [39]:
def gera_tokens(df):
    indexes = dict()
    for index,row in df.iterrows():
        title_tokens = (word.lower() for word in (nl.word_tokenize(row['titulo'])))
        subtitle_tokens = (word.lower() for word in (nl.word_tokenize(row['subTitulo'])))
        notice_tokens = (word.lower() for word in (nl.word_tokenize(row['conteudo'])))
        
        tokens = list(title_tokens) +  list(subtitle_tokens) + list(notice_tokens)
        for token in tokens:
            if token not in indexes:
                indexes[token] = set([row['idNoticia']])
            else:
                indexes[token].add(row['idNoticia'])
    return indexes

In [40]:
i_indexes = gera_tokens(df)

<h4>Consultas</h4>

In [41]:
def search(terms):
    index = []
    for term in terms:
        index.append(i_indexes[term])
    return list(set.intersection(*index))
    

In [20]:
def consultaExpandida(terms):
    terms_exp = []
    for term in terms:
        terms_exp = terms_exp + expansion(term, 3)
    return terms + terms_exp

Escolhendo livremente três termos para nossa próxima parte temos:
    1. Dilma
    2. Lula
    3. Corrupção
Nossa consulta fica, então:

In [22]:
print("Dilma: ")
print(expansion("dilma", 3))
print("Lula")
print(expansion("lula", 3))
print("Corrupção") 
print(expansion("corrupção", 3))

Dilma: 
['é', 'disse', 'rousseff']
Lula
['disse', 'silva', 'dilma']
Corrupção
['é', 'passiva', 'petrobrás']


Podemos ver que o nome da ex presidenta está ligado em consultas ao nome do ex presidente Lula, mas curiosamente o contrário não é verdadeiro. Enquanto isso a palavra corrupção está ligada com a petrobrás. O que de certa forma faz sentido devido ao momento político atual.

In [55]:
consulta = ["lula", "silva", "presidente"]
doc_sem_exp = search(consulta)
doc_com_exp = search(consultaExpandida(consulta))

In [56]:
print("Sem expansão: ")
print(doc_sem_exp[:5])
print("Com expansão: ")
print(doc_com_exp[:5])

Sem expansão: 
[2048, 1, 2050, 2049, 6148]
Com expansão: 
[5250, 5252, 3338, 4112, 3089]


De forma geral, o que podemos ver é nenhum dos documentos listados na busca sem expansão são listados na busca com a expansão. Isso se deve ao fato de que a consulta feita com expansão é mais ampla e atinge diferentes documentos do que uma consulta mais simples. Por fim, a consulta com expansão por trazer mais elementos da busca original é boa para melhorar o recall do algoritmo.