## Matrix and Vocabulary Construction - Code reuse

In [134]:
import pandas as pd

import numpy as np

from scipy import sparse

import nltk
from nltk import bigrams
from nltk.corpus import stopwords
from nltk.tokenize import RegexpTokenizer
import operator

In [135]:
news = pd.read_csv("./estadao_noticias_eleicao.csv", encoding="utf-8")

In [136]:
content = news.titulo + " " + news.subTitulo + " " + news.conteudo
content = content.fillna("")

In [137]:
def co_occurrence_matrix(corpus):
    vocab = set(corpus)
    vocab = list(vocab)
    n = len(vocab)
   
    vocab_to_index = {word:i for i, word in enumerate(vocab)}
    
    bi_grams = list(bigrams(corpus))

    bigram_freq = nltk.FreqDist(bi_grams).most_common(len(bi_grams))

    I=list()
    J=list()
    V=list()
    
    for bigram in bigram_freq:
        current = bigram[0][1]
        previous = bigram[0][0]
        count = bigram[1]

        I.append(vocab_to_index[previous])
        J.append(vocab_to_index[current])
        V.append(count)
        
    co_occurrence_matrix = sparse.coo_matrix((V,(I,J)), shape=(n,n))

    return co_occurrence_matrix, vocab_to_index

In [138]:
#Remove punctuation
tokenizer = RegexpTokenizer(r'\w+')
tokens_lists = content.apply(lambda text: tokenizer.tokenize(text.lower()))

In [139]:
#Remove stopwords
stopword_ = stopwords.words('portuguese')
filtered_tokens = tokens_lists.apply(lambda tokens: [token for token in tokens if token not in stopword_])

#Transforming list of lists into one list
tokens = [token for tokens_list in filtered_tokens for token in tokens_list]

In [140]:
matrix, vocab = co_occurrence_matrix(tokens)

## Consult Bigram Frequency - Code reuse

In [141]:
consultable_matrix = matrix.tocsr()

In [142]:
def consult_frequency(w1, w2):
    return(consultable_matrix[vocab[w1],vocab[w2]])

### Example - Code reuse

In [143]:
w1 = 'neves'
w2 = 'magela'
consult_frequency(w1, w2)

0

### 2.Escreva uma função que receba um certo termo de consulta e a matriz construída no passo 1 acima e retorne as top-3 palavras em ordem decrescente de frequencia.

In [144]:
def buildSortedList(expression):
    d = {}
    mostRecurrentWords = []
    #INDICES E DADOS POSSUEM NECESSARIAMENTE O MESMO TAMANHO.
    #INDICES RECUPERA OS INDICES DAS PALAVRAS ASSOCIADAS AO ARGUMENTO EXPRESSION
    indices = consultable_matrix[vocab[expression]].indices
    #DADOS É A QUANTIDADE DE VEZES QUE A PALAVRA ESTA ASSOCIADA
    dados = consultable_matrix[vocab[expression]].data
    #VARRER O DICIONARIO DE PALAVRAS, BUSCAR A PALAVRA PELO INDICE E ASSOCIAR A ELA 
    #A QUANTIDADE DE VEZES QUE APARECE EM UM NOVO DICIONARIO
    contador = 0
    for x in indices:
        d[list(vocab.keys())[list(vocab.values()).index(x)]] = dados[contador]
        contador+=1
    
    sorted_d = sorted(d.items(), key=operator.itemgetter(1))
    if len(sorted_d) > 2:
        mostRecurrentWords.append(sorted_d[-1])
        mostRecurrentWords.append(sorted_d[-2])
        mostRecurrentWords.append(sorted_d[-3])
    return mostRecurrentWords

O teste acima funciona da seguinte forma:
Passo 1- Criação de um dicionario vazio para armazenar os ids das palavras como chave e a quantidade de ocorrencias dela como valor 
Passo 2- Recupero todos os indices do vocabulario associado a matriz e armazeno na lista indices
Passo 3- Recupero a quantidade de vezes que a palavra está associada a expressão passada
Passo 4- É criado um contador para auxiliar na iteração dado que o ID da palavra contida na lista de Indices tem na mesma posição na lista de dados a quantidade de ocorrencias. A medida que o apontador do laço vai passando, o contador é incrementado para refletir na lista de dados o valor correto associado ao id da palavra.
Passo 5- O dicionario criado é ordenado de acordo com a quantidade de ocorrencia das palavras, que no nosso caso é o valor associado a chave.
Passo 6- Verifica se a quantidade de palavras é maior que 2 para que nao quebre ao acessar os ultimos indices da lista
Passo 7- Retorna array com top3 palavras em ordem descrescente.

# TESTE: Retorno esperado: Rousseff, é, disse

In [145]:
expression = 'dilma'
resultado = buildSortedList(expression)
print (resultado)


[(u'rousseff', 2903), (u'\xe9', 208), (u'disse', 201)]


# Expansão

In [154]:
def buildExpandedSortedList(words):
    mostRecurrentWords = []
    for x in words:
        mostRecurrentWords.append(buildSortedList(x))
    return mostRecurrentWords

In [155]:
print (buildExpandedSortedList(['dilma','rousseff', 'é', 'disse']))

# Definição da função OR

In [156]:
#Funcao or - funciona para mais de 2 termos
def funcaoOr(termos, dicionarioFinal):
    retorno = []
    #transforma todos os termos em minusculo para uma busca mais precisa
    lowerList = [x.lower() for x in termos]
    for termo in lowerList:
        for y in dicionarioFinal[termo]:
            if y not in retorno:
                retorno.append(y)
    return retorno

# CHAMADA FUNÇÃO OR

In [165]:
#Codigo auxiliar:
import pandas as pd
from collections import defaultdict

#Recuperando o documento sem encode
doc =  pd.read_csv("./estadao_noticias_eleicao.csv")

#Montar dicionario
def montaDicionario(coluna):
    dicionario = defaultdict(set)
    for x in range(0, len(coluna) -1):
        splitted = str(coluna[x]).split(' ')
        for z in splitted: 
            dicionario[z.lower()].add(doc.idNoticia[x])
    return dicionario

#Criacao do dicionario com chaves sendo as palavras e valores os ids das noticais
texto = doc.titulo + " " + doc.conteudo
dicionarioPalavras = montaDicionario(texto)


In [167]:
#Retorno da funcao or é a saida com todos os ids. Para evidencia, executar o metodo abaixo:
funcaoOr(['dilma', 'rousseff', 'é', 'disse'], dicionarioPalavras)

### Quais os termos retornados para a expansão de cada consulta?

In [160]:
#Resposta: 
#Para dilma: rousseff, é, disse
#Para rousseff: pt, candidata, afirmou
#Para fez: questáo, críticas, campanha 
#Para disse: ainda, presidente, ter

#Para evidencias, basta executar o print abaixo:
print (buildExpandedSortedList(['dilma','rousseff', 'fez', 'disse']))

### Você acha que esses termos são de fato relacionados com a consulta original? Justifique.

Sim, ao meu ver, todas as palavras possuem um contexto e um relacionamento com a consulta original, fazendo com que as frases não percam a logica quando relacionamos palavra por palavra.

### Compare os documentos retornados para a consulta original com a consulta expandida. Quais resultados você acha que melhor capturam a necessidade de informação do usuário? Por que?

Ao meu ver, se desconsiderarmos na consulta expandida os termos que são genéricos, com por exemplo artigos ou verbos do tipo é, vai, etc., a consulta expandida traz resultados completos, pelo fato de trazer mais informações relacionadas com a palavra buscada.

### A expansão de consultas é mais adequada para melhorar o recall ou o precision? Por que?

O precision. Porque os dados retornados nas consultas, no caso do recall, aumenta a completude dos resultados, mas também traz dados inúteis aos olhos do usuário. Por outro lado, no caso do precision, os dados são mais precisos e se aproximam mais dos dados de interesse do usuário.