In [1]:
import coocurrence_matrix

In [2]:
from numpy import union1d

In [3]:
from nltk import wordpunct_tokenize

# Recupera a lista de palavras de criação da matrix esparsa.

In [4]:
words = list(set(coocurrence_matrix.tokens))

# Retorna as 3 palvras existentes de maior frequência em bigramas com "word" na parte inicial do bigrama.
# list_tuple_bigrams_frequency = [(palavra_bigrama, frequência)]

In [5]:
def list_tuple_bigrams_frequency(word):
    list_tuple_bigrams_frequency = []
    
    try:
        # Tratamento de erro para o caso de não haver bigramas com a palavra "word".
        words_frequencies = coocurrence_matrix.consultable_matrix[coocurrence_matrix.vocab[word]]
    except:
        return None
    
    # Recuperação dos brigrmas existentes e suas frequencias.
    for bigrams_frequency in words_frequencies:
        list_bigrams_frequency = [int(numero) for numero in wordpunct_tokenize(str(bigrams_frequency)) if (numero.isdigit() and numero != '0')]
    
    # Organização dos bigramas em tuplas com a palavra e frequencia.
    for word_bigram in range(len(list_bigrams_frequency)//2):
        list_tuple_bigrams_frequency.append(((words[list_bigrams_frequency[word_bigram * 2]]), (list_bigrams_frequency[(word_bigram * 2) + 1])))

    # Ordenação em ordem decrescente por frequencia dos bigramas.
    list_tuple_bigrams_frequency.sort(key=lambda x: x[1], reverse=True)
    
    return list_tuple_bigrams_frequency[:3] #Definição da quantidade de palavras e suas frequencias, retornadas.

# Cria um índice invertido das palavras dos documentos, onde associa cada palavra aos documentos que ela se encontra.
# reference_list [palavra]= [documentos]

In [6]:
reference_list = {}

for i in range(len(coocurrence_matrix.filtered_tokens)):
    for j in coocurrence_matrix.filtered_tokens.ix[i]:
        if(reference_list.setdefault(j, None) is None):
            reference_list[j] = [i]                
        elif(reference_list[j][-1] != i):    
            reference_list[j].append(i)

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  after removing the cwd from sys.path.


# FUNÇÕS DE BUSCA

In [7]:
def search_one_term(word):
    return list(reference_list[word])

In [8]:
def search_or_term_expanded(word):    
    result = reference_list[word]
    
    words_frequencies = list_tuple_bigrams_frequency(word)
    
    if(words_frequencies is not None):
        for word_frequency in words_frequencies:
            result = union1d(result, reference_list[word_frequency[0]])
            # result é o resultado de sucessivas buscas OR das palavras
                
    return list(result)

# Análise
# Termos: dilmapramudarminas, lula, litigiosidade.

# Termos retornados para cada consulta

In [9]:
print (list_tuple_bigrams_frequency("dilmapramudarminas"))
print (list_tuple_bigrams_frequency("lula"))
print (list_tuple_bigrams_frequency("litigiosidade"))

[('investida', 1)]
[('assumiu', 7), ('critica', 6), ('aliados', 5)]
[('dados', 1), ('manteve', 1), ('cultura', 1)]


Os termos retornados são em parte relacionados com a consulta, como no caso da consulta para lula, retornar dilma.
Porem por outra parte não estão relacionados, pela consulta por lula ter retornado a palavra chamou.

# Quantidade documentos retornados para a consulta original com a consulta expandida

In [10]:
print (len(search_one_term("dilmapramudarminas")))
print (len(search_or_term_expanded("dilmapramudarminas")))

1
24


In [11]:
print (len(search_one_term("lula")))
print (len(search_or_term_expanded("lula")))

1893
2753


In [12]:
print (len(search_one_term("litigiosidade")))
print (len(search_or_term_expanded("litigiosidade")))

3
968


O melhor resultado depende do termo consultado. Pois se for um termo que sozinho já tenha um grande numero de documentos, a expansão da consulta não será util, devido o aumento do numero de documentos retornados. Poremo se for um termo com um pequeno numero de documentos, a expansão da consulta trará novos documentos possivelmente de interesse do usuário.

# A expansão de consultas é mais adequada para melhorar o recall, por acrescentar novos documentos retornados a consulta.