In [46]:
import pandas as pd
import nltk

from nltk import bigrams
from nltk.corpus import stopwords
from nltk.tokenize import RegexpTokenizer

# Introdução
    Esse documento tem como objetivo analisar a expansão de consultas. Para isso serão respondidas algumas questões sobre o assunto. O documento anterior de notícias, disponível em: https://canvas.instructure.com/courses/1310917/files/63843198/download?verifier=wWhCU9ocjBa1uPBQFiNgCPIxgnShIFESev8TlF7p foi utilizado como nossa base de dados. 

# Funções auxiliares:
    Para responder as perguntas do final do documento foram criadas algumas funções auxiliares que estão descritas a seguir:

In [47]:
#Função para carregar o csv, preencher os espaços NaN e formatar o contéudo que ira ser utilizado
def getCSVFormattedAsDF():
    df = pd.read_csv(r'/home/rafaelbas/Documentos/RecuperacaoInformacao/Atividade-3/estadao_noticias_eleicao.csv')
    df = df.fillna('')
    df["docs"] = df["titulo"] + ' ' +  df["subTitulo"] + ' ' + df["conteudo"]
    return df

#Função para remover as pontuações dos documentos
def removePunctuationDocs(docs):
    tokenizer = RegexpTokenizer(r'\w+')
    tokens_lists = docs.apply(lambda text: tokenizer.tokenize(text.lower()))
    return tokens_lists

#Função para remover stopwords. 
#stopwords: https://pt.wikipedia.org/wiki/Palavra_vazia
def removeStopWords(tokens_lists):
    stopword = stopwords.words('portuguese')
    filtered_tokens = tokens_lists.apply(lambda tokens: [token for token in tokens if token not in stopword])
    return filtered_tokens

#Função para gerar os tokens de cada documento do dataframe inicial
def getTokens(docs):
    tokens = removePunctuationDocs(df["docs"])
    filtered_tokens = removeStopWords(tokens)
    return filtered_tokens

In [48]:
"""
    Função que retorna a matrix de co-ocorrência. 
    return matrix:
       [{"palavra1": [("palavrax", num_ocorrencias), ("palavray": num_ocorrencias), ...]
        "palavra2":  {(palavrak": num_ocorrencias), ("word3": palavraz) ... ]
"""
def co_occurrence_matrix(docs_tokens):
    docs_bi_grams = docs_tokens.apply(lambda tokens: list(bigrams(tokens)))
    collection_big_grams = [bi_gram for doc_big_grams in docs_bi_grams for bi_gram in doc_big_grams]
    bigram_freq = nltk.FreqDist(collection_big_grams).most_common(len(collection_big_grams))
    matrix = {}
    
    for bigram in bigram_freq:
        postWord = bigram[0][1]
        word = bigram[0][0]
        count = bigram[1]
        co_occurrence_info = (postWord, count)
        
        if word not in matrix:
            matrix[word] = []
        matrix[word].append(co_occurrence_info)

        
    return matrix

In [49]:
#Função que retorna as 3 maiores incidências de co-ocorrência com a busca em questão
def top3Consultas(word, matrix):
    if (word in matrix):
        co_occurrence_info = matrix[word]
        info = [(), (), ()]
        for index in range(len(co_occurrence_info)):
            info[index] = co_occurrence_info[index]
            if (index == 2):
                break
        return info

In [61]:
def init_tokens(docs_tokens):
    dict_token = {}
    idx = -1
    for doc_token in docs_tokens:
        idx += 1
        for token in doc_token:
            if (token in dict_token):
                dict_token[token].add(idx) 
            else:
                dict_token[token] = set()
                dict_token[token].add(idx)
    return dict_token

In [67]:
# Retorna o conjunto de tokens da operação pesquisa. # Retorna 
def search(ipt, tokens):
    if (ipt.strip() == ""):
        return "Please, inform at least one token"
    
    ipt = ipt.split(" ")
    init = ipt[0].lower()
    size = len(ipt)
    
    if (size == 1) :
        if init not in tokens:
            return "This token is not present in any news"
        else:
            return tokens[init]
    else:
        result = tokens[init]
        command = ""
        for index in range(1,size):
            if (index % 2 == 0):
                compare = tokens[ipt[index].lower()]
    
                if  command == AND:
                    result = result & compare
                else:
                    result = result | compare              
            else:
                if (ipt[index] != "AND" and ipt[index] != "OR"):
                    return "Incorrect input. The tokens searched only can be separated by AND-OR"
                elif ipt[index] == "AND":
                    command = AND
                else:
                    command = OR
    
        return result

# Variaveis auxiliares:
    A partir das funções auxiliares descritas na seção anterior, criamos algumas váriaveis auxiliares que nos ajudarão a deixar o processo mais rápido:

In [69]:
# dataFrame com os documentos lidos no csv
df = getCSVFormattedAsDF()
# Váriavel que armazena os tokens de palavras de cada notícia 
docs_tokens = getTokens(df["docs"])
# Váriavel que armazena a matrix de co-ocorrência
matrix_co_occurence = co_occurrence_matrix(docs_tokens)
# Inicia o dicionario de tokens  
tokens = init_tokens(docs_tokens)

#enums necessários para o search
AND = 1
OR=  2

# Palavras escolhidas:
    Para a realização desta atividade seria necessário a escolha de três palavras inicias para poder fazer a busca. Escolhemos as palavras: petrobrás, cocaína e pt

In [42]:
top3Consultas("petrobrás", matrix_co_occurence)

[('paulo', 240), ('é', 90), ('graça', 51)]

In [63]:
top3Consultas("cocaína", matrix_co_occurence)

[('helicóptero', 3), ('pura', 3), ('acrescentou', 2)]

In [64]:
top3Consultas("pt", matrix_co_occurence)

[('psdb', 376), ('pmdb', 262), ('governo', 262)]

## Como visto, os resultados foram:
[('paulo', 240), ('é', 90), ('graça', 51)]
[('helicóptero', 3), ('pura', 3), ('acrescentou', 2)]
[('psdb', 376), ('pmdb', 262), ('governo', 262)]

Ou seja, para a busca petrobrás, paulo foi a co-ocorrência mais encontrada. Para cocaína, temos helicóptero. E por último, para pt, temos psdb.

# Perguntas
## Quais os termos retornados para a expansão de cada consulta?

In [None]:
top3Consultas("petrobrás", matrix_co_occurence)

In [None]:
top3Consultas("petrobrás", matrix_co_occurence)

In [None]:
top3Consultas("petrobrás", matrix_co_occurence)

### Como visto, os resultados foram:

In [None]:
[('paulo', 240), ('é', 90), ('graça', 51)]
[('helicóptero', 3), ('pura', 3), ('acrescentou', 2)]
[('psdb', 376), ('pmdb', 262), ('governo', 262)]

Ou seja, para a busca petrobrás, paulo foi a co-ocorrência mais encontrada. Para cocaína, temos helicóptero. E por último, para pt, temos psdb.