## Matrix and Vocabulary Construction

In [251]:
import pandas as pd
import numpy as np
from scipy import sparse
import nltk
from nltk import bigrams    
import scipy.sparse as sps

In [252]:
news = pd.read_csv("./estadao_noticias_eleicao.csv", encoding="utf-8")

In [253]:
content = news.titulo + " " + news.subTitulo + " " + news.conteudo
content = content.fillna("")

In [254]:
def co_occurrence_matrix(corpus):
    vocab = set(corpus)
    vocab = list(vocab)
    n = len(vocab)
   
    vocab_to_index = {word:i for i, word in enumerate(vocab)}
    
    bi_grams = list(bigrams(corpus))

    bigram_freq = nltk.FreqDist(bi_grams).most_common(len(bi_grams))

    I=list()
    J=list()
    V=list()
    
    for bigram in bigram_freq:
        current = bigram[0][1]
        previous = bigram[0][0]
        count = bigram[1]

        I.append(vocab_to_index[previous])
        J.append(vocab_to_index[current])
        V.append(count)
        
    co_occurrence_matrix = sparse.coo_matrix((V,(I,J)), shape=(n,n))

    return co_occurrence_matrix, vocab_to_index

In [255]:
tokens_lists = content.apply(lambda text: text.lower().split())

In [256]:
tokens = [token for tokens_list in tokens_lists for token in tokens_list]

In [257]:
matrix, vocab = co_occurrence_matrix(tokens)

## Consult Bigram Frequency

In [258]:
consultable_matrix = matrix.tocsr()

In [259]:
def consult_frequency(w1, w2):
    return(consultable_matrix[vocab[w1],vocab[w2]])

### Example

In [260]:
w1 = 'poucos'
w2 = 'recursos'
consult_frequency(w1, w2)

3

## Top-3 em ordem decrescente

In [301]:
def top3(w1):
    top3 = {}
    for w in consultable_matrix[vocab[w1]].indices:
        if(len(top3) < 3):
            top3[w] = consultable_matrix[vocab[w1], w]
        else:
            if(consultable_matrix[vocab[w1], w] > consultable_matrix[vocab[w1], min(top3, key=top3.get)]):
                del top3[min(top3, key=top3.get)]
                top3[w] = consultable_matrix[vocab[w1], w]
                
    words = [str(list(vocab.keys())[list(vocab.values()).index(list(top3.keys())[0])]), str(list(vocab.keys())[list(vocab.values()).index(list(top3.keys())[1])]), str(list(vocab.keys())[list(vocab.values()).index(list(top3.keys())[2])])]
    return words
                

In [302]:
print(top3("presidente"))

['dilma', 'da', 'do']


## Expandir consulta original

In [303]:
def getIDs(search):
    searchWords = search.split(" ")
    wordIDs = []
    if(len(searchWords) >=2):
        booleanOperator = searchWords[1]
        wordIDs1 = []
        wordIDs2 = []
        for i in tokens_lists:
            for w in tokens_lists[i]:
                if(searchWords[0].lower() == w.lower()):
                    wordIDs1.append(news.values[i][2])
                if(searchWords[2].lower() == w.lower()):
                    wordIDs2.append(news.values[i][2])
                if((searchWords[1] in wordIDs1) and searchWords[2] in wordIDs2):
                    break
        if(booleanOperator == "AND"):
            wordIDs = set(wordIDs1).intersection(wordIDs2)
        else:
            wordIDs = set(wordIDs1).union(wordIDs2)
    else:
        for i in range(0, len(tokens_lists)):
            for w in range(0, len(token_lists)):
                if(searchWords[0].lower() == token_lists[w].lower()):
                    wordIDs.append(news.values[i][2])  
                    break
    return wordIDs


In [304]:
def expandQuery(word, top3):
    for w in top3:
        query = word + " OR " + w
        print(query)
        print(getIDs(query))

In [305]:
top3 = top3("dilma")
print(top3)
expandQuery("dilma", top3)

['e', 'rousseff', 'rousseff,']
dilma OR e


KeyError: "None of [['pt', 'espera', '30', 'mil', 'pessoas', 'em', 'festa', 'na', 'esplanada', 'objetivo', 'é', 'demonstrar', 'apoio', 'popular', 'a', 'dilma', 'e', 'tentar', 'reduzir', 'questionamentos', 'dos', 'adversários', 'brasília', '-', 'após', 'o', 'desgaste', 'provocado', 'com', 'o', 'lançamento', 'de', 'medidas', 'impopulares,', 'o', 'anúncio', 'de', 'um', 'ministério', 'com', 'nomes', 'contestados', 'pelos', 'movimentos', 'sociais', 'e', 'o', 'surgimento', 'de', 'manifestações', 'pró-impeachment,', 'o', 'pt', 'pretende', 'mobilizar', 'pelo', 'menos', '30', 'mil', 'pessoas', 'para', 'encher', 'a', 'esplanada', 'dos', 'ministérios', 'e', 'tornar', 'a', 'posse', 'da', 'presidente', 'dilma', 'rousseff', 'um', 'grande', 'endosso', 'popular', 'ao', 'segundo', 'mandato', 'da', 'petista.', 'no', 'palácio', 'do', 'planalto', 'a', 'avaliação', 'é', 'de', 'que', 'a', 'mobilização', 'da', 'sociedade', 'civil', 'é', 'fundamental', 'para', 'mostrar', 'que', 'a', 'presidente', 'possui', 'legitimidade', 'e', 'apoio', 'popular,', 'o', 'que', 'ajudaria', 'a', 'desencorajar', '“aventureiros”', 'que', 'queiram', 'questionar', 'o', 'resultado', 'das', 'urnas.', '“vai', 'ser', 'uma', 'posse', 'de', 'caráter', 'marcadamente', 'político,', 'no', 'sentido', 'de', 'uma', 'disputa,', 'de', 'uma', 'festa,', 'de', 'celebração', 'de', 'uma', 'vitória”,', 'diz', 'gilberto', 'carvalho,', 'que', 'ocupou', 'o', 'cargo', 'de', 'ministro-chefe', 'da', 'secretaria-geral', 'da', 'presidência', 'da', 'república.', '“se', 'tiver', 'pouca', 'gente,', 'menos', 'de', '10', 'mil', 'pessoas,', 'é', 'um', 'convite', 'para', 'que', 'o', 'outro', 'lado', 'faça', 'uma', 'provocação.', 'se', 'nós', 'botarmos', 'bem', 'mais', 'gente', 'que', 'isso,', 'duvido', 'que', 'alguém', 'queira', 'nos', 'fazer', 'qualquer', 'provocação.”', 'o', 'ginásio', 'nilson', 'nelson,', 'no', 'centro', 'de', 'brasília,', 'foi', 'cedido', 'pelo', 'governo', 'do', 'distrito', 'federal', 'e', 'se', 'tornou', 'abrigo', 'para', 'os', 'militantes', 'que', 'se', 'deslocaram', 'de', '22', 'estados.', 'por', 'volta', 'das', '10h30', 'desta', 'quarta-feira,', 'o', 'local', 'estava', 'praticamente', 'vazio,', 'mas', 'a', 'expectativa', 'era', 'a', 'de', 'que', 'entre', '400', 'e', '500', 'ônibus', 'chegassem', 'ao', 'longo', 'do', 'dia.', 'as', 'caravanas', 'foram', 'organizadas', 'pelo', 'pt,', 'centrais', 'sindicais', 'e,', 'em', 'alguns', 'casos,', 'pelos', 'próprios', 'militantes.', 'o', 'partido', 'não', 'informou', 'os', 'gastos', 'com', 'o', 'transporte', 'de', 'pessoas', 'e', 'a', 'realização', 'da', 'festa,', 'que', 'contará', 'com', 'shows', 'da', 'sambista', 'alcione,', 'do', 'rapper', 'gog', 'e', 'da', 'cantora', 'brasiliense', 'ellen', 'oléria.', '“a', 'militância', 'do', 'pt', 'compareceu', 'em', 'peso', 'na', 'campanha', 'e', 'só', 'não', 'está', 'comparecendo', 'em', 'número', 'maior', 'agora', 'porque', 'muitas', 'pessoas', 'não', 'têm', 'condição', 'de', 'vir”,', 'afirma', 'gilberto', 'carvalho.', '“eu', 'estou', 'otimista', 'com', 'uma', 'festa', 'bonita.”', 'apoio.', 'a', 'artesã', 'raimunda', 'edna', 'da', 'silva,', 'de', '53', 'anos,', 'saiu', 'de', 'macapá', 'no', 'sábado', 'passado,', 'pegou', 'um', 'navio', 'rumo', 'a', 'belém', 'e', 'de', 'lá', 'seguiu', 'em', 'uma', 'viagem', 'de', '36', 'horas', 'de', 'ônibus,', 'que', 'terminou', 'às', '7', 'horas', 'da', 'quarta-feira,', '31.', '“vir', 'para', 'cá', 'era', 'uma', 'questão', 'de', 'honra,', 'porque', 'não', 'sei', 'quando', 'vou', 'aplaudir', 'uma', 'outra', 'mulher', 'e', 'uma', 'outra', 'petista', 'na', 'presidência', 'da', 'república”,', 'diz.', '“a', 'dilma', 'vai', 'precisar', 'muito', 'da', 'gente', 'no', 'segundo', 'mandato.”', 'para', 'o', 'cantor', 'e', 'compositor', 'ronaldo', 'alcântara,', '49,', 'a', 'vitória', 'apertada,', 'no', '2.º', 'turno,', 'de', 'dilma', 'sobre', 'o', 'senador', 'aécio', 'neves,', 'que', 'foi', 'candidato', 'do', 'psdb', 'à', 'presidência', 'da', 'república,', 'fez', 'a', 'militância', 'se', 'mobilizar', 'para', 'viajar', 'a', 'brasília.', '“é', 'importante', 'estar', 'aqui', 'para', 'fortalecer', 'dilma”,', 'justifica.', 'a', 'caravana', 'de', 'belém', 'reuniu', '45', 'pessoas,', 'que', 'pagaram', 'uma', 'cota', 'pessoal', 'de', 'r$', '280', 'para', 'fretar', 'um', 'ônibus.', 'na', 'bagagem,', 'eles', 'trouxeram', 'farinha', 'de', 'mandioca', 'e', 'dez', 'litros', 'de', 'açaí.', '“houve', 'erros', 'no', 'governo', 'da', 'presidente', 'dilma,', 'todo', 'mundo', 'erra.', 'mas', 'os', 'erros', 'foram', 'muito', 'menores', 'do', 'que', 'o', 'de', 'governos', 'anteriores.', 'fala-se', 'tanto', 'de', 'corrupção', 'na', 'petrobrás', 'e', 'se', 'esquecem', 'da', 'privatização', 'da', 'vale”,', 'diz', 'o', 'advogado', 'andrei', 'mantovani,', '40.', 'os', 'militantes', 'entrevistados', 'pelo', 'estado', 'não', 'compareceram', 'à', 'primeira', 'posse', 'de', 'dilma,', 'em', '1.º', 'de', 'janeiro', 'de', '2011.', 'chuva.', 'há', 'quatro', 'anos,', 'a', 'posse', 'de', 'dilma', 'para', 'o', 'primeiro', 'mandato', 'mobilizou', 'cerca', 'de', '30', 'mil', 'pessoas,', 'que', 'enfrentaram', 'uma', 'forte', 'chuva', 'na', 'esplanada', 'dos', 'ministérios.', 'dilma', 'foi', 'obrigada', 'a', 'fazer', 'o', 'trajeto', 'até', 'o', 'congresso', 'com', 'a', 'capota', 'do', 'rolls-royce', 'fechada,', 'o', 'que', 'deixou', 'parte', 'da', 'militância', 'frustrada.', 'a', 'ocasião', 'também', 'marcou', 'a', 'despedida', 'do', 'ex-presidente', 'luiz', 'inácio', 'lula', 'da', 'silva.', 'muitos', 'foram', 'a', 'brasília', 'com', 'o', 'objetivo', 'de', 'se', 'despedir', 'dele.', 'após', 'transmitir', 'o', 'cargo', 'para', 'sua', 'sucessora', 'e', 'recepcionar', 'os', 'chefes', 'de', 'estado,', 'lula', 'desceu', 'a', 'rampa', 'do', 'palácio', 'do', 'planalto', 'para', 'cumprimentar', 'as', 'pessoas', 'que', 'o', 'esperavam', 'na', 'rua.', 'petistas', 'cantarolavam', 'na', 'praça', 'dos', 'três', 'poderes', 'o', 'bordão', '“olê,', 'olê,', 'olê,', 'olá,', 'lula,', 'lula”.', 'em', '2011,', 'o', 'pt', 'também', 'mobilizou', 'sua', 'militância', 'para', 'a', 'posse', 'e', 'espalhou', 'bandeiras', 'do', 'partido', 'no', 'trajeto', 'do', 'rolls-royce', 'presidencial.', 'tímidas', 'bandeiras', 'do', 'pmdb,', 'partido', 'do', 'vice-presidente', 'michel', 'temer,', 'também', 'foram', 'espalhadas', 'na', 'praça', 'dos', 'três', 'poderes.', 'a', 'previsão', 'do', 'tempo', 'em', 'brasília', 'para', 'o', 'dia', 'da', 'posse', 'é', 'de', 'sol', 'com', 'nuvens', 'e', 'chuvas', 'rápidas', 'durante', 'o', 'dia', 'e', 'à', 'noite.']] are in the [index]"