In [1]:
from gensim.models import Word2Vec
from gensim.models import KeyedVectors

# O modelo sendo carregado é KeyedVectors. Cada termo é corresponde a uma chave referente ao vetor.
# O arquivo abaixo não está disponível no GitHub, pois possui 2.4GB. 
# Pode ser obtido diretamente em http://143.107.183.175:22980/download.php?file=embeddings/word2vec/cbow_s300.zip
kv_from_txt = KeyedVectors.load_word2vec_format('C:\\Users\\diogo\\Documents\\tcc\\cbow_s300.txt', binary=False)
print('Tamanho do vocabulário: ' + str(len(kv_from_txt.vocab)))

Tamanho do vocabulário: 929606


In [2]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer

# Licitações realizadas no RS em 2019, segundo dados do TCE. 
# Arquivo disponível no repositório e em http://dados.tce.rs.gov.br/dados/licitacon/licitacao/ano/2019.csv.zip
df_licitacoes= pd.read_csv('licitacao.csv')
df_licitacoes.head()

  has_raised = await self.run_ast_nodes(code_ast.body, cell_name,


Unnamed: 0,CD_ORGAO,NM_ORGAO,NR_LICITACAO,ANO_LICITACAO,CD_TIPO_MODALIDADE,NR_COMISSAO,ANO_COMISSAO,TP_COMISSAO,NR_PROCESSO,ANO_PROCESSO,...,TP_DOCUMENTO_VENCEDOR,NR_DOCUMENTO_VENCEDOR,VL_HOMOLOGADO,BL_GERA_DESPESA,DS_OBSERVACAO,PC_TX_ESTIMADA,PC_TX_HOMOLOGADA,BL_COMPARTILHADA,BL_COVID19,LINK_LICITACON_CIDADAO
0,42900,PM DE CACEQUI,3007.0,2019,PRD,,,,3007,2019.0,...,,,,S,,,,N,N,http://www1.tce.rs.gov.br/aplicprod/f?p=50500:...
1,42900,PM DE CACEQUI,3021.0,2019,PRD,,,,3021,2019.0,...,,,,S,,,,N,N,http://www1.tce.rs.gov.br/aplicprod/f?p=50500:...
2,200,TRIBUNAL DE CONTAS DO ESTADO DO RS,4.0,2019,PRI,,,,4860200186,2019.0,...,,,,S,"No cálculo do valor contratado, foi levado em ...",,,N,N,http://www1.tce.rs.gov.br/aplicprod/f?p=50500:...
3,200,TRIBUNAL DE CONTAS DO ESTADO DO RS,10.0,2019,PRI,,,,15090200193,2019.0,...,,,,S,,,,N,N,http://www1.tce.rs.gov.br/aplicprod/f?p=50500:...
4,44401,CM DE CANGUÇU,1.0,2019,PRP,111.0,2018.0,G,6,2019.0,...,,,0.0,S,,,,N,N,http://www1.tce.rs.gov.br/aplicprod/f?p=50500:...


In [3]:
"""
  Cria uma nova coluna no DataFrame removendo para adicionar a descrição da licitação após as seguinte transformações
  - Remoção de stop-words
  - Remoção do nome do órgão
  - Remoção de palavras não constantes no vocabulário word2vec
  - Se não sobrou palavra que descreva a licitação, esta é removida do dataset utilizado nas etapas posteriores
  - df_transform é o Pandas DataFrame resultante e utilizado nas etapas subsequentes
  
"""
import re
from nltk.corpus import stopwords
from sklearn.feature_extraction.text import CountVectorizer


tokenizer = CountVectorizer().build_tokenizer()
stop_words_portugues = stopwords.words('portuguese')
licitacoes_nao_reconhecidas = []

def remove_stop_words(tokens):
    tokens_result = list(tokens)
    tokens_result = [t for t in tokens_result if t not in stop_words_portugues]
    return tokens_result
    
def remove_nome_orgao(sample_licitacao, tokens):
    tokens_result = list(tokens)
    tokens_nome_orgao = tokenizer(sample_licitacao['NM_ORGAO'].lower())
    tokens_result = [t for t in tokens_result if t not in tokens_nome_orgao]
    return tokens_result

def remove_palavras_fora_vocabulario(tokens):
    tokens_result = list(tokens)
    tokens_remover = []
    for t in tokens:
        try:
            vetor_palavra = kv_from_txt.get_vector(t)
        except KeyError:
            tokens_remover.append(t)
    tokens_result = [t for t in tokens if t not in tokens_remover]        
    return tokens_result

def prepara_descricao_licitacao(sample_licitacao):
    licitacao_lower = sample_licitacao['DS_OBJETO'].lower()
    tokens = tokenizer(licitacao_lower)
    tokens = remove_stop_words(tokens)
    tokens = remove_nome_orgao(sample_licitacao, tokens)
    tokens = remove_palavras_fora_vocabulario(tokens)
    
    return ' '.join(tokens)

df_transform = pd.DataFrame(df_licitacoes, columns=['NM_ORGAO', 'VL_LICITACAO', 'DS_OBJETO', 'DS_OBJETO_LIMPO'])
df_transform['DS_OBJETO_LIMPO'] = df_transform.apply(lambda linha: prepara_descricao_licitacao(linha), axis=1)

# Após o tratamento de dados alguns poucos (samples) são removidos
df_removidas = pd.DataFrame(df_transform.loc[df_transform['DS_OBJETO_LIMPO'] == ''],  columns=['DS_OBJETO'])
df_transform.drop(df_transform[df_transform['DS_OBJETO_LIMPO'] == ''].index, inplace=True)
df_transform.reset_index(inplace = True, drop = True)
df_transform.head()


Unnamed: 0,NM_ORGAO,VL_LICITACAO,DS_OBJETO,DS_OBJETO_LIMPO
0,PM DE CACEQUI,5.0,CONTRATACAO DE LEILOEIRO OFICIAL PARA PROCEDER...,leiloeiro oficial proceder bens municipais
1,PM DE CACEQUI,3600.0,CONTRATACAO DE DJ PARA O CARNAVAL DE RUA DE 2019,dj carnaval rua
2,TRIBUNAL DE CONTAS DO ESTADO DO RS,201236.87,Fornecimento de energia para o Serviço Regiona...,fornecimento energia serviço regional auditori...
3,TRIBUNAL DE CONTAS DO ESTADO DO RS,3500.0,Renovação de 5 assinaturas do Jornal do Comérc...,renovação assinaturas jornal comércio ministér...
4,CM DE CANGUÇU,28980.0,Aquisição de 6000 Litros de gasolina aditivada,aquisição litros gasolina aditivada


In [5]:
# Lista de data samples removidos de acordo com critérios anteriormente descritos
df_removidas.head(20)

Unnamed: 0,DS_OBJETO
5813,A
5825,MANUTENCAO DA ROCADEIRA
8570,CONTRIBUICOES.
18672,AQUISICAO DE DIVISORIAS
21450,AQUISICAO DE VEICULOPE 027/2019PA 068/2019
29590,PARA A 22ª KARTOFFELFEST
31372,SONORIZACAO
31375,SONORIZACAO
41044,PAVIMENTACAO
49527,AutoPatrol


In [6]:
# 1. Executa o algoritmo Tf-Idf, atribui o resultado a matriz_tfidf.
# 

# 2. Criando uma matriz contendo apenas as palavras utilizadas no corpus (tfidf_vectorizer.get_feature_names()). 
# A criação desta matriz facilita e dá um grande ganho de performance no processo de vetorização. 
# Ao final imprime o formato da matriz. Deve ter o número de palavras x 300 - correspondente ao word embedding de cada um
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer

tfidf_vectorizer = TfidfVectorizer()
matriz_tfidf = tfidf_vectorizer.fit_transform(df_transform['DS_OBJETO_LIMPO'])

matriz_vv_vocabulario_licitacoes = np.zeros((0, 300), 'float64')
for palavra in tfidf_vectorizer.get_feature_names():
    vetor_palavra = kv_from_txt.get_vector(palavra)
    matriz_vv_vocabulario_licitacoes = np.append(matriz_vv_vocabulario_licitacoes, np.array([vetor_palavra]), axis=0)

print(matriz_vv_vocabulario_licitacoes.shape)    


(31835, 300)


In [8]:
# Gera uma matriz com dimensão data samples (numero de licitações) x 300 (conforme word embedding utilizado).
# Cada linha da matriz corresponde à soma do vetor de cada palavra multiplicado pelo respectivo Tf-Idf. 
# Assim, palavras como menor Tf-Idf, muito frequentes contribuem menos.
# O resultado é uma média ponderada pelo Tf-Idf

# Estudos sobre a técnica podem ser encontrados em https://www.oxinabox.net/publications/White2015SentVecMeaning.pdf e
# https://www.aclweb.org/anthology/P16-1089.pdf.

print(matriz_tfidf.shape)
print(matriz_vv_vocabulario_licitacoes.shape)

matriz_licitacoes = matriz_tfidf * matriz_vv_vocabulario_licitacoes
print(matriz_licitacoes.shape)

(80202, 31835)
(31835, 300)
(80202, 300)


In [10]:
# Similaridade de cosseno entre os vetores que representam cada sentença para avaliar as n mais similares licitações. 
# A saída é a lista de licitações mais similares e o valor do cosseno, sendo este utilizado para ordenação
# A própria licitação base também aparece como mais similar, devendo possuir cosseno 1.

from sklearn.metrics.pairwise import cosine_similarity as cosine
from random import randrange

ind_licitacao_a_comparar = randrange(matriz_licitacoes.shape[0])
n = 10
v1 = matriz_licitacoes[ind_licitacao_a_comparar]

# Calcula cosseno entre a licitação a comparar (vetor v1) e todas as demais
matriz_cosseno = cosine([v1], matriz_licitacoes)

# argsort funciona como se ordenasse o vetor (em ordem crescente), mas ao invés de retornar o vetor ordenado retorna o índice dos elementos ordenados. Como queremos os maiores primeiro, multiplica-se o vetor dos cossenos por -1.
vetor_indice_maiores_cossenos = np.argsort(matriz_cosseno * -1)[0]


print('Sentenca base: ' + df_transform['DS_OBJETO'][ind_licitacao_a_comparar] + '\n')
for i in vetor_indice_maiores_cossenos[:n]:
    print('Sentenca {}: '.format(i) + df_transform['DS_OBJETO'][i] + '\n')
    print(matriz_cosseno[0][i])
    

Sentenca base: AQUISIÇÃO DE TINTAS E MATERIAIS PARA PINTURA.

Sentenca 76429: Aquisição de tintas e materiais de pintura

1.0
Sentenca 16222: AQUISIÇÃO DE TINTAS E MATERIAIS PARA PINTURA.

1.0
Sentenca 50844: AQUISIÇÃO DE MATERIAIS DE PINTURA E TINTAS.

1.0
Sentenca 14724: AQUISIÇÃO DE MATERIAIS DE PINTURA E TINTAS

1.0
Sentenca 41169: Aquisição de Tintas e Material Para Pintura - SMCEL

0.9515734719846849
Sentenca 64204: AQUISIÇÃO DE TINTAS E MATERIAL PARA PINTURA

0.9515734719846849
Sentenca 23960: Aquisição de tintas e material de pintura - SMCELSolicitação N° 2012

0.9515734719846849
Sentenca 36180: AQUISIÇÃO DE TINTAS DIVERSAS E MATERIAIS PARA PINTURA

0.9458144385230853
Sentenca 43961: AQUISIÇÃO DE TINTAS E MATERIAIS DIVERSOS PARA PINTURA

0.9448596913876057
Sentenca 60983: REGISTRO DE PREÇOS PARA AQUISIÇÃO DE TINTAS E MATERIAIS PARA PINTURA - SMOSU

0.9337138360332488
