# A. Imports and initial setup

## A.1 import data

In [1]:
import numpy as np 
import pandas as pd 

from utils import get_stopwords, get_stemmer, tokenizer, data2idx, data2bow
dataset_location='../../locality-sensitive-hashing/datasets/development.json'
# dataset_location='../CorpusTrabalho4.zip'
df = pd.read_json(dataset_location, orient='records')
# print(df.count()) 9998
df.sample(10).head(10)

Unnamed: 0,description,id,title
3306,Sobre a vaga \r\n\r\n\r\n Descricao\r\n\r\n...,3306,Vaga de Analista De Sinistro Dpvat Jr em Salvador
5137,"Em 2016, completamos 22 anos de atuacao no Pai...",5137,Vendedor (Paraiba)
5669,Elabora plano de aula de acordo com o programa...,5669,Professor(a) de Sociologia
2501,Solidos conhecimentos na ferramenta sap bw / b...,2501,Vaga para Consultor SAP
1042,Formado (a) em ciencias contabeis ou estar cur...,1042,Vaga para Auxiliar Contabil
5301,Requisitos:experiencia na atividade como auxil...,5301,Vaga para Auxiliar de Instalacao
9540,Assistente de panificacao\nIra atuar com em pa...,9540,Assistente de panificacao
7124,Administracao e monitoramento de banco de dado...,7124,Analista de Tecnologia da Informacao
6603,Vaga de emprego codigo 1.901.440Programador(a)...,6603,Oferta de emprego - Programador PHP
6036,Assistente administrativo/financeiro\nEscritor...,6036,Vaga para Assistente Administrativo


## A.2 Stopwords

In [2]:
stopwords= list(get_stopwords())
ind = np.random.randint(0,len(stopwords), size=5)
print('total stop words are %d' % (len(stopwords)))
print([stopwords[i] for i in ind])      

total stop words are 203
['ela', 'pela', 'à', 'tenham', 'muito']


## A.3 Stemmer

In [3]:
stemmer= get_stemmer() 
words_test= ['Programador', 'Programa', 'pegaram', 'correram']
print('Before stemming:')
print(words_test)
print('After stemming:')
print([stemmer.stem(w) for w in words_test])

Before stemming:
['Programador', 'Programa', 'pegaram', 'correram']
After stemming:
['program', 'program', 'peg', 'corr']


## A.4 Tokenize the title

In [4]:
tokenfy = lambda x : tokenizer(x, stopwords= stopwords, stemmer=stemmer)
df['token_title'] = df['title'].transform(tokenfy)
df.sample(10).head(10)

Unnamed: 0,description,id,title,token_title
7685,"Ira difundir a cultura de vendas dos produtos,...",7685,Assistente de vendas,assistent vend
5415,Hotel esta com 1 vaga(s) em aberto para Campin...,5415,Garcom Pleno / Campinas e Rmc / Sp / 1 Vaga(s,garcom plen campin rmc sp 1 vag
1984,RJ – ESTOQUISTA DE LOJAEMPRESA DE GRANDE PORTE...,1984,RJ – Organizador de estoque DE LOJA,rj – organiz estoqu loj
1455,Auxiliar Enfermagem PCD Responsabilidades: apo...,1455,Auxiliar Enfermagem PCD,auxili enfermag pcd
1841,"Efetuar vendas de produtos, fazer a gestao do ...",1841,Oportunidade para Vendedor Pracista,oportun vendedor pracist
3159,Dados da Vaga de EmpregoMedico Veterinario – R...,3159,Emprego medico veterinario (responsavel tecnico),empreg medic veterinari responsavel tecnic
6050,Consultor Servicos Responsabilidades: - Abert...,6050,Consultor Servicos,consultor servic
9635,"Fundada em 1975, a Telemont Engenharia de Tele...",9635,Instalador e Reparador de Equipamento e Comuni...,instal repar equip comunicaca
426,\r\n \r\n\r\n \r\n \r\n ...,426,Assistente De Produtos Financeiros - Lojas Ren...,assistent produt financeir loj renn espirit ...
2480,Principais responsabilidades: atuar com atend...,2480,Vaga para Vendedor,vag vendedor


## A.5 Tokenize the description

In [5]:
df['token_description'] = df['description'].transform(tokenfy)
# df.sample(10).head(10)
df.head(10)

Unnamed: 0,description,id,title,token_title,token_description
0,Auxilia nas rotinas do departamento administra...,0,Aprendiz Administrativo,aprendiz administr,auxil rotin depart administr acompanh relatori...
1,\r\n Sera responsavel pelo dese...,1,Programador(a),program,ser responsavel desenvolv manutenca sit loj v...
2,Sera responsavel pelo desenvolvimento e manute...,2,Programador(a),program,ser responsavel desenvolv manutenca sit loj vi...
3,Realizar conciliacao de contas contabeis. Anal...,3,Estagiario(a) Contabilidade,estagiario contabil,realiz conciliaca cont contab analis demonstra...
4,Realizar conciliacao de contas contabeis. Anal...,4,Estagiario(a) Contabilidade,estagiario contabil,realiz conciliaca cont contab analis demonstra...
5,Sera responsavel pelo desenvolvimento e manute...,5,Programador(a),program,ser responsavel desenvolv manutenca sit loj vi...
6,Realizar conciliacao de contas contabeis. Anal...,6,Estagiario(a) Contabilidade,estagiario contabil,realiz conciliaca cont contab analis demonstra...
7,Realizar conciliacao de contas contabeis. Anal...,7,Estagiario(a) Contabilidade,estagiario contabil,realiz conciliaca cont contab analis demonstra...
8,Sera responsavel pelo desenvolvimento e manute...,8,Programador(a),program,ser responsavel desenvolv manutenca sit loj vi...
9,A Empresa Tok&Stok conta com mais de 4.000 fun...,9,Vendedor Cadista - Copacabana,vendedor cadist copacaban,empres tokstok cont 4000 funcionari distribu 5...


## A.6 Token 2 idx

In [6]:
word2idx={}
df = data2idx(df, word2idx)
# df.sample(10).head(10)
df.head(10)

document:9997 of 9998	VOCAB:25671	WORD COUNT:574479	


Unnamed: 0,description,id,title,token_title,idx_description
0,Auxilia nas rotinas do departamento administra...,0,Aprendiz Administrativo,aprendiz administr,0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
1,\r\n Sera responsavel pelo dese...,1,Programador(a),program,18 19 20 21 22 23 24 25 26 27 28 29 21 30 22 3...
2,Sera responsavel pelo desenvolvimento e manute...,2,Programador(a),program,19 20 21 22 23 24 25 26 27 28 29 21 30 22 31 3...
3,Realizar conciliacao de contas contabeis. Anal...,3,Estagiario(a) Contabilidade,estagiario contabil,40 41 42 43 44 45 46 47 7 48 49 50 46
4,Realizar conciliacao de contas contabeis. Anal...,4,Estagiario(a) Contabilidade,estagiario contabil,40 41 42 43 44 45 46 47 7 48 49 50 46
5,Sera responsavel pelo desenvolvimento e manute...,5,Programador(a),program,19 20 21 22 23 24 25 26 27 28 29 21 30 22 31 3...
6,Realizar conciliacao de contas contabeis. Anal...,6,Estagiario(a) Contabilidade,estagiario contabil,40 41 42 43 44 45 46 47 7 48 49 50 46
7,Realizar conciliacao de contas contabeis. Anal...,7,Estagiario(a) Contabilidade,estagiario contabil,40 41 42 43 44 45 46 47 7 48 49 50 46
8,Sera responsavel pelo desenvolvimento e manute...,8,Programador(a),program,19 20 21 22 23 24 25 26 27 28 29 21 30 22 31 3...
9,A Empresa Tok&Stok conta com mais de 4.000 fun...,9,Vendedor Cadista - Copacabana,vendedor cadist copacaban,51 52 42 53 54 55 56 24 57 58 59 60 61 62 63 6...


In [7]:
bow = data2bow(df, word2idx)
print(bow.shape)
bow[:5,:5]

(25671, 9998)


array([[1, 0, 0, 0, 0],
       [1, 0, 0, 0, 0],
       [1, 0, 0, 0, 0],
       [1, 0, 0, 0, 0],
       [1, 0, 0, 0, 0]], dtype=int32)

In [9]:
def matrix2txt(mtrx, filename='mtrx.txt'):
	'''		
		mtrx is a numpy matrix
		writes the bow matrix to text, or distance matrix to text
	'''	
	path= '../../locality-sensitive-hashing/datasets/' + filename	
	n_headers=mtrx.shape[1]-2
	headers = list(mtrx.shape) + ['']*n_headers
	df = pd.DataFrame(data=mtrx.astype(np.int32), columns=headers, index=None)
	df.to_csv(path, sep=' ',index=False, index_label=False)


In [10]:
matrix2txt(bow,filename='bow.txt')