# A. Imports and initial setup

## A.1 import data

In [1]:
import numpy as np 
import pandas as pd 

from utils import get_stopwords, get_stemmer, tokenizer2, data2idx, data2bow, matrix2txt, bow2dist, word2idx2txt
dataset_location='../../locality-sensitive-hashing/datasets/development.json'
# dataset_location='../CorpusTrabalho4.zip'
df = pd.read_json(dataset_location, orient='records')
# print(df.count()) 9998
df.sample(10).head(10)

Unnamed: 0,description,id,title
7448,EXPERIeNCIA COM VENDAS DE CHIPS TELEFoNICOS.\n...,7448,Vendedor de Chips Eletronico
5572,Consultoria contrata para clinica:auxiliar ad...,5572,Vaga para Auxiliar Administrativo
1170,Auxiliar de cabeleireiro (escovista)Contratado...,1170,Vaga para Auxiliar de Cabeleireiro
4303,Sobre a vaga \r\n\r\n\r\n Descricao\r\n\r\n...,4303,Vaga de Auxiliar De Limpeza
4230,Sera responsavel por atendimento ativo de cobr...,4230,Operador(a) de Telecobranca
6888,Representante comercial – cascavel/pr\nRequisi...,6888,Representante Comercial
2053,Preparar confeitos desde bolos secos a tortas ...,2053,Vaga para Ajudante de Confeiteiro
3816,Estoquista Ira realizar controle de almoxarifa...,3816,Estoquista
4643,Centro medico dr.bernardo esta contratando pro...,4643,Oportunidade para Medico Ortopedista
1104,Procuro empregada domestica com referencia e e...,1104,Oportunidade para Domestica


## A.2 Stopwords

In [3]:
stopwords= list(get_stopwords())
ind = np.random.randint(0,len(stopwords), size=5)
print('total stop words are %d' % (len(stopwords)))
print([stopwords[i] for i in ind])      

total stop words are 203
['aquele', 'seja', 'tivera', 'se', 'aquelas']


## A.3 Stemmer

In [4]:
stemmer= get_stemmer() 
words_test= ['Programador', 'Programa', 'pegaram', 'correram']
print('Before stemming:')
print(words_test)
print('After stemming:')
print([stemmer.stem(w) for w in words_test])

Before stemming:
['Programador', 'Programa', 'pegaram', 'correram']
After stemming:
['program', 'program', 'peg', 'corr']


## A.4 Tokenize the title

In [5]:
# tokenfy = lambda x : tokenizer(x, stopwords= stopwords, stemmer=stemmer)
tokenfy = lambda x : tokenizer2(x, stopwords= stopwords, stemmer=stemmer)
df['token_title'] = df['title'].transform(tokenfy)
df.sample(10).head(10)

Unnamed: 0,description,id,title,token_title
2118,"Se voce gosta de atender, e criativo, e quer g...",2118,Oportunidade para Auxiliar de Farmacia,oportun auxili farmac
9585,Regime de contratacao de tipo autonomo / somen...,9585,Corretor de Seguros,corretor segur
4397,Auxiliar de cozinha - jundiai - sao paulo empr...,4397,Vaga para Auxiliar de Cozinha,vag auxili cozinh
3395,Atividades Profissionais: Sera responsavel pel...,3395,Agente I,agent i
1238,Loja de parafusos esta com 2 vaga(s) em aberto...,1238,Vaga para Vendedor de Loja,vag vendedor loj
2929,Preparar e ajudar na preparacao de paes e mass...,2929,Vaga para Padeiro,vag padeir
927,Requisitos Necessarios: \n\nSer portador de um...,927,Pessoa com Deficiencia - PCD,pesso deficienc pcd
5458,Sobre a vaga \r\n\r\n\r\n Descricao\r\n\r\n...,5458,Vaga de Mecanico Alinhador em Sao Paulo,vag mecan alinh sao paul
7621,nome fantasia:aruanaimoveis.com.br\nmoreira cr...,7621,Vaga para Vendedor,vag vendedor
5616,Estagio Atendimento Cliente \n\nResponsabilida...,5616,Estagio Atendimento Cliente,estagi atend client


## A.5 Tokenize the description

In [6]:
df['token_description'] = df['description'].transform(tokenfy)
# df.sample(10).head(10)
df.head(10)

Unnamed: 0,description,id,title,token_title,token_description
0,Auxilia nas rotinas do departamento administra...,0,Aprendiz Administrativo,aprendiz administr,auxil rotin depart administr acompanh relatori...
1,\r\n Sera responsavel pelo dese...,1,Programador(a),program,ser responsavel desenvolv manutenca sit loj vi...
2,Sera responsavel pelo desenvolvimento e manute...,2,Programador(a),program,ser responsavel desenvolv manutenca sit loj vi...
3,Realizar conciliacao de contas contabeis. Anal...,3,Estagiario(a) Contabilidade,estagiario contabil,realiz conciliaca cont contab analis demonstra...
4,Realizar conciliacao de contas contabeis. Anal...,4,Estagiario(a) Contabilidade,estagiario contabil,realiz conciliaca cont contab analis demonstra...
5,Sera responsavel pelo desenvolvimento e manute...,5,Programador(a),program,ser responsavel desenvolv manutenca sit loj vi...
6,Realizar conciliacao de contas contabeis. Anal...,6,Estagiario(a) Contabilidade,estagiario contabil,realiz conciliaca cont contab analis demonstra...
7,Realizar conciliacao de contas contabeis. Anal...,7,Estagiario(a) Contabilidade,estagiario contabil,realiz conciliaca cont contab analis demonstra...
8,Sera responsavel pelo desenvolvimento e manute...,8,Programador(a),program,ser responsavel desenvolv manutenca sit loj vi...
9,A Empresa Tok&Stok conta com mais de 4.000 fun...,9,Vendedor Cadista - Copacabana,vendedor cadist copacaban,empres tokstok cont 4000 funcionari distribu 5...


In [8]:
df.sample(10).head(10)

Unnamed: 0,description,id,title,token_title,token_description
5648,"Ira receber materiais para conferencia, dar en...",5648,Faturista,fatur,ira receb materi conferenc dar entrad materi r...
4990,LAVADEIRA - CAMPINAS - 1 VAGA - Barao Geraldo ...,4990,Oferta de emprego - LAVADEIRA - CAMPINAS - 1 V...,ofert empreg lavadeir campin 1 vag bara gerald,lavadeir campin 1 vag bara gerald by on segund...
104,Dados da Vaga de EmpregoPropagandistaRequisito...,104,5 vagas propagandista (area da saúde),5 vag propagand are saúd,dad vag empregopropagandistarequisitosperfil d...
3217,VENDEDOR MDF/MADEIRA / CAMPINAS / SP / 1 VAGA(...,3217,VENDEDOR MDF/MADEIRA / CAMPINAS / SP / 1 VAGA ...,vendedor mdfmadeir campin sp 1 vag s 1345769,vendedor mdfmadeir campin sp 1 vag 29 08 1003 ...
7035,"area de atuacao:indústria, manufatura e produc...",7035,Vaga para Encarregado de Almoxarifado,vag encarreg almoxarif,are atuacaoindústr manufatur producaoinformaco...
792,Consultor de Vendas Joinville / SC Requisitos:...,792,Consultor Vendas,consultor vend,consultor vend joinvill sc requisitosnecessari...
2846,Logistica e transportes esta com 2 vaga(s) em ...,2846,Vaga para Gerente Administrativo de Vendas,vag gerent administr vend,logist transport 2 vag abert sumar sprespons i...
9561,Motorista de Caminhao – RJ Motorista de Caminh...,9561,Condutor de Caminhao – RJ,condutor caminha – rj,motor caminha – rj motor caminha – rjrequisit ...
3743,Vaga de emprego: promotor de vendas realizar v...,3743,Vaga para Promotor de Vendas,vag promotor vend,vag empreg promotor vend realiz vend ativ chip...
9321,"area de atuacao:comercio varejista, atacadista...",9321,Vaga para Faturista,vag fatur,are atuacaocomerci varej atacad distribuica


## A.6 Token 2 idx

In [9]:
word2idx={}
df = data2idx(df, word2idx)
# df.sample(10).head(10)
df.head(10)

document:9997 of 9998	VOCAB:25671	WORD COUNT:524866	


Unnamed: 0,description,id,title,token_title,idx_description
0,Auxilia nas rotinas do departamento administra...,0,Aprendiz Administrativo,aprendiz administr,0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
1,\r\n Sera responsavel pelo dese...,1,Programador(a),program,18 19 20 21 22 23 24 25 26 27 28 20 29 21 30 3...
2,Sera responsavel pelo desenvolvimento e manute...,2,Programador(a),program,18 19 20 21 22 23 24 25 26 27 28 20 29 21 30 3...
3,Realizar conciliacao de contas contabeis. Anal...,3,Estagiario(a) Contabilidade,estagiario contabil,39 40 41 42 43 44 45 46 7 47 48 49 45
4,Realizar conciliacao de contas contabeis. Anal...,4,Estagiario(a) Contabilidade,estagiario contabil,39 40 41 42 43 44 45 46 7 47 48 49 45
5,Sera responsavel pelo desenvolvimento e manute...,5,Programador(a),program,18 19 20 21 22 23 24 25 26 27 28 20 29 21 30 3...
6,Realizar conciliacao de contas contabeis. Anal...,6,Estagiario(a) Contabilidade,estagiario contabil,39 40 41 42 43 44 45 46 7 47 48 49 45
7,Realizar conciliacao de contas contabeis. Anal...,7,Estagiario(a) Contabilidade,estagiario contabil,39 40 41 42 43 44 45 46 7 47 48 49 45
8,Sera responsavel pelo desenvolvimento e manute...,8,Programador(a),program,18 19 20 21 22 23 24 25 26 27 28 20 29 21 30 3...
9,A Empresa Tok&Stok conta com mais de 4.000 fun...,9,Vendedor Cadista - Copacabana,vendedor cadist copacaban,50 51 41 52 53 54 55 23 56 57 58 59 60 61 62 6...


In [10]:
bow = data2bow(df, word2idx)
print(bow.shape)
bow[:5,:5]

(25671, 9998)


array([[1, 0, 0, 0, 0],
       [1, 0, 0, 0, 0],
       [1, 0, 0, 0, 0],
       [1, 0, 0, 0, 0],
       [1, 0, 0, 0, 0]], dtype=int32)

In [11]:
bow[:10,:10]

array([[1, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [1, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [1, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [1, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [1, 0, 0, 0, 0, 0, 0, 0, 0, 1],
       [1, 0, 0, 0, 0, 0, 0, 0, 0, 1],
       [1, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [1, 0, 0, 1, 1, 0, 1, 1, 0, 0],
       [1, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [1, 0, 0, 0, 0, 0, 0, 0, 0, 0]], dtype=int32)

In [12]:
dist=bow2dist(bow)

09997,09996:	7.6866


In [13]:
dist[:10,:10]

array([[ 0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
         0.        ,  0.        ,  0.        ,  0.        ,  0.        ],
       [ 7.        ,  0.        ,  0.        ,  0.        ,  0.        ,
         0.        ,  0.        ,  0.        ,  0.        ,  0.        ],
       [ 6.92820311,  1.        ,  0.        ,  0.        ,  0.        ,
         0.        ,  0.        ,  0.        ,  0.        ,  0.        ],
       [ 5.56776428,  6.78233004,  6.70820379,  0.        ,  0.        ,
         0.        ,  0.        ,  0.        ,  0.        ,  0.        ],
       [ 5.56776428,  6.78233004,  6.70820379,  0.        ,  0.        ,
         0.        ,  0.        ,  0.        ,  0.        ,  0.        ],
       [ 6.92820311,  1.        ,  0.        ,  6.70820379,  6.70820379,
         0.        ,  0.        ,  0.        ,  0.        ,  0.        ],
       [ 5.56776428,  6.78233004,  6.70820379,  0.        ,  0.        ,
         6.70820379,  0.        ,  0.        

In [16]:
matrix2txt(dist, filename='distance_matrix.txt')

In [10]:
word2idx2txt(word2idx)