# A. Imports and initial setup

## A.1 import data

In [1]:
import numpy as np 
import pandas as pd 

from utils import get_stopwords, get_stemmer, tokenizer, data2idx, data2bow
dataset_location='../../locality-sensitive-hashing/development.json'
# dataset_location='../CorpusTrabalho4.zip'
df = pd.read_json(dataset_location, orient='records')
# print(df.count()) 9998
df.sample(10).head(10)

ValueError: Expected object or value

## A.2 Stopwords

In [2]:
stopwords= list(get_stopwords())
ind = np.random.randint(0,len(stopwords), size=5)
print('total stop words are %d' % (len(stopwords)))
print([stopwords[i] for i in ind])      

total stop words are 203
['estivemos', 'me', 'mesmo', 'vos', 'est√°vamos']


## A.3 Stemmer

In [3]:
stemmer= get_stemmer() 
words_test= ['Programador', 'Programa', 'pegaram', 'correram']
print('Before stemming:')
print(words_test)
print('After stemming:')
print([stemmer.stem(w) for w in words_test])

Before stemming:
['Programador', 'Programa', 'pegaram', 'correram']
After stemming:
['program', 'program', 'peg', 'corr']


## A.4 Tokenize the title

In [4]:
tokenfy = lambda x : tokenizer(x, stopwords= stopwords, stemmer=stemmer)
df['token_title'] = df['title'].transform(tokenfy)
df.sample(10).head(10)

Unnamed: 0,description,id,title,token_title
8312,Sobre a vaga \r\n\r\n\r\n Descricao\r\n\r\n...,8312,Vaga de Tecnico De Enfermagem,vag tecnic enfermag
531,A Empresa Tok&Stok conta com mais de 4.000 fun...,531,\n Vendedor Cadista - Porto Ale...,vendedor cadist port alegr rd
112,Supervisor comercial ...,112,Oferta de emprego - Supervisor comercial,ofert empreg supervisor comercial
3361,Sobre a vaga \r\n\r\n\r\n Descricao\r\n\r\n...,3361,Vaga de Manicure E Pedicure em Sao Paulo,vag manicur pedicur sao paul
6853,Instituicao filantropica que trabalha com acol...,6853,Vaga para Auxiliar Administrativo Financeiro,vag auxili administr financeir
6490,Sobre a vaga \r\n\r\n\r\n Descricao\r\n\r\n...,6490,Vaga de Operador De Caixa,vag oper caix
7446,Contrata-se cabeleleira(o) com experiencia em ...,7446,Cabeleireiro,cabeleireir
9004,Atividades Profissionais: Cobranca ativa da ca...,9004,Auxiliar de Cobranca,auxili cobranc
2266,Comprador(a) Cidade: portao Requisitos da vaga...,2266,Vaga para Comprador,vag comprador
1016,Vendedor Externo Responsabilidades: atendiment...,1016,Vendedor Externo,vendedor extern


## A.5 Tokenize the description

In [5]:
df['token_description'] = df['description'].transform(tokenfy)
# df.sample(10).head(10)
df.head(10)

Unnamed: 0,description,id,title,token_title,token_description
0,Auxilia nas rotinas do departamento administra...,0,Aprendiz Administrativo,aprendiz administr,auxil rotin depart administr acompanh relatori...
1,\r\n Sera responsavel pelo dese...,1,Programador(a),program,ser responsavel desenvolv manutenca sit loj v...
2,Sera responsavel pelo desenvolvimento e manute...,2,Programador(a),program,ser responsavel desenvolv manutenca sit loj vi...
3,Realizar conciliacao de contas contabeis. Anal...,3,Estagiario(a) Contabilidade,estagiario contabil,realiz conciliaca cont contab analis demonstra...
4,Realizar conciliacao de contas contabeis. Anal...,4,Estagiario(a) Contabilidade,estagiario contabil,realiz conciliaca cont contab analis demonstra...
5,Sera responsavel pelo desenvolvimento e manute...,5,Programador(a),program,ser responsavel desenvolv manutenca sit loj vi...
6,Realizar conciliacao de contas contabeis. Anal...,6,Estagiario(a) Contabilidade,estagiario contabil,realiz conciliaca cont contab analis demonstra...
7,Realizar conciliacao de contas contabeis. Anal...,7,Estagiario(a) Contabilidade,estagiario contabil,realiz conciliaca cont contab analis demonstra...
8,Sera responsavel pelo desenvolvimento e manute...,8,Programador(a),program,ser responsavel desenvolv manutenca sit loj vi...
9,A Empresa Tok&Stok conta com mais de 4.000 fun...,9,Vendedor Cadista - Copacabana,vendedor cadist copacaban,empres tokstok cont 4000 funcionari distribu 5...


## A.6 Token 2 idx

In [6]:
word2idx={}
df = data2idx(df, word2idx)
# df.sample(10).head(10)
df.head(10)

document:9997 of 9998	VOCAB:25671	WORD COUNT:574479	


Unnamed: 0,description,id,title,token_title,idx_description
0,Auxilia nas rotinas do departamento administra...,0,Aprendiz Administrativo,aprendiz administr,0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
1,\r\n Sera responsavel pelo dese...,1,Programador(a),program,18 19 20 21 22 23 24 25 26 27 28 29 21 30 22 3...
2,Sera responsavel pelo desenvolvimento e manute...,2,Programador(a),program,19 20 21 22 23 24 25 26 27 28 29 21 30 22 31 3...
3,Realizar conciliacao de contas contabeis. Anal...,3,Estagiario(a) Contabilidade,estagiario contabil,40 41 42 43 44 45 46 47 7 48 49 50 46
4,Realizar conciliacao de contas contabeis. Anal...,4,Estagiario(a) Contabilidade,estagiario contabil,40 41 42 43 44 45 46 47 7 48 49 50 46
5,Sera responsavel pelo desenvolvimento e manute...,5,Programador(a),program,19 20 21 22 23 24 25 26 27 28 29 21 30 22 31 3...
6,Realizar conciliacao de contas contabeis. Anal...,6,Estagiario(a) Contabilidade,estagiario contabil,40 41 42 43 44 45 46 47 7 48 49 50 46
7,Realizar conciliacao de contas contabeis. Anal...,7,Estagiario(a) Contabilidade,estagiario contabil,40 41 42 43 44 45 46 47 7 48 49 50 46
8,Sera responsavel pelo desenvolvimento e manute...,8,Programador(a),program,19 20 21 22 23 24 25 26 27 28 29 21 30 22 31 3...
9,A Empresa Tok&Stok conta com mais de 4.000 fun...,9,Vendedor Cadista - Copacabana,vendedor cadist copacaban,51 52 42 53 54 55 56 24 57 58 59 60 61 62 63 6...


In [9]:
bow = data2bow(df, word2idx)
print(bow.shape)
bow[:5,:5]

(25671, 9998)


array([[1, 0, 0, 0, 0],
       [1, 0, 0, 0, 0],
       [1, 0, 0, 0, 0],
       [1, 0, 0, 0, 0],
       [1, 0, 0, 0, 0]], dtype=int32)

In [None]:
from utils import matrix2txt
matrix2txt(bow,filename='bow.txt')