word2vec_spacy

Passo a passo para criar um word2vec no gensim e importar no Spacy

A criação de um word2vec aumenta a acurácia na comparação de documentos e termos.

O Spacy tem um modelo treinado para o português, mas a similaridade pode ser melhorada para domínios específicos com a criação de vetores próprios para esses domínios.

Códigos na pasta codigo_w2v

Passo a passo

Este tutorial foi baseado nos links abaixo e em alguns fóruns pela web.

1. Juntar um volume de textos brutos (txt) do domínio desejado.

Podem ser textos médicos, jurídicos, de psicologia, de uma área técnica qualquer, receitas etc. É difícil de definir o número de documentos necessários para a criação dos vetores, mas alguns milhares parece um bom número para começar. Uma prova de conceito com 10 mil documentos jurídicos mostrou resultados bons para começar.

o exemplo aqui foi gerado com uma base de 25 textos jurídicos diversos baixados na interent. Não é um volume representativo, mas já apresenta alguns resultados interessantes.

2. A geração do modelo

Foram realizados testes com o código de Kavita Ganesan que pode ser baixado no Github https://github.com/kavgan/nlp-text-mining-working-examples/blob/master/word2vec/scripts/word2vec.py

na versão disponibilizada aqui foram feitos alguns ajustes para facilitar a importação do modelo para o Spacy e ler todos os arquivos que estão na pasta textos
para usar o código exemplo, basta criar uma pasta textos e colocar quantos documentos achar necessário, e rodar o código. Ele vai carregar todos os documentos texto da pasta para gerar o modelo.
ao final, será criado o arquivo \vectors\vetores.txt que será convertido para o formato do Spacy.

3. Convertendo o modelo para usar no Spacy

A conversão do modelo gerado pelo Gensim para o formato do Spacy é feita pela linha de comando:

python -m spacy init-model pt vectors_spacy --vectors-loc .\vectors\vetores.txt

Será criada a pasta vectors_spacy que poderá ser carregada pelo Spacy, como no exemplo abaixo.

from spacy import util as spc_util import pt_core_news_sm nlp = pt_core_news_sm.load() doc=nlp('justiça tribunal') tk=[k for k in doc] print('Semelhança entre justiça e tribunal = ',tk[0].similarity(tk[1])) pathw2v = './vectors_spacy' spc_util.load_model(pathw2v, vocab=nlp.vocab) doc=nlp('justiça tribunal') tk=[k for k in doc] print('Semelhança entre justiça e tribunal = ',tk[0].similarity(tk[1]))

Como exemplo, termos a saída das comparações dos termos justiça e tribunal com e sem o modelo gerado pelos 25 documentos:

Sem o uso do modelo gerado: Semelhança entre justiça e tribunal = 0.31015217

Com o uso do modelo gerado: Semelhança entre justiça e tribunal = 0.8437208

4. Utilizando o tensorboard para visualizar o modelo criado e testar algumas similaridades

O tensorboard é uma ferramenta excelente para visualizar o modelo criado com a rederização de uma nuvem de vetores onde os termos ficam próximos dos seus semelhantes, o exemplo vectors_tensorboard.py foi baseado no código abaixo:

https://github.com/explosion/spaCy/blob/master/examples/vectors_tensorboard.py

Após gerar os arquivos de visualização na pasta tensorboard_out, é necessário rodar a linha abaixo para abrir o servidor e acessar o browser (dica: use o chrome) no endereço http://localhost:6006

tensorboard --host=0.0.0.0 --logdir=.\tensorboard_out

Name		Name	Last commit message	Last commit date
Latest commit History 14 Commits
codigo_w2v		codigo_w2v
LICENSE		LICENSE
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

codigo_w2v

codigo_w2v

LICENSE

LICENSE

README.md

README.md

Repository files navigation

word2vec_spacy

Passo a passo

1. Juntar um volume de textos brutos (txt) do domínio desejado.

2. A geração do modelo

3. Convertendo o modelo para usar no Spacy

4. Utilizando o tensorboard para visualizar o modelo criado e testar algumas similaridades

About

Releases

Packages

Languages

License

luizanisio/word2vec_spacy

Folders and files

Latest commit

History

Repository files navigation

word2vec_spacy

Passo a passo

1. Juntar um volume de textos brutos (txt) do domínio desejado.

2. A geração do modelo

3. Convertendo o modelo para usar no Spacy

4. Utilizando o tensorboard para visualizar o modelo criado e testar algumas similaridades

About

Topics

Resources

License

Stars

Watchers

Forks

Languages