# TESTES SOBRE PALAVRAS EM PYTHON

Este notebook destina-se a testar os conceitos apresentados no curso SEQUENCE MODELS do Andrew Ng (Coursera) para construir um tratamento de textos, visando obter métricas a partir de word embeddings.

A primeira etapa destina-se a construir um gerador de embeddings para todas as palavras do vocabulário em português.

Autor: Reinaldo Lepsch Neto

Importação de pacotes básicos

In [270]:
import numpy as np
from w2v_utils import *

Abertura do arquivo teste e leitura. A codificação utf8 é obrigatória para ler os caracteres do português

In [271]:
documento = open("teste.txt", 'r',encoding="utf8")

In [272]:
texto = documento.read()

In [273]:
texto

'\ufeffAção penal originária. Penal. Processo penal. 2. Conexão. Julgamento conjunto das ações penais AP 644 e AP 958. 3. Prescrição da pretensão punitiva – crime de associação criminosa, art. 288 do CP. Art. 109, IV, do CP. Decorreu o prazo prescricional, sem interrupções ou suspensões. Pronunciada a prescrição. 4. Inépcia da denúncia. A remissão a peças dos autos não é causa de inépcia da denúncia. A jurisprudência admite a utilização de fundamentação per relationem na inicial acusatória – Inq 3202, de minha relatoria, Segunda Turma, julgado em 23.9.2014. Preliminar rejeitada. 5. Nulidade das interceptações telefônicas. Transcrição das gravações compartilhada de outra investigação. As gravações não foram trazidas a estes autos, mesmo após intimação da acusação. A defesa tem a prerrogativa de solicitar o acesso à integralidade das gravações – Inq 3705, de minha relatoria, Segunda Turma, julgado em 2.6.2015. No caso, as gravações não foram trazidas aos autos, mesmo após reiteradas inti

In [274]:
len(texto)

3325

Quebra inicial do texto em palavras.

In [275]:
palavras = texto.split(' ')

In [276]:
palavras

['\ufeffAção',
 'penal',
 'originária.',
 'Penal.',
 'Processo',
 'penal.',
 '2.',
 'Conexão.',
 'Julgamento',
 'conjunto',
 'das',
 'ações',
 'penais',
 'AP',
 '644',
 'e',
 'AP',
 '958.',
 '3.',
 'Prescrição',
 'da',
 'pretensão',
 'punitiva',
 '–',
 'crime',
 'de',
 'associação',
 'criminosa,',
 'art.',
 '288',
 'do',
 'CP.',
 'Art.',
 '109,',
 'IV,',
 'do',
 'CP.',
 'Decorreu',
 'o',
 'prazo',
 'prescricional,',
 'sem',
 'interrupções',
 'ou',
 'suspensões.',
 'Pronunciada',
 'a',
 'prescrição.',
 '4.',
 'Inépcia',
 'da',
 'denúncia.',
 'A',
 'remissão',
 'a',
 'peças',
 'dos',
 'autos',
 'não',
 'é',
 'causa',
 'de',
 'inépcia',
 'da',
 'denúncia.',
 'A',
 'jurisprudência',
 'admite',
 'a',
 'utilização',
 'de',
 'fundamentação',
 'per',
 'relationem',
 'na',
 'inicial',
 'acusatória',
 '–',
 'Inq',
 '3202,',
 'de',
 'minha',
 'relatoria,',
 'Segunda',
 'Turma,',
 'julgado',
 'em',
 '23.9.2014.',
 'Preliminar',
 'rejeitada.',
 '5.',
 'Nulidade',
 'das',
 'interceptações',
 'telefô

In [277]:
len(palavras)

523

Primeira limpeza - excluir palavras com tamanho menor ou igual a 2

In [278]:
lista_filtro1 = []
for p in palavras:
    if len(p) > 2 :
        lista_filtro1.append(p)

In [279]:
lista_filtro1

['\ufeffAção',
 'penal',
 'originária.',
 'Penal.',
 'Processo',
 'penal.',
 'Conexão.',
 'Julgamento',
 'conjunto',
 'das',
 'ações',
 'penais',
 '644',
 '958.',
 'Prescrição',
 'pretensão',
 'punitiva',
 'crime',
 'associação',
 'criminosa,',
 'art.',
 '288',
 'CP.',
 'Art.',
 '109,',
 'IV,',
 'CP.',
 'Decorreu',
 'prazo',
 'prescricional,',
 'sem',
 'interrupções',
 'suspensões.',
 'Pronunciada',
 'prescrição.',
 'Inépcia',
 'denúncia.',
 'remissão',
 'peças',
 'dos',
 'autos',
 'não',
 'causa',
 'inépcia',
 'denúncia.',
 'jurisprudência',
 'admite',
 'utilização',
 'fundamentação',
 'per',
 'relationem',
 'inicial',
 'acusatória',
 'Inq',
 '3202,',
 'minha',
 'relatoria,',
 'Segunda',
 'Turma,',
 'julgado',
 '23.9.2014.',
 'Preliminar',
 'rejeitada.',
 'Nulidade',
 'das',
 'interceptações',
 'telefônicas.',
 'Transcrição',
 'das',
 'gravações',
 'compartilhada',
 'outra',
 'investigação.',
 'gravações',
 'não',
 'foram',
 'trazidas',
 'estes',
 'autos,',
 'mesmo',
 'após',
 'intima

Segunda limpeza - excluir símbolos especiais e de pontuação

In [280]:
lista_filtro2 = []
carac_especiais = "'!@#$%¨&*()_-+={[}]?/:;>.<,ªº"
for p in lista_filtro1:
    ult = p[len(p) - 1]
    if ult in carac_especiais:
        lista_filtro2.append(p[:len(p)-1])
    else:
        lista_filtro2.append(p)
    

In [281]:
lista_filtro2

['\ufeffAção',
 'penal',
 'originária',
 'Penal',
 'Processo',
 'penal',
 'Conexão',
 'Julgamento',
 'conjunto',
 'das',
 'ações',
 'penais',
 '644',
 '958',
 'Prescrição',
 'pretensão',
 'punitiva',
 'crime',
 'associação',
 'criminosa',
 'art',
 '288',
 'CP',
 'Art',
 '109',
 'IV',
 'CP',
 'Decorreu',
 'prazo',
 'prescricional',
 'sem',
 'interrupções',
 'suspensões',
 'Pronunciada',
 'prescrição',
 'Inépcia',
 'denúncia',
 'remissão',
 'peças',
 'dos',
 'autos',
 'não',
 'causa',
 'inépcia',
 'denúncia',
 'jurisprudência',
 'admite',
 'utilização',
 'fundamentação',
 'per',
 'relationem',
 'inicial',
 'acusatória',
 'Inq',
 '3202',
 'minha',
 'relatoria',
 'Segunda',
 'Turma',
 'julgado',
 '23.9.2014',
 'Preliminar',
 'rejeitada',
 'Nulidade',
 'das',
 'interceptações',
 'telefônicas',
 'Transcrição',
 'das',
 'gravações',
 'compartilhada',
 'outra',
 'investigação',
 'gravações',
 'não',
 'foram',
 'trazidas',
 'estes',
 'autos',
 'mesmo',
 'após',
 'intimação',
 'acusação',
 'defe

Terceira limpeza - repete a exclusão de palavras com tamanho menor que 3, após a exclusão dos caracteres especiais.

In [282]:
lista_filtro3 = []
for p in lista_filtro2:
    if len(p) > 2 :
        lista_filtro3.append(p)

In [283]:
lista_filtro3

['\ufeffAção',
 'penal',
 'originária',
 'Penal',
 'Processo',
 'penal',
 'Conexão',
 'Julgamento',
 'conjunto',
 'das',
 'ações',
 'penais',
 '644',
 '958',
 'Prescrição',
 'pretensão',
 'punitiva',
 'crime',
 'associação',
 'criminosa',
 'art',
 '288',
 'Art',
 '109',
 'Decorreu',
 'prazo',
 'prescricional',
 'sem',
 'interrupções',
 'suspensões',
 'Pronunciada',
 'prescrição',
 'Inépcia',
 'denúncia',
 'remissão',
 'peças',
 'dos',
 'autos',
 'não',
 'causa',
 'inépcia',
 'denúncia',
 'jurisprudência',
 'admite',
 'utilização',
 'fundamentação',
 'per',
 'relationem',
 'inicial',
 'acusatória',
 'Inq',
 '3202',
 'minha',
 'relatoria',
 'Segunda',
 'Turma',
 'julgado',
 '23.9.2014',
 'Preliminar',
 'rejeitada',
 'Nulidade',
 'das',
 'interceptações',
 'telefônicas',
 'Transcrição',
 'das',
 'gravações',
 'compartilhada',
 'outra',
 'investigação',
 'gravações',
 'não',
 'foram',
 'trazidas',
 'estes',
 'autos',
 'mesmo',
 'após',
 'intimação',
 'acusação',
 'defesa',
 'tem',
 'prerro

Quarta limpeza: excluir palavras que são números (datas por enquanto deixa passar, não vamos perder muito tempo aqui).

In [284]:
lista_filtro4 = []
for p in lista_filtro3:
    if not p.isnumeric():
        lista_filtro4.append(p)
    
    
    
    

In [285]:
lista_filtro4

['\ufeffAção',
 'penal',
 'originária',
 'Penal',
 'Processo',
 'penal',
 'Conexão',
 'Julgamento',
 'conjunto',
 'das',
 'ações',
 'penais',
 'Prescrição',
 'pretensão',
 'punitiva',
 'crime',
 'associação',
 'criminosa',
 'art',
 'Art',
 'Decorreu',
 'prazo',
 'prescricional',
 'sem',
 'interrupções',
 'suspensões',
 'Pronunciada',
 'prescrição',
 'Inépcia',
 'denúncia',
 'remissão',
 'peças',
 'dos',
 'autos',
 'não',
 'causa',
 'inépcia',
 'denúncia',
 'jurisprudência',
 'admite',
 'utilização',
 'fundamentação',
 'per',
 'relationem',
 'inicial',
 'acusatória',
 'Inq',
 'minha',
 'relatoria',
 'Segunda',
 'Turma',
 'julgado',
 '23.9.2014',
 'Preliminar',
 'rejeitada',
 'Nulidade',
 'das',
 'interceptações',
 'telefônicas',
 'Transcrição',
 'das',
 'gravações',
 'compartilhada',
 'outra',
 'investigação',
 'gravações',
 'não',
 'foram',
 'trazidas',
 'estes',
 'autos',
 'mesmo',
 'após',
 'intimação',
 'acusação',
 'defesa',
 'tem',
 'prerrogativa',
 'solicitar',
 'acesso',
 'integ

Aqui, a leitura do arquivo de stop words definidas para a lingua portuguesa, extraídas de : https://virtuati.com.br/cliente/knowledgebase/25/Lista-de-StopWords.html

In [286]:
stopwords = open("stopwords.txt", 'r',encoding="utf8")

In [287]:
stopwords

<_io.TextIOWrapper name='stopwords.txt' mode='r' encoding='utf8'>

In [288]:
lista_stop_words = stopwords.read().strip()

In [289]:
lista_stop_words

'\ufeffa, agora, ainda, alguém, algum, alguma, algumas, alguns, ampla, amplas, amplo, amplos, ante, antes, ao, aos, após, aquela, aquelas, aquele, aqueles, aquilo, as, até, através, cada, coisa, coisas, com, como, contra, contudo, da, daquele, daqueles, das, de, dela, delas, dele, deles, depois, dessa, dessas, desse, desses, desta, destas, deste, deste, destes, deve, devem, devendo, dever, deverá, deverão, deveria, deveriam, devia, deviam, disse, disso, disto, dito, diz, dizem, do, dos, e, é, ela, elas, ele, eles, em, enquanto, entre, era, essa, essas, esse, esses, esta, está, estamos, estão, estas, estava, estavam, estávamos, este, estes, estou, eu, fazendo, fazer, feita, feitas, feito, feitos, foi, for, foram, fosse, fossem, grande, grandes, há, isso, isto, já, la, lá, lhe, lhes, lo, mas, me, mesma, mesmas, mesmo, mesmos, meu, meus, minha, minhas, muita, muitas, muito, muitos, na, não, nas, nem, nenhum, nessa, nessas, nesta, nestas, ninguém, no, nos, nós, nossa, nossas, nosso, nossos

In [290]:
stop = lista_stop_words.split(', ')

In [291]:
for p in stop:
    p = p.strip()
    

In [292]:
stop

['\ufeffa',
 'agora',
 'ainda',
 'alguém',
 'algum',
 'alguma',
 'algumas',
 'alguns',
 'ampla',
 'amplas',
 'amplo',
 'amplos',
 'ante',
 'antes',
 'ao',
 'aos',
 'após',
 'aquela',
 'aquelas',
 'aquele',
 'aqueles',
 'aquilo',
 'as',
 'até',
 'através',
 'cada',
 'coisa',
 'coisas',
 'com',
 'como',
 'contra',
 'contudo',
 'da',
 'daquele',
 'daqueles',
 'das',
 'de',
 'dela',
 'delas',
 'dele',
 'deles',
 'depois',
 'dessa',
 'dessas',
 'desse',
 'desses',
 'desta',
 'destas',
 'deste',
 'deste',
 'destes',
 'deve',
 'devem',
 'devendo',
 'dever',
 'deverá',
 'deverão',
 'deveria',
 'deveriam',
 'devia',
 'deviam',
 'disse',
 'disso',
 'disto',
 'dito',
 'diz',
 'dizem',
 'do',
 'dos',
 'e',
 'é',
 'ela',
 'elas',
 'ele',
 'eles',
 'em',
 'enquanto',
 'entre',
 'era',
 'essa',
 'essas',
 'esse',
 'esses',
 'esta',
 'está',
 'estamos',
 'estão',
 'estas',
 'estava',
 'estavam',
 'estávamos',
 'este',
 'estes',
 'estou',
 'eu',
 'fazendo',
 'fazer',
 'feita',
 'feitas',
 'feito',
 'fe

Finalmente, monta a lista de palavras original excluindo as que são stop words

In [293]:
lista_filtro5 = []
for p in lista_filtro4:
    if p not in stop:
        lista_filtro5.append(p)

In [294]:
lista_filtro5

['\ufeffAção',
 'penal',
 'originária',
 'Penal',
 'Processo',
 'penal',
 'Conexão',
 'Julgamento',
 'conjunto',
 'ações',
 'penais',
 'Prescrição',
 'pretensão',
 'punitiva',
 'crime',
 'associação',
 'criminosa',
 'art',
 'Art',
 'Decorreu',
 'prazo',
 'prescricional',
 'interrupções',
 'suspensões',
 'Pronunciada',
 'prescrição',
 'Inépcia',
 'denúncia',
 'remissão',
 'peças',
 'autos',
 'causa',
 'inépcia',
 'denúncia',
 'jurisprudência',
 'admite',
 'utilização',
 'fundamentação',
 'relationem',
 'inicial',
 'acusatória',
 'Inq',
 'relatoria',
 'Segunda',
 'Turma',
 'julgado',
 '23.9.2014',
 'Preliminar',
 'rejeitada',
 'Nulidade',
 'interceptações',
 'telefônicas',
 'Transcrição',
 'gravações',
 'compartilhada',
 'investigação',
 'gravações',
 'trazidas',
 'autos',
 'intimação',
 'acusação',
 'defesa',
 'prerrogativa',
 'solicitar',
 'acesso',
 'integralidade',
 'gravações',
 'Inq',
 'relatoria',
 'Segunda',
 'Turma',
 'julgado',
 '2.6.2015',
 'caso',
 'gravações',
 'trazidas',
 

In [295]:
len(palavras)

523

In [296]:
len(lista_filtro5)

290

excluindo \n

In [297]:
lista_filtro6 = []
for p in lista_filtro5:
    if '\n' in p:
        sublista = p.split('\n')
        for q in sublista:
            lista_filtro6.append(q)
    else:
        lista_filtro6.append(p)

        

In [298]:
lista_filtro6

['\ufeffAção',
 'penal',
 'originária',
 'Penal',
 'Processo',
 'penal',
 'Conexão',
 'Julgamento',
 'conjunto',
 'ações',
 'penais',
 'Prescrição',
 'pretensão',
 'punitiva',
 'crime',
 'associação',
 'criminosa',
 'art',
 'Art',
 'Decorreu',
 'prazo',
 'prescricional',
 'interrupções',
 'suspensões',
 'Pronunciada',
 'prescrição',
 'Inépcia',
 'denúncia',
 'remissão',
 'peças',
 'autos',
 'causa',
 'inépcia',
 'denúncia',
 'jurisprudência',
 'admite',
 'utilização',
 'fundamentação',
 'relationem',
 'inicial',
 'acusatória',
 'Inq',
 'relatoria',
 'Segunda',
 'Turma',
 'julgado',
 '23.9.2014',
 'Preliminar',
 'rejeitada',
 'Nulidade',
 'interceptações',
 'telefônicas',
 'Transcrição',
 'gravações',
 'compartilhada',
 'investigação',
 'gravações',
 'trazidas',
 'autos',
 'intimação',
 'acusação',
 'defesa',
 'prerrogativa',
 'solicitar',
 'acesso',
 'integralidade',
 'gravações',
 'Inq',
 'relatoria',
 'Segunda',
 'Turma',
 'julgado',
 '2.6.2015',
 'caso',
 'gravações',
 'trazidas',
 

In [299]:
lista_filtro7 = []
for p in lista_filtro6:
    if len(p) > 2 :
        lista_filtro7.append(p)

repete a limpeza de pontuação e strings de tamanho menor que 3

In [300]:
lista_filtro8 = []
carac_especiais = "'!@#$%¨&*()_-+={[}]?/:;>.<,ªº"
for p in lista_filtro7:
    ult = p[len(p) - 1]
    if ult in carac_especiais:
        lista_filtro8.append(p[:len(p)-1])
    else:
        lista_filtro8.append(p)

In [301]:
lista_filtro8

['\ufeffAção',
 'penal',
 'originária',
 'Penal',
 'Processo',
 'penal',
 'Conexão',
 'Julgamento',
 'conjunto',
 'ações',
 'penais',
 'Prescrição',
 'pretensão',
 'punitiva',
 'crime',
 'associação',
 'criminosa',
 'art',
 'Art',
 'Decorreu',
 'prazo',
 'prescricional',
 'interrupções',
 'suspensões',
 'Pronunciada',
 'prescrição',
 'Inépcia',
 'denúncia',
 'remissão',
 'peças',
 'autos',
 'causa',
 'inépcia',
 'denúncia',
 'jurisprudência',
 'admite',
 'utilização',
 'fundamentação',
 'relationem',
 'inicial',
 'acusatória',
 'Inq',
 'relatoria',
 'Segunda',
 'Turma',
 'julgado',
 '23.9.2014',
 'Preliminar',
 'rejeitada',
 'Nulidade',
 'interceptações',
 'telefônicas',
 'Transcrição',
 'gravações',
 'compartilhada',
 'investigação',
 'gravações',
 'trazidas',
 'autos',
 'intimação',
 'acusação',
 'defesa',
 'prerrogativa',
 'solicitar',
 'acesso',
 'integralidade',
 'gravações',
 'Inq',
 'relatoria',
 'Segunda',
 'Turma',
 'julgado',
 '2.6.2015',
 'caso',
 'gravações',
 'trazidas',
 

In [302]:
len(lista_filtro8)

291

# APLICANDO UM MODELO DE WORD2VEC JÁ PRONTO

Aqui cheguei num beco sem saída. Tenho o vetor de palavras, mas como poderei calcular os embeddings?
Vamos fazer alguns testes com este exemplo obtido no github em : https://gist.github.com/jamesthomson/169bcd8e521c8b786458f4f421d95908

O texto de entrada é aquele utilizado como teste desde o início deste notebook. 

Vou reconstituir o texto com o vetor de palavras montado acima

In [309]:
lista_filtro9 = []
for p in lista_filtro8:
    lista_filtro9.append(p.lower())

lista_filtro10 = set(lista_filtro9) 

In [310]:
len(lista_filtro10)

219

In [311]:
lista_filtro10

{'(ap',
 '(ii',
 '15-03-2018',
 '16-03-2018',
 '2.6.2015',
 '21.8.2014',
 '23.9.2014',
 '27/02/2018',
 '9.613/98',
 '9613/98',
 'absolver',
 'absolvição',
 'acesso',
 'acordo',
 'acusado',
 'acusatória',
 'acusação',
 'acórdão',
 'admite',
 'ambulâncias',
 'anos',
 'aplicação',
 'apresentar',
 'art',
 'assessores',
 'associação',
 'ato',
 'atos',
 'aumento',
 'autos',
 'ação',
 'ações',
 'barroso',
 'cada',
 'caso',
 'causa',
 'circunstâncias',
 'compartilhada',
 'completamente',
 'comunidade',
 'concurso',
 'condenado',
 'condenar',
 'condenação',
 'condições',
 'conexão',
 'confiança',
 'configura',
 'conjunto',
 'consequências',
 'contas',
 'continuidade',
 'contratação',
 'correspondentes',
 'corrupção',
 'cpp',
 'crime',
 'crimes',
 'criminosa',
 'culpabilidade',
 'cumprida',
 'declarada',
 'decorreu',
 'defesa',
 'delitiva',
 'denúncia',
 'deposita',
 'deputado',
 'depósito',
 'depósitos',
 'desfavoráveis',
 'destaque',
 'destinado',
 'dez',
 'dias',
 'dias-multa',
 'dinheiro',
 

Neste ponto, lista_filtro10 contém a lista de palavras do texto, em minúsculas, sem repetição, com tamanho maior que 2 e sem ser terminadas em pontuação ou caractere especial.

In [320]:
texto_completo = ""
for p in lista_filtro10:
    texto_completo += p + " "

In [321]:
texto_completo

'circunstâncias acesso julgada prescrição elevada forma sociedade julgamento semiaberto relationem fornecer corrupção mandato transcrição originária interceptações consequências pretensão prescricional nacional trazidas assessores defesa intimações fundamentação public ocultação anos depósito previsto crime dissimulada subsequente gravações recebida suspensões extinta peças indevida rejeitada concurso luiz acordo dje mediante necessário inq exercício parte comunidade recebimento projeção 2.6.2015 redator culpabilidade questão penais aumento delitiva contratação dissimulação ofício quadrilha acusação ser nulidade punibilidade pronunciada prova vantagem recursos penas penal seis localização 23.9.2014 vários lei pleno relatoria 21.8.2014 federal decorreu cumprida parlamentares associação 9613/98 meses espera acórdão completamente eletrônico salário condenado pessoa empresas processo relator(a época confiança 27/02/2018 reiteradas deputado divulg (ap financiaram passiva denúncia inicial re

In [322]:
import nltk 
import gensim

In [323]:
sentences = nltk.sent_tokenize(texto_completo)
tokenized_sentences = [nltk.word_tokenize(sentence) for sentence in sentences]
model = gensim.models.Word2Vec(tokenized_sentences, min_count=1)

As linhas abaixo estão no código original. Vou tentar adapta-las.

In [326]:


model.most_similar(positive=['penal'], topn=5)
model.most_similar(positive=['penal'], negative=['tribunal'], topn=5)
#model.most_similar(positive=['Sudan', 'UN'], topn=5)

#model.similarity('South', 'Sudan')
#model.similarity('peace', 'Sudan')

  This is separate from the ipykernel package so we can avoid doing imports until
  after removing the cwd from sys.path.


[('processo', 0.25088196992874146),
 ('depósitos', 0.2161811739206314),
 ('necessário', 0.21146006882190704),
 ('2.6.2015', 0.20799408853054047),
 ('fux', 0.1917738914489746)]

Partindo da lista final de palavras (já aplicados todos os filtros), obtem para cada uma a distância da palavra mais similar. Isso vai resultar num vetor de números, que será a métrica do 

In [349]:
metricas = []
for p in lista_filtro10:
    try:
        model_p = model.most_similar(positive=[p], topn=1)
        metricas.append(model_p[0][1])
        continue
    except:
        continue

        
        

  after removing the cwd from sys.path.


In [350]:
metricas

[0.24247309565544128,
 0.32390710711479187,
 0.317653089761734,
 0.24376916885375977,
 0.28932473063468933,
 0.3548120856285095,
 0.2810100317001343,
 0.32774314284324646,
 0.3192903995513916,
 0.27028027176856995,
 0.2419022023677826,
 0.28932473063468933,
 0.2496054470539093,
 0.29640454053878784,
 0.2222745269536972,
 0.29053744673728943,
 0.2735804617404938,
 0.2912462055683136,
 0.22624991834163666,
 0.3493660092353821,
 0.22372759878635406,
 0.23685067892074585,
 0.251188188791275,
 0.22063350677490234,
 0.29592666029930115,
 0.2511323094367981,
 0.2630086839199066,
 0.30413156747817993,
 0.27620750665664673,
 0.28553253412246704,
 0.24542361497879028,
 0.3348316550254822,
 0.263088196516037,
 0.27401942014694214,
 0.3098931312561035,
 0.32774314284324646,
 0.2919955551624298,
 0.2815329134464264,
 0.294536292552948,
 0.27401942014694214,
 0.3496723771095276,
 0.22147804498672485,
 0.25786638259887695,
 0.3854617476463318,
 0.28605392575263977,
 0.3319928050041199,
 0.26180419325

In [351]:
 len(metricas)

216

O que conseguimos até aqui : montar, para um dado texto, um vetor de atributos, contendo, para cada palavra, a distância da palavra mais próxima. Esses atributos, junto com o label, vão entrar no modelo de machine learning para a fase de treinamento.