# TESTES SOBRE PALAVRAS EM PYTHON

Este notebook destina-se a testar os conceitos apresentados no curso SEQUENCE MODELS do Andrew Ng (Coursera) para construir um tratamento de textos, visando obter métricas a partir de word embeddings.

A primeira etapa destina-se a construir um gerador de embeddings para todas as palavras do vocabulário em português.

Autor: Reinaldo Lepsch Neto

Importação de pacotes básicos

In [121]:
import numpy as np
from w2v_utils import *

Abertura do arquivo teste e leitura. A codificação utf8 é obrigatória para ler os caracteres do português

In [122]:
documento = open("teste.txt", 'r',encoding="utf8")

In [123]:
texto = documento.read()

In [124]:
texto

'\ufeffAção penal originária. Penal. Processo penal. 2. Conexão. Julgamento conjunto das ações penais AP 644 e AP 958. 3. Prescrição da pretensão punitiva – crime de associação criminosa, art. 288 do CP. Art. 109, IV, do CP. Decorreu o prazo prescricional, sem interrupções ou suspensões. Pronunciada a prescrição. 4. Inépcia da denúncia. A remissão a peças dos autos não é causa de inépcia da denúncia. A jurisprudência admite a utilização de fundamentação per relationem na inicial acusatória – Inq 3202, de minha relatoria, Segunda Turma, julgado em 23.9.2014. Preliminar rejeitada. 5. Nulidade das interceptações telefônicas. Transcrição das gravações compartilhada de outra investigação. As gravações não foram trazidas a estes autos, mesmo após intimação da acusação. A defesa tem a prerrogativa de solicitar o acesso à integralidade das gravações – Inq 3705, de minha relatoria, Segunda Turma, julgado em 2.6.2015. No caso, as gravações não foram trazidas aos autos, mesmo após reiteradas inti

In [125]:
len(texto)

3325

Quebra inicial do texto em palavras.

In [199]:
palavras = texto.split(' ')

In [200]:
palavras

['\ufeffAção',
 'penal',
 'originária.',
 'Penal.',
 'Processo',
 'penal.',
 '2.',
 'Conexão.',
 'Julgamento',
 'conjunto',
 'das',
 'ações',
 'penais',
 'AP',
 '644',
 'e',
 'AP',
 '958.',
 '3.',
 'Prescrição',
 'da',
 'pretensão',
 'punitiva',
 '–',
 'crime',
 'de',
 'associação',
 'criminosa,',
 'art.',
 '288',
 'do',
 'CP.',
 'Art.',
 '109,',
 'IV,',
 'do',
 'CP.',
 'Decorreu',
 'o',
 'prazo',
 'prescricional,',
 'sem',
 'interrupções',
 'ou',
 'suspensões.',
 'Pronunciada',
 'a',
 'prescrição.',
 '4.',
 'Inépcia',
 'da',
 'denúncia.',
 'A',
 'remissão',
 'a',
 'peças',
 'dos',
 'autos',
 'não',
 'é',
 'causa',
 'de',
 'inépcia',
 'da',
 'denúncia.',
 'A',
 'jurisprudência',
 'admite',
 'a',
 'utilização',
 'de',
 'fundamentação',
 'per',
 'relationem',
 'na',
 'inicial',
 'acusatória',
 '–',
 'Inq',
 '3202,',
 'de',
 'minha',
 'relatoria,',
 'Segunda',
 'Turma,',
 'julgado',
 'em',
 '23.9.2014.',
 'Preliminar',
 'rejeitada.',
 '5.',
 'Nulidade',
 'das',
 'interceptações',
 'telefô

In [201]:
len(palavras)

523

Primeira limpeza - excluir palavras com tamanho menor ou igual a 2

In [202]:
lista_filtro1 = []
for p in palavras:
    if len(p) > 2 :
        lista_filtro1.append(p)

In [203]:
lista_filtro1

['\ufeffAção',
 'penal',
 'originária.',
 'Penal.',
 'Processo',
 'penal.',
 'Conexão.',
 'Julgamento',
 'conjunto',
 'das',
 'ações',
 'penais',
 '644',
 '958.',
 'Prescrição',
 'pretensão',
 'punitiva',
 'crime',
 'associação',
 'criminosa,',
 'art.',
 '288',
 'CP.',
 'Art.',
 '109,',
 'IV,',
 'CP.',
 'Decorreu',
 'prazo',
 'prescricional,',
 'sem',
 'interrupções',
 'suspensões.',
 'Pronunciada',
 'prescrição.',
 'Inépcia',
 'denúncia.',
 'remissão',
 'peças',
 'dos',
 'autos',
 'não',
 'causa',
 'inépcia',
 'denúncia.',
 'jurisprudência',
 'admite',
 'utilização',
 'fundamentação',
 'per',
 'relationem',
 'inicial',
 'acusatória',
 'Inq',
 '3202,',
 'minha',
 'relatoria,',
 'Segunda',
 'Turma,',
 'julgado',
 '23.9.2014.',
 'Preliminar',
 'rejeitada.',
 'Nulidade',
 'das',
 'interceptações',
 'telefônicas.',
 'Transcrição',
 'das',
 'gravações',
 'compartilhada',
 'outra',
 'investigação.',
 'gravações',
 'não',
 'foram',
 'trazidas',
 'estes',
 'autos,',
 'mesmo',
 'após',
 'intima

Segunda limpeza - excluir símbolos especiais e de pontuação

In [204]:
lista_filtro2 = []
carac_especiais = "'!@#$%¨&*()_-+={[}]?/:;>.<,ªº"
for p in lista_filtro1:
    ult = p[len(p) - 1]
    if ult in carac_especiais:
        lista_filtro2.append(p[:len(p)-1])
    else:
        lista_filtro2.append(p)
    

In [205]:
lista_filtro2

['\ufeffAção',
 'penal',
 'originária',
 'Penal',
 'Processo',
 'penal',
 'Conexão',
 'Julgamento',
 'conjunto',
 'das',
 'ações',
 'penais',
 '644',
 '958',
 'Prescrição',
 'pretensão',
 'punitiva',
 'crime',
 'associação',
 'criminosa',
 'art',
 '288',
 'CP',
 'Art',
 '109',
 'IV',
 'CP',
 'Decorreu',
 'prazo',
 'prescricional',
 'sem',
 'interrupções',
 'suspensões',
 'Pronunciada',
 'prescrição',
 'Inépcia',
 'denúncia',
 'remissão',
 'peças',
 'dos',
 'autos',
 'não',
 'causa',
 'inépcia',
 'denúncia',
 'jurisprudência',
 'admite',
 'utilização',
 'fundamentação',
 'per',
 'relationem',
 'inicial',
 'acusatória',
 'Inq',
 '3202',
 'minha',
 'relatoria',
 'Segunda',
 'Turma',
 'julgado',
 '23.9.2014',
 'Preliminar',
 'rejeitada',
 'Nulidade',
 'das',
 'interceptações',
 'telefônicas',
 'Transcrição',
 'das',
 'gravações',
 'compartilhada',
 'outra',
 'investigação',
 'gravações',
 'não',
 'foram',
 'trazidas',
 'estes',
 'autos',
 'mesmo',
 'após',
 'intimação',
 'acusação',
 'defe

Terceira limpeza - repete a exclusão de palavras com tamanho menor que 3, após a exclusão dos caracteres especiais.

In [206]:
lista_filtro3 = []
for p in lista_filtro2:
    if len(p) > 2 :
        lista_filtro3.append(p)

In [207]:
lista_filtro3

['\ufeffAção',
 'penal',
 'originária',
 'Penal',
 'Processo',
 'penal',
 'Conexão',
 'Julgamento',
 'conjunto',
 'das',
 'ações',
 'penais',
 '644',
 '958',
 'Prescrição',
 'pretensão',
 'punitiva',
 'crime',
 'associação',
 'criminosa',
 'art',
 '288',
 'Art',
 '109',
 'Decorreu',
 'prazo',
 'prescricional',
 'sem',
 'interrupções',
 'suspensões',
 'Pronunciada',
 'prescrição',
 'Inépcia',
 'denúncia',
 'remissão',
 'peças',
 'dos',
 'autos',
 'não',
 'causa',
 'inépcia',
 'denúncia',
 'jurisprudência',
 'admite',
 'utilização',
 'fundamentação',
 'per',
 'relationem',
 'inicial',
 'acusatória',
 'Inq',
 '3202',
 'minha',
 'relatoria',
 'Segunda',
 'Turma',
 'julgado',
 '23.9.2014',
 'Preliminar',
 'rejeitada',
 'Nulidade',
 'das',
 'interceptações',
 'telefônicas',
 'Transcrição',
 'das',
 'gravações',
 'compartilhada',
 'outra',
 'investigação',
 'gravações',
 'não',
 'foram',
 'trazidas',
 'estes',
 'autos',
 'mesmo',
 'após',
 'intimação',
 'acusação',
 'defesa',
 'tem',
 'prerro

Quarta limpeza: excluir palavras que são números (datas por enquanto deixa passar, não vamos perder muito tempo aqui).

In [208]:
lista_filtro4 = []
for p in lista_filtro3:
    if not p.isnumeric():
        lista_filtro4.append(p)
    
    
    
    

In [209]:
lista_filtro4

['\ufeffAção',
 'penal',
 'originária',
 'Penal',
 'Processo',
 'penal',
 'Conexão',
 'Julgamento',
 'conjunto',
 'das',
 'ações',
 'penais',
 'Prescrição',
 'pretensão',
 'punitiva',
 'crime',
 'associação',
 'criminosa',
 'art',
 'Art',
 'Decorreu',
 'prazo',
 'prescricional',
 'sem',
 'interrupções',
 'suspensões',
 'Pronunciada',
 'prescrição',
 'Inépcia',
 'denúncia',
 'remissão',
 'peças',
 'dos',
 'autos',
 'não',
 'causa',
 'inépcia',
 'denúncia',
 'jurisprudência',
 'admite',
 'utilização',
 'fundamentação',
 'per',
 'relationem',
 'inicial',
 'acusatória',
 'Inq',
 'minha',
 'relatoria',
 'Segunda',
 'Turma',
 'julgado',
 '23.9.2014',
 'Preliminar',
 'rejeitada',
 'Nulidade',
 'das',
 'interceptações',
 'telefônicas',
 'Transcrição',
 'das',
 'gravações',
 'compartilhada',
 'outra',
 'investigação',
 'gravações',
 'não',
 'foram',
 'trazidas',
 'estes',
 'autos',
 'mesmo',
 'após',
 'intimação',
 'acusação',
 'defesa',
 'tem',
 'prerrogativa',
 'solicitar',
 'acesso',
 'integ

Aqui, a leitura do arquivo de stop words definidas para a lingua portuguesa, extraídas de : https://virtuati.com.br/cliente/knowledgebase/25/Lista-de-StopWords.html

In [210]:
stopwords = open("stopwords.txt", 'r',encoding="utf8")

In [211]:
stopwords

<_io.TextIOWrapper name='stopwords.txt' mode='r' encoding='utf8'>

In [212]:
lista_stop_words = stopwords.read().strip()

In [213]:
lista_stop_words

'\ufeffa, agora, ainda, alguém, algum, alguma, algumas, alguns, ampla, amplas, amplo, amplos, ante, antes, ao, aos, após, aquela, aquelas, aquele, aqueles, aquilo, as, até, através, cada, coisa, coisas, com, como, contra, contudo, da, daquele, daqueles, das, de, dela, delas, dele, deles, depois, dessa, dessas, desse, desses, desta, destas, deste, deste, destes, deve, devem, devendo, dever, deverá, deverão, deveria, deveriam, devia, deviam, disse, disso, disto, dito, diz, dizem, do, dos, e, é, ela, elas, ele, eles, em, enquanto, entre, era, essa, essas, esse, esses, esta, está, estamos, estão, estas, estava, estavam, estávamos, este, estes, estou, eu, fazendo, fazer, feita, feitas, feito, feitos, foi, for, foram, fosse, fossem, grande, grandes, há, isso, isto, já, la, lá, lhe, lhes, lo, mas, me, mesma, mesmas, mesmo, mesmos, meu, meus, minha, minhas, muita, muitas, muito, muitos, na, não, nas, nem, nenhum, nessa, nessas, nesta, nestas, ninguém, no, nos, nós, nossa, nossas, nosso, nossos

In [214]:
stop = lista_stop_words.split(', ')

In [215]:
for p in stop:
    p = p.strip()
    

In [216]:
stop

['\ufeffa',
 'agora',
 'ainda',
 'alguém',
 'algum',
 'alguma',
 'algumas',
 'alguns',
 'ampla',
 'amplas',
 'amplo',
 'amplos',
 'ante',
 'antes',
 'ao',
 'aos',
 'após',
 'aquela',
 'aquelas',
 'aquele',
 'aqueles',
 'aquilo',
 'as',
 'até',
 'através',
 'cada',
 'coisa',
 'coisas',
 'com',
 'como',
 'contra',
 'contudo',
 'da',
 'daquele',
 'daqueles',
 'das',
 'de',
 'dela',
 'delas',
 'dele',
 'deles',
 'depois',
 'dessa',
 'dessas',
 'desse',
 'desses',
 'desta',
 'destas',
 'deste',
 'deste',
 'destes',
 'deve',
 'devem',
 'devendo',
 'dever',
 'deverá',
 'deverão',
 'deveria',
 'deveriam',
 'devia',
 'deviam',
 'disse',
 'disso',
 'disto',
 'dito',
 'diz',
 'dizem',
 'do',
 'dos',
 'e',
 'é',
 'ela',
 'elas',
 'ele',
 'eles',
 'em',
 'enquanto',
 'entre',
 'era',
 'essa',
 'essas',
 'esse',
 'esses',
 'esta',
 'está',
 'estamos',
 'estão',
 'estas',
 'estava',
 'estavam',
 'estávamos',
 'este',
 'estes',
 'estou',
 'eu',
 'fazendo',
 'fazer',
 'feita',
 'feitas',
 'feito',
 'fe

Finalmente, monta a lista de palavras original excluindo as que são stop words

In [217]:
lista_filtro5 = []
for p in lista_filtro4:
    if p not in stop:
        lista_filtro5.append(p)

In [218]:
lista_filtro5

['\ufeffAção',
 'penal',
 'originária',
 'Penal',
 'Processo',
 'penal',
 'Conexão',
 'Julgamento',
 'conjunto',
 'ações',
 'penais',
 'Prescrição',
 'pretensão',
 'punitiva',
 'crime',
 'associação',
 'criminosa',
 'art',
 'Art',
 'Decorreu',
 'prazo',
 'prescricional',
 'interrupções',
 'suspensões',
 'Pronunciada',
 'prescrição',
 'Inépcia',
 'denúncia',
 'remissão',
 'peças',
 'autos',
 'causa',
 'inépcia',
 'denúncia',
 'jurisprudência',
 'admite',
 'utilização',
 'fundamentação',
 'relationem',
 'inicial',
 'acusatória',
 'Inq',
 'relatoria',
 'Segunda',
 'Turma',
 'julgado',
 '23.9.2014',
 'Preliminar',
 'rejeitada',
 'Nulidade',
 'interceptações',
 'telefônicas',
 'Transcrição',
 'gravações',
 'compartilhada',
 'investigação',
 'gravações',
 'trazidas',
 'autos',
 'intimação',
 'acusação',
 'defesa',
 'prerrogativa',
 'solicitar',
 'acesso',
 'integralidade',
 'gravações',
 'Inq',
 'relatoria',
 'Segunda',
 'Turma',
 'julgado',
 '2.6.2015',
 'caso',
 'gravações',
 'trazidas',
 

In [219]:
len(palavras)

523

In [220]:
len(lista_filtro5)

290

excluindo \n

In [231]:
lista_filtro6 = []
for p in lista_filtro5:
    if '\n' in p:
        sublista = p.split('\n')
        for q in sublista:
            lista_filtro6.append(q)
    else:
        lista_filtro6.append(p)

        

In [232]:
lista_filtro6

['\ufeffAção',
 'penal',
 'originária',
 'Penal',
 'Processo',
 'penal',
 'Conexão',
 'Julgamento',
 'conjunto',
 'ações',
 'penais',
 'Prescrição',
 'pretensão',
 'punitiva',
 'crime',
 'associação',
 'criminosa',
 'art',
 'Art',
 'Decorreu',
 'prazo',
 'prescricional',
 'interrupções',
 'suspensões',
 'Pronunciada',
 'prescrição',
 'Inépcia',
 'denúncia',
 'remissão',
 'peças',
 'autos',
 'causa',
 'inépcia',
 'denúncia',
 'jurisprudência',
 'admite',
 'utilização',
 'fundamentação',
 'relationem',
 'inicial',
 'acusatória',
 'Inq',
 'relatoria',
 'Segunda',
 'Turma',
 'julgado',
 '23.9.2014',
 'Preliminar',
 'rejeitada',
 'Nulidade',
 'interceptações',
 'telefônicas',
 'Transcrição',
 'gravações',
 'compartilhada',
 'investigação',
 'gravações',
 'trazidas',
 'autos',
 'intimação',
 'acusação',
 'defesa',
 'prerrogativa',
 'solicitar',
 'acesso',
 'integralidade',
 'gravações',
 'Inq',
 'relatoria',
 'Segunda',
 'Turma',
 'julgado',
 '2.6.2015',
 'caso',
 'gravações',
 'trazidas',
 

In [234]:
lista_filtro7 = []
for p in lista_filtro6:
    if len(p) > 2 :
        lista_filtro7.append(p)

repete a limpeza de pontuação e strings de tamanho menor que 3

In [235]:
lista_filtro8 = []
carac_especiais = "'!@#$%¨&*()_-+={[}]?/:;>.<,ªº"
for p in lista_filtro7:
    ult = p[len(p) - 1]
    if ult in carac_especiais:
        lista_filtro8.append(p[:len(p)-1])
    else:
        lista_filtro8.append(p)

In [236]:
lista_filtro8

['\ufeffAção',
 'penal',
 'originária',
 'Penal',
 'Processo',
 'penal',
 'Conexão',
 'Julgamento',
 'conjunto',
 'ações',
 'penais',
 'Prescrição',
 'pretensão',
 'punitiva',
 'crime',
 'associação',
 'criminosa',
 'art',
 'Art',
 'Decorreu',
 'prazo',
 'prescricional',
 'interrupções',
 'suspensões',
 'Pronunciada',
 'prescrição',
 'Inépcia',
 'denúncia',
 'remissão',
 'peças',
 'autos',
 'causa',
 'inépcia',
 'denúncia',
 'jurisprudência',
 'admite',
 'utilização',
 'fundamentação',
 'relationem',
 'inicial',
 'acusatória',
 'Inq',
 'relatoria',
 'Segunda',
 'Turma',
 'julgado',
 '23.9.2014',
 'Preliminar',
 'rejeitada',
 'Nulidade',
 'interceptações',
 'telefônicas',
 'Transcrição',
 'gravações',
 'compartilhada',
 'investigação',
 'gravações',
 'trazidas',
 'autos',
 'intimação',
 'acusação',
 'defesa',
 'prerrogativa',
 'solicitar',
 'acesso',
 'integralidade',
 'gravações',
 'Inq',
 'relatoria',
 'Segunda',
 'Turma',
 'julgado',
 '2.6.2015',
 'caso',
 'gravações',
 'trazidas',
 