In [13]:
# Bibliotecas
import pandas as pd
import spacy

# Tokenização

In [25]:
# Modelo de linguagem Português
nlp = spacy.load('pt_core_news_sm')

In [26]:
# Textos de entrada
proposicoes = pd.read_csv("../dados/proposicoes.csv")
proposicoes = list(proposicoes['texto'])

In [27]:
# Tokenização dos textos
textos_tokenizados = []
for texto in proposicoes:
    texto_tokenizado = nlp(texto)
    textos_tokenizados.append(texto_tokenizado)

# Rotulação de partes da fala

In [45]:
# Exemplo
texto_exemplo = "Você fez o trabalho que eu pedi, João?"
doc = nlp(texto_exemplo)
[(token.text, token.pos_) for token in doc]

[('Você', 'PRON'),
 ('fez', 'VERB'),
 ('o', 'DET'),
 ('trabalho', 'NOUN'),
 ('que', 'PRON'),
 ('eu', 'PRON'),
 ('pedi', 'VERB'),
 (',', 'PUNCT'),
 ('João', 'PROPN'),
 ('?', 'PUNCT')]

In [28]:
# Identificação de partes da fala
textos_partes_fala = []
for tt in textos_tokenizados:
    textos_partes_fala.append([(p.text, p.pos_) for p in tt])

In [38]:
textos_partes_fala[0]

[('Altera', 'VERB'),
 ('a', 'DET'),
 ('Lei', 'PROPN'),
 ('nº', 'NOUN'),
 ('12.715', 'NUM'),
 (',', 'PUNCT'),
 ('de', 'ADP'),
 ('17', 'NUM'),
 ('de', 'ADP'),
 ('setembro', 'NOUN'),
 ('de', 'ADP'),
 ('2012', 'NUM'),
 (',', 'PUNCT'),
 ('que', 'PRON'),
 ('institui', 'VERB'),
 ('o', 'DET'),
 ('Programa', 'PROPN'),
 ('de', 'ADP'),
 ('Incentivo', 'PROPN'),
 ('à', 'PROPN'),
 ('Inovação', 'PROPN'),
 ('Tecnológica', 'PROPN'),
 ('e', 'X'),
 ('Adensamento', 'PROPN'),
 ('da', 'ADP'),
 ('Cadeia', 'PROPN'),
 ('Produtiva', 'PROPN'),
 ('de', 'ADP'),
 ('Veículos', 'PROPN'),
 ('Automotores', 'PROPN'),
 ('-', 'PUNCT'),
 ('Inovar-Auto', 'PROPN'),
 ('.', 'PUNCT')]

In [35]:
# Filtragem de partes da fala de interesse: NOUN, PROPN, ADJ, VERB
proposicoes_filtradas = []
for t in textos_partes_fala:
    texto_filtrado = []
    for palavra, parte_fala in t:
        if parte_fala in ['NOUN', 'PROPN', 'ADJ', 'VERB']:
            texto_filtrado.append(palavra)
    proposicoes_filtradas.append(" ".join(texto_filtrado))

In [43]:
proposicoes_filtradas[2001]

'Altera Lei Complementar nº maio estabelece normas finanças públicas voltadas responsabilidade gestão fiscal dá providências regulamentar transição administrativa dos Poderes Executivos'

# Reconhecimento de entidades nomeadas

In [55]:
# Exemplo
texto_exemplo = "Diario de Pernambuco é um jornal publicado na cidade do Recife, no estado de Pernambuco, Brasil. É o mais antigo periódico em circulação da América Latina, fundado em 7 de novembro de 1825 pelo tipógrafo Antonino José de Miranda Falcão. Quando o Diario de Pernambuco foi fundado, o Recife ainda não era a capital do estado, fato que só ocorreu um ano e três meses depois."
doc = nlp(texto_exemplo)
[(entity, entity.label_) for entity in doc.ents]

[(Diario de Pernambuco, 'PER'),
 (Recife, 'LOC'),
 (Pernambuco, 'LOC'),
 (Brasil, 'LOC'),
 (América Latina, 'LOC'),
 (Antonino José de Miranda Falcão, 'PER'),
 (Diario de Pernambuco, 'LOC'),
 (Recife, 'LOC')]

In [71]:
print(textos_tokenizados[200])
print()
print([(entity, entity.label_) for entity in textos_tokenizados[200].ents])

Inscreve o nome de Francisco José do Nascimento, conhecido como Dragão do Mar, no Livro dos Heróis da Pátria.

[(Francisco José do Nascimento, 'PER'), (Dragão do Mar, 'LOC'), (Livro dos Heróis da Pátria, 'MISC')]


In [72]:
print(textos_tokenizados[15])
print()
print([(entity, entity.label_) for entity in textos_tokenizados[15].ents])

Altera o art. 5º da Lei nº 8.906, de 4 de julho de 1994, que dispõe sobre o Estatuto da Advocacia e a Ordem dos Advogados do Brasil (OAB), e os arts. 6º e 22 da Lei nº 9.784, de 29 de janeiro de 1999, que regula o processo administrativo no âmbito da Administração Pública Federal, para reduzir exigências e simplificar a prática de atos processuais por administrados e seus advogados, no âmbito do processo administrativo.

[(Lei, 'MISC'), (Estatuto da Advocacia, 'MISC'), (Ordem dos Advogados do Brasil, 'ORG'), (Lei, 'MISC'), (Administração Pública Federal, 'LOC')]
