## Tests for Parsing

In [1]:
import spacy
nlp = spacy.load('pt_core_news_sm', disable=["ner"])

from src.main02_parse_articles import parse_by_subject

In [2]:
sentence = "O menino está comendo uma maçã e a menina bebe suco."
doc = nlp(sentence)

sent_statements = parse_by_subject(doc)
for data in sent_statements:
    print(data)

for token in doc:
    print(token.text, token.dep_, token.tag_, token.pos_, \
          [children for children in token.children], [ancestors for ancestors in token.ancestors])

{'orig_subject': 'menino', 'orig_slem': 'menino', 'subject': 'menino', 'slem': 'menino', 'coref_replaced': False, 'modal': '', 'mlem': '', 'helping_verb': 'está', 'hlem': 'estar', 'neg': '', 'verb': 'comendo', 'vlem': 'comer', 'passive': 0, 'md': 0, 'subject_branch': ['o', 'menino'], 'subject_tags': ['DET', 'NOUN'], 'object_branches': [['estar'], ['um', 'maçã'], ['e', 'menina', 'beber', 'suco']], 'object_tags': [['AUX'], ['DET', 'NOUN'], ['CCONJ', 'NOUN', 'VERB', 'ADV']], 'full_statement': ''}
{'orig_subject': 'menina', 'orig_slem': 'menina', 'subject': 'menina', 'slem': 'menina', 'coref_replaced': False, 'modal': '', 'mlem': '', 'helping_verb': '', 'hlem': '', 'neg': '', 'verb': 'bebe', 'vlem': 'beber', 'passive': 0, 'md': 0, 'subject_branch': ['o', 'menina'], 'subject_tags': ['DET', 'NOUN'], 'object_branches': [['suco']], 'object_tags': [['ADV']], 'full_statement': ''}
O det DET DET [] [menino, comendo]
menino nsubj NOUN NOUN [O] [comendo]
está aux AUX AUX [] [comendo]
comendo ROOT V

In [3]:
sentence = "O menino está comendo uma maçã e a menina não bebe suco."
doc = nlp(sentence)

sent_statements = parse_by_subject(doc)
for data in sent_statements:
    print(data)

for token in doc:
    print(token.text, token.dep_, token.tag_, token.pos_, \
          [children for children in token.children], [ancestors for ancestors in token.ancestors])

{'orig_subject': 'menino', 'orig_slem': 'menino', 'subject': 'menino', 'slem': 'menino', 'coref_replaced': False, 'modal': '', 'mlem': '', 'helping_verb': 'está', 'hlem': 'estar', 'neg': '', 'verb': 'comendo', 'vlem': 'comer', 'passive': 0, 'md': 0, 'subject_branch': ['o', 'menino'], 'subject_tags': ['DET', 'NOUN'], 'object_branches': [['estar'], ['um', 'maçã'], ['e', 'menina', 'não', 'beber', 'suco']], 'object_tags': [['AUX'], ['DET', 'NOUN'], ['CCONJ', 'NOUN', 'ADV', 'VERB', 'ADV']], 'full_statement': ''}
{'orig_subject': 'menina', 'orig_slem': 'menina', 'subject': 'menina', 'slem': 'menina', 'coref_replaced': False, 'modal': '', 'mlem': '', 'helping_verb': '', 'hlem': '', 'neg': 'não', 'verb': 'bebe', 'vlem': 'beber', 'passive': 0, 'md': 0, 'subject_branch': ['o', 'menina'], 'subject_tags': ['DET', 'NOUN'], 'object_branches': [['suco']], 'object_tags': [['ADV']], 'full_statement': ''}
O det DET DET [] [menino, comendo]
menino nsubj NOUN NOUN [O] [comendo]
está aux AUX AUX [] [comend

In [4]:
sentence = "Os funcionários devem ter pelo menos uma pausa durante a jornada de trabalho."
doc = nlp(sentence)

sent_statements = parse_by_subject(doc)
for data in sent_statements:
    print(data)

for token in doc:
    print(token.text, token.dep_, token.tag_, token.pos_, \
          [children for children in token.children], [ancestors for ancestors in token.ancestors])

{'orig_subject': 'funcionários', 'orig_slem': 'funcionário', 'subject': 'funcionários', 'slem': 'funcionário', 'coref_replaced': False, 'modal': 'devem', 'mlem': 'dever', 'helping_verb': '', 'hlem': '', 'neg': '', 'verb': 'ter', 'vlem': 'ter', 'passive': 0, 'md': 1, 'subject_branch': ['o', 'funcionário'], 'subject_tags': ['DET', 'NOUN'], 'object_branches': [['menos', 'um', 'pausa'], ['durante', 'o', 'jornada', 'trabalho']], 'object_tags': [['NOUN', 'DET', 'NOUN'], ['ADP', 'DET', 'NOUN', 'NOUN']], 'full_statement': ''}
Os det DET DET [] [funcionários, devem]
funcionários nsubj NOUN NOUN [Os] [devem]
devem ROOT VERB VERB [funcionários, ter] []
ter xcomp VERB VERB [pausa, jornada, .] [devem]
pelo case ADP ADP [] [menos, pausa, ter, devem]
menos nmod NOUN NOUN [pelo] [pausa, ter, devem]
uma det DET DET [] [pausa, ter, devem]
pausa obj NOUN NOUN [menos, uma] [ter, devem]
durante case ADP ADP [] [jornada, ter, devem]
a det DET DET [] [jornada, ter, devem]
jornada obl NOUN NOUN [durante, a, t

In [5]:
sentence = "O piso salarial vigente a partir de 01 de abril de 2010 será de 952,20 mensais."
doc = nlp(sentence)
    
sent_statements = parse_by_subject(doc)
for data in sent_statements:
    print(data)

for token in doc:
    print(token.text, token.dep_, token.tag_, token.pos_, \
          [children for children in token.children], [ancestors for ancestors in token.ancestors])

{'orig_subject': 'piso', 'orig_slem': 'piso', 'subject': 'piso', 'slem': 'piso', 'coref_replaced': False, 'modal': 'vai', 'mlem': 'ir', 'helping_verb': '', 'hlem': '', 'neg': '', 'verb': 'será', 'vlem': 'ser', 'passive': 0, 'md': 1, 'subject_branch': ['o', 'piso', 'salarial', 'vigente'], 'subject_tags': ['DET', 'NOUN', 'ADJ', 'ADJ'], 'object_branches': [], 'object_tags': [], 'full_statement': ''}
O det DET DET [] [piso, mensais]
piso nsubj NOUN NOUN [O, salarial, vigente] [mensais]
salarial amod ADJ ADJ [] [piso, mensais]
vigente amod ADJ ADJ [01] [piso, mensais]
a case ADP ADP [partir, de] [01, vigente, piso, mensais]
partir fixed NOUN NOUN [] [a, 01, vigente, piso, mensais]
de fixed ADP ADP [] [a, 01, vigente, piso, mensais]
01 obl NUM NUM [a, abril] [vigente, piso, mensais]
de case ADP ADP [] [abril, 01, vigente, piso, mensais]
abril nmod NOUN NOUN [de, 2010] [01, vigente, piso, mensais]
de case ADP ADP [] [2010, abril, 01, vigente, piso, mensais]
2010 nmod NUM NUM [de] [abril, 01, 

In [6]:
sentence = "Os empregados substitutos não podem ter direito à pensão."
doc = nlp(sentence)

sent_statements = parse_by_subject(doc)
for data in sent_statements:
    print(data)

for token in doc:
    print(token.text, token.dep_, token.tag_, token.pos_, \
          [children for children in token.children], [ancestors for ancestors in token.ancestors])

{'orig_subject': 'empregados', 'orig_slem': 'empregado', 'subject': 'empregados', 'slem': 'empregado', 'coref_replaced': False, 'modal': 'podem', 'mlem': 'poder', 'helping_verb': '', 'hlem': '', 'neg': 'não', 'verb': 'ter', 'vlem': 'ter', 'passive': 0, 'md': 1, 'subject_branch': ['o', 'empregado', 'substituto'], 'subject_tags': ['DET', 'NOUN', 'ADJ'], 'object_branches': [['direito', 'pensão']], 'object_tags': [['NOUN', 'NOUN']], 'full_statement': ''}
Os det DET DET [] [empregados, podem]
empregados nsubj NOUN NOUN [Os, substitutos] [podem]
substitutos amod ADJ ADJ [] [empregados, podem]
não advmod ADV ADV [] [ter, podem]
podem ROOT VERB VERB [empregados, ter] []
ter xcomp VERB VERB [não, direito, .] [podem]
direito obj NOUN NOUN [pensão] [ter, podem]
à case ADP ADP [] [pensão, direito, ter, podem]
pensão nmod NOUN NOUN [à] [direito, ter, podem]
. punct PUNCT PUNCT [] [ter, podem]


In [7]:
sentence = "Eu tenho lido um livro."
doc = nlp(sentence)

sent_statements = parse_by_subject(doc)
for data in sent_statements:
    print(data)

for token in doc:
    print(token.text, token.dep_, token.tag_, token.pos_, \
          [children for children in token.children], [ancestors for ancestors in token.ancestors])

{'orig_subject': 'Eu', 'orig_slem': 'eu', 'subject': 'Eu', 'slem': 'eu', 'coref_replaced': False, 'modal': '', 'mlem': '', 'helping_verb': '', 'hlem': '', 'neg': '', 'verb': 'lido', 'vlem': 'ler', 'passive': 0, 'md': 0, 'subject_branch': ['eu'], 'subject_tags': ['PRON'], 'object_branches': [['ter'], ['um', 'livro']], 'object_tags': [['AUX'], ['DET', 'NOUN']], 'full_statement': ''}
Eu nsubj PRON PRON [] [lido]
tenho aux AUX AUX [] [lido]
lido ROOT VERB VERB [Eu, tenho, livro, .] []
um det DET DET [] [livro, lido]
livro obj NOUN NOUN [um] [lido]
. punct PUNCT PUNCT [] [lido]


In [8]:
sentence = "O livro foi lido por ela."
doc = nlp(sentence)

sent_statements = parse_by_subject(doc)
for data in sent_statements:
    print(data)

for token in doc:
    print(token.text, token.dep_, token.tag_, token.pos_, \
          [children for children in token.children], [ancestors for ancestors in token.ancestors])

{'orig_subject': 'livro', 'orig_slem': 'livro', 'subject': 'livro', 'slem': 'livro', 'coref_replaced': False, 'modal': '', 'mlem': '', 'helping_verb': 'foi', 'hlem': 'ser', 'neg': '', 'verb': 'lido', 'vlem': 'ler', 'passive': 1, 'md': 0, 'subject_branch': ['o', 'livro'], 'subject_tags': ['DET', 'NOUN'], 'object_branches': [['ser'], ['por', 'ela']], 'object_tags': [['AUX'], ['ADP', 'PRON']], 'full_statement': ''}
O det DET DET [] [livro, lido]
livro nsubj:pass NOUN NOUN [O] [lido]
foi aux:pass AUX AUX [] [lido]
lido ROOT VERB VERB [livro, foi, ela, .] []
por case ADP ADP [] [ela, lido]
ela obl PRON PRON [por] [lido]
. punct PUNCT PUNCT [] [lido]


In [9]:
sentence = "O livro deve ser lido por ela."
doc = nlp(sentence)

sent_statements = parse_by_subject(doc)
for data in sent_statements:
    print(data)

for token in doc:
    print(token.text, token.dep_, token.tag_, token.pos_, \
          [children for children in token.children], [ancestors for ancestors in token.ancestors])

{'orig_subject': 'livro', 'orig_slem': 'livro', 'subject': 'livro', 'slem': 'livro', 'coref_replaced': False, 'modal': 'deve', 'mlem': 'dever', 'helping_verb': 'ser', 'hlem': 'ser', 'neg': '', 'verb': 'lido', 'vlem': 'ler', 'passive': 1, 'md': 1, 'subject_branch': ['o', 'livro'], 'subject_tags': ['DET', 'NOUN'], 'object_branches': [['ser'], ['por', 'ela']], 'object_tags': [['AUX'], ['ADP', 'PRON']], 'full_statement': ''}
O det DET DET [] [livro, deve]
livro nsubj:pass NOUN NOUN [O] [deve]
deve ROOT VERB VERB [livro, lido] []
ser aux:pass AUX AUX [] [lido, deve]
lido xcomp VERB VERB [ser, ela, .] [deve]
por case ADP ADP [] [ela, lido, deve]
ela obl PRON PRON [por] [lido, deve]
. punct PUNCT PUNCT [] [lido, deve]


In [10]:
sentence = "O livro não deveria ter sido lido por ela."
doc = nlp(sentence)

sent_statements = parse_by_subject(doc)
for data in sent_statements:
    print(data)

for token in doc:
    print(token.text, token.dep_, token.tag_, token.pos_, \
          [children for children in token.children], [ancestors for ancestors in token.ancestors])

{'orig_subject': 'livro', 'orig_slem': 'livro', 'subject': 'livro', 'slem': 'livro', 'coref_replaced': False, 'modal': 'deveria', 'mlem': 'dever', 'helping_verb': 'ter', 'hlem': 'ter', 'neg': 'não', 'verb': 'lido', 'vlem': 'ler', 'passive': 0, 'md': 1, 'subject_branch': ['o', 'livro'], 'subject_tags': ['DET', 'NOUN'], 'object_branches': [['ter'], ['ser'], ['por', 'ela']], 'object_tags': [['AUX'], ['AUX'], ['ADP', 'PRON']], 'full_statement': ''}
O det DET DET [] [livro, deveria]
livro nsubj:pass NOUN NOUN [O] [deveria]
não advmod ADV ADV [] [lido, deveria]
deveria ROOT VERB VERB [livro, lido] []
ter aux AUX AUX [] [lido, deveria]
sido aux:pass AUX AUX [] [lido, deveria]
lido xcomp VERB VERB [não, ter, sido, ela, .] [deveria]
por case ADP ADP [] [ela, lido, deveria]
ela obl PRON PRON [por] [lido, deveria]
. punct PUNCT PUNCT [] [lido, deveria]


In [11]:
sentence = "Um intervalo é permitido aos funcionários."
doc = nlp(sentence)

sent_statements = parse_by_subject(doc)
for data in sent_statements:
    print(data)

for token in doc:
    print(token.text, token.dep_, token.tag_, token.pos_, \
          [children for children in token.children], [ancestors for ancestors in token.ancestors])

{'orig_subject': 'intervalo', 'orig_slem': 'intervalo', 'subject': 'intervalo', 'slem': 'intervalo', 'coref_replaced': False, 'modal': '', 'mlem': '', 'helping_verb': 'é', 'hlem': 'ser', 'neg': '', 'verb': 'permitido', 'vlem': 'permitir', 'passive': 1, 'md': 0, 'subject_branch': ['um', 'intervalo'], 'subject_tags': ['DET', 'NOUN'], 'object_branches': [['ser'], ['a o', 'funcionário']], 'object_tags': [['AUX'], ['ADP', 'NOUN']], 'full_statement': ''}
Um det DET DET [] [intervalo, permitido]
intervalo nsubj:pass NOUN NOUN [Um] [permitido]
é aux:pass AUX AUX [] [permitido]
permitido ROOT VERB VERB [intervalo, é, funcionários, .] []
aos case ADP ADP [] [funcionários, permitido]
funcionários obl NOUN NOUN [aos] [permitido]
. punct PUNCT PUNCT [] [permitido]


Possible changes?

In [12]:
sentence = "Os funcionários estão proibidos de comer no local de trabalho."
doc = nlp(sentence)

sent_statements = parse_by_subject(doc)
for data in sent_statements:
    print(data)

for token in doc:
    print(token.text, token.head, token.dep_, token.tag_, token.pos_, \
          [children for children in token.children], [ancestors for ancestors in token.ancestors])

{'orig_subject': 'funcionários', 'orig_slem': 'funcionário', 'subject': 'funcionários', 'slem': 'funcionário', 'coref_replaced': False, 'modal': '', 'mlem': '', 'helping_verb': '', 'hlem': '', 'neg': '', 'verb': 'estão', 'vlem': 'estar', 'passive': 0, 'md': 0, 'subject_branch': ['o', 'funcionário'], 'subject_tags': ['DET', 'NOUN'], 'object_branches': [], 'object_tags': [], 'full_statement': ''}
Os funcionários det DET DET [] [funcionários, proibidos]
funcionários proibidos nsubj NOUN NOUN [Os] [proibidos]
estão proibidos cop AUX AUX [] [proibidos]
proibidos proibidos ROOT ADJ ADJ [funcionários, estão, comer, .] []
de comer mark SCONJ SCONJ [] [comer, proibidos]
comer proibidos xcomp VERB VERB [de, local] [proibidos]
no local case ADP ADP [] [local, comer, proibidos]
local comer obl NOUN NOUN [no, trabalho] [comer, proibidos]
de trabalho case ADP ADP [] [trabalho, local, comer, proibidos]
trabalho local nmod NOUN NOUN [de] [local, comer, proibidos]
. proibidos punct PUNCT PUNCT [] [proi

In [13]:
sentence = "Os funcionários devem ter pelo menos uma pausa durante a jornada de trabalho."
doc = nlp(sentence)

sent_statements = parse_by_subject(doc)
for data in sent_statements:
    print(data)

for token in doc:
    print(token.text, token.dep_, token.tag_, token.pos_, \
          [children for children in token.children], [ancestors for ancestors in token.ancestors])

{'orig_subject': 'funcionários', 'orig_slem': 'funcionário', 'subject': 'funcionários', 'slem': 'funcionário', 'coref_replaced': False, 'modal': 'devem', 'mlem': 'dever', 'helping_verb': '', 'hlem': '', 'neg': '', 'verb': 'ter', 'vlem': 'ter', 'passive': 0, 'md': 1, 'subject_branch': ['o', 'funcionário'], 'subject_tags': ['DET', 'NOUN'], 'object_branches': [['menos', 'um', 'pausa'], ['durante', 'o', 'jornada', 'trabalho']], 'object_tags': [['NOUN', 'DET', 'NOUN'], ['ADP', 'DET', 'NOUN', 'NOUN']], 'full_statement': ''}
Os det DET DET [] [funcionários, devem]
funcionários nsubj NOUN NOUN [Os] [devem]
devem ROOT VERB VERB [funcionários, ter] []
ter xcomp VERB VERB [pausa, jornada, .] [devem]
pelo case ADP ADP [] [menos, pausa, ter, devem]
menos nmod NOUN NOUN [pelo] [pausa, ter, devem]
uma det DET DET [] [pausa, ter, devem]
pausa obj NOUN NOUN [menos, uma] [ter, devem]
durante case ADP ADP [] [jornada, ter, devem]
a det DET DET [] [jornada, ter, devem]
jornada obl NOUN NOUN [durante, a, t

ROOT IN CONDITIONAL?

In [14]:
sentence = "Não serão objeto deste sistema as horas realizadas com adicional noturno que abrangem o período das 22:00 horas de um dia até às 05:00 horas do dia seguinte."
doc = nlp(sentence)

sent_statements = parse_by_subject(doc)
for data in sent_statements:
    print(data)

for token in doc:
    print(token.text, token.dep_, token.tag_, token.pos_, \
          [children for children in token.children], [ancestors for ancestors in token.ancestors])

{'orig_subject': 'que', 'orig_slem': 'que', 'subject': 'objeto', 'slem': 'objeto', 'coref_replaced': True, 'modal': '', 'mlem': '', 'helping_verb': '', 'hlem': '', 'neg': '', 'verb': 'realizadas', 'vlem': 'realizar', 'passive': 0, 'md': 0, 'subject_branch': ['que'], 'subject_tags': ['PRON'], 'object_branches': [['com', 'adicional', 'noturno']], 'object_tags': [['ADP', 'NOUN', 'ADJ']], 'full_statement': ''}
Não advmod ADV ADV [] [objeto]
serão cop AUX AUX [] [objeto]
objeto ROOT NOUN NOUN [Não, serão, sistema, horas, .] []
deste case ADP ADP [] [sistema, objeto]
sistema nmod NOUN NOUN [deste] [objeto]
as det DET DET [] [horas, objeto]
horas nmod NOUN NOUN [as, realizadas, abrangem] [objeto]
realizadas acl VERB VERB [adicional] [horas, objeto]
com case ADP ADP [] [adicional, realizadas, horas, objeto]
adicional obl NOUN NOUN [com, noturno] [realizadas, horas, objeto]
noturno amod ADJ ADJ [] [adicional, realizadas, horas, objeto]
que nsubj PRON PRON [] [abrangem, horas, objeto]
abrangem a

In [15]:
sentence = "Na hipótese da ocorrência de rescisão do contrato de trabalho, qualquer que seja a causa, em existindo horas a crédito do EMPREGADO, estas serão pagas pela EMPREGADORA como horas extraordinárias, acrescidas dos adicionais previstos na Convenção Coletiva de Trabalho juntamente com as demais verbas rescisórias."
doc = nlp(sentence)

sent_statements = parse_by_subject(doc)
for data in sent_statements:
    print(data)

for token in doc:
    print(token.text, token.dep_, token.tag_, token.pos_, \
          [children for children in token.children], [ancestors for ancestors in token.ancestors])

{'orig_subject': 'que', 'orig_slem': 'que', 'subject': 'hipótese', 'slem': 'hipótese', 'coref_replaced': True, 'modal': '', 'mlem': '', 'helping_verb': '', 'hlem': '', 'neg': '', 'verb': 'seja', 'vlem': 'ser', 'passive': 0, 'md': 0, 'subject_branch': ['qualquer', 'que', 'acrescer'], 'subject_tags': ['DET', 'PRON', 'VERB'], 'object_branches': [], 'object_tags': [], 'full_statement': ''}
{'orig_subject': 'estas', 'orig_slem': 'este', 'subject': 'estas', 'slem': 'este', 'coref_replaced': False, 'modal': 'vão', 'mlem': 'ir', 'helping_verb': '', 'hlem': '', 'neg': '', 'verb': 'serão', 'vlem': 'ser', 'passive': 0, 'md': 1, 'subject_branch': ['este'], 'subject_tags': ['PRON'], 'object_branches': [], 'object_tags': [], 'full_statement': ''}
Na case ADP ADP [] [hipótese, pagas]
hipótese obl NOUN NOUN [Na, ocorrência, ,, causa] [pagas]
da case ADP ADP [] [ocorrência, hipótese, pagas]
ocorrência nmod NOUN NOUN [da, rescisão] [hipótese, pagas]
de case ADP ADP [] [rescisão, ocorrência, hipótese, pa

In [16]:
sentence = "A CEEE-D aplicará sobre a matriz salarial, já reajustada com o índice de 4,18, o percentual de 1,4, a título de ganho real."
doc = nlp(sentence)

sent_statements = parse_by_subject(doc)
for data in sent_statements:
    print(data)

for token in doc:
    print(token.text, token.dep_, token.tag_, token.pos_, \
          [children for children in token.children], [ancestors for ancestors in token.ancestors])

{'orig_subject': 'CEEE-D', 'orig_slem': 'ceee-d', 'subject': 'CEEE-D', 'slem': 'ceee-d', 'coref_replaced': False, 'modal': 'vai', 'mlem': 'ir', 'helping_verb': '', 'hlem': '', 'neg': '', 'verb': 'aplicará', 'vlem': 'aplicar', 'passive': 0, 'md': 1, 'subject_branch': ['o'], 'subject_tags': ['DET'], 'object_branches': [['sobre', 'o', 'matriz', 'salarial', 'reajustar', 'percentual'], ['a', 'título', 'ganho']], 'object_tags': [['ADP', 'DET', 'NOUN', 'ADJ', 'VERB', 'NOUN'], ['ADP', 'NOUN', 'NOUN']], 'full_statement': ''}
A det DET DET [] [CEEE-D, aplicará]
CEEE-D nsubj NOUN NOUN [A] [aplicará]
aplicará ROOT VERB VERB [CEEE-D, matriz, título, .] []
sobre case ADP ADP [] [matriz, aplicará]
a det DET DET [] [matriz, aplicará]
matriz obj NOUN NOUN [sobre, a, salarial, reajustada, percentual] [aplicará]
salarial amod ADJ ADJ [] [matriz, aplicará]
, punct PUNCT PUNCT [] [reajustada, matriz, aplicará]
já advmod ADV ADV [] [reajustada, matriz, aplicará]
reajustada acl VERB VERB [,, já, índice] [mat

In [17]:
sentence = "Fica facultado ao DOCENTE manifestar oposição à redução mencionada neste parágrafo no prazo de 48 horas."
doc = nlp(sentence)

sent_statements = parse_by_subject(doc)
for data in sent_statements:
    print(data)

for token in doc:
    print(token.text, token.dep_, token.tag_, token.pos_, \
          [children for children in token.children], [ancestors for ancestors in token.ancestors])

Fica aux VERB VERB [] [facultado]
facultado ROOT VERB VERB [Fica, DOCENTE, .] []
ao case ADP ADP [] [DOCENTE, facultado]
DOCENTE obj PROPN PROPN [ao, manifestar] [facultado]
manifestar acl VERB VERB [oposição, redução, prazo] [DOCENTE, facultado]
oposição obj NOUN NOUN [] [manifestar, DOCENTE, facultado]
à case ADP ADP [] [redução, manifestar, DOCENTE, facultado]
redução obl NOUN NOUN [à, mencionada] [manifestar, DOCENTE, facultado]
mencionada acl VERB VERB [parágrafo] [redução, manifestar, DOCENTE, facultado]
neste case ADP ADP [] [parágrafo, mencionada, redução, manifestar, DOCENTE, facultado]
parágrafo obl NOUN NOUN [neste] [mencionada, redução, manifestar, DOCENTE, facultado]
no case ADP ADP [] [prazo, manifestar, DOCENTE, facultado]
prazo obl NOUN NOUN [no, horas] [manifestar, DOCENTE, facultado]
de case ADP ADP [] [horas, prazo, manifestar, DOCENTE, facultado]
48 nummod NUM NUM [] [horas, prazo, manifestar, DOCENTE, facultado]
horas nmod NOUN NOUN [de, 48] [prazo, manifestar, DOC

In [18]:
sentence = "Fica facultado ao DOCENTE manifestar oposição à redução mencionada neste parágrafo no prazo de 48 horas, que deverá ser formulada por escrito à Entidade Sindical signatária."
doc = nlp(sentence)

sent_statements = parse_by_subject(doc)
for data in sent_statements:
    print(data)

for token in doc:
    print(token.text, token.head, token.dep_, token.tag_, token.pos_, \
          [children for children in token.children], [ancestors for ancestors in token.ancestors])

{'orig_subject': 'que', 'orig_slem': 'que', 'subject': 'DOCENTE', 'slem': 'docente', 'coref_replaced': True, 'modal': '', 'mlem': '', 'helping_verb': '', 'hlem': '', 'neg': '', 'verb': 'manifestar', 'vlem': 'manifestar', 'passive': 0, 'md': 0, 'subject_branch': ['que'], 'subject_tags': ['PRON'], 'object_branches': [['oposição'], ['a o', 'redução', 'mencionar'], ['em o', 'prazo', 'hora']], 'object_tags': [['NOUN'], ['ADP', 'NOUN', 'VERB'], ['ADP', 'NOUN', 'NOUN']], 'full_statement': ''}
Fica facultado aux VERB VERB [] [facultado]
facultado facultado ROOT VERB VERB [Fica, DOCENTE, ,, .] []
ao DOCENTE case ADP ADP [] [DOCENTE, facultado]
DOCENTE facultado obj PROPN PROPN [ao, manifestar] [facultado]
manifestar DOCENTE acl VERB VERB [oposição, redução, prazo] [DOCENTE, facultado]
oposição manifestar obj NOUN NOUN [] [manifestar, DOCENTE, facultado]
à redução case ADP ADP [] [redução, manifestar, DOCENTE, facultado]
redução manifestar obl NOUN NOUN [à, mencionada] [manifestar, DOCENTE, facu

In [19]:
sentence = "É vedado aos aprendizes e estagiários realizarem Horas Extras à jornada diária."
doc = nlp(sentence)

sent_statements = parse_by_subject(doc)
for data in sent_statements:
    print(data)

for token in doc:
    print(token.text, token.head, token.dep_, token.tag_, token.pos_, \
          [children for children in token.children], [ancestors for ancestors in token.ancestors])

É vedado aux:pass AUX AUX [] [vedado]
vedado vedado ROOT VERB VERB [É, aprendizes, realizarem, .] []
aos aprendizes case ADP ADP [] [aprendizes, vedado]
aprendizes vedado obj NOUN NOUN [aos, estagiários] [vedado]
e estagiários cc CCONJ CCONJ [] [estagiários, aprendizes, vedado]
estagiários aprendizes conj NOUN NOUN [e] [aprendizes, vedado]
realizarem vedado csubj VERB VERB [Horas] [vedado]
Horas realizarem obj PROPN PROPN [Extras, jornada] [realizarem, vedado]
Extras Horas flat:name PROPN PROPN [] [Horas, realizarem, vedado]
à jornada case ADP ADP [] [jornada, Horas, realizarem, vedado]
jornada Horas nmod NOUN NOUN [à, diária] [Horas, realizarem, vedado]
diária jornada amod ADJ ADJ [] [jornada, Horas, realizarem, vedado]
. vedado punct PUNCT PUNCT [] [vedado]


In [20]:
sentence = "Os funcionários têm que trabalhar pelo menos 5 horas por dia."
doc = nlp(sentence)

sent_statements = parse_by_subject(doc)
for data in sent_statements:
    print(data)

for token in doc:
    print(token.text, token.head, token.dep_, token.tag_, token.pos_, \
          [children for children in token.children], [ancestors for ancestors in token.ancestors])

{'orig_subject': 'funcionários', 'orig_slem': 'funcionário', 'subject': 'funcionários', 'slem': 'funcionário', 'coref_replaced': False, 'modal': 'tem_que', 'mlem': 'ter_que', 'helping_verb': '', 'hlem': '', 'neg': '', 'verb': 'trabalhar', 'vlem': 'trabalhar', 'passive': 0, 'md': 1, 'subject_branch': ['o', 'funcionário'], 'subject_tags': ['DET', 'NOUN'], 'object_branches': [['ter'], ['que'], ['menos', 'hora', 'dia']], 'object_tags': [['AUX'], ['SCONJ'], ['NOUN', 'NOUN', 'NOUN']], 'full_statement': ''}
Os funcionários det DET DET [] [funcionários, trabalhar]
funcionários trabalhar nsubj NOUN NOUN [Os] [trabalhar]
têm trabalhar aux AUX AUX [] [trabalhar]
que trabalhar mark SCONJ SCONJ [] [trabalhar]
trabalhar trabalhar ROOT VERB VERB [funcionários, têm, que, horas, .] []
pelo menos case ADP ADP [] [menos, horas, trabalhar]
menos horas nmod NOUN NOUN [pelo] [horas, trabalhar]
5 horas nummod NUM NUM [] [horas, trabalhar]
horas trabalhar obl NOUN NOUN [menos, 5, dia] [trabalhar]
por dia case

In [21]:
sentence = "Os funcionários que trabalham em período integral precisam receber a promessa de benefícios de creche."
doc = nlp(sentence)

sent_statements = parse_by_subject(doc)
for data in sent_statements:
    print(data)

for token in doc:
    print(token.text, token.head, token.dep_, token.tag_, token.pos_, \
          [children for children in token.children], [ancestors for ancestors in token.ancestors])

{'orig_subject': 'funcionários', 'orig_slem': 'funcionário', 'subject': 'funcionários', 'slem': 'funcionário', 'coref_replaced': False, 'modal': '', 'mlem': '', 'helping_verb': '', 'hlem': '', 'neg': '', 'verb': 'precisam', 'vlem': 'precisar', 'passive': 0, 'md': 0, 'subject_branch': ['o', 'funcionário', 'trabalhar'], 'subject_tags': ['DET', 'NOUN', 'VERB'], 'object_branches': [['receber', 'promessa']], 'object_tags': [['VERB', 'NOUN']], 'full_statement': ''}
Os funcionários det DET DET [] [funcionários, precisam]
funcionários precisam nsubj NOUN NOUN [Os, trabalham] [precisam]
que trabalham nsubj PRON PRON [] [trabalham, funcionários, precisam]
trabalham funcionários acl:relcl VERB VERB [que, período] [funcionários, precisam]
em período case ADP ADP [] [período, trabalham, funcionários, precisam]
período trabalham obl NOUN NOUN [em, integral] [trabalham, funcionários, precisam]
integral período amod ADJ ADJ [] [período, trabalham, funcionários, precisam]
precisam precisam ROOT VERB VE

In [22]:
sentence = "Fica garantida ao aposentado a inscrição de novos beneficiários a ele vinculado."
doc = nlp(sentence)

sent_statements = parse_by_subject(doc)
for data in sent_statements:
    print(data)

for token in doc:
    print(token.text, token.head, token.dep_, token.tag_, token.pos_, \
          [children for children in token.children], [ancestors for ancestors in token.ancestors])


{'orig_subject': 'inscrição', 'orig_slem': 'inscrição', 'subject': 'inscrição', 'slem': 'inscrição', 'coref_replaced': False, 'modal': '', 'mlem': '', 'helping_verb': '', 'hlem': '', 'neg': '', 'verb': 'Fica', 'vlem': 'ficar', 'passive': 0, 'md': 0, 'subject_branch': ['o', 'inscrição', 'beneficiário', 'ele'], 'subject_tags': ['DET', 'NOUN', 'NOUN', 'PRON'], 'object_branches': [['garantido', 'aposentado']], 'object_tags': [['ADJ', 'NOUN']], 'full_statement': ''}
Fica Fica ROOT VERB VERB [garantida, inscrição, .] []
garantida Fica xcomp ADJ ADJ [aposentado] [Fica]
ao aposentado mark ADP ADP [] [aposentado, garantida, Fica]
aposentado garantida obl NOUN NOUN [ao] [garantida, Fica]
a inscrição det DET DET [] [inscrição, Fica]
inscrição Fica nsubj NOUN NOUN [a, beneficiários, ele] [Fica]
de beneficiários case ADP ADP [] [beneficiários, inscrição, Fica]
novos beneficiários amod ADJ ADJ [] [beneficiários, inscrição, Fica]
beneficiários inscrição nmod NOUN NOUN [de, novos] [inscrição, Fica]
a 

In [23]:
sentence = "Fica ainda assegurado, para os empregados, aposentados e pensionistas a eles vinculados, o atual sistema de concessão e custeio dos medicamentos."
doc = nlp(sentence)

sent_statements = parse_by_subject(doc)
for data in sent_statements:
    print(data)

for token in doc:
    print(token.text, token.head, token.dep_, token.tag_, token.pos_, \
          [children for children in token.children], [ancestors for ancestors in token.ancestors])

{'orig_subject': 'sistema', 'orig_slem': 'sistema', 'subject': 'sistema', 'slem': 'sistema', 'coref_replaced': False, 'modal': '', 'mlem': '', 'helping_verb': '', 'hlem': '', 'neg': '', 'verb': 'Fica', 'vlem': 'ficar', 'passive': 0, 'md': 0, 'subject_branch': ['o', 'atual', 'sistema', 'concessão'], 'subject_tags': ['DET', 'ADJ', 'NOUN', 'NOUN'], 'object_branches': [['ainda', 'assegurar'], ['para', 'o', 'empregado', 'aposentado', 'pensionista']], 'object_tags': [['ADV', 'VERB'], ['ADP', 'DET', 'NOUN', 'NOUN', 'NOUN']], 'full_statement': ''}
Fica Fica ROOT VERB VERB [assegurado, empregados, sistema, .] []
ainda assegurado advmod ADV ADV [] [assegurado, Fica]
assegurado Fica xcomp VERB VERB [ainda, ,] [Fica]
, assegurado punct PUNCT PUNCT [] [assegurado, Fica]
para empregados case ADP ADP [] [empregados, Fica]
os empregados det DET DET [] [empregados, Fica]
empregados Fica obl NOUN NOUN [para, os, aposentados, pensionistas] [Fica]
, aposentados punct PUNCT PUNCT [] [aposentados, empregado

In [24]:
sentence = "Os funcionários não recebem transporte."
doc = nlp(sentence)

sent_statements = parse_by_subject(doc)
for data in sent_statements:
    print(data)

for token in doc:
    print(token.text, token.head, token.dep_, token.tag_, token.pos_, \
          [children for children in token.children], [ancestors for ancestors in token.ancestors])

{'orig_subject': 'funcionários', 'orig_slem': 'funcionário', 'subject': 'funcionários', 'slem': 'funcionário', 'coref_replaced': False, 'modal': '', 'mlem': '', 'helping_verb': '', 'hlem': '', 'neg': 'não', 'verb': 'recebem', 'vlem': 'receber', 'passive': 0, 'md': 0, 'subject_branch': ['o', 'funcionário'], 'subject_tags': ['DET', 'NOUN'], 'object_branches': [['transporte']], 'object_tags': [['NOUN']], 'full_statement': ''}
Os funcionários det DET DET [] [funcionários, recebem]
funcionários recebem nsubj NOUN NOUN [Os] [recebem]
não recebem advmod ADV ADV [] [recebem]
recebem recebem ROOT VERB VERB [funcionários, não, transporte, .] []
transporte recebem obj NOUN NOUN [] [recebem]
. recebem punct PUNCT PUNCT [] [recebem]


In [25]:
sentence = "O descanso já se compreende no salário mensal."
doc = nlp(sentence)

sent_statements = parse_by_subject(doc)
for data in sent_statements:
    print(data)

for token in doc:
    print(token.text, token.dep_, token.tag_, token.pos_, \
          [children for children in token.children], [ancestors for ancestors in token.ancestors])

{'orig_subject': 'descanso', 'orig_slem': 'descanso', 'subject': 'descanso', 'slem': 'descanso', 'coref_replaced': False, 'modal': '', 'mlem': '', 'helping_verb': 'se', 'hlem': 'se', 'neg': '', 'verb': 'compreende', 'vlem': 'compreender', 'passive': 1, 'md': 0, 'subject_branch': ['o', 'descanso'], 'subject_tags': ['DET', 'NOUN'], 'object_branches': [['já'], ['se'], ['em o', 'salário', 'mensal']], 'object_tags': [['ADV'], ['PRON'], ['ADP', 'NOUN', 'ADJ']], 'full_statement': ''}
O det DET DET [] [descanso, compreende]
descanso nsubj NOUN NOUN [O] [compreende]
já advmod ADV ADV [] [compreende]
se expl PRON PRON [] [compreende]
compreende ROOT VERB VERB [descanso, já, se, salário, .] []
no case ADP ADP [] [salário, compreende]
salário obj NOUN NOUN [no, mensal] [compreende]
mensal amod ADJ ADJ [] [salário, compreende]
. punct PUNCT PUNCT [] [compreende]


In [26]:
sentence = "Ficam excluídas desta penalidade as cláusulas que já possuam cominações específicas."
doc = nlp(sentence)

sent_statements = parse_by_subject(doc)
for data in sent_statements:
    print(data)

for token in doc:
    print(token.text, token.dep_, token.tag_, token.pos_, \
          [children for children in token.children], [ancestors for ancestors in token.ancestors])

{'orig_subject': 'cláusulas', 'orig_slem': 'cláusula', 'subject': 'cláusulas', 'slem': 'cláusula', 'coref_replaced': False, 'modal': '', 'mlem': '', 'helping_verb': '', 'hlem': '', 'neg': '', 'verb': 'Ficam', 'vlem': 'ficam', 'passive': 0, 'md': 0, 'subject_branch': ['o', 'cláusula', 'possuar'], 'subject_tags': ['DET', 'NOUN', 'VERB'], 'object_branches': [['excluír', 'penalidade']], 'object_tags': [['VERB', 'NOUN']], 'full_statement': ''}
Ficam ROOT VERB VERB [excluídas, cláusulas, .] []
excluídas xcomp VERB VERB [penalidade] [Ficam]
desta case ADP ADP [] [penalidade, excluídas, Ficam]
penalidade obl NOUN NOUN [desta] [excluídas, Ficam]
as det DET DET [] [cláusulas, Ficam]
cláusulas nsubj NOUN NOUN [as, possuam] [Ficam]
que nsubj PRON PRON [] [possuam, cláusulas, Ficam]
já advmod ADV ADV [] [possuam, cláusulas, Ficam]
possuam acl:relcl VERB VERB [que, já, cominações] [cláusulas, Ficam]
cominações obj NOUN NOUN [específicas] [possuam, cláusulas, Ficam]
específicas amod ADJ ADJ [] [comin

In [27]:
sentence = "O empregado que viajar à serviço, fora da região metropolitana, em viagens nacionais ou internacionais, estará coberto por seguro de vida especialmente adotado para cada viagem, a partir da saída e retorno a São Paulo."
doc = nlp(sentence)

sent_statements = parse_by_subject(doc)
for data in sent_statements:
    print(data)

for token in doc:
    print(token.text, token.dep_, token.tag_, token.pos_, \
          [children for children in token.children], [ancestors for ancestors in token.ancestors])

{'orig_subject': 'empregado', 'orig_slem': 'empregado', 'subject': 'empregado', 'slem': 'empregado', 'coref_replaced': False, 'modal': 'vai', 'mlem': 'ir', 'helping_verb': '', 'hlem': '', 'neg': '', 'verb': 'estará', 'vlem': 'estar', 'passive': 0, 'md': 1, 'subject_branch': ['o', 'empregado', 'viajar'], 'subject_tags': ['DET', 'NOUN', 'VERB'], 'object_branches': [], 'object_tags': [], 'full_statement': ''}
O det DET DET [] [empregado, coberto]
empregado nsubj:pass NOUN NOUN [O, viajar] [coberto]
que nsubj PRON PRON [] [viajar, empregado, coberto]
viajar acl:relcl VERB VERB [que, serviço, ,, fora, ,, viagens, ,] [empregado, coberto]
à case ADP ADP [] [serviço, viajar, empregado, coberto]
serviço obl NOUN NOUN [à] [viajar, empregado, coberto]
, punct PUNCT PUNCT [] [viajar, empregado, coberto]
fora advmod ADV ADV [região] [viajar, empregado, coberto]
da case ADP ADP [] [região, fora, viajar, empregado, coberto]
região obl NOUN NOUN [da, metropolitana] [fora, viajar, empregado, coberto]
m

In [29]:
sentence = "Não se aplica a garantia da letra B supra, quando o substituído estiver sob amparo da Previdência Social."
doc = nlp(sentence)

sent_statements = parse_by_subject(doc)
for data in sent_statements:
    print(data)

for token in doc:
    print(token.text, token.head, token.dep_, token.tag_, token.pos_, \
          [children for children in token.children], [ancestors for ancestors in token.ancestors])

{'orig_subject': 'se', 'orig_slem': 'se', 'subject': 'se', 'slem': 'se', 'coref_replaced': False, 'modal': '', 'mlem': '', 'helping_verb': '', 'hlem': '', 'neg': 'não', 'verb': 'aplica', 'vlem': 'aplicar', 'passive': 0, 'md': 0, 'subject_branch': ['se'], 'subject_tags': ['PRON'], 'object_branches': [['o', 'garantia', 'letra'], ['quando', 'substituir', 'estar', 'sob', 'amparo', 'previdência']], 'object_tags': [['DET', 'NOUN', 'NOUN'], ['ADV', 'NOUN', 'AUX', 'ADP', 'NOUN', 'PROPN']], 'full_statement': ''}
{'orig_subject': 'substituído', 'orig_slem': 'substituir', 'subject': 'substituído', 'slem': 'substituir', 'coref_replaced': False, 'modal': '', 'mlem': '', 'helping_verb': '', 'hlem': '', 'neg': '', 'verb': 'estiver', 'vlem': 'estar', 'passive': 0, 'md': 0, 'subject_branch': ['o', 'substituir'], 'subject_tags': ['DET', 'NOUN'], 'object_branches': [], 'object_tags': [], 'full_statement': ''}
Não aplica advmod ADV ADV [] [aplica]
se aplica nsubj PRON PRON [] [aplica]
aplica aplica ROOT V

In [30]:
from unidecode import unidecode
print(unidecode('aplicará'))

aplicara
