In [3]:
import spacy

nlp = spacy.load('pt_core_news_sm')

text = 'Isso aqui é uma frase simples em português usada como exemplo para ajudar a entender o programa.'

doc_1 = nlp(text)

for token in doc_1:
    print(token.text, token.pos_, token.dep_)

Isso PRON nsubj
aqui ADV advmod
é AUX cop
uma DET det
frase NOUN ROOT
simples ADJ amod
em ADP case
português NOUN nmod
usada VERB acl
como ADP case
exemplo NOUN obl
para SCONJ mark
ajudar VERB advcl
a SCONJ mark
entender VERB xcomp
o DET det
programa NOUN obj
. PUNCT punct


In [4]:
text = "Ao contrário da outra frase, esta frase complexa usa um verbo melhor, criando um cenário diferente."

doc_2 = nlp(text)

for token in doc_2:
    print(token.text, token.pos_, token.dep_)

Ao ADP case
contrário NOUN obl
da ADP case
outra DET det
frase NOUN nmod
, PUNCT punct
esta DET det
frase NOUN nsubj
complexa ADJ amod
usa VERB ROOT
um DET det
verbo NOUN obj
melhor ADJ amod
, PUNCT punct
criando VERB advcl
um DET det
cenário NOUN obj
diferente ADJ amod
. PUNCT punct


Understanding the root of a sentence: https://universaldependencies.org/pt/dep/root.html

In [12]:
def find_root_of_sentence(doc):
    root_token = None
    for token in doc:
        if (token.dep_ == "ROOT"):
            root_token = token
    return root_token

root_1 = find_root_of_sentence(doc_1)
root_2 = find_root_of_sentence(doc_2)
print(root_1, root_2)
print()

ancestors = [t.text for t in root_1.ancestors]
children = [t.text for t in root_1.children]
print(root_1.text, "\t", root_1.i, "\t", 
    root_1.pos_, "\t", root_1.dep_, "\t", 
    ancestors, "\t", children)
print()

ancestors = [t.text for t in root_2.ancestors]
children = [t.text for t in root_2.children]
print(root_2.text, "\t", root_2.i, "\t", 
    root_2.pos_, "\t", root_2.dep_, "\t", 
    ancestors, "\t", children)
print()

frase usa

frase 	 4 	 NOUN 	 ROOT 	 [] 	 ['Isso', 'aqui', 'é', 'uma', 'simples', 'português', '.']

usa 	 9 	 VERB 	 ROOT 	 [] 	 ['contrário', 'frase', 'verbo', 'criando', '.']



In [24]:
def find_subject(doc):
    subject = None
    for token in doc:
        if (token.dep_ == "nsubj"):
            subject = token
    return subject

def extract_clause(doc, root):
    subject = find_subject(doc)
    noun = None
    verb = None
    if root.pos_ == "NOUN":
        noun = root
        for child in root.children:
            if child.dep_ == "cop":
                verb = child
    elif root.pos_ == "VERB":
        verb = root
        for child in root.children:
            if child.dep_ == "obj":
                noun = child
    return (subject, verb, noun)

print(extract_clause(doc_1, find_root_of_sentence(doc_1)))
print(extract_clause(doc_2, find_root_of_sentence(doc_2)))

Isso
frase
(Isso, é, frase)
(frase, usa, verbo)


In [29]:
sample_text = 'Fica estabelecido que o pagamento do adicional de periculosidade aos empregados da empresa relacionada acima, que façam jus a tais benefícios, nos termos da legislação em vigor, será devido de forma proporcional ao período de exposição ao risco, calculado em conformidade com a planilha assinada pelo empregado e empregador. O fato de ser efetuado o pagamento do percentual correspondente ao índice apurado a título de adicional de periculosidade não exime a empresa signatária do presente instrumento em envidar esforços no sentido da melhoria das condições de trabalho, sendo que, após neutralizado ou eliminado o risco, será indevido o pagamento do referido adicional. E por estarem as partes justas e acordadas, arquivam o presente Acordo Coletivo de Trabalho, perante  a Secretaria de Relações do Trabalho, do Ministério do Trabalho e Emprego em Brasília/DF, para que surtam seus jurídicos e legais efeitos.'
sample_doc = nlp(sample_text)
sentences = list(sample_doc.sents)
len(sentences)

for sentence in sentences:
    root = find_root_of_sentence(sentence)
    print(root)
    print(extract_clause(sentence, root))

estabelecido
(que, estabelecido, None)
fato
(None, None, fato)
arquivam
(Acordo, arquivam, None)
