In [19]:
import conllu
import pandas as pd
from tqdm import tqdm
import numpy as np

http://www.nilc.icmc.usp.br/semanticnlp/index.php?id=index&id_sub=principal&dir_sub=includes/projects/propbankbr&dir=includes/projects/propbankbr&lang=pt-br#palmeretal2005

Índice: Número da palavra na frase.
Forma: A forma original da palavra na frase.
Lema: O lema ou a forma base da palavra.
POS (Part of Speech): Categoria gramatical da palavra (por exemplo, n = substantivo, v = verbo, adj = adjetivo, etc.).
Características Morfológicas: Informações morfológicas da palavra (por exemplo, gênero e número).
ID da Cabeça (Head ID): Índice da palavra que é a cabeça da dependência.
Relação de Dependência: Relação de dependência entre a palavra e sua cabeça (por exemplo, SUBJ = sujeito, OBJ = objeto, etc.).
Verificação de Sujeito Nulo (Null Subject Check): Indica se a palavra está envolvida em uma verificação de sujeito nulo (Y = sim, N = não).
Lema do Verbo Principal (Main Verb Lemma): O lema do verbo principal da frase.
Argumento 0 (A0): Marcador do argumento 0 (frequentemente o sujeito) do verbo.
Argumento 1 (A1): Marcador do argumento 1 (frequentemente o objeto) do verbo.
Argumento 2 (A2): Marcador do argumento 2 do verbo (se aplicável).
Argumento Modificador (AM-*): Marcadores de modificadores adicionais (por exemplo, AM-LOC para localização, AM-ADV para advérbio, etc.).

In [20]:
path = '../data/raw/propbankbr_v1.1_conll/PropBankBr_v1.1_Dep.conll.txt'

# Open the plain text file for reading; assign under 'data'
with open(path, mode="r", encoding="utf-8") as data:
    
    # Read the file contents and assign under 'annotations'
    annotations = data.read()

In [21]:
sents = annotations.split("\n\n")
sents = [sent for sent in sents if sent != '']

In [26]:
list_dict_an = []
propbank_id = 0
for sent in tqdm(sents):
    
    propbank_id += 1
    
    dict_an = {}

    tks = sent.split("\n")
    tks = [tk for tk in tks if tk != ""]
    
    list_id = []
    list_form = []
    list_lemma = []
    list_postag = []
    list_morph = []
    list_head_id = []
    list_deprel = []
    list_null_sujeito = []
    list_main_verb_lemma = []

    args_list = []
    
    
    dict_an_snt = {}
    for id_tk, tk in enumerate(tks):

        tk_an = tk.split()

        # pega as 10 caracteristicas (colunas) fixas (as restantes sao args)
        id, form, lemma, postag, morph, head_id, deprel, null_sujeito, main_verb_lemma  = tk_an[:9]
        
        id = int(id)
        form = form.replace(" ", "")
        lemma = lemma.replace(" ", "")
        postag = postag.replace(" ", "")
        morph = morph.replace(" ", "")
        head_id = head_id.replace(" ", "") 
        deprel = deprel.replace(" ", "") 
        null_sujeito = null_sujeito.replace(" ", "")
        main_verb_lemma = main_verb_lemma.replace(" ", "")
        
        
        list_id.append(id)
        list_form.append(form)
        list_lemma.append(lemma)
        list_postag.append(postag) 
        list_morph.append(morph) 
        list_head_id.append(head_id) 
        list_deprel.append(deprel) 
        list_null_sujeito.append(null_sujeito) 
        list_main_verb_lemma.append(main_verb_lemma) 

        # get args 
        args = tk_an[9:len(tk_an)]
        # format  
        args = [arg.replace(" ", "")  for arg in args]
        
        
        
        args_list.append(np.array(args))
        
        dict_an_snt.update({
            id_tk:{
                "id": id,
                "form": form,
                "lemma": lemma,
                "postag": postag, 
                "morph": morph, 
                "head_id": head_id, 
                "deprel": deprel, 
                "null_sujeito": null_sujeito, 
                "main_verb_lemma": main_verb_lemma
            }
        })

    sentence = " ".join(list_form)
    
    
    dict_an.update({"id": "propbank" + "_" + str(propbank_id)})
    dict_an.update({"snt":sentence})
    dict_an.update({"annotated_sentence_gold":dict_an_snt})
    list_dict_an.append(dict_an)
    
    tuples_root_verb = [(i, verb) for i,  verb in enumerate(list_main_verb_lemma) if verb != "-"]
    
    roots_position, root_verbs = list(map(list, zip(*tuples_root_verb)))

    
    if -1 in roots_position:
        print("Não foi achado o root")
        
        
    args_mtx = np.array(args_list)
    args_df = pd.DataFrame(args_mtx, columns = [f"{root_verbs[i]}_{roots_position[i]}" for i in range(len(root_verbs))], index=list_id)
    # replace * with nan (all the values are ARGS or V now)
    args_df.replace('-', np.nan, inplace=True)
    
    args_df.dropna(how="all", inplace = True)

    not_root_position = [id - 1 for id in args_df.index.tolist()]

    nodes_tk_ids = set(not_root_position + roots_position)


    nodes = {}
    node_id = 0
    for tk_id in nodes_tk_ids:
        
        node_id+=1
        
        nodes.update({
            node_id: list_lemma[tk_id]
        })

    dict_an.update({"nodes": nodes})


    edge_id = 0
    edges = {}

    for col in args_df.columns:
        
        root_verb, root_verb_position = col.split("_")
        
        args_verb = args_df[col].dropna()

        for idx, arg in args_verb.items():
            
            tk_position = idx - 1
            
            lemma = list_lemma[tk_position]
            
            edge_id+=1
            edges.update({
                f"edge {edge_id}": {
                    "nodes_ids": (root_verb_position, str(tk_position)),
                    "nodes": (root_verb, lemma),
                    "value": arg
                }
            })
            
    dict_an.update({"edges": edges})

  args_df.replace('-', np.nan, inplace=True)
  args_df.replace('-', np.nan, inplace=True)
  args_df.replace('-', np.nan, inplace=True)
  args_df.replace('-', np.nan, inplace=True)
  args_df.replace('-', np.nan, inplace=True)
  args_df.replace('-', np.nan, inplace=True)
  args_df.replace('-', np.nan, inplace=True)
  args_df.replace('-', np.nan, inplace=True)
  args_df.replace('-', np.nan, inplace=True)
  args_df.replace('-', np.nan, inplace=True)
  args_df.replace('-', np.nan, inplace=True)
  args_df.replace('-', np.nan, inplace=True)
  args_df.replace('-', np.nan, inplace=True)
  args_df.replace('-', np.nan, inplace=True)
  args_df.replace('-', np.nan, inplace=True)
  args_df.replace('-', np.nan, inplace=True)
  args_df.replace('-', np.nan, inplace=True)
  args_df.replace('-', np.nan, inplace=True)
  args_df.replace('-', np.nan, inplace=True)
  args_df.replace('-', np.nan, inplace=True)
  args_df.replace('-', np.nan, inplace=True)
  args_df.replace('-', np.nan, inplace=True)
  args_df.

In [27]:
dict_an

{'id': 'propbank_3348',
 'snt': 'Além_de Mauro_Salles que surpreendeu a galera a o revelar seu côté de fotógrafo profissional em o ínico de a carreira , o foco principal de o encontro foi a mulher de J.R.Duran , Alexandra_Brochen .',
 'annotated_sentence_gold': {0: {'id': 1,
   'form': 'Além_de',
   'lemma': 'além_de',
   'postag': 'prp',
   'morph': '-',
   'head_id': '28',
   'deprel': 'ADVL',
   'null_sujeito': '-',
   'main_verb_lemma': '-'},
  1: {'id': 2,
   'form': 'Mauro_Salles',
   'lemma': 'Mauro_Salles',
   'postag': 'prop',
   'morph': 'M|S',
   'head_id': '1',
   'deprel': 'P<',
   'null_sujeito': '-',
   'main_verb_lemma': '-'},
  2: {'id': 3,
   'form': 'que',
   'lemma': 'que',
   'postag': 'pron-indp',
   'morph': 'M|S',
   'head_id': '4',
   'deprel': 'SUBJ',
   'null_sujeito': '-',
   'main_verb_lemma': '-'},
  3: {'id': 4,
   'form': 'surpreendeu',
   'lemma': 'surpreender',
   'postag': 'v-fin',
   'morph': 'PS|3S|IND',
   'head_id': '2',
   'deprel': 'N<',
   'nul