## Testando o módulo `conllu`

Arquivo de teste e demo para analisar frases num aquivo no formato CONLLU.

O arquivo conllu `tenSents.conllu` é composto pelas 10 primeiras frases do Bosque marcado em UD. Ainda não tentei processar o Porttinari Base com este código.

Para ir direto ao ponto, veja o teste do módulo `pyconll` abaixo.

In [2]:
import conllu

Para teste, fiz um recorte de apenas 10 frases neste arquivo `tenSents.conllu`

In [4]:
data=open('data/porttinari-base/Porttinari-base_test.conllu', mode='r', encoding='utf-8')
notes=data.read()
type(notes)

str

In [5]:
#primeiros 200 caracteres
print(notes[:200])

# sent_id = FOLHA_DOC000123_SENT016
# text = O Capitão América também bajulou o tucano.
1	O	o	DET	_	Definite=Def|Gender=Masc|Number=Sing|PronType=Art	2	det	_	_
2	Capitão	Capitão	PROPN	_	_	5	nsubj	_	_



In [6]:
sents=conllu.parse(notes)
print("# frases: " + str(len(sents)))
print(sents[0])
print(type(sents[0]))
# sents[0] é uma TokenList

# frases: 1683
TokenList<O, Capitão, América, também, bajulou, o, tucano, ., metadata={sent_id: "FOLHA_DOC000123_SENT016", text: "O Capitão América também bajulou o tucano."}>
<class 'conllu.models.TokenList'>


In [7]:
meta=sents[0].metadata
print(meta)
print(type(meta))
#metadata é um dicionário Python
print("Texto original: "+meta['text'])
print("ID da frase: "+meta['sent_id'])

{'sent_id': 'FOLHA_DOC000123_SENT016', 'text': 'O Capitão América também bajulou o tucano.'}
<class 'conllu.models.Metadata'>
Texto original: O Capitão América também bajulou o tucano.
ID da frase: FOLHA_DOC000123_SENT016


In [8]:
print(sents[0][1]['upos'])

PROPN


## Testando o módulo `pyconll`
Outro módulo Python para tratamento de frases no formato CONLLU

In [9]:
import pyconll

frases = pyconll.load_from_file('data/porttinari-base/Porttinari-base_test.conllu')

review = []

# Conll objects are iterable over their sentences, and sentences are iterable
# over their tokens. Sentences also de/serialize comment information.
for sent in frases:
    lista_ud=[]
    for token in sent:
        # Tokens have attributes such as upos, head, id, deprel, etc,
        lista_ud.append((token.form, token.xpos, token.upos, token.deprel))
    review.append(lista_ud)

for ind in range(len(frases)):
    print(ind, review[ind])

0 [('O', None, 'DET', 'det'), ('Capitão', None, 'PROPN', 'nsubj'), ('América', None, 'PROPN', 'flat:name'), ('também', None, 'ADV', 'advmod'), ('bajulou', None, 'VERB', 'root'), ('o', None, 'DET', 'det'), ('tucano', None, 'NOUN', 'obj'), ('.', None, 'PUNCT', 'punct')]
1 [('A', None, 'DET', 'det'), ('Odebrecht', None, 'PROPN', 'nsubj'), ('pagou', None, 'VERB', 'root'), ('300', None, 'NUM', 'nummod'), ('%', None, 'SYM', 'obj'), ('a', None, 'ADP', 'advmod'), ('mais', None, 'ADV', 'fixed'), ('pelo', None, None, None), ('por', None, 'ADP', 'case'), ('o', None, 'DET', 'det'), ('direito', None, 'NOUN', 'obl'), ('de', None, 'ADP', 'mark'), ('explorar', None, 'VERB', 'acl'), ('o', None, 'DET', 'det'), ('aeroporto', None, 'NOUN', 'obj'), ('do', None, None, None), ('de', None, 'ADP', 'case'), ('o', None, 'DET', 'det'), ('Galeão', None, 'PROPN', 'nmod'), ('.', None, 'PUNCT', 'punct')]
2 [('No', None, None, None), ('Em', None, 'ADP', 'case'), ('o', None, 'DET', 'det'), ('começo', None, 'NOUN', 'obl

In [10]:
frases

<pyconll.unit.conll.Conll at 0x7f864028cca0>