Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

evaluate entries automatically extracted from Bosque #66

Closed
leoalenc opened this issue Jan 4, 2022 · 3 comments
Closed

evaluate entries automatically extracted from Bosque #66

leoalenc opened this issue Jan 4, 2022 · 3 comments
Assignees
Labels
documentation Improvements or additions to documentation enhancement New feature or request help wanted Extra attention is needed

Comments

@leoalenc
Copy link
Contributor

leoalenc commented Jan 4, 2022

Avaliar a correção das entradas da amostra aleatória de 50 das 2059 entradas automaticamente construídas a partir de dados do UD_Portuguese-Bosque.

@leoalenc leoalenc added documentation Improvements or additions to documentation enhancement New feature or request help wanted Extra attention is needed labels Jan 4, 2022
leoalenc added a commit that referenced this issue Jan 4, 2022
@leoalenc leoalenc changed the title evaluate entries automaticaaly extracted from Bosque evaluate entries automatically extracted from Bosque Jan 4, 2022
leoalenc added a commit that referenced this issue Jan 5, 2022
@leoalenc
Copy link
Contributor Author

leoalenc commented Jan 5, 2022

Em c92eb26, incluí random-sample-50-with-examples.tdl. Este arquivo contém a mesma amostra aleatória de 50 entradas de random-sample-50-entries.tdl, mas se diferencia por conter exemplos em docstrings, conforme o commit comentado aqui. Incluí também amostra adicional de 156 novas entradas aleatórias.
A amostra de 50 entradas e a de 156 perfazem 10% do total de 2059 de new-lexicon-rec.tdl (inserido em 0058bda), de onde foram extraídas.
A amostra random-sample-50-with-examples.tdl contém, além de exemplos, anotações adicionais nos exemplos marcadas com @, que podem indicar erros de anotação do UD_Portuguese-Bosque.
@arademaker , seria interessante fundir os dois arquivos random-sample-50-entries.tdl e random-sample-50-with-examples.tdl num só. Alguma ideia de como fazer isso automaticamente?

leoalenc added a commit that referenced this issue Jan 20, 2022
@leoalenc
Copy link
Contributor Author

leoalenc commented Jan 20, 2022

efda56d resolve esta issue. Fiz uma avaliação manual da amostra aleatória de 156 entradas e copiei as informações do arquivo random-sample-50-entries.tdl para o random-sample-50-with-examples.tdl, fazendo, ao mesmo tempo, uma revisão da avaliação anterior.
A avaliação baseia-se, quase sempre, nos dicionários listados no início do arquivo random-sample-50-entries.tdl. Por exemplo, seja a entrada seguinte:

ligar_1 := nonrefl-goa-obj-verb-lex & ; BOR
  [ STEM < "ligar" >,
    SYNSEM.LKEYS.KEYREL.PRED "_ligar_v_1_rel" ]
  """
  No dia seguinte ligou para mim, e disse que estava interessada.
  """. 

A sigla BOR no comentário da primeira linha assinala que a valência correspondente está contemplada no Dicionário gramatical de verbos do português contemporâneo do Brasil, organizado por Francisco da Silva Borba (2. ed. São Paulo: Editora da UNESP, 1991).
Em apenas dois casos não encontrei confirmação na literatura para o tipo atribuído automaticamente e que considerei correto. Esses casos estão identificados pela abreviatura LEO.
Na amostra aleatória de 206 entradas (somando os dois arquivos), constatei 46 erros (identificados por ERROR na primeira linha da entrada), perfazendo acurácia de 77.7%. Um exemplo de erro anotado com identificação do tipo correto:

; para-PP or a-PP is complement (BOR)
; TODO: nom-acc-rec-ditransitive-verb-lex (not exactly a recipient)
relegar_1 := trans-verb-lex & ; ERROR:nom-acc-goa-ditransitive-verb-lex
  [ STEM < "relegar" >,
    SYNSEM.LKEYS.KEYREL.PRED "_relegar_v_1_rel" ]
  """
  No ultra-sensível debate que opõe na Alemanha os que gostariam de relegar o Holocausto para@obj?@ o lugar dum mero acontecimento histórico e os que pensam que devem assumir, ainda hoje, uma responsabilidade, Friedmann adverte:
  """. 

O erro acima decorreu de que o PP introduzido por para não foi analisado no Bosque como argumento do verbo, contrariamente à análise do dicionário de Borba, que trata esse sintagma como complemento.

leoalenc added a commit that referenced this issue Jan 20, 2022
@leoalenc
Copy link
Contributor Author

Neste commit, eliminei o arquivo redundante random-sample-50-with-examples.tdl, cujas informações transferi para random-sample-50-entries.tdl.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
documentation Improvements or additions to documentation enhancement New feature or request help wanted Extra attention is needed
Projects
None yet
Development

No branches or pull requests

2 participants