evaluate new sample of 206 entries #67

leoalenc · 2022-01-26T11:14:12Z

O objetivo desta issue é avaliar uma segunda amostra aleatória de 206 das 2059 entradas geradas automaticamente, de modo a alcançar 20% do total (ver #66).

leoalenc · 2022-01-26T22:20:13Z

Em 688f467, incluí o arquivo random-sample-206-entries.tdl, atendendo ao objetivo desta issue. Numa primeira avaliação dessas entradas, a acurácia foi 79.13%.
Também fiz algumas alterações nas amostras aleatórias anteriores, amostras essas referidas em #66.
Antes de fechar a issue, vou dar mais uma passada nas entradas geradas.

leoalenc · 2022-01-26T22:27:57Z

Com 9d35f1e, incluí exemplos nas 1854 entradas que ainda não os tinham. O arquivo random-sample-206-entries.tdl, referido em 688f467, constitui uma amostra aleatória dessas entradas.

leoalenc · 2022-01-27T14:13:51Z

Neste commit, excluí as entradas repetidas do arquivo sample-1854-entries.tdl, ou seja, as entradas da amostra aleatória random-sample-206-entries.tdl. Desse modo, as 2059 entradas de new-lexicon-rec.tdl se distribuem nos seguintes arquivos:

random-sample-50-entries.tdl
random-sample-156-entries.tdl
random-sample-206-entries.tdl
sample-1854-entries.tdl

Este último tem agora 1648 entradas. Uma dessas entradas deverá ser eliminada manualmente:

gerir_1 := nonrefl-ine-obj-verb-lex &
  [ STEM < "gerir" >,
    SYNSEM.LKEYS.KEYREL.PRED "_gerir_v_1_rel" ]
  """
  Além do Museu do Ar, o projecto gira em torno do parque temático propriamente dito.
  """.

A entrada corrigida, com o lema girar, está em random-sample-206-entries.tdl, conforme este comentário.
Deverei renomear sample-1854-entries.tdl como sample-1647-entries.tdl.

leoalenc · 2022-01-27T14:26:52Z

Neste commit, excluí as entradas repetidas do arquivo sample-1854-entries.tdl, ou seja, as entradas da amostra aleatória random-sample-206-entries.tdl. Desse modo, as 2059 entradas de new-lexicon-rec.tdl se distribuem nos seguintes arquivos:

random-sample-50-entries.tdl

random-sample-156-entries.tdl

random-sample-206-entries.tdl

sample-1854-entries.tdl

Este último tem agora 1648 entradas. Uma dessas entradas deverá ser eliminada manualmente:
gerir_1 := nonrefl-ine-obj-verb-lex &
  [ STEM < "gerir" >,
    SYNSEM.LKEYS.KEYREL.PRED "_gerir_v_1_rel" ]
  """
  Além do Museu do Ar, o projecto gira em torno do parque temático propriamente dito.
  """. 
A entrada corrigida, com o lema girar, está em random-sample-206-entries.tdl, conforme este comentário. Deverei renomear sample-1854-entries.tdl como sample-1647-entries.tdl.

Correções feitas com 8c91adc e d794bb0.

leoalenc · 2022-01-27T14:35:52Z

Na amostra aleatória de 412 entradas, constituída dos três arquivos com o prefixo random-sample, perfazendo 20% do total de 2059 entradas geradas automaticamente, detectei 89 erros, o que representa uma acurácia de 78.4%.

leoalenc · 2022-01-28T19:49:13Z

Em dd21486, testei, com sucesso, a entrada gerada automaticamente para o verbo incidir, incluída no arquivo random-sample-206-entries.tdl.

leoalenc · 2022-02-04T15:24:31Z

Com 55691f0, fecho a issue. Pelo menos um exemplo de cada tipo da amostra foi testado com sucesso, ver, por exemplo:

634 o artista dividiu a cena com a estudante 1 226
635 tive de dividir os alunos em grupos 2 1499
636 ele ficou de discutir a questão com a professora 1 740
637 eles querem revestir o piso com madeira 1 565
638 comentei os beijos com uma amiga 1 125
639 as aulas combinam teoria com prática 1 162
640 os hospitais consumiam uma fortuna com internações 1 148
641 ele trocaria a preocupação por a descontração 1 196
642 ele culpou o artista de homicídio 1 384
643 o juiz converteu a prisão em multa 4 251
644 o jogador falou uma bobagem sobre o time 1 314
645 o país passou de euforia para depressão 4 688
646 reparei em a bandeira 1 92
647 será que ela está pensando em mim 2 1400
648 ele caiu em o ostracismo 1 149
649 eles não conseguiram acabar com a pobreza 2 872
650 os clientes poderão servir-se de o ravióli 1 413
651 ele referia-se a um longo telefonema 2 94
652 depararam-se com uma estranha normalidade 4 137
653 o regime caracterizava-se por a austeridade 1 79
654 o jogador integrou-se em as movimentações 1 115
655 eles têm contribuído para que o artista não caia em o esquecimento 1 2073
656 ela responde por o pagamento 1 118

arademaker · 2022-02-08T11:56:36Z

Como foram feitos os testes? Novas entradas lexicais foram geradas a partir do corpus bosque. A partir delas, como foram geradas as sentenças de teste? E como era efetivamente sua identificação de entradas certas ou erradas?

Por mim, para as entradas erradas, qual o motivo do erro? Anotação errada no corpus? Erro no script de extração?

leoalenc · 2022-02-08T16:11:28Z

Como foram feitos os testes? Novas entradas lexicais foram geradas a partir do corpus bosque. A partir delas, como foram geradas as sentenças de teste? E como era efetivamente sua identificação de entradas certas ou erradas?

Por mim, para as entradas erradas, qual o motivo do erro? Anotação errada no corpus? Erro no script de extração?

@arademaker , uma primeira resposta à última das perguntas acima: https://github.com/LR-POR/valex/issues/7#issuecomment-1032767089.

leoalenc · 2022-02-08T16:39:42Z

Como foram feitos os testes?

@arademaker , aplicando a PorGram sobre os exemplos no LKB.

Novas entradas lexicais foram geradas a partir do corpus bosque. A partir delas, como foram geradas as sentenças de teste?

@arademaker, as sentenças de teste foram produzidas manualmente simplificando os exemplos do Bosque inseridos automaticamente nas entradas por meio da função ValenceExtractor.insert_examples.

E como era efetivamente sua identificação de entradas certas ou erradas?

@arademaker, comparando o tipo atribuído ao exemplo, recorrendo à minha intuição da falante do PB, aos meus conhecimentos de expert (no sentido informático) em linguística do português, especialmente nas áreas de sintaxe, valência e semântica lexical, e aos dicionários e outros trabalhos citados. Um exemplo:

; annotation error: no active form, passive participle without auxiliary OR
; past participle of pronominal verb
; annotation of past participle of pronominal verb represents source of error for valence extraction
; two complements (direct object and a-PP) or pronominal verb governing an a-PP (BOR)
subordinar_1 := nonrefl-dat-obj-verb-lex & ; ERROR:nom-acc-dat-obj-verb-lex OR refl-dat-obj-verb-lex
  [ STEM < "subordinar" >,
    SYNSEM.LKEYS.KEYREL.PRED "_subordinar_v_1_rel" ]
  """
  O órgão responsável pelo mercado de telebingos é a Susep (Superintendência de Seguros Privados), uma autarquia federal subordinanda ao Ministério da Fazenda.
  """.

Ou seja, eu quero que a PorGram não reconheça o exemplo abaixo como gramatical:

nonrefl-dat-obj-verb-lex

*A Susep (Superintendência de Seguros Privados) subordina ao Ministério da Fazenda.

Em vez disso, eu quero que a gramática analise estes exemplos, que se conformam à minha intuição e vão ao encontro do Dicionário gramatical do Borba (BOR):

refl-dat-obj-verb-lex

A Susep (Superintendência de Seguros Privados) subordina-se ao Ministério da Fazenda.

nom-acc-dat-obj-verb-lex

O governo federal subordinou a Susep (Superintendência de Seguros Privados) ao Ministério da Fazenda.
A Susep (Superintendência de Seguros Privados) foi subordinada ao Ministério da Fazenda.

Por mim, para as entradas erradas, qual o motivo do erro? Anotação errada no corpus? Erro no script de extração?

@arademaker, além dos erros devidos ao componente de extração, o tipo de erro mais frequente são os erros de anotação ou limitações de design da anotação, que, por exemplo, não distingue entre obl valencial e obl não valencial, conforme Alencar et al. (2022).

leoalenc added documentation Improvements or additions to documentation enhancement New feature or request labels Jan 26, 2022

leoalenc self-assigned this Jan 26, 2022

This was referenced Jan 26, 2022

incorrect lemmatization of verb "despedaçar" UniversalDependencies/UD_Portuguese-Bosque#403

Closed

orthographic error UniversalDependencies/UD_Portuguese-Bosque#402

Closed

leoalenc added a commit that referenced this issue Jan 26, 2022

solves most #67

688f467

leoalenc added a commit that referenced this issue Jan 26, 2022

the rest 1854 entries with examples #66 #67

9d35f1e

leoalenc added a commit that referenced this issue Jan 27, 2022

eliminating repeated entries #67

669bbe2

leoalenc added a commit that referenced this issue Jan 27, 2022

eliminates gerir_1 #67

8c91adc

leoalenc added a commit that referenced this issue Jan 27, 2022

renames file #67

d794bb0

leoalenc mentioned this issue Jan 27, 2022

populate verb type hierarchy #19

Closed

leoalenc added a commit that referenced this issue Jan 28, 2022

#25 #59 #67 #68

dd21486

leoalenc mentioned this issue Jan 30, 2022

implementar funções em Python para extração de verbos LR-POR/tools#39

Closed

leoalenc added a commit that referenced this issue Feb 4, 2022

solves #67

55691f0

leoalenc closed this as completed Feb 4, 2022

leoalenc mentioned this issue Feb 4, 2022

create and evaluate new random sample of 205 entries #72

Closed

leoalenc added a commit that referenced this issue Feb 10, 2022

solves most #72, minor corrections #66 #67

4f0aa7e

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

evaluate new sample of 206 entries #67

evaluate new sample of 206 entries #67

leoalenc commented Jan 26, 2022

leoalenc commented Jan 26, 2022

leoalenc commented Jan 26, 2022 •

edited

Loading

leoalenc commented Jan 27, 2022

leoalenc commented Jan 27, 2022

leoalenc commented Jan 27, 2022

leoalenc commented Jan 28, 2022

leoalenc commented Feb 4, 2022

arademaker commented Feb 8, 2022

leoalenc commented Feb 8, 2022

leoalenc commented Feb 8, 2022

evaluate new sample of 206 entries #67

evaluate new sample of 206 entries #67

Comments

leoalenc commented Jan 26, 2022

leoalenc commented Jan 26, 2022

leoalenc commented Jan 26, 2022 • edited Loading

leoalenc commented Jan 27, 2022

leoalenc commented Jan 27, 2022

leoalenc commented Jan 27, 2022

leoalenc commented Jan 28, 2022

leoalenc commented Feb 4, 2022

arademaker commented Feb 8, 2022

leoalenc commented Feb 8, 2022

leoalenc commented Feb 8, 2022

leoalenc commented Jan 26, 2022 •

edited

Loading