Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

create and evaluate new random sample of 205 entries #72

Closed
leoalenc opened this issue Feb 4, 2022 · 6 comments
Closed

create and evaluate new random sample of 205 entries #72

leoalenc opened this issue Feb 4, 2022 · 6 comments
Assignees
Labels
enhancement New feature or request

Comments

@leoalenc
Copy link
Contributor

leoalenc commented Feb 4, 2022

Proceder de modo análogo a #67 com uma nova amostra aleatória de 205 entradas.

@leoalenc
Copy link
Contributor Author

leoalenc commented Feb 10, 2022

Com 4f0aa7e, concluí avaliação manual da amostra, tendo detectado 45 erros, o que resulta numa acurácia de 78.05%.
@arademaker, como nas amostras de #66 e #67, os erros decorrem das seguintes causas:

  1. erros de anotação do UD_Portuguese-Bosque
  2. limitações do esquema de anotação desse treebank
  3. limitações dos módulos em Python de extração de valências (tanto o módulo do @lucasrct quanto os meus scripts de construção automática de entradas, ver implementar funções em Python para extração de verbos tools#39)

Exemplos de 1

; annotation error: passive "se"
; no pronominal verb (FER)
registar_2 := refl-int-verb-lex & ; ERROR:trans-verb-lex
  [ STEM < "registar" >,
    SYNSEM.LKEYS.KEYREL.PRED "_registar_v_2_rel" ]
  """
  Não se prevê, aliás, que até ao final do mês se registem alterações com significado.
  """. 

; annotation error: post-verbal subject incorrectly annotated as obj
faltar_2 := trans-verb-lex & ; ERROR:nonrefl-int-verb-lex
  [ STEM < "faltar" >,
    SYNSEM.LKEYS.KEYREL.PRED "_faltar_v_2_rel" ]
  """
  Embora ainda faltem três dias@obj->nsubj@ de prova, a verdade é que o seu momento de forma é excelente, aliás como o comprovam os resultados alcançados na presente temporada.
  """. 

Exemplo de 2: em-PP é anotada como obl, mas integra a valência verbal

; pronominal verb (BOR, FER)
; abstract em-PP is a complement of the pronominal verb
; FER suggests this PP is a complement
refugiar_1 := trans-verb-lex & ; ERROR:refl-ine-obj-verb-lex (TODO: refl-loc-obj-verb-lex)
  [ STEM < "refugiar" >,
    SYNSEM.LKEYS.KEYREL.PRED "_refugiar_v_1_rel" ]
  """
  Traumatizado, refugio-me no Canal 1, onde se estreia Tudo pelos Outros, com Vítor Norte a mostrar que estaria muito melhor num palco.
  """. 

Exemplo de 3: o verbo é pronominal, conforme Borba (1991) e Perini (2019), entre outros, mas o expletivo não ocorre com o particípio passado.

; annotation of past participle of pronominal verb represents source of error for valence extraction
; pronominal verb with a por-PP complement (BOR)
; C181 is non-standard
; C60	VSubj>Experiencer      Refl      V      por NP>Stimulus
;	Belinha se apaixonou pelo professor.
;	‘Belinha fell in love with the teacher’ 
; C181	VSubj>Experiencer      V      por NP>Stimulus
;	Belinha apaixonou pelo professor.
;		‘Belinha fell in love with the teacher’ (PER19)
; new-ditrans.tdl:apaixonar_v3 := nom-acc-per-ditransitive-verb-lex & ; ERROR:refl-per-obj-verb-lex
; sample-1647-entries.tdl:apaixonar_1 := refl-per-obj-verb-lex
apaixonar_2 := nonrefl-per-obj-verb-lex & ; ERROR:refl-por-obj-verb-lex
  [ STEM < "apaixonar" >,
    SYNSEM.LKEYS.KEYREL.PRED "_apaixonar_v_2_rel" ]
  """
  Presidente diz estar apaixonado por June
  """. 

Para fechar a issue, aplicarei a gramática na análise de exemplos simplificados.

@leoalenc
Copy link
Contributor Author

@arademaker, o erro do exemplo do tipo 1 do meu comentário anterior constitui objeto desta issue: UniversalDependencies/UD_Portuguese-Bosque#394.

@leoalenc
Copy link
Contributor Author

leoalenc commented Feb 10, 2022

Com exceção do tipo nonrefl-goa-obj-verb-lex, todos os tipos da amostra já haviam sido testados em #67. Os resultados do teste de dois verbos com o tipo nonrefl-goa-obj-verb-lex, a saber partir_2 e dar_5:

os estudantes partiram para o sertão 2 298
a artista partiu para a briga 1 196
a janela dava para o quintal 1 362

As entradas correspondentes geradas automaticamente a partir do UD_Portuguese-Bosque:

; C105	VSubj>Theme     V      para NP>Goal
; Os aventureiros partiram para o sertão.
; ‘the adventurers left for the backlands’
; [...] "vou partir para a briga" ‘I am going to start a fight’ [..]. (PER19)
; para-PP with NP denoting an action, e.g., "partir para o tapa" (BOR)
; relative variant with para-PP complement (FER)
partir_2 := nonrefl-goa-obj-verb-lex & ; BOR 
  [ STEM < "partir" >,
    SYNSEM.LKEYS.KEYREL.PRED "_partir_v_2_rel" ]
  """
  A saída, diz, «é partir para o ataque».
  """. 

dar_5 := nonrefl-goa-obj-verb-lex & ; BOR
  [ STEM < "dar" >,
    SYNSEM.LKEYS.KEYREL.PRED "_dar_v_5_rel" ]
  """
  A comparação é perversa e dá para os dois lados.
  """. 

leoalenc added a commit that referenced this issue Feb 10, 2022
@leoalenc
Copy link
Contributor Author

Com 64bf5d3, posso fechar a issue.

@arademaker
Copy link
Contributor

arademaker commented Feb 13, 2022

Sobre #72 (comment)

  1. Como no segundo exemplo do caso 1 vc decide por subj vs obj?

  2. O que seriam BOR, FER? Se temos argumento para considerar que o verbo refugiar pede um complemento em-PP, porque a anotação UD não poderia ser diferente?

  3. Não ficou claro a explicação do motivo do código não estar funcionando no caso 3. E qual seria a mudança a ser feita no código para resolver a limitação. O que é C105, C60 e C181?

@leoalenc
Copy link
Contributor Author

leoalenc commented Feb 14, 2022

Sobre #72 (comment)

  1. Como no segundo exemplo do caso 1 vc decide por subj vs obj?

@arademaker , vejamos:

; annotation error: post-verbal subject incorrectly annotated as obj
faltar_2 := trans-verb-lex & ; ERROR:nonrefl-int-verb-lex
  [ STEM < "faltar" >,
    SYNSEM.LKEYS.KEYREL.PRED "_faltar_v_2_rel" ]
  """
  Embora ainda **faltem** três dias@obj->nsubj@ de prova, a verdade é que o seu momento de forma é excelente, aliás como o comprovam os resultados alcançados na presente temporada.
  """. 

Observe que o verbo em negrito está na terceira pessoa do plural, tal como o NP três dias. Em português, não existe concordância de um verbo finito com o objeto desse verbo. A concordância dá-se com o sujeito. Se três dias não é sujeito, mas objeto, como você justificaria a forma do verbo?
Sujeitos pós-verbais constituem um dos mais estudados capítulos da sintaxe das línguas românicas. No português contemporâneo, normalmente ocorre com os chamados verbos inacusativos:

Chegaram os livros. (português standard)
Chegou os livros. (português não standard)

O verbo faltar é intransitivo no exemplo em tela: algo falta, i.e., inexiste, é necessário (para alguma coisa) etc.:

https://aulete.com.br/faltar
https://www.infopedia.pt/dicionarios/lingua-portuguesa/faltar

Possui, nessa acepção, um único argumento. Se analisássemos esse argumento como objeto, como erroneamente faz o Bosque, o verbo teria de ser impessoal, ou seja, sem sujeito. Verbos impessoais, contudo, são conjugados na língua padrão apenas na terceira pessoal do singular. Enfim, trata-se de erro grosseiro de anotação, que afeta outros exemplos, conforme issue que vou abrir no repositório do Bosque.

  1. O que seriam BOR, FER?

Veja, @arademaker, o início do arquivo random-sample-50-entries.tdl, o primeiro da série, conforme #66. Eventualmente, vou juntar todas as amostras aleatórias revisadas num único arquivo.

Se temos argumento para considerar que o verbo refugiar pede um complemento em-PP, porque a anotação UD não poderia ser diferente?

@arademaker, não sei se entendi sua pergunta. Quem sabe você mesmo não a responde? Sugiro reler Alencar et al. (2022), na parte que trata do obl.
Seja como for, reafirmo que se trata de limitação da teoria de UD, sob o ponto de vista da construção de uma gramática com base na teoria da HPSG e também sob a perspectiva de um modelo como o do Propbank, não distinguir entre complementos e adjuntos quando se trata de oblíquos. Não estou querendo dizer que essa limitação seja eliminada em UD, apenas que ela cria dificuldades para a extração das valências, dificuldade essa que pode ser superada se incluirmos informações de um propbank, conforme propus em https://github.com/LR-POR/valex/issues/5.

  1. Não ficou claro a explicação do motivo do código não estar funcionando no caso 3.

Simples, @arademaker. Se não existe expletivo realizado, o código não poderá, dada a arquitetura atual, inserir expl na moldura. Não vejo isso como erro, mas limitação.

E qual seria a mudança a ser feita no código para resolver a limitação.

@arademaker , no momento não saberia dizer exatamente. Vou pensar sobre o assunto. Você tem alguma ideia? Seja como for, vários dicionários, inclusive o de valências do Perini (2019), e o levantamento de verbos do Verbo-Web especificam quais verbos exigem ou admitem um reflexivo expletivo (os chamados verbos pronominais). Por outro lado, é possível que alguns verbos pronominais que não ocorrem com expletivo no particípio passado no Bosque ocorram com o expletivo noutras formas que não o particípio passado no mesmo treebank.

O que é C105, C60 e C181?

@arademaker , veja Perini (2019).

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
enhancement New feature or request
Projects
None yet
Development

No branches or pull requests

2 participants