-
Notifications
You must be signed in to change notification settings - Fork 1
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
evaluate new sample of 206 entries #67
Comments
Em 688f467, incluí o arquivo |
Neste commit, excluí as entradas repetidas do arquivo
Este último tem agora 1648 entradas. Uma dessas entradas deverá ser eliminada manualmente:
A entrada corrigida, com o lema girar, está em |
|
Na amostra aleatória de 412 entradas, constituída dos três arquivos com o prefixo |
Em dd21486, testei, com sucesso, a entrada gerada automaticamente para o verbo incidir, incluída no arquivo |
Com 55691f0, fecho a issue. Pelo menos um exemplo de cada tipo da amostra foi testado com sucesso, ver, por exemplo:
|
Como foram feitos os testes? Novas entradas lexicais foram geradas a partir do corpus bosque. A partir delas, como foram geradas as sentenças de teste? E como era efetivamente sua identificação de entradas certas ou erradas? Por mim, para as entradas erradas, qual o motivo do erro? Anotação errada no corpus? Erro no script de extração? |
@arademaker , uma primeira resposta à última das perguntas acima: https://github.com/LR-POR/valex/issues/7#issuecomment-1032767089. |
@arademaker , aplicando a PorGram sobre os exemplos no LKB.
@arademaker, as sentenças de teste foram produzidas manualmente simplificando os exemplos do Bosque inseridos automaticamente nas entradas por meio da função
@arademaker, comparando o tipo atribuído ao exemplo, recorrendo à minha intuição da falante do PB, aos meus conhecimentos de expert (no sentido informático) em linguística do português, especialmente nas áreas de sintaxe, valência e semântica lexical, e aos dicionários e outros trabalhos citados. Um exemplo:
Ou seja, eu quero que a PorGram não reconheça o exemplo abaixo como gramatical:
Em vez disso, eu quero que a gramática analise estes exemplos, que se conformam à minha intuição e vão ao encontro do Dicionário gramatical do Borba (BOR):
@arademaker, além dos erros devidos ao componente de extração, o tipo de erro mais frequente são os erros de anotação ou limitações de design da anotação, que, por exemplo, não distingue entre |
O objetivo desta issue é avaliar uma segunda amostra aleatória de 206 das 2059 entradas geradas automaticamente, de modo a alcançar 20% do total (ver #66).
The text was updated successfully, but these errors were encountered: