Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

tokens repetidos na tabela de formas #1

Closed
leoalenc opened this issue May 3, 2022 · 5 comments
Closed

tokens repetidos na tabela de formas #1

leoalenc opened this issue May 3, 2022 · 5 comments
Assignees
Labels
question Further information is requested

Comments

@leoalenc
Copy link
Contributor

leoalenc commented May 3, 2022

@juliana-gurgel, no momento, alguns tokens estão repetidos na tabela do arquivo sn-yrl-dict.txt:

iepé iepé NUM
iepé iepé QUANT
iepé INDF
iepé NUM

pu N
pu pu NUM

Não entendi a duplicação de categorias NUM e QUANT: não seria a mesma coisa usando terminologia diferente? Por outro lado, existe mesmo pu pu como numeral?

@leoalenc leoalenc added the question Further information is requested label May 3, 2022
@leoalenc leoalenc self-assigned this May 3, 2022
@juliana-gurgel
Copy link
Collaborator

Professor, a distinção entre quantificador e numeral foi feita com base na distinção que Cruz faz sobre quantificação contínua e quantificação discreta. No PIBIC fizemos essa escolha, mas na minha pesquisa de mestrado optei pela etiqueta NUM para as duas categorias (utilizando a terminologia do UD tagset). Compartilhei agora com o senhor por e-mail um arquivo que elaborei na época do PIBIC, que serviu também para a minha pesquisa.
No Vocabulário de Navarro consta a entra "mukũipú (ou pu pu) (num.) - dez", mas de fato não encontrei ocorrência dessa forma nas sentenças do livro. Mesmo assim deixei "pu pu" no nosso dicionário para caso essa forma apareça posteriormente em outros textos que adicionarmos ao nosso corpus.

@leoalenc
Copy link
Contributor Author

leoalenc commented May 3, 2022

Professor, a distinção entre quantificador e numeral foi feita com base na distinção que Cruz faz sobre quantificação contínua e quantificação discreta. No PIBIC fizemos essa escolha, mas na minha pesquisa de mestrado optei pela etiqueta NUM para as duas categorias (utilizando a terminologia do UD tagset). Compartilhei agora com o senhor por e-mail um arquivo que elaborei na época do PIBIC, que serviu também para a minha pesquisa. No Vocabulário de Navarro consta a entra "mukũipú (ou pu pu) (num.) - dez", mas de fato não encontrei ocorrência dessa forma nas sentenças do livro. Mesmo assim deixei "pu pu" no nosso dicionário para caso essa forma apareça posteriormente em outros textos que adicionarmos ao nosso corpus.

Obrigado, @juliana-gurgel. Certo, então mantemos pu pu.
Por enquanto, para não nos distanciarmos muito do que foi feito no Nheentiquetador (na conversa de quinta, explico o motivo), podemos manter QUANT e NUM como categorias distintas, seguindo Cruz (2011). Nesse caso, todos é QUANT, três é NUM, por exemplo.
Desse modo, iepé iepé seria QUANT ou NUM? Ou INDF?

@leoalenc
Copy link
Contributor Author

leoalenc commented May 3, 2022

@juliana-gurgel , para justificar duas tags para iepé iepé, precisaríamos de duas sentenças com essa expressão, uma com QUANT (INDF?), outra com NUM. Tem exemplos disso?

@juliana-gurgel
Copy link
Collaborator

Professor, abaixo estão os exemplos de iepé iepé tal qual aparecem no arquivo que lhe enviei. Entretanto, percebo agora que cometi um equívoco na classificação como numeral. O senhor concorda?
Agora, classificaria como INDF. Se fosse utilizar a terminologia das Dependências Universais, classificaria como PRON. Está correto?

Numeral:
Nhaã pituna suí, paá, iepé iepé kunhãmuku-itá usasá akiti.
Contam que, desde aquela noite, as moças, uma a uma, passaram para lá.

Pronome quantificador:
Aikué iepé iepé ukuau uaá upinaitika.
Há alguns que sabem pescar.

O link para o arquivo mencionado: https://docs.google.com/document/d/11cgXUgDEG_wHG6fbE-FPt_O_NE9VIZfN6k81gTLZBlM/edit

@leoalenc
Copy link
Contributor Author

leoalenc commented May 4, 2022

Concordo, @juliana-gurgel, apenas INDF no segundo exemplo. No entanto, no primeiro, parece que temos uma expressão idiomática. Vou abrir issue própria para tratar disso.

Contam que, desde aquela noite, as moças, uma a uma, passaram para lá.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
question Further information is requested
Projects
None yet
Development

No branches or pull requests

2 participants