Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

lemmatization of feminine nouns with morphologically related masculine nouns #129

Open
leoalenc opened this issue Aug 20, 2022 · 0 comments
Assignees
Labels
help wanted Extra attention is needed invalid This doesn't seem right question Further information is requested

Comments

@leoalenc
Copy link
Contributor

@arademaker, a exemplo de UniversalDependencies/UD_Portuguese-Bosque#410 (comment), essa é outra questão suscitada pela comparação sistemática entre MorphoBr e Bosque, levada a cabo no primeiro semestre do ano passado. Relaciona-se com #79. Substantivos femininos com uma forma de masculino correspondente, representando variação de sexo, são lematizados com a forma do masculino:

awk '$1 ~ /ras?$/ && $2 ~ /r\+/' *.dict | tail
zingadora	zingador+N+F+SG
zingadoras	zingador+N+F+PL
zombadora	zombador+N+F+SG
zombadoras	zombador+N+F+PL
zupadora	zupador+N+F+SG
zupadoras	zupador+N+F+PL
zurradora	zurrador+N+F+SG
zurradoras	zurrador+N+F+PL
zurzidora	zurzidor+N+F+SG
zurzidoras	zurzidor+N+F+PL

Neste exemplo, temos também cabrita cabrita+N+SG:

~/MorphoBr/nouns$ awk '$1 ~ /cabrit[oa]s?$/' *.dict
cabritas	cabra+N+DIM+F+PL
cabrita	cabrita+N+SG
cabritas	cabrita+N+PL
cabrita	cabrito+N+F+SG
cabritas	cabrito+N+F+PL
cabrito	cabrito+N+M+SG
cabritos	cabrito+N+M+PL

A forma cabrita possui sentidos que não se reduzem à noção de fêmea do animal designado por cabrito, por exemplo:

  1. Carp. Cabo (parte própria para empunhar) de serra manual

Ver:

https://aulete.com.br/cabrita
https://aulete.com.br/cabrito

A questão é se devemos sistematicamente modificar a lematização de substantivos como alunas, professora etc., seguindo o modelo do exemplo seguinte:

~/MorphoBr/nouns$ grep pastoras *.dict
nouns-p.dict:pastoras	pastora+N+F+PL

Ver:

https://aulete.com.br/pastora
https://aulete.com.br/pastor

Compare-se com:

awk '$1 ~ /professoras?$/ && $2 ~ /r\+/' *.dict
professora	professor+N+F+SG
professoras	professor+N+F+PL
turbo-professora	turbo-professor+N+F+SG
turbo-professoras	turbo-professor+N+F+PL

awk '$1 ~ /alunas?$/ && $2 ~ /o\+/' *.dict
aluna	aluno+N+F+SG
alunas	aluno+N+F+PL
professora-aluna	professor-aluno+N+F+SG
professoras-alunas	professor-aluno+N+F+PL
awk '$1 ~ /meninas?$/ && $2 ~ /o\+/' *.dict
menina	menino+N+F+SG
meninas	menino+N+F+PL
@leoalenc leoalenc added help wanted Extra attention is needed invalid This doesn't seem right question Further information is requested labels Aug 20, 2022
@leoalenc leoalenc changed the title lemmatization of femine nouns with morphologically related masculine nouns lemmatization of feminine nouns with morphologically related masculine nouns Aug 25, 2022
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
help wanted Extra attention is needed invalid This doesn't seem right question Further information is requested
Projects
None yet
Development

No branches or pull requests

2 participants