Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

como lidar com símbolos e abreviaturas? #71

Open
leoalenc opened this issue Feb 16, 2020 · 0 comments
Open

como lidar com símbolos e abreviaturas? #71

leoalenc opened this issue Feb 16, 2020 · 0 comments
Assignees
Labels
longrun Will take a long term effort to solve. question Further information is requested

Comments

@leoalenc
Copy link
Contributor

leoalenc commented Feb 16, 2020

Nos recursos que utilizamos, existem vários casos de abreviaturas e símbolos tratados como substantivos. As formas geram diminutivos improváveis. Desse modo, seria interessante considerar uma anotação especial, no futuro, para essas formas, até porque não parecem ocorrer com a mesma distribuição de substantivos em português. No exemplo abaixo, “ha” não deve ser pronunciado como [ha] ou [a], mas como [aga’a] ou “hectare”.

?O ha é uma unidade de medida.

Uma primeira abordagem para detecção dessas formas é o comando seguinte:
~/MorphoBr$ grep -Ei "^[bcdfghjklmnpqrstvwxyz][aeiou][[:space:]]" nouns/*.dict

nouns/a-c.delaf.dict:bi bi+N+M+SG
...
nouns/j-p.delaf.dict:ki ki+N+M+SG
nouns/j-p.delaf.dict:li li+N+M+SG
nouns/j-p.delaf.dict:mi mi+N+M+SG
nouns/j-p.delaf.dict:mu mu+N+M+SG
...
nouns/nouns.gfl.dict:Ba ba+N+M+SG
nouns/nouns.gfl.dict:Ca ca+N+M+SG
nouns/nouns.gfl.dict:go go+N+M+SG
nouns/nouns.gfl.dict:ha ha+N+M+PL
nouns/nouns.gfl.dict:ha ha+N+M+SG
nouns/nouns.gfl.dict:ji ji+N+M+SG
...
nouns/nouns.gfl.dict:re re+N+M+SG
nouns/nouns.gfl.dict:ti ti+N+M+SG
nouns/q-z.delaf.dict:si si+N+M+SG
nouns/q-z.delaf.dict:vu vu+N+M+SG

Eu chequei todas essas formas em dois dos dicionários de referência e cheguei à seguinte lista de itens que não parecem funcionar como substantivos em português, pelo menos do ponto de vista da derivação morfológica:

ha (símbolo de hectare)

Ba e Ca (Símbolos de elementos químicos)

Essas formas geram os seguintes diminutivos, que não parecem aceitáveis, seguindo o modelo geral de casinha e casazinha a partir de casa:

hazinho
hinho
bazinho
binho
cazinho
cinho

Seja como for, na próxima versão do gerador de diminutivos, vou excluir essas três abreviaturas ao importar as formas base.

@leoalenc leoalenc added the question Further information is requested label Feb 16, 2020
@leoalenc leoalenc added the longrun Will take a long term effort to solve. label Feb 16, 2020
@leoalenc leoalenc changed the title Exclude non-words? How to handle symbols and abbreviations? Feb 16, 2020
@leoalenc leoalenc changed the title How to handle symbols and abbreviations? como lidar com símbolos e abreviaturas? Feb 16, 2020
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
longrun Will take a long term effort to solve. question Further information is requested
Projects
None yet
Development

No branches or pull requests

3 participants