Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

masculine nouns lacking a plural form #61

Closed
leoalenc opened this issue Feb 5, 2020 · 26 comments
Closed

masculine nouns lacking a plural form #61

leoalenc opened this issue Feb 5, 2020 · 26 comments
Assignees
Labels
bug Something isn't working

Comments

@leoalenc
Copy link
Contributor

leoalenc commented Feb 5, 2020

The following masculine nouns lack a plural form:

biômetra
bumba
cola
deus-nos-acuda
ébola
fecha
garanganja
hinaiana
mimansa
paraarranca
ronga
tetra
vira

Some of these are proper nouns. However, all should have a plural form.

@leoalenc leoalenc added the bug Something isn't working label Feb 5, 2020
@leoalenc
Copy link
Contributor Author

leoalenc commented Feb 5, 2020

As for the word “paraarranca”, the Infopédia dictionary spells this word with a hyphen:
“para-arranca”.

@arademaker
Copy link
Contributor

We need some criteria for the inclusion of words in the resource. Don’t you think?

@arademaker
Copy link
Contributor

For example, bumba.

@arademaker
Copy link
Contributor

For biômetra, http://michaelis.uol.com.br/busca?id=9xbx classify as adj. Should we change it to ADJ?

@leoalenc
Copy link
Contributor Author

leoalenc commented Feb 6, 2020

For biômetra, http://michaelis.uol.com.br/busca?id=9xbx classify as adj. Should we change it to ADJ?

Dicio Dictionary registers the word “geômetra” as a masculine and feminine noun derived from “geometria”. So we can assume an analogous derivation from “biometria”.

@leoalenc
Copy link
Contributor Author

leoalenc commented Feb 6, 2020

We need some criteria for the inclusion of words in the resource. Don’t you think?

I agree. Criteria could be existence in dictionaries and in corpora.

@leoalenc
Copy link
Contributor Author

leoalenc commented Feb 6, 2020

For example, bumba.

In the print version of the Houaiss dictionary, there is the masculine noun bumba, so we should include the corresponding plural form.

@leoalenc
Copy link
Contributor Author

leoalenc commented Feb 6, 2020

For example, bumba.

In the print version of the Houaiss dictionary, there is the masculine form of this word.

@arademaker
Copy link
Contributor

@leoalenc seria interessante vc documentar como chegou a lista inicial deste issue. Pelo que vc buscou para obter esta lista? Note que issues #61 até #65 potencialmente terão que ser revistos depois de fecharmos o issue #59. Mas nestes issues, como vc colocou seu comando grep, podemos tentar reexecutar o comando para verificar novas entradas suspeitas que vierem do merge com a expansão feita pelo Hélio.

@lucasrct
Copy link
Contributor

Ao verificar no Houaiss:

bumba é um substantivo masculino ou uma interjeição, por isso, adicionei o respectivo plural bumbas, ver

cola é um substantivo feminino e também masculino (de acodro com o Houaiss 'vento forte das costas das Filipinas (arquipélago a sudeste da Ásia)'), executando

/MorphoBr/nouns$ grep "[[:space:]]cola+" *.dict
a-c.delaf.dict:cola cola+N+F+SG
a-c.delaf.dict:cola cola+N+M+SG
a-c.delaf.dict:colas cola+N+F+PL

faltando apenas a o plural da forma masculina. Também já feito.

Quanto ao substantivo masculino ébola, Houaiss considera apenas ebola, sem acento, enquanto Infopédia considera apenas com acento e o Wiktionary considera os dois, deixamos do jeito que está ou adicionamos a versão sem acento?

@leoalenc
Copy link
Contributor Author

Quanto ao substantivo masculino ébola, Houaiss considera apenas ebola, sem acento, enquanto Infopédia considera apenas com acento e o Wiktionary considera os dois, deixamos do jeito que está ou adicionamos a versão sem acento?

Acho que uma forma é português europeu e a outra brasileiro, como indicam os dois dicionário citados. Portanto, acho bom incluir as duas.

@leoalenc
Copy link
Contributor Author

leoalenc commented Feb 11, 2020

@leoalenc seria interessante vc documentar como chegou a lista inicial deste issue. Pelo que vc buscou para obter esta lista? Note que issues #61 até #65 potencialmente terão que ser revistos depois de fecharmos o issue #59. Mas nestes issues, como vc colocou seu comando grep, podemos tentar reexecutar o comando para verificar novas entradas suspeitas que vierem do merge com a expansão feita pelo Hélio.

Sim, isso é importante. Essas palavras geraram erros na formação de diminutivos por não conterem a forma do plural. A palavra tetra se comporta como problema, cujos diminutivos são probleminha e problemazinho. O arquivo .lexc do gerador de diminutivos precisa tanto do singular quanto do plural desses substantivos. A versão mais recente desse arquivo-fonte será disponibilizada em breve.

@arademaker
Copy link
Contributor

Legal, então seria bom depois colocar aqui quais comandos produziram os erros que resultaram nesta lista. Quando terminarmos o #59, a execução destes comandos novamente irá ajudar a checar se não vieram novos missing plurals da expansão do @heliolbs

@lucasrct
Copy link
Contributor

Adicionado o plural de fecha substantivo masculino (presente no Houaiss).
Adicionado o plural de garanganja subs. masc. (presente no Infopédia)
Adicionado o plural de ébola bem como ebola (sem acento) e seu plural também (subs. masc.) (presente no Houaiss).
Adicionado o plural de mimansa subs. masc. (presente no Houaiss).
Adicionado o plural de ronga subs. masc (presente no Houaiss).
Adicionado o plural de tetra subs masc (presente no Houaiss).

Quanto à palavra vira, é tanto subs. masc. quanto subs. fem., sendo que apenas o último possui plural. Adicionado o plural de vira como subs. masc.

Quanto a deus-nos-acuda, não encontrei em nenhum dicionário, entretanto aqui:
http://www.nilc.icmc.usp.br/nilc/pc/comps_todoComposto.htm (página do Núcleo Interinstitucional de Linguística Computacional do ICMC/USP) é dito que deus-nos-acuda é uma palavra invariável, a justificativa deles é:

substantivo composto por justaposição, sintagmático. Como seu sintagma interno não se enquadre em nenhum dos padrões variáveis previstos pelas regras de flexão de substantivo composto sintagmático, constitui palavra invariável. Portanto: "dois deus-nos-acuda".

Quanto a paraarranca, só aparece no Infopédia e com hífen, trocamos?

@arademaker
Copy link
Contributor

Sim para para-arranca. De nossas fontes apenas uma conhece e então seguimos o que ela indica.

Para deus-nos-acuda, bom você ter ido ao site do NILC, o issue #37 trata exatamente de como iremos incorporar o DELACF (ainda não fizemos isso). Não sei a relação deste site que vc achou com o DELACF (parte do UNITEX) mas como é do mesmo grupo, muito provavelmente o site deve ter influenciado o recurso ou o contrário.

@arademaker
Copy link
Contributor

@leoalenc, qual sua sugestão sobre o caso deus-nos-acuda em particular para podermos fechar este issue? Sobre os compostos em geral, podemos discutir no #37.

@arademaker
Copy link
Contributor

arademaker commented Feb 11, 2020

Outro comentário importante em relação ao que @leoalenc escreveu:

Acho que uma forma é português europeu e a outra brasileiro, como indicam os dois dicionário citados. Portanto, acho bom incluir as duas.

O nome do recurso é Morpho-Br, gera a ideia que nosso foco seria nas formas PB (português do Brasil) e não nas formas do PT (português europeu). Mas, de fato, usamos como ponto de partida recursos que cobrem ambos PT e PB. Talvez seja o caso mudar o nome? Ou deixar mais claro no README? Eu decididamente gosto da ideia de um recurso com cobertura ampla do português (como fazemos na http://openwordnet-pt.org)

@leoalenc
Copy link
Contributor Author

leoalenc commented Feb 11, 2020

Outro comentário importante em relação ao que @leoalenc escreveu:

Acho que uma forma é português europeu e a outra brasileiro, como indicam os dois dicionário citados. Portanto, acho bom incluir as duas.

O nome do recurso é Morpho-Br, gera a ideia que nosso foco seria nas formas PB (português do Brasil) e não nas formas do PT (português europeu). Mas, de fato, usamos como ponto de partida recursos que cobrem ambos PT e PB. Talvez seja o caso mudar o nome? Ou deixar mais claro no README? Eu decididamente gosto da ideia de um recurso com cobertura ampla do português (como fazemos na http://openwordnet-pt.org)

Sim, @arademaker, contemplar português europeu e brasileiro. Mas se mudarmos o nome, perdemos o link com o artigo publicado. Portanto, deixar claro no readme que são abrangidas as duas variedades.

@arademaker
Copy link
Contributor

Não perdemos o link não. O GitHub preserva e faz um redirect. Mas podemos manter o nome por enquanto. OK, combinado que seremos abrangentes.

@leoalenc
Copy link
Contributor Author

@leoalenc, qual sua sugestão sobre o caso deus-nos-acuda em particular para podermos fechar este issue? Sobre os compostos em geral, podemos discutir no #37.

@arademaker, Houaiss trata essa palavra como lápis, ou seja, substantivo de dois números, singular igual ao plural, que precisamos então incluir.

@lucasrct
Copy link
Contributor

@arademaker, Houaiss trata essa palavra como lápis, ou seja, substantivo de dois números, singular igual ao plural, que precisamos então incluir.

@leoalenc Feito.

@arademaker Fiz o push no branch issue-61, posso fazer o merge?

@arademaker
Copy link
Contributor

@lucasrct , faz um PR do branch para o master que eu reviso e aprovo...

@lucasrct lucasrct mentioned this issue Feb 11, 2020
@arademaker
Copy link
Contributor

@leoalenc o @lucasrct comentou acima:

Quanto à palavra vira, é tanto subs. masc. quanto subs. fem., sendo que apenas o último possui plural. Adicionado o plural de vira como subs. masc.

Isto é interessante. Considerando que aceitamos o que o Lucas descobriu. Então quando seu script de diminutivos roda e encontra casos de palavras que não tem um plural, a lista destas palavras é apenas um warning para vc, certo? Pode comentar? Teremos mais casos como este? Deveriamos ter uma TAG específica para isso? Poderia ajudar nos processos, não?

@lucasrct
Copy link
Contributor

@leoalenc o @lucasrct comentou acima:

Quanto à palavra vira, é tanto subs. masc. quanto subs. fem., sendo que apenas o último possui plural. Adicionado o plural de vira como subs. masc.

Isto é interessante. Considerando que aceitamos o que o Lucas descobriu. Então quando seu script de diminutivos roda e encontra casos de palavras que não tem um plural, a lista destas palavras é apenas um warning para vc, certo? Pode comentar? Teremos mais casos como este? Deveriamos ter uma TAG específica para isso? Poderia ajudar nos processos, não?

@arademaker Eu acho que me expressei mal, quis dizer que apenas a a entrada da palavra como subs. fem. possuía o plural já nos arqruivos, faltando apenas o referente ao plural do subs. masc.

@arademaker
Copy link
Contributor

OK. Mas a pergunta talvez permaneça. Será que teremos casos de palavras que não tem plural? Neste caso como sinalizar? Vou abrir outro issue para esta discussão.

@arademaker
Copy link
Contributor

Confirmei agora que uma das formas estava mesmo perdida em outro arquivo:

% rg "^viras?\t"  nouns/* adjectives/*
nouns/q-z.delaf.dict
15856:vira	vira+N+F+SG
15857:vira	vira+N+M+SG
15858:viras	vira+N+M+PL

nouns/nouns.gfl.dict
94993:viras	vira+N+F+PL

Mas um argumento para a reorganização dos arquivos que vamos fazer depois do #59

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
bug Something isn't working
Projects
None yet
Development

No branches or pull requests

3 participants