-
Notifications
You must be signed in to change notification settings - Fork 4
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
formas espúrias de verbos devidas a erros ortográficos #106
Comments
O segundo caso é interessante. O que devemos fazer com formas que não estão no novo acordo? Qualquer futuro uso do recurso com corpora poderá resultar em gap se removermos ... textos irão conter formas que eventualmente deixaram de ser aceitas. Marcamos estas formas ? Separamos em outro arquivo ? Obviamente manter estes registros pode ser bem complicado. |
@arademaker, esse problema já foi levantado em #93. No caso da presente issue, que afeta uma única forma, num primeiro impulso, quis eliminá-la, mas agora vejo o lado para o qual você chama atenção, preferindo deixar como está. |
@arademaker e @analununes, seja como for, acho que devemos eliminar esta forma:
|
Parece que o erro propagou para outros lemas:
|
@arademaker, bem lembrado verificar isso. Correto, todas essas são formas espúrias. |
Related to LR-POR/PorGram#15 |
@arademaker e @leoalenc, acredito ter encontrado outro erro, as formas com sufixo -asseis estão sendo identificadas como irregulares:
|
@analununes, muito bem observado! As formas em asseis de IMPF-SUBJ-2PL sem acento são espúrias! Devem ser removidas ou acentuadas. @arademaker, seriam formas geradas (erroneamente) pelo Hélio? Parece que todos os lemas terminam em izar. |
@arademaker e @analununes, quismos e quisdes são outras formas espúrias que provocaram erros na tabela de exceções:
|
@arademaker, mais formas espúrias, agora detectadas pelo algoritmo da @analununes, que gerou o arquivo https://github.com/LR-POR/PorGram/files/6942926/regra2-sem-s.txt:
Ver http://www.portaldalinguaportuguesa.org/index.php?action=lemma&lemma=69845. |
Ok, precisamos de uma estratégia para eliminar formas do recurso. O primeiro impulso é manualmente pagar a linha com um editor de texto. Mas minimamente precisamos verificar se existe alguma outra entrada para a análise sendo eliminada. Por exemplo, se vou eliminar
Preciso garantir que existe outra entrada para o mesmo lema e análise:
Idealmente, no futuro, seria bom recorrer a biblioteca que estamos criando e ter um comando para remoção e inserção de entradas que fariam estes testes de consistência. @leoalenc algum outro cuidado para remoção ou adição de formas que devemos ter para tentar garantir consistência do recurso? |
@arademaker, boa pergunta, mas, no caso das formas espúrias objeto desta issue, como são duplicatas agramaticais de formas gramaticais, já sabemos que podem ser removidas sem deixar lacunas no recurso. De fato, o algoritmo implementado pela @analununes a partir do meu esboço (aquelas regras de remoção que formulei) detecta essas duplicatas espúrias. |
@arademaker, as regras flexionais de my-irules.tdl constituem um bom critério, pois visam a modelar as regularidades e as principais subregularidades da conjugação do português. É claro que não considero essa regras um trabalho fechado e concluído. Posso incluir mais subregularidades por meio de (re)leitura da literatura ou pelo exame da saída do algoritmo da @analununes, que classifica as formas verbais em regulares e irregulares. Com isso, podemos diminuir o tamanho de my-irregs.tab. Isso mostra a importância fundamental do referido algoritmo da @analununes no nosso ecossistema. |
@analununes , Vendo o mais recente arquivo de formas regulares, constatei um outro tipo de erro ortográfico: formas do verbo cuspir com a letra u repetida. |
@analununes , mais alguns erros do Morphobr que detectei no mais recente arquivo de formas irregulares gerado pelo seu algoritmo Curguei, curgue etc. do verbo curvar Formas do verbo cuspir começadas com cuo Formas de denegrir com com duas vezes a letra e Forma suspeitare sem esse final do infinitivo flexionado segunda pessoa do singular do verbo suspeitar. procurar na lista de regulares se existem outras duplicatas do infinitivo flexionado na segunda pessoa do singular. Formas do verbo suspeitar com gu, Por exemplo suspeigue |
@leoalenc, assim que tiver meu algoritmo pronto vou montar uma lista com essas entradas para você conferir, ok? |
@analununes , só mais um erro, talvez até já esteja na lista dos casos A serem eliminados: formas do verbo abalaustrar com "lausu". |
@analununes , Na lista de irregulares irregs.txt, tem muitos erros desse tipo! Procure por lausu e lausú com lema abalaustrar. Essas palavras estão erradas porque foi trocado o t por u ou ú. |
@arademaker e @analununes, na tabela final irregs.txt, comentada no artigo, encontrei os tipos seguintes de problemas:
b) aiu junto com aiú
Ver:
c)
Ver:
Em todas as formas de abaular,ocorre o ditongo au e não o hiato aú no radical: Diversas formas do verbo agauchar com dois us:
Tenho uma lembrança que esse erro apareceu em issue anterior, estranho ainda aparecer aqui. Eliminar tanto as formas com uu quanto uú de agauchar.
É interessante que esse erro sugere erro de modelagem do algoritmo que gerou essas formas para constituir os recursos que foram incorporados ao MorphoBr. Esse algoritmo não levou em conta essas exceções. Talvez seja o caso de eu revisar as regras flexionais da PorGram para dar conta desses casos.
Essa lista de 5 tipos, evidentemente, não é exaustiva. Parei a verificação na linha 556 de irregs.txt. Como esses problemas são recorrentes, afetando dezenas de outros exemplos, a sua eliminação da lista vai reduzir em muito o arquivo original, permitindo uma nova verificação manual sobre um conjunto de dados menor. Depois repetimos o processo e vamos, recursivamente, diminuindo a lista. |
@arademaker e @analununes, mais casos de 3): a) formas de aguerrir com j ou g em vez de r:
Particípio estranho:
http://www.portaldalinguaportuguesa.org/index.php?action=lemma&lemma=88329 b) formas de ajesuitar com z em vez de t (provenientes de Silva 2019?):
c) formas de anexar com gu em vez de x
d) formas de INFL-INF-2SG-SUFFIX sem res final, por exemplo:
e) formas com truncamento do radical arraçarraçar e arregaçarregaçar (esses verbos existem?)
Parei análise na linha 1400. |
@arademaker e @analununes, pesquisei o tal estranho e suspeito verbo arregaçarregaçar no Google, a única coisa que encontrei foi esta: https://svn.spraakdata.gu.se/clt/naacl/2015/extract/data/freeling/base_forms_pt_verbs.txt Ou seja, tudo indica que herdamos esse verbo do Freeling. Suspeito que, nesse recurso, essa forma espúria surgiu por conta de erro de segmentação (apagamento de um espaço ou quebra de linha) dos dados, que fundiu os verbos arregaçar e regaçar. https://svn.spraakdata.gu.se/clt/naacl/2015/extract/data/freeling/base_forms_pt_verbs.txt Deriva da fusão dos verbos legítimos arraçar e raçar. |
Mais problemas decorrente da fusão de verbos diferentes, no caso arriçar e riçar:
O lema correto é arriçar. É bom verificar se existe o verbo riçar no MorphoBr, incluindo-o também se for preciso. Essa mesma verificação deve ocorrer com os demais casos de fusão. |
@analununes, mais casos de troca de consoante final do radical:
|
@analununes, segundo http://www.portaldalinguaportuguesa.org/index.php?action=lemma&lemma=1990, o verbo aspergir não sofre alternância vocálica no radical. Portanto, as formas sem alternância, provavelmente geradas pelas regras de my-irules.tdl, devem ser incluídas, pois não parecem constar no MorphoBr:
Vou pesquisar se existem mesmo essas variantes, mas, seja como for, as formas com e devem ser incluídas. |
@analununes, mais casos análogos:
|
|
Verificada até linha 1656. |
@leoalenc, no commit 9412b64 eliminei os lemas arraçarraçar, arregaçarregaçar e arriçarriçar com a função corLemma. As seguintes entradas foram criadas:
Estas foram eliminadas: |
Porque usar este link específico @analununes ? O dicionário de freeling usamos como ponto de partida para o morphobr e este link não é o repositório oficial do freeling. Eu estou preocupado com este issue. São vários os erros aparentemente detectados pela inspeção manual de entradas não esperadas na tabela de formas irregulares que o algoritmo gerou. Então como iremos garantir que efetivamente todas as formas espúrias aqui listadas explícita e implicitamente serão efetivamente eliminadas e somente elas? |
Pra piorar, como a eliminação de algumas formas está causando modificação em praticamente todos os arquivos de verbos, o diff do GitHub não será de nenhuma utilidade. |
@analununes, muito bem! Você pode, por favor, checar se o recurso, agora, contém todas as formas dos seguintes lemas: raçar, arraçar, riçar, arriçar, arregaçar e regaçar? Sobre raçar, parece existir, portanto, vamos incluí-lo, ver, por exemplo: |
@leoalenc e @arademaker, fiz um documento com as formas espúrias indicadas por @leoalenc, no documento também deixei registrado os comandos que usei para encontrar as entradas. Esse documento não inclui as entradas do tipo 1. |
Bem, infelizmente é difícil avaliar as mudanças no repositório. Como falamos, os diffs na interface web não são possíveis e praticamente todos os arquivos foram modificados, logo o principio de menor diferença entre mudanças não foi preservado e os tamanhos de arquivos ainda parecem estar fora do limite suportado pela interface do GitHub. Outra coisa que seria bom evitarmos é commit direto no master. Sempre importante fazer um branch com nome do issue e fazer um PR para o master. |
correção, vi agora que vc está usando um branch... ok. Então imagino que vc fará um PR quando considerar que suas mudanças estão prontas para serem aplicadas no master, correto? |
Obrigado, @analununes. Notei que você usou o comando abaixo para extrair formas não terminadas em res:
Na expressão regular
Creio que o seguinte seria um comando mais adequado:
Seria bom revisar as expressões. O que acha, @arademaker? |
commit 48684c3
commit c544e13
commit d3c40aa
commit 8c2b517
commit cf40cf0
commit f34611d
commit 4eddd71
commit f16c2b7
commit daa354e
commit 4d905b2
commit c5b009d
Arquivo com comandos e entradas eliminadas: Tabela de irregulares atualizada: |
@leoalenc, as formas geradas pelas regras não foram as esperadas:
|
No commit 6a4431a foram corrigidos os lemas No commit 6da66b2 foram adicionados as formas geradas pelas regras de my-irules.tdl dos verbos: #76
todas as entradas adicionadas estão neste arquivo: |
@analununes issues longos como este devem ser verificados com cuidado. Por favor, ao fechar, confirme que TODOS os casos acima foram tratados e sumarize as decisões. |
@analununes, obrigado. De fato, esse verbo é irregular, apresentando variações no radical não contempladas pelas regras de my-irules.tdl. Você pode fazer as inclusões devidas seguindo o paradigma abaixo? http://www.portaldalinguaportuguesa.org/index.php?action=lemma&lemma=1990 Veja que formas como eu aspirjo constam da conjugação do verbo aspergir segundo alguns sites: https://www.conjugacao-de-verbos.com/verbo/aspergir.php https://estraviz.org/conjugar.php?palavra=aspergir Não sei se o primeiro é confiável, e o segundo é, na verdade, um dicionário da língua galega.
Cunha e Cintra (1985, p. 409) não abonam essas formas com i, mas prefiro deixá-las, pois podem ocorrer dialetalmente. |
@analununes, mais erros de grafia:
Parece haver um padrão aí, troca do h dígrafo nh por alguma outra letra. Pode checar se há mais casos desse tipo? |
@analununes vamos tentar fechar este issue? Esta ficando longo e seria bom fecharmos para no futuro tratarmos de erros em issues mais específicos. |
Pode ser! Vou revisar. |
Com o comando:
|
@arademaker e @analununes, examinando o arquivo preparado pela @analununes https://github.com/LR-POR/PorGram/files/6927615/amostra-irregs.txt, referido em #104, constatei os seguintes erros:
~/MorphoBr/verbs$ grep -Ph "\tvir\+V\+PRF\+2\+SG" verbs-a*
~/MorphoBr/verbs$ grep -Ph "\tver\+V\+PRS\+3\+PL" verbs-a*
A forma vêem deixou de ser correta pelo novo acordo ortográfico:
http://www.portaldalinguaportuguesa.org/simplesearch.php?action=lemma&lemma=110412&highlight=^ver$
https://ciberduvidas.iscte-iul.pt/consultorio/perguntas/veem-e-vem-mais-uma-vez/22604
The text was updated successfully, but these errors were encountered: