O arquivo palavras.txt
neste repositório contém mais de 320.000 palavras do idioma português brasileiro.
A fonte principal é a lista de palavras do corretor ortográfico LibreOffice, obtida aqui:
https://cgit.freedesktop.org/libreoffice/dictionaries/plain/pt_BR/pt_BR.dic
O arquivo original foi processado pelo programa converter.py
para:
-
converter a codificação de Latin-1 para UTF-8
-
remover os códigos alfabéticos apensados a algumas palavras, após uma
/
-
remover nomes de cidades (ex. "Carnaubal-CE")
-
acrescentar em linhas separadas as palavras que formam termos compostos (ex. casa-forte)
-
reordenar tudo alfabeticamente
O motivo do passo 4 é que a palavra "casa" não tem uma entrada individual no arquivo original! Se alguém souber o motivo, cadastre um issue explicando em que parte do código-fonte do corretor ortográfico do LibreOffice está a informação de que "casa" é uma palavra.