Empregando a información deste post en XDA-Developers e uns cuantos scripts que escribín en Python e Bash costruín un dicionario de galego para os nosos teclados en Android.
Para obter as frecuencias das palabras en galego empreguei a paxina de novas praza.com.
-
Descargar os documentos web. Isto podese facer co script retrieve_html.sh. Este script recibe como parametro a paxina web da que queremos sacar as palabras e descarga de forma recursiva (visitando os enlaces que aparecen en cada documento) todas as web ata completar o nivel 5 de forma recursiva ou descargar un xigabyte de información. O script creará unha carpeta de nome html_folder que contera todos os arquivos html descargados.
-
Quitarlle os documentos descargados as etiquetas de html. Para isto podemos empregar o script remove_html_markup.py que crea unha carpeta txt_folder na que garda os documentos html da carpeta html_folder quitandolles as etiquetas de html e substituindo guións, puntos, comas e puntos e comas entre outros por espacios.
-
Agora temos que copiar todos os textos que temos a un so arquivo.
cat `ls` > all.txt
- Temos que quitar os elementos dos textos que non sexan palabras.
cat forum.txt | tr "[:punct:][:blank:][:digit:]" "\n" | grep "^." > unsortedallwordslist.txt
- Temos que ordear as palabras por orde de frecuancia de aparición como por orde alfabético.
cat allwordslist.txt | tr "A-Z" "a-z" | sort | uniq -c | sort -nr > words.txt
-
Antes de meter estas palabras no dicionario debemos asegurarnos de que son correctas. Para isto empregaremos o modulo PyEnchant que ten un dicionario do idioma galego. O script correct_spell.py permitenos facer isto.
-
Por último temos que adaptar a lista de palabras a sintaxe do dicionario. Acompañando a cada palabra temos que indicar a frecuencia desta nos textos. A frecuencia mídese de 0 a 255, sendo 255 as palabras máis frecuentes. O script change_numering.py fai isto, mais está feito adhoc para esa lista de palabras polo que para empregalo con outra lista habería que cambialo.