Skip to content

chavaone/android_gl_dict

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

10 Commits
 
 
 
 
 
 
 
 

Repository files navigation

Android Galician Keyboard Dictionary

Dicionario de galego para teclado de Android (Galego)

Empregando a información deste post en XDA-Developers e uns cuantos scripts que escribín en Python e Bash costruín un dicionario de galego para os nosos teclados en Android.

Para obter as frecuencias das palabras en galego empreguei a paxina de novas praza.com.

Pasos para facer o diccionario

  • Descargar os documentos web. Isto podese facer co script retrieve_html.sh. Este script recibe como parametro a paxina web da que queremos sacar as palabras e descarga de forma recursiva (visitando os enlaces que aparecen en cada documento) todas as web ata completar o nivel 5 de forma recursiva ou descargar un xigabyte de información. O script creará unha carpeta de nome html_folder que contera todos os arquivos html descargados.

  • Quitarlle os documentos descargados as etiquetas de html. Para isto podemos empregar o script remove_html_markup.py que crea unha carpeta txt_folder na que garda os documentos html da carpeta html_folder quitandolles as etiquetas de html e substituindo guións, puntos, comas e puntos e comas entre outros por espacios.

  • Agora temos que copiar todos os textos que temos a un so arquivo.

cat `ls` > all.txt
  • Temos que quitar os elementos dos textos que non sexan palabras.
cat forum.txt | tr "[:punct:][:blank:][:digit:]" "\n" | grep "^." > unsortedallwordslist.txt
  • Temos que ordear as palabras por orde de frecuancia de aparición como por orde alfabético.
cat allwordslist.txt | tr "A-Z" "a-z" | sort | uniq -c | sort -nr  > words.txt
  • Antes de meter estas palabras no dicionario debemos asegurarnos de que son correctas. Para isto empregaremos o modulo PyEnchant que ten un dicionario do idioma galego. O script correct_spell.py permitenos facer isto.

  • Por último temos que adaptar a lista de palabras a sintaxe do dicionario. Acompañando a cada palabra temos que indicar a frecuencia desta nos textos. A frecuencia mídese de 0 a 255, sendo 255 as palabras máis frecuentes. O script change_numering.py fai isto, mais está feito adhoc para esa lista de palabras polo que para empregalo con outra lista habería que cambialo.

About

Android Galician (gl_ES) Keyboard Dictionary

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published