Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Pasar el diccionario a UTF-8 #17

Closed
Almorca opened this issue Feb 22, 2015 · 11 comments
Closed

Pasar el diccionario a UTF-8 #17

Almorca opened this issue Feb 22, 2015 · 11 comments
Assignees
Labels
Milestone

Comments

@Almorca
Copy link
Collaborator

Almorca commented Feb 22, 2015

Voy a intentar estos días hacer pruebas para pasar el diccionario a UTF-8 y ver si para cuando se publique la versión 0.8 podemos trabajar con el diccionario en este nuevo formato.
Por ahora no subiré nada al repositorio pero iré informando del resultado de las pruebas.

@Almorca Almorca added the mejora label Feb 22, 2015
@Almorca Almorca self-assigned this Feb 22, 2015
@RickieES
Copy link
Collaborator

Para generar la versión 0.8 incluyendo la última compilación de sinónimos disponible tengo que subir los archivos de sinónimos al repositorio en la carpeta sinonimos/palabras, así como modificar algunos archivos en la carpeta ortograf/docs, lo que podría afectar a tus pruebas de conversión. Preferiría que me des el visto bueno antes de comenzar con ello.

@Almorca
Copy link
Collaborator Author

Almorca commented Mar 1, 2015

Por mi parte no hay problema ya que simplemente he hecho el cambio en los fichero de afijos y de palabras. De todas formas, el cambio es sencillo y tengo los comandos que he utilizado por lo que cuando subas los nuevos ficheros y generes la versión 0.8 me la descargaré y pasaré esa versión a UTF-8.

@RickieES RickieES added this to the 0.9 milestone Apr 18, 2015
@RickieES
Copy link
Collaborator

He añadido el milestone 0.9 porque creo que queremos acometer esto antes de cualquier otra cosa, ¿verdad?

@RickieES
Copy link
Collaborator

@Almorca , ¿cómo vas con esto? No he querido tocar nada hasta que nos avises de que has completado la conversión en la codificación. ¿Has encontrado alguna dificultad?

@RickieES
Copy link
Collaborator

Acabo de detectar que el script de creación de diccionarios hace referencia a la codificación de archivos, por lo que habrá que corregirlo para que todo siga funcionando bien. No obstante, hay más cosas que revisar en ese script, por lo que soy partidario de crear un issue específico para él, como he comentado en el issue #1.

@Almorca
Copy link
Collaborator Author

Almorca commented Sep 9, 2015

El fichero rla-es/ortograf/aspell/es.dat contiene la línea
data-encoding iso-8859-1
entiendo que hay que cambiarla por
data-encoding utf-8
pero no tengo ni idea de para que sirve.
¿Alguien lo sabe?

@sbosio
Copy link
Owner

sbosio commented Sep 9, 2015

Habría que consultarlo con Ismael Olea, que creo que fue quien se encargó
de generar los diccionarios para Aspell.

Saludos,

Santiago

El 9 de septiembre de 2015, 18:17, Almorca notifications@github.com
escribió:

El fichero rla-es/ortograf/aspell/es.dat contiene la línea
data-encoding iso-8859-1
entiendo que hay que cambiarla por
data-encoding utf-8
pero no tengo ni idea de para que sirve.
¿Alguien lo sabe?


Reply to this email directly or view it on GitHub
#17 (comment).

@RickieES
Copy link
Collaborator

Cámbialo, aunque por lo que he leído, no será suficiente:

http://stackoverflow.com/questions/3396637/aspell-decodes-dictionary-file-as-latin1-even-if-both-environment-and-aspell-con

De todas formas, hago ping a @olea por si puede echarle un ojo. Tampoco sé si hoy en día Aspell se sigue usando, porque parece que Hunspell domina la escena de código abierto (pero puedo estar equivocado).

@Almorca
Copy link
Collaborator Author

Almorca commented Oct 12, 2015

Acabo de subir los cambios que he realizado para pasar el diccionario a UTF-8.
He hecho varias pruebas y parece que todo sigue funcionando por lo que doy el tema por cerrado.

@Almorca Almorca closed this as completed Oct 12, 2015
@RickieES
Copy link
Collaborator

Solo para que quede registrado (y porque es buena costumbre), este es el changeset que corresponde a este issue:

9d7b518

@Almorca
Copy link
Collaborator Author

Almorca commented Nov 9, 2015

Añado a utf-8 los ficheros de noRAE que se me había pasado añadir.
Para futuros cambios

  1. Con file se averigua la codificación
  2. Comando para hacer el cambio de codificación: for x in find . -type f ; do iconv -f ISO-8859-1 -t UTF-8 $x > "$x.utf8"; rm $x; mv "$x.utf8" $x; done

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
Projects
None yet
Development

No branches or pull requests

3 participants