New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Añadir topónimos de países #81

Open
Almorca opened this Issue Apr 5, 2016 · 13 comments

Comments

Projects
None yet
5 participants
@Almorca
Collaborator

Almorca commented Apr 5, 2016

Añadir los topónimos de las localizaciones que todavía no tienen dicha información.

@Almorca Almorca added the mejora label Apr 5, 2016

@RickieES

This comment has been minimized.

Show comment
Hide comment
@RickieES

RickieES Apr 5, 2016

Collaborator

En algunas localizaciones hay nombres de ciudades y provincias en los respectivos archivos NombresPropiosSiglas.txt, que habría que extraer, pero soy muy ignorante y no tengo facilidad para distinguirlos. Lo ideal sería involucrar a alguien de cada país para que hiciera, al menos, una limpieza inicial.

Collaborator

RickieES commented Apr 5, 2016

En algunas localizaciones hay nombres de ciudades y provincias en los respectivos archivos NombresPropiosSiglas.txt, que habría que extraer, pero soy muy ignorante y no tengo facilidad para distinguirlos. Lo ideal sería involucrar a alguien de cada país para que hiciera, al menos, una limpieza inicial.

@Almorca

This comment has been minimized.

Show comment
Hide comment
@javierdiezcanseco

This comment has been minimized.

Show comment
Hide comment
@javierdiezcanseco

javierdiezcanseco Dec 9, 2016

Contributor

Buen día

quisiera aportar topónimos de entidades peruanas. Se trata de los departamentos, provincias y distritos según el listado oficial (llamado UBIGEO) que mantiene el Instituto Nacional de Estadística e Informática del Perú (INEI). Son en total unas 2000 lineas.

He leído el issue 38 donde se habla de ordenar el contenido alfabéticamente y además descomponer los nombre compuestos y eliminar las repeticiones. Pero consulto: ¿existen otros requisitos? ¿Hay alguna herramienta que ayude a reducir las palabras comunes que ya existen en otras partes del diccionario?

¡Gracias!

Contributor

javierdiezcanseco commented Dec 9, 2016

Buen día

quisiera aportar topónimos de entidades peruanas. Se trata de los departamentos, provincias y distritos según el listado oficial (llamado UBIGEO) que mantiene el Instituto Nacional de Estadística e Informática del Perú (INEI). Son en total unas 2000 lineas.

He leído el issue 38 donde se habla de ordenar el contenido alfabéticamente y además descomponer los nombre compuestos y eliminar las repeticiones. Pero consulto: ¿existen otros requisitos? ¿Hay alguna herramienta que ayude a reducir las palabras comunes que ya existen en otras partes del diccionario?

¡Gracias!

@edittler

This comment has been minimized.

Show comment
Hide comment
@edittler

edittler Dec 9, 2016

Collaborator

Hola Javier, ¡bienvenido!

Para Perú tendrías que colocar los archivos en el directorio ortograf/palabras/toponimos/l10n/es_PE. Podés organizarlos en archivos separados para provincias, ciudades u otro orden que desees. Los archivos de topónimos deben tener el prefijo toponimos- para que sean agregados.

Con respecto a la eliminación de palabras que ya existen en otras partes, no es necesario que hagas algo, ya que las palabras duplicadas se eliminan durante la compilación del diccionario. Creo que con el fin de mantener completa la información de topónimos es mejor repetir los nombres que omitirlos por la existencia en otra parte del diccionario.

Dada la falta de topónimos, creo que es una buena idea armar una página en la wiki con estos comentarios.

¡Saludos!

Collaborator

edittler commented Dec 9, 2016

Hola Javier, ¡bienvenido!

Para Perú tendrías que colocar los archivos en el directorio ortograf/palabras/toponimos/l10n/es_PE. Podés organizarlos en archivos separados para provincias, ciudades u otro orden que desees. Los archivos de topónimos deben tener el prefijo toponimos- para que sean agregados.

Con respecto a la eliminación de palabras que ya existen en otras partes, no es necesario que hagas algo, ya que las palabras duplicadas se eliminan durante la compilación del diccionario. Creo que con el fin de mantener completa la información de topónimos es mejor repetir los nombres que omitirlos por la existencia en otra parte del diccionario.

Dada la falta de topónimos, creo que es una buena idea armar una página en la wiki con estos comentarios.

¡Saludos!

@javierdiezcanseco

This comment has been minimized.

Show comment
Hide comment
@javierdiezcanseco

javierdiezcanseco Dec 9, 2016

Contributor

Hola, ¡gracias!

lo he organizado según la estructura oficial en el Perú: departamentos, provincias y distritos.

Efectivamente, sería útil hacer una entrada en el wiki para tener claro el formato que se espera. Con el tiempo se pueden ir sumando países y será útil seguir una misma estructura.

Saludos

        Javier.
Contributor

javierdiezcanseco commented Dec 9, 2016

Hola, ¡gracias!

lo he organizado según la estructura oficial en el Perú: departamentos, provincias y distritos.

Efectivamente, sería útil hacer una entrada en el wiki para tener claro el formato que se espera. Con el tiempo se pueden ir sumando países y será útil seguir una misma estructura.

Saludos

        Javier.
@edittler

This comment has been minimized.

Show comment
Hide comment
@edittler

edittler Dec 9, 2016

Collaborator

Creé una página en la wiki para documentar la forma en que se deben incluir los topónimos.

Collaborator

edittler commented Dec 9, 2016

Creé una página en la wiki para documentar la forma en que se deben incluir los topónimos.

@cosmoscalibur

This comment has been minimized.

Show comment
Hide comment
@cosmoscalibur

cosmoscalibur Jun 2, 2017

Collaborator

¡Excelente proyecto! He clonado el repositorio y comenzaré a trabajar en los topónimos para Colombia.

Collaborator

cosmoscalibur commented Jun 2, 2017

¡Excelente proyecto! He clonado el repositorio y comenzaré a trabajar en los topónimos para Colombia.

@cosmoscalibur

This comment has been minimized.

Show comment
Hide comment
@cosmoscalibur

cosmoscalibur Jun 2, 2017

Collaborator

Muchos topónimos presentan números romanos. ¿Deben incluirse los números romanos como lemas válidos? En caso de ser lemas válidos, ¿debe seguirse la convención de usar mayúscula inicial?

Collaborator

cosmoscalibur commented Jun 2, 2017

Muchos topónimos presentan números romanos. ¿Deben incluirse los números romanos como lemas válidos? En caso de ser lemas válidos, ¿debe seguirse la convención de usar mayúscula inicial?

@Almorca

This comment has been minimized.

Show comment
Hide comment
@Almorca

Almorca Jun 6, 2017

Collaborator

¿Cómo se escriben esos topónimos en los documentos oficiales?

Collaborator

Almorca commented Jun 6, 2017

¿Cómo se escriben esos topónimos en los documentos oficiales?

@cosmoscalibur

This comment has been minimized.

Show comment
Hide comment
@cosmoscalibur

cosmoscalibur Jun 22, 2017

Collaborator

@Almorca , en los documentos oficiales los entes territoriales poseen la indicación de los números romanos en mayúscula, ejemplo Atalaya I, Juan Pablo II, Juan XXIII. En el PR lo tengo temporalmente sin incluir los números romanos, considerando que la identificación de estos por parte del diccionario sería en un contexto general, y por ende no tendría sentido que asuma válidos solo algunos números romanos y no al menos una cierta secuencia.

Collaborator

cosmoscalibur commented Jun 22, 2017

@Almorca , en los documentos oficiales los entes territoriales poseen la indicación de los números romanos en mayúscula, ejemplo Atalaya I, Juan Pablo II, Juan XXIII. En el PR lo tengo temporalmente sin incluir los números romanos, considerando que la identificación de estos por parte del diccionario sería en un contexto general, y por ende no tendría sentido que asuma válidos solo algunos números romanos y no al menos una cierta secuencia.

@Almorca

This comment has been minimized.

Show comment
Hide comment
@Almorca

Almorca Aug 18, 2017

Collaborator

He vuelto a retomar el tema de los topónimos para terminar de añadir los de Argentina. Puesto que muchos de topónimos están formados por palabras compuestas creo que sería útil permitir que los ficheros de topónimos tuviesen los nombres compuestos y que fuese el script que crea el diccionario el que separase cada palabra en una nueva línea.
Así el fichero de topónimos de Argentina tendría una línea con
Buenos Aires
y el script lo separaría en 2 líneas
Buenos
Aires

Esto genera una molestia y es que muchas de las palabras que forman parte de los topónimos compuestos son en realidad palabras corrientes que ya están en el diccionario. Es una molestia en el sentido de que el diccionario contiene lemas repetidos, ocupará más y será más lento (imagino que en un tiempo insignificante) a la hora de comprobar las palabras. Esto se puede solucionar generando el diccionario en 2 fases:

  1. Se genera el diccionario sin los topónimos.
  2. Se ejecuta hunspell contra los ficheros de topónimos obteniendo las palabras que dan error.
  3. Se añaden las palabras obtenidas en el paso 2 al diccionario generado en el paso 1.

De esta manera la generación del diccionario sería un poco más compleja pero solo se añadirían aquellas palabras pertenecientes a topónimos que realmente no sean palabras correctas del Español. En el diccionario Argentino no se añadiría ni Buenos ni Aires y sí Tucumán

¿Cómo lo veis?

Collaborator

Almorca commented Aug 18, 2017

He vuelto a retomar el tema de los topónimos para terminar de añadir los de Argentina. Puesto que muchos de topónimos están formados por palabras compuestas creo que sería útil permitir que los ficheros de topónimos tuviesen los nombres compuestos y que fuese el script que crea el diccionario el que separase cada palabra en una nueva línea.
Así el fichero de topónimos de Argentina tendría una línea con
Buenos Aires
y el script lo separaría en 2 líneas
Buenos
Aires

Esto genera una molestia y es que muchas de las palabras que forman parte de los topónimos compuestos son en realidad palabras corrientes que ya están en el diccionario. Es una molestia en el sentido de que el diccionario contiene lemas repetidos, ocupará más y será más lento (imagino que en un tiempo insignificante) a la hora de comprobar las palabras. Esto se puede solucionar generando el diccionario en 2 fases:

  1. Se genera el diccionario sin los topónimos.
  2. Se ejecuta hunspell contra los ficheros de topónimos obteniendo las palabras que dan error.
  3. Se añaden las palabras obtenidas en el paso 2 al diccionario generado en el paso 1.

De esta manera la generación del diccionario sería un poco más compleja pero solo se añadirían aquellas palabras pertenecientes a topónimos que realmente no sean palabras correctas del Español. En el diccionario Argentino no se añadiría ni Buenos ni Aires y sí Tucumán

¿Cómo lo veis?

@cosmoscalibur

This comment has been minimized.

Show comment
Hide comment
@cosmoscalibur

cosmoscalibur Aug 18, 2017

Collaborator

Me queda tal vez una inquietud porque aún no comprendo del todo bien el funcionamiento. Si Hunspell es el encargado de corregir los casos de mayúsculas y minúsculas bien usadas (finalmente eso sigue siendo ortografía), entonces Buenos Aires sería marcado como un error pues solo los nombres propios podrían tener mayúscula inicial sin corresponder al inicio de un párrafo o posterior a un punto. ¿Es correcta mi afirmación?

Collaborator

cosmoscalibur commented Aug 18, 2017

Me queda tal vez una inquietud porque aún no comprendo del todo bien el funcionamiento. Si Hunspell es el encargado de corregir los casos de mayúsculas y minúsculas bien usadas (finalmente eso sigue siendo ortografía), entonces Buenos Aires sería marcado como un error pues solo los nombres propios podrían tener mayúscula inicial sin corresponder al inicio de un párrafo o posterior a un punto. ¿Es correcta mi afirmación?

@cosmoscalibur

This comment has been minimized.

Show comment
Hide comment
@cosmoscalibur

cosmoscalibur Aug 23, 2017

Collaborator

Ya ví que hunspell no se relaciona con lo que comento en el caso anterior, pero igual si veo un posible contra. En el proyecto he visto las menciones a herramienta de gramática también, y en ese sentido la separación de lemas que sean topónimos pero ya incluidos en otras categorías sería importante.

Collaborator

cosmoscalibur commented Aug 23, 2017

Ya ví que hunspell no se relaciona con lo que comento en el caso anterior, pero igual si veo un posible contra. En el proyecto he visto las menciones a herramienta de gramática también, y en ese sentido la separación de lemas que sean topónimos pero ya incluidos en otras categorías sería importante.

@cosmoscalibur cosmoscalibur referenced this issue Jan 3, 2018

Closed

Publicación de la versión 2.3 #153

4 of 4 tasks complete
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment