Skip to content
Tools for managing Catalan dictionaries
Perl Shell Perl 6 Python Java
Branch: master
Clone or download
Latest commit ee9aaef Aug 2, 2019
Permalink
Type Name Latest commit message Commit time
Failed to load latest commit information.
diccionari-arrel +paraules Aug 2, 2019
fdic-to-apertium apertium check: mostra paradigmes Jun 9, 2017
fdic-to-hunspell Moleskine Jun 7, 2019
fdic-to-lt CSIC hippys 4x4 May 11, 2019
frequencies frequencies dicts Feb 20, 2019
libs
lt-to-fdic +dsalut May 19, 2019
morfologik-lt java dict version 2.0 Jun 7, 2018
ngrams script ngrams Apr 18, 2017
novetats novetats gener-juny 2016 Jul 12, 2016
oxt update hyphen dict Aug 30, 2018
resultats +paraules Aug 2, 2019
termcat fixwords Jul 21, 2019
test-lt-fdic-lt reordena directoris Jan 4, 2015
tests-apertium build & check apertium dict Jun 21, 2017
wordlist Genera n-grams (de moment 1-gram) Feb 14, 2015
xpi afegits manifests per webext Dec 15, 2018
.gitignore termcat download Jul 20, 2019
LICENSE rewrite dual license Jul 1, 2015
README.md Update README.md Dec 15, 2018
build-apertium.sh m i f en el mateix lema Jun 21, 2017
build-hunspell.sh Elimina fals negatiu: s'ens>se'ns Dec 21, 2015
build-lt.sh +terminologia salut Feb 27, 2019
build-morfologik-lt.sh build morfologik with DNV Dec 17, 2017
build-ngrams.sh Genera n-grams (de moment 1-gram) Feb 14, 2015
build-oxt-all.sh Add OXT build scripts May 24, 2015
build-oxt.sh Add OXT build scripts May 24, 2015
build-wordlist-from-lt.sh ordena la llista de paraules Feb 14, 2015
build-xpi-all.sh eliminat install.js Aug 22, 2015
build-xpi-all.webext.sh update tal Dec 15, 2018
build-xpi.sh adding build xpi Feb 14, 2015
check-apertium.sh correccions diccionari+apertium Jun 21, 2017
gpl-2.0.txt set dual license GPL 2.0 and LGPL 2.1 Jul 1, 2015
lgpl-2.1.txt set dual license GPL 2.0 and LGPL 2.1 Jul 1, 2015
make-test-lt-fdic.sh elimina: #escondidament Jun 21, 2017
prepare-release.sh fix typo Jul 1, 2015
release-notes_en.txt Minor fix Sep 7, 2018

README.md

catalan-dict-tools

Aquest projecte té com a objectiu generar diccionaris en català per al format Hunspell i per al corrector gramatical LanguageTool.

Diccionari arrel

El diccionari arrel (en el directori "diccionari-arrel") conté les dades bàsiques a partir de les quals es construeixen els altres diccionaris. Les paraules estan separades en fitxers per categories gramaticals. Per a aquests fitxers s'usen dos formats diferents segons els casos.

  • Extensió -fdic.txt: Per a adjectius, noms i verbs, es fa servir un format de pseudodiccionari que conté informació semblant a la que contenen els diccionaris d'ús comú (sense les definicions): categoria gramatical i les dades necessàries per a flexionar correctament la paraula (model verbal, forma femenina, excepcions de plurals, etc.).
  • Extensió -lt.txt: Per a adverbis, noms propis i la resta de categories, la informació es manté en el format usat en LanguageTool, que és el mateix que s'usa en els diccionaris Freeling.

Scripts

Prerequisits (Perl)
build-hunspell.sh

Genera diccionaris Hunspell en variant general i valenciana a partir del diccionari arrel.

En el fitxer fdic-to-hunspell/dades/exclusions.txt s'indiquen formes i lemes que han de ser exclosos dels diccionaris Hunspell per diferents motius.

build-lt.sh

Genera el diccionari amb etiquetatge gramatical per al corrector Languagetool.

make-test-lt-fdic.sh

És un test que converteix el fitxer de LT en format de diccionari; aquest es converteix de nou en format LT i es compara amb el fitxer inicial.

build-xpi-all.sh

Genera fitxers xpi (compatibles amb el Firefox) a partir dels resultats per al Hunspell.

  • ./build-xpi-all.sh -> Genera paquets de desenvolupament (versió 9.9.9).
  • ./build-xpi-all.sh -p -v '3.0.0' -> Genera paquets de producció (versió 3.0.0).
build-xpi-all.webext.sh

Genera fitxers xpi (compatibles amb el Firefox, versió Web Extensions API) a partir dels resultats per al Hunspell.

  • ./build-xpi-all.webext.sh 3.0.3 /directori/de/xpi -> Genera paquets de producció (versió 3.0.3).
build-oxt-all.sh

Genera fitxers oxt (compatibles amb el LibreOffice i l'Apache OpenOffice) a partir dels resultats per al Hunspell.

  • ./build-oxt-all.sh -> Genera paquets de desenvolupament (versió 9.9.9).
  • ./build-oxt-all.sh -p -v '3.0.0' -> Genera paquets de producció (versió 3.0.0).
build-morfologik-lt.sh

Genera la versió compilada (amb la llibreria Morfologik) del diccionari de LanguageTool. Requereix LanguageTool.

build-wordlist-from-lt.sh

Genera una llista de totes les paraules possibles, incloent-hi apostrofació i pronoms febles (ex. d'anar-se'n, l'esmentat). Genera ~10 milions de formes (~166 M). És necessari per a algunes aplicacions.

prepare-release.sh

./prepare-release.sh -v '3.0.0' -> Genera tots els fitxers necessaris per a release (versió 3.0.0).

Per fer

  • En el diccionari arrel marcar les fonts d'origen de cada paraula. Això servirà per a comprovar la correcció de les dades.

LICENSE

This project and the whole dictionaries derived from it are lincensed under a dual license LGPL v2.1 and GPL v2. See the files lgpl-2.1.txt and gpl-2.0.txt.

You can’t perform that action at this time.