Skip to content

Commit

Permalink
- Preparata pagina web
Browse files Browse the repository at this point in the history
- Sistemato Makefile per il sito
  • Loading branch information
dvarrazzo committed Jul 9, 2007
1 parent 0da3b57 commit 0134cb6
Show file tree
Hide file tree
Showing 4 changed files with 295 additions and 14 deletions.
16 changes: 16 additions & 0 deletions Makefile
Expand Up @@ -45,10 +45,25 @@ DICTFILES = $(addsuffix .$(ENCODING),$(DICTFILES_in))

.PHONY : package clean

all : packages site

dict : $(DICTFILES)

package : dist/$(PKGFILE)

packages : package_utf8 package_latin1

package_utf8 :
$(MAKE) clean
$(MAKE) ENCODING=utf8 package

package_latin1 :
$(MAKE) clean
$(MAKE) ENCODING=latin1 package

site :
$(MAKE) -C sito site

italian.dict : italian-verbs.dict italian-other.dict italian-numbers.dict $(HEADER)
sed 's,^,/ ,' < $(HEADER) > $@
$(PYTHON) merge_dicts.py \
Expand Down Expand Up @@ -79,6 +94,7 @@ clean:
-rm $(addsuffix .utf8,HEADER README.italian_fts LEGGIMI.italian_fts \
italian_fts.sql italian_fts_spell.sql \
$(DICTFILES_in) src/Makefile)
$(MAKE) -C sito $@

split:
python ./split_dict.py
Expand Down
69 changes: 55 additions & 14 deletions sito/Makefile
@@ -1,22 +1,63 @@
DISTNAME = ispell-italian
VERSION = 1.0
DISTNAME = italian-fts
VERSION = $(shell cat ../VERSION)
ifndef DATE
DATE = $(shell date +%Y-%m-%d)
endif

PKGFILE = $(DISTNAME)-$(VERSION)
PKGFILES = $(DISTNAME)-$(VERSION)-latin1.tar.gz \
$(DISTNAME)-$(VERSION)-utf8.tar.gz
PAGES = italian-fts.html fts-italiano.html index.html \
README.italian_fts_utf8.html README.italian_fts_latin1.html \
LEGGIMI.italian_fts_utf8.html LEGGIMI.italian_fts_latin1.html

DICTFILES = ../italian.dict ../italian.aff ../italian.stop
DOCSOURCE = ../README.txt ../LEGGIMI.txt gpl.txt

site.tar.gz: $(PKGFILE).tar.gz italian-fts.html fts-italiano.html
.PHONY : clean

site : $(PKGFILES) $(PAGES)

sitedist : site.tar.gz

FILTER_VAR = \
sed 's,VERSION,$(VERSION),g' \
| sed 's,DATE,$(DATE),g'

FILTER_UTF8 = \
sed 's,ENCODING,utf8,g'

FILTER_LATIN1 = \
sed 's,ENCODING,latin1,g'

site.tar.gz: $(PKGFILES) $(PAGES)
tar czvf $@ $^

$(PKGFILE).tar.gz : $(DICTFILES) $(DOCSOURCE)
-mkdir $(PKGFILE)
cp $(DICTFILES) $(DOCSOURCE) $(PKGFILE)
tar czvf $@ $(PKGFILE)
index.html : fts-italiano.html
cp $< $@

italian-fts.html: italian-fts.txt
cat $< | $(FILTER_VAR) | rst2html.py > $@

fts-italiano.html: fts-italiano.txt
cat $< | $(FILTER_VAR) | rst2html.py --lang=it > $@

README.italian_fts_utf8.html : ../README.italian_fts.in
cat $< | $(FILTER_VAR) | $(FILTER_UTF8) | rst2html.py > $@

README.italian_fts_latin1.html : ../README.italian_fts.in
cat $< | $(FILTER_VAR) | $(FILTER_LATIN1) | rst2html.py > $@

LEGGIMI.italian_fts_utf8.html : ../LEGGIMI.italian_fts.in
cat $< | $(FILTER_VAR) | $(FILTER_UTF8) | rst2html.py --lang=it > $@

LEGGIMI.italian_fts_latin1.html : ../LEGGIMI.italian_fts.in
cat $< | $(FILTER_VAR) | $(FILTER_LATIN1) | rst2html.py --lang=it > $@

italian-fts.html: ../README.txt
rst2html.py < $< > $@
$(DISTNAME)-$(VERSION)-utf8.tar.gz : ../dist/$(DISTNAME)-$(VERSION)-utf8.tar.gz
$(MAKE) -C .. ENCODING=utf8 package
ln $< $@

fts-italiano.html: ../LEGGIMI.txt
rst2html.py --lang=it < $< > $@
$(DISTNAME)-$(VERSION)-latin1.tar.gz : ../dist/$(DISTNAME)-$(VERSION)-latin1.tar.gz
$(MAKE) -C .. ENCODING=latin1 package
ln $< $@

clean:
-rm $(PAGES) $(PKGFILES) site.tar.gz
112 changes: 112 additions & 0 deletions sito/fts-italiano.txt
@@ -0,0 +1,112 @@
==============================================
Dizionario per la Ricerca di Testo in Italiano
==============================================

:Autore: Daniele Varrazzo
:Contatto: piro (alla) develer.com
:Organizzazione: `Develer S.r.l. <http://www.develer.com>`__
:Data: DATE
:Versione: VERSION

:Riassunto: Questo package fornisce un dizionario e gli altri file necessari
per effettuare la *ricerca full text* in documenti in italiano utilizzando
il database PostgreSQL_ insieme al package aggiuntivo Tsearch2_.

La ricerca tiene in considerazione le variazioni caratteristiche della
lingua italiana per restituire i documenti corrispondenti ai criteri di
ricerca, ad esempio le diverse coniugazioni verbali.

Il package contiene anche uno stemmer Snowball_ utile come dizionario di
ripiego per le parole non incluse nel dizionario.

.. _PostgreSQL: http://www.postgresql.org
.. _Tsearch2: http://www.sai.msu.su/~megera/postgres/gist/tsearch/V2/
.. _Snowball: http://snowball.tartarus.org/


:Copyright: 2001, 2002 Gianluca Turconi
:Copyright: 2002, 2003, 2004 Gianluca Turconi and Davide Prina
:Copyright: 2004, 2005, 2006 Davide Prina
:Copyright: 2007 Daniele Varrazzo

[ `English version <italian-fts.html>`__ ]


.. Indice::


Informazioni sul dizionario
===========================

Il presente dizionario � stato generato partendo dal dizionario MySpell di
OpenOffice.org, curato dal `progetto linguistico`_.

.. _progetto linguistico: http://linguistico.sourceforge.net/

Il dizionario ha subito una enorme quantit� di trasformazioni, ed � ormai
praticamente irriconoscibile rispetto all'originale. In particolare tutte le
forme verbali, compresi i verbi irregolari, vengono fatte risalire
all'infinito. Inoltre per ogni verbo vengono riconosciute le forme pronominali
e riflessive applicabili sull'infinito, l'imperativo, il gerundio e il
participio presente e passato.

Altra cura � stata posta nel ricondurre le diverse persone degli aggettivi e
dei loro superlativi ad una forma normale, ad unificare le forme di maschile
e femminile diverse (ricercatore = ricercatrice, sindaco = sindachessa).

Molti sostantivi apparivano inoltre unificati per ottenere il massimo risparmio
del numero di radici (es. caso/casi + casa/case). Tali sostantivi sono stati
divisi per evitare falsi positivi (purtroppo alcuni "falsi amici" di questo
genere potrebbero ancora gironzolare per il dizionario, perch� per individuare
questo genere di problemi non c'� script Python che tenga).

Qualche statistica sulla corrente edizione del dizionario:

- **66.929** radici distinte;
- **7.300** verbi completamente coniugati;
- **1.943.826** termini distinti riconosciuti:
- **62** flag nel file degli affissi;
- **10.365** regole di produzioni nel file degli affissi.


Download
========

Il pacchetto � disponibile in due encoding:

* `UTF8 encoding <http://www.develer.com/~piro/ispell-italian/ispell-italian-VERSION-utf8.tar.gz>`__
* `LATIN1 encoding <http://www.develer.com/~piro/ispell-italian/ispell-italian-VERSION-latin1.tar.gz>`__

Dovresti installare solo la versione corrispondente all'encoding del tuo
cluster di database (puoi usare il comando ``psql -tc SHOW LC_CTYPE postgres``
per sapere quale sia).


Installazione
=============

Per istruzioni dettagliate sull'installazione puoi leggere i file
`LEGGIMI.italian_fts_utf8 <LEGGIMI.italian_fts_utf8.html>`__
o `LEGGIMI.italian_fts_latin1 <LEGGIMI.italian_fts_latin1.html>`__.


Licenza
=======

Il Dizionario Ricerca di Testo in Italiano � distribuito con licenza GPL.


Ringraziamenti
==============

Desidero ringraziare **Davide Prina** e **Gianluca Turconi** perch� senza il
loro `progetto linguistico`_ non avrei avuto un punto di partenza.

Ringrazio anche **Oleg Bartunov** e **Teodor Sigaev**, autori del progetto
Tsearch2_

E mille grazie alla Develer_, il posto pi� buono dove mettere un hacker!

...e al mio angelo, che sopporta con pazienza i miei fusi orari.

.. _Develer: http://www.develer.com
112 changes: 112 additions & 0 deletions sito/italian-fts.txt
@@ -0,0 +1,112 @@
=======================================
Italian Dictionary for Full-Text Search
=======================================

:Author: Daniele Varrazzo
:Contact: piro (at) develer.com
:Organization: `Develer S.r.l. <http://www.develer.com>`__
:Date: DATE
:Version: VERSION

:Abstract: This package provides a dictionary and the other files required to
perform *full text search* in Italian documents using the PostgreSQL_
database together with the contrib module Tsearch2_.

Using the provided dictionary, search operations in Italian documents can
keep into account morphological variations of Italian words, such as verb
conjugations.

This package contains also a Snowball_ stemmer useful as fallback for words
not included in the dictionary.

.. _PostgreSQL: http://www.postgresql.org
.. _Tsearch2: http://www.sai.msu.su/~megera/postgres/gist/tsearch/V2/
.. _Snowball: http://snowball.tartarus.org/


:Copyright: 2001, 2002 Gianluca Turconi
:Copyright: 2002, 2003, 2004 Gianluca Turconi and Davide Prina
:Copyright: 2004, 2005, 2006 Davide Prina
:Copyright: 2007 Daniele Varrazzo

[ `Versione italiana <fts-italiano.html>`__ ]


.. Contents::


Spelling Dictionary Informations
================================

This vocabulary has been generated from the MySpell OpenOffice.org vocabulary,
provided by the `progetto linguistico`_.

.. _progetto linguistico: http://linguistico.sourceforge.net/

The dictionary had to undergo an huge amount of transformations, and is now
quite unrecognizable from the original. Above all, all the verbal forms,
including irregular verbs, are now reduced to the infinite form. Furthermore,
for each verb, the construction with pronominal and reflexive particles are
recognized on gerund, present and past participle, imperative and infinite.

Great care has also been taken in reducing the different forms of adjectives
(male and female, singular and plural, superlatives) to a single normal form,
and to unify different forms of male and female (es. *ricercatore* and
*ricercatrice*: male and female form of "researcher").

Furthermore, in the original dictionary, many unrelated male and female nouns
were joined together as they were an adjective (es. *caso/casi* + *casa/case*,
with the unrelated meanings of "case(s)" and "house(s)"). Such false friends
have been mostly split apart to avoid false positives in search results, but
some of them may still lie around in the dictionary (this is a kind of error
that no Python script can help fixing...).

Some statistics about the current dictionary edition:

- **66,929** distinct roots,
- **7,300** completely conjugated verbs
- **1,943,826** distinct recognized terms
- **62** flags in the affix file
- **10,365** production rules in the affix file.


Download
========

The package is available in two encodings:

* `UTF8 encoding <http://www.develer.com/~piro/ispell-italian/ispell-italian-VERSION-utf8.tar.gz>`__
* `LATIN1 encoding <http://www.develer.com/~piro/ispell-italian/ispell-italian-VERSION-latin1.tar.gz>`__

Please install only the version matching your cluster locale (use ``psql -tc
SHOW LC_CTYPE postgres`` to know your cluster locale).


Installation
============

Please refer to the `README.italian_fts_utf8 <README.italian_fts_utf8.html>`__
or `README.italian_fts_latin1 <README.italian_fts_latin1.html>`__ file for
installation details.


License
=======

The Italian Dictionary for Full-Text Search is distributed under GPL license.


Acknowledgements
================

I wish to thank **Davide Prina** and **Gianluca Turconi**, because without
their `progetto linguistico`_ i wouldn't have had anything to work upon.

I also hearty thank **Oleg Bartunov** and **Teodor Sigaev**, the Tsearch2_
authors.

And many thanks to Develer_, one of the finest hackers assembly in Italy!

...and to my angel, patiently tolerating my jet lag.

.. _Develer: http://www.develer.com

0 comments on commit 0134cb6

Please sign in to comment.