forked from dvarrazzo/italian_fts
-
Notifications
You must be signed in to change notification settings - Fork 0
Commit
This commit does not belong to any branch on this repository, and may belong to a fork outside of the repository.
- Sistemato Makefile per il sito
- Loading branch information
Showing
4 changed files
with
295 additions
and
14 deletions.
There are no files selected for viewing
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -1,22 +1,63 @@ | ||
DISTNAME = ispell-italian | ||
VERSION = 1.0 | ||
DISTNAME = italian-fts | ||
VERSION = $(shell cat ../VERSION) | ||
ifndef DATE | ||
DATE = $(shell date +%Y-%m-%d) | ||
endif | ||
|
||
PKGFILE = $(DISTNAME)-$(VERSION) | ||
PKGFILES = $(DISTNAME)-$(VERSION)-latin1.tar.gz \ | ||
$(DISTNAME)-$(VERSION)-utf8.tar.gz | ||
PAGES = italian-fts.html fts-italiano.html index.html \ | ||
README.italian_fts_utf8.html README.italian_fts_latin1.html \ | ||
LEGGIMI.italian_fts_utf8.html LEGGIMI.italian_fts_latin1.html | ||
|
||
DICTFILES = ../italian.dict ../italian.aff ../italian.stop | ||
DOCSOURCE = ../README.txt ../LEGGIMI.txt gpl.txt | ||
|
||
site.tar.gz: $(PKGFILE).tar.gz italian-fts.html fts-italiano.html | ||
.PHONY : clean | ||
|
||
site : $(PKGFILES) $(PAGES) | ||
|
||
sitedist : site.tar.gz | ||
|
||
FILTER_VAR = \ | ||
sed 's,VERSION,$(VERSION),g' \ | ||
| sed 's,DATE,$(DATE),g' | ||
|
||
FILTER_UTF8 = \ | ||
sed 's,ENCODING,utf8,g' | ||
|
||
FILTER_LATIN1 = \ | ||
sed 's,ENCODING,latin1,g' | ||
|
||
site.tar.gz: $(PKGFILES) $(PAGES) | ||
tar czvf $@ $^ | ||
|
||
$(PKGFILE).tar.gz : $(DICTFILES) $(DOCSOURCE) | ||
-mkdir $(PKGFILE) | ||
cp $(DICTFILES) $(DOCSOURCE) $(PKGFILE) | ||
tar czvf $@ $(PKGFILE) | ||
index.html : fts-italiano.html | ||
cp $< $@ | ||
|
||
italian-fts.html: italian-fts.txt | ||
cat $< | $(FILTER_VAR) | rst2html.py > $@ | ||
|
||
fts-italiano.html: fts-italiano.txt | ||
cat $< | $(FILTER_VAR) | rst2html.py --lang=it > $@ | ||
|
||
README.italian_fts_utf8.html : ../README.italian_fts.in | ||
cat $< | $(FILTER_VAR) | $(FILTER_UTF8) | rst2html.py > $@ | ||
|
||
README.italian_fts_latin1.html : ../README.italian_fts.in | ||
cat $< | $(FILTER_VAR) | $(FILTER_LATIN1) | rst2html.py > $@ | ||
|
||
LEGGIMI.italian_fts_utf8.html : ../LEGGIMI.italian_fts.in | ||
cat $< | $(FILTER_VAR) | $(FILTER_UTF8) | rst2html.py --lang=it > $@ | ||
|
||
LEGGIMI.italian_fts_latin1.html : ../LEGGIMI.italian_fts.in | ||
cat $< | $(FILTER_VAR) | $(FILTER_LATIN1) | rst2html.py --lang=it > $@ | ||
|
||
italian-fts.html: ../README.txt | ||
rst2html.py < $< > $@ | ||
$(DISTNAME)-$(VERSION)-utf8.tar.gz : ../dist/$(DISTNAME)-$(VERSION)-utf8.tar.gz | ||
$(MAKE) -C .. ENCODING=utf8 package | ||
ln $< $@ | ||
|
||
fts-italiano.html: ../LEGGIMI.txt | ||
rst2html.py --lang=it < $< > $@ | ||
$(DISTNAME)-$(VERSION)-latin1.tar.gz : ../dist/$(DISTNAME)-$(VERSION)-latin1.tar.gz | ||
$(MAKE) -C .. ENCODING=latin1 package | ||
ln $< $@ | ||
|
||
clean: | ||
-rm $(PAGES) $(PKGFILES) site.tar.gz |
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1,112 @@ | ||
============================================== | ||
Dizionario per la Ricerca di Testo in Italiano | ||
============================================== | ||
|
||
:Autore: Daniele Varrazzo | ||
:Contatto: piro (alla) develer.com | ||
:Organizzazione: `Develer S.r.l. <http://www.develer.com>`__ | ||
:Data: DATE | ||
:Versione: VERSION | ||
|
||
:Riassunto: Questo package fornisce un dizionario e gli altri file necessari | ||
per effettuare la *ricerca full text* in documenti in italiano utilizzando | ||
il database PostgreSQL_ insieme al package aggiuntivo Tsearch2_. | ||
|
||
La ricerca tiene in considerazione le variazioni caratteristiche della | ||
lingua italiana per restituire i documenti corrispondenti ai criteri di | ||
ricerca, ad esempio le diverse coniugazioni verbali. | ||
|
||
Il package contiene anche uno stemmer Snowball_ utile come dizionario di | ||
ripiego per le parole non incluse nel dizionario. | ||
|
||
.. _PostgreSQL: http://www.postgresql.org | ||
.. _Tsearch2: http://www.sai.msu.su/~megera/postgres/gist/tsearch/V2/ | ||
.. _Snowball: http://snowball.tartarus.org/ | ||
|
||
|
||
:Copyright: 2001, 2002 Gianluca Turconi | ||
:Copyright: 2002, 2003, 2004 Gianluca Turconi and Davide Prina | ||
:Copyright: 2004, 2005, 2006 Davide Prina | ||
:Copyright: 2007 Daniele Varrazzo | ||
|
||
[ `English version <italian-fts.html>`__ ] | ||
|
||
|
||
.. Indice:: | ||
|
||
|
||
Informazioni sul dizionario | ||
=========================== | ||
|
||
Il presente dizionario � stato generato partendo dal dizionario MySpell di | ||
OpenOffice.org, curato dal `progetto linguistico`_. | ||
|
||
.. _progetto linguistico: http://linguistico.sourceforge.net/ | ||
|
||
Il dizionario ha subito una enorme quantit� di trasformazioni, ed � ormai | ||
praticamente irriconoscibile rispetto all'originale. In particolare tutte le | ||
forme verbali, compresi i verbi irregolari, vengono fatte risalire | ||
all'infinito. Inoltre per ogni verbo vengono riconosciute le forme pronominali | ||
e riflessive applicabili sull'infinito, l'imperativo, il gerundio e il | ||
participio presente e passato. | ||
|
||
Altra cura � stata posta nel ricondurre le diverse persone degli aggettivi e | ||
dei loro superlativi ad una forma normale, ad unificare le forme di maschile | ||
e femminile diverse (ricercatore = ricercatrice, sindaco = sindachessa). | ||
|
||
Molti sostantivi apparivano inoltre unificati per ottenere il massimo risparmio | ||
del numero di radici (es. caso/casi + casa/case). Tali sostantivi sono stati | ||
divisi per evitare falsi positivi (purtroppo alcuni "falsi amici" di questo | ||
genere potrebbero ancora gironzolare per il dizionario, perch� per individuare | ||
questo genere di problemi non c'� script Python che tenga). | ||
|
||
Qualche statistica sulla corrente edizione del dizionario: | ||
|
||
- **66.929** radici distinte; | ||
- **7.300** verbi completamente coniugati; | ||
- **1.943.826** termini distinti riconosciuti: | ||
- **62** flag nel file degli affissi; | ||
- **10.365** regole di produzioni nel file degli affissi. | ||
|
||
|
||
Download | ||
======== | ||
|
||
Il pacchetto � disponibile in due encoding: | ||
|
||
* `UTF8 encoding <http://www.develer.com/~piro/ispell-italian/ispell-italian-VERSION-utf8.tar.gz>`__ | ||
* `LATIN1 encoding <http://www.develer.com/~piro/ispell-italian/ispell-italian-VERSION-latin1.tar.gz>`__ | ||
|
||
Dovresti installare solo la versione corrispondente all'encoding del tuo | ||
cluster di database (puoi usare il comando ``psql -tc SHOW LC_CTYPE postgres`` | ||
per sapere quale sia). | ||
|
||
|
||
Installazione | ||
============= | ||
|
||
Per istruzioni dettagliate sull'installazione puoi leggere i file | ||
`LEGGIMI.italian_fts_utf8 <LEGGIMI.italian_fts_utf8.html>`__ | ||
o `LEGGIMI.italian_fts_latin1 <LEGGIMI.italian_fts_latin1.html>`__. | ||
|
||
|
||
Licenza | ||
======= | ||
|
||
Il Dizionario Ricerca di Testo in Italiano � distribuito con licenza GPL. | ||
|
||
|
||
Ringraziamenti | ||
============== | ||
|
||
Desidero ringraziare **Davide Prina** e **Gianluca Turconi** perch� senza il | ||
loro `progetto linguistico`_ non avrei avuto un punto di partenza. | ||
|
||
Ringrazio anche **Oleg Bartunov** e **Teodor Sigaev**, autori del progetto | ||
Tsearch2_ | ||
|
||
E mille grazie alla Develer_, il posto pi� buono dove mettere un hacker! | ||
|
||
...e al mio angelo, che sopporta con pazienza i miei fusi orari. | ||
|
||
.. _Develer: http://www.develer.com |
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1,112 @@ | ||
======================================= | ||
Italian Dictionary for Full-Text Search | ||
======================================= | ||
|
||
:Author: Daniele Varrazzo | ||
:Contact: piro (at) develer.com | ||
:Organization: `Develer S.r.l. <http://www.develer.com>`__ | ||
:Date: DATE | ||
:Version: VERSION | ||
|
||
:Abstract: This package provides a dictionary and the other files required to | ||
perform *full text search* in Italian documents using the PostgreSQL_ | ||
database together with the contrib module Tsearch2_. | ||
|
||
Using the provided dictionary, search operations in Italian documents can | ||
keep into account morphological variations of Italian words, such as verb | ||
conjugations. | ||
|
||
This package contains also a Snowball_ stemmer useful as fallback for words | ||
not included in the dictionary. | ||
|
||
.. _PostgreSQL: http://www.postgresql.org | ||
.. _Tsearch2: http://www.sai.msu.su/~megera/postgres/gist/tsearch/V2/ | ||
.. _Snowball: http://snowball.tartarus.org/ | ||
|
||
|
||
:Copyright: 2001, 2002 Gianluca Turconi | ||
:Copyright: 2002, 2003, 2004 Gianluca Turconi and Davide Prina | ||
:Copyright: 2004, 2005, 2006 Davide Prina | ||
:Copyright: 2007 Daniele Varrazzo | ||
|
||
[ `Versione italiana <fts-italiano.html>`__ ] | ||
|
||
|
||
.. Contents:: | ||
|
||
|
||
Spelling Dictionary Informations | ||
================================ | ||
|
||
This vocabulary has been generated from the MySpell OpenOffice.org vocabulary, | ||
provided by the `progetto linguistico`_. | ||
|
||
.. _progetto linguistico: http://linguistico.sourceforge.net/ | ||
|
||
The dictionary had to undergo an huge amount of transformations, and is now | ||
quite unrecognizable from the original. Above all, all the verbal forms, | ||
including irregular verbs, are now reduced to the infinite form. Furthermore, | ||
for each verb, the construction with pronominal and reflexive particles are | ||
recognized on gerund, present and past participle, imperative and infinite. | ||
|
||
Great care has also been taken in reducing the different forms of adjectives | ||
(male and female, singular and plural, superlatives) to a single normal form, | ||
and to unify different forms of male and female (es. *ricercatore* and | ||
*ricercatrice*: male and female form of "researcher"). | ||
|
||
Furthermore, in the original dictionary, many unrelated male and female nouns | ||
were joined together as they were an adjective (es. *caso/casi* + *casa/case*, | ||
with the unrelated meanings of "case(s)" and "house(s)"). Such false friends | ||
have been mostly split apart to avoid false positives in search results, but | ||
some of them may still lie around in the dictionary (this is a kind of error | ||
that no Python script can help fixing...). | ||
|
||
Some statistics about the current dictionary edition: | ||
|
||
- **66,929** distinct roots, | ||
- **7,300** completely conjugated verbs | ||
- **1,943,826** distinct recognized terms | ||
- **62** flags in the affix file | ||
- **10,365** production rules in the affix file. | ||
|
||
|
||
Download | ||
======== | ||
|
||
The package is available in two encodings: | ||
|
||
* `UTF8 encoding <http://www.develer.com/~piro/ispell-italian/ispell-italian-VERSION-utf8.tar.gz>`__ | ||
* `LATIN1 encoding <http://www.develer.com/~piro/ispell-italian/ispell-italian-VERSION-latin1.tar.gz>`__ | ||
|
||
Please install only the version matching your cluster locale (use ``psql -tc | ||
SHOW LC_CTYPE postgres`` to know your cluster locale). | ||
|
||
|
||
Installation | ||
============ | ||
|
||
Please refer to the `README.italian_fts_utf8 <README.italian_fts_utf8.html>`__ | ||
or `README.italian_fts_latin1 <README.italian_fts_latin1.html>`__ file for | ||
installation details. | ||
|
||
|
||
License | ||
======= | ||
|
||
The Italian Dictionary for Full-Text Search is distributed under GPL license. | ||
|
||
|
||
Acknowledgements | ||
================ | ||
|
||
I wish to thank **Davide Prina** and **Gianluca Turconi**, because without | ||
their `progetto linguistico`_ i wouldn't have had anything to work upon. | ||
|
||
I also hearty thank **Oleg Bartunov** and **Teodor Sigaev**, the Tsearch2_ | ||
authors. | ||
|
||
And many thanks to Develer_, one of the finest hackers assembly in Italy! | ||
|
||
...and to my angel, patiently tolerating my jet lag. | ||
|
||
.. _Develer: http://www.develer.com |