Projekt ma na celu zindeksowanie oraz przeszukiwanie korpusu Wikipedii.
Na projekt składają się trzy moduły:
wiki-indexer
- tworzy indeks na podstawie plik z korpusem Wikipediiwiki-finder
- przeszukuje utworzony wczesniej indexwedt
- RESTful Web Service
Plik wikifinder.properties
- plik z ustawieniami. Znajdują się w nim dwa parametry:
- miejsce, gdzie tworzymy indeks:
index-path=$HOME/tmp/wiki-finder/index
- źródłowy plik z korpusem:
source-file=$HOME/tmp/wiki-finder/wiki-finder/plwiki-latest-pages-articles-multistream.xml
-
budujemy paczki za pomocą mvn:
cd wiki-finder-project mvn package
-
jary pojawiają sie w katalogach
wiki-finder-project/wiki-indexer/target/
wiki-finder-project/wiki-finder/target/
-
W miejscu, z którego uruchamiamy jary, należy utworzyć plik
wikifinder.properties
-
Uruchomienie:
cd wedt mvn spring-boot:run
-
Wynik:
{"page":"http://blog.gridwise.pl/2013/05/text-mining-po-polsku-możliwe.html","findings":[{"index":1,"content":"po"},{"index":2,"content":"polski"},{"index":3,"content":"możliwe"}]}
Póki co dokonuje tylko stemizacji słów w tytule strony i zwraca wynik w strukturze JSON. <<<<<<< HEAD
=======
6f64c1354060fdc8a6f37f739d5347f6d445b8fb