Skip to content
master
Go to file
Code

Latest commit

 

Git stats

Files

Permalink
Failed to load latest commit information.
Type
Name
Latest commit message
Commit time
 
 
 
 
 
 

README.md

Podpora slovenčiny pre ElasticSearch

Repozitár pozostáva zo:

Pre lepšie výsledky pri lematizácii odporúčame použiť LemmaGen (licencia umožňuje použitie len v nekomerčných projektoch)

Do pozornosti dávame aj hunspell slovník od Essential Data

Implementáciu projektu (vyhľadávanie s podporou skloňovania / časovania / synoným) nájdete na www.webumenia.sk.

Požiadavky a inštalácia

Otestované pre ElasticSearch v1.3.4

Synonymický slovník je vo formáte použitelnom aj pre SOLR (zatiaľ netestované).

Obsah repozitáru stačí nakopírovať do priečinku config/ vo vašej inštalácií ElasticSearch

   |-bin
   |-config
   |---hunspell
   |-----sk_SK
   |---stop-words
   |---synonyms
   |-libexec   

Použitie

Príklad, ako si nastaviť analyzer:

{
  "settings": {
    "analysis": {
      "filter": {
        "lemmagen_filter_sk": {
          "type": "lemmagen",
          "lexicon": "sk"
        },
        "sk_SK" : {
          "type" : "hunspell",
          "locale" : "sk_SK",
          "dedup" : true,
          "recursion_level" : 0
        },
        "synonym_filter": {
          "type": "synonym",
          "synonyms_path": "synonyms/sk_SK.txt",
          "ignore_case": true
        },
        "stopwords_SK": {
          "type": "stop",
          "stopwords_path": "stop-words/stop-words-slovak.txt",
          "ignore_case": true
        }
      },
      "analyzer": {
        "slovencina_synonym": {
          "type": "custom",
          "tokenizer": "standard",
          "filter": [
            "stopwords_SK",
            "lemmagen_filter_sk",
            "lowercase",
            "stopwords_SK",
            "synonym_filter",
            "asciifolding"
          ]
        },
        "slovencina": {
          "type": "custom",
          "tokenizer": "standard",
          "filter": [
            "stopwords_SK",
            "lemmagen_filter_sk",
            "lowercase",
            "stopwords_SK",
            "asciifolding"
          ]
        }
      }
    }
  }
}

pozn. tento príklad používa LemmaGen

Odkazy a ďaľšie zdroje

(privítame tip na ďaľšie relevantné odkazy)

Správa projektu

Tento projekt spravuje lab.SNG. Ak máte akékoľvek otázky, vytvorte issue priamo tu alebo nám napíšte na lab@sng.sk.

Licencia

  • OpenThesaurus-SK a hunspell-sk používa dáta vydané pod GPLv2, LGPLv2.1, MPLv1.1

  • stop-words sú pod public domain

About

Resources

Releases

No releases published
You can’t perform that action at this time.