-
Notifications
You must be signed in to change notification settings - Fork 668
Commit
This commit does not belong to any branch on this repository, and may belong to a fork outside of the repository.
improved stop word support and related config
stop words can be loaded from files/bytes, closes #19 stop words loaded for large list of languages, closes #20 defined language specific analyzers for as much as possible right now, closes #21 opened new issues for some of the remaining gaps
- Loading branch information
Showing
34 changed files
with
5,907 additions
and
30 deletions.
There are no files selected for viewing
132 changes: 132 additions & 0 deletions
132
analysis/token_filters/stop_words_filter/stop_words_ar.go
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1,132 @@ | ||
package stop_words_filter | ||
|
||
// this content was obtained from: | ||
// lucene-4.7.2/analysis/common/src/resources/org/apache/lucene/analysis | ||
// ` was changed to ' to allow for literal string | ||
|
||
var ArabicStopWords = []byte(`# This file was created by Jacques Savoy and is distributed under the BSD license. | ||
# See http://members.unine.ch/jacques.savoy/clef/index.html. | ||
# Also see http://www.opensource.org/licenses/bsd-license.html | ||
# Cleaned on October 11, 2009 (not normalized, so use before normalization) | ||
# This means that when modifying this list, you might need to add some | ||
# redundant entries, for example containing forms with both أ and ا | ||
من | ||
ومن | ||
منها | ||
منه | ||
في | ||
وفي | ||
فيها | ||
فيه | ||
و | ||
ف | ||
ثم | ||
او | ||
أو | ||
ب | ||
بها | ||
به | ||
ا | ||
أ | ||
اى | ||
اي | ||
أي | ||
أى | ||
لا | ||
ولا | ||
الا | ||
ألا | ||
إلا | ||
لكن | ||
ما | ||
وما | ||
كما | ||
فما | ||
عن | ||
مع | ||
اذا | ||
إذا | ||
ان | ||
أن | ||
إن | ||
انها | ||
أنها | ||
إنها | ||
انه | ||
أنه | ||
إنه | ||
بان | ||
بأن | ||
فان | ||
فأن | ||
وان | ||
وأن | ||
وإن | ||
التى | ||
التي | ||
الذى | ||
الذي | ||
الذين | ||
الى | ||
الي | ||
إلى | ||
إلي | ||
على | ||
عليها | ||
عليه | ||
اما | ||
أما | ||
إما | ||
ايضا | ||
أيضا | ||
كل | ||
وكل | ||
لم | ||
ولم | ||
لن | ||
ولن | ||
هى | ||
هي | ||
هو | ||
وهى | ||
وهي | ||
وهو | ||
فهى | ||
فهي | ||
فهو | ||
انت | ||
أنت | ||
لك | ||
لها | ||
له | ||
هذه | ||
هذا | ||
تلك | ||
ذلك | ||
هناك | ||
كانت | ||
كان | ||
يكون | ||
تكون | ||
وكانت | ||
وكان | ||
غير | ||
بعض | ||
قد | ||
نحو | ||
بين | ||
بينما | ||
منذ | ||
ضمن | ||
حيث | ||
الان | ||
الآن | ||
خلال | ||
بعد | ||
قبل | ||
حتى | ||
عند | ||
عندما | ||
لدى | ||
جميع | ||
`) |
200 changes: 200 additions & 0 deletions
200
analysis/token_filters/stop_words_filter/stop_words_bg.go
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1,200 @@ | ||
package stop_words_filter | ||
|
||
// this content was obtained from: | ||
// lucene-4.7.2/analysis/common/src/resources/org/apache/lucene/analysis/ | ||
// ` was changed to ' to allow for literal string | ||
|
||
var BulgarianStopWords = []byte(`# This file was created by Jacques Savoy and is distributed under the BSD license. | ||
# See http://members.unine.ch/jacques.savoy/clef/index.html. | ||
# Also see http://www.opensource.org/licenses/bsd-license.html | ||
а | ||
аз | ||
ако | ||
ала | ||
бе | ||
без | ||
беше | ||
би | ||
бил | ||
била | ||
били | ||
било | ||
близо | ||
бъдат | ||
бъде | ||
бяха | ||
в | ||
вас | ||
ваш | ||
ваша | ||
вероятно | ||
вече | ||
взема | ||
ви | ||
вие | ||
винаги | ||
все | ||
всеки | ||
всички | ||
всичко | ||
всяка | ||
във | ||
въпреки | ||
върху | ||
г | ||
ги | ||
главно | ||
го | ||
д | ||
да | ||
дали | ||
до | ||
докато | ||
докога | ||
дори | ||
досега | ||
доста | ||
е | ||
едва | ||
един | ||
ето | ||
за | ||
зад | ||
заедно | ||
заради | ||
засега | ||
затова | ||
защо | ||
защото | ||
и | ||
из | ||
или | ||
им | ||
има | ||
имат | ||
иска | ||
й | ||
каза | ||
как | ||
каква | ||
какво | ||
както | ||
какъв | ||
като | ||
кога | ||
когато | ||
което | ||
които | ||
кой | ||
който | ||
колко | ||
която | ||
къде | ||
където | ||
към | ||
ли | ||
м | ||
ме | ||
между | ||
мен | ||
ми | ||
мнозина | ||
мога | ||
могат | ||
може | ||
моля | ||
момента | ||
му | ||
н | ||
на | ||
над | ||
назад | ||
най | ||
направи | ||
напред | ||
например | ||
нас | ||
не | ||
него | ||
нея | ||
ни | ||
ние | ||
никой | ||
нито | ||
но | ||
някои | ||
някой | ||
няма | ||
обаче | ||
около | ||
освен | ||
особено | ||
от | ||
отгоре | ||
отново | ||
още | ||
пак | ||
по | ||
повече | ||
повечето | ||
под | ||
поне | ||
поради | ||
после | ||
почти | ||
прави | ||
пред | ||
преди | ||
през | ||
при | ||
пък | ||
първо | ||
с | ||
са | ||
само | ||
се | ||
сега | ||
си | ||
скоро | ||
след | ||
сме | ||
според | ||
сред | ||
срещу | ||
сте | ||
съм | ||
със | ||
също | ||
т | ||
тази | ||
така | ||
такива | ||
такъв | ||
там | ||
твой | ||
те | ||
тези | ||
ти | ||
тн | ||
то | ||
това | ||
тогава | ||
този | ||
той | ||
толкова | ||
точно | ||
трябва | ||
тук | ||
тъй | ||
тя | ||
тях | ||
у | ||
харесва | ||
ч | ||
че | ||
често | ||
чрез | ||
ще | ||
щом | ||
я | ||
`) |
Oops, something went wrong.