Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Add multiple language stopwords with customizable stop word paths #40

Merged
merged 4 commits into from Sep 2, 2015
Merged
Show file tree
Hide file tree
Changes from 2 commits
Commits
File filter

Filter by extension

Filter by extension


Conversations
Failed to load comments.
Jump to
Jump to file
Failed to load files.
Diff view
Diff view
2 changes: 1 addition & 1 deletion classifier-reborn.gemspec
Expand Up @@ -18,7 +18,7 @@ Gem::Specification.new do |s|
s.homepage = 'https://github.com/jekyll/classifier-reborn'

all_files = `git ls-files -z`.split("\x0")
s.files = all_files.grep(%r{^(bin|lib)/})
s.files = all_files.grep(%r{^(bin|lib|data)/})
s.executables = all_files.grep(%r{^bin/}) { |f| File.basename(f) }
s.require_paths = ["lib"]

Expand Down
126 changes: 126 additions & 0 deletions data/stopwords/ca
@@ -0,0 +1,126 @@
de
es
i
a
o
un
una
unes
uns
un
tot
també
altre
algun
alguna
alguns
algunes
ser
és
soc
ets
som
estic
està
estem
esteu
estan
com
en
per
perquè
per que
estat
estava
ans
abans
éssent
ambdós
però
per
poder
potser
puc
podem
podeu
poden
vaig
va
van
fer
faig
fa
fem
feu
fan
cada
fi
inclòs
primer
des de
conseguir
consegueixo
consigueix
consigueixes
conseguim
consigueixen
anar
haver
tenir
tinc
te
tenim
teniu
tene
el
la
les
els
seu
aquí
meu
teu
ells
elles
ens
nosaltres
vosaltres
si
dins
sols
solament
saber
saps
sap
sabem
sabeu
saben
últim
llarg
bastant
fas
molts
aquells
aquelles
seus
llavors
sota
dalt
ús
molt
era
eres
erem
eren
mode
quant
quan
on
mentre
qui
amb
entre
sense
jo
aquell
138 changes: 138 additions & 0 deletions data/stopwords/cs
@@ -0,0 +1,138 @@
dnes
cz
timto
budes
budem
byli
jses
muj
svym
ta
tomto
tohle
tuto
tyto
jej
zda
proc
mate
tato
kam
tohoto
kdo
kteri
mi
nam
tom
tomuto
mit
nic
proto
kterou
byla
toho
protoze
asi
ho
nasi
napiste
re
coz
tim
takze
svych
jeji
svymi
jste
aj
tu
tedy
teto
bylo
kde
ke
prave
ji
nad
nejsou
ci
pod
tema
mezi
pres
ty
pak
vam
ani
kdyz
vsak
ne
jsem
tento
clanku
clanky
aby
jsme
pred
pta
jejich
byl
jeste
az
bez
take
pouze
prvni
vase
ktera
nas
novy
tipy
pokud
muze
design
strana
jeho
sve
jine
zpravy
nove
neni
vas
jen
podle
zde
clanek
uz
email
byt
vice
bude
jiz
nez
ktery
by
ktere
co
nebo
ten
tak
ma
pri
od
po
jsou
jak
dalsi
ale
si
ve
to
jako
za
zpet
ze
do
pro
je
na
101 changes: 101 additions & 0 deletions data/stopwords/da
@@ -0,0 +1,101 @@
af
alle
andet
andre
at
begge
da
de
den
denne
der
deres
det
dette
dig
din
dog
du
ej
eller
en
end
ene
eneste
enhver
et
fem
fire
flere
fleste
for
fordi
forrige
fra
før
god
han
hans
har
hendes
her
hun
hvad
hvem
hver
hvilken
hvis
hvor
hvordan
hvorfor
hvornår
i
ikke
ind
ingen
intet
jeg
jeres
kan
kom
kommer
lav
lidt
lille
man
mand
mange
med
meget
men
mens
mere
mig
ned
ni
nogen
noget
ny
nyt
nær
næste
næsten
og
op
otte
over
se
seks
ses
som
stor
store
syv
ti
til
to
tre
ud
var