Skip to content

Commit a2bf0c5

Browse files
Polish merged stopwords
1 parent c21a3b8 commit a2bf0c5

File tree

2 files changed

+108
-108
lines changed

2 files changed

+108
-108
lines changed

README.md

Lines changed: 2 additions & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -267,14 +267,15 @@ Sonic supports a wide range of languages in its lexing system. If a language is
267267
* 🏳 Latin
268268
* 🇱🇻 Latvian
269269
* 🇱🇹 Lithuanian
270+
* 🇮🇳 Malayalam
270271
* 🇮🇳 Marathi
271272
* 🇳🇵 Nepali
272273
* 🇮🇷 Persian
273274
* 🇵🇱 Polish
274275
* 🇵🇹 Portuguese
275276
* 🇮🇳 Punjabi
276277
* 🇷🇺 Russian
277-
* 🇷🇸 Serbian (latin)
278+
* 🇷🇸 Serbian
278279
* 🇸🇰 Slovak
279280
* 🇸🇮 Slovene
280281
* 🇪🇸 Spanish

src/stopwords/mal.rs

Lines changed: 106 additions & 107 deletions
Original file line numberDiff line numberDiff line change
@@ -4,7 +4,6 @@
44
// Copyright: 2019, Valerian Saliou <valerian@valeriansaliou.name>
55
// License: Mozilla Public License v2.0 (MPL v2.0)
66

7-
// Notice: we do not have stopwords for this language yet.
87
pub static STOPWORDS_MAL: &[&str] = &[
98
"കാണാന്‍",
109
"നിന്ന്",
@@ -15,110 +14,110 @@ pub static STOPWORDS_MAL: &[&str] = &[
1514
"ഈ",
1615
"കൂടുതല്‍",
1716
"താങ്കള്‍",
18-
"എന്നാല്",
19-
"അതിനു",
20-
"ശേഷം",
21-
"ചെയ്യുന്നു",
22-
"ഇവിടത്തെ",
23-
"വേണ്ടി",
24-
"ഏറ്റവും",
25-
"ഇതില്",
26-
"വേണ്ടിയും",
27-
"ആണ്",
28-
"സ്ഥിതിചെയ്യുന്നു",
29-
"സ്ഥിതി",
30-
"സ്ഥിതിചെയ്യുന്ന",
31-
"ചെയ്യണം",
32-
"നമ്മുടെ",
33-
"ഇപ്പോള്",
34-
"ഒരു",
35-
"തന്റെ",
36-
"ചെയ്യുന്ന",
37-
"എന്ന",
38-
"ചെയ്യുന്നത്",
39-
"ഉണ്ട്",
40-
"മുന്‍പ്",
41-
"മുമ്പ്",
42-
"കൂടെ",
43-
"ചേര്‍ത്തു",
44-
"ഇപ്രകാരം",
45-
"എന്നിവയുടെ",
46-
"കഴിയും",
47-
"എന്നീ",
48-
"ഇതാണ്",
49-
"വളരെ",
50-
"കാരണം",
51-
"ഇവിടത്തെ",
52-
"എപ്പോഴും",
53-
"കൊണ്ട്",
54-
"നല്ല",
55-
"ധാരാളം",
56-
"എപ്പോഴും",
57-
"ഇവ",
58-
"കാരണം",
59-
"ഇതു",
60-
"മാത്രമല്ല",
61-
"മറ്റു",
62-
"എന്നിവ",
63-
"കൂടിയാണ്",
64-
"ഇടയില്",
65-
"ഇല്ല",
66-
"എന്നാണ്",
67-
"എന്നു",
68-
"കുറച്ച്",
69-
"അതായത്",
70-
"എന്തെന്നാല്",
71-
"എന്നറിയപ്പെടുന്നു",
72-
"കിടക്കുന്ന",
73-
"പോയാല്",
74-
"ഇത്",
75-
"എല്ലാ",
76-
"വേണ്ടി",
77-
"ഇവിടെ",
78-
"വരുന്നു",
79-
"പോലുള്ള",
80-
"വലിയ",
81-
"പറഞ്ഞ്",
82-
"ഇതിനെ",
83-
"കൊടുത്തിട്ടും",
84-
"എന്ന്",
85-
"വേണം",
86-
"ഒരുപോലെ",
87-
"ഒരു പോലെ",
88-
"കാര്യമാണ്",
89-
"കഴിയുന്നു",
90-
"വളരെ",
91-
"അധികം",
92-
"വളരെ അധികം",
93-
"വളരെയധികം",
94-
"പോയി",
95-
"ഉണ്ടാകുന്നുണ്ട്",
96-
"പക്ഷേ",
97-
"അതേ",
98-
"കൊണ്ട്",
99-
"ഏത്",
100-
"നിന്നും",
101-
"എത്താന്‍",
102-
"അടുത്ത്",
103-
"ആയി",
104-
"എന്നു പറയുന്നു",
105-
"ഇപ്പോൾ",
106-
"ഏകദേശം",
107-
"എന്നുപറയുന്നു",
108-
"കാണാൻ",
109-
"ആ",
110-
"വിവിധ",
111-
"ഇതിന്റെ",
112-
"നിന്നു",
113-
"ഇതിന്",
114-
"അടുത്ത",
115-
"അടുത്തുള്ള",
116-
"പല",
117-
"പ്രധാന",
118-
"നിലനിൽക്കുന്ന",
119-
"നിലനിൽക്കുന്നത്",
120-
"മുതലായവ",
121-
"മുതലായവക്ക്",
122-
"വേണ്ട",
123-
"പ്രാധാന്യം"
17+
"എന്നാല്",
18+
"അതിനു",
19+
"ശേഷം",
20+
"ചെയ്യുന്നു",
21+
"ഇവിടത്തെ",
22+
"വേണ്ടി",
23+
"ഏറ്റവും",
24+
"ഇതില്",
25+
"വേണ്ടിയും",
26+
"ആണ്",
27+
"സ്ഥിതിചെയ്യുന്നു",
28+
"സ്ഥിതി",
29+
"സ്ഥിതിചെയ്യുന്ന",
30+
"ചെയ്യണം",
31+
"നമ്മുടെ",
32+
"ഇപ്പോള്",
33+
"ഒരു",
34+
"തന്റെ",
35+
"ചെയ്യുന്ന",
36+
"എന്ന",
37+
"ചെയ്യുന്നത്",
38+
"ഉണ്ട്",
39+
"മുന്‍പ്",
40+
"മുമ്പ്",
41+
"കൂടെ",
42+
"ചേര്‍ത്തു",
43+
"ഇപ്രകാരം",
44+
"എന്നിവയുടെ",
45+
"കഴിയും",
46+
"എന്നീ",
47+
"ഇതാണ്",
48+
"വളരെ",
49+
"കാരണം",
50+
"ഇവിടത്തെ",
51+
"എപ്പോഴും",
52+
"കൊണ്ട്",
53+
"നല്ല",
54+
"ധാരാളം",
55+
"എപ്പോഴും",
56+
"ഇവ",
57+
"കാരണം",
58+
"ഇതു",
59+
"മാത്രമല്ല",
60+
"മറ്റു",
61+
"എന്നിവ",
62+
"കൂടിയാണ്",
63+
"ഇടയില്",
64+
"ഇല്ല",
65+
"എന്നാണ്",
66+
"എന്നു",
67+
"കുറച്ച്",
68+
"അതായത്",
69+
"എന്തെന്നാല്",
70+
"എന്നറിയപ്പെടുന്നു",
71+
"കിടക്കുന്ന",
72+
"പോയാല്",
73+
"ഇത്",
74+
"എല്ലാ",
75+
"വേണ്ടി",
76+
"ഇവിടെ",
77+
"വരുന്നു",
78+
"പോലുള്ള",
79+
"വലിയ",
80+
"പറഞ്ഞ്",
81+
"ഇതിനെ",
82+
"കൊടുത്തിട്ടും",
83+
"എന്ന്",
84+
"വേണം",
85+
"ഒരുപോലെ",
86+
"ഒരു പോലെ",
87+
"കാര്യമാണ്",
88+
"കഴിയുന്നു",
89+
"വളരെ",
90+
"അധികം",
91+
"വളരെ അധികം",
92+
"വളരെയധികം",
93+
"പോയി",
94+
"ഉണ്ടാകുന്നുണ്ട്",
95+
"പക്ഷേ",
96+
"അതേ",
97+
"കൊണ്ട്",
98+
"ഏത്",
99+
"നിന്നും",
100+
"എത്താന്‍",
101+
"അടുത്ത്",
102+
"ആയി",
103+
"എന്നു പറയുന്നു",
104+
"ഇപ്പോൾ",
105+
"ഏകദേശം",
106+
"എന്നുപറയുന്നു",
107+
"കാണാൻ",
108+
"ആ",
109+
"വിവിധ",
110+
"ഇതിന്റെ",
111+
"നിന്നു",
112+
"ഇതിന്",
113+
"അടുത്ത",
114+
"അടുത്തുള്ള",
115+
"പല",
116+
"പ്രധാന",
117+
"നിലനിൽക്കുന്ന",
118+
"നിലനിൽക്കുന്നത്",
119+
"മുതലായവ",
120+
"മുതലായവക്ക്",
121+
"വേണ്ട",
122+
"പ്രാധാന്യം",
124123
];

0 commit comments

Comments
 (0)