GitHub - seanghay/khmertokenizer: A fast Khmer text tokenizer that ensures the all characters are included in the process.

Khmer Tokenizer

A fast Khmer text tokenizer that ensures all characters are included in the process.

import { tokenize } from 'khmertokenizer';

tokenize("ភាសាខ្មែរ១២ 123 ABC")
// => ["ភា","សា","ខ្មែ","រ","១","២"," ","1","2","3"," ","A","B","C"]

Iterator

import { tokenizeAsIterator } from 'khmertokenizer';

for (const c of tokenizeAsIterator("ភាសាខ្មែរ១២ 123 ABC")) {
  console.log(c);
}

Grapheme Validation

import { tokenize, isInvalidKhmerGrapheme } from 'khmertokenizer';

const input = "ភាសាខ្មែរ១២ 123 ABC ២ ៗាា"
const output = tokenize(input)
  .filter(c => !isInvalidKhmerGrapheme(c)) // remove invalid graphemes
  .join("")

//=> "ភាសាខ្មែរ១២ 123 ABC ២ ៗ"

Name		Name	Last commit message	Last commit date
Latest commit History 15 Commits
.gitignore		.gitignore
.npmrc		.npmrc
index.demo.js		index.demo.js
index.html		index.html
index.js		index.js
index.test.js		index.test.js
license		license
package.json		package.json
readme.md		readme.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

.gitignore

.gitignore

.npmrc

.npmrc

index.demo.js

index.demo.js

index.html

index.html

index.js

index.js

index.test.js

index.test.js

license

license

package.json

package.json

readme.md

readme.md

Repository files navigation

Khmer Tokenizer

Iterator

Grapheme Validation

About

Releases 5

Languages

License

seanghay/khmertokenizer

Folders and files

Latest commit

History

Repository files navigation

Khmer Tokenizer

Iterator

Grapheme Validation

About

Topics

Resources

License

Stars

Watchers

Forks

Languages