[meta] Train harder to segment languages, like CJK languages #425

gregtatum · 2024-02-06T17:59:24Z

For harder to segment languages we have Chinese, Japanese, and Korean. We'll need to implement better tokenization support and segmentation support for these languages in order to train them. This work should happen after training a subset of the easier to segment language in #524.

Tasks

Give feedback

Monolingual data has a word splitter that won't work for CJK #424

language-coverage
Support Chinese discussion #45

language-coverage
Bump bicleaner-ai dependency #378

language-coverage
Bug 1820618 - TranslationsDocument should use a word segmenter not a regex to support CJK-like languages
Options

Native Speakers

If you are a native speaker (L1 language) in any of these languages and want to help out, feel free to leave a comment on this issue or join us in Firefox Translations on matrix. We can always use help with qualitative model evaluation, and questions regarding language.

gregtatum added the epic label Feb 6, 2024

gregtatum added the language-coverage Issues related to covering specific languages label Apr 10, 2024

gregtatum changed the title ~~[meta] Support training CJK languages~~ [meta] Train harder to segment languages, like CJK languages Apr 10, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[meta] Train harder to segment languages, like CJK languages #425

[meta] Train harder to segment languages, like CJK languages #425

gregtatum commented Feb 6, 2024 •

edited

Loading

Tasks

[meta] Train harder to segment languages, like CJK languages #425

[meta] Train harder to segment languages, like CJK languages #425

Comments

gregtatum commented Feb 6, 2024 • edited Loading

Tasks

Native Speakers

gregtatum commented Feb 6, 2024 •

edited

Loading