Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

New word suggestions #2

Open
thep opened this issue Oct 25, 2017 · 4 comments
Open

New word suggestions #2

thep opened this issue Oct 25, 2017 · 4 comments

Comments

@thep
Copy link
Contributor

thep commented Oct 25, 2017

This issue is dedicated for word suggestions to be added to LibThai word break dictionary and will never be closed. Please feel free to suggest words by adding comments. Thank you.

@nuttee15
Copy link

Here are some word suggestions

แอนด์
โลตัส
เมคอัพ
โอสถ
เรชซิ่ง
กลาส
คลีน
คาร์
แคร์
สมาย
คลาส
ซิมโฟนี
แมค
แม็ก
คันทรี่
ซีคอน
ราษฎร์
สวัสดี
สวัสดิ์
ประดิษฐ์
โซลูชั่น
คลินิก
แกรนิต
คิดส์
สตูดิโอ
กิฟฟารีน
วู้ด
อินดัสทรี
คูล
มณฑล
หมู่บ้าน
สวีท
แมนชั่น
สปอร์ต
คลับ
บิวตี้
บิวตี้ฟูล
ชนะ
ยานยนต์
โรส
กรุ๊ป
แกรนด์
แอ็บสแตรค
อุตหกรรม
แพลตตินั่ม
พัฒนา
อลูมินัม
เซฟตี้
มิสซิส
กราฟิก
ซัพพลาย
คอนสตรัคชั่น
แกรมม่า
แบงค็อก
วัสดุภัณฑ์
การพิมพ์
การช่าง
สังฆภัณฑ์
โปรดักส์
ทาวน์
การพิมพ์
การช่าง
ออพติคอล
พลาสติก
มีตติ้ง
มอลล์
สุทธาราม
พาณิชยการ
นนทบุรี
บัณฑิต
คณิต
ทันตแพทย์
สรรพาวุธ

@thep
Copy link
Contributor Author

thep commented Jun 12, 2018

Thank you for the suggestions. With words already existing in the dictionary filtered out, here's my opinion:

เรชซิ่ง
คลีน
สมาย
แม็ก
คิดส์
วู้ด
คูล
บิวตี้
บิวตี้ฟูล

To be added to tdict-common.txt, with spelling adjustment (เรชซิ่ง -> เรซซิ่ง, สมาย -> สไมล์).

กิฟฟารีน
โรส

To be added to tdict-proper.txt.

อินดัสทรี

Existing entry is "อินดัสตรีส์" (tdict-common.txt). To be added as spelling variant.

ยานยนต์

Compound of existing entries "ยาน" and "ยนต์". To be added to tdict-common.txt as compound word.

แอ็บสแตรค

To be added to tdict-common.txt, along with another common variant "แอบสแตรก".

อุตหกรรม

This is typo of "อุตสาหกรรม". Not to be added.

แพลตตินั่ม
อลูมินัม

Existing entries: "แพลทินัม" (standard), "อะลูมินัม" (based on standard "อะลูมิเนียม").
To be added to tdict-spell.txt as common typos.

มิสซิส
คอนสตรัคชั่น

To be added to tdict-common.txt, with some spelling variants of "คอนสตรัคชั่น".

แกรมม่า

To be added to tdict-common.txt.

แบงค็อก

To be added to tdict-district.txt, as spelling variant of "บางกอก"

วัสดุภัณฑ์
สังฆภัณฑ์

To be added to tdict-common.txt as compound words.

การพิมพ์
การช่าง

Existing entries: "การ" + { "พิมพ์", "ช่าง" }, and I think it's too general to add this kind of compounds.
So, will not adding them.

โปรดักส์
มีตติ้ง
สุทธาราม
สรรพาวุธ

To be added to tdict-common.txt.

ออพติคอล

Existing entry: "ออปติคอล" (tdict-ict.txt). To be added to tdict-ict.txt as spelling variant of the word.

Thank you again for the suggestions.

thep added a commit that referenced this issue Jun 12, 2018
* data/tdict-common.txt:
* data/tdict-district.txt:
* data/tdict-ict.txt:
* data/tdict-proper.txt:
* data/tdict-spell.txt:
  - Add words suggested by @nuttee15 in issue #2
    #2 (comment)
    #2 (comment)
    Thank you very much!
@bact
Copy link
Contributor

bact commented Jun 12, 2018

What is the policy on spelling variants (or misspelled words)?

@thep
Copy link
Contributor Author

thep commented Jun 12, 2018

Significant tendency of use in real documents. High frequency of use is one criterion.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants