Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

ราชาศัพท์ - word segmentation #796

Closed
leky40 opened this issue Apr 27, 2023 · 3 comments
Closed

ราชาศัพท์ - word segmentation #796

leky40 opened this issue Apr 27, 2023 · 3 comments
Labels
question asking questions/giving suggestions

Comments

@leky40
Copy link

leky40 commented Apr 27, 2023

มีใครเคยทำ word segmentation ของราชาศัพท์และชื่อราชวงศ์ไหมคะ ตัดแบบเป็นคำ ไม่ใช่พยางค์นะคะ เวลาตัด มีเกณฑ์ยังไงคะ เกณฑ์เชิง linguistics ที่จะเอาไปวิเคราะห์ทางภาษาใช้ในประโยคโครงสร้างไทยและเอามา POS tag มากกว่าเชิง NLP ตัดตามพจนานุกรม? เพราะบางคำในคำยาว ๆ ก็ไม่มีในพจนานุกรม

เช่น พระบรมราชโองการ -- คำนี้จะรวมเป็นคำหนึ่ง หรือแยกกคำ?

ถ้ารวม ไม่มีในพจนานุกรม แต่ถ้าแยก จะได้ พระ บรม ราชโองการ แบบนี้คือตามพจนานุกรม แต่ละคำมีความหมายและ POS

แต่ปัญหาคือ เวลา annotate syntactically ไม่แน่ใจจะรวมสามคำนี้เป็นคำใหญ่คำเดียวโดย tag เป็น NOUN โดยไม่มี internal syntax ระหว่างคำ หรือแยกคำตามพจนานุกรมแล้ว tag ตามพจนานุกรม แล้วรวมเป็น compound noun

ยิ่งชื่อราชวงศ์ยาว ๆ ไม่แน่ใจเลยว่า ควร segment ดีไหม ตรงไหนคือชื่อจริง ๆ

คือเรากำลังทำ thesis เกี่ยวกับ treebank ค่ะ

@wannaphong
Copy link
Member

wannaphong commented Apr 28, 2023

โดยทั่วไปใช้ตามเกณฑ์ตัดคำของ BEST2009 ครับ https://lexitron.nectec.or.th/KM_HL5001/file_HL5001/Document/krrn_14625.doc

การตัดคำภาษาไทย : ตัดคำอย่างไร

@leky40
Copy link
Author

leky40 commented Apr 28, 2023

@wannaphong ขอบคุณค่ะ มี Link งานนี้ไหมคะ เวลา cite ถึงจะได้ใส่ลงไป เท่าที่ดูผ่าน ๆ คิดว่า น่าจะเอามาอ่านและใช้เป็นแนว annotation guideline ของไทยได้ เขียนเป็น paper หรือเปล่าคะ

@wannaphong
Copy link
Member

BEST 2009: Thai word segmentation software contest https://ieeexplore.ieee.org/document/5340941

@wannaphong wannaphong added the question asking questions/giving suggestions label May 31, 2023
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
question asking questions/giving suggestions
Projects
None yet
Development

No branches or pull requests

2 participants