-
Notifications
You must be signed in to change notification settings - Fork 287
Closed
Labels
bugbugs in the librarybugs in the library
Milestone
Description
from pythainlp.tokenize import word_tokenize
text = "แมวกินปลาแมวมันชอบนอนนอนกลางวันนอนแล้วนอนอีกเป็นสัตว์ที่ขี้เกียจจริงๆเลยแมวแต่แมวมันเข้ากับคนได้ดีฉันชอบแมว"
print(word_tokenize(text,engine='mm'))['แมว', 'กิน', 'ปลา', 'แมว', 'มัน', 'ชอบ', 'นอน', 'นอน', 'กลางวัน', 'นอน', 'แล้ว', 'นอน', 'อีก', 'เป็น', 'สัตว์', 'ที่', 'ขี้เกียจ', 'จริงๆ', 'เลย', 'แมว', 'แต่', 'NOT_แมว', 'NOT_มัน', 'NOT_เข้ากับ', 'NOT_คน', 'NOT_ได้ดี', 'NOT_ฉัน', 'NOT_ชอบ', 'NOT_แมว']
ไม่แนะนำให้ใช้ mm เพราะกำลังอยู่ในช่วงพัฒนา
Metadata
Metadata
Assignees
Labels
bugbugs in the librarybugs in the library