Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Tagging process takes such a long time for Thai lauguage #8

Closed
vvorakit opened this issue Oct 14, 2016 · 1 comment
Closed

Tagging process takes such a long time for Thai lauguage #8

vvorakit opened this issue Oct 14, 2016 · 1 comment

Comments

@vvorakit
Copy link

Thank you for such a great work you have done.
So far I have an issue and I have no idea how to fix.

I was able to tag Thai language with a very tiny input (Thai text file for 1MB), and it worked very well (got an output file with POS-tagged words). Then I use the bigger input (Thai text file for 4.5GB) with the exact same code and directory, but the program did not give me any result but waiting with no ending (10 hours and more).

I am curious is there any way to solve this waiting problem, or it was actually working for that long (Text 4.5GB sized for 10 hours) ?

Thai text input as an example,
"โครงการ พี่น้อง
วิก พี เดียด เนิน มูลนิธิ วิก มีเดีย องค์กร แสวง ผลกำไร ผู้ดำเนินการ
ภาษา อื่น
ดาราศาสตร์
ดาราศาสตร์ วิชา วิทยาศาสตร์ ศึกษา วัตถุ ท้องฟ้า อาทิ ดาวฤกษ์ ดาวเคราะห์ ดาวหาง ดารา จักร รวมทั้ง ปรากฏการณ์ ทางธรรมชาติ ต่าง ที่เกิด ขึ้น ชั้น บรรยากาศ โลก ศึกษา เกี่ยวกับ วิวัฒนาการ ลักษณะ ทางกายภาพ เคมี ทาง อุตุนิยมวิทยา และ เคลื่อนที่ วัตถุ ท้องฟ้า ตลอดจน การกำ นิด และ วิวัฒนาการ ของ เอกภพ
ดาราศาสตร์ เป็นหนึ่ง สาขา วิทยาศาสตร์ เก่าแก่ ที่สุด นัก ดาราศาสตร์ วัฒนธรรม โบราณ สังเกตการณ์ ดวงดาว ท้องฟ้า ใน เวลา กลางคืน วัตถุ ดาราศาสตร์ หลายอย่าง ก็ได้ ถูก ค้นพบ เรื่อย ตาม ยุคสมัย กล้องโทรทรรศน์ สิ่งประดิษฐ์ จำเป็น ก่อนที่จะ การพัฒนา มา เป็น วิทยาศาสตร์ สมัยใหม่ อดีตกาล ดาราศาสตร์ ประกอบ สาขา ที่ หลากหลาย วัด ตำแหน่ง ดาว การเดินเรือ ดาราศาสตร์ ดาราศาสตร์ เชิง สังเกตการณ์ การ สร้าง ปฏิทิน และ รวมทั้ง โหราศาสตร์ ดาราศาสตร์ ทุกวันนี้ ถูก จัด มีความหมาย เหมือนกับ ฟิสิกส์ ดาราศาสตร์ ตั้งแต่ คริสต์ ศตวรรษ ที่ เป็นต้นมา ดาราศาสตร์ ออก เป็น สอง สาขา ดาราศาสตร์ เชิง สังเกตการณ์ และ ดาราศาสตร์ เชิงทฤษฎี ดาราศาสตร์ เชิง สังเกตการณ์ ให้ความสำคัญ ไป ที่ การ เก็บ และ การ วิเคราะห์ ข้อมูล การ ความรู้ ทางกายภาพ เบื้องต้น เป็นหลัก ส่วน ดาราศาสตร์ เชิงทฤษฎี ให้ความสำคัญ ไป ที่ การพัฒนา คอมพิวเตอร์ แบบจำลอง เชิง วิเคราะห์ อธิบาย วัตถุ ท้องฟ้า และ ปรากฏการณ์ ต่าง ทั้งสอง สาขา เป็น องค์ประกอบ ซึ่งกันและกัน กล่าวคือ ดาราศาสตร์ เชิงทฤษฎี ใช้ อธิบาย ผล การ สังเกตการณ์ และ ดาราศาสตร์ เชิง สังเกตการณ์ ใช้ ใน การ รับรอง ผล จาก ทางทฤษฎี"

Cheers,

@datquocnguyen
Copy link
Owner

Hi,

I think it should work fine on the 4.5G text file with the tagging implementation in Java (~300K Thai words/second on a Intel Core i5-2400 3.1GHz CPU and 8GB RAM). If you were using Python, the tagging speed is about 10 times slower.

In any case, my recommendation is to split this 4.5G text file into 10/100M text files, and then tagging these smaller files in parallel.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants