-
Notifications
You must be signed in to change notification settings - Fork 270
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Add Thai female, male names corpus #217
Conversation
ดูแล้วน่าจะ merge ได้นะครับ มี test ครบหมด เขียนมาตามสไตล์ของโค้ดที่มีอยู่แล้วด้วย มีที่มาของการรวบรวมและสัญญาอนุญาตไหมครับ (เป็น public domain, เป็น Creative Commons Attribution หรือ Attribution-ShareAlike ฯลฯ) จะได้ใส่เอาไว้ในเอกสารครับ https://github.com/PyThaiNLP/pythainlp/blob/dev/pythainlp/corpus/corpus_license.md |
ข้อมูลนี้ผมรวบรวมด้วยตัวเอง เดิมทีเอามาใช้ใน toy project ที่ทำนายเพศชาย-หญิงจากชื่อภาษาไทย โดยรวบรวมจากเอกสารที่ค้นพบตาม search engine แล้วเลือกเอาเฉพาะชื่อมาใช้ เลยไม่มีสัญญาอนุญาตครับ หากต้องระบุสัญญาอนุญาตคงใช้ Creative Commons Attribution-ShareAlike 4.0 International Public License เหมือน words_th.txt, stopwords_th.txt |
ส่วนตัว corpus ไม่ควรอยู่ใน repo นี้อ่ะครับ ตัวอย่างเช่น ถ้าผมลง clone repo เพื่อมาใช้งาน หรือ ลง PyThaiNLP เพื่อจะใช้งานส่วนอื่นๆ ก้อจะติด corpus พวกนี้มาด้วย ถึงแม้ว่าตอนนี้ corpus มันยังไม่ใหญ่ แต่ อาจจะดีกว่าถ้าแยกออกไปเลย แล้วถ้ามีการเรียกใช้ ก็ค่อย download ลงมา |
เห็นด้วยครับว่า corpus บางตัวก็ไม่จำเป็นต้องติดตั้งไปพร้อมกับ module และอาจจะทำให้ module มีขนาดใหญ่ ควรนำไปไว้ภายนอกตาม repo นี้ https://github.com/PyThaiNLP/pythainlp-corpus ผมดูใน db.json ที่เก็บ config ของ corpus แล้วพบว่าเก็บไว้หลายที่ทั้ง dropbox, repo ส่วนตัว, githubusercontent เลยอยากจะขอคำแนะนำครับ
ขอบคุณครับ |
@korkeatw ตัว https://github.com/PyThaiNLP/pythainlp-corpus เก็บแค่ลิงก์ดีกว่านะครับ เพราะถ้าเอาไว้รวมกัน อาจจะมีปัญหาเรื่องลิมิตกับค่าใช้จ่าย GitHub ในการเก็บไฟล์ได้ครับ |
@wannaphongcom ผมอาจจะเขียนคลุมเครือไปหน่อย pythainlp-corpus ยังเก็บแค่ metadata และ link ของไฟล์เหมือนเดิมครับ ที่ผม concern ในข้อ 1 คือที่เก็บไฟล์ครับ ว่าควรจะมีที่เดียวหรือเปล่า (แต่พอคิดอีกทีการกระจายอยู่คนละที่ก็ดีเหมือนกันเพราะหากที่ใดที่หนึ่งใช้ไม่ได้อีกที่ก็ยังใช้ได้อยู่ ฮา) ถ้าอย่างนั้น เดี๋ยวผมแก้ PR นี้ให้ download corpus จากภายนอก (เหมือน corpus ขนาดใหญ่อื่น ๆ) เสร็จแล้วจะสร้าง PR เพิ่ม metadata ใน pythainlp-corpus อีกทีครับ ขอบคุณครับ |
@korkeatw @wannaphongcom ผมมีไอเดียที่จะทำ Python package (DataBuri) รวมดาต้าของไทย เลยคิดว่าอาจจะเอา corpus นี้ไปรวมด้วย ซึ่งตัว files ต่างๆ จะอยู่บน Google Cloud Storage เวลาเรียกใช้ก้ออาจจะจะประมาณ
ไม่ทราบว่ามีความเห็นกันยังไงบ้างครับ? |
เห็นด้วยว่า น่าจะมีที่เก็บ "อย่างเป็นทางการ" รวมกันสักที่หนึ่งครับ ซึ่งจะอยู่ใน github, dropbox, google drive อะไรก็ได้ และถ้าเป็นไปได้ควรจะเป็นที่เดียวกันครับ |
เก็บไว้ใน |
Off-topic: น่าจะลองจัดระเบียบ |
232af1b
to
211c960
Compare
Hello @korkeatw! Thanks for updating this PR. We checked the lines you've touched for PEP 8 issues, and found:
Comment last updated at 2019-07-28 06:33:58 UTC |
มีอีกความเห็นครับ สำหรับ db.json ส่วนตัวคิดว่า ถ้าเป็น config file แบบนี้ เก็บเป็น YAML อาจจะสะดวกและสวยกว่า |
เห็นด้วย YAML น่าจะ human readable มากกว่า |
@codeforthailand เคยเก็บชื่อผู้สมัครส.ส. เผื่อสนใจเอาไปเพิ่ม listได้ครับ https://github.com/codeforthailand/dataset-election-62-candidates/tree/master/data |
ขออนุญาตเอาไปเพิ่มในรายชื่อนะครับ (แยกชายหญิงด้วยคำนำหน้า) |
@bact we also have the list of senate names here: https://drive.google.com/open?id=1-vGHq0cTuStxGsxN0kpxWWElWxL_liR5. |
ชื่อไทยและชื่อมุสลิมของผู้ชายจำนวน 3,834 ชื่อ และผู้หญิงจำนวน 3,854 ชื่อ
NOTE: Integration test will pass if we merge this PR PyThaiNLP/pythainlp-corpus#8