Skip to content

Latest commit

 

History

History
25 lines (15 loc) · 1.09 KB

g0v_slack_rand0m_README.md

File metadata and controls

25 lines (15 loc) · 1.09 KB

g0v Slack CC0 corpus from #rand0m chatlog

釋出資料

https://github.com/moztw/cc0-sentences/blob/master/zh-TW/g0v_slack_rand0m.txt

整理方法

  1. chatlog 的句子拆開成一句一句
  2. 編輯內容去識別化,移掉冷僻難句,隨機打散順序
  3. 然後commit 到 repo,並更新 README 檔案中的進度標示

整理的成果品質標準可參考目前的句子

可用於 ChatGPT 協助處理的 prompt

將接下來的對話紀錄整理成一句一行。將14字以上的句子切斷成兩句。略過有ID與時間的行數。去除句中的英文。忽略所有符號、ID、emoji、空行。把數字改為中文大寫。改寫句子以維持順暢。句尾不需要句號。

目前進度

整理至 2020/04 完成