-
從維基百科:資料庫下載,找到中文版的下載處
-
下載最新的語料 (目前下載:2019/02/01)
-
將維基資料吃進純文字檔 wiki_to_txt.py程式請參閱zake7749/word2vec-tutorial: wiki_to_txt.py
$ python3 wiki_to_txt.py zhwiki-20190201-pages-articles.xml.bz2 -
簡體轉繁體
-
將純文字檔用JIEBA斷句 斷句程式參閱zake7749/word2vec-tutorial: segment.py
$ python3 segment.py- 訓練資料準備完畢