In [1]:
import json
import pandas as pd
import numpy as np
from opencc import OpenCC
import jieba
import os
from gensim.models import word2vec, fasttext
from gensim.models.callbacks import CallbackAny2Vec



In [2]:
def writeSeg(outFileName, cc, data):
    with open('wiki_text_seg.txt', 'a', encoding='utf-8') as new_f:
        d = cc.convert(data['text'])
        d = jieba.cut(d)
        d = [word for word in d if word != ' ']
        d = list(set(d)) # remove duplicate word
        d = ' '.join(d)
        new_f.write(d)

In [3]:
def createSegWordsToFile(fileDir, segFile, cc):
    counter = 0
    for root, dirs, files in os.walk(fileDir):
        for fName in files:
            counter = counter + 1

            # processs each row in a file
            with open(os.path.join(root,fName),  encoding='utf-8') as fp:
                for json_str in fp:
                    data = json.loads(json_str)
                    writeSeg(segFile,cc,data)

            if counter % 10 == 0:
                print("Now processed {}/1274 files...".format(counter))

In [4]:
class callback(CallbackAny2Vec):
    '''Callback to print loss after each epoch.'''

    def __init__(self):
        self.epoch = 0

    def on_epoch_end(self, model):
        loss = model.get_latest_training_loss()
        print('Loss after epoch {}: {}'.format(self.epoch, loss))
        self.epoch+=1
        
    def on_epoch_begin(self,model):
        print('Epoch {} start!'.format(self.epoch))

In [5]:
def trainModel(train_data_path, model_path):
    # Settings
    seed = 666
    sg = 0
    window_size = 10
    vector_size = 100
    min_count = 1
    workers = 8
    epochs = 5
    batch_words = 10000


    # Train
    train_data = word2vec.LineSentence(train_data_path)
    model = fasttext.FastText(
        train_data,
        min_count=min_count,
        vector_size=vector_size,
        workers=workers,
        epochs=epochs,
        window=window_size,
        sg=sg,
        seed=seed,
        batch_words=batch_words,
        callbacks=[callback()]
    )


    model.save(model_path)

In [6]:
fileDir = 'wiki_zh'
segFile = 'wiki_text_seg.txt'
modelPath = 'fasttext.model'
# Initial
cc = OpenCC('s2t')

In [56]:
createSegWordsToFile(fileDir, segFile, cc)

Now processed 10/1274 files...
Now processed 20/1274 files...
Now processed 30/1274 files...
Now processed 40/1274 files...
Now processed 50/1274 files...
Now processed 60/1274 files...
Now processed 70/1274 files...
Now processed 80/1274 files...
Now processed 90/1274 files...
Now processed 100/1274 files...
Now processed 110/1274 files...
Now processed 120/1274 files...
Now processed 130/1274 files...
Now processed 140/1274 files...
Now processed 150/1274 files...
Now processed 160/1274 files...
Now processed 170/1274 files...
Now processed 180/1274 files...
Now processed 190/1274 files...
Now processed 200/1274 files...
Now processed 210/1274 files...
Now processed 220/1274 files...
Now processed 230/1274 files...
Now processed 240/1274 files...
Now processed 250/1274 files...
Now processed 260/1274 files...
Now processed 270/1274 files...
Now processed 280/1274 files...
Now processed 290/1274 files...
Now processed 300/1274 files...
Now processed 310/1274 files...
Now processed 320

In [None]:
trainModel(segFile, modelPath)

Epoch 0 start!
Loss after epoch 0: 0.0
Epoch 0 start!
Loss after epoch 0: 0.0
Epoch 0 start!
Loss after epoch 0: 0.0
Epoch 0 start!
Loss after epoch 0: 0.0
Epoch 0 start!


In [42]:
fileDir = 'wiki_zh'
s = 0
for root, dirs, files in os.walk(fileDir):
    s = s+len(files)
    for fName in files:
        print(root,fName)
s

wiki_zh\AA wiki_00
wiki_zh\AA wiki_01
wiki_zh\AA wiki_02
wiki_zh\AA wiki_03
wiki_zh\AA wiki_04
wiki_zh\AA wiki_05
wiki_zh\AA wiki_06
wiki_zh\AA wiki_07
wiki_zh\AA wiki_08
wiki_zh\AA wiki_09
wiki_zh\AA wiki_10
wiki_zh\AA wiki_11
wiki_zh\AA wiki_12
wiki_zh\AA wiki_13
wiki_zh\AA wiki_14
wiki_zh\AA wiki_15
wiki_zh\AA wiki_16
wiki_zh\AA wiki_17
wiki_zh\AA wiki_18
wiki_zh\AA wiki_19
wiki_zh\AA wiki_20
wiki_zh\AA wiki_21
wiki_zh\AA wiki_22
wiki_zh\AA wiki_23
wiki_zh\AA wiki_24
wiki_zh\AA wiki_25
wiki_zh\AA wiki_26
wiki_zh\AA wiki_27
wiki_zh\AA wiki_28
wiki_zh\AA wiki_29
wiki_zh\AA wiki_30
wiki_zh\AA wiki_31
wiki_zh\AA wiki_32
wiki_zh\AA wiki_33
wiki_zh\AA wiki_34
wiki_zh\AA wiki_35
wiki_zh\AA wiki_36
wiki_zh\AA wiki_37
wiki_zh\AA wiki_38
wiki_zh\AA wiki_39
wiki_zh\AA wiki_40
wiki_zh\AA wiki_41
wiki_zh\AA wiki_42
wiki_zh\AA wiki_43
wiki_zh\AA wiki_44
wiki_zh\AA wiki_45
wiki_zh\AA wiki_46
wiki_zh\AA wiki_47
wiki_zh\AA wiki_48
wiki_zh\AA wiki_49
wiki_zh\AA wiki_50
wiki_zh\AA wiki_51
wiki_zh\AA w

1274

In [18]:
# Initial
cc = OpenCC('s2t')

In [11]:
fileName = r'wiki_zh\AA\wiki_00'

with open(fileName,  encoding='utf-8') as fp:
    for json_str in fp:
        data = json.loads(json_str)

{'id': '13', 'url': 'https://zh.wikipedia.org/wiki?curid=13', 'title': '数学', 'text': '数学\n\n数学是利用符号语言研究数量、结构、变化以及空间等概念的一门学科，从某种角度看属于形式科学的一种。数学透过抽象化和逻辑推理的使用，由计数、计算、量度和对物体形状及运动的观察而产生。数学家们拓展这些概念，为了公式化新的猜想以及从选定的公理及定义中建立起严谨推导出的定理。\n\n基础数学的知识与运用总是个人与团体生活中不可或缺的一环。对数学基本概念的完善，早在古埃及、美索不达米亚及古印度内的古代数学文本便可观见，而在古希腊那里有更为严谨的处理。从那时开始，数学的发展便持续不断地小幅进展，至16世纪的文艺复兴时期，因为新的科学发现和数学革新两者的交互，致使数学的加速发展，直至今日。数学并成为许多国家及地区的教育范畴中的一部分。\n\n今日，数学使用在不同的领域中，包括科学、工程、医学、经济学和金融学等。数学对这些领域的应用通常被称为应用数学，有时亦会激起新的数学发现，并导致全新学科的发展，例如物理学的实质性发展中建立的某些理论激发数学家对于某些问题的不同角度的思考。数学家也研究纯数学，就是数学本身的实质性内容，而不以任何实际应用为目标。虽然许多研究以纯数学开始，但其过程中也发现许多应用之处。\n\n西方语言中“数学”（）一词源自于古希腊语的（），其有“学习”、“学问”、“科学”，以及另外还有个较狭义且技术性的意思－「数学研究」，即使在其语源内。其形容词（），意思为"和学习有关的"或"用功的"，亦会被用来指"数学的"。其在英语中表面上的复数形式，及在法语中的表面复数形式\'，可溯至拉丁文的中性复数\'，由西塞罗译自希腊文复数（），此一希腊语被亚里士多德拿来指「万物皆数」的概念。\n\n汉字表示的「数学」一词大约产生于中国宋元时期。多指象数之学，但有时也含有今天上的数学意义，例如，秦九韶的《数学九章》（《永乐大典》记，即《数书九章》也被宋代周密所著的《癸辛杂识》记为《数学大略》）、《数学通轨》（明代柯尚迁著）、《数学钥》（清代杜知耕著）、《数学拾遗》（清代丁取忠撰）。直到1939年，经过中国数学名词审查委员会研究“算学”与“数学”两词的使用状况后，确认以“数学”表示今天意义上的数学含义。\n\n数

In [34]:
with open('wiki_text_seg.txt', 'w', encoding='utf-8') as new_f:
    d = cc.convert(data['text'])
    d = jieba.cut(d)
    d = [word for word in d if word != ' ']
    d = list(set(d)) # remove duplicate word
    d = ' '.join(d)
    new_f.write(d)
print(d)

入 待 以 — 地介紹 山靈 High Bar 教堂 進入 1968 現代計算 爾文 密爾瓦基 而 已經長 改成 瓦嘎 進制 2 建議 一兒 LR 電腦 名字 5 該法則 高德納酷 高分 發音 開思 印刷 電子 16 每 屆 期刊 97.5 School IBM 物理科 專論 領域 基督教 愛音樂 已經 1972 寫 分 · 使用 一部 任教 20 其間 Emacs 時候 Wesley 這 定 1962 4 出版 撰 John 十六 指出 放 一種 提案 音譯 高德納以 掌握 程式 數學 Knuth 創造 } 更好 二年 設計 得出 《 and Science Addison 單詞 手冊 學生 工具 並對 修補 主修 安全局 美元 沒有 音樂 89579 凱斯西 數學家 取名 排版 多頁 敬重 命名 比賽 決定念 達 產生 “ 今天 向 文學 6 協會 並創造 1959 」 ; 複 在 寫餘下 客座教授 私人 所取 基石 搜索 1956 當高德納 252 大學 1966 12 一直 出生 相對論 力學 分析 裁判 育有 原理 Pratt 兩度 現出 下 簿記 之前 因此 ） 多 2.56 雜度 在家 冠 1996 認 約 Complexity 一付 大型 同時 計劃 後 可以 計算 很 諾貝爾獎 theory 唐納德 系統 興趣 軟件 此外 獎勵 H 專心 每人 1975 先驅 1979 以及 從 256 便動手 其稱 使 機系 界最受 重要 多項 開發 父親 科學 他們 7 ' 個 蘭 傑出 論述 爲 還曾 妻子 最先 州 著 作品 錯誤 設立 大字典 找出 數 算是 愛 3000 雪 「 黑客 Things 得主 更加 hant 對 以外 一般 很多 經營 過程 進展 電視機 Louise Review 1 Marie 擔任 郵件 于 美分 莫里斯 國家獎 聽 二十 斯坦福 Varga 作曲 科學及 Lutheran 機科學 物理 與 人 停止使用 ： 會 ， ISBN 密爾瓦 就 工程 世紀 字符 算法 於 編程 京都 價值 託 軍 國家 演奏 000 英文名 月榮 之一 者 完稿 顧問 字型 多藝 解析 每個 都 書籍 管風琴 Ervin 胃 威斯康辛 1973 糖果 理論 一樣 非常 讀 猶豫大學 歌曲 中學教 卷 科學獎 獲得 : 2001 生于 風和大

In [23]:
data['text']

"高德纳\n\n高德纳（，音译：唐纳德·尔文·克努斯，），出生于美国密尔沃基，著名计算机科学家，斯坦福大学计算机系荣誉退休教授。高德纳教授为现代计算机科学的先驱人物，创造了演算法分析的领域，在数个理论计算机科学的分支做出基石一般的贡献。在计算机科学及数学领域发表了多部具广泛影响的论文和著作。1974年图灵奖得主。\n\n高德纳所写的《计算机程序设计艺术》是计算机科学界最受高度敬重的参考书籍之一。他也是排版软件和字型设计系统Metafont的发明人。此外，他还曾提出文学编程的概念，并创造了WEB与CWEB软体，作为文学编程开发工具。\n\n高德纳的英文名直译为唐纳德·尔文·克努斯（Knuth发音为//），「高德纳」这个中文名字是1977年他访-{}-问中国之前所取的，命名者是储枫（姚期智的夫人，计算机科学家）。\n\n高德纳出生于于美国威斯康辛州密西根湖边的密尔瓦基。密尔瓦基是一个山灵水秀、人才辈出的地方，诺贝尔奖得主司马贺(H. A. Simon,1916年6月15日－2001年2月9日)也是在这里出生的。他父亲 Ervin Henry Knuth是德裔美国人，母亲是 Louise Marie Bohning。父亲有研究生学历，是一个多才多艺的人，星期天在教堂演奏风琴，在自家地下室经营一个小印刷厂，并在高德纳就读的 Milwaukee Lutheran High School中学教簿记。\n\n高德纳在中学时期就已经展现出学术天分，初中二年级，当地的Ziegler糖果公司为了促销其称为Giant Bar的一种棒棒糖，在学校中办了一个比赛，看谁能用Ziegler's Giant Bar中的字母排列组合出最多的单词。高德纳假装胃疼，在家里待了两个星期，利用一部大字典，得出了4,500个单词，而裁判只掌握了约2,500多个单词，他的班级赢得冠军，获得一台电视机和每人一块Giant Bar，而他本人则赢得一付雪撬。\n\n1956年，高德纳以各科平均97.5分的创记录的高分从中学毕业。由于高德纳对物理和音乐都很有兴趣，他曾犹豫大学要念物理还是音乐，后来他决定念物理，进入俄亥俄州克利夫兰的开思理工学院(现在并入凯斯西储大学)攻读物理。在此时期，他接触到当时最先进的大型电脑 IBM 650，他读过了电脑的手册后，认为自己可以帮IBM 650写出更好的编译程式，便动手开始做。\n