In [1]:
import jieba
import fasttext
import gensim
import time

# 建立自己的词向量，推荐 fastText，速度快
*  第一步是清理数据，这里只保留了字母和汉字。
*  第二步是用 fasttext 训练，就一行代码。得到一个字典文件，可以用 text 打开看看。
*  第三步也是一行代码，用 gensim 倒入训练好的词向量

## 清理数据

In [2]:
def is_alpha(seg): #全部是字母 
    try:
        return seg.encode('ascii').isalpha() # ascii 转换 
    except:
        return False

def is_all_chinese(seg): #全部是中文
    for c in seg:
        if not('\u4e00' <= seg <= '\u9fff'):
            return False
    return True
    
def text_to_parsed_text(text):
    '''
    :param text: a text string "今天天气很好。明天天气如何\n"
    :return: parse and add a space in between. "今天天气 很 好 明天 天气 如何"
    '''
    res =[]
    
    if isinstance(text, str) and len(text) > 0:
        seg_list = jieba.cut(text)
    
    for i in seg_list:
        if i.isdigit() or is_all_chinese(i):
            res.append(i)
    return " ".join(res)

In [6]:
sent= "今天天气很好。明天天气如何\n"
text_to_parsed_text(sent)

'今天天气 很 好 明天 天气 如何'

## 训练词向量模型

In [None]:
#训练一个 cbow 模型， 会得到两个文件 chinese_fasttext_model.vec 和 chinese_fasttext_model.bin
model = fasttext.cbow('data_for_embedding/chinese_parsed_5w_only.txt', 'data_for_embedding/chinese_fasttext_model',
                      lr=0.05, dim=300)  

In [None]:
len(model.words) #查看你的模型里面的词数

## 载入词向量模型

In [None]:
#用 gensim 载入上一步训练好的 fasttext 模型
chinese_w2v = gensim.models.KeyedVectors.load_word2vec_format('data_for_embedding/chinese_fasttext_model.vec')

In [None]:
#查看 topn 个相似词
chinese_w2v.most_similar(positive=['制药'],topn=10) 