In [68]:
from gensim import corpora, models
from collections import Counter
import glob
import numpy as np

In [69]:
files = glob.glob("../segmented/*.txt")
encoder = dict() # word -> id
encoded_docs = []
docs = []
word_idx = 0
for i, file in enumerate(files):
    encoded_doc = []
    doc = []
    with open(file) as fstream:
        for line in fstream:
            word = line.strip()
            
            if word not in encoder:       # build a dict of all words
                encoder[word] = word_idx
                word_idx += 1

            encoded_doc.append(encoder[word])
            doc.append(word)
    encoded_docs.append((i, encoded_doc))
    docs.append((i, doc))

print("Unique words in texts:", word_idx)

decoder = {i:word for word, i in encoder.items()}

Unique words in texts: 7154


In [70]:
decoder[5]

'对此'

In [93]:
import glob
fns = glob.glob("../segmented/*.txt")

docs = []
for i, fn in enumerate(fns):
    doc = []
    with open(fn) as f:
        for line in f:
            doc.append(line.strip())
    docs.append((i, doc))
    
all_docs = []
for i, doc in docs:
    all_docs.extend(doc)
    
c = Counter(all_docs)

word_counts = np.zeros(max(decoder.keys()) + 1)
for i, word in decoder.items():
    word_counts[i] = c[word]

unigram_distribution = word_counts/sum(word_counts)

In [74]:
texts = [list(filter(lambda w: 30 <= c[w] <= 500, doc)) for i, doc in docs]

In [75]:
dictionary = corpora.Dictionary(texts)

In [76]:
corpus = [dictionary.doc2bow(text) for text in texts]

In [77]:
n_topics = 25
lda = models.LdaModel(corpus, alpha=0.9, id2word=dictionary, num_topics=n_topics)


In [78]:
corpus_lda = lda[corpus]

In [79]:
keywords = []
for i, topics in lda.show_topics(n_topics, formatted=False):
    keywords.append(set([t for t, _ in topics]))
    print('topic', i, ':', ' '.join([t for t, _ in topics]))

topic 0 : 企业 占 主要 ADR 品牌 交易 产品 指数 投资者 新
topic 1 : 区块 汽车 比特 链 新能源 管理 热 币 产品 组合
topic 2 : 管理 热 产品 企业 汽车 自如 新能源 服务 新 链
topic 3 : 新能源 汽车 预期 企业 可能 预计 主要 全球 风险 增速
topic 4 : 币 比特 区块 链 企业 交易 技术 信任 主要 代工
topic 5 : 汽车 新能源 管理 产品 功率 热 国内 占 技术 器件
topic 6 : 企业 品牌 预期 经济 产品 可能 代工 预计 管理 汽车
topic 7 : 汽车 新能源 管理 热 空调 企业 产品 主要 国内 新
topic 8 : 产品 风险 新 占 资产 目前 预期 价值 企业 可能
topic 9 : 汽车 新能源 风险 预计 预期 企业 产品 可能 全球 经济
topic 10 : 品牌 企业 代工 功率 产品 转型 实现 预计 IGBT 发展
topic 11 : 管理 新能源 资产 热 企业 可能 风险 经济 汽车 预期
topic 12 : 新能源 汽车 功率 器件 技术 热 产品 占 管理 区块
topic 13 : 产品 品牌 管理 企业 客户 预期 新 主要 全球 国内
topic 14 : 汽车 新能源 管理 热 产品 企业 占 主要 资产 预期
topic 15 : 功率 汽车 器件 半导体 IGBT 领域 二极管 新能源 国内 MOSFET
topic 16 : 企业 品牌 风险 代工 主要 产品 成本 目前 未来 预计
topic 17 : 预期 经济 资产 可能 持续 盈利 风险 预计 指数 增速
topic 18 : 新能源 汽车 预计 预期 热 企业 功率 全球 品牌 管理
topic 19 : 预计 产品 预期 新能源 汽车 管理 热 领域 国内 企业
topic 20 : 品牌 功率 新能源 产品 企业 全球 汽车 器件 领域 IGBT
topic 21 : 汽车 新能源 热 预计 企业 产品 管理 预期 可能 品牌
topic 22 : 产品 预期 预计 管理 全球 增速 功率 可能 新 国内
topic 23 : 比特 区块 币 链 目前 新能源 交易 汽车 主要 技术
topic 24 : 企业 器件 产品 功率 品牌

In [80]:
lda.show_topics()

[(7,
  '0.029*"汽车" + 0.028*"新能源" + 0.024*"管理" + 0.018*"热" + 0.016*"空调" + 0.013*"企业" + 0.013*"产品" + 0.010*"主要" + 0.010*"国内" + 0.009*"新"'),
 (19,
  '0.013*"预计" + 0.012*"产品" + 0.011*"预期" + 0.011*"新能源" + 0.010*"汽车" + 0.010*"管理" + 0.009*"热" + 0.009*"领域" + 0.009*"国内" + 0.008*"企业"'),
 (1,
  '0.020*"区块" + 0.016*"汽车" + 0.016*"比特" + 0.014*"链" + 0.014*"新能源" + 0.013*"管理" + 0.012*"热" + 0.012*"币" + 0.011*"产品" + 0.011*"组合"'),
 (5,
  '0.018*"汽车" + 0.017*"新能源" + 0.014*"管理" + 0.014*"产品" + 0.013*"功率" + 0.011*"热" + 0.011*"国内" + 0.010*"占" + 0.010*"技术" + 0.009*"器件"'),
 (12,
  '0.020*"新能源" + 0.018*"汽车" + 0.014*"功率" + 0.014*"器件" + 0.013*"技术" + 0.012*"热" + 0.012*"产品" + 0.012*"占" + 0.012*"管理" + 0.011*"区块"'),
 (24,
  '0.012*"企业" + 0.012*"器件" + 0.012*"产品" + 0.011*"功率" + 0.011*"品牌" + 0.010*"汽车" + 0.010*"主要" + 0.009*"风险" + 0.008*"成本" + 0.008*"亿元"'),
 (9,
  '0.015*"汽车" + 0.013*"新能源" + 0.012*"风险" + 0.012*"预计" + 0.011*"预期" + 0.010*"企业" + 0.010*"产品" + 0.010*"可能" + 0.009*"全球" + 0.009*"经济"'),
 (10,
  '0.019*"品牌" + 0.017*

In [81]:
import pyLDAvis.gensim

pyLDAvis.enable_notebook()
pyLDAvis.gensim.prepare(lda, corpus, dictionary)

In [82]:
import numpy as np
from tqdm import tqdm

doc_weights_init = np.zeros((len(corpus_lda), n_topics))

for i in tqdm(range(len(corpus_lda))):
    topics = corpus_lda[i]
    for j, prob in topics:
        doc_weights_init[i, j] = prob

100%|██████████| 33/33 [00:00<00:00, 688.32it/s]


In [83]:
np.save('doc_weights_init.npy', doc_weights_init)

In [84]:
vocab_size = len(decoder)
embedding_dim = 50

# train a skip-gram word2vec model
texts = [doc for i, doc in docs]
model = models.Word2Vec(texts, size=embedding_dim, window=5, workers=4, sg=1, negative=15, iter=1000, min_count=1)
model.init_sims(replace=True)

In [85]:
len(model.wv.vocab)

7154

In [86]:
word_vectors = np.zeros((vocab_size, embedding_dim)).astype('float32')
for word, i in encoder.items():
    word_vectors[i] = model.wv[word]

In [87]:
word_vectors

array([[-4.71141143e-03, -1.56356826e-01, -3.37638736e-01, ...,
         2.15603471e-01, -2.46589974e-01, -1.55160323e-01],
       [ 1.12521634e-01, -9.99759808e-02, -1.19481914e-01, ...,
        -1.59275785e-01, -2.05859154e-01, -2.53037870e-01],
       [ 7.97143728e-02,  7.95571133e-02, -2.50481695e-01, ...,
         1.96360126e-01, -3.43490452e-01, -1.26225576e-01],
       ...,
       [-5.53992875e-02,  1.58122163e-02,  4.14679646e-02, ...,
        -3.68123502e-02, -1.77603796e-01, -6.53678849e-02],
       [ 2.09972672e-02, -3.36245028e-03, -9.48462985e-04, ...,
         3.71534750e-02, -1.83201447e-01, -1.21879846e-01],
       [ 1.71285167e-01, -1.24367148e-01, -1.58221379e-01, ...,
         1.31096141e-02, -1.84669346e-01, -3.16299265e-04]], dtype=float32)

In [88]:
model.wv.most_similar(positive="区块")

  if np.issubdtype(vec.dtype, np.int):


[('链', 0.9770722389221191),
 ('逻辑', 0.7773962020874023),
 ('比特', 0.7371569871902466),
 ('币', 0.7288092970848083),
 ('必要性', 0.6980648040771484),
 ('privateBlockChains', 0.6828681826591492),
 ('模糊', 0.6549313068389893),
 ('近几个月', 0.6484412550926208),
 ('ConsortiumBlockChains', 0.6462746858596802),
 ('底层', 0.6444998979568481)]

In [41]:
decoder[3903]

'链'

In [89]:
np.save('word_vectors.npy', word_vectors)

In [90]:
def get_windows(doc, hws=5):
    """
    For each word in a document get a window around it.
    Arguments:
        doc: a list of words.
        hws: an integer, half window size.
    Returns:
        a list of tuples, each tuple looks like this
            (word w, window around w),
            window around w equals to
            [hws words that come before w] + [hws words that come after w],
            size of the window around w is 2*hws.
            Number of the tuples = len(doc).
    """
    length = len(doc)
    assert length > 2*hws, 'doc is too short!'

    inside = [(w, doc[(i - hws):i] + doc[(i + 1):(i + hws + 1)])
              for i, w in enumerate(doc[hws:-hws], hws)]

    # for words that are near the beginning or
    # the end of a doc tuples are slightly different
    beginning = [(w, doc[:i] + doc[(i + 1):(2*hws + 1)])
                 for i, w in enumerate(doc[:hws], 0)]

    end = [(w, doc[-(2*hws + 1):i] + doc[(i + 1):])
           for i, w in enumerate(doc[-hws:], length - hws)]

    return beginning + inside + end

HALF_WINDOW_SIZE = 5
data = []

for index, doc in encoded_docs:
    windows = get_windows(doc, HALF_WINDOW_SIZE)
    data += [[index, w[0]] + w[1] for w in windows]

In [91]:
np.save('data.npy', data)

In [92]:
np.save('decoder.npy', decoder)

In [94]:
np.save('unigram_distribution', unigram_distribution)