In [1]:
from sklearn.decomposition import TruncatedSVD
from sklearn.feature_extraction.text import TfidfVectorizer
import json

In [2]:
with open('four_type0225.json' , 'r') as reader:
    art_type = json.loads(reader.read())  # art_type['id']=0/1/2/3

with open('segment0227_keywords.json' , 'r') as reader:
    Seg = json.loads(reader.read())

with open('segment0227_stopwords.json' , 'r') as reader:
    Seg_stop = json.loads(reader.read())

In [3]:
# 找出可辨識星象的文章、且長度足夠(>20個詞)的文章 ,出來是 a list of id
temp = list(set(art_type.keys()) & set(Seg.keys()))
useable = []
for i in temp:
    if len(Seg[i])>=20:
        useable.append(i)
print ('useable:', len(useable))

useable: 7463


In [4]:
# 斷好的詞用space連接成字串
corpus = []
def LinkSegment(S):
    hold = []
    for ID in useable:    
        string = " ".join(S[str(ID)])
        hold.append(string)
    return hold
        
# corpus = LinkSegment(Seg_stop)

In [5]:
# count tf-idf
def Count_tfidf(c):
    vectorizer = TfidfVectorizer(use_idf=True)
    x = vectorizer.fit_transform(c)
    return x

# X = Count_tfidf(corpus)

In [6]:
def Shrink(num_feat, seg_set, seg_name): # only 'useable' is global
    corpus = LinkSegment(seg_set)
    X = Count_tfidf(corpus)
    svd = TruncatedSVD(n_components=num_feat, n_iter=100)
    X_transf = svd.fit_transform(X)

    print (X.shape)
    print (X_transf.shape)
    print (svd.components_.shape)

    smallerVec = {}
    n=0
    for ID in useable:
        tolist = list(X_transf[n])
        smallerVec[ID] = tolist
        n+=1
        
    with open('{}words_CKIP_{}.json'.format(seg_name, num_feat), 'w', encoding='utf-8') as f:
        json.dump(smallerVec, f, ensure_ascii=False)
    print ('------------------')

In [8]:
Shrink(1100, Seg, 'key')
Shrink(1200, Seg, 'key')

(7463, 27671)
(7463, 1100)
(1100, 27671)
------------------
(7463, 27671)
(7463, 1200)
(1200, 27671)
------------------


In [43]:
Shrink(100, Seg_stop, 'stop')

(7463, 494)
(7463, 200)
(200, 494)
------------------


In [85]:
svd = TruncatedSVD(n_components=100, n_iter=100)
# svd.fit(X) 
X_transf = svd.fit_transform(X)

In [86]:
# this is first row for V, which is 'term by concept matrix'
# 和 concept0 有關的字
svd.components_[0]

array([0.00064   , 0.00125554, 0.00205043, ..., 0.00038745, 0.00017051,
       0.00010412])

In [92]:
terms = vectorizer.get_feature_names()
for i, comp in enumerate(svd.components_):
    termsInComp = zip(terms, comp)
    sortedTerms = sorted(termsInComp, key=lambda x: x[1], reverse=True) [:10]
    print('concept', i, ':')
    for term in sortedTerms:
        print(term[0])
    print ('')

concept 0 :
我們
喜歡
朋友
知道
覺得
真的
聊天
一個
認識
主動

concept 1 :
分手
在一起
真的
覺得
男友
吵架
我們
交往
分開
星座

concept 2 :
喜歡
星座
處女座
女生
對方
天蠍
射手
處女男
真的
水瓶

concept 3 :
朋友
我們
喜歡
一起
女生
處女男
出去
告白
男生
認識

concept 4 :
處女男
處女座
分手
處女
最近
請問
訊息
處女女
問題
聯絡

concept 5 :
分手
請問
最近
主動
天蠍男
機會
對方
聯絡
在一起
挽回

concept 6 :
喜歡
主動
告白
真的
分手
知道
一直
處女男
現在
拒絕

concept 7 :
朋友
分手
水瓶
訊息
已讀
女生
處女男
突然
一直
不回

concept 8 :
水瓶
我們
水瓶男
訊息
喜歡
瓶男
曖昧
有時候
最近
回覆

concept 9 :
天蠍男
天蠍
蠍男
處女男
巨蟹
天蠍座
天蠍女
我們
喜歡
聊天

concept 10 :
水瓶
水瓶男
主動
男友
瓶男
出去
在一起
處女男
水瓶座
電影

concept 11 :
處女座
女生
一個
雙子男
最近
獅子男
男生
獅子
聊天
雙子

concept 12 :
處女座
主動
水瓶
話題
分手
我們
對方
聊天
水瓶男
摩羯

concept 13 :
射手男
處女座
射手
男友
天蠍男
在一起
射手座
天秤男
天蠍
水瓶男

concept 14 :
天秤
天秤男
處女座
覺得
有時候
主動
天秤女
在一起
男生
男友

concept 15 :
天秤
天秤男
天蠍
對方
一起
獅子
處女男
回覆
雙子
天秤女

concept 16 :
巨蟹
巨蟹男
請問
喜歡
雙子
處女座
男友
雙子男
主動
訊息

concept 17 :
雙子男
雙子
聊天
雙子座
話題
雙子女
分手
男友
每天
摩羯男

concept 18 :
我們
獅子男
有時候
獅子
天秤
男友
分手
吵架
射手
一起

concept 19 :
金牛男
金牛
摩羯
摩羯男
牛牛
訊息
組合
請問
在一起
雙魚男

concept 20 :
雙子男
雙子
主動
獅子男
獅子
我們
訊息
朋友
雙子女
真的

concept 21 :
摩羯
摩羯男
真的
天秤男
告白