### 介紹Gensim 中的 Document, Corpora(語料庫), Vectors and Models
gensim 是一個通過衡量詞組（或更高級結構，如整句或文檔）模式來挖掘文檔語義結構的工具

- 核心概念
1. 文件：一些文字。
2. 語料庫：文件的集合。
3. 向量：文檔的數學上方便的表示形式。
4. 模型：將向量從一種表示轉換為另一種表示的算法。

- 參考資料 (翻譯)
https://radimrehurek.com/gensim/auto_examples/core/run_core_concepts.html

In [None]:
!pip install jieba

In [None]:
!pip install gensim

 -------------------------------------------
 # 語料庫 Corpora
 - 為語料庫中出現的所有單詞，分配一個唯一的整數 ID

In [1]:
document = "科技大廠蘋果本週爆出重啟電動車計畫，據稱5年內上市、搭配突破性降低成本、提升續航里程的電池技術，引發市場話題"
text_corpus = [
    "兩項最新研究指出，具有2019冠狀病毒疾病（COVID-19）抗體的民眾，再度染疫的可能性相當低。研究人員還發現，抗體保護力能維持6個月，甚至是更久時間。",
    "由俄國富豪尤里·米爾納注資 1 億美元、已故英國天文物理學家霍金啟動的突破聆聽（Breakthrough Listen）計畫，近日收到了一個有趣的無線電訊號，來自距離太陽最近的另一顆恆星比鄰星。",
    "科技大廠蘋果本週爆出重啟電動車計畫，據稱5年內上市、搭配突破性降低成本、提升續航里程的電池技術，引發市場話題",
    "中國監管單位對阿里巴巴集團展開反壟斷調查，使阿里巴巴美國存託憑證（ADR）在週四（24日）創下有史以來最大跌幅。",
    "日本就有一名高齡95歲的阿嬤相當喜歡用GB遊戲主機玩「俄羅斯方塊」，無奈電子產品終究無法抵抗時間的摧殘而損壞，沒想到阿嬤親筆寫信給任天堂官方後，竟然得到一台全新的遊戲主機，讓網友感動不已。"
]

import jieba

#斷詞
processed_corpus = []
for line in text_corpus:
    texts = jieba.lcut(line) #預設精確模式
    processed_corpus.append(texts)
    
print(processed_corpus) #此處為5個list

Building prefix dict from the default dictionary ...
Loading model from cache /tmp/jieba.cache
Loading model cost 0.489 seconds.
Prefix dict has been built successfully.


[['兩項', '最新', '研究', '指出', '，', '具有', '2019', '冠狀', '病毒', '疾病', '（', 'COVID', '-', '19', '）', '抗體', '的', '民眾', '，', '再度', '染疫', '的', '可能性', '相當', '低', '。', '研究', '人員', '還發現', '，', '抗體', '保護力', '能維持', '6', '個', '月', '，', '甚至', '是', '更', '久', '時間', '。'], ['由', '俄國', '富豪', '尤里', '·', '米爾納', '注資', ' ', '1', ' ', '億', '美元', '、', '已故', '英國', '天文', '物理', '學家', '霍金', '啟動', '的', '突破', '聆', '聽', '（', 'Breakthrough', ' ', 'Listen', '）', '計畫', '，', '近日', '收到', '了', '一個', '有趣', '的', '無線', '電訊號', '，', '來', '自距', '離太陽', '最近', '的', '另', '一顆', '恆星', '比', '鄰星', '。'], ['科技', '大廠', '蘋果', '本週', '爆出', '重啟', '電動車', '計畫', '，', '據稱', '5', '年', '內', '上市', '、', '搭配', '突破性', '降低成本', '、', '提升', '續航', '里程', '的', '電池', '技術', '，', '引發', '市場', '話題'], ['中國', '監管', '單位', '對', '阿里巴巴', '集團展', '開反', '壟斷', '調查', '，', '使', '阿里巴巴', '美國存', '託', '憑證', '（', 'ADR', '）', '在', '週四', '（', '24', '日', '）', '創下', '有史', '以來', '最大', '跌幅', '。'], ['日本', '就', '有', '一名', '高齡', '95', '歲', '的', '阿嬤相', '當喜', '歡用', 'GB', '遊戲', '主機', '玩', '「', '俄羅

In [2]:
from gensim import corpora
import pprint


#把每個不重複的詞 放入語料庫，所有單詞會被分配一個唯一的整數 ID
dictionary = corpora.Dictionary(processed_corpus)  
print(dictionary)


#查看ID
pprint.pprint(dictionary.token2id)

Dictionary(164 unique tokens: ['-', '19', '2019', '6', 'COVID']...)
{' ': 36,
 '-': 0,
 '1': 37,
 '19': 1,
 '2019': 2,
 '24': 100,
 '5': 77,
 '6': 3,
 '95': 123,
 'ADR': 101,
 'Breakthrough': 38,
 'COVID': 4,
 'GB': 124,
 'Listen': 39,
 '·': 40,
 '、': 41,
 '。': 5,
 '「': 125,
 '」': 126,
 '一個': 42,
 '一台': 127,
 '一名': 128,
 '一顆': 43,
 '上市': 78,
 '不已': 129,
 '中國': 102,
 '主機': 130,
 '久': 6,
 '了': 44,
 '人員': 7,
 '以來': 103,
 '任天堂': 131,
 '低': 8,
 '使': 104,
 '來': 45,
 '俄國': 46,
 '俄羅斯方塊': 132,
 '保護力': 9,
 '信給': 133,
 '個': 10,
 '億': 47,
 '內': 79,
 '全新': 134,
 '兩項': 11,
 '具有': 12,
 '再度': 13,
 '冠狀': 14,
 '創下': 105,
 '另': 48,
 '可能性': 15,
 '啟動': 49,
 '單位': 106,
 '在': 107,
 '壟斷': 108,
 '大廠': 80,
 '天文': 50,
 '學家': 51,
 '官方': 135,
 '富豪': 52,
 '對': 109,
 '尤里': 53,
 '就': 136,
 '已故': 54,
 '市場': 81,
 '年': 82,
 '引發': 83,
 '後': 137,
 '得到': 138,
 '恆星': 55,
 '想到': 139,
 '感動': 140,
 '憑證': 110,
 '技術': 84,
 '抗體': 16,
 '抵抗': 141,
 '指出': 17,
 '提升': 85,
 '損壞': 142,
 '搭配': 86,
 '摧殘': 143,
 '據稱': 87,
 '收到': 56,
 '日': 

# 向量 Vectors
- 計算每個不同單詞的出現次數，將單詞轉換為整數單詞id，並將結果作為稀疏向量返回

In [3]:
#[.doc2bow小測試 ]

new_text = "任天堂 有趣 有趣"

#把單詞轉換為整數單詞id、計算每個不同單詞的出現次數，將結果作為稀疏向量返回
new_vec = dictionary.doc2bow(new_text.split())

print(new_vec) #(id,在這句話出現次數)

#------------------------------------

alist = [
    ["任天堂"],
    ["有趣"]
]
bow_corpus = [dictionary.doc2bow(text) for text in alist ]
print(bow_corpus)

#------------------------------------

alist = [
    ["任天堂","有趣"],
    ["有趣"]
]
bow_corpus = [dictionary.doc2bow(text) for text in alist ]
print(bow_corpus)

[(58, 2), (131, 1)]
[[(131, 1)], [(58, 1)]]
[[(58, 1), (131, 1)], [(58, 1)]]


In [4]:
#套用在文章上 取得每個不同斷詞的向量

bow_corpus = [dictionary.doc2bow(text) for text in processed_corpus ]
print(bow_corpus)

[[(0, 1), (1, 1), (2, 1), (3, 1), (4, 1), (5, 2), (6, 1), (7, 1), (8, 1), (9, 1), (10, 1), (11, 1), (12, 1), (13, 1), (14, 1), (15, 1), (16, 2), (17, 1), (18, 1), (19, 1), (20, 1), (21, 1), (22, 1), (23, 1), (24, 1), (25, 1), (26, 1), (27, 1), (28, 2), (29, 1), (30, 2), (31, 1), (32, 1), (33, 1), (34, 1), (35, 4)], [(5, 1), (28, 3), (33, 1), (34, 1), (35, 2), (36, 3), (37, 1), (38, 1), (39, 1), (40, 1), (41, 1), (42, 1), (43, 1), (44, 1), (45, 1), (46, 1), (47, 1), (48, 1), (49, 1), (50, 1), (51, 1), (52, 1), (53, 1), (54, 1), (55, 1), (56, 1), (57, 1), (58, 1), (59, 1), (60, 1), (61, 1), (62, 1), (63, 1), (64, 1), (65, 1), (66, 1), (67, 1), (68, 1), (69, 1), (70, 1), (71, 1), (72, 1), (73, 1), (74, 1), (75, 1), (76, 1)], [(28, 1), (35, 2), (41, 2), (71, 1), (77, 1), (78, 1), (79, 1), (80, 1), (81, 1), (82, 1), (83, 1), (84, 1), (85, 1), (86, 1), (87, 1), (88, 1), (89, 1), (90, 1), (91, 1), (92, 1), (93, 1), (94, 1), (95, 1), (96, 1), (97, 1), (98, 1), (99, 1)], [(5, 1), (33, 2), (34, 

# 模型 Models
- 參考資料(翻譯)：
https://radimrehurek.com/gensim/auto_examples/core/run_topics_and_transformations.html

### 1. tfidf模型  (算詞的權重)
TF-IDF 是一種用於資訊檢索與文字探勘的常用加權技術，為一種統計方法，用來評估單詞對於文件的集合或詞庫中一份文件的重要程度

In [5]:
# [ models.TfidfModel 小測試]

from gensim import models

#把整篇文章的向量 放進模型中訓練
tfidf = models.TfidfModel(bow_corpus)

'''
new_text = "任天堂 有趣 有趣"

(58, 0.894427190999916) 中，
58是token id(58 => 有趣)， 0.894427190999916 是tf-idf權重
'''


print(tfidf[dictionary.doc2bow(new_text.split())]) 

[(58, 0.894427190999916), (131, 0.447213595499958)]


In [6]:
#把剛剛所取得的 整篇文章向量 放入tfidf模型中計算，得到每個詞的權重
corpus_tfidf = tfidf[bow_corpus]
for i in corpus_tfidf:
    print(i)

[(0, 0.16511591850656238), (1, 0.16511591850656238), (2, 0.16511591850656238), (3, 0.16511591850656238), (4, 0.16511591850656238), (5, 0.04578561515099218), (6, 0.16511591850656238), (7, 0.16511591850656238), (8, 0.16511591850656238), (9, 0.16511591850656238), (10, 0.16511591850656238), (11, 0.16511591850656238), (12, 0.16511591850656238), (13, 0.16511591850656238), (14, 0.16511591850656238), (15, 0.16511591850656238), (16, 0.33023183701312475), (17, 0.16511591850656238), (18, 0.16511591850656238), (19, 0.09400436304102924), (20, 0.16511591850656238), (21, 0.16511591850656238), (22, 0.16511591850656238), (23, 0.16511591850656238), (24, 0.16511591850656238), (25, 0.16511591850656238), (26, 0.16511591850656238), (27, 0.16511591850656238), (28, 0.04578561515099218), (29, 0.16511591850656238), (30, 0.33023183701312475), (31, 0.16511591850656238), (32, 0.16511591850656238), (33, 0.05240676972573977), (34, 0.05240676972573977)]
[(5, 0.02000321160133251), (28, 0.06000963480399753), (33, 0.045

### 2. LSI model
- 潜在语义索引(Latent Semantic Indexing,以下简称LSI)，有的文章也叫Latent Semantic  Analysis（LSA）
- LSI是基于奇异值分解（SVD）的方法来得到文本的主题的

In [7]:
                                 # 向量            id            主題要幾個
lsi_model = models.LsiModel(corpus_tfidf, id2word=dictionary, num_topics=2)

corpus_lsi = lsi_model[corpus_tfidf]

lsi_model.print_topics()

[(0,
  '0.275*" " + 0.174*"、" + 0.130*"阿里巴巴" + 0.116*"抗體" + 0.116*"研究" + 0.113*"計畫" + 0.107*"搭配" + 0.107*"上市" + 0.107*"內" + 0.107*"大廠"'),
 (1,
  '0.194*"抗體" + 0.194*"研究" + 0.162*"阿里巴巴" + -0.135*"、" + 0.114*"遊戲" + 0.114*"主機" + -0.113*" " + -0.100*"上市" + -0.100*"內" + -0.100*"大廠"')]

### 3. LDA model

In [8]:
lda_model = models.LdaModel(corpus_tfidf, id2word=dictionary, num_topics=2)

corpus_lda = lda_model[corpus_tfidf]

lda_model.print_topics()

[(0,
  '0.008*"研究" + 0.008*"抗體" + 0.008*"阿里巴巴" + 0.007*"主機" + 0.007*"遊戲" + 0.007*"可能性" + 0.007*"兩項" + 0.007*"保護力" + 0.007*"19" + 0.007*"再度"'),
 (1,
  '0.009*" " + 0.007*"、" + 0.007*"阿里巴巴" + 0.007*"電動車" + 0.007*"突破性" + 0.007*"大廠" + 0.007*"上市" + 0.007*"科技" + 0.007*"計畫" + 0.007*"5"')]

# 相似度查詢
- 參考資料(翻譯)：
https://radimrehurek.com/gensim/auto_examples/core/run_similarity_queries.html
### 1.建立索引

In [9]:
from gensim import similarities

index = similarities.MatrixSimilarity(corpus_lsi)

#存檔
index.save('similarity.index')

#載入
index = similarities.MatrixSimilarity.load('similarity.index')

### 2.建立查詢條件

In [10]:
query_doc = "任天堂 有趣"
query_bow = dictionary.doc2bow(query_doc.split())
query_lsi = lsi_model[query_bow]

print(query_lsi)

[(0, 0.12137610342579006), (1, 0.019387094631194382)]


### 3.執行查詢

In [11]:
sims = index[query_lsi]

print(list(enumerate(sims))) # (document_number, document_similarity) 

[(0, 0.6516526), (1, 0.8580045), (2, 0.6237945), (3, 0.74842346), (4, 0.6056029)]


In [12]:
sims = sorted(enumerate(sims), key=lambda i: -i[1])

for doc_pos, doc_score in sims:
    print(doc_score, text_corpus[doc_pos])

0.8580045 由俄國富豪尤里·米爾納注資 1 億美元、已故英國天文物理學家霍金啟動的突破聆聽（Breakthrough Listen）計畫，近日收到了一個有趣的無線電訊號，來自距離太陽最近的另一顆恆星比鄰星。
0.74842346 中國監管單位對阿里巴巴集團展開反壟斷調查，使阿里巴巴美國存託憑證（ADR）在週四（24日）創下有史以來最大跌幅。
0.6516526 兩項最新研究指出，具有2019冠狀病毒疾病（COVID-19）抗體的民眾，再度染疫的可能性相當低。研究人員還發現，抗體保護力能維持6個月，甚至是更久時間。
0.6237945 科技大廠蘋果本週爆出重啟電動車計畫，據稱5年內上市、搭配突破性降低成本、提升續航里程的電池技術，引發市場話題
0.6056029 日本就有一名高齡95歲的阿嬤相當喜歡用GB遊戲主機玩「俄羅斯方塊」，無奈電子產品終究無法抵抗時間的摧殘而損壞，沒想到阿嬤親筆寫信給任天堂官方後，竟然得到一台全新的遊戲主機，讓網友感動不已。
