<a href="https://colab.research.google.com/github/zzxx666413/AI/blob/main/16.gensim_wiki.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

##Word2Vec實作<br>



*   字詞所代表的意義非常多元，在不同狀況下，會代表不同意思。要把多元意思用單一向量表示，則必須要進行word embedding的動作，也就是把高維向量降為低維向量的過程。

*   之前介紹過，利用分散式表示法來表達字詞向量，例如PMI、SVD..統計法..等。

*   2013年神經網路盛行後，Tomas Mikolov利用神經網路訓練方式，來獲得字詞的表達向量，獲得很棒的成果。

*   一般認為是利用神經網路模擬人類的理解能力，獲得不錯的分布空間所得到的成果。

*   本範例以維基百科wiki部分資料作範例。

*   資料來源：https://dumps.wikimedia.org/zhwiki/20220401/zhwiki-20220401-pages-articles-multistream.xml.bz2

*   利用結巴分詞(jieba)進行斷詞，gensim套件進行word2vec計算。

*   本範例約需1小時長時間執行。

## 資料準備
* 先到  https://dumps.wikimedia.org/zhwiki/20220401/zhwiki-20220401-pages-articles-multistream.xml.bz2 下載
* 上傳到google drive上
* 在colab中掛載你的google drive

In [None]:
# ! wget https://dumps.wikimedia.org/zhwiki/20220401/zhwiki-20220401-pages-articles-multistream.xml.bz2


抓維基百科資料

In [None]:
!wget https://dumps.wikimedia.org/zhwiki/20220401/zhwiki-20220401-pages-articles-multistream1.xml-p1p187712.bz2

--2022-04-15 00:54:52--  https://dumps.wikimedia.org/zhwiki/20220401/zhwiki-20220401-pages-articles-multistream1.xml-p1p187712.bz2
Resolving dumps.wikimedia.org (dumps.wikimedia.org)... 208.80.154.7, 2620:0:861:1:208:80:154:7
Connecting to dumps.wikimedia.org (dumps.wikimedia.org)|208.80.154.7|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 215920539 (206M) [application/octet-stream]
Saving to: ‘zhwiki-20220401-pages-articles-multistream1.xml-p1p187712.bz2’


2022-04-15 00:55:39 (4.41 MB/s) - ‘zhwiki-20220401-pages-articles-multistream1.xml-p1p187712.bz2’ saved [215920539/215920539]



安裝python套件

In [None]:
!pip install opencc-python-reimplemented

Collecting opencc-python-reimplemented
  Downloading opencc-python-reimplemented-0.1.6.tar.gz (484 kB)
[?25l[K     |▊                               | 10 kB 17.0 MB/s eta 0:00:01[K     |█▍                              | 20 kB 11.1 MB/s eta 0:00:01[K     |██                              | 30 kB 9.1 MB/s eta 0:00:01[K     |██▊                             | 40 kB 8.3 MB/s eta 0:00:01[K     |███▍                            | 51 kB 4.2 MB/s eta 0:00:01[K     |████                            | 61 kB 5.0 MB/s eta 0:00:01[K     |████▊                           | 71 kB 5.3 MB/s eta 0:00:01[K     |█████▍                          | 81 kB 5.5 MB/s eta 0:00:01[K     |██████                          | 92 kB 6.1 MB/s eta 0:00:01[K     |██████▊                         | 102 kB 5.0 MB/s eta 0:00:01[K     |███████▍                        | 112 kB 5.0 MB/s eta 0:00:01[K     |████████▏                       | 122 kB 5.0 MB/s eta 0:00:01[K     |████████▉                       | 13

抓gensim套件

In [None]:
from gensim.corpora import WikiCorpus

wiki_corpus = WikiCorpus('zhwiki-20220401-pages-articles-multistream1.xml-p1p187712.bz2', dictionary={})

In [None]:
wiki_corpus

<gensim.corpora.wikicorpus.WikiCorpus at 0x7f2631b93610>

In [None]:
next(iter(wiki_corpus.get_texts()))[:10]

['歐幾里得',
 '西元前三世紀的古希臘數學家',
 '現在被認為是幾何之父',
 '此畫為拉斐爾的作品',
 '雅典學院',
 '数学',
 '是研究數量',
 '从某种角度看屬於形式科學的一種',
 '數學利用抽象化和邏輯推理',
 '從計數']

轉成繁體中文

In [None]:
text_num = 0

with open('wiki_text.txt', 'w', encoding='utf-8') as f:
    for text in wiki_corpus.get_texts():
        f.write(' '.join(text)+'\n')
        text_num += 1
        if text_num % 10000 == 0:
            print('{} articles processed.'.format(text_num))

    print('{} articles processed.'.format(text_num))

10000 articles processed.
20000 articles processed.
30000 articles processed.
32329 articles processed.


使用結巴分詞斷詞切字

In [None]:
import jieba
from opencc import OpenCC


# Initial
cc = OpenCC('s2t')
train_data = open('wiki_text.txt', 'r', encoding='utf-8').read()
train_data = cc.convert(train_data)
train_data = jieba.lcut(train_data)
train_data = [word for word in train_data if word != '']
train_data = ' '.join(train_data)
open('seg.txt', 'w', encoding='utf-8').write(train_data)

Building prefix dict from the default dictionary ...
Dumping model to file cache /tmp/jieba.cache
Loading model cost 1.050 seconds.
Prefix dict has been built successfully.


129900316

In [None]:
from gensim.models import word2vec


# Settings
seed = 666
sg = 0
window_size = 10
vector_size = 100
min_count = 1
workers = 8
epochs = 5
batch_words = 10000

train_data = word2vec.LineSentence('seg.txt')
model = word2vec.Word2Vec(
    train_data,
    min_count=min_count,
    size=vector_size,
    workers=workers,
    iter=epochs,
    window=window_size,
    sg=sg,
    seed=seed,
    batch_words=batch_words
)

model.save('word2vec.model')

計算向量

In [None]:
from gensim.models import word2vec

string = '電腦'
model = word2vec.Word2Vec.load('word2vec.model')
print(string)

for item in model.wv.most_similar(string):
    print(item)

電腦
('軟體', 0.7683811187744141)
('計算機', 0.7598143815994263)
('pda', 0.7456463575363159)
('微電腦', 0.7427636384963989)
('智慧型', 0.7413662075996399)
('硬體', 0.7391684651374817)
('手機', 0.7328009605407715)
('ibm', 0.7310062646865845)
('遊戲機', 0.7284832000732422)
('程式', 0.7230477929115295)
