# Xây dựng word2vec model bằng Gensim

Now that we have understood how word2vec model works, let us see how to build word2vec model using gensim library. Gensim is one of the popular scientific software packages widely used for building vector space models. It can be easily installed via pip. So, we can just type the following command in our terminal to install the gensim library:

pip install -U gensim

Now, we will learn how to build word2vec model using gensim. 

In [1]:
import warnings
warnings.filterwarnings('ignore')

# data processing
import pandas as pd
import re
from nltk.corpus import stopwords
stopWords = stopwords.words('english')

# modelling
from gensim.models import Word2Vec, KeyedVectors
from gensim.models import Phrases
from gensim.models.phrases import Phraser

## Load model
/> Load Vietnamese word2vec model.

In [2]:
model = KeyedVectors.load_word2vec_format('./model/baomoi.vn.model.bin', binary=True)

## Đánh giá word2vec model
/> Gensim cung cấp phương thức `most_similar()` sẽ cho ta biết những từ nào tương đồng với một từ được cung cấp. Dưới đây từ `san_deigo` được cung cấp là đầu vào, ta cần tìm các từ mà có sự tương đồng với từ này.

In [3]:
model.most_similar('khoa_học_tự_nhiên')

[('khtn', 0.752849817276001),
 ('khoa_học_cơ_bản', 0.6600980162620544),
 ('khoa_học_xã_hội', 0.6187462210655212),
 ('khxh&nv', 0.6083912253379822),
 ('khxhnv', 0.5912861227989197),
 ('khxh', 0.5885123610496521),
 ('toán_học', 0.5577161908149719),
 ('khoa_học_máy_tính', 0.5532575249671936),
 ('sư_phạm', 0.5512712001800537),
 ('y_sinh_học', 0.5470149517059326)]

/> Có thể áp dụng các phép toán số học trên vector, ví dụ:
  $$toán + khoa\_học - kinh\_tế = toán\_tin$$

In [4]:
model.most_similar(positive=['toán', 'khoa_học'], negative=['kinh_tế'], topn=10)

[('toán_tin', 0.4689362347126007),
 ('anh_văn', 0.4674587845802307),
 ('tin_học', 0.46048691868782043),
 ('vật_lý', 0.456289678812027),
 ('y_sinh_học', 0.4422585964202881),
 ('môn_sinh_học', 0.4390445649623871),
 ('khoa_học_tự_nhiên', 0.4379250109195709),
 ('Đại_số', 0.43606090545654297),
 ('môn_toán', 0.4359796345233917),
 ('khoa_học_máy_tính', 0.43592217564582825)]

/> Chúng ta có thể tìm hiểu xem từ nào là không phù hợp với đa số các từ được cung cấp trong list.

In [5]:
text = ['máy_tính','khoa_học_máy_tính', 'công_nghệ_phần_mềm', 'kinh_tế', 'đại_số']
model.doesnt_match(text)

'kinh_tế'