# Lecture 09 - Nature Language Processing (NLP) & Text Mining

![](https://www.thuatngumarketing.com/wp-content/uploads/2017/12/NLP.png.pagespeed.ce_.1YNuw_5dJH.png)

## Definition - Định nghĩa

Sử dụng các kỹ thuật phân tích và làm sạch dữ liệu kết hợp với mô hình machine learning để khai thác thông tin trong dữ liệu ngôn ngữ.

Dữ liệu ngôn ngữ?
- Nói cho nhau nghe (dữ liệu ngôn ngữ âm thanh)
- Viết cho nhau đọc (dữ liệu ngôn ngữ văn bản)



Kỹ thuật xử lý dữ liệu dạng văn bản và khai thác thông tin từ dữ liệu văn bản: Text Mining

## Flow - Quy trình

1. Preprocessing (Tiền xử lý) (Clean & Normalize)
2. Tokenizing (tách từ)
3. Vectorizing (Vectơ hóa)
4. Modeling (Xây dựng mô hình)
5. Intepreting result & Application (Ứng dụng)

## Application - Ứng dụng

1. Sentimental Analysis (Phân tích cảm tính): phân tích reviews, phân tích chứng khoán (sử dụng nền tảng Twitter)
2. Search suggestion
3. Speech recognition 
4. Etc.

## Tools & Library

1. Python Nature Language Toolkit (Python NLTK) # Xử lý dữ liệu dạng text cho mô hình text mining
2. Gensim/Tensorflow/Scikit-learn etc.  # Xây dựng mô hình text mining

In [None]:
import string

In [None]:
string.split()
string.trim()
string.lower()
string.upper()

In [None]:
"cách mạng" # 1 từ
"revolation"

'revolation'

In [None]:
"the, a, an, in, out" # từ đệm # bản thân ko mang nhiều ý nghĩa

'the, a, an, in, out'

## Example

### Token hóa dữ liệu text (Text tokenization)

Là quá trình làm sạch và biến đổi dữ liệu text thành dạng sẵn sàng đưa vào mô hình

#### Tiền xử lý dữ liệu text (Text preprocessing)

In [2]:
import numpy as np
import pandas as pd

data = pd.read_json('https://github.com/honghanhh/mci_python_36a1_l2/raw/main/Lectures/lecture_09/data.json')
data

Unnamed: 0,title,snippet,content
0,"Thủ tướng: Khác với đa số các nước, dư địa chí...","(Tổ Quốc) - Với bối cảnh hiện nay, Hội đồng Tư...","Sáng ngày 9/7, Hội đồng Tư vấn chính sách tài ..."
1,"Thống nhất kịch bản tăng trưởng 3-4%, lạm phát...",Tại cuộc họp Hội đồng Tư vấn chính sách tài ch...,Tham dự cuộc họp có Thống đốc NHNN Lê Minh Hưn...
2,Đề xuất tăng liều lượng gói kích thích kinh tế...,Chuyên gia đề xuất do dịch bệnh Covid-19 còn k...,"Sáng 9/7, Thủ tướng Nguyễn Xuân Phúc chủ trì h..."
3,"Thủ tướng: Khác với đa số các nước, dư địa chí...","Với bối cảnh hiện nay, Hội đồng Tư vấn chính s...","Với bối cảnh hiện nay, Hội đồng Tư vấn chính s..."
4,Tác động từ chính sách tín dụng: BĐS có thể đó...,Động thái thắt chặt hay nới lỏng của chính sác...,Lời tòa soạn Thị trường bất động sản ngày càng...
...,...,...,...
871,Việt Nam thành lập Viện nghiên cứu phát triển ...,"Sáng 2/7, Đại học Quốc gia Thành phố Hồ Chí Mi...","Phát biểu tại buổi lễ, PGS.TS Huỳnh Thanh Đạt,..."
872,Bất động sản chờ lực bật mới,Chịu nhiều khó khăn do tác động từ đại dịch CO...,Nhu cầu thị trường nhà ở của người dân thuộc p...
873,Diễn đàn Bất động sản 2020: Cơ hội mới từ chín...,Diễn đàn Bất động sản 2020: Cơ hội mới từ chín...,"BVR&MT – Năm 2020, Thị trường bất động sản có ..."
874,"Thống đốc Lê Minh Hưng: Tín dụng tăng trở lại,...","Thống đốc Lê Minh Hưng: Tín dụng tăng trở lại,...","Đến ngày 29/6 tín dụng tăng 3,26%, là mức tăng..."


In [3]:
data['title'][0]

'Thủ tướng: Khác với đa số các nước, dư địa chính sách tài khóa, tiền tệ của Việt Nam còn khá lớn'

In [None]:
# TODO: Làm sạch dữ liệu chỉ giữ lại dữ liệu bằng chữ
# 1. Nếu là dữ liệu scrapped từ web thì chỉ trích lọc dữ liệu chứ (text only)
# 2. Loại bỏ hyperlink (nếu có) # https://baophapluat.com # lẫn thành từ word 
# 3. Nếu là dữ liệu web thì cần loại bỏ emoji # :smile: :angry:
# 4. Loại bỏ tất cả các dấu (.,\/!@#$%^&*()+_ etc.)
# 5. Loại bỏ tất cả các số
# 6. Loại bỏ các khoảng trắng và đổi text thành lowercase # normalize # T == t

In [4]:
!pip install bs4 # BeautifulSoup => đọc document: Đọc dữ liệu trang web



In [5]:
# 1.
import bs4 

def del_html(text):
    soup = bs4.BeautifulSoup(text)
    return soup.get_text(' ')

In [6]:
# 2.
import re # regular expression

def del_link(text):
    link = r'http[\S]*' # pattern (quy tắc) # đấu sao (*) thay cho ký tự bất kỳ
    text = re.sub(link, ' ', str(text))
    return text

In [7]:
!pip install demoji

Collecting demoji
  Downloading demoji-1.1.0-py3-none-any.whl (42 kB)
[?25l[K     |███████▋                        | 10 kB 25.5 MB/s eta 0:00:01[K     |███████████████▎                | 20 kB 28.3 MB/s eta 0:00:01[K     |███████████████████████         | 30 kB 17.6 MB/s eta 0:00:01[K     |██████████████████████████████▋ | 40 kB 14.8 MB/s eta 0:00:01[K     |████████████████████████████████| 42 kB 949 kB/s 
[?25hInstalling collected packages: demoji
Successfully installed demoji-1.1.0


In [8]:
# 3.
import demoji

def del_emoji(text):
    return demoji.replace(text, '') # thây thế tất cả emoji (:smile:) bằng ký tự trống 

In [9]:
# 4.
def del_punctuation(doc):
    pattern = r'[\,\.\/\\\!\@\#\+\"\'\;\)\(\“\”\\\-\:…&><=\-\%\|\^\$\&\)\(\[\]\{\}\?\*\•]'
    record = re.sub(pattern, ' ', doc)
    return re.sub(r'\n', ' ', record)

In [10]:
# 5.
def del_numbers(text):
    return re.sub(r'\d+', ' ', text) # \d+ => các ký tự là chứ số d = [0123456789] => d+ 20 33 3 9999

In [11]:
# 6.
def del_space(doc):
    space_pattern = r'\s+' # \s => khoảng trắng (dấu cách, dấu tab, xuống dòng) trừ dấu cách đứng 1 mình => từ 1 khoảng trắng \s+
    return re.sub(space_pattern, ' ', doc.lower())

In [12]:
text = data.iloc[0, 2][:100]
print(text)

Sáng ngày 9/7, Hội đồng Tư vấn chính sách tài chính, tiền tệ quốc gia đã họp dưới sự chủ trì của Thủ


In [13]:
text = data.iloc[0, 2][:100]
print(text)
for func in [del_html, del_link, del_emoji, del_punctuation, 
             del_numbers, del_space]:
    text = func(text)
    print(func.__name__, ':', text)


Sáng ngày 9/7, Hội đồng Tư vấn chính sách tài chính, tiền tệ quốc gia đã họp dưới sự chủ trì của Thủ
del_html : Sáng ngày 9/7, Hội đồng Tư vấn chính sách tài chính, tiền tệ quốc gia đã họp dưới sự chủ trì của Thủ
del_link : Sáng ngày 9/7, Hội đồng Tư vấn chính sách tài chính, tiền tệ quốc gia đã họp dưới sự chủ trì của Thủ
del_emoji : Sáng ngày 9/7, Hội đồng Tư vấn chính sách tài chính, tiền tệ quốc gia đã họp dưới sự chủ trì của Thủ
del_punctuation : Sáng ngày 9 7  Hội đồng Tư vấn chính sách tài chính  tiền tệ quốc gia đã họp dưới sự chủ trì của Thủ
del_numbers : Sáng ngày      Hội đồng Tư vấn chính sách tài chính  tiền tệ quốc gia đã họp dưới sự chủ trì của Thủ
del_space : sáng ngày hội đồng tư vấn chính sách tài chính tiền tệ quốc gia đã họp dưới sự chủ trì của thủ


#### Chia từ (Word tokenizing) - Tiếng Anh vs Tiếng Việt

In [None]:
# Tiếng Anh

In [14]:
print(text.split())

['sáng', 'ngày', 'hội', 'đồng', 'tư', 'vấn', 'chính', 'sách', 'tài', 'chính', 'tiền', 'tệ', 'quốc', 'gia', 'đã', 'họp', 'dưới', 'sự', 'chủ', 'trì', 'của', 'thủ']


In [None]:
!pip install nltk # nature language toolkit



In [17]:
import nltk

nltk.download()

NLTK Downloader
---------------------------------------------------------------------------
    d) Download   l) List    u) Update   c) Config   h) Help   q) Quit
---------------------------------------------------------------------------
Downloader> c

Data Server:
  - URL: <https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml>
  - 7 Package Collections Available
  - 108 Individual Packages Available

Local Machine:
  - Data directory: /root/nltk_data

---------------------------------------------------------------------------
    s) Show Config   u) Set Server URL   d) Set Data Dir   m) Main Menu
---------------------------------------------------------------------------
Config> m

---------------------------------------------------------------------------
    d) Download   l) List    u) Update   c) Config   h) Help   q) Quit
---------------------------------------------------------------------------
Downloader> d

Download which package (l=list; x=cancel)?
  Identifie

True

In [19]:
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [20]:
sentence = 'A quick brown fox jump over a lazy dog.'
nltk.word_tokenize(sentence) # tách thành yếu tổ nhỏ nhất trong câu (word & token)

['A', 'quick', 'brown', 'fox', 'jump', 'over', 'a', 'lazy', 'dog', '.']

In [None]:
sentence.split() # tách ở dấu cách # string.split

['A', 'quick', 'brown', 'fox', 'jump', 'over', 'a', 'lazy', 'dog.']

In [21]:
nltk.sent_tokenize(sentence) # setence tokenize # tách câu

['A quick brown fox jump over a lazy dog.']

In [22]:
sentences = '''A quick brown fox jump over a lazy dog.
He is the royal king.
'''

[nltk.word_tokenize(i) for i in nltk.sent_tokenize(sentences)]

[['A', 'quick', 'brown', 'fox', 'jump', 'over', 'a', 'lazy', 'dog', '.'],
 ['He', 'is', 'the', 'royal', 'king', '.']]

In [None]:
[sent.split() for sent in sentences.split('.')] # Sử dụng hàm split của Python, kết quả rất khác

[['A', 'quick', 'brown', 'fox', 'jump', 'over', 'a', 'lazy', 'dog'],
 ['He', 'is', 'the', 'royal', 'king'],
 []]

In [23]:
print(nltk.word_tokenize(text))

['sáng', 'ngày', 'hội', 'đồng', 'tư', 'vấn', 'chính', 'sách', 'tài', 'chính', 'tiền', 'tệ', 'quốc', 'gia', 'đã', 'họp', 'dưới', 'sự', 'chủ', 'trì', 'của', 'thủ']


In [None]:
# Tiếng Việt

In [24]:
!pip install pyvi

Collecting pyvi
  Downloading pyvi-0.1.1-py2.py3-none-any.whl (8.5 MB)
[K     |████████████████████████████████| 8.5 MB 6.6 MB/s 
Collecting sklearn-crfsuite
  Downloading sklearn_crfsuite-0.3.6-py2.py3-none-any.whl (12 kB)
Collecting python-crfsuite>=0.8.3
  Downloading python_crfsuite-0.9.7-cp37-cp37m-manylinux1_x86_64.whl (743 kB)
[K     |████████████████████████████████| 743 kB 72.6 MB/s 
Installing collected packages: python-crfsuite, sklearn-crfsuite, pyvi
Successfully installed python-crfsuite-0.9.7 pyvi-0.1.1 sklearn-crfsuite-0.3.6


In [25]:
from pyvi.ViTokenizer import tokenize

tokenize(text)

'sáng ngày hội_đồng tư_vấn chính_sách tài_chính tiền_tệ quốc_gia đã họp dưới sự chủ_trì của thủ'

In [26]:
print(tokenize(text).split())

['sáng', 'ngày', 'hội_đồng', 'tư_vấn', 'chính_sách', 'tài_chính', 'tiền_tệ', 'quốc_gia', 'đã', 'họp', 'dưới', 'sự', 'chủ_trì', 'của', 'thủ']


#### Put together

In [29]:
def clean_text(text): # làm sạch dữ liệu từ đầu tới cuối
    text = del_html(text)
    text = del_link(text)
    text = del_numbers(text)
    text = del_emoji(text)
    text = del_punctuation(text)
    text = del_space(text)
    return tokenize(text)

In [27]:
data['corpus'] = data.apply(lambda x: ' '.join(x), axis=1) # gộp dữ liệu text từ 3 cột của dataframe
data['corpus'] # text-mining tập hợp các văn bản text đc gọi là corpus/corpora

0      Thủ tướng: Khác với đa số các nước, dư địa chí...
1      Thống nhất kịch bản tăng trưởng 3-4%, lạm phát...
2      Đề xuất tăng liều lượng gói kích thích kinh tế...
3      Thủ tướng: Khác với đa số các nước, dư địa chí...
4      Tác động từ chính sách tín dụng: BĐS có thể đó...
                             ...                        
871    Việt Nam thành lập Viện nghiên cứu phát triển ...
872    Bất động sản chờ lực bật mới Chịu nhiều khó kh...
873    Diễn đàn Bất động sản 2020: Cơ hội mới từ chín...
874    Thống đốc Lê Minh Hưng: Tín dụng tăng trở lại,...
875    Sẵn sàng đón nhận dòng vốn đầu tư dịch chuyển ...
Name: corpus, Length: 876, dtype: object

In [30]:
data['corpus'] = data['corpus'].apply(clean_text)
data['corpus']

0      thủ_tướng khác với đa_số các nước dư địa_chính...
1      thống_nhất kịch_bản tăng_trưởng lạm_phát dưới ...
2      đề_xuất tăng liều_lượng gói kích_thích kinh_tế...
3      thủ_tướng khác với đa_số các nước dư địa_chính...
4      tác_động từ chính_sách tín_dụng bđs có_thể đón...
                             ...                        
871    việt nam thành_lập viện nghiên_cứu phát_triển ...
872    bất_động_sản chờ lực bật mới chịu nhiều khó_kh...
873    diễn_đàn bất_động_sản cơ_hội mới từ chính_sách...
874    thống_đốc lê minh hưng tín_dụng tăng trở_lại n...
875    sẵn_sàng đón_nhận dòng vốn đầu_tư dịch_chuyển ...
Name: corpus, Length: 876, dtype: object

In [31]:
data.loc[0, 'corpus'][:500]

'thủ_tướng khác với đa_số các nước dư địa_chính_sách tài khóa tiền_tệ của việt nam còn khá lớn tổ_quốc với bối_cảnh hiện_nay hội_đồng tư_vấn chính_sách tài_chính tiền_tệ quốc_gia thống_nhất kịch_bản tăng_trưởng từ kiểm_soát lạm_phát dưới năm và đầu tăng_trưởng tín_dụng trên chủ_trương tăng thêm bội_chi ngân_sách nợ công khoảng gdp sáng ngày hội_đồng tư_vấn chính_sách tài_chính tiền_tệ quốc_gia đã họp dưới sự chủ_trì của thủ_tướng nguyễn xuân phúc chủ_tịch hội_đồng dư địa_chính_sách tài khóa tiền_'

### Mã hóa dữ liệu text (Word embedding)

#### One-hot encoding

In [None]:
# Chuyển thành dạng lowercase (nếu chưa)
# tách từ (tokenize), loại bỏ từ trùng lặp (set)
# Sắp xếp theo thứ tự a-z
# Lấy giá trị vị trí
# Chuyển đổi thành vector [0, 1] tương ứng giá trị vị trí

In [32]:
sentence = 'Can I eat the pizza'
arr = sorted(nltk.word_tokenize(sentence.lower()))
print(list(range(len(arr))))
print(arr)

[0, 1, 2, 3, 4]
['can', 'eat', 'i', 'pizza', 'the']


In [None]:
# 'can eat i pizza the you'
# [0, 1, 2, 3, 4, 5]
# [1, 1, 1, 1, 1, 0]
# [1, 1, 0, 1, 1, 1]

In [33]:
docs = "Can I eat the Pizza".lower().split()
doc1 = set(docs)
doc1 = sorted(doc1)
print ("\nvalues: ", doc1)

integer_encoded = []
for i in docs:
    v = np.where( np.array(doc1) == i)[0][0]
    integer_encoded.append(v)
print ("\ninteger encoded: ",integer_encoded)

def get_vec(len_doc,word):
    empty_vector = [0] * len_doc
    vect = 0
    find = np.where( np.array(doc1) == word)[0][0]
    empty_vector[find] = 1
    return empty_vector

def get_matrix(doc1):
    mat = []
    len_doc = len(doc1)
    for i in docs:
        vec = get_vec(len_doc,i)
        mat.append(vec)
        
    return np.asarray(mat)

print ("\nMATRIX:")
print (get_matrix(doc1))


values:  ['can', 'eat', 'i', 'pizza', 'the']

integer encoded:  [0, 2, 1, 4, 3]

MATRIX:
[[1 0 0 0 0]
 [0 0 1 0 0]
 [0 1 0 0 0]
 [0 0 0 0 1]
 [0 0 0 1 0]]


### Khai phá dữ liệu text (Text Mining)

#### Khái niệm Bag-of-Words

Là kỹ thuật chia văn bản thành các tổ hợp từ khác nhau (bằng phương pháp tokenize). Cách chia phổ biến là mỗi câu thành 1 văn bản (bag) và mỗi văn bản được chia thành từ (word). Dựa vào đó có thể đo lường mức độ xuất hiện của các từ trong văn bản và xây dựng mối liên hệ giữa ngữ cảnh và các từ. 

Hai yếu tố:
1. Từ điển của các từ được sử dụng
2. Mức độ xuất hiện của các từ trong từ điển
*Mỗi từ hay token được gọi là một `gram`*


In [35]:
sentences = [
    'It was the best of times', # best times
    'It was the worst of times', # worst times
    'It was the age of wisdom', # age wisdom
    'It was the age of foolishness' # age foolishness
]
sentences

['It was the best of times',
 'It was the worst of times',
 'It was the age of wisdom',
 'It was the age of foolishness']

In [41]:
dict_vector = set()
tokenized = [nltk.word_tokenize(i.lower()) for i in sentences]
for i in tokenized:
    for j in i:
        dict_vector.add(j)

dict_vector

{'age',
 'best',
 'foolishness',
 'it',
 'of',
 'the',
 'times',
 'was',
 'wisdom',
 'worst'}

In [42]:
['It', 'was', 'the', 'best', 'of', 'times', 'worst', 'age', 'wisdom', 'foolishness'] # Vector từ điển
[1, 1, 1, 1, 1, 1, 0, 0, 0, 0]
[1, 1, 1, 0, 1, 1, 1, 0, 0, 0]

[1, 1, 1, 0, 1, 1, 1, 0, 0, 0]

In [43]:
dictionary = [] # thêm dần vào từ điển
for sent in sentences:
    words = nltk.word_tokenize(sent) # tokenize
    for w in words:
        if w not in dictionary:
            dictionary.append(w)
print(dictionary)

['It', 'was', 'the', 'best', 'of', 'times', 'worst', 'age', 'wisdom', 'foolishness']


In [44]:
for sent in sentences:
    vec = [1 if w in sent else 0 for w in dictionary]
    print(sent, ':\t', vec)

It was the best of times :	 [1, 1, 1, 1, 1, 1, 0, 0, 0, 0]
It was the worst of times :	 [1, 1, 1, 0, 1, 1, 1, 0, 0, 0]
It was the age of wisdom :	 [1, 1, 1, 0, 1, 0, 0, 1, 1, 0]
It was the age of foolishness :	 [1, 1, 1, 0, 1, 0, 0, 1, 0, 1]


#### TF-IDF (Term frequency-Inverse Document frequency)

Ngữ cảnh: "I am very angry" ==> "very angry" # tập trung vào các từ mang nhiều thông tin

Đơn vị để đo thông tin trong khoa học machine-learning: entropy

Đo lường tần suất ***hợp lý*** một từ (hay token) xuất hiện trong văn bản. Tần suất này được tính bằng: Mức độ xuất hiện của từ trong văn bản chia cho tỉ lệ văn bản mà từ đó xuất hiện trên tổng tất cả số lượng văn bản.

Ví dụ: đối với như `what` hay `the`, các từ này xuất hiện rất nhiều tuy nhiên ko mang nhiều ý nghĩa nên cần có phương pháp loại trừ các từ này ra khỏi mô hình. Vì vậy ngoài tính toán mức độ xuất hiện của các từ trong văn bản, tuy nhiên nếu văn bản nào cũng xuất hiện từ này (hoặc đơn giản là rất nhiều > 90%) thì các từ này sẽ bị loại ra.

$$ tf-idf(t, d, D)  = tf(t, d) \dot idf(t, D)$$

> `t`: từ (word hay token)
 
> `d`: văn bản (document)
 
> `D`: tệp các văn bản (documents)

trong đó:

$$ tf(t, d) = \log(1 + freq(t, d)) $$
$$ idf(t, D) = \log \left( \dfrac{N}{count(d \in D: t \in d)} \right)$$

In [53]:
!pip install gensim



In [54]:
import gensim
from gensim import corpora, models
from gensim.utils import simple_preprocess

In [59]:
sentences = [
    'It was the best of the best times', # best times
    'It was the worst of times', # worst times
    'It was the age of wisdom', # age wisdom
    'It was the age of foolishness' # age foolishness
]

sentences
tokenized = [simple_preprocess(sent) for sent in sentences] # preprocessing đơn giản
tokenized

[['it', 'was', 'the', 'best', 'of', 'the', 'best', 'times'],
 ['it', 'was', 'the', 'worst', 'of', 'times'],
 ['it', 'was', 'the', 'age', 'of', 'wisdom'],
 ['it', 'was', 'the', 'age', 'of', 'foolishness']]

In [60]:
dictionary = corpora.Dictionary() # Xây dựng từ điển
bow_corpus = [dictionary.doc2bow(doc, allow_update=True) for doc in tokenized] # Tạo Bag-of-Word
bow_corpus # Bao gồm các cặp id và count của từng từ

[[(0, 2), (1, 1), (2, 1), (3, 2), (4, 1), (5, 1)],
 [(1, 1), (2, 1), (3, 1), (4, 1), (5, 1), (6, 1)],
 [(1, 1), (2, 1), (3, 1), (5, 1), (7, 1), (8, 1)],
 [(1, 1), (2, 1), (3, 1), (5, 1), (7, 1), (9, 1)]]

In [58]:
[i for i in dictionary.iteritems()]

[(0, 'best'),
 (1, 'it'),
 (2, 'of'),
 (3, 'the'),
 (4, 'times'),
 (5, 'was'),
 (6, 'worst'),
 (7, 'age'),
 (8, 'wisdom'),
 (9, 'foolishness')]

In [61]:
for doc in bow_corpus:
    print([[dictionary[id], freq] for id, freq in doc])

[['best', 2], ['it', 1], ['of', 1], ['the', 2], ['times', 1], ['was', 1]]
[['it', 1], ['of', 1], ['the', 1], ['times', 1], ['was', 1], ['worst', 1]]
[['it', 1], ['of', 1], ['the', 1], ['was', 1], ['age', 1], ['wisdom', 1]]
[['it', 1], ['of', 1], ['the', 1], ['was', 1], ['age', 1], ['foolishness', 1]]


In [62]:
tfidf = models.TfidfModel(bow_corpus, smartirs='ntc')
tfidf

<gensim.models.tfidfmodel.TfidfModel at 0x7fb2ddbe3450>

In [64]:
for doc in tfidf[bow_corpus]:
    print([[dictionary[id], freq] for id, freq in doc])

[['best', 0.9701425001453319], ['times', 0.24253562503633297]]
[['times', 0.4472135954999579], ['worst', 0.8944271909999159]]
[['age', 0.4472135954999579], ['wisdom', 0.8944271909999159]]
[['age', 0.4472135954999579], ['foolishness', 0.8944271909999159]]


In [65]:
dictionary = corpora.Dictionary()
doc_tokenized = [doc.split(' ') for doc in data['corpus']] # corpus tiếng việt
BoW_corpus = [dictionary.doc2bow(doc, allow_update=True) for doc in doc_tokenized]

model = models.TfidfModel(BoW_corpus)
[[dictionary[id], freq] for id, freq in model[BoW_corpus[0]][:10]]

[['biện_pháp', 0.041056865547833686],
 ['bán_lẻ', 0.04908556240345798],
 ['bên', 0.022150442731134225],
 ['bùi', 0.07118245725073921],
 ['bùng_phát', 0.04460812603722285],
 ['bảo_vệ', 0.04995756609294067],
 ['bối_cảnh', 0.034662574749689465],
 ['bội_chi', 0.1006266484130534],
 ['ca', 0.060608811632763285],
 ['chi', 0.04908556240345798]]

#### Mô hình Word2vec


*"Word2Vec was developed at Google by Tomas Mikolov, et al. and uses Neural Networks to learn word embeddings. The beauty with word2vec is that the vectors are learned by understanding the context in which words appear. The result is vectors in which words with similar meanings end up with a similar numerical representation."*

**One-hot-encoding**

All word are treated equal

![](https://i2.wp.com/insightbot.blob.core.windows.net/blogimagecontainer/b3c56245-db43-48ab-b652-9ba03f4d9900.jpg?ssl=1)

**Word2Vec**

Word with similar numeric value are similar in meaning

![](https://i1.wp.com/insightbot.blob.core.windows.net/blogimagecontainer/8cbfc874-3ba3-46c8-ab68-2711812ecbf1.jpg?ssl=1)

Hai loại mô hình Word2Vec: **CBOW** (Continuous Bag-of-Word) và **Skip-Gram**

Continuous Bag of Words (CBOW): *nhìn hình (ngữ cảnh) đoán chữ*

Ngược lại, Skip-Gram: *nhìn chữ đoán hình (ngữ cảnh)*

![](https://i0.wp.com/insightbot.blob.core.windows.net/blogimagecontainer/7938152f-71c8-4f28-9c25-06735e6e2b67.jpg?ssl=1)

In [66]:
from gensim.models import Word2Vec

In [78]:
word2vec = Word2Vec(doc_tokenized, min_count=9, sg=0) # 1 == skipgram

In [74]:
# print(doc_tokenized[0][:100])

In [75]:
vocabulary = word2vec.wv
print(pd.Series(vocabulary))

0    <gensim.models.keyedvectors.Word2VecKeyedVecto...
dtype: object


In [76]:
v1 = word2vec.wv['bùng_phát']
v1

array([-0.6976546 , -0.629621  ,  0.32768854,  0.3287572 ,  0.62700576,
       -0.19230197, -0.7673205 , -1.4537106 , -0.9254465 , -0.9078335 ,
       -1.3824756 ,  2.8337018 ,  0.32374987,  1.0653006 ,  0.40702054,
        1.0496434 , -1.1432977 , -2.555782  ,  0.84886116,  1.8663785 ,
       -0.4033345 , -0.15354222, -1.5267977 ,  0.07754663, -0.09591632,
       -0.9820371 ,  0.18675543, -0.1624951 , -1.3637348 ,  0.00525267,
       -1.1003138 ,  0.27258354,  1.3005905 ,  0.07659207,  1.8259176 ,
       -1.0704377 ,  0.8394065 , -1.3571385 ,  1.8473338 , -2.1160078 ,
        0.4454201 , -0.11013417, -0.29378948,  1.4122509 ,  0.4591093 ,
        1.1855171 , -0.8865591 , -0.16114402,  0.4425228 , -0.2892432 ,
       -0.32039127, -1.7429397 , -0.4181657 ,  1.1159313 ,  1.1058673 ,
        2.156226  , -1.5012661 , -1.1543881 ,  1.7619952 , -2.1931612 ,
        0.19064516, -0.1713675 , -1.2003697 ,  0.02975202, -0.8714059 ,
        1.2322593 ,  0.13852629,  0.80598116, -0.15350267, -0.42

In [79]:
sim_words = word2vec.wv.most_similar('tài_chính')
sim_words

[('liên_quan_tài_chính', 0.46897122263908386),
 ('phân_bổ', 0.4264135956764221),
 ('quỳnh_danh', 0.4155822992324829),
 ('tuyên_truyền', 0.412932813167572),
 ('công_thương', 0.4060470461845398),
 ('tổng_hợp', 0.40336909890174866),
 ('arabia', 0.4004225432872772),
 ('saudi', 0.3986995816230774),
 ('tư_vấn', 0.39823609590530396),
 ('y_tế', 0.39385080337524414)]

**Skip-gram**

Window Size defines how many words before and after the target word will be used as context, typically a Window Size is 5. 
![](https://i2.wp.com/insightbot.blob.core.windows.net/blogimagecontainer/a8066c1d-c532-4549-bb24-19dfea5eb178_med.jpg?ssl=1)

Using a window size of 2 the input pairs for training on w(4) royal would be:
![](https://israelg99.github.io/images/2017-03-23-Word2Vec-Explained/training_data.png)

In [80]:
word2vec = Word2Vec(doc_tokenized, min_count=9, sg=1) # 1 == skipgram

In [None]:
vocabulary = word2vec.wv.key_to_index
print(pd.Series(vocabulary))

các                  0
và                   1
trong                2
kinh_tế              3
của                  4
                  ... 
ðồng              3389
macroeconomics    3390
bốc_hơi           3391
coi_trọng         3392
xói_mòn           3393
Length: 3394, dtype: int64


In [82]:
v1 = word2vec.wv['thủ_tướng']
v1

array([ 0.01445033, -0.20552531,  0.39864415, -0.11558989, -0.28739607,
        0.42757142, -0.24138203, -0.060037  , -0.4966402 , -0.00511857,
       -0.02430388, -0.00158626, -0.08434937, -0.12129992,  0.33634526,
       -0.16584975,  0.04068675,  0.40287295,  0.71969706, -0.33029923,
        0.5337543 ,  0.2639601 ,  0.8534398 , -0.3484167 , -0.06059682,
        0.172961  , -0.11431786, -0.49164915,  0.5532464 , -0.39090097,
       -0.51635885, -0.21993537, -0.03046982, -0.6084493 , -0.04364451,
        0.15101421, -0.05618641,  0.37539235,  0.07257336,  0.03627027,
       -0.16354384, -0.29670176,  0.3932757 ,  0.16609961, -0.25118613,
       -0.0370926 , -0.35477644,  0.42221963, -0.01900385, -0.18287022,
        0.07342719, -0.06918821,  0.49116313, -0.29079044, -0.06050189,
        0.52953416,  0.13549395,  0.09554075,  0.53114945, -0.39079013,
       -0.00628086, -0.16897999, -0.061369  , -0.15731634, -0.35890305,
        0.27612504, -0.37681472,  0.23898996, -0.00591608,  0.02

In [83]:
sim_words = word2vec.wv.most_similar('thủ_tướng')
sim_words

[('xuân', 0.7267281413078308),
 ('phúc', 0.6814544200897217),
 ('hôm_qua', 0.5694345235824585),
 ('kết_luận', 0.5548409819602966),
 ('thủ', 0.5417710542678833),
 ('trụ_sở', 0.5182110071182251),
 ('yêu_cầu', 0.5082072019577026),
 ('nhắc_nhở', 0.4931658208370209),
 ('khai_mạc', 0.4925335645675659),
 ('cứng', 0.4924737215042114)]