# Xử lý ngôn ngữ tự nhiên và khai phá dữ liệu văn bản (`NLP`)

![](https://www.thuatngumarketing.com/wp-content/uploads/2017/12/NLP.png.pagespeed.ce_.1YNuw_5dJH.png)

## Định nghĩa

> **Xử lí ngôn ngữ tự nhiên**: Sử dụng các kỹ thuật phân tích và làm sạch dữ liệu kết hợp với mô hình học máy để khai thác thông tin trong dữ liệu ngôn ngữ.

> **Dữ liệu ngôn ngữ**: Nói cho nhau nghe (dữ liệu ngôn ngữ âm thanh) và viết cho nhau đọc (dữ liệu ngôn ngữ văn bản)

> **Text Mining**: Kỹ thuật xử lý dữ liệu dạng văn bản và khai thác thông tin từ dữ liệu văn bản.

![](https://www.oreilly.com/library/view/practical-natural-language/9781492054047/assets/pnlp_0108.png)

## Ứng dụng

![](https://www.oreilly.com/library/view/practical-natural-language/9781492054047/assets/pnlp_0101.png)

> Tham khảo: [Practical Natural Language Processing by Sowmya Vajjala, Bodhisattwa Majumder, Anuj Gupta, Harshit Surana
](https://www.oreilly.com/library/view/practical-natural-language/9781492054047/ch01.html)

## Quy trình

> 1. **Preprocessing** (Tiền xử lý) (Làm sạch & Chuẩn hoá dữ liệu)
> 2. **Tokenizing** (Tách từ)
> 3. **Vectorizing** (Vectơ hóa)
> 4. **Modeling** (Xây dựng mô hình)
> 5. **Intepreting result & Application** (Ứng dụng)

## Tools support us:
> - gợi ý viết code (note: chỉ dùng được cho VSCode): https://copilot.github.com/
> - code sẵn, cải tiến hơn Git_copilot: https://www.deepmind.com/blog/article/Competitive-programming-with-AlphaCode

## Công cụ và thư viện

1. Python Nature Language Toolkit ([Python NLTK](https://www.nltk.org/)), PyVi hỗ trợ xử lý dữ liệu dạng văn bản.
2. Gensim/Tensorflow/Scikit-learn hỗ trợ xây dựng mô hình

In [1]:
import warnings
warnings.filterwarnings("ignore")

#### 1. Tiền xử lý dữ liệu text (Text preprocessing)

In [2]:
string = '    Today is our   last     lesson ! '
string

'    Today is our   last     lesson ! '

In [3]:
string.split()

['Today', 'is', 'our', 'last', 'lesson', '!']

In [4]:
' '.join(string.split())

'Today is our last lesson !'

In [5]:
string.strip()

'Today is our   last     lesson !'

In [6]:
string.lstrip()

'Today is our   last     lesson ! '

In [7]:
string.rstrip()

'    Today is our   last     lesson !'

In [8]:
string.lower()                                                 # viết thường

'    today is our   last     lesson ! '

In [9]:
string.upper()                                                 # viết in hoa toàn bộ

'    TODAY IS OUR   LAST     LESSON ! '

In [10]:
'today is great'.capitalize()                                  # viết hoa chữ cái đầu tiên của câu

'Today is great'

In [11]:
string.title()                                                 # viết hoa chữ cái đầu của mỗi word

'    Today Is Our   Last     Lesson ! '

#### TODO: Làm sạch dữ liệu chỉ giữ lại dữ liệu bằng chữ
1. Nếu là dữ liệu scrapped từ web thì chỉ trích lọc dữ liệu chữ (text only)
2. Loại bỏ hyperlink (nếu có) # https://baophapluat.com # lẫn thành từ word 
3. Nếu là dữ liệu web thì cần loại bỏ emoji # :smile: :angry:
4. Loại bỏ tất cả các dấu (.,\/!@#$%^&*()+_ etc.)
```
r'[\,\.\/\\\!\@\#\+\"\'\;\)\(\“\”\\\-\:…&><=\-\%\|\^\$\&\)\(\[\]\{\}\?\*\•]'
```
5. Loại bỏ tất cả các số
6. Loại bỏ các khoảng trắng và đổi text thành lowercase # normalize # T == t

In [12]:
text = '''<head></head>
<body>
    <p>
    Here's 1 paragraph of text 🔥. !
    <a href="https://www.dataquest.io">Learn Data Science Online 🤡</a>
    </p>
    <p>
    Here's a 2nd paragraph of text! Further informations at http://mci.com.vn
    <a href="https://www.python.org">Python 101</a> </p>
</body></html>'''

In [13]:
# 1. Trích lọc Data dạng Text khỏi thẻ html:
!pip install bs4



In [14]:
import bs4

bs4.BeautifulSoup(text)                                    # đọc file Text

<html><head></head>
<body>
<p>
    Here's 1 paragraph of text 🔥. !
    <a href="https://www.dataquest.io">Learn Data Science Online 🤡</a>
</p>
<p>
    Here's a 2nd paragraph of text! Further informations at http://mci.com.vn
    <a href="https://www.python.org">Python 101</a> </p>
</body></html>

In [15]:
bs4.BeautifulSoup(text).get_text('')                       # chỉ lấy phần Text ra

"\n\n\n    Here's 1 paragraph of text 🔥. !\n    Learn Data Science Online 🤡\n\n\n    Here's a 2nd paragraph of text! Further informations at http://mci.com.vn\n    Python 101 \n"

In [16]:
def del_html(text):
    return bs4.BeautifulSoup(text).get_text('')                       # chỉ lấy phần Text ra

In [17]:
text = del_html(text)
text

"\n\n\n    Here's 1 paragraph of text 🔥. !\n    Learn Data Science Online 🤡\n\n\n    Here's a 2nd paragraph of text! Further informations at http://mci.com.vn\n    Python 101 \n"

In [18]:
# 2. Loại bỏ đường Link:
import re

def del_link(text):
    link = 'http[\S]*'
    text = re.sub(link, ' ', str(text))
    text = re.sub('\n', ' ', str(text))
    return text

In [19]:
text = del_link(text)
text

"       Here's 1 paragraph of text 🔥. !     Learn Data Science Online 🤡       Here's a 2nd paragraph of text! Further informations at       Python 101  "

> - Làm quen với những kí tự trong Text: https://regex101.com/

In [20]:
# 3. Loại bỏ Emoji:
!pip install demoji



In [21]:
import demoji

def del_emoji(text):
    return demoji.replace(text, '')

In [22]:
text = del_emoji(text)
text

"       Here's 1 paragraph of text . !     Learn Data Science Online        Here's a 2nd paragraph of text! Further informations at       Python 101  "

In [23]:
# 4. Loại bỏ dấu:
def del_punctuation(text):
    Punc = r'[\,\.\/\\\!\@\#\+\"\'\;\)\(\“\”\\\-\:…&><=\-\%\|\^\$\&\)\(\[\]\{\}\?\*\•]'
    text = re.sub(Punc, ' ', str(text))
    return text

In [24]:
text = del_punctuation(text)
text

'       Here s 1 paragraph of text         Learn Data Science Online        Here s a 2nd paragraph of text  Further informations at       Python 101  '

In [25]:
# 5. Loại bỏ số:
def del_numbers(text):
    return re.sub('\d+', ' ', text)

In [26]:
text = del_numbers(text)
text

'       Here s   paragraph of text         Learn Data Science Online        Here s a  nd paragraph of text  Further informations at       Python    '

In [27]:
# 6. Loại bỏ các khoảng trắng và đổi text thành lowercase # normalize # T == t:
def del_space(text):
    return re.sub('\s+', ' ', text).strip().lower()

In [28]:
text = del_space(text)
text

'here s paragraph of text learn data science online here s a nd paragraph of text further informations at python'

> - Trong Vectors: Num != num != NUm != NUM --> nên chuyển về dạng viết thường (lower())

#### 2. Tách từ (Tokenization)

In [29]:
def split_char(text):                             # character tokenization
    return [char for char in text]

split_char(text)

['h',
 'e',
 'r',
 'e',
 ' ',
 's',
 ' ',
 'p',
 'a',
 'r',
 'a',
 'g',
 'r',
 'a',
 'p',
 'h',
 ' ',
 'o',
 'f',
 ' ',
 't',
 'e',
 'x',
 't',
 ' ',
 'l',
 'e',
 'a',
 'r',
 'n',
 ' ',
 'd',
 'a',
 't',
 'a',
 ' ',
 's',
 'c',
 'i',
 'e',
 'n',
 'c',
 'e',
 ' ',
 'o',
 'n',
 'l',
 'i',
 'n',
 'e',
 ' ',
 'h',
 'e',
 'r',
 'e',
 ' ',
 's',
 ' ',
 'a',
 ' ',
 'n',
 'd',
 ' ',
 'p',
 'a',
 'r',
 'a',
 'g',
 'r',
 'a',
 'p',
 'h',
 ' ',
 'o',
 'f',
 ' ',
 't',
 'e',
 'x',
 't',
 ' ',
 'f',
 'u',
 'r',
 't',
 'h',
 'e',
 'r',
 ' ',
 'i',
 'n',
 'f',
 'o',
 'r',
 'm',
 'a',
 't',
 'i',
 'o',
 'n',
 's',
 ' ',
 'a',
 't',
 ' ',
 'p',
 'y',
 't',
 'h',
 'o',
 'n']

In [30]:
text.split()                                           # word tokenization

['here',
 's',
 'paragraph',
 'of',
 'text',
 'learn',
 'data',
 'science',
 'online',
 'here',
 's',
 'a',
 'nd',
 'paragraph',
 'of',
 'text',
 'further',
 'informations',
 'at',
 'python']

In [31]:
!pip install nltk



In [32]:
import nltk
nltk.download('punkt')

nltk.word_tokenize(text)                                                          # word tokenization

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\HP\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


['here',
 's',
 'paragraph',
 'of',
 'text',
 'learn',
 'data',
 'science',
 'online',
 'here',
 's',
 'a',
 'nd',
 'paragraph',
 'of',
 'text',
 'further',
 'informations',
 'at',
 'python']

In [33]:
nltk.sent_tokenize('Today is our last lesson. Wish you all happy learning!')                                   # sentence tokenization

['Today is our last lesson.', 'Wish you all happy learning!']

In [34]:
text1 = 'Học sinh học sinh học'
nltk.word_tokenize(text1)                                # những từ 'học' & 'sinh' mang nhiều nghĩa khác nhau nhưng máy sẽ không hiểu và dễ bị đánh giá sai     

['Học', 'sinh', 'học', 'sinh', 'học']

> - Cách `tokenize` đối với data bằng Vietnamese:  [Underthesea](https://github.com/undertheseanlp/underthesea), or [Pyvi](https://github.com/trungtv/pyvi)

In [35]:
!pip install pyvi



In [36]:
from pyvi.ViTokenizer import tokenize
tokenize('Học sinh phải học sinh học')

'Học_sinh phải học_sinh_học'

#### Tổng hợp

In [37]:
def clean_text(text):                                                    # làm sạch dữ liệu từ đầu tới cuối
    text = del_html(text)
    text = del_link(text)
    text = del_numbers(text)
    text = del_emoji(text)
    text = del_punctuation(text)
    text = del_space(text)
    return tokenize(text)

In [38]:
import numpy as np
import pandas as pd

data = pd.read_json('https://github.com/honghanhh/mci_python_36a1_l2/raw/main/Lectures/lecture_09/data.json')
data.head(5)

Unnamed: 0,title,snippet,content
0,"Thủ tướng: Khác với đa số các nước, dư địa chí...","(Tổ Quốc) - Với bối cảnh hiện nay, Hội đồng Tư...","Sáng ngày 9/7, Hội đồng Tư vấn chính sách tài ..."
1,"Thống nhất kịch bản tăng trưởng 3-4%, lạm phát...",Tại cuộc họp Hội đồng Tư vấn chính sách tài ch...,Tham dự cuộc họp có Thống đốc NHNN Lê Minh Hưn...
2,Đề xuất tăng liều lượng gói kích thích kinh tế...,Chuyên gia đề xuất do dịch bệnh Covid-19 còn k...,"Sáng 9/7, Thủ tướng Nguyễn Xuân Phúc chủ trì h..."
3,"Thủ tướng: Khác với đa số các nước, dư địa chí...","Với bối cảnh hiện nay, Hội đồng Tư vấn chính s...","Với bối cảnh hiện nay, Hội đồng Tư vấn chính s..."
4,Tác động từ chính sách tín dụng: BĐS có thể đó...,Động thái thắt chặt hay nới lỏng của chính sác...,Lời tòa soạn Thị trường bất động sản ngày càng...


In [39]:
data['corpus'] = data.apply(lambda x: ' '.join(x), axis=1)
data.head()

Unnamed: 0,title,snippet,content,corpus
0,"Thủ tướng: Khác với đa số các nước, dư địa chí...","(Tổ Quốc) - Với bối cảnh hiện nay, Hội đồng Tư...","Sáng ngày 9/7, Hội đồng Tư vấn chính sách tài ...","Thủ tướng: Khác với đa số các nước, dư địa chí..."
1,"Thống nhất kịch bản tăng trưởng 3-4%, lạm phát...",Tại cuộc họp Hội đồng Tư vấn chính sách tài ch...,Tham dự cuộc họp có Thống đốc NHNN Lê Minh Hưn...,"Thống nhất kịch bản tăng trưởng 3-4%, lạm phát..."
2,Đề xuất tăng liều lượng gói kích thích kinh tế...,Chuyên gia đề xuất do dịch bệnh Covid-19 còn k...,"Sáng 9/7, Thủ tướng Nguyễn Xuân Phúc chủ trì h...",Đề xuất tăng liều lượng gói kích thích kinh tế...
3,"Thủ tướng: Khác với đa số các nước, dư địa chí...","Với bối cảnh hiện nay, Hội đồng Tư vấn chính s...","Với bối cảnh hiện nay, Hội đồng Tư vấn chính s...","Thủ tướng: Khác với đa số các nước, dư địa chí..."
4,Tác động từ chính sách tín dụng: BĐS có thể đó...,Động thái thắt chặt hay nới lỏng của chính sác...,Lời tòa soạn Thị trường bất động sản ngày càng...,Tác động từ chính sách tín dụng: BĐS có thể đó...


In [40]:
data['corpus'] = data['corpus'].apply(clean_text)                   # corpora là corpus: sdung trong Text Mining (thể hiện việc sdung nhiều văn bản Text)
data['corpus'].iloc[0]

'thủ_tướng khác với đa_số các nước dư địa_chính_sách tài khóa tiền_tệ của việt nam còn khá lớn tổ_quốc với bối_cảnh hiện_nay hội_đồng tư_vấn chính_sách tài_chính tiền_tệ quốc_gia thống_nhất kịch_bản tăng_trưởng từ kiểm_soát lạm_phát dưới năm và đầu tăng_trưởng tín_dụng trên chủ_trương tăng thêm bội_chi ngân_sách nợ công khoảng gdp sáng ngày hội_đồng tư_vấn chính_sách tài_chính tiền_tệ quốc_gia đã họp dưới sự chủ_trì của thủ_tướng nguyễn xuân phúc chủ_tịch hội_đồng dư địa_chính_sách tài khóa tiền_tệ còn lớn thủ_tướng nguyễn xuân phúc cho rằng dịch_bệnh covid bùng_phát diện rộng trên toàn_cầu diễn_biến phức_tạp chưa dừng lại nhất_là tại các đối_tác lớn của nước ta kinh_tế toàn_cầu sụt_giảm mạnh nhiều tổ_chức quốc_tế dự_báo kinh_tế thế_giới tăng_trưởng âm trong năm nay trong bối_cảnh đó hầu_hết các nước đều nới lỏng chính_sách tài_chính tiền_tệ với mức_độ chưa từng có theo thống_kê mới nhất nếu tháng tổng_các gói kích_thích tài khóa mới là tỷ usd thì đến nay đã tăng lên tỷ usd chưa có dấu

> - Read more about Tokenization: https://huggingface.co/docs/transformers/main_classes/tokenizer

#### 3. Mã hóa dữ liệu text (Word embedding)

> - Trong `CountVectorizer` sẽ xử lý data cơ bản, filltering 1 số từ `stopwords` trong tiếng Anh, đối với Vietnamese thì chúng ta phải tự loại bỏ
> - `Stopwords` là những từ không có ý nghĩa, mang tính chất làm cho đúng ngữ pháp trong câu, ex: `the, is, about, ...`

In [41]:
from sklearn.feature_extraction.text import CountVectorizer
count_vect = CountVectorizer()
X_train_counts = count_vect.fit_transform(data['corpus'])

In [42]:
X_train_counts.shape                                                       # có dạng (số rows, số Tokenize)

(876, 5743)

### `TF-IDF` (Term Frequency & Inverse Document Frequency):
- `TF`: Mức độ xuất hiện của từ trong văn bản
- `IDF`: chia cho tỉ lệ văn bản mà từ đó xuất hiện trên tổng tất cả số lượng văn bản
---> Scale được giá trị Vectors về 1 khoảng giá trị nhất định
---> Loại bỏ những từ được coi là `Stopwords`

In [43]:
from sklearn.feature_extraction.text import TfidfTransformer

tf_transformer = TfidfTransformer()
X_train_tf = tf_transformer.fit(X_train_counts).transform(X_train_counts)

In [44]:
X_train_tf.shape

(876, 5743)

### Khai phá dữ liệu text (Text Mining)

In [45]:
sentences = [
    'It was the best of times',                             # best times
    'It was the worst of times',                            # worst times
    'It was the age of wisdom',                             # age wisdom
    'It was the age of foolishness'                         # age foolishness
]
sentences

['It was the best of times',
 'It was the worst of times',
 'It was the age of wisdom',
 'It was the age of foolishness']

#### Khái niệm Bag-of-Words

Là kỹ thuật chia văn bản thành các tổ hợp từ khác nhau (bằng phương pháp tokenize). Cách chia phổ biến là mỗi câu thành 1 văn bản (bag) và mỗi văn bản được chia thành từ (word). Dựa vào đó có thể đo lường mức độ xuất hiện của các từ trong văn bản và xây dựng mối liên hệ giữa ngữ cảnh và các từ. 

Hai yếu tố:
1. Từ điển của các từ được sử dụng
2. Mức độ xuất hiện của các từ trong từ điển
*Mỗi từ hay token được gọi là một `gram`*


In [46]:
dict_vector = set()
tokenized = [nltk.word_tokenize(i.lower()) for i in sentences]
for i in tokenized:
    for j in i:
        dict_vector.add(j)
        
dictionary = []                                                 # thêm dần vào từ điển
for sent in sentences:
    words = nltk.word_tokenize(sent)                            # tokenize
    for w in words:
        if w not in dictionary:
            dictionary.append(w)
            
for sent in sentences:
    vec = [1 if w in sent else 0 for w in dictionary]
    print(sent, ':\t', vec)

It was the best of times :	 [1, 1, 1, 1, 1, 1, 0, 0, 0, 0]
It was the worst of times :	 [1, 1, 1, 0, 1, 1, 1, 0, 0, 0]
It was the age of wisdom :	 [1, 1, 1, 0, 1, 0, 0, 1, 1, 0]
It was the age of foolishness :	 [1, 1, 1, 0, 1, 0, 0, 1, 0, 1]


#### TF-IDF (Term frequency-Inverse Document frequency)

Ngữ cảnh: "I am very angry" ==> "very angry" # tập trung vào các từ mang nhiều thông tin

Đơn vị để đo thông tin trong khoa học machine-learning: entropy

Đo lường tần suất ***hợp lý*** một từ (hay token) xuất hiện trong văn bản. Tần suất này được tính bằng: Mức độ xuất hiện của từ trong văn bản chia cho tỉ lệ văn bản mà từ đó xuất hiện trên tổng tất cả số lượng văn bản.

Ví dụ: đối với như `what` hay `the`, các từ này xuất hiện rất nhiều tuy nhiên ko mang nhiều ý nghĩa nên cần có phương pháp loại trừ các từ này ra khỏi mô hình. Vì vậy ngoài tính toán mức độ xuất hiện của các từ trong văn bản, tuy nhiên nếu văn bản nào cũng xuất hiện từ này (hoặc đơn giản là rất nhiều > 90%) thì các từ này sẽ bị loại ra.

$$ tf-idf(t, d, D)  = tf(t, d) \dot idf(t, D)$$

> `t`: từ (word hay token)
 
> `d`: văn bản (document)
 
> `D`: tệp các văn bản (documents)

trong đó:

$$ tf(t, d) = \log(1 + freq(t, d)) $$
$$ idf(t, D) = \log \left( \dfrac{N}{count(d \in D: t \in d)} \right)$$

#### Mô hình Word2vec


*"Word2Vec was developed at Google by Tomas Mikolov, et al. and uses Neural Networks to learn word embeddings. The beauty with word2vec is that the vectors are learned by understanding the context in which words appear. The result is vectors in which words with similar meanings end up with a similar numerical representation."*

**One-hot-encoding**

All word are treated equal

![](https://i2.wp.com/insightbot.blob.core.windows.net/blogimagecontainer/b3c56245-db43-48ab-b652-9ba03f4d9900.jpg?ssl=1)

**Word2Vec**

Word with similar numeric value are similar in meaning

![](https://i1.wp.com/insightbot.blob.core.windows.net/blogimagecontainer/8cbfc874-3ba3-46c8-ab68-2711812ecbf1.jpg?ssl=1)

Hai loại mô hình Word2Vec: **CBOW** (Continuous Bag-of-Word) và **Skip-Gram**

- `Continuous Bag of Words (CBOW)`: *nhìn hình (ngữ cảnh) đoán chữ*

- Ngược lại, `Skip-Gram`: *nhìn chữ đoán hình (ngữ cảnh)*

![](https://i0.wp.com/insightbot.blob.core.windows.net/blogimagecontainer/7938152f-71c8-4f28-9c25-06735e6e2b67.jpg?ssl=1)

**Skip-gram**

Window Size defines how many words before and after the target word will be used as context, typically a Window Size is 5. 
![](https://i2.wp.com/insightbot.blob.core.windows.net/blogimagecontainer/a8066c1d-c532-4549-bb24-19dfea5eb178_med.jpg?ssl=1)

Using a window size of 2 the input pairs for training on w(4) royal would be:
![](https://israelg99.github.io/images/2017-03-23-Word2Vec-Explained/training_data.png)

> ---> Cách `Word2Vec` hoạt động: https://projector.tensorflow.org/

> - Khóa học thi Certificate: (`Deep Learning`): https://www.coursera.org/professional-certificates/tensorflow-in-practice

> - Công cụ dùng để Demo Visual, (dễ học), dùng để báo cáo: https://streamlit.io/

> --> Tạo Profile theo link Github: https://gprm.itsvg.in/