# Xử lý ngôn ngữ tự nhiên và khai phá dữ liệu văn bản

![](https://www.thuatngumarketing.com/wp-content/uploads/2017/12/NLP.png.pagespeed.ce_.1YNuw_5dJH.png)

## Định nghĩa

> **Xử lí ngôn ngữ tự nhiên**: Sử dụng các kỹ thuật phân tích và làm sạch dữ liệu kết hợp với mô hình học máy để khai thác thông tin trong dữ liệu ngôn ngữ.

> **Dữ liệu ngôn ngữ**: Nói cho nhau nghe (dữ liệu ngôn ngữ âm thanh) và viết cho nhau đọc (dữ liệu ngôn ngữ văn bản)

> **Text Mining**: Kỹ thuật xử lý dữ liệu dạng văn bản và khai thác thông tin từ dữ liệu văn bản.

![](https://www.oreilly.com/library/view/practical-natural-language/9781492054047/assets/pnlp_0108.png)

## Ứng dụng

![](https://www.oreilly.com/library/view/practical-natural-language/9781492054047/assets/pnlp_0101.png)

> Tham khảo: [Practical Natural Language Processing by Sowmya Vajjala, Bodhisattwa Majumder, Anuj Gupta, Harshit Surana
](https://www.oreilly.com/library/view/practical-natural-language/9781492054047/ch01.html)

## Quy trình

> 1. **Preprocessing** (Tiền xử lý) (Làm sạch & Chuẩn hoá dữ liệu)
> 2. **Tokenizing** (Tách từ) -> Dua ve cac cum chung
> 3. **Vectorizing** (Vectơ hóa)
> 4. **Modeling** (Xây dựng mô hình)
> 5. **Intepreting result & Application** (Ứng dụng)

## Công cụ và thư viện

1. Python Nature Language Toolkit ([Python NLTK](https://www.nltk.org/)), PyVi hỗ trợ xử lý dữ liệu dạng văn bản.
2. Gensim/Tensorflow/Scikit-learn hỗ trợ xây dựng mô hình

#### 1. Tiền xử lý dữ liệu text (Text preprocessing)

In [None]:
# regex 101

#### TODO: Làm sạch dữ liệu chỉ giữ lại dữ liệu bằng chữ
1. Nếu là dữ liệu scrapped từ web thì chỉ trích lọc dữ liệu chứ (text only)
2. Loại bỏ hyperlink (nếu có) # https://baophapluat.com # lẫn thành từ word 
3. Nếu là dữ liệu web thì cần loại bỏ emoji # :smile: :angry:
4. Loại bỏ tất cả các dấu (.,\/!@#$%^&*()+_ etc.)
```
r'[\,\.\/\\\!\@\#\+\"\'\;\)\(\“\”\\\-\:…&><=\-\%\|\^\$\&\)\(\[\]\{\}\?\*\•]'
```
5. Loại bỏ tất cả các số
6. Loại bỏ các khoảng trắng và đổi text thành lowercase # normalize # T == t

In [None]:
text = '''<head></head>
<body>
    <p>
    Here's 1 paragraph of text 🔥. !
    <a href="https://www.dataquest.io">Learn Data Science Online 🤡</a>
    </p>
    <p>
    Here's a 2nd paragraph of text! Further informations at http://mci.com.vn
    <a href="https://www.python.org">Python 101</a> </p>
</body></html>'''

: 

#### 2. Tách từ (Tokenization)

#### 3. Mã hóa dữ liệu text (Word embedding)

### Khai phá dữ liệu text (Text Mining)

In [None]:
sentences = [
    'It was the best of times', # best times
    'It was the worst of times', # worst times
    'It was the age of wisdom', # age wisdom
    'It was the age of foolishness' # age foolishness
]
sentences

['It was the best of times',
 'It was the worst of times',
 'It was the age of wisdom',
 'It was the age of foolishness']

#### Khái niệm Bag-of-Words

Là kỹ thuật chia văn bản thành các tổ hợp từ khác nhau (bằng phương pháp tokenize). Cách chia phổ biến là mỗi câu thành 1 văn bản (bag) và mỗi văn bản được chia thành từ (word). Dựa vào đó có thể đo lường mức độ xuất hiện của các từ trong văn bản và xây dựng mối liên hệ giữa ngữ cảnh và các từ. 

Hai yếu tố:
1. Từ điển của các từ được sử dụng
2. Mức độ xuất hiện của các từ trong từ điển
*Mỗi từ hay token được gọi là một `gram`*


#### TF-IDF (Term frequency-Inverse Document frequency)

Ngữ cảnh: "I am very angry" ==> "very angry" # tập trung vào các từ mang nhiều thông tin

Đơn vị để đo thông tin trong khoa học machine-learning: entropy

Đo lường tần suất ***hợp lý*** một từ (hay token) xuất hiện trong văn bản. Tần suất này được tính bằng: Mức độ xuất hiện của từ trong văn bản chia cho tỉ lệ văn bản mà từ đó xuất hiện trên tổng tất cả số lượng văn bản.

Ví dụ: đối với như `what` hay `the`, các từ này xuất hiện rất nhiều tuy nhiên ko mang nhiều ý nghĩa nên cần có phương pháp loại trừ các từ này ra khỏi mô hình. Vì vậy ngoài tính toán mức độ xuất hiện của các từ trong văn bản, tuy nhiên nếu văn bản nào cũng xuất hiện từ này (hoặc đơn giản là rất nhiều > 90%) thì các từ này sẽ bị loại ra.

$$ tf-idf(t, d, D)  = tf(t, d) \dot idf(t, D)$$

> `t`: từ (word hay token)
 
> `d`: văn bản (document)
 
> `D`: tệp các văn bản (documents)

trong đó:

$$ tf(t, d) = \log(1 + freq(t, d)) $$
$$ idf(t, D) = \log \left( \dfrac{N}{count(d \in D: t \in d)} \right)$$

#### Mô hình Word2vec


*"Word2Vec was developed at Google by Tomas Mikolov, et al. and uses Neural Networks to learn word embeddings. The beauty with word2vec is that the vectors are learned by understanding the context in which words appear. The result is vectors in which words with similar meanings end up with a similar numerical representation."*

**One-hot-encoding**

All word are treated equal

![](https://i2.wp.com/insightbot.blob.core.windows.net/blogimagecontainer/b3c56245-db43-48ab-b652-9ba03f4d9900.jpg?ssl=1)

**Word2Vec**

Word with similar numeric value are similar in meaning

![](https://i1.wp.com/insightbot.blob.core.windows.net/blogimagecontainer/8cbfc874-3ba3-46c8-ab68-2711812ecbf1.jpg?ssl=1)

Hai loại mô hình Word2Vec: **CBOW** (Continuous Bag-of-Word) và **Skip-Gram**

Continuous Bag of Words (CBOW): *nhìn hình (ngữ cảnh) đoán chữ*

Ngược lại, Skip-Gram: *nhìn chữ đoán hình (ngữ cảnh)*

![](https://i0.wp.com/insightbot.blob.core.windows.net/blogimagecontainer/7938152f-71c8-4f28-9c25-06735e6e2b67.jpg?ssl=1)

**Skip-gram**

Window Size defines how many words before and after the target word will be used as context, typically a Window Size is 5. 
![](https://i2.wp.com/insightbot.blob.core.windows.net/blogimagecontainer/a8066c1d-c532-4549-bb24-19dfea5eb178_med.jpg?ssl=1)

Using a window size of 2 the input pairs for training on w(4) royal would be:
![](https://israelg99.github.io/images/2017-03-23-Word2Vec-Explained/training_data.png)