## **PHƯƠNG PHÁP DỰA TRÊN TỪ**

## **Bag-of-words(BoW)**

Bag-of-words (BoW) là một cách biểu diễn văn bản đơn giản và phổ biến trong xử lý ngôn ngữ tự nhiên (NLP). BoW coi một văn bản như một "túi" chứa các từ, bỏ qua trật tự xuất hiện của các từ trong văn bản.

### **Cách thức hoạt động**
Để tạo một biểu diễn BoW cho một văn bản, ta thực hiện các bước sau:

1. Tokenization: Chia văn bản thành các từ riêng lẻ (token).

2. Vocabulary creation: Tạo một danh sách các từ duy nhất (vocabulary) xuất hiện trong văn bản hoặc trong tập dữ liệu.

3. Feature vector creation: Tạo một vector có kích thước bằng số lượng từ trong vocabulary. Mỗi phần tử trong vector tương ứng với một từ trong vocabulary, giá trị của phần tử là số lần xuất hiện của từ đó trong văn bản.

Ví dụ:

Văn bản: "Tôi yêu thích học máy."

Vocabulary: ["Tôi", "yêu", "thích", "học", "máy"]

Feature vector: [1, 1, 1, 1, 1]

### **Ưu điểm và nhược điểm**
#### **Ưu điểm:**

* Dễ dàng thực hiện.

* Không cần huấn luyện mô hình.

* Có thể kết hợp với các kỹ thuật khác như TF-IDF để tăng hiệu quả.

#### **Nhược điểm:**

* Bỏ qua trật tự từ trong câu, không thể nắm bắt ngữ nghĩa của câu.

* Không thể xử lý các từ đồng nghĩa hoặc đa nghĩa.

* Kích thước vector có thể lớn, gây tốn kém về mặt tính toán.



## **Demo BoW**

In [None]:
import string
import pandas as pd

In [None]:
documents =['Tôi yêu thích học máy.',
            'Nó là một lĩnh vực thú vị và đầy thử thách.',
            'Tôi đặc biệt quan tâm đến các ứng dụng của học máy trong lĩnh vực y tế ',
            'chẳng hạn như chẩn đoán bệnh và dự đoán kết quả điều trị']

In [None]:
lower_case_documents = []
for i in documents:
    lower_case_documents.append(i.lower())
print(lower_case_documents)

['tôi yêu thích học máy.', 'nó là một lĩnh vực thú vị và đầy thử thách.', 'tôi đặc biệt quan tâm đến các ứng dụng của học máy trong lĩnh vực y tế ', 'chẳng hạn như chẩn đoán bệnh và dự đoán kết quả điều trị']


In [None]:
sans_punctuation_documents = []
import string
for i in lower_case_documents:
    sans_punctuation_documents.append(''.join(c for c in i if c not in string.punctuation))

print(sans_punctuation_documents)

['tôi yêu thích học máy', 'nó là một lĩnh vực thú vị và đầy thử thách', 'tôi đặc biệt quan tâm đến các ứng dụng của học máy trong lĩnh vực y tế ', 'chẳng hạn như chẩn đoán bệnh và dự đoán kết quả điều trị']


In [None]:
preprocessed_documents = []
for i in sans_punctuation_documents:
    preprocessed_documents.append(i.split(' '))
print(preprocessed_documents)

[['tôi', 'yêu', 'thích', 'học', 'máy'], ['nó', 'là', 'một', 'lĩnh', 'vực', 'thú', 'vị', 'và', 'đầy', 'thử', 'thách'], ['tôi', 'đặc', 'biệt', 'quan', 'tâm', 'đến', 'các', 'ứng', 'dụng', 'của', 'học', 'máy', 'trong', 'lĩnh', 'vực', 'y', 'tế', ''], ['chẳng', 'hạn', 'như', 'chẩn', 'đoán', 'bệnh', 'và', 'dự', 'đoán', 'kết', 'quả', 'điều', 'trị']]


In [None]:
frequency_list = []
import pprint
from collections import Counter

for i in preprocessed_documents:
    frequency_list.append(Counter(i))

pprint.pprint(frequency_list)

[Counter({'tôi': 1, 'yêu': 1, 'thích': 1, 'học': 1, 'máy': 1}),
 Counter({'nó': 1,
          'là': 1,
          'một': 1,
          'lĩnh': 1,
          'vực': 1,
          'thú': 1,
          'vị': 1,
          'và': 1,
          'đầy': 1,
          'thử': 1,
          'thách': 1}),
 Counter({'tôi': 1,
          'đặc': 1,
          'biệt': 1,
          'quan': 1,
          'tâm': 1,
          'đến': 1,
          'các': 1,
          'ứng': 1,
          'dụng': 1,
          'của': 1,
          'học': 1,
          'máy': 1,
          'trong': 1,
          'lĩnh': 1,
          'vực': 1,
          'y': 1,
          'tế': 1,
          '': 1}),
 Counter({'đoán': 2,
          'chẳng': 1,
          'hạn': 1,
          'như': 1,
          'chẩn': 1,
          'bệnh': 1,
          'và': 1,
          'dự': 1,
          'kết': 1,
          'quả': 1,
          'điều': 1,
          'trị': 1})]


In [None]:
# Implementing Bag of Words in scikit-learn
from sklearn.feature_extraction.text import CountVectorizer
count_vector = CountVectorizer()

In [None]:
count_vector.fit_transform(documents)

<4x38 sparse matrix of type '<class 'numpy.int64'>'
	with 44 stored elements in Compressed Sparse Row format>

In [None]:
count_vector.get_feature_names_out()

array(['biệt', 'bệnh', 'chẩn', 'chẳng', 'các', 'của', 'dụng', 'dự', 'hạn',
       'học', 'kết', 'là', 'lĩnh', 'máy', 'một', 'như', 'nó', 'quan',
       'quả', 'thách', 'thích', 'thú', 'thử', 'trong', 'trị', 'tâm',
       'tôi', 'tế', 'và', 'vị', 'vực', 'yêu', 'điều', 'đoán', 'đầy',
       'đặc', 'đến', 'ứng'], dtype=object)

In [None]:
doc_array = count_vector.transform(documents).toarray()
doc_array

array([[0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0,
        0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 1, 0, 1, 0, 0, 1, 0, 1,
        1, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 1, 0, 0, 0],
       [1, 0, 0, 0, 1, 1, 1, 0, 0, 1, 0, 0, 1, 1, 0, 0, 0, 1, 0, 0, 0, 0,
        0, 1, 0, 1, 1, 1, 0, 0, 1, 0, 0, 0, 0, 1, 1, 1],
       [0, 1, 1, 1, 0, 0, 0, 1, 1, 0, 1, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0,
        0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 1, 2, 0, 0, 0, 0]])

In [None]:
frequency_matrix = pd.DataFrame(doc_array,index=documents,columns=count_vector.get_feature_names_out())
frequency_matrix

Unnamed: 0,biệt,bệnh,chẩn,chẳng,các,của,dụng,dự,hạn,học,...,và,vị,vực,yêu,điều,đoán,đầy,đặc,đến,ứng
Tôi yêu thích học máy.,0,0,0,0,0,0,0,0,0,1,...,0,0,0,1,0,0,0,0,0,0
Nó là một lĩnh vực thú vị và đầy thử thách.,0,0,0,0,0,0,0,0,0,0,...,1,1,1,0,0,0,1,0,0,0
Tôi đặc biệt quan tâm đến các ứng dụng của học máy trong lĩnh vực y tế,1,0,0,0,1,1,1,0,0,1,...,0,0,1,0,0,0,0,1,1,1
chẳng hạn như chẩn đoán bệnh và dự đoán kết quả điều trị,0,1,1,1,0,0,0,1,1,0,...,1,0,0,0,1,2,0,0,0,0


## **TF-IDF là gì?**

TF-IDF là viết tắt của **Term Frequency-Inverse Document Frequency**, là một kỹ thuật được sử dụng để đánh giá mức độ quan trọng của một từ trong một văn bản.

### ***Cách thức hoạt động***

TF-IDF được tính bằng cách nhân hai yếu tố:

* **Term Frequency (TF):** Tần suất xuất hiện của một từ trong văn bản.

* **Inverse Document Frequency (IDF):** Độ hiếm của một từ trong một tập dữ liệu.

Công thức tính TF-IDF:

```
TF-IDF(t, d) = TF(t, d) * IDF(t)
```

### **Ưu điểm và nhược điểm**

**Ưu điểm:**

* TF-IDF có thể đánh giá mức độ quan trọng của một từ trong một văn bản, giúp phân biệt các từ quan trọng với các từ không quan trọng.

* TF-IDF có thể xử lý các từ đồng nghĩa hoặc đa nghĩa.

* TF-IDF có thể được sử dụng để so sánh các văn bản khác nhau.

**Nhược điểm:**

* TF-IDF có thể bị ảnh hưởng bởi độ dài của văn bản.

* TF-IDF có thể bị ảnh hưởng bởi các từ dừng (stop words).


## **Demo TF-IDF**

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

In [None]:
vectorizer = TfidfVectorizer()

In [None]:
tfidf_matrix = vectorizer.fit_transform(documents)

In [None]:
feature_names = vectorizer.get_feature_names_out()

In [None]:
# Tạo bảng ma trận TF-IDF với số từ tương ứng
for i, document in enumerate(documents):
    print("Feature", i+1)
    for j, feature_name in enumerate(feature_names):
        if tfidf_matrix[i, j] > 0.0:
            print(feature_name, ":", tfidf_matrix[i, j])

Feature 1
học : 0.401042746469996
máy : 0.401042746469996
thích : 0.5086718718935652
tôi : 0.401042746469996
yêu : 0.5086718718935652
Feature 2
là : 0.3183877439289813
lĩnh : 0.25102055435528736
một : 0.3183877439289813
nó : 0.3183877439289813
thách : 0.3183877439289813
thú : 0.3183877439289813
thử : 0.3183877439289813
và : 0.25102055435528736
vị : 0.3183877439289813
vực : 0.25102055435528736
đầy : 0.3183877439289813
Feature 3
biệt : 0.26623664907510014
các : 0.26623664907510014
của : 0.26623664907510014
dụng : 0.26623664907510014
học : 0.20990403215845158
lĩnh : 0.20990403215845158
máy : 0.20990403215845158
quan : 0.26623664907510014
trong : 0.26623664907510014
tâm : 0.26623664907510014
tôi : 0.20990403215845158
tế : 0.26623664907510014
vực : 0.20990403215845158
đặc : 0.26623664907510014
đến : 0.26623664907510014
ứng : 0.26623664907510014
Feature 4
bệnh : 0.26151864623057924
chẩn : 0.26151864623057924
chẳng : 0.26151864623057924
dự : 0.26151864623057924
hạn : 0.26151864623057924
kết :

## **Phương pháp dựa trên câu**

## **Word2Vec là gì?**

**Word2Vec** là một mô hình ngôn ngữ được phát triển bởi Google vào năm 2013. Nó có khả năng học và biểu diễn các từ dưới dạng vector, giúp cho việc xử lý ngôn ngữ tự nhiên (NLP) trở nên hiệu quả hơn.

**Nguyên lý hoạt động:**

Word2Vec sử dụng hai kiến trúc mạng nơ-ron chính:

* **CBOW (Continuous Bag-of-Words):** Dự đoán từ trung tâm dựa trên các từ xung quanh.
* **Skip-gram:** Dự đoán các từ xung quanh dựa trên từ trung tâm.

Cả hai kiến trúc này đều sử dụng thuật toán **backpropagation** để học các vector biểu diễn từ. Sau khi được huấn luyện, mỗi từ sẽ được biểu diễn bởi một vector có kích thước cố định, chứa thông tin ngữ nghĩa của từ đó.

**Lợi ích của Word2Vec:**

* **Hiệu quả:** Word2Vec có thể học được các vector biểu diễn từ từ một lượng dữ liệu lớn một cách hiệu quả.

* **Đa dạng:** Word2Vec có thể được sử dụng cho nhiều nhiệm vụ NLP khác nhau, chẳng hạn như phân loại văn bản, tóm tắt văn bản, dịch máy, v.v.

* **Độ chính xác cao:** Word2Vec có khả năng học được các vector biểu diễn từ có độ chính xác cao, giúp cho các ứng dụng NLP đạt hiệu quả tốt hơn.

**Ví dụ:**

Giả sử chúng ta có hai câu sau:

* Câu 1: "Tôi yêu thích học máy."

* Câu 2: "Tôi đang học tiếng Anh."

Sử dụng Word2Vec, bạn có thể học được các vector biểu diễn từ cho các từ trong hai câu này. Sau đó, bạn có thể sử dụng các vector này để tính toán độ tương đồng giữa hai câu.


### **Demo Word2Vec**

In [None]:
from gensim.models import Word2Vec
from gensim.utils import simple_preprocess
from stop_words import get_stop_words

stop_words = get_stop_words('vi')

In [None]:
documents = [doc.lower() for doc in documents]

# Remove "stop-words"
documents = [[word for word in doc.split() if word not in stop_words] for doc in documents]

In [None]:
# Tạo model Word2Vec
model = Word2Vec(documents, min_count=1, vector_size=100, window=5)

In [None]:
word_vector = model.wv['học']
similar_words = model.wv.most_similar(positive=['học'], topn=10)

In [None]:
print(word_vector)

[-5.3424982e-04  2.3478823e-04  5.1056989e-03  9.0098232e-03
 -9.2985602e-03 -7.1193390e-03  6.4580240e-03  8.9839967e-03
 -5.0171670e-03 -3.7656093e-03  7.3801512e-03 -1.5439379e-03
 -4.5414022e-03  6.5604281e-03 -4.8637404e-03 -1.8119003e-03
  2.8778701e-03  9.9517405e-04 -8.2880920e-03 -9.4572222e-03
  7.3198644e-03  5.0759357e-03  6.7592920e-03  7.6004834e-04
  6.3516572e-03 -3.4009516e-03 -9.4188587e-04  5.7691769e-03
 -7.5234924e-03 -3.9398693e-03 -7.5119259e-03 -9.3728845e-04
  9.5380312e-03 -7.3269783e-03 -2.3384690e-03 -1.9379796e-03
  8.0883410e-03 -5.9315530e-03  3.9030278e-05 -4.7559976e-03
 -9.6039334e-03  5.0048460e-03 -8.7625301e-03 -4.3857824e-03
 -2.8389572e-05 -2.9044240e-04 -7.6712458e-03  9.6113048e-03
  4.9879486e-03  9.2367390e-03 -8.1628449e-03  4.4923713e-03
 -4.1381409e-03  8.2347885e-04  8.4973518e-03 -4.4621686e-03
  4.5206323e-03 -6.7920503e-03 -3.5509826e-03  9.4029000e-03
 -1.5765466e-03  3.2218295e-04 -4.1365749e-03 -7.6782806e-03
 -1.5082831e-03  2.47766

In [None]:
print(similar_words)

[('dụng', 0.21967488527297974), ('thử', 0.21613384783267975), ('biệt', 0.0930815041065216), ('thú', 0.09307542443275452), ('chẳng', 0.08421847224235535), ('đặc', 0.07965261489152908), ('hạn', 0.06438012421131134), ('thách.', 0.06279946118593216), ('ứng', 0.05451319366693497), ('vị', 0.027010561898350716)]


### **Doc2Vec**

Doc2Vec là một mở rộng của Word2Vec, được sử dụng để biểu diễn vector cho các đoạn văn bản, bao gồm cả câu.
Mô hình học cách biểu diễn các đoạn văn bản thành vector dựa trên dữ liệu corpus lớn.

**Ưu điểm**: vector biểu diễn các đoạn văn bản có khả năng nắm bắt ngữ nghĩa của câu, phản ánh mối quan hệ giữa các câu.

**Nhược điểm**: cần huấn luyện mô hình, yêu cầu dữ liệu huấn luyện lớn.

## **Phương pháp dựa trên ngữ cảnh**

# **Pre-trained Language Models**

1. **ELMo (Embeddings from Language Models)**: Sử dụng các mô hình mạng nơ-ron hồi tiếp (RNN) để tạo ra các vector biểu diễn từ dựa trên ngữ cảnh. Các vector này được kết hợp lại để tạo thành vector biểu diễn câu.

2. **BERT (Bidirectional Encoder Representations from Transformers)**: Sử dụng kiến trúc Transformer để tạo ra các vector biểu diễn từ dựa trên ngữ cảnh. Có thể sử dụng vector của token [CLS] ở đầu câu để biểu diễn toàn bộ câu.

3. **GPT (Generative Pre-trained Transformer)**: Tương tự như BERT, nhưng tập trung vào việc sinh ngôn ngữ. Các vector biểu diễn từ được tạo ra có thể kết hợp để tạo thành vector của câu.

**Demo BERT**

In [1]:
pip install transformers torch


Collecting nvidia-cuda-nvrtc-cu12==12.1.105 (from torch)
  Using cached nvidia_cuda_nvrtc_cu12-12.1.105-py3-none-manylinux1_x86_64.whl (23.7 MB)
Collecting nvidia-cuda-runtime-cu12==12.1.105 (from torch)
  Using cached nvidia_cuda_runtime_cu12-12.1.105-py3-none-manylinux1_x86_64.whl (823 kB)
Collecting nvidia-cuda-cupti-cu12==12.1.105 (from torch)
  Using cached nvidia_cuda_cupti_cu12-12.1.105-py3-none-manylinux1_x86_64.whl (14.1 MB)
Collecting nvidia-cudnn-cu12==8.9.2.26 (from torch)
  Using cached nvidia_cudnn_cu12-8.9.2.26-py3-none-manylinux1_x86_64.whl (731.7 MB)
Collecting nvidia-cublas-cu12==12.1.3.1 (from torch)
  Using cached nvidia_cublas_cu12-12.1.3.1-py3-none-manylinux1_x86_64.whl (410.6 MB)
Collecting nvidia-cufft-cu12==11.0.2.54 (from torch)
  Using cached nvidia_cufft_cu12-11.0.2.54-py3-none-manylinux1_x86_64.whl (121.6 MB)
Collecting nvidia-curand-cu12==10.3.2.106 (from torch)
  Using cached nvidia_curand_cu12-10.3.2.106-py3-none-manylinux1_x86_64.whl (56.5 MB)
Collectin

In [6]:
pip install fairseq

Collecting fairseq
  Downloading fairseq-0.12.2.tar.gz (9.6 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m9.6/9.6 MB[0m [31m14.5 MB/s[0m eta [36m0:00:00[0m
[?25h  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
  Installing backend dependencies ... [?25l[?25hdone
  Preparing metadata (pyproject.toml) ... [?25l[?25hdone
Collecting hydra-core<1.1,>=1.0.7 (from fairseq)
  Downloading hydra_core-1.0.7-py3-none-any.whl (123 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m123.8/123.8 kB[0m [31m16.8 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting omegaconf<2.1 (from fairseq)
  Downloading omegaconf-2.0.6-py3-none-any.whl (36 kB)
Collecting sacrebleu>=1.4.12 (from fairseq)
  Downloading sacrebleu-2.4.2-py3-none-any.whl (106 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m106.7/106.7 kB[0m [31m16.4 MB/s[0m eta [36m0:00:00[0m
Collecting bitarray (from fairse

In [9]:
import torch
from transformers import BertTokenizer, BertModel
from scipy.spatial.distance import cosine
from transformers import AutoTokenizer, AutoModel

In [3]:
# Load pre-trained model tokenizer (vocabulary)
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


tokenizer_config.json:   0%|          | 0.00/48.0 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/466k [00:00<?, ?B/s]



config.json:   0%|          | 0.00/570 [00:00<?, ?B/s]

In [4]:
# Encode sentences to get their embeddings
def encode_sentence(sentence):
    tokens = tokenizer(sentence, return_tensors='pt')
    with torch.no_grad():
        outputs = model(**tokens)
    # Use the embeddings of the [CLS] token as the sentence embedding
    sentence_embedding = outputs.last_hidden_state[:, 0, :].squeeze()
    return sentence_embedding

In [5]:
# Load pre-trained BERT model
model = BertModel.from_pretrained('bert-base-uncased')

model.safetensors:   0%|          | 0.00/440M [00:00<?, ?B/s]

In [10]:
# Define two sentences
sentence1 = "The quick brown fox jumps over the lazy dog."
sentence2 = "A fast brown fox leaps over a lazy dog."

# Get the embeddings for the sentences
embedding1 = encode_sentence(sentence1)
embedding2 = encode_sentence(sentence2)

# Calculate cosine similarity between the embeddings
similarity = 1 - cosine(embedding1, embedding2)

print(f"Cosine similarity between the sentences: {similarity:.4f}")

Cosine similarity between the sentences: 0.9466


**Dùng PHO-BERT cho câu Tiếng Việt**

In [11]:
# Load pre-trained PhoBERT tokenizer and model
tokenizer = AutoTokenizer.from_pretrained('vinai/phobert-base')
model = AutoModel.from_pretrained('vinai/phobert-base')





config.json:   0%|          | 0.00/557 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/895k [00:00<?, ?B/s]

bpe.codes:   0%|          | 0.00/1.14M [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/3.13M [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/543M [00:00<?, ?B/s]

In [12]:
# Encode sentences to get their embeddings
def encode_sentence(sentence):
    tokens = tokenizer(sentence, return_tensors='pt')
    with torch.no_grad():
        outputs = model(**tokens)
    # Use the embeddings of the [CLS] token as the sentence embedding
    sentence_embedding = outputs.last_hidden_state[:, 0, :].squeeze()
    return sentence_embedding



In [13]:
# Define two Vietnamese sentences
sentence1 = "Có một con mèo nhỏ đang nằm bên kia đường."
sentence2 = "Một con mèo nhỏ đang đang nằm phơi nắng ở bên kia đường."

# Get the embeddings for the sentences
embedding1 = encode_sentence(sentence1)
embedding2 = encode_sentence(sentence2)

# Calculate cosine similarity between the embeddings
similarity = 1 - cosine(embedding1, embedding2)

print(f"Cosine similarity between the sentences: {similarity:.4f}")

Cosine similarity between the sentences: 0.9381
