# 1. One hot encoding
- mỗi từ được biểu diễn bằng 1 vecto nhị phân, chỉ có 1 phần tử 1, còn lại là phần từ 0


In [2]:
from sklearn.preprocessing import OneHotEncoder
import numpy as np

# Danh sách các từ
vocab = ["tôi", "ăn", "cơm", "với", "bạn"]

# Chuyển thành mảng 2D
words = np.array(vocab).reshape(-1, 1)

# Khởi tạo bộ mã hóa One-Hot
encoder = OneHotEncoder(sparse_output=False)
one_hot_vectors = encoder.fit_transform(words)

# Hiển thị kết quả
for word, vector in zip(vocab, one_hot_vectors):
    print(f"{word}: {vector}")


tôi: [0. 0. 1. 0. 0.]
ăn: [0. 0. 0. 0. 1.]
cơm: [0. 1. 0. 0. 0.]
với: [0. 0. 0. 1. 0.]
bạn: [1. 0. 0. 0. 0.]


# 2. Bag of words (BoW)
- Chuyển câu thành vecto nhị phân, các từ có trong từ điển sẽ là 1, không có sẽ là 0


In [3]:
from sklearn.feature_extraction.text import CountVectorizer

# Tập dữ liệu văn bản
sentences = ["tôi thích ăn cơm", "tôi ăn cơm với bạn"]

# Khởi tạo BoW
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(sentences)

# Hiển thị kết quả
print("Từ điển:", vectorizer.get_feature_names_out())
print("Ma trận BoW:\n", X.toarray())


Từ điển: ['bạn' 'cơm' 'thích' 'tôi' 'với' 'ăn']
Ma trận BoW:
 [[0 1 1 1 0 1]
 [1 1 0 1 1 1]]


# 3. TF-IDF
- đánh trọng số dựa trên tầm quan trọng của từ.
- công thực : TF-IDF = TF x IDF
1.   TF là tần suất xuất hiện trong câu
2.   IDF giảm trọng số của những từ xuất hiện quá phổ biến trong nhiều tài liệu





In [4]:
from sklearn.feature_extraction.text import TfidfVectorizer

# Tập dữ liệu văn bản
sentences = ["tôi thích ăn cơm", "tôi ăn cơm với bạn"]

# Khởi tạo TF-IDF
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(sentences)

# Hiển thị kết quả
print("Từ điển:", vectorizer.get_feature_names_out())
print("Ma trận TF-IDF:\n", X.toarray())


Từ điển: ['bạn' 'cơm' 'thích' 'tôi' 'với' 'ăn']
Ma trận TF-IDF:
 [[0.         0.44832087 0.63009934 0.44832087 0.         0.44832087]
 [0.53309782 0.37930349 0.         0.37930349 0.53309782 0.37930349]]


# 4. Word2Vec
-

In [1]:
pip install gensim




In [2]:
from gensim.models import Word2Vec

# Tập dữ liệu
sentences = [
    ["tôi", "thích", "ăn", "cơm"],
    ["tôi", "ăn", "cơm", "với", "bạn"]
]

# Huấn luyện Word2Vec (CBOW)
model = Word2Vec(sentences, vector_size=10, window=2, min_count=1, sg=0)

# Hiển thị vector của từ "cơm"
print("Vector của từ 'cơm':\n", model.wv["cơm"])

# Tìm từ gần nhất với "cơm"
print("Từ gần nghĩa với 'cơm':", model.wv.most_similar("cơm"))


Vector của từ 'cơm':
 [-0.00536227  0.00236431  0.0510335   0.09009273 -0.0930295  -0.07116809
  0.06458873  0.08972988 -0.05015428 -0.03763372]
Từ gần nghĩa với 'cơm': [('ăn', 0.5436005592346191), ('tôi', 0.3004249036312103), ('bạn', 0.10494352877140045), ('với', -0.22418655455112457), ('thích', -0.2726020812988281)]


# 5. Cosine similarity
- Cách tính:
Bằng tích vô hướng của 2 vecto / tích độ dài 2 vecto


In [3]:
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np

# Giả sử có hai vector từ mô hình Word2Vec
vector_com = np.array([0.5, 0.2, 0.7])
vector_food = np.array([0.6, 0.3, 0.8])

# Tính cosine similarity
similarity = cosine_similarity([vector_com], [vector_food])

print("Độ tương đồng giữa 'cơm' và 'thức ăn':", similarity[0][0])


Độ tương đồng giữa 'cơm' và 'thức ăn': 0.9977627290194656
