In [None]:
import numpy as np

# Dữ liệu huấn luyện mẫu
training_data = [
    (["I", "love"], "coding"),
    (["love", "coding"], "is"),
    (["coding", "is"], "fun"),
    (["is", "fun"], "and"),
    (["fun", "and"], "challenging")
]

# Tạo từ điển và mã hóa từ thành word vector
words = []
for context, target in training_data:
    words.extend(context)
    words.append(target)

word2idx = {word: idx for idx, word in enumerate(set(words))}
idx2word = {idx: word for word, idx in word2idx.items()}

# Tham số cho mô hình gồm learning rate và không gian vector
vocab_size = len(word2idx)
embedding_dim = 10
learning_rate = 0.1

# Khởi tạo ma trận trọng số ngẫu nhiên để demo
W_input = np.random.randn(vocab_size, embedding_dim)
W_output = np.random.randn(embedding_dim, vocab_size)

# Hàm chuyển đổi từ văn bản thành vector one-hot
def one_hot_encode(word_idx, vocab_size):
    one_hot = np.zeros(vocab_size)
    one_hot[word_idx] = 1
    return one_hot


# Hàm train Cbow ưng với fasttext

In [None]:
# Hàm huấn luyện mô hình CBOW
def train_cbow(context, target):
    global W_input, W_output
    # Chuyển đổi context và target thành vector one-hot
    context_vector = np.mean([one_hot_encode(word2idx[word], vocab_size) for word in context], axis=0)
    target_vector = one_hot_encode(word2idx[target], vocab_size)

    # Tính đầu ra dự đoán
    hidden_layer = np.dot(context_vector, W_input)
    output_layer = np.dot(hidden_layer, W_output)
    predicted = np.exp(output_layer) / np.sum(np.exp(output_layer))

    # Tính gradient và cập nhật trọng số
    gradient = predicted - target_vector
    dW_output = np.outer(hidden_layer, gradient)
    dW_input = np.outer(context_vector, np.dot(W_output, gradient))

    # Cập nhật trọng số
    W_output -= learning_rate * dW_output
    W_input -= learning_rate * dW_input


In [None]:
# Huấn luyện mô hình
num_epochs = 100
for epoch in range(num_epochs):
    for context, target in training_data:
        train_cbow(context, target)

# In ra kết quả
for word in word2idx:
    word_idx = word2idx[word]
    word_vector = np.dot(one_hot_encode(word_idx, vocab_size), W_input)
    print(f"Word: {word}, Vector: {word_vector}")


Word: and, Vector: [-0.04004567 -1.17099908  0.27317648 -0.85011669 -1.62483053  0.48287221
 -0.53548596  0.69357443  1.49998234 -2.02441084]
Word: coding, Vector: [-1.75968492 -0.44752496  0.56443564 -0.49801756  0.15498839  2.13988571
  0.57807697  0.63989212 -0.03181936 -1.01428499]
Word: love, Vector: [-0.51892431 -0.82679811 -0.58735647  0.23023569  0.64312552  0.27054885
  1.3402376  -0.924834   -2.78911646  0.07557913]
Word: is, Vector: [ 1.16436806  0.14963225  1.39414541  0.93207058  0.78388207 -1.48084629
  0.58438763  2.60277318 -0.35126285 -1.46996809]
Word: fun, Vector: [ 1.17122896  0.63730952 -1.06736606  0.18324736 -0.06246546  0.35804694
 -1.89564189 -0.21237889  0.6544489  -0.73507046]
Word: I, Vector: [ 1.57141569 -0.73500389  0.03440776 -2.15372293 -0.01761671  0.6877712
 -1.51168445 -1.88044628  0.87565665 -0.13224882]
Word: challenging, Vector: [-1.26734704 -0.22559529 -1.87683319 -1.41133272  0.5708763  -0.12543851
  0.51230363  0.31728848  0.6779539  -0.40778054

In [None]:
nkckdfiwek dmckdmckadnlcdjfldklfnklwnemfklnlwdkmnfklwfnwefklfnl2  knmefklwgnfeklngfklneklfnklrnfklenfklwenfjlefnqfklnlnefklfnwklvnklengvklnvklnefjlwfgnklngklgegrjjkefnvjk nnffn