In [2]:
import numpy as np
from tensorflow.keras.layers import Dense, Input
from tensorflow.keras.models import Model, Sequential
from tensorflow.keras.optimizers import Adam

from scipy.sparse import coo_matrix

# Tạo ma trận đồng xuất hiện (co-occurrence matrix)
# row: chỉ số hàng của các phần tử khác 0
# col: chỉ số cột của các phần tử khác 0
# data: giá trị của các phần tử tương ứng
row = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 11, 12, 13]
col = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 12, 13, 14]
data = [2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]

X = coo_matrix((data, (row, col)), shape=(15, 15)).toarray()
X

array([[0, 2, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]])

In [3]:
# Hàm tạo mô hình Autoencoder
def autoencoder(input_unit, hidden_unit):
    model = Sequential()
    
    # Lớp input: kích thước bằng với đầu vào (15 chiều)
    model.add(Dense(input_unit, input_shape=(15,), activation='relu'))
    
    # Lớp ẩn (hidden layer) - tạo embedding có kích thước nhỏ hơn (6 chiều)
    # Đây chính là lớp tạo word embedding
    model.add(Dense(hidden_unit, activation='relu'))
    
    # Lớp output: tái tạo lại đầu vào ban đầu
    model.add(Dense(input_unit, activation='sigmoid'))  
    
    model.compile(loss='mse',
                 optimizer=Adam(), 
                 metrics=['accuracy'])
    model.summary()
    return model

# Khởi tạo mô hình Autoencoder
# input_unit = 15 (bằng kích thước đầu vào)
# hidden_unit = 6 (kích thước embedding mong muốn)
model_auto = autoencoder(input_unit=15, hidden_unit=6)

# Huấn luyện mô hình
model_auto.fit(X, X, epochs=5, batch_size=3)

Epoch 1/5
[1m5/5[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 6ms/step - accuracy: 0.0000e+00 - loss: 0.2676  
Epoch 2/5
[1m5/5[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 5ms/step - accuracy: 0.0000e+00 - loss: 0.2661 
Epoch 3/5
[1m5/5[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 5ms/step - accuracy: 0.0000e+00 - loss: 0.2547 
Epoch 4/5
[1m5/5[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 5ms/step - accuracy: 0.0000e+00 - loss: 0.2631 
Epoch 5/5
[1m5/5[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 5ms/step - accuracy: 0.0000e+00 - loss: 0.2541 


<keras.src.callbacks.history.History at 0x1d1ffde77d0>

In [4]:
# Trích xuất ma trận embedding từ lớp ẩn
# layers[2] là lớp ẩn (hidden layer) của mô hình
# get_weights()[0] trả về ma trận trọng số
# get_weights()[1] trả về vector bias
embedding_matrix = model_auto.layers[2].get_weights()[0]
bias = model_auto.layers[2].get_weights()[1]

# In thông tin về embedding
print('Shape of embedding_matrix: ', embedding_matrix.shape)  # Kích thước ma trận embedding
print('Embedding_matrix: \n', embedding_matrix)  # Giá trị ma trận embedding

Shape of embedding_matrix:  (6, 15)
Embedding_matrix: 
 [[ 0.26606268 -0.05939185  0.417448   -0.49561465  0.522936   -0.49780843
  -0.34074438 -0.1589093  -0.1253815   0.14391924  0.24867779  0.34773755
  -0.4886671   0.43926996  0.05610508]
 [ 0.01805142 -0.50249124 -0.15887901  0.43594384 -0.2992873   0.02079235
  -0.08676339 -0.24530576 -0.44111902 -0.38712218  0.5143368   0.47234428
  -0.39379957  0.4437256   0.24913244]
 [-0.14407805  0.42740825  0.21315618  0.26791802 -0.13732874  0.20068578
   0.28815573 -0.5036923  -0.30014196 -0.21529023  0.40685132  0.26451778
  -0.3126539   0.40364522  0.09060521]
 [ 0.40915203  0.2564175   0.2551486   0.02715546 -0.50083315  0.45905298
  -0.30313003 -0.47680372 -0.13647062  0.5146758  -0.06033015 -0.11022177
   0.10379958 -0.39871758 -0.24932301]
 [-0.23027988  0.14932345  0.25599253 -0.34440503 -0.21826978 -0.4523121
   0.14548795  0.23905258 -0.21296768  0.3856749   0.33723602 -0.39196268
  -0.40952748 -0.45695445  0.1534595 ]
 [-0.24708