#  문장 내의 단어들을 임베딩
- keras.layers.Embedding 레이어 사용

In [13]:
import numpy as np
import tensorflow as tf
from tensorflow.keras.layers import Embedding

# 샘플 데이터: 간단한 문장들의 모음
sentences = [
    "I love machine learning",
    "I love coding in Python",
    "Deep learning is fun"
]


In [14]:
# 각 문장을 단어로 분할하고, 각 단어에 대한 고유한 인덱스를 생성
word_index = {}

for sentence in sentences:
    for word in sentence.split():
        if word not in word_index:
            word_index[word] = len(word_index) + 1
            
word_index

{'I': 1,
 'love': 2,
 'machine': 3,
 'learning': 4,
 'coding': 5,
 'in': 6,
 'Python': 7,
 'Deep': 8,
 'is': 9,
 'fun': 10}

In [15]:
# 문장들을 단어 별로 쪼개서 확인
sequences = [[word for word in sentence.split()] for sentence in sentences]
sequences

[['I', 'love', 'machine', 'learning'],
 ['I', 'love', 'coding', 'in', 'Python'],
 ['Deep', 'learning', 'is', 'fun']]

In [16]:
# 문장들을 단어 인덱스의 시퀀스로 변환
sequences = [[word_index[word] for word in sentence.split()] for sentence in sentences]
sequences

[[1, 2, 3, 4], [1, 2, 5, 6, 7], [8, 4, 9, 10]]

In [17]:
# 문장들 중 가장 긴 것의 길이를 구함
max_length = max([len(seq) for seq in sequences])

# 모든 문장을 가장 긴 문장의 길이로 패딩
padded_sequences = tf.keras.preprocessing.sequence.pad_sequences(sequences, maxlen=max_length, padding='post')
padded_sequences

array([[ 1,  2,  3,  4,  0],
       [ 1,  2,  5,  6,  7],
       [ 8,  4,  9, 10,  0]])

In [18]:
# Embedding 레이어 생성
embedding_dim = 8 #단어에 부여하는 특성의 수. 특성의 라벨은 우리가 정하는게 아니라서 개별 특성이 뭔지 모른다. 그래서 블랙박스 모델이다.
embedding_layer = Embedding(input_dim=len(word_index) + 1, output_dim=embedding_dim, input_length=max_length)

# 패딩된 시퀀스를 Embedding 레이어에 통과시켜 임베딩된 결과를 얻음
embedded_sequences = embedding_layer(padded_sequences)

print(embedded_sequences.shape)
print(embedded_sequences)

(3, 5, 8)
tf.Tensor(
[[[ 0.03909704 -0.01060718  0.04862044  0.03201996  0.02909395
   -0.00947579 -0.02956091 -0.03168044]
  [-0.013817   -0.00240855  0.00238355 -0.04222057  0.01026149
    0.0435562   0.0378672  -0.03447417]
  [ 0.03585944  0.00039071 -0.04533761 -0.00523996 -0.04810028
    0.02324573  0.03456834 -0.01094872]
  [ 0.01764271  0.04724101  0.01234831  0.0374014  -0.02788237
   -0.04083592 -0.03945457 -0.02182654]
  [ 0.04623378 -0.03750336  0.04909052 -0.03081771  0.01201757
   -0.02501727 -0.01514336 -0.01846459]]

 [[ 0.03909704 -0.01060718  0.04862044  0.03201996  0.02909395
   -0.00947579 -0.02956091 -0.03168044]
  [-0.013817   -0.00240855  0.00238355 -0.04222057  0.01026149
    0.0435562   0.0378672  -0.03447417]
  [-0.0302022  -0.01080042  0.02130855 -0.0451139   0.04262223
    0.03640341 -0.02059165 -0.02824067]
  [ 0.00986376  0.0304972  -0.00660665 -0.04106548 -0.04125528
    0.03942207 -0.04930611  0.04627163]
  [-0.00892039 -0.00493193  0.03103844 -0.03783051

In [24]:
import tensorflow as tf
from tensorflow.keras.layers import Dense


model = tf.keras.Sequential()  # Note the 'keras' module is part of TensorFlow
model.add(Embedding(input_dim=len(word_index) + 1, output_dim=embedding_dim))  # You need to specify the input_dim and output_dim
model.add(Dense(50))

In [15]:
# Embedding 레이어의 가중치 (단어 임베딩 행렬) 출력
embeddings = embedding_layer.get_weights()[0]
print("Embedding Layer Shape :", embeddings.shape)
print("Embedding Layer Weights (Word Embeddings):\n", embeddings)
print()

# 예: 'love'라는 단어의 임베딩 벡터를 출력
print("\nEmbedding for 'love':\n", embeddings[word_index['love']])

Embedding Layer Shape : (11, 8)
Embedding Layer Weights (Word Embeddings):
 [[-0.02520714  0.03637946 -0.04417964  0.01727331 -0.02484065 -0.03742831
   0.04018419 -0.01577323]
 [ 0.01964789  0.04982078 -0.00259792  0.01207108  0.00501344 -0.03558845
   0.01545152  0.01110258]
 [ 0.03608132 -0.02834145  0.01184057  0.03801778 -0.03405376 -0.03874751
   0.02867026 -0.03788869]
 [-0.02202942  0.03358087  0.0335927   0.03488762  0.00454522  0.04015798
   0.03426404 -0.01249205]
 [ 0.03454043  0.02845288  0.03782107 -0.04364526  0.03439027 -0.00610853
  -0.02683942 -0.01086602]
 [-0.03343445 -0.00361217 -0.01967759 -0.00299609 -0.03495841  0.02485074
  -0.01322914 -0.02464907]
 [ 0.00668986  0.00375447  0.02734328  0.00965524  0.00485077 -0.02006277
  -0.04011371 -0.00481031]
 [ 0.03586033 -0.03422767  0.04377914  0.02209132  0.00246817  0.04877276
   0.02276179  0.00087597]
 [-0.01222767  0.04570584 -0.01642164 -0.03781677 -0.00629463 -0.01897699
   0.01359895 -0.03158937]
 [ 0.04962182 -

0은 보통 패딩을 나타내는 인덱스로 사용됩니다. 결과적으로, Embedding 레이어의 가중치 행렬의 크기는 (고유한 단어 수 + 1, 임베딩 벡터의 차원수)가 되므로, (11, 8)이 됩니다.