#  문장 내의 단어들을 임베딩
- keras.layers.Embedding 레이어 사용

In [1]:
import numpy as np
import tensorflow as tf
from tensorflow.keras.layers import Embedding

# 샘플 데이터: 간단한 문장들의 모음
sentences = [
    "I love machine learning",
    "I love coding in Python",
    "Deep learning is fun"
]

In [2]:
# 각 문장을 단어로 나눈 뒤, 단어마다 고유한 인덱스를 부여하는 딕셔너리 생성
word_index = {}  # 단어 → 인덱스 매핑 저장용 딕셔너리

for sentence in sentences:
    for word in sentence.split():         # 문장을 공백 기준으로 단어로 분리
        if word not in word_index:        # 아직 등록되지 않은 단어라면
            word_index[word] = len(word_index) + 1  # 인덱스를 1부터 시작하여 부여

In [3]:
# 문장들을 단어 인덱스의 시퀀스로 변환
sequences = [[word_index[word] for word in sentence.split()] for sentence in sentences]
sequences

[[1, 2, 3, 4], [1, 2, 5, 6, 7], [8, 4, 9, 10]]

In [4]:
# 문장들 중 가장 긴 것의 길이를 구함
max_length = max([len(seq) for seq in sequences])

# 모든 문장을 가장 긴 문장의 길이로 패딩
padded_sequences = tf.keras.preprocessing.sequence.pad_sequences(sequences, maxlen=max_length, padding='post')
padded_sequences

array([[ 1,  2,  3,  4,  0],
       [ 1,  2,  5,  6,  7],
       [ 8,  4,  9, 10,  0]], dtype=int32)

In [6]:
# Embedding 레이어 생성
embedding_dim = 8
embedding_layer = Embedding(input_dim=len(word_index) + 1, output_dim=embedding_dim)

# 패딩된 시퀀스를 Embedding 레이어에 통과시켜 임베딩된 결과를 얻음
embedded_sequences = embedding_layer(padded_sequences)

print(embedded_sequences.shape)
print(embedded_sequences)

(3, 5, 8)
tf.Tensor(
[[[-0.00509546  0.04646177 -0.02626221  0.01624841 -0.01500708
    0.01860347 -0.0124591  -0.02415131]
  [ 0.02978278 -0.04111455 -0.01059643  0.04843226 -0.04749428
   -0.02418653  0.02850774  0.02997005]
  [ 0.02359163 -0.0089142  -0.01920922  0.01185763  0.02464202
   -0.03173651 -0.00041224 -0.01444827]
  [ 0.04632372 -0.0354616   0.02728802  0.01915692 -0.01694743
   -0.00975879  0.00091573  0.03785068]
  [-0.03651553  0.00096764 -0.03580167 -0.00533813 -0.0106707
    0.00589209  0.04372511 -0.00064055]]

 [[-0.00509546  0.04646177 -0.02626221  0.01624841 -0.01500708
    0.01860347 -0.0124591  -0.02415131]
  [ 0.02978278 -0.04111455 -0.01059643  0.04843226 -0.04749428
   -0.02418653  0.02850774  0.02997005]
  [ 0.04683686  0.00761987  0.02347115 -0.01368897 -0.03138246
    0.01635248 -0.02181448 -0.01266793]
  [-0.00163343 -0.02263997  0.00585099  0.00328941 -0.0460024
   -0.03340133 -0.02448174 -0.0206647 ]
  [ 0.02503947  0.03814009  0.0290934  -0.03859266  

In [7]:
# Embedding 레이어의 가중치 (단어 임베딩 행렬) 출력
embeddings = embedding_layer.get_weights()[0]
print("Embedding Layer Shape :", embeddings.shape)
print("Embedding Layer Weights (Word Embeddings):\n", embeddings)
print()

# 예: 'love'라는 단어의 임베딩 벡터를 출력
print("\nEmbedding for 'love':\n", embeddings[word_index['love']])

Embedding Layer Shape : (11, 8)
Embedding Layer Weights (Word Embeddings):
 [[-0.03651553  0.00096764 -0.03580167 -0.00533813 -0.0106707   0.00589209
   0.04372511 -0.00064055]
 [-0.00509546  0.04646177 -0.02626221  0.01624841 -0.01500708  0.01860347
  -0.0124591  -0.02415131]
 [ 0.02978278 -0.04111455 -0.01059643  0.04843226 -0.04749428 -0.02418653
   0.02850774  0.02997005]
 [ 0.02359163 -0.0089142  -0.01920922  0.01185763  0.02464202 -0.03173651
  -0.00041224 -0.01444827]
 [ 0.04632372 -0.0354616   0.02728802  0.01915692 -0.01694743 -0.00975879
   0.00091573  0.03785068]
 [ 0.04683686  0.00761987  0.02347115 -0.01368897 -0.03138246  0.01635248
  -0.02181448 -0.01266793]
 [-0.00163343 -0.02263997  0.00585099  0.00328941 -0.0460024  -0.03340133
  -0.02448174 -0.0206647 ]
 [ 0.02503947  0.03814009  0.0290934  -0.03859266  0.02948246 -0.03472267
   0.02299044 -0.04103234]
 [ 0.03375027 -0.04083429  0.04444989  0.03500061 -0.00420742 -0.01065675
  -0.00958491 -0.047435  ]
 [-0.04326652 -

0은 보통 패딩을 나타내는 인덱스로 사용됩니다. 결과적으로, Embedding 레이어의 가중치 행렬의 크기는 (고유한 단어 수 + 1, 임베딩 벡터의 차원수)가 되므로, (11, 8)이 됩니다.