#  문장 내의 단어들을 임베딩
- keras.layers.Embedding 레이어 사용

In [1]:
import numpy as np
import tensorflow as tf
from tensorflow.keras.layers import Embedding

# 샘플 데이터: 간단한 문장들의 모음
sentences = [
    "I love machine learning",
    "I love coding in Python",
    "Deep learning is fun"
]

In [2]:
# 각 문장을 단어로 분할하고, 각 단어에 대한 고유한 인덱스를 생성
word_index = {}

for sentence in sentences:
    for word in sentence.split():
        if word not in word_index:
            word_index[word] = len(word_index) + 1
            
word_index

{'I': 1,
 'love': 2,
 'machine': 3,
 'learning': 4,
 'coding': 5,
 'in': 6,
 'Python': 7,
 'Deep': 8,
 'is': 9,
 'fun': 10}

In [3]:
# 문장들을 단어 인덱스의 시퀀스로 변환
sequences = [[word_index[word] for word in sentence.split()] for sentence in sentences]
sequences

[[1, 2, 3, 4], [1, 2, 5, 6, 7], [8, 4, 9, 10]]

In [4]:
# 문장들 중 가장 긴 것의 길이를 구함
max_length = max([len(seq) for seq in sequences])

# 모든 문장을 가장 긴 문장의 길이로 패딩
padded_sequences = tf.keras.preprocessing.sequence.pad_sequences(sequences, maxlen=max_length, padding='post')
padded_sequences

array([[ 1,  2,  3,  4,  0],
       [ 1,  2,  5,  6,  7],
       [ 8,  4,  9, 10,  0]])

In [5]:
# Embedding 레이어 생성
embedding_dim = 8
embedding_layer = Embedding(input_dim=len(word_index) + 1, output_dim=embedding_dim, input_length=max_length)

# 패딩된 시퀀스를 Embedding 레이어에 통과시켜 임베딩된 결과를 얻음
embedded_sequences = embedding_layer(padded_sequences)

print(embedded_sequences.shape)
print(embedded_sequences)

(3, 5, 8)
tf.Tensor(
[[[ 0.01368174 -0.0356164  -0.02881208 -0.01427417 -0.03057817
   -0.0206026   0.02760801  0.02742617]
  [-0.04200258 -0.04269272  0.04910413 -0.00497714 -0.04756329
   -0.03906438 -0.03248918 -0.04005836]
  [ 0.00243111 -0.02273962  0.03214293 -0.01534401  0.03740786
    0.04302052 -0.01578072  0.03429708]
  [-0.03293426  0.04322648 -0.02716683 -0.02987909  0.03521569
    0.02474227 -0.00047398  0.04210695]
  [ 0.04034617  0.04692492 -0.03934901 -0.00058575  0.04832819
    0.04974646  0.02799879 -0.03931914]]

 [[ 0.01368174 -0.0356164  -0.02881208 -0.01427417 -0.03057817
   -0.0206026   0.02760801  0.02742617]
  [-0.04200258 -0.04269272  0.04910413 -0.00497714 -0.04756329
   -0.03906438 -0.03248918 -0.04005836]
  [-0.0320858  -0.02305867 -0.04140533  0.03518803  0.04581023
   -0.00963002 -0.04139185  0.0183456 ]
  [-0.00585062 -0.00154204 -0.04883883 -0.03019129  0.01395775
    0.02002696 -0.01382948  0.03004364]
  [-0.02570194 -0.01538854 -0.02589856  0.03798615

In [6]:
# Embedding 레이어의 가중치 (단어 임베딩 행렬) 출력
embeddings = embedding_layer.get_weights()[0]
print("Embedding Layer Shape :", embeddings.shape)
print("Embedding Layer Weights (Word Embeddings):\n", embeddings)
print()

# 예: 'love'라는 단어의 임베딩 벡터를 출력
print("\nEmbedding for 'love':\n", embeddings[word_index['love']])

Embedding Layer Shape : (11, 8)
Embedding Layer Weights (Word Embeddings):
 [[ 0.04034617  0.04692492 -0.03934901 -0.00058575  0.04832819  0.04974646
   0.02799879 -0.03931914]
 [ 0.01368174 -0.0356164  -0.02881208 -0.01427417 -0.03057817 -0.0206026
   0.02760801  0.02742617]
 [-0.04200258 -0.04269272  0.04910413 -0.00497714 -0.04756329 -0.03906438
  -0.03248918 -0.04005836]
 [ 0.00243111 -0.02273962  0.03214293 -0.01534401  0.03740786  0.04302052
  -0.01578072  0.03429708]
 [-0.03293426  0.04322648 -0.02716683 -0.02987909  0.03521569  0.02474227
  -0.00047398  0.04210695]
 [-0.0320858  -0.02305867 -0.04140533  0.03518803  0.04581023 -0.00963002
  -0.04139185  0.0183456 ]
 [-0.00585062 -0.00154204 -0.04883883 -0.03019129  0.01395775  0.02002696
  -0.01382948  0.03004364]
 [-0.02570194 -0.01538854 -0.02589856  0.03798615 -0.0246743  -0.03708439
  -0.0069873   0.02924078]
 [-0.02032819 -0.01563553 -0.04126652  0.03109742 -0.00124601  0.00136211
  -0.03133706 -0.01141561]
 [-0.02023069  0

0은 보통 패딩을 나타내는 인덱스로 사용됩니다. 결과적으로, Embedding 레이어의 가중치 행렬의 크기는 (고유한 단어 수 + 1, 임베딩 벡터의 차원수)가 되므로, (11, 8)이 됩니다.

### 위에서 만들어진 Embedding Layer 는 현재 초기값으로 채워져 있는 상태이고 Large Language Model의 학습 과정에서 최적의 값으로 update 되는 과정을 거치게 됩니다.