<a href="https://colab.research.google.com/github/juhumkwon/Defense_Cloud/blob/main/WordEmbedding_example.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:

import tensorflow as tf
import numpy as np
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences

# 1️⃣ 샘플 텍스트 데이터
text = "I love NLP!"

# 2️⃣ BPE가 없으므로 간단한 Tokenizer 사용 (GPT는 실제로 BPE 사용)
tokenizer = Tokenizer(num_words=50000, oov_token="<OOV>")
tokenizer.fit_on_texts([text])

# 3️⃣ 정수 ID 변환
sequence = tokenizer.texts_to_sequences([text])
token_ids = sequence[0]  # 리스트에서 정수 ID 추출

print("📌 토큰 ID:", token_ids)  # 예: [2, 3, 4] (실제 ID는 다를 수 있음)

# 4️⃣ 정수 ID → 임베딩 벡터 변환
embedding_dim = 768  # GPT-2의 기본 임베딩 차원 (예제에서는 작게 설정 가능)
vocab_size = 50000

# 임베딩 레이어 정의 (랜덤 초기화)
embedding_layer = tf.keras.layers.Embedding(input_dim=vocab_size, output_dim=embedding_dim)

# 정수 ID를 텐서로 변환 후 임베딩 적용
token_tensor = tf.convert_to_tensor([token_ids])  # 입력을 2D로 변환
embedded_output = embedding_layer(token_tensor)

print("📌 임베딩 벡터 형태:", embedded_output.shape)  # (1, 단어 개수, 768)

# 5️⃣ 임베딩 벡터 출력
print("📌 첫 번째 토큰의 임베딩 벡터:", embedded_output.numpy()[0][0])  # 첫 번째 단어의 768차원 벡터 출력

📌 토큰 ID: [2, 3, 4]
📌 임베딩 벡터 형태: (1, 3, 768)
📌 첫 번째 토큰의 임베딩 벡터: [-4.87538092e-02 -1.74946412e-02  1.56217329e-02  1.03889108e-02
  3.62887233e-03  3.42095532e-02  4.53695543e-02  4.14051674e-02
 -3.97493131e-02 -2.44707987e-03  2.29574479e-02  1.11066103e-02
 -3.47590446e-03  4.86867763e-02 -2.88847219e-02 -3.98107655e-02
 -4.83014584e-02 -1.53305307e-02 -2.97239181e-02  3.19252945e-02
 -1.55222043e-02  4.53814007e-02 -1.34649165e-02  4.85778973e-03
 -4.25440930e-02 -1.63721442e-02 -2.60011442e-02 -1.98155884e-02
  3.63686942e-02  1.61918290e-02 -2.24090703e-02  3.66251953e-02
  2.39848830e-02 -4.51063998e-02  4.14271392e-02 -4.17046919e-02
 -3.80268693e-02  4.48674671e-02  4.50960509e-02 -4.48871255e-02
 -4.84515317e-02  3.93331386e-02  3.70798595e-02  3.11802290e-02
 -4.73166630e-03  3.17317732e-02  9.08406824e-03 -4.73183878e-02
 -9.77109745e-03  2.24393271e-02  2.59741805e-02  3.46246250e-02
  4.49688546e-02  3.65334637e-02 -3.21664587e-02  1.43516324e-02
  3.86577509e-02  1.5366111