<a href="https://colab.research.google.com/github/juhumkwon/Defense_Cloud/blob/main/9_0_0_wordembedding_example.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:

import tensorflow as tf
import numpy as np
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences

# 1️⃣ 샘플 텍스트 데이터
text = "I love NLP!"

# 2️⃣ BPE가 없으므로 간단한 Tokenizer 사용 (GPT는 실제로 BPE 사용)
tokenizer = Tokenizer(num_words=50000, oov_token="<OOV>")
tokenizer.fit_on_texts([text])

# 3️⃣ 정수 ID 변환
sequence = tokenizer.texts_to_sequences([text])
token_ids = sequence[0]  # 리스트에서 정수 ID 추출

print("📌 토큰 ID:", token_ids)  # 예: [2, 3, 4] (실제 ID는 다를 수 있음)

# 4️⃣ 정수 ID → 임베딩 벡터 변환
embedding_dim = 768  # GPT-2의 기본 임베딩 차원 (예제에서는 작게 설정 가능)
vocab_size = 50000

# 임베딩 레이어 정의 (랜덤 초기화)
embedding_layer = tf.keras.layers.Embedding(input_dim=vocab_size, output_dim=embedding_dim)

# 정수 ID를 텐서로 변환 후 임베딩 적용
token_tensor = tf.convert_to_tensor([token_ids])  # 입력을 2D로 변환
embedded_output = embedding_layer(token_tensor)

print("📌 임베딩 벡터 형태:", embedded_output.shape)  # (1, 단어 개수, 768)

# 5️⃣ 임베딩 벡터 출력
print("📌 첫 번째 토큰, 첫 번째 임베딩 벡터 차원:", embedded_output.numpy()[0][0][1])  # 768차원 벡터의 두 번째 차원  출력
print("📌 첫 번째 토큰의 임베딩 벡터:", embedded_output.numpy()[0][0])  # 첫 번째 단어의 768차원 벡터 출력


📌 토큰 ID: [2, 3, 4]
📌 임베딩 벡터 형태: (1, 3, 768)
📌 첫 번째 토큰, 첫 번째 임베딩 벡터 차원: -0.0045470707
📌 첫 번째 토큰의 임베딩 벡터: [ 5.14953211e-03 -4.54707071e-03  3.77907604e-03  9.01170820e-03
 -1.71578415e-02  2.34904774e-02  4.78288271e-02  3.30782048e-02
  4.89047505e-02  2.70203501e-03 -7.33627006e-03 -4.39905412e-02
  6.83198124e-03 -2.85255071e-02  4.45244648e-02  1.06550232e-02
  9.85030085e-03 -1.91541556e-02  2.22665109e-02  4.34255339e-02
  2.47049220e-02 -5.39578125e-03 -4.49496284e-02 -2.22632419e-02
 -1.94311384e-02  1.57830603e-02 -3.01248431e-02 -4.42464948e-02
 -2.28774436e-02  3.61737348e-02  1.90042369e-02  2.37831511e-02
  4.37074341e-02 -4.15809378e-02 -1.12951621e-02  2.40671150e-02
  6.12694025e-03  8.86043161e-03  2.71971859e-02  1.60005353e-02
  3.68863344e-03 -1.18850544e-03 -3.86309996e-02  6.00299984e-03
 -3.56259830e-02 -2.09610220e-02 -4.90416549e-02  2.33462341e-02
  3.83483209e-02 -2.83857584e-02  4.71940972e-02 -3.00048944e-02
 -1.53176859e-03  3.48394774e-02 -1.74270943e-03  4