In [8]:
from tokenizers import Tokenizer
from tokenizers.models import BPE
from tokenizers.trainers import BpeTrainer
from tokenizers.pre_tokenizers import Whitespace

# 1. BPE 모델 정의
tokenizer = Tokenizer(BPE())

# 2. Pre-tokenizer 설정 (단어 단위로 먼저 자름)
tokenizer.pre_tokenizer = Whitespace()

# 3. 학습 데이터 준비
files = ["your_text_corpus.txt"]  # txt 파일 경로

# 4. Trainer 설정
trainer = BpeTrainer(vocab_size=3000, special_tokens=["[PAD]", "[UNK]", "[CLS]", "[SEP]", "[MASK]"])

# 5. 학습 실행
tokenizer.train(files, trainer)

# 6. 저장
tokenizer.save("bpe_tokenizer.json")


In [10]:
tokenizer = Tokenizer.from_file("bpe_tokenizer.json")
output = tokenizer.encode("이 문서에서는 제안 활성화를 위한 3S의 이해와 실천을 주제로 설명하과 있습니다.")
print(output.tokens)


['이', '문서에서는', '제안', '활', '성', '화를', '위한', '3', 'S', '의', '이해', '와', '실천', '을', '주제로', '설명', '하', '과', '있습니다', '.']


In [15]:
from tokenizers import Tokenizer
from tokenizers.models import WordPiece
from tokenizers.trainers import WordPieceTrainer
from tokenizers.pre_tokenizers import Whitespace

# 1. WordPiece 모델 정의
tokenizer = Tokenizer(WordPiece())

# 2. Pre-tokenizer 설정 (단어 단위로 먼저 자름)
tokenizer.pre_tokenizer = Whitespace()

# 3. 학습 데이터 준비
files = ["your_text_corpus.txt"]  # txt 파일 경로

# 4. Trainer 설정
trainer = WordPieceTrainer(vocab_size=9000, special_tokens=["[PAD]", "[UNK]", "[CLS]", "[SEP]", "[MASK]"])

# 5. 학습 실행
tokenizer.train(files, trainer)

# 6. 저장
tokenizer.save("wordpiece_tokenizer.json")


In [16]:
tokenizer = Tokenizer.from_file("wordpiece_tokenizer.json")
output = tokenizer.encode("이 문서에서는 제안 활성화를 위한 3S의 이해와 실천을 주제로 설명하과 있습니다.")
print(output.tokens)


['이', '문서에서는', '제안', '활성화', '##를', '위한', '3S', '##의', '이해', '##와', '실천', '##을', '주제로', '설명', '##하', '##과', '있습니다', '.']


In [17]:
import torch
import torch.nn as nn
from tokenizers import Tokenizer

# 저장된 토크나이저 불러오기
tokenizer = Tokenizer.from_file("wordpiece_tokenizer.json")

# 샘플 문장 토큰화
text = "이 문서에서는 제안 활성화를 위한 3S의 이해와 실천을 주제로 설명하과 있습니다."
encoded = tokenizer.encode(text)

# 토큰을 인덱스로 변환
token_ids = encoded.ids

# 임베딩 레이어 정의 (vocab_size: 어휘 크기, embedding_dim: 임베딩 차원)
vocab_size = tokenizer.get_vocab_size()
embedding_dim = 128
embedding_layer = nn.Embedding(vocab_size, embedding_dim)

# 인덱스를 텐서로 변환하고 임베딩 레이어 통과
tokens_tensor = torch.tensor([token_ids])
embeddings = embedding_layer(tokens_tensor)

print(f"토큰 수: {len(token_ids)}")
print(f"임베딩 형태: {embeddings.shape}")  # [1, 토큰 수, 임베딩 차원]

토큰 수: 18
임베딩 형태: torch.Size([1, 18, 128])


In [18]:
embeddings

tensor([[[ 0.0210, -1.9520, -0.2106,  ...,  0.5034,  0.2012,  1.4866],
         [ 0.9422,  0.5770, -1.0747,  ...,  0.0326,  0.9310, -1.1802],
         [ 0.0521,  0.6893,  2.2893,  ..., -0.0441, -0.0164, -0.7180],
         ...,
         [-1.1106, -0.8434,  0.6765,  ...,  0.5730, -0.9798,  0.6739],
         [ 0.4097, -0.0294,  0.6022,  ..., -0.2367,  1.1240,  1.6501],
         [ 0.3982, -0.1335,  0.5234,  ...,  0.0027,  1.1135, -0.0317]]],
       grad_fn=<EmbeddingBackward0>)

In [19]:
embedding_layer

Embedding(9000, 128)