In [None]:
import torch
from transformers import BErtTokenizer, AutoModel

# KoBERT 모델 로드 (SKT에서 제공하는 모델)
model_name = "skt/kobert-base-v1"

# 토크나이저와 모델 로드
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModel.from_pretrained(model_name)

# 모델 정보 출력
print(f"모델 이름: {model_name}")
print(f"모델 파라미터 수: {sum(p.numel() for p in model.parameters())}")
print(f"토크나이저 어휘 크기: {len(tokenizer)}")

# 간단한 텍스트 처리 예제
text = "안녕하세요, KoBERT 모델을 테스트하고 있습니다."

# 토큰화
inputs = tokenizer(text, return_tensors="pt")
print("\n토큰화 결과:")
print(f"입력 ID: {inputs['input_ids']}")
print(f"토큰 타입 ID: {inputs['token_type_ids']}")
print(f"어텐션 마스크: {inputs['attention_mask']}")

# 토큰 ID를 다시 토큰으로 변환
tokens = tokenizer.convert_ids_to_tokens(inputs['input_ids'][0])
print(f"\n토큰 목록: {tokens}")

# 모델 실행 (임베딩 추출)
with torch.no_grad():
    outputs = model(**inputs)

# 출력 확인
last_hidden_states = outputs.last_hidden_state
print(f"\n마지막 은닉 상태 크기: {last_hidden_states.shape}")
print(f"첫 번째 토큰([CLS]) 임베딩 일부: {last_hidden_states[0, 0, :10]}")

ValueError: Converting from Tiktoken failed, if a converter for SentencePiece is available, provide a model path with a SentencePiece tokenizer.model file.Currently available slow->fast convertors: ['AlbertTokenizer', 'BartTokenizer', 'BarthezTokenizer', 'BertTokenizer', 'BigBirdTokenizer', 'BlenderbotTokenizer', 'CamembertTokenizer', 'CLIPTokenizer', 'CodeGenTokenizer', 'ConvBertTokenizer', 'DebertaTokenizer', 'DebertaV2Tokenizer', 'DistilBertTokenizer', 'DPRReaderTokenizer', 'DPRQuestionEncoderTokenizer', 'DPRContextEncoderTokenizer', 'ElectraTokenizer', 'FNetTokenizer', 'FunnelTokenizer', 'GPT2Tokenizer', 'HerbertTokenizer', 'LayoutLMTokenizer', 'LayoutLMv2Tokenizer', 'LayoutLMv3Tokenizer', 'LayoutXLMTokenizer', 'LongformerTokenizer', 'LEDTokenizer', 'LxmertTokenizer', 'MarkupLMTokenizer', 'MBartTokenizer', 'MBart50Tokenizer', 'MPNetTokenizer', 'MobileBertTokenizer', 'MvpTokenizer', 'NllbTokenizer', 'OpenAIGPTTokenizer', 'PegasusTokenizer', 'Qwen2Tokenizer', 'RealmTokenizer', 'ReformerTokenizer', 'RemBertTokenizer', 'RetriBertTokenizer', 'RobertaTokenizer', 'RoFormerTokenizer', 'SeamlessM4TTokenizer', 'SqueezeBertTokenizer', 'T5Tokenizer', 'UdopTokenizer', 'WhisperTokenizer', 'XLMRobertaTokenizer', 'XLNetTokenizer', 'SplinterTokenizer', 'XGLMTokenizer', 'LlamaTokenizer', 'CodeLlamaTokenizer', 'GemmaTokenizer', 'Phi3Tokenizer']

In [7]:
# 필요한 라이브러리 임포트
import torch
from transformers import BertModel
import numpy as np
import matplotlib.pyplot as plt
from kobert_tokenizer import KoBERTTokenizer
tokenizer = KoBERTTokenizer.from_pretrained('skt/kobert-base-v1', sp_model_kwargs={'nbest_size': -1, 'alpha': 0.6, 'enable_sampling': True})

model = BertModel.from_pretrained('skt/kobert-base-v1')
text = "한국어 모델을 공유합니다."
inputs = tokenizer.batch_encode_plus([text])
out = model(input_ids = torch.tensor(inputs['input_ids']),
              attention_mask = torch.tensor(inputs['attention_mask']))

The tokenizer class you load from this checkpoint is not the same type as the class this function is called from. It may result in unexpected tokenization. 
The tokenizer class you load from this checkpoint is 'XLNetTokenizer'. 
The class this function is called from is 'KoBERTTokenizer'.


Error during conversion: ChunkedEncodingError(ProtocolError('Response ended prematurely'))


In [6]:
tokenizer.encode("한국어 모델을 공유합니다.")

[2, 4958, 6855, 2046, 7088, 1050, 7843, 54, 3]

In [5]:
out

BaseModelOutputWithPoolingAndCrossAttentions(last_hidden_state=tensor([[[-0.1554, -0.0150,  0.3673,  ..., -0.0094,  0.1067,  0.0844],
         [ 0.1229, -0.3236, -0.0669,  ..., -0.4487, -0.1753, -0.2302],
         [ 0.1008, -0.3885, -0.1219,  ..., -0.2129, -0.0330, -0.1708],
         ...,
         [-0.0700,  0.1174, -0.1385,  ..., -0.0272,  0.5141, -0.0093],
         [-0.0605, -0.2776,  0.4285,  ..., -0.2879,  0.5493,  0.0797],
         [-0.1537, -0.1819, -0.1994,  ..., -0.2862,  0.0133,  0.0783]]],
       grad_fn=<NativeLayerNormBackward0>), pooler_output=tensor([[-1.5197e-02,  1.2525e-02, -2.0906e-02, -4.9571e-02, -9.7731e-01,
          9.9156e-01, -6.7530e-01,  5.5346e-02,  2.3231e-02,  4.5099e-03,
         -5.1811e-01, -3.6802e-02, -4.0091e-02, -7.1836e-02, -2.3317e-02,
          8.3534e-01, -9.9642e-01,  5.2746e-02,  2.5372e-03, -8.5501e-02,
          1.1586e-01, -4.6590e-02, -2.1022e-02,  5.6610e-01,  3.4027e-02,
          7.5981e-01, -9.3067e-01, -6.7136e-02, -9.6185e-01, -1.712

In [8]:
model

BertModel(
  (embeddings): BertEmbeddings(
    (word_embeddings): Embedding(8002, 768, padding_idx=1)
    (position_embeddings): Embedding(512, 768)
    (token_type_embeddings): Embedding(2, 768)
    (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
    (dropout): Dropout(p=0.1, inplace=False)
  )
  (encoder): BertEncoder(
    (layer): ModuleList(
      (0-11): 12 x BertLayer(
        (attention): BertAttention(
          (self): BertSdpaSelfAttention(
            (query): Linear(in_features=768, out_features=768, bias=True)
            (key): Linear(in_features=768, out_features=768, bias=True)
            (value): Linear(in_features=768, out_features=768, bias=True)
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (output): BertSelfOutput(
            (dense): Linear(in_features=768, out_features=768, bias=True)
            (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
            (dropout): Dropout(p=0.1, inplace=False)

In [13]:
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity

# 문장 임베딩 추출 함수
def get_sentence_embedding(text, model, tokenizer):
    # 토큰화
    inputs = tokenizer(text, return_tensors="pt", padding=True, truncation=True, max_length=512)
    
    # 모델 실행
    with torch.no_grad():
        outputs = model(**inputs)
    
    # [CLS] 토큰의 마지막 은닉 상태 사용 (문장 임베딩)
    sentence_embedding = outputs.last_hidden_state[:, 0, :].numpy()
    return sentence_embedding[0]

# 테스트할 한국어 문장들
sentences = [
    "오늘 날씨가 정말 좋네요.",
    "날씨가 참 화창한 하루입니다.",
    "인공지능 기술이 빠르게 발전하고 있습니다.",
    "딥러닝 모델은 대량의 데이터로 학습됩니다.",
    "한국어 자연어 처리는 중요한 연구 분야입니다."
]

sentences = [
    '계란이 맛있다.',
    '닭이 맛있다.',
    '치킨이 맛있다.',
    '후라이가 맛있다.'
]

sentences = [
    '나는 너를 좋아해.',
    '너는 나를 좋아해.'
]

# 각 문장의 임베딩 추출
embeddings = np.array([get_sentence_embedding(sentence, model, tokenizer) for sentence in sentences])

# 문장 간 코사인 유사도 계산
similarity_matrix = cosine_similarity(embeddings)

# 유사도 결과 출력
print("문장 간 코사인 유사도:")
for i in range(len(sentences)):
    for j in range(i+1, len(sentences)):
        print(f"문장 {i+1}과 문장 {j+1}의 유사도: {similarity_matrix[i][j]:.4f}")
        print(f"  - '{sentences[i]}'")
        print(f"  - '{sentences[j]}'")
        print()

문장 간 코사인 유사도:
문장 1과 문장 2의 유사도: 0.9400
  - '나는 너를 좋아해.'
  - '너는 나를 좋아해.'

