In [2]:
from WordPieceTokenizer import WordPieceTokenizer

In [4]:
vocab_file_path = "saves/vocab.txt"

# 토크나이저 초기화
tokenizer = WordPieceTokenizer(vocab_file_path,do_lower_case=False, strip_accents=False, clean_text=True)

# 감정 분석 관련 테스트 문장들
test_sentences = [
    "이 영화 정말 최고예요. 다시 보고 싶어요!",
    "오늘 날씨가 너무 좋네요. 기분이 행복해요.",
    "정말 끔찍한 경험이었어요. 다시는 겪고 싶지 않네요.",
    "데이터 전처리는 항상 어렵고 복잡해요.",
    "그는 언제나 밝고 긍정적인 에너지를 줘요.",
    "점심 메뉴가 기대 이상으로 맛있었어요. 대박!",
    "이번 프로젝트는 정말 실망스러웠어요. 개선이 필요해요.",
    "드디어 목표를 달성했어요! 너무 기뻐요.",
    "갑자기 예상치 못한 문제가 발생해서 당황했어요.",
    "이 노래는 들을 때마다 마음이 따뜻해져요.",
    "서비스가 불친절해서 기분이 상했어요. 짜증 나네요.",
    "그냥 보통이었어요. 특별히 좋지도 나쁘지도 않았네요.",
    "오늘 회의는 별다른 내용 없이 끝났어요.",
    "생각보다 결과가 좋지 않아서 아쉬워요.",
    "새로운 아이디어가 번뜩 떠올랐어요. 정말 놀랍다!",
    "친구들과 함께여서 더욱 즐거운 시간이었어요.",
    "길이 너무 막혀서 약속 시간에 늦었어요. 최악이다.",
    "아침에 따뜻한 커피 한 잔이 주는 행복이 커요.",
    "예상치 못한 선물에 감동받았어요. 정말 고마워요.",
    "오랫동안 기다렸던 순간이 드디어 왔어요.",
    "왜 이런 일이 일어났는지 이해할 수가 없어요.",
    "조용히 생각할 시간이 필요해요.",
    "힘들었지만 결국 해냈어요. 뿌듯해요!",
    "계속되는 오류 때문에 작업이 지연되고 있어요.",
    "이 책은 읽을수록 재미있네요. 밤새 읽을 것 같아요.",
    "오늘은 목요일 목요일입니다."
]

# 최대 시퀀스 길이 설정
max_sequence_length = 30

# 각 테스트 문장에 대해 인코딩 및 디코딩 수행
for i, sentence in enumerate(test_sentences):
    print(f"--- 테스트 문장 {i+1} ---")
    print(f"원문: \"{sentence}\"")

    # 텍스트 인코딩
    encoded_output = tokenizer.encode(
        sentence,
        max_length=max_sequence_length,
        add_special_tokens=True,
        padding=True,
        truncation=True
    )

    # 인코딩된 input_ids 출력
    print(f"인코딩된 input_ids: {encoded_output['input_ids']}")
    print(f"인코딩된 attention_mask: {encoded_output['attention_mask']}")

    # input_ids를 다시 텍스트로 디코딩
    decoded_text = tokenizer.decode(encoded_output['input_ids'])
    print(f"디코딩된 텍스트: \"{decoded_text}\"")
    print("\n")

--- 테스트 문장 1 ---
원문: "이 영화 정말 최고예요. 다시 보고 싶어요!"
인코딩된 input_ids: [2, 707, 4214, 2845, 3408, 2471, 1, 2272, 2103, 12738, 1, 3, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
인코딩된 attention_mask: [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
디코딩된 텍스트: "[CLS] 이 영화 정말 최고예요[UNK] 다시 보고 싶어요[UNK][SEP][PAD][PAD][PAD][PAD][PAD][PAD][PAD][PAD][PAD][PAD][PAD][PAD][PAD][PAD][PAD][PAD][PAD][PAD]"


--- 테스트 문장 2 ---
원문: "오늘 날씨가 너무 좋네요. 기분이 행복해요."
인코딩된 input_ids: [2, 2466, 21448, 2764, 751, 3416, 1, 20841, 3441, 5200, 1, 3, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
인코딩된 attention_mask: [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
디코딩된 텍스트: "[CLS] 오늘 날씨가 너무 좋네요[UNK] 기분이 행복해요[UNK][SEP][PAD][PAD][PAD][PAD][PAD][PAD][PAD][PAD][PAD][PAD][PAD][PAD][PAD][PAD][PAD][PAD][PAD][PAD]"


--- 테스트 문장 3 ---
원문: "정말 끔찍한 경험이었어요. 다시는 겪고 싶지 않네요."
인코딩된 input_ids: [2, 2845, 171, 1678, 1123, 8042, 6704, 1, 12732, 640