In [23]:
from transformers import AutoModelForCausalLM, AutoTokenizer
from IPython.display import display, HTML

# 밝은 배경색으로 변경 (다크모드/라이트모드 모두 호환)
colors_list = [
    '#66C2A5', '#FC8D62', '#8DA0CB',
    '#E78AC3', '#A6D854', '#FFD92F',
    '#E5C494', '#B3B3B3', '#FF7F00',
    '#1F78B4', '#33A02C', '#E31A1C'
]

def show_ids_tokens(sentence, tokenizer_name, ids_tokens=False):
    tokenizer = AutoTokenizer.from_pretrained(tokenizer_name)
    token_ids = tokenizer(sentence).input_ids
    
    html_output = ""
    for idx, t in enumerate(token_ids):
        # 텍스트를 인코딩한 후 다시 디코딩했을 때 원본 텍스트와 동일해지려면
        # clean_up_tokenization_spaces를 False로 지정해야 합니다.
        # 현재 이 매개변수의 기본값은 None(True에 해당)이며
        # transformers 4.45에서 True로 바뀔 예정입니다.
        # https://github.com/huggingface/transformers/issues/31884
        if ids_tokens:
            token_text = t
        else:
            token_text = tokenizer.decode(t, clean_up_tokenization_spaces=False)
        color = colors_list[idx % len(colors_list)]
        html_output += f'<span style="background-color: {color}; color: white; padding: 2px 4px; margin: 2px; border-radius: 3px; font-weight: bold; display: inline-block;">{token_text}</span> '
    
    display(HTML(html_output))

In [12]:
text = """
안녕하세요! Hello World! 토크나이저(Tokenizer) 테스트입니다.
한글: 자연어처리, AI, 머신러닝
영문: Natural Language Processing, BERT, GPT-4
숫자: 123, 3.14, 1,000,000
기호: !@#$%^&*()_+-=[]{}|;':\",./<>?
이모지: 😀🤖🚀💡📚🔥✨🎯
특수문자: α β γ δ ε → ← ↑ ↓ ∑ ∫ ≤ ≥
코드: def tokenize(text): return text.split()
URL: https://huggingface.co/models
이메일: test@example.com
"""

In [27]:
show_ids_tokens(text, "bert-base-uncased", False)

In [None]:
# 한글을 지원하는 토크나이저로 테스트
print("=== KoBERT (한글 지원) ===")
show_ids_tokens(text, "skt/kobert-base-v1")

print("\n\n=== multilingual-BERT (다국어 지원) ===")
show_ids_tokens(text, "bert-base-multilingual-cased")


In [28]:
show_ids_tokens(text, "bert-base-cased")

In [None]:
show_ids_tokens(text, "bongsoo/bert-small-kor-v1")

Token indices sequence length is longer than the specified maximum sequence length for this model (195 > 160). Running this sequence through the model will result in indexing errors


In [None]:
show_ids_tokens(text, "gpt2")

In [10]:
text = """
English and CAPITALIZATION
🎵 鸟
show_tokens False None elif == >= else: two tabs:"		" four spaces:"    "
12.0*50=600
"""

In [None]:
# 한글 BPE 토크나이저들 비교
print("=== KoGPT2 (한글 BPE) ===")
show_ids_tokens(text, "skt/kogpt2-base-v2")

print("\n\n=== KLUE-RoBERTa (한글 BPE) ===") 
show_ids_tokens(text, "klue/roberta-base")

print("\n\n=== KoELECTRA (한글 지원) ===")
show_ids_tokens(text, "monologg/koelectra-base-v3-discriminator")

print("\n\n=== multilingual-BERT (다국어 BPE) ===")
show_ids_tokens(text, "bert-base-multilingual-cased")

print("\n\n=== KoBERT (한글 WordPiece) ===")
show_ids_tokens(text, "skt/kobert-base-v1")

print("\n\n=== KcBERT (한글 WordPiece) ===")
show_ids_tokens(text, "beomi/kcbert-base")

print("\n\n=== KcELECTRA (한글 WordPiece) ===") 
show_ids_tokens(text, "beomi/KcELECTRA-base")

print("\n\n=== HanBERT (한글 WordPiece) ===")
show_ids_tokens(text, "tbai/HanBert-54kN-torch")


In [None]:
# GemmaTokenizer 예제 (SentencePiece 기반)
print("=== Gemma-2B (SentencePiece) ===")
show_ids_tokens(text, "google/gemma-2b")

print("\n\n=== Gemma-7B (SentencePiece) ===")  
show_ids_tokens(text, "google/gemma-7b")

# 한글과 영문 모두 잘 처리하는 다른 SentencePiece 모델들
print("\n\n=== mT5 (다국어 SentencePiece) ===")
show_ids_tokens(text, "google/mt5-small")

print("\n\n=== ByT5 (Byte-level) ===")
show_ids_tokens(text, "google/byt5-small")


In [42]:
# 문제없이 작동하는 한글 토크나이저들만 골라서
print("=== 안전한 한글 토크나이저 비교 ===")

print("\n1. KLUE-RoBERTa (BPE):")
show_ids_tokens(text, "klue/roberta-base", ids_tokens=True)

print("\n\n2. KcBERT (WordPiece):")  
show_ids_tokens(text, "beomi/kcbert-base", ids_tokens=True)

print("\n\n3. multilingual-BERT (WordPiece):")
show_ids_tokens(text, "bert-base-multilingual-cased", ids_tokens=True)

print("\n\n4. Gemma-2B (SentencePiece):")
show_ids_tokens(text, "google/gemma-2b", ids_tokens=True)


=== 안전한 한글 토크나이저 비교 ===

1. KLUE-RoBERTa (BPE):




2. KcBERT (WordPiece):




3. multilingual-BERT (WordPiece):




4. Gemma-2B (SentencePiece):


# 토큰화 방식 비교: BPE vs WordPiece vs SentencePiece

## 1. BPE (Byte Pair Encoding)

**과정:**
1. 텍스트를 문자 단위로 분할
2. 가장 빈번한 문자 쌍을 찾아 합치기
3. 반복하여 서브워드 구축
4. 통계적으로 최적화

**특징:**
- 순수 통계 기반
- 데이터 효율적
- 언어 구조 무시
- GPT, RoBERTa에서 사용

**예시: "안녕하세요" →**
- 초기: ['안', '녕', '하', '세', '요']
- 병합: ['안녕', '하세', '요'] (빈도 기준)

## 2. WordPiece

**과정:**
1. 단어를 문자로 분할
2. 언어 모델 확률 최대화하는 병합 선택
3. ## 접두사로 서브워드 표시
4. 언어학적 의미 고려

**특징:**
- 확률론적 접근
- 언어학적 구조 반영
- ## 접두사 사용
- BERT 계열에서 사용

**예시: "자연어처리" →**
- ['자연', '##어', '##처리'] 
- ##는 단어 중간 부분 표시

## 3. SentencePiece

**과정:**
1. 원시 텍스트를 직접 처리 (전처리 없음)
2. 공백도 특수 토큰(▁)으로 처리
3. BPE 또는 unigram 알고리즘 적용
4. 언어 무관 처리

**특징:**
- 전처리 불필요
- 모든 언어 지원
- 공백 보존 (▁ 기호)
- T5, Gemma에서 사용

**예시: "Hello World" →**
- ['▁Hello', '▁World'] 
- ▁는 공백을 의미


In [None]:
# 실제 토큰화 비교를 위한 간단한 텍스트
comparison_text = "자연어처리 기술 발전"

print("=== 토큰화 방식별 비교 ===")
print(f"입력 텍스트: '{comparison_text}'")
print()

# BPE 방식 (GPT-2)
print("1. BPE (GPT-2):")
show_tokens(comparison_text, "gpt2")
print()

# WordPiece 방식 (BERT)  
print("2. WordPiece (multilingual-BERT):")
show_tokens(comparison_text, "bert-base-multilingual-cased")
print()

# SentencePiece 방식 (T5)
print("3. SentencePiece (mT5):")
show_tokens(comparison_text, "google/mt5-small")
print()

# 한글 전용 BPE vs WordPiece 비교
print("4. 한글 BPE (KLUE-RoBERTa):")
show_tokens(comparison_text, "klue/roberta-base")
print()

print("5. 한글 WordPiece (KcBERT):")
show_tokens(comparison_text, "beomi/kcbert-base")


# 핵심 차이점 정리

## 📊 성능 비교

| 방식 | 장점 | 단점 | 적합한 용도 |
|------|------|------|-------------|
| **BPE** | • 단순하고 빠름<br>• 메모리 효율적<br>• 통계적 최적화 | • 언어 구조 무시<br>• 의미 단위 분리 부족 | • 생성형 모델<br>• 다국어 처리 |
| **WordPiece** | • 언어학적 의미 고려<br>• 확률론적 최적화<br>• ## 표기로 명확 | • 언어별 전처리 필요<br>• 복잡한 알고리즘 | • 이해형 모델<br>• 단일 언어 특화 |
| **SentencePiece** | • 전처리 불필요<br>• 언어 무관<br>• 공백 보존 | • 학습 시간 오래 걸림<br>• 특수 기호 필요 | • 다국어 모델<br>• 번역 모델 |

## 🔍 한글 처리 특징

**BPE**: 통계 기반으로 자주 나오는 한글 조합을 학습
- "안녕" → ['안', '녕'] 또는 ['안녕'] (빈도에 따라)

**WordPiece**: 형태소 단위를 어느 정도 고려
- "자연어처리" → ['자연어', '##처리'] (의미 단위 고려)

**SentencePiece**: 언어 무관하게 처리, 공백도 토큰화
- "안녕 하세요" → ['▁안녕', '▁하세요'] (공백 보존)

## 🚀 실제 사용

- **GPT 계열**: BPE 사용 (생성에 최적화)
- **BERT 계열**: WordPiece 사용 (이해에 최적화)  
- **T5, Gemma**: SentencePiece 사용 (다국어 대응)


In [30]:
show_ids_tokens(text, "Xenova/gpt-4")

In [32]:
show_ids_tokens(text, "google/flan-t5-small")

In [35]:
show_ids_tokens(text, "skt/kogpt2-base-v2")

In [39]:
print("\n\n=== KoBERT (한글 WordPiece) ===")
show_ids_tokens(text, "skt/kobert-base-v1")





=== KoBERT (한글 WordPiece) ===


ValueError: Converting from Tiktoken failed, if a converter for SentencePiece is available, provide a model path with a SentencePiece tokenizer.model file.Currently available slow->fast convertors: ['AlbertTokenizer', 'BartTokenizer', 'BarthezTokenizer', 'BertTokenizer', 'BigBirdTokenizer', 'BlenderbotTokenizer', 'CamembertTokenizer', 'CLIPTokenizer', 'CodeGenTokenizer', 'ConvBertTokenizer', 'DebertaTokenizer', 'DebertaV2Tokenizer', 'DistilBertTokenizer', 'DPRReaderTokenizer', 'DPRQuestionEncoderTokenizer', 'DPRContextEncoderTokenizer', 'ElectraTokenizer', 'FNetTokenizer', 'FunnelTokenizer', 'GPT2Tokenizer', 'HerbertTokenizer', 'LayoutLMTokenizer', 'LayoutLMv2Tokenizer', 'LayoutLMv3Tokenizer', 'LayoutXLMTokenizer', 'LongformerTokenizer', 'LEDTokenizer', 'LxmertTokenizer', 'MarkupLMTokenizer', 'MBartTokenizer', 'MBart50Tokenizer', 'MPNetTokenizer', 'MobileBertTokenizer', 'MvpTokenizer', 'NllbTokenizer', 'OpenAIGPTTokenizer', 'PegasusTokenizer', 'Qwen2Tokenizer', 'RealmTokenizer', 'ReformerTokenizer', 'RemBertTokenizer', 'RetriBertTokenizer', 'RobertaTokenizer', 'RoFormerTokenizer', 'SeamlessM4TTokenizer', 'SqueezeBertTokenizer', 'T5Tokenizer', 'UdopTokenizer', 'WhisperTokenizer', 'XLMRobertaTokenizer', 'XLNetTokenizer', 'SplinterTokenizer', 'XGLMTokenizer', 'LlamaTokenizer', 'CodeLlamaTokenizer', 'GemmaTokenizer', 'Phi3Tokenizer']

In [38]:
print("\n\n=== multilingual-BERT (다국어 WordPiece) ===")
show_ids_tokens(text, "bert-base-multilingual-cased")



=== multilingual-BERT (다국어 WordPiece) ===


tokenizer_config.json:   0%|          | 0.00/49.0 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/996k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.96M [00:00<?, ?B/s]