In [2]:
from transformers import MT5Tokenizer

# mT5 토크나이저 불러오기 (google/mt5-small 모델 사용)
tokenizer = MT5Tokenizer.from_pretrained("google/mt5-base")

In [None]:
tokenizer.

In [3]:
# 예시 문장
text = "안녕하세요. 이것은 mT5 tokenizer 테스트입니다."

# 토큰화 결과 (토큰 리스트)
tokens = tokenizer.tokenize(text)
print("Tokenized:", tokens)

# 인코딩 (토큰 ID)
token_ids = tokenizer.encode(text)
print("Encoded IDs:", token_ids)

# 인코딩 후 디코딩 (복원 확인)
decoded_text = tokenizer.decode(token_ids)
print("Decoded:", decoded_text)


Tokenized: ['▁안', '녕', '하세요', '.', '▁이', '것', '은', '▁m', 'T', '5', '▁', 'token', 'izer', '▁테', '스트', '입니다', '.']
Encoded IDs: [7269, 128550, 56527, 260, 1602, 15652, 869, 326, 490, 428, 259, 67185, 20409, 53990, 13042, 5068, 260, 1]
Decoded: 안녕하세요. 이것은 mT5 tokenizer 테스트입니다.</s>


In [7]:
import gzip
import pickle

# 데이터 로드
with gzip.open("/home/dial/jonghyo/Uni-Sign/data/KO_SEN_SYN/labels.dev", 'rb') as reader:
    data = pickle.load(reader)

total_tokens = 0
unk_tokens = 0

for key, item in data.items():
    gloss = item.get("gloss", [])
    tokens = tokenizer.tokenize(" ".join(gloss))
    print(tokens)
    for token in tokens:
        total_tokens += 1
        if token == "[UNK]":
            unk_tokens += 1

if total_tokens:
    unk_ratio = unk_tokens / total_tokens
else:
    unk_ratio = 0

print("전체 gloss 토큰 개수:", total_tokens)
print("UNK 토큰 개수:", unk_tokens)
print("UNK 비율:", unk_ratio)


['▁', '지하', '철', '▁', '곳', '▁', '다음', '▁', '도', '착', '▁내', '리', '다']
['▁', '버스', '▁', '곳', '▁전', '▁', '보다', '▁차', '내', '리', '다']
['▁', '지하', '철', '▁', '곳', '▁', '다음', '▁', '도', '착', '▁차', '내', '리', '다']
['▁백', '화', '점', '▁', '다음', '▁', '곳', '▁', '보다', '▁차', '내', '리', '다']
['▁', '지하', '철', '▁', '곳', '▁', '다음', '▁', '도', '착', '▁차', '내', '리', '다']
['▁', '공항', '▁', '버스', '▁', '보다', '▁전', '▁', '곳', '▁차', '내', '리', '다']
['▁', '터', '널', '▁', '다음', '▁', '곳']
['▁이', '화', '여', '대', '▁', '곳', '▁목', '적', '▁', '곳', '▁방법']
['▁에어', '컨', '▁', '고', '장', '▁안', '되', '다']
['▁', '샛', '길', '▁저', '기', '▁', '다음', '▁', '도', '착', '▁차', '내', '리', '다']
['▁', '터', '널', '▁', '다음', '▁내', '리', '다']
['▁', '버스', '▁', '곳', '▁저', '기', '▁', '다음', '▁', '곳']
['▁', '공항', '▁', '버스', '▁', '보다', '▁', '곳', '▁전', '▁내', '리', '다']
['▁에어', '컨', '▁사용', '▁잘', '▁안', '되', '다']
['▁', '공항', '▁', '버스', '▁', '보다', '▁', '곳', '▁전', '▁내', '리', '다']
['▁백', '화', '점', '▁', '곳', '▁', '다음', '▁', '보다', '▁차', '내', '리', '다']
['▁', '공항', '▁', '버스', '▁'