In [34]:
from transformers import AutoTokenizer
import re
from collections import Counter

def is_chinese_related(string):
    # 使用正则表达式匹配Unicode中的中文字符范围
    pattern = re.compile(r'[\u4e00-\u9fff]')
    return bool(pattern.search(string))

# 加载LLAMA tokenizer
tokenizer = AutoTokenizer.from_pretrained("/nlp_group/decapoda-research/Meta-Llama-3.1-405B")

# 获取整个词表
vocab = tokenizer.get_vocab()

# 按token ID排序词表
sorted_vocab = sorted(vocab.items(), key=lambda x: x[1])

# 统计中文相关的token
chinese_related_tokens = []
chinese_token_lengths = []

for token, token_id in sorted_vocab:
    decoded_token = tokenizer.decode([token_id])
    if is_chinese_related(decoded_token):
        chinese_related_tokens.append((decoded_token, len(decoded_token), token_id))
        chinese_token_lengths.append(len(decoded_token))

print(f"\n词表总token数: {len(vocab)}")
print(f"中文相关的token数: {len(chinese_related_tokens)}")
print(f"中文相关的token占比: {len(chinese_related_tokens) / len(vocab) * 100:.2f}%")

# 统计汉字分词的长度分布
length_distribution = Counter(chinese_token_lengths)

print("\n汉字分词的长度分布:")
for length, count in sorted(length_distribution.items()):
    print(f"长度 {length}: {count} 个 ({count/len(chinese_related_tokens)*100:.2f}%)")

# 打印最长的100个中文相关token
print("\n最长的100个中文相关token:")
longest_tokens = sorted(chinese_related_tokens, key=lambda x: x[1], reverse=True)[:100]
for token, length, token_id in longest_tokens:
    print(f"Token ID: {token_id:5d} | 长度: {length:2d} | Token: {repr(token):50s} | Unicode: {token.encode('unicode_escape')}")

# 对一个中文文本进行编码，查看实际使用情况
chinese_text = "你好，世界！这是一个测试。"
encoded = tokenizer.encode(chinese_text)
print(f"\n中文文本: {chinese_text}")
print(f"编码后的token IDs: {encoded}")
print("\n编码后的tokens:")
for token_id in encoded:
    token = tokenizer.decode([token_id])
    print(f"{token_id:5d} | {repr(token):40s} | {token.encode('unicode_escape')}")

# 分析这个特定中文文本的分词长度
text_token_lengths = [len(tokenizer.decode([token_id])) for token_id in encoded]
text_length_distribution = Counter(text_token_lengths)

print("\n这个中文文本的分词长度分布:")
for length, count in sorted(text_length_distribution.items()):
    print(f"长度 {length}: {count} 个 ({count/len(encoded)*100:.2f}%)")

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.



词表总token数: 128256
中文相关的token数: 4424
中文相关的token占比: 3.45%

汉字分词的长度分布:
长度 1: 2314 个 (52.31%)
长度 2: 1893 个 (42.79%)
长度 3: 174 个 (3.93%)
长度 4: 28 个 (0.63%)
长度 5: 7 个 (0.16%)
长度 6: 7 个 (0.16%)
长度 7: 1 个 (0.02%)

最长的100个中文相关token:
Token ID: 64960 | 长度:  7 | Token: ' 生命周期函数'                                          | Unicode: b' \\u751f\\u547d\\u5468\\u671f\\u51fd\\u6570'
Token ID: 112034 | 长度:  6 | Token: ' 名無しさん'                                           | Unicode: b' \\u540d\\u7121\\u3057\\u3055\\u3093'
Token ID: 114332 | 长度:  6 | Token: '页面存档备份'                                           | Unicode: b'\\u9875\\u9762\\u5b58\\u6863\\u5907\\u4efd'
Token ID: 117042 | 长度:  6 | Token: '股份有限公司'                                           | Unicode: b'\\u80a1\\u4efd\\u6709\\u9650\\u516c\\u53f8'
Token ID: 119240 | 长度:  6 | Token: ' 菲律宾申博'                                           | Unicode: b' \\u83f2\\u5f8b\\u5bbe\\u7533\\u535a'
Token ID: 125862 | 长度:  6 | Token: '网刊下载次数'                             

: 