In [3]:
from transformers import AutoTokenizer, AutoModelForCausalLM

model_name = "deepseek-ai/deepseek-coder-1.3b-base"  # small-ish
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

In [4]:
# Encode some text into tokens
text = "你好世界"
tokens = tokenizer.encode(text)
print(tokens)

# Decode back into text
decoded = tokenizer.decode(tokens)
print(decoded)

# Inspect how it split the text
print([tokenizer.decode([t]) for t in tokens])


[32013, 1367, 1248, 4986]
<｜begin▁of▁sentence｜>你好世界
['<｜begin▁of▁sentence｜>', '你', '好', '世界']


In [5]:
# convert ids -> token strings
tokens = [32013, 1367, 1248, 4986]
print(tokenizer.convert_ids_to_tokens(tokens))

# vocab size and specials
print("vocab size:", tokenizer.vocab_size)
print("all special tokens:", tokenizer.all_special_tokens)
print("special tokens map:", tokenizer.special_tokens_map)

# encode without adding special tokens (if you don't want BOS/EOS)
tokens = tokenizer.encode("你好世界", add_special_tokens=False)
print(tokens)

# show ID -> decoding for each id (what you already saw)
print([tokenizer.decode([t]) for t in tokens])

['<｜begin▁of▁sentence｜>', 'ä½ł', 'å¥½', 'ä¸ĸçķĮ']
vocab size: 32000
all special tokens: ['<｜begin▁of▁sentence｜>', '<｜end▁of▁sentence｜>']
special tokens map: {'bos_token': '<｜begin▁of▁sentence｜>', 'eos_token': '<｜end▁of▁sentence｜>', 'pad_token': '<｜end▁of▁sentence｜>'}
[1367, 1248, 4986]
['你', '好', '世界']


In [7]:
with open("再别康桥.txt", "r") as f:
    text = f.read()
print(text)
tokens = tokenizer.encode(text)
print([tokenizer.decode([t]) for t in tokens])
print(tokenizer.decode(tokens))

轻轻的我走了，
正如我轻轻的来；
我轻轻的招手，
作别西天的云彩。

那河畔的金柳，
是夕阳中的新娘；
波光里的艳影，
在我的心头荡漾。

软泥上的青荇，
油油的在水底招摇；
在康河的柔波里，
我甘心做一条水草！

那榆荫下的一潭，
不是清泉，是天上虹；
揉碎在浮藻间，
沉淀着彩虹似的梦。

寻梦？撑一支长篙，
向青草更青处漫溯；
满载一船星辉，
在星辉斑斓里放歌。

但我不能放歌，
悄悄是别离的笙箫；
夏虫也为我沉默，
沉默是今晚的康桥！

悄悄的我走了，
正如我悄悄的来；
我挥一挥衣袖，
不带走一片云彩。
['<｜begin▁of▁sentence｜>', '轻', '轻', '的', '我', '走了', '，', '\n', '正', '如', '我', '轻', '轻', '的', '来', '；', '\n', '我', '轻', '轻', '的', '招', '手', '，', '\n', '作', '别', '西', '天的', '云', '彩', '。', '\n', '\n', '那', '河', '�', '�', '的', '金', '柳', '，', '\n', '是', '夕', '阳', '中的', '新', '娘', '；', '\n', '波', '光', '里的', '艳', '影', '，', '\n', '在', '我的', '心', '头', '荡', '�', '�', '。', '\n', '\n', '软', '泥', '上的', '青', '�', '�', '，', '\n', '油', '油', '的', '在', '水', '底', '招', '摇', '；', '\n', '在', '康', '河', '的', '柔', '波', '里', '，', '\n', '我', '甘', '心', '做', '一条', '水', '草', '！', '\n', '\n', '那', '�', '�', '�', '�', '下', '的一', '�', '�', '，', '\n', '不是', '清', '泉', '，', '是', '天', '上', '�', '�', '；', '\n', '�', '�', '碎', '在', '浮', '�', '�', '间', '，', '\n', '沉', '淀',