# Tokenizer

In [1]:
with open("data/truyen_kieu_data.txt", "r", encoding="utf-8") as f:
    text = f.read()

In [2]:
chars = sorted(list(set(text)))
print(len(chars))

129


In [3]:
print("Vocab Size (bộ từ vựng):", len(chars))
print("Số lượng chữ: ", len(text))

vocab_size = len(chars)

Vocab Size (bộ từ vựng): 129
Số lượng chữ:  104809


In [4]:
ctoi = {ch:i for i,ch in enumerate(chars)}
itoc = {i:ch for i,ch in enumerate(chars)}

In [5]:
encode = lambda s: [ctoi[i] for i in s]
decode = lambda s: ''.join([itoc[i] for i in s])

In [6]:
decode(encode("Trăm năm trong cõi người ta, Chữ tài chữ mệnh khéo là ghét nhau."))

'Trăm năm trong cõi người ta, Chữ tài chữ mệnh khéo là ghét nhau.'

# Chuẩn bị dữ liệu

In [7]:
import torch

In [8]:
data = torch.tensor(encode(text), dtype=torch.long)

In [9]:
data[0:10]

tensor([26, 47, 74, 42,  1, 43, 74, 42,  1, 49])

In [10]:
n = int(0.9*len(text))
train_data = data[:n]
val_data = data[n:]

print(len(train_data))
print(len(val_data))

94328
10481


In [11]:
block_size = 8
batch_size = 8

idx = torch.randint(len(train_data) - block_size, (batch_size,))
x = [train_data[i:i+block_size] for i in idx]
y = [train_data[i+1:i+block_size+1] for i in idx]

In [12]:
def get_batch(data, block_size: int = 32, batch_size: int = 32):
    idx = torch.randint(len(data) - block_size, (batch_size,))
    x = torch.stack([data[i:i+block_size] for i in idx])
    y = torch.stack([data[i+1:i+block_size+1] for i in idx])
    return x, y

In [13]:
x, y = get_batch(train_data, 8, 8)
print(x)
print(y)

tensor([[ 53,   1,  46,  50, 124,  43,  38,   1],
        [ 43,  37,   1,  76,  60,   1,  33,  39],
        [ 51,  32,  53,   6,   0,  26,  65,  43],
        [ 58,  39,   1,  49,  82, 113,  43,  37],
        [ 59,  50,   1,  51, 111,  39,   1,  37],
        [ 49,   1,  49,  39,  43,  38,   1,  49],
        [ 43,   1,  49,  38, 113,   1,  38, 108],
        [ 50,  53,  99,  43,   1,  32,  39,   1]])
tensor([[  1,  46,  50, 124,  43,  38,   1,  34],
        [ 37,   1,  76,  60,   1,  33,  39,  98],
        [ 32,  53,   6,   0,  26,  65,  43,  38],
        [ 39,   1,  49,  82, 113,  43,  37,   6],
        [ 50,   1,  51, 111,  39,   1,  37,  64],
        [  1,  49,  39,  43,  38,   1,  49,  38],
        [  1,  49,  38, 113,   1,  38, 108,  43],
        [ 53,  99,  43,   1,  32,  39,   1,   6]])


<div style="display: flex; justify-content: space-between;">
    <img src="img/gpt.png" width="40%" height="40%" style="margin-right: 10px;" />
    <img src="img/transformer.png" width="30%" height="30%"/>
</div>

# Positional Embedding