# Step 1: Data Pre-processing

In [1]:
import torch
import torch.nn as nn
import torch.nn.functional as F
import json

From now on, this block belows is the one that is responsible for tokenization.

In [2]:
with open("./data/subword_tokenize.txt", "r") as f:
    text = f.readlines()
print(type(text))
print(len(text))
print('\n' in text[0])


<class 'list'>
958
True


# Step 2: Text Encoding

In [3]:
from collections import Counter
import nltk

In [4]:
# Tokenize
words_tokens = " ".join(text).split(' ')

# Words and their frequency
word_cnt = Counter(words_tokens)
vocab = sorted(word_cnt, key=word_cnt.get, reverse=True)
vocab_size = len(vocab)
print(f"vocab size: {vocab_size}")

# Create indexing
word_to_idx = {word: i for i, word in enumerate(vocab)}
idx_to_word = {i: word for i, word in enumerate(vocab)}

# Encoding
encode = lambda words: [word_to_idx[word] for word in words]

# Decoding
decode = lambda lst: ' '.join([idx_to_word[i] for i in lst])
print(encode('b'))

vocab size: 3279
[521]


In [5]:
print(word_cnt)
print(word_to_idx)

Counter({'ง': 66101, 'อ': 58185, 'น': 55717, 'ร': 51640, 'ก': 43654, 'ย': 36309, 'ม': 35721, 'ว': 28321, 'ค': 21698, 'ห': 21160, 'ด': 19535, '.': 19188, '์': 18727, 'ส': 18389, 'กา': 16996, 'ที่': 16798, 'ป': 15751, 'ล': 15485, 'บ': 14194, 'ระ': 13801, 'ต': 13264, 'พ': 12240, 'มา': 11876, 'ท': 9269, 'ข': 9254, 'เป็น': 8800, 'มี': 8538, 'ใน': 7906, 'ว่า': 7849, 'ช': 7810, 'จ': 7268, 'จะ': 7240, 'ได้': 6917, 'และ': 6563, '“': 6549, '”': 6544, 'ไม่': 6185, 'ให้': 6004, 'นา': 5879, 'รา': 5793, 'ลา': 5770, 'วา': 5427, 'ไป': 5318, 'ศ': 4972, 'ก็': 4575, 'นี้': 4480, 'จา': 4450, 'แต่': 4209, 'ชา': 4174, 'หา': 4113, 'ริ': 4094, 'ติ': 4059, 'ต่': 3874, 'อา': 3799, 'ษ': 3780, 'ณ': 3739, ')': 3702, '(': 3699, 'บา': 3669, 'ภา': 3660, 'กัน': 3602, 'ไท': 3572, 'ต้': 3538, 'ๆ': 3530, 'ทำ': 3447, 'ยา': 3355, 'กับ': 3266, 'ผ': 3220, 'สา': 3142, 'ที': 3073, 'ย่า': 3050, 'รับ': 2990, 'ดี': 2970, 'แร': 2943, 'เท': 2908, 'สุ': 2903, 'ปี': 2899, 'a': 2893, 'วิ': 2889, 'ตา': 2851, 'ธ': 2797, 'ผู้': 2782, 'e'

In [6]:
# encoded = [encode(words_tokens)]
encoded = []

for line in text:
    encoded.append(encode(line.split(' ')))

print(f"dimension size: {len(encoded)}")
print(encoded[0])

dimension size: 958
[4, 19, 809, 36, 38, 2, 45, 34, 13, 1666, 48, 95, 176, 258, 0, 13, 9, 16, 19, 48, 48, 51, 35, 17, 0, 6, 51, 1625, 51, 16, 19, 421, 6, 408, 292, 87, 4, 39, 2, 329, 102, 3, 2, 160, 76, 15, 221, 2, 22, 89, 5, 1852, 164, 0, 3, 7, 6, 116, 61, 5, 34, 181, 4, 141, 1, 0, 37, 408, 292, 129, 51, 14, 3, 490, 3, 18, 35, 120, 4, 365, 48, 51, 696, 326, 2, 1030, 16, 19, 74, 43, 0, 10, 1, 1, 4, 164, 0, 3, 7, 6, 91, 0, 212, 2, 6, 51, 45, 25, 14, 3, 13, 332, 13, 158, 2, 384, 38, 30, 1, 190, 16, 564, 5, 27, 236, 2, 358, 2, 24, 1, 0, 329, 102, 3, 2, 16, 402, 173, 80, 14, 3, 676, 0, 118, 23, 190, 24, 1, 0, 408, 292, 21, 141, 1, 6, 181, 4, 141, 1, 0, 37, 107, 1, 2, 4, 1, 0, 178, 93, 23, 49, 3, 116, 9, 6, 10, 1, 1, 4, 89, 5, 36, 26, 888, 2, 516, 27, 21, 3, 6, 358, 2, 215, 25, 15, 5, 1, 6, 71, 19, 186, 68, 4, 17, 13, 226, 2, 14, 3, 55, 12, 14, 3, 490, 3, 18, 408, 292, 114, 329, 102, 3, 2, 27, 160, 76, 15, 221, 2, 22, 126, 10, 3, 11, 4, 211, 54, 1309, 21, 3, 9, 6, 140, 8, 53, 46, 3, 5, 12, 

In [7]:
decode_test = decode(encoded[0])
print(decode_test)
print(decode_test == text[0])

ก ระ ทั่ง ไม่ นา น นี้ “ ส มัช ชา ให ญ่ แห่ ง ส ห ป ระ ชา ชา ติ ” ล ง ม ติ ญัต ติ ป ระ ณา ม รัส เซีย รุ ก รา น ยู เค ร น 1 ปี ที่ ผ่า น มา โด ย 141 เสีย ง ร ว ม ทั้ง ไท ย “ เรีย ก ร้ อ ง ให้ รัส เซีย ยุ ติ กา ร สู้ ร บ ” อี ก 7 ชา ติ คัด ค้า น 32 ป ระ เท ศ ง ด อ อ ก เสีย ง ร ว ม ถึ ง จี น ม ติ นี้ เป็น กา ร ส นับ ส นุ น อำ นา จ อ ธิ ป ไต ย ใน ดิ น แด น ข อ ง ยู เค ร น ป ฏิ เส ธ กา ร อ้า ง สิ ท ธิ ข อ ง รัส เซีย พ ร้ อ ม เรีย ก ร้ อ ง ให้ ถ อ น ก อ ง กำ ลัง ท หา ร ทั้ง ห ม ด อ อ ก โด ย ไม่ มี เงื่อ น ไข ใน พ ร ม แด น อัน เป็น ที่ ย อ ม รับ ระ ดับ สา ก ล ส ถา น กา ร ณ ์ กา ร สู้ ร บ รัส เซีย - ยู เค ร น ใน 1 ปี ที่ ผ่า น มา นั้น ด ร . ก ฤ ษ ฎา พ ร ห ม เว ค อา จา ร ย ์ ภา ค วิ ชา ค วา ม สัม พัน ธ ์ ระ ห ว่า ง ป ระ เท ศ ค ณะ รัฐ ศา ส ต ร ์ ม . รา ม คำ แห ง เล่า ว่า ต อ น นี้ “ รัส เซีย ” สา มา ร ถ ยึ ด ค ร อ ง พื้น ที่ ให ม่ ห ลา ย แห่ ง ทา ง ด้า น ตะ วัน อ อ ก และ ทา ง ใต้ ข อ ง ยู เค ร น โด ย เฉพาะ 4 แค ว้ น เช่ น โด เน ต ส ก ์ ลู ฮา น ส ก ์ เคีย ร ์ ซ อ น และ ซา โป ริ ช เชีย ตา ม ที่ “ 

In [8]:
# Split data to train and validation sets
# data = torch.tensor(encoded)
n = int(0.9*len(encoded))
train_data = []
val_data = []

for i, line in enumerate(encoded):
    if i < n:
        train_data.append(torch.tensor(line))
    else:
        val_data.append(torch.tensor(line))

print(len(train_data))
print(len(val_data))
print(type(train_data), type(val_data))
print(type(train_data[0]), type(val_data[0]))
print(val_data[0])

862
96
<class 'list'> <class 'list'>
<class 'torch.Tensor'> <class 'torch.Tensor'>
tensor([100,   6,   2,  ..., 350,  35, 223])


# Step 3: Transformer Model

In [9]:
# Hyperparameter
batch_size = 16 # how many independent sequences will we process in parallel?
block_size = 32 # what is the maximum context length for predictions?
embedding_dim = 32
hidden_dim = 128
n_embd = 64
n_head = 4
n_layer = 4
dropout = 0.1

device = 'cuda' if torch.cuda.is_available() else 'cpu'

#### Decoder Block
GPT-2 architecture uses decoder-only model. In the model, a decoder block has a self-attention and feedforward layer. For nokkaewGPT, the multihead self-attention model is chosen for performance.

In [10]:
# Self-attention head
class Head(nn.Module):
    def __init__(self, head_size):
        super().__init__()
        # linear transformation that map (batch_size, input_dim) to (batch_size, output_dim)
        # in this case, input_dim = n_embd and output_dim = n_embd
        self.key = nn.Linear(n_embd, head_size, bias=False)
        self.query = nn.Linear(n_embd, head_size, bias=False)
        self.value = nn.Linear(n_embd, head_size, bias=False)
        # used to calculate the attention score which is dot product between query and key
        self.register_buffer('tril', torch.tril(torch.ones(block_size, block_size)))

        self.dropout = nn.Dropout(dropout)

    def forward(self, x):
        B,T,C = x.shape
        k = self.key(x)   # (B,T,C)
        q = self.query(x) # (B,T,C)
        # compute attention scores ("affinities")
        wei = q @ k.transpose(-2,-1) * C**-0.5 # (B, T, C) @ (B, C, T) -> (B, T, T)
        wei = wei.masked_fill(self.tril[:T, :T] == 0, float('-inf')) # (B, T, T)
        wei = F.softmax(wei, dim=-1) # (B, T, T)
        wei = self.dropout(wei)
        # perform the weighted aggregation of the values
        v = self.value(x) # (B,T,C)
        out = wei @ v # (B, T, T) @ (B, T, C) -> (B, T, C)
        return out


In [11]:
# Multihead
class MultiHeadAttention(nn.Module):
    def __init__(self, num_heads, head_size):
        super().__init__()
        self.heads = nn.ModuleList([Head(head_size) for _ in range(num_heads)])
        self.proj = nn.Linear(n_embd, n_embd)
        self.dropout = nn.Dropout(dropout)

    def forward(self, x):
        out = torch.cat([h(x) for h in self.heads], dim=-1)
        out = self.dropout(self.proj(out))
        return out


In [12]:
# Feed forward
class FeedForward(nn.Module):
    def __init__(self, n_embd):
        super().__init__()
        self.net = nn.Sequential(
            nn.Linear(n_embd, n_embd),
            nn.ReLU(),
        )
    
    def forward(self, x):
        return self.net(x)


In [13]:
# Decoder-only Block
class TransformerDecoderBlock(nn.Module):
    def __init__(self, n_embd, num_heads, head_size, dropout):
        super().__init__()
        # multihead self-attention
        self.sa = MultiHeadAttention(num_heads, head_size)
        # layer normalization for self-attention
        self.norm1 = nn.LayerNorm(n_embd)
        # dropout regulation to prevent overfitting for self-attention
        self.dropout1 = nn.Dropout(dropout)
        # feed forwarding
        self.ffwd = FeedForward(n_embd)
        # layer normalization for feed forward
        self.norm2 = nn.LayerNorm(n_embd)
        # dropout for feed forward
        self.dropout2 = nn.Dropout(dropout)

    def forward(self, x):
        # Self-attention
        x = x + self.dropout1(self.sa(self.norm1(x)))
        # Layer normalization and residual connection
        x = x + self.dropout2(self.ffwd(self.norm2(x)))
        return x

In [14]:
# Implement a language model with the decoder block
class NokkaewLanguageModel(nn.Module):
    def __init__(self):
        super().__init__()
        # each token directly reads off the logits for the next token from a lookup table
        # embedding layer which coverts input token into vector representation
        self.token_embedding_table = nn.Embedding(vocab_size, n_embd)
        # embedding layer which generates embeddings for the positions of each token in the sequence
        self.position_embedding_table = nn.Embedding(block_size, n_embd)
        # layer of the decoders
        self.blocks = nn.Sequential(*[TransformerDecoderBlock(n_embd, n_head, n_embd//n_head, dropout) for _ in range(n_layer)])
        # layer normalization for final layer
        self.ln_f = nn.LayerNorm(n_embd)
        # linear layer which coverts final transformer block into logits for each token in the vocab
        self.lm_head = nn.Linear(n_embd, vocab_size)

    def forward(self, idx, targets=None):
        B, T = idx.shape

        # idx and targets are both (B,T) tensor of integers
        tok_emb = self.token_embedding_table(idx) # (B,T,C)
        pos_emb = self.position_embedding_table(torch.arange(T, device=device)) # (T,C)
        x = tok_emb + pos_emb # (B,T,C)
        x = self.blocks(x) # (B,T,C)
        x = self.ln_f(x) # (B,T,C)
        logits = self.lm_head(x) # (B,T,vocab_size)

        if targets is None:
            loss = None
        else:
            B, T, C = logits.shape
            logits = logits.view(B*T, C)
            targets = targets.view(B*T)
            loss = F.cross_entropy(logits, targets)

        return logits, loss


    def generate(self, idx, end_token):
            idx_next  = None
            with torch.no_grad():
                # idx is (B, T) array of indices in the current context
                while idx_next != end_token:
                    # crop idx to the last block_size tokens
                    idx_cond = idx[:, -block_size:]
                    # get the predictions
                    logits, _ = self(idx_cond)
                    # focus only on the last time step
                    logits = logits[:, -1, :] # becomes (B, C)
                    # apply softmax to get probabilities
                    probs = F.softmax(logits, dim=-1) # (B, C)
                    # sample from the distribution
                    idx_next = torch.multinomial(probs, num_samples=1) # (B, 1)
                    # append sampled index to the running sequence
                    idx = torch.cat((idx, idx_next), dim=1) # (B, T+1)
            return idx 

# Step 4: Training

In [15]:
# Getting sample as a small batch to train the model
def get_batch(split):
    # Generate a mini batch of X and Y
    data = train_data if split == 'train' else val_data
    ix = torch.randint(len(data) - batch_size, (batch_size, ))
    x = []
    y = []
    for i in ix:
        if len(data[i]) > block_size:
            x.append(data[i][-block_size-1:-1])
            y.append(data[i][-block_size:])
        else:
            cnt = block_size
            xt = torch.Tensor()
            yt = torch.Tensor()
            while cnt > 0:
                xt = torch.cat((xt, (a[i][max(0, len(a[i])-1-cnt):-1])))
                yt = torch.cat((yt, (a[i][max(1, len(a[i])-cnt):])))
                cnt -= min(len(a[i])-1, cnt)
                i += 1
            x.append(xt)
            y.append(yt)
    x = torch.stack(x)
    y = torch.stack(y)
    return x, y

In [16]:
# Create a language model from the class
NokkaewGPT = NokkaewLanguageModel()
m = NokkaewGPT.to(device)
best_loss = None

In [17]:
# Create an optimizer, adaptive learning rate algorithm
optimizer = torch.optim.AdamW(m.parameters(), lr=1e-3)

In [18]:
total_step = 100

for steps in range(total_step):
    # sample a batch of data
    xb, yb = get_batch('train')

    # evaluate the loss
    logits, loss = NokkaewGPT(xb, yb)
    optimizer.zero_grad(set_to_none=True)
    loss.backward()
    optimizer.step()
    
    # Progress report every n steps and also do evaluation
    if steps%50 == 0:
        with torch.no_grad():
            val_xb, val_yb = get_batch('val')
            val_logits, val_loss = NokkaewGPT(val_xb, val_yb)
        
        if best_loss is None:
            best_loss = val_loss
        # update best loss
        if val_loss < best_loss:
            best_loss = val_loss
            # save the model
            torch.save(NokkaewGPT.state_dict(), './model/nokkaew_model.pth')
        print(str(steps) + '/' + str(total_step))
        print(f'Step {steps}: Training Loss: {loss.item()}, Validation Loss: {val_loss.item()}')
        print("------------------------------")
    
print(f'Best Validation Loss: {best_loss.item()}')
        
        

0/100
Step 0: Training Loss: 8.243889808654785, Validation Loss: 8.214554786682129
------------------------------
50/100
Step 50: Training Loss: 5.46290397644043, Validation Loss: 5.700598239898682
------------------------------
Best Validation Loss: 5.700598239898682


In case of wanting to load the model, you have to save the state dict and load it.

In [19]:
torch.save(NokkaewGPT.state_dict(), './model/nokkaew_model.pth')

In [20]:
model_state_dict = torch.load('./model/nokkaew_model.pth')
NokkaewGPT = NokkaewLanguageModel()
NokkaewGPT.load_state_dict(model_state_dict)

<All keys matched successfully>

# Step 5: Evaluation

In [21]:
from pythainlp.tokenize.tcc import segment

In [22]:
def tk_segment(text):
    subwords = segment(text)
    
    if len(subwords) == 0:
        return ''
    elif len(subwords) == 1:
        return subwords[0]
    
    text = [subwords[0]]
    for word in subwords[1:]:
        if word.isdigit() and text[-1].isdigit():
            text[-1] += word
        else:
            text.append(word)
    
    return text

In [23]:
context = input()
tk_context = tk_segment(context)
encoded = encode(tk_context + ['<h>'])
endline = encode('\n')

with open("./output/output_from_model.txt", "w") as output_file:
    output_file.write(decode(m.generate(context, endline)[0].tolist()))

กินข้าว


TypeError: string indices must be integers