In [1]:
import numpy as np
import torch as torch
import torch.nn as nn
from tqdm import tqdm

In [2]:
device = "cuda:1"

In [9]:
def trainer(model, gener, iters, opt, loss_fn, verbose= True, device= "cuda:1"):
    for i in tqdm(range(iters), desc = 'tqdm() Progress Bar'):
        (X, Y) = gener.com_get(64)
        preds= model(torch.tensor(X, device = device, dtype= torch.float32))
        loss= loss_fn(preds.transpose(1, 2), torch.tensor(Y, device = device))

        loss.backward()
        opt.step()
        opt.zero_grad()

        if i % 5000 == 0 and verbose:
            print("step %i: loss = %f"%(i, loss.detach().cpu().numpy()))

    print("final loss= %f"%(loss.detach().cpu().numpy()))
    

class sort():
    def __init__(self, len, ran):
        self.len = len
        self.ran= ran

    def get(self, num_swaps, b):
        sorted_seq = np.sort(np.random.choice(self.ran, [b, self.len]))
        seq = np.copy(sorted_seq)
        for _ in np.arange(num_swaps):
            i = np.random.randint(self.len-1, size= (b,))
            t= seq[np.arange(b), i]
            seq[np.arange(b), i] = seq[np.arange(b), i+1]
            seq[np.arange(b), i+1] = t
        seq = np.diag(np.ones(self.ran))[seq]

        return seq, sorted_seq
    
    def com_get(self, b):
        seq= np.random.choice(self.ran, [b, self.len])
        sorted_seq = np.sort(seq)
        seq = np.diag(np.ones(self.ran))[seq]
        
        return seq, sorted_seq
    
class sort_proj():
    def __init__(self, leng, ran):
        self.len = leng
        self.ran= ran
        self.proj = np.random.randn(ran, ran) / np.sqrt(ran)

    def get(self, num_swaps, b):
        sorted_seq = np.sort(np.random.choice(self.ran, [b, self.len]))
        seq = np.copy(sorted_seq)
        for _ in np.arange(num_swaps):
            i = np.random.randint(self.len-1, size= (b,))
            t= seq[np.arange(b), i]
            seq[np.arange(b), i] = seq[np.arange(b), i+1]
            seq[np.arange(b), i+1] = t
        seq = np.einsum('ijk,kl->ijl', np.diag(np.ones(self.ran))[seq], self.proj)

        return seq, sorted_seq
    
    def com_get(self, b):
        seq= np.random.choice(self.ran, [b, self.len])
        sorted_seq = np.sort(seq)
        seq = np.einsum('ijk,kl->ijl', np.diag(np.ones(self.ran))[seq], self.proj)
        
        return seq, sorted_seq
    

### Without positional encoding

In [10]:
class MultiHeadAttention_wthead_wtpos(nn.Module):
    def __init__(self, seq_len, input_dim, embed_dim, attn_dim, num_heads):
        super().__init__()
        assert embed_dim % num_heads == 0
        
        self.embed= nn.Linear(input_dim, embed_dim, bias = False)
        self.key = nn.Linear(embed_dim, attn_dim, bias = False)
        self.query = nn.Linear(embed_dim, attn_dim, bias = False)
        self.value = nn.Linear(embed_dim, attn_dim, bias = False)

        self.n_head = num_heads
        self.seq_len = seq_len
        self.input_dim= input_dim
        self.emd_dim = embed_dim
        self.attn_dim = attn_dim

    def forward(self, input):
        N, S, E = input.shape
        assert (S, E) == (self.seq_len, self.input_dim), "Wrong input!"

        X = self.embed(input)

        Q = torch.reshape(self.query(X), (N, self.seq_len, self.n_head, self.attn_dim//self.n_head)).transpose(1 , 2)
        K = torch.reshape(self.key(X), (N, self.seq_len, self.n_head, self.attn_dim//self.n_head)).transpose(1, 2)
        V = torch.reshape(self.value(X), (N, self.seq_len, self.n_head, self.attn_dim//self.n_head)).transpose(1, 2)
        scores= torch.matmul(Q, torch.transpose(K, 3, 2))/(self.attn_dim//self.n_head)**0.5

        Y1 = torch.matmul(scores, V).transpose(1, 2).reshape(N, self.seq_len, self.attn_dim)
        out_att = Y1 + input

        return out_att

In [11]:
for lr in np.logspace(-5, -2, 10):
    tran = MultiHeadAttention_wthead_wtpos(20, 200, 256, 200, 8)
    tran.to(device= device)
    gener= sort(20, 200)
    opt = torch.optim.Adam(tran.parameters(), lr= lr)
    loss_fn = nn.CrossEntropyLoss()
    print("learning rate= ", (lr))
    trainer(tran, gener, 5000, opt, loss_fn, verbose= False)

learning rate=  1e-05


tqdm() Progress Bar: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5000/5000 [00:13<00:00, 373.40it/s]


final loss= 5.092510
learning rate=  2.1544346900318823e-05


tqdm() Progress Bar: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5000/5000 [00:12<00:00, 394.45it/s]


final loss= 3.651713
learning rate=  4.641588833612782e-05


tqdm() Progress Bar: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5000/5000 [00:13<00:00, 379.87it/s]


final loss= 3.592185
learning rate=  0.0001


tqdm() Progress Bar: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5000/5000 [00:13<00:00, 380.09it/s]


final loss= 3.543100
learning rate=  0.00021544346900318823


tqdm() Progress Bar: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5000/5000 [00:12<00:00, 396.57it/s]


final loss= 3.542858
learning rate=  0.00046415888336127773


tqdm() Progress Bar: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5000/5000 [00:12<00:00, 389.42it/s]


final loss= 3.565570
learning rate=  0.001


tqdm() Progress Bar: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5000/5000 [00:13<00:00, 381.07it/s]


final loss= 3.521830
learning rate=  0.002154434690031882


tqdm() Progress Bar: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5000/5000 [00:12<00:00, 390.12it/s]


final loss= 3.583722
learning rate=  0.004641588833612777


tqdm() Progress Bar: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5000/5000 [00:12<00:00, 394.55it/s]


final loss= 3.668959
learning rate=  0.01


tqdm() Progress Bar: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5000/5000 [00:13<00:00, 381.98it/s]

final loss= 3.674258





In [12]:
lr = 5e-4
tran = MultiHeadAttention_wthead_wtpos(20, 200, 256, 200, 8)
tran.to(device= device)
gener= sort(20, 200)
opt = torch.optim.Adam(tran.parameters(), lr= lr)
loss_fn = nn.CrossEntropyLoss()
trainer(tran, gener, 250000, opt, loss_fn, verbose= True)

tqdm() Progress Bar:   0%|                                                                                                                                                 | 76/250000 [00:00<11:01, 378.03it/s]

step 0: loss = 5.250623


tqdm() Progress Bar:   2%|██▉                                                                                                                                            | 5060/250000 [00:12<11:04, 368.84it/s]

step 5000: loss = 3.531013


tqdm() Progress Bar:   4%|█████▋                                                                                                                                        | 10065/250000 [00:25<10:10, 392.77it/s]

step 10000: loss = 3.510970


tqdm() Progress Bar:   6%|████████▌                                                                                                                                     | 15071/250000 [00:38<10:22, 377.50it/s]

step 15000: loss = 3.506469


tqdm() Progress Bar:   8%|███████████▍                                                                                                                                  | 20067/250000 [00:52<10:18, 371.70it/s]

step 20000: loss = 3.549042


tqdm() Progress Bar:  10%|██████████████▏                                                                                                                               | 25063/250000 [01:04<10:38, 352.14it/s]

step 25000: loss = 3.501200


tqdm() Progress Bar:  12%|█████████████████                                                                                                                             | 30074/250000 [01:18<09:36, 381.49it/s]

step 30000: loss = 3.516410


tqdm() Progress Bar:  14%|███████████████████▉                                                                                                                          | 35065/250000 [01:31<09:22, 382.24it/s]

step 35000: loss = 3.485808


tqdm() Progress Bar:  16%|██████████████████████▊                                                                                                                       | 40071/250000 [01:43<08:54, 392.68it/s]

step 40000: loss = 3.522886


tqdm() Progress Bar:  18%|█████████████████████████▌                                                                                                                    | 45073/250000 [01:56<08:42, 392.54it/s]

step 45000: loss = 3.541285


tqdm() Progress Bar:  20%|████████████████████████████▍                                                                                                                 | 50057/250000 [02:10<08:48, 378.54it/s]

step 50000: loss = 3.504151


tqdm() Progress Bar:  22%|███████████████████████████████▎                                                                                                              | 55060/250000 [02:23<08:19, 390.52it/s]

step 55000: loss = 3.524684


tqdm() Progress Bar:  24%|██████████████████████████████████▏                                                                                                           | 60080/250000 [02:36<08:07, 389.24it/s]

step 60000: loss = 3.572649


tqdm() Progress Bar:  26%|████████████████████████████████████▉                                                                                                         | 65072/250000 [02:48<08:08, 378.28it/s]

step 65000: loss = 3.502911


tqdm() Progress Bar:  28%|███████████████████████████████████████▊                                                                                                      | 70052/250000 [03:01<07:46, 385.43it/s]

step 70000: loss = 3.539550


tqdm() Progress Bar:  30%|██████████████████████████████████████████▋                                                                                                   | 75046/250000 [03:14<07:19, 398.30it/s]

step 75000: loss = 3.515629


tqdm() Progress Bar:  32%|█████████████████████████████████████████████▍                                                                                                | 80040/250000 [03:27<07:45, 365.23it/s]

step 80000: loss = 3.550877


tqdm() Progress Bar:  34%|████████████████████████████████████████████████▎                                                                                             | 85049/250000 [03:40<06:58, 394.15it/s]

step 85000: loss = 3.507302


tqdm() Progress Bar:  36%|███████████████████████████████████████████████████▏                                                                                          | 90060/250000 [03:53<06:47, 392.63it/s]

step 90000: loss = 3.516448


tqdm() Progress Bar:  38%|█████████████████████████████████████████████████████▉                                                                                        | 95066/250000 [04:06<06:34, 392.36it/s]

step 95000: loss = 3.481259


tqdm() Progress Bar:  40%|████████████████████████████████████████████████████████▍                                                                                    | 100073/250000 [04:19<06:20, 393.84it/s]

step 100000: loss = 3.527942


tqdm() Progress Bar:  42%|███████████████████████████████████████████████████████████                                                                                  | 104766/250000 [04:31<06:16, 385.52it/s]


KeyboardInterrupt: 

In [14]:
(X, Y) = gener.get(400, 10000)
preds= tran(torch.tensor(X, device = device, dtype= torch.float32))
preds= torch.argmax(preds, dim = 2).detach().cpu().numpy()

print(np.sum(1*(Y == preds))/2e5)

0.086595
