In [1]:
import numpy as np
import torch as torch
import torch.nn as nn
from tqdm import tqdm
import matplotlib.pyplot as plt

In [2]:
device = "cuda:1"

In [3]:
def trainer(model, gener, iters, opt, loss_fn, verbose= True, non_lin = False, device= "cuda:1"):        
    for i in tqdm(range(iters), desc = 'Progress Bar'):
        (X, Y) = gener.get_test(64)
        preds= model(torch.tensor(X, device = device, dtype= torch.float32), non_lin = non_lin)
        loss= loss_fn(preds.transpose(1, 2), torch.tensor(Y, device = device))

        loss.backward()
        opt.step()
        opt.zero_grad()


        if i%5000 == 0 and verbose:  
            with torch.no_grad():
                (X_train, Y_train) = gener.get_train(10000)
                preds_train= torch.argmax(model(torch.tensor(X_train, device = device, dtype= torch.float32), non_lin = non_lin), dim = 2)
                train_acc = (torch.sum(1*(preds_train == torch.tensor(Y_train, device = device)))/2e5).detach().cpu().numpy()

                (X_valid, Y_valid) = gener.get_test(10000)
                preds_valid= torch.argmax(model(torch.tensor(X_valid, device = device, dtype= torch.float32), non_lin = non_lin), dim = 2)
                test_acc = (torch.sum(1*(preds_valid == torch.tensor(Y_valid, device = device)))/2e5).detach().cpu().numpy()

            print("step %i: loss = %f, train_acc= %f, test_acc= %f"%(i, loss, train_acc, test_acc))
            torch.save({"model": model.state_dict(),
                        "opt": opt.state_dict(),
                        "num_train": i}, "./Sorting_limited.tar")
    print("final loss= %f"%(loss.detach().cpu().numpy()))

    
class MultiHeadAttention_wOhead(nn.Module):
    def __init__(self, seq_len, input_dim, output_dim, attn_dim, num_heads):
        super().__init__()
        embed_dim = input_dim
        assert attn_dim % num_heads == 0
        
        self.embed= nn.Linear(input_dim, embed_dim, bias = False)
        self.P = nn.Parameter(torch.randn(seq_len, embed_dim), requires_grad= True)
        self.key = nn.Linear(embed_dim, attn_dim, bias = False)
        self.query = nn.Linear(embed_dim, attn_dim, bias = False)
        self.value = nn.Linear(embed_dim, attn_dim, bias = False)
        self.proj = nn.Linear(attn_dim, output_dim, bias = False)

        self.n_head = num_heads
        self.seq_len = seq_len
        self.input_dim= input_dim
        self.attn_dim = attn_dim

    def forward(self, input, non_lin = True):
        N, S, E = input.shape
        assert (S, E) == (self.seq_len, self.input_dim), "Wrong input!"

        # X = self.embed(input) + self.P
        X = input

        Q = torch.reshape(self.query(X), (N, self.seq_len, self.n_head, self.attn_dim//self.n_head)).transpose(1 , 2)
        K = torch.reshape(self.key(X), (N, self.seq_len, self.n_head, self.attn_dim//self.n_head)).transpose(1, 2)
        V = torch.reshape(self.value(X), (N, self.seq_len, self.n_head, self.attn_dim//self.n_head)).transpose(1, 2)
        scores= torch.matmul(Q, torch.transpose(K, 3, 2))/(self.attn_dim//self.n_head)**0.5
        
        if non_lin:
            scores= torch.softmax(scores, dim = 3)
        
        Y1 = torch.matmul(scores, V).transpose(1, 2).reshape(N, self.seq_len, self.attn_dim)
        out_att = self.proj(Y1)

        return out_att
    
    
class sort_limited():
    def __init__(self, leng, ran, num_train = 50000):
        self.len = leng
        self.ran= ran
        self.num_train = num_train

    def get_leveled(self, num_swaps, b):
        sorted_seq = np.sort(np.random.choice(self.ran, [b, self.len]))
        seq = np.copy(sorted_seq)
        for _ in np.arange(num_swaps):
            i = np.random.randint(self.len-1, size= (b,))
            t= seq[np.arange(b), i]
            seq[np.arange(b), i] = seq[np.arange(b), i+1]
            seq[np.arange(b), i+1] = t
        
        indices = np.argsort(seq)
        seq = np.eye(self.ran)[seq]

        return seq, indices
    
    def get_test(self, b):
        seq= np.random.choice(self.ran, [b, self.len])
        sorted_seq = np.argsort(np.argsort(seq, axis = 1))
        seq = np.eye(self.ran)[seq]
        
        return seq, sorted_seq
    
    def get_train(self, b):
        train_list = np.random.choice(self.num_train, b, replace= True)
        seq = []
        for i in train_list:
            np.random.seed(i)
            seq.append(np.random.choice(self.ran, (self.len)))
        np.random.seed()
        seq = np.stack(seq, axis = 0)
        sorted_seq = np.argsort(np.argsort(seq, axis = 1))
        seq = np.eye(self.ran)[seq]
        
        return seq, sorted_seq

In [None]:
lr= 2e-4
tran = MultiHeadAttention_wOhead(20, 200, 20, 32, 1)
tran.to(device= device)
gener= sort_limited(20, 200, 3000)
opt = torch.optim.Adam(tran.parameters(), lr= lr)
loss_fn = nn.CrossEntropyLoss()
print("learning rate= ", (lr))
trainer(tran, gener, 250000, opt, loss_fn, verbose= True, non_lin= False)

learning rate=  0.0002


Progress Bar:   0%|                                                                                                                                                       | 15/250000 [00:00<2:52:05, 24.21it/s]

step 0: loss = 2.995725, train_acc= 0.050425, test_acc= 0.051080


Progress Bar:   2%|███                                                                                                                                                    | 5027/250000 [00:32<58:22, 69.94it/s]

step 5000: loss = 1.552382, train_acc= 0.384120, test_acc= 0.383575


Progress Bar:   4%|█████▉                                                                                                                                              | 10012/250000 [01:03<1:11:11, 56.18it/s]

step 10000: loss = 1.233906, train_acc= 0.513380, test_acc= 0.512960


Progress Bar:   6%|█████████                                                                                                                                             | 15018/250000 [01:35<57:29, 68.13it/s]

step 15000: loss = 0.963726, train_acc= 0.614550, test_acc= 0.614325


Progress Bar:   8%|███████████▉                                                                                                                                         | 20027/250000 [02:04<26:16, 145.91it/s]

step 20000: loss = 0.870607, train_acc= 0.687975, test_acc= 0.680685


Progress Bar:  10%|██████████████▉                                                                                                                                      | 25032/250000 [02:26<35:31, 105.56it/s]

step 25000: loss = 0.733621, train_acc= 0.724690, test_acc= 0.718125


Progress Bar:  12%|█████████████████▉                                                                                                                                   | 30039/250000 [02:48<21:45, 168.44it/s]

step 30000: loss = 0.692354, train_acc= 0.752715, test_acc= 0.748190


Progress Bar:  14%|█████████████████████                                                                                                                                 | 35017/250000 [03:16<46:50, 76.50it/s]

step 35000: loss = 0.672264, train_acc= 0.768610, test_acc= 0.764435


Progress Bar:  16%|████████████████████████                                                                                                                              | 40015/250000 [03:48<56:03, 62.43it/s]

step 40000: loss = 0.833576, train_acc= 0.779255, test_acc= 0.772925


Progress Bar:  18%|███████████████████████████                                                                                                                           | 45014/250000 [04:22<52:56, 64.54it/s]

step 45000: loss = 0.558394, train_acc= 0.787265, test_acc= 0.780975


Progress Bar:  20%|██████████████████████████████                                                                                                                        | 50016/250000 [04:55<41:20, 80.61it/s]

step 50000: loss = 0.575068, train_acc= 0.793290, test_acc= 0.790015


Progress Bar:  22%|█████████████████████████████████                                                                                                                     | 55019/250000 [05:27<40:23, 80.46it/s]

step 55000: loss = 0.519816, train_acc= 0.797985, test_acc= 0.795180


Progress Bar:  24%|████████████████████████████████████                                                                                                                  | 60013/250000 [06:01<54:10, 58.45it/s]

step 60000: loss = 0.522105, train_acc= 0.803210, test_acc= 0.799500


Progress Bar:  26%|███████████████████████████████████████                                                                                                               | 65018/250000 [06:33<38:11, 80.72it/s]

step 65000: loss = 0.531332, train_acc= 0.804720, test_acc= 0.801180


Progress Bar:  28%|██████████████████████████████████████████                                                                                                            | 70021/250000 [07:02<33:36, 89.25it/s]

step 70000: loss = 0.590954, train_acc= 0.808810, test_acc= 0.807825


Progress Bar:  30%|████████████████████████████████████████████▋                                                                                                        | 75049/250000 [07:22<23:32, 123.87it/s]

step 75000: loss = 0.463038, train_acc= 0.811750, test_acc= 0.807470


Progress Bar:  32%|████████████████████████████████████████████████                                                                                                      | 80030/250000 [07:51<28:32, 99.27it/s]

step 80000: loss = 0.475913, train_acc= 0.818460, test_acc= 0.816035


Progress Bar:  34%|███████████████████████████████████████████████████                                                                                                   | 85028/250000 [08:23<27:32, 99.81it/s]

step 85000: loss = 0.575773, train_acc= 0.817930, test_acc= 0.815420


Progress Bar:  36%|██████████████████████████████████████████████████████                                                                                                | 90019/250000 [08:58<36:52, 72.32it/s]

step 90000: loss = 0.438263, train_acc= 0.824950, test_acc= 0.822440


Progress Bar:  38%|█████████████████████████████████████████████████████████                                                                                             | 95041/250000 [09:32<30:05, 85.83it/s]

step 95000: loss = 0.424553, train_acc= 0.830175, test_acc= 0.827350


Progress Bar:  40%|███████████████████████████████████████████████████████████▏                                                                                        | 100027/250000 [09:52<19:35, 127.57it/s]

step 100000: loss = 0.402730, train_acc= 0.837500, test_acc= 0.834905


Progress Bar:  42%|██████████████████████████████████████████████████████████████▌                                                                                      | 105041/250000 [10:16<27:13, 88.74it/s]

step 105000: loss = 0.479845, train_acc= 0.842775, test_acc= 0.840765


Progress Bar:  44%|█████████████████████████████████████████████████████████████████▌                                                                                   | 110014/250000 [10:46<33:31, 69.60it/s]

step 110000: loss = 0.471435, train_acc= 0.851115, test_acc= 0.848430


Progress Bar:  46%|████████████████████████████████████████████████████████████████████▌                                                                                | 115026/250000 [11:16<25:24, 88.55it/s]

step 115000: loss = 0.346363, train_acc= 0.856110, test_acc= 0.854530


Progress Bar:  48%|███████████████████████████████████████████████████████████████████████▌                                                                             | 120022/250000 [11:47<26:48, 80.80it/s]

step 120000: loss = 0.349195, train_acc= 0.868420, test_acc= 0.863840


Progress Bar:  50%|██████████████████████████████████████████████████████████████████████████▌                                                                          | 125026/250000 [12:18<24:04, 86.51it/s]

step 125000: loss = 0.365279, train_acc= 0.878765, test_acc= 0.876310


Progress Bar:  52%|█████████████████████████████████████████████████████████████████████████████▍                                                                       | 130024/250000 [12:49<21:19, 93.76it/s]

step 130000: loss = 0.270521, train_acc= 0.893600, test_acc= 0.892295


Progress Bar:  54%|███████████████████████████████████████████████████████████████████████████████▉                                                                    | 135031/250000 [13:20<18:55, 101.25it/s]

step 135000: loss = 0.262087, train_acc= 0.907925, test_acc= 0.906085


Progress Bar:  56%|███████████████████████████████████████████████████████████████████████████████████▍                                                                 | 140033/250000 [13:53<18:21, 99.80it/s]

step 140000: loss = 0.244641, train_acc= 0.919675, test_acc= 0.916620


Progress Bar:  58%|██████████████████████████████████████████████████████████████████████████████████████▍                                                              | 145017/250000 [14:26<25:09, 69.57it/s]

step 145000: loss = 0.233249, train_acc= 0.923320, test_acc= 0.922815


Progress Bar:  60%|████████████████████████████████████████████████████████████████████████████████████████▊                                                           | 150045/250000 [14:48<13:15, 125.67it/s]

step 150000: loss = 0.197318, train_acc= 0.923370, test_acc= 0.924115


Progress Bar:  62%|████████████████████████████████████████████████████████████████████████████████████████████▍                                                        | 155026/250000 [15:13<21:21, 74.09it/s]

step 155000: loss = 0.259897, train_acc= 0.924860, test_acc= 0.922600


Progress Bar:  64%|███████████████████████████████████████████████████████████████████████████████████████████████▎                                                     | 160015/250000 [15:46<24:02, 62.38it/s]

step 160000: loss = 0.361746, train_acc= 0.926725, test_acc= 0.924965


Progress Bar:  66%|█████████████████████████████████████████████████████████████████████████████████████████████████▋                                                  | 165037/250000 [16:16<12:50, 110.23it/s]

step 165000: loss = 0.220483, train_acc= 0.924875, test_acc= 0.924135


Progress Bar:  68%|████████████████████████████████████████████████████████████████████████████████████████████████████▋                                               | 170035/250000 [16:41<11:52, 112.23it/s]

step 170000: loss = 0.232232, train_acc= 0.927420, test_acc= 0.926075


Progress Bar:  70%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌                                            | 175036/250000 [17:05<11:26, 109.12it/s]

step 175000: loss = 0.256340, train_acc= 0.927265, test_acc= 0.926880


Progress Bar:  72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                         | 180051/250000 [17:20<05:52, 198.61it/s]

step 180000: loss = 0.225808, train_acc= 0.926845, test_acc= 0.927210


Progress Bar:  74%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                      | 185054/250000 [17:34<05:46, 187.36it/s]

step 185000: loss = 0.186925, train_acc= 0.926660, test_acc= 0.927245


Progress Bar:  76%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                   | 190036/250000 [17:48<05:09, 193.77it/s]

step 190000: loss = 0.165594, train_acc= 0.928165, test_acc= 0.926325


Progress Bar:  78%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                | 195029/250000 [18:13<08:11, 111.74it/s]

step 195000: loss = 0.199140, train_acc= 0.927275, test_acc= 0.927550


Progress Bar:  80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                             | 200029/250000 [18:38<07:39, 108.83it/s]

step 200000: loss = 0.279801, train_acc= 0.928445, test_acc= 0.927460


Progress Bar:  82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                          | 205028/250000 [19:02<06:53, 108.84it/s]

step 205000: loss = 0.218284, train_acc= 0.928285, test_acc= 0.926795


Progress Bar:  84%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                       | 210042/250000 [19:27<06:01, 110.45it/s]

step 210000: loss = 0.212339, train_acc= 0.928920, test_acc= 0.926985


Progress Bar:  86%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                    | 215034/250000 [19:52<05:22, 108.26it/s]

step 215000: loss = 0.176176, train_acc= 0.929180, test_acc= 0.927875


Progress Bar:  88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                 | 220022/250000 [20:16<04:31, 110.32it/s]

step 220000: loss = 0.178400, train_acc= 0.928400, test_acc= 0.926855


Progress Bar:  90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏              | 225037/250000 [20:40<03:41, 112.60it/s]

step 225000: loss = 0.279352, train_acc= 0.930575, test_acc= 0.928590


Progress Bar:  92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏           | 230033/250000 [21:04<03:03, 108.68it/s]

step 230000: loss = 0.199771, train_acc= 0.930500, test_acc= 0.927550


Progress Bar:  94%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████         | 235039/250000 [21:30<02:39, 93.76it/s]

step 235000: loss = 0.291110, train_acc= 0.929575, test_acc= 0.927300


Progress Bar:  95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋       | 237706/250000 [21:43<00:58, 208.78it/s]

In [8]:
class sort_limited_proj():
    def __init__(self, leng, ran, num_train = 50000):
        self.len = leng
        self.ran= ran
        self.num_train = num_train
        self.proj = np.random.randn(ran, ran) / np.sqrt(ran)

    def get_leveled(self, num_swaps, b):
        sorted_seq = np.sort(np.random.choice(self.ran, [b, self.len]))
        seq = np.copy(sorted_seq)
        for _ in np.arange(num_swaps):
            i = np.random.randint(self.len-1, size= (b,))
            t= seq[np.arange(b), i]
            seq[np.arange(b), i] = seq[np.arange(b), i+1]
            seq[np.arange(b), i+1] = t
        seq = np.eye(self.ran)[seq] @ self.proj

        return seq, sorted_seq
    
    
    def get_leveled_train(self, num_swaps, b):
        sorted_seq = np.sort(np.random.choice(self.ran, [b, self.len]))
        seq = np.copy(sorted_seq)
        for _ in np.arange(num_swaps):
            i = np.random.randint(self.len-1, size= (b,))
            t= seq[np.arange(b), i]
            seq[np.arange(b), i] = seq[np.arange(b), i+1]
            seq[np.arange(b), i+1] = t
        seq = np.eye(self.ran)[seq] @ self.proj

        return seq, sorted_seq
    
    
    def get_test(self, b):
        seq= np.random.choice(self.ran, [b, self.len])
        sorted_seq = np.sort(seq)
        seq = np.eye(self.ran)[seq] @ self.proj
        
        return seq, sorted_seq
    
    
    def get_train(self, b):
        train_list = np.random.choice(self.num_train, b, replace= True)
        seq = []
        for i in train_list:
            np.random.seed(i)
            seq.append(np.random.choice(self.ran, (self.len)))
        np.random.seed()
        seq = np.stack(seq, axis = 0)
        sorted_seq = np.sort(seq)
        seq = np.eye(self.ran)[seq] @ self.proj
        
        return seq, sorted_seq 
            

In [31]:
for lr in np.logspace(-5, -2, 10):
    tran = MultiHeadAttention(20, 200, 200, 256, 256, 100, 32)
    tran.to(device= device)
    gener= sort_limited_proj(20, 200, 1000)
    opt = torch.optim.Adam(tran.parameters(), lr= lr)
    loss_fn = nn.CrossEntropyLoss()
    print("learning rate= ", (lr))
    trainer(tran, gener, 5000, opt, loss_fn, verbose= False, non_lin= True)

learning rate=  1e-05


Progress Bar: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5000/5000 [00:18<00:00, 264.90it/s]


final loss= 4.639436
learning rate=  2.1544346900318823e-05


Progress Bar: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5000/5000 [00:18<00:00, 277.23it/s]


final loss= 3.923155
learning rate=  4.641588833612782e-05


Progress Bar: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5000/5000 [00:18<00:00, 271.62it/s]


final loss= 4.035360
learning rate=  0.0001


Progress Bar: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5000/5000 [00:18<00:00, 269.88it/s]


final loss= 4.118126
learning rate=  0.00021544346900318823


Progress Bar: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5000/5000 [00:17<00:00, 278.47it/s]


final loss= 4.000093
learning rate=  0.00046415888336127773


Progress Bar: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5000/5000 [00:17<00:00, 281.22it/s]


final loss= 3.056597
learning rate=  0.001


Progress Bar: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5000/5000 [00:18<00:00, 275.24it/s]


final loss= 1.412671
learning rate=  0.002154434690031882


Progress Bar: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5000/5000 [00:17<00:00, 280.78it/s]


final loss= 0.911591
learning rate=  0.004641588833612777


Progress Bar: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5000/5000 [00:17<00:00, 282.54it/s]


final loss= 11.803789
learning rate=  0.01


Progress Bar: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5000/5000 [00:18<00:00, 273.29it/s]

final loss= 20.750059





In [6]:
lr= 5e-4
tran = MultiHeadAttention(20, 200, 200, 256, 256, 100, 32)
tran.to(device= device)
gener= sort_limited_proj(20, 200, 1000)
opt = torch.optim.Adam(tran.parameters(), lr= lr)
loss_fn = nn.CrossEntropyLoss()
print("learning rate= ", (lr))
trainer(tran, gener, 250000, opt, loss_fn, verbose= True, non_lin= True)

learning rate=  0.0005


Progress Bar:   0%|                                                                                                                                                       | 30/250000 [00:00<1:39:09, 42.01it/s]

step 0: loss = 5.451015, train_acc= 0.004940, test_acc= 0.006095


Progress Bar:   2%|███                                                                                                                                                    | 5026/250000 [00:19<46:09, 88.46it/s]

step 5000: loss = 3.327105, train_acc= 0.266605, test_acc= 0.154195


Progress Bar:   4%|█████▉                                                                                                                                               | 10038/250000 [00:37<36:39, 109.11it/s]

step 10000: loss = 0.844903, train_acc= 0.738830, test_acc= 0.276295


Progress Bar:   6%|████████▉                                                                                                                                            | 15049/250000 [00:56<35:51, 109.21it/s]

step 15000: loss = 0.447953, train_acc= 0.907530, test_acc= 0.278255


Progress Bar:   8%|███████████▉                                                                                                                                         | 20049/250000 [01:15<35:32, 107.82it/s]

step 20000: loss = 0.236449, train_acc= 0.916175, test_acc= 0.261990


Progress Bar:  10%|██████████████▉                                                                                                                                      | 25028/250000 [01:34<34:33, 108.50it/s]

step 25000: loss = 0.049898, train_acc= 0.944510, test_acc= 0.270080


Progress Bar:  12%|█████████████████▉                                                                                                                                   | 30050/250000 [01:53<35:34, 103.03it/s]

step 30000: loss = 0.095076, train_acc= 0.958490, test_acc= 0.265515


Progress Bar:  14%|████████████████████▉                                                                                                                                | 35040/250000 [02:11<35:29, 100.96it/s]

step 35000: loss = 0.031130, train_acc= 0.944360, test_acc= 0.263035


Progress Bar:  16%|███████████████████████▊                                                                                                                             | 40050/250000 [02:30<34:15, 102.13it/s]

step 40000: loss = 0.028780, train_acc= 0.952855, test_acc= 0.260075


Progress Bar:  18%|███████████████████████████                                                                                                                           | 45029/250000 [02:49<39:26, 86.60it/s]

step 45000: loss = 0.015078, train_acc= 0.958530, test_acc= 0.262485


Progress Bar:  20%|██████████████████████████████                                                                                                                        | 50029/250000 [03:07<33:26, 99.68it/s]

step 50000: loss = 0.254518, train_acc= 0.955085, test_acc= 0.257785


Progress Bar:  22%|████████████████████████████████▊                                                                                                                    | 55029/250000 [03:27<29:20, 110.78it/s]

step 55000: loss = 0.049986, train_acc= 0.968865, test_acc= 0.263505


Progress Bar:  24%|███████████████████████████████████▊                                                                                                                 | 60044/250000 [03:46<27:40, 114.37it/s]

step 60000: loss = 0.264182, train_acc= 0.967495, test_acc= 0.262210


Progress Bar:  26%|███████████████████████████████████████                                                                                                               | 65045/250000 [04:04<31:19, 98.41it/s]

step 65000: loss = 0.019170, train_acc= 0.968095, test_acc= 0.259830


Progress Bar:  28%|█████████████████████████████████████████▋                                                                                                           | 70047/250000 [04:23<27:43, 108.15it/s]

step 70000: loss = 0.005902, train_acc= 0.976210, test_acc= 0.262270


Progress Bar:  30%|████████████████████████████████████████████▋                                                                                                        | 75035/250000 [04:41<27:02, 107.84it/s]

step 75000: loss = 0.175702, train_acc= 0.970700, test_acc= 0.256455


Progress Bar:  32%|███████████████████████████████████████████████▋                                                                                                     | 80044/250000 [04:59<24:46, 114.36it/s]

step 80000: loss = 0.022014, train_acc= 0.978265, test_acc= 0.262770


Progress Bar:  34%|██████████████████████████████████████████████████▋                                                                                                  | 85032/250000 [05:18<25:02, 109.76it/s]

step 85000: loss = 0.052878, train_acc= 0.974045, test_acc= 0.259295


Progress Bar:  36%|█████████████████████████████████████████████████████▋                                                                                               | 90049/250000 [05:36<24:57, 106.80it/s]

step 90000: loss = 0.000188, train_acc= 0.977380, test_acc= 0.262555


Progress Bar:  38%|████████████████████████████████████████████████████████▋                                                                                            | 95045/250000 [05:55<23:22, 110.49it/s]

step 95000: loss = 0.041275, train_acc= 0.969995, test_acc= 0.259940


Progress Bar:  40%|███████████████████████████████████████████████████████████▏                                                                                        | 100033/250000 [06:13<22:41, 110.13it/s]

step 100000: loss = 0.040539, train_acc= 0.983545, test_acc= 0.259420


Progress Bar:  42%|██████████████████████████████████████████████████████████████▏                                                                                     | 105040/250000 [06:32<21:19, 113.27it/s]

step 105000: loss = 0.023259, train_acc= 0.979630, test_acc= 0.262815


Progress Bar:  44%|█████████████████████████████████████████████████████████████████▏                                                                                  | 110055/250000 [06:50<21:39, 107.72it/s]

step 110000: loss = 0.030918, train_acc= 0.981755, test_acc= 0.260645


Progress Bar:  46%|████████████████████████████████████████████████████████████████████                                                                                | 115031/250000 [07:09<21:45, 103.38it/s]

step 115000: loss = 0.354966, train_acc= 0.975335, test_acc= 0.256810


Progress Bar:  48%|███████████████████████████████████████████████████████████████████████                                                                             | 120043/250000 [07:28<18:58, 114.18it/s]

step 120000: loss = 0.008414, train_acc= 0.975765, test_acc= 0.253360


Progress Bar:  50%|██████████████████████████████████████████████████████████████████████████▌                                                                          | 125023/250000 [07:46<23:30, 88.60it/s]

step 125000: loss = 0.001255, train_acc= 0.982395, test_acc= 0.256190


Progress Bar:  52%|█████████████████████████████████████████████████████████████████████████████▍                                                                       | 130024/250000 [08:05<25:03, 79.82it/s]

step 130000: loss = 0.099001, train_acc= 0.983325, test_acc= 0.256745


Progress Bar:  54%|███████████████████████████████████████████████████████████████████████████████▉                                                                    | 135043/250000 [08:25<18:31, 103.42it/s]

step 135000: loss = 0.173464, train_acc= 0.982275, test_acc= 0.258280


Progress Bar:  56%|██████████████████████████████████████████████████████████████████████████████████▉                                                                 | 140050/250000 [08:44<17:04, 107.35it/s]

step 140000: loss = 0.026182, train_acc= 0.983355, test_acc= 0.259670


Progress Bar:  58%|█████████████████████████████████████████████████████████████████████████████████████▊                                                              | 145032/250000 [09:03<16:36, 105.30it/s]

step 145000: loss = 0.000789, train_acc= 0.986200, test_acc= 0.259785


Progress Bar:  60%|█████████████████████████████████████████████████████████████████████████████████████████▍                                                           | 150040/250000 [09:22<16:51, 98.82it/s]

step 150000: loss = 0.000580, train_acc= 0.982290, test_acc= 0.258705


Progress Bar:  62%|████████████████████████████████████████████████████████████████████████████████████████████▍                                                        | 155035/250000 [09:41<16:00, 98.83it/s]

step 155000: loss = 0.000111, train_acc= 0.985770, test_acc= 0.259865


Progress Bar:  64%|███████████████████████████████████████████████████████████████████████████████████████████████▍                                                     | 160033/250000 [10:00<15:36, 96.11it/s]

step 160000: loss = 0.083507, train_acc= 0.985615, test_acc= 0.258770


Progress Bar:  66%|██████████████████████████████████████████████████████████████████████████████████████████████████▎                                                  | 165022/250000 [10:19<16:43, 84.68it/s]

step 165000: loss = 0.000206, train_acc= 0.987175, test_acc= 0.255005


Progress Bar:  68%|████████████████████████████████████████████████████████████████████████████████████████████████████▋                                               | 170040/250000 [10:38<12:24, 107.36it/s]

step 170000: loss = 0.003517, train_acc= 0.986595, test_acc= 0.254780


Progress Bar:  70%|████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                            | 175027/250000 [10:57<12:40, 98.56it/s]

step 175000: loss = 0.001601, train_acc= 0.987095, test_acc= 0.255850


Progress Bar:  72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                         | 180051/250000 [11:16<10:29, 111.16it/s]

step 180000: loss = 0.000448, train_acc= 0.984685, test_acc= 0.256370


Progress Bar:  74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                      | 185027/250000 [11:35<13:43, 78.89it/s]

step 185000: loss = 0.000044, train_acc= 0.986310, test_acc= 0.257625


Progress Bar:  76%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                   | 190045/250000 [11:54<09:08, 109.26it/s]

step 190000: loss = 0.264270, train_acc= 0.988975, test_acc= 0.255380


Progress Bar:  78%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                | 195049/250000 [12:12<08:17, 110.50it/s]

step 195000: loss = 0.001047, train_acc= 0.988670, test_acc= 0.255575


Progress Bar:  80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                             | 200040/250000 [12:31<07:41, 108.21it/s]

step 200000: loss = 0.007076, train_acc= 0.987005, test_acc= 0.255250


Progress Bar:  82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                          | 205038/250000 [12:49<06:40, 112.31it/s]

step 205000: loss = 0.220955, train_acc= 0.987780, test_acc= 0.255310


Progress Bar:  84%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                       | 210046/250000 [13:08<06:00, 110.69it/s]

step 210000: loss = 0.000161, train_acc= 0.991080, test_acc= 0.256455


Progress Bar:  86%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                    | 215031/250000 [13:27<05:21, 108.71it/s]

step 215000: loss = 0.002962, train_acc= 0.989455, test_acc= 0.254230


Progress Bar:  88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                 | 220040/250000 [13:46<04:36, 108.43it/s]

step 220000: loss = 0.000861, train_acc= 0.989455, test_acc= 0.252925


Progress Bar:  90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏              | 225044/250000 [14:04<03:47, 109.58it/s]

step 225000: loss = 0.000001, train_acc= 0.988610, test_acc= 0.255330


Progress Bar:  92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏           | 230051/250000 [14:22<02:58, 111.46it/s]

step 230000: loss = 0.000030, train_acc= 0.989290, test_acc= 0.253495


Progress Bar:  94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏        | 235032/250000 [14:41<02:16, 109.60it/s]

step 235000: loss = 0.128578, train_acc= 0.989595, test_acc= 0.254895


Progress Bar:  96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████      | 240029/250000 [14:59<01:30, 110.47it/s]

step 240000: loss = 0.002054, train_acc= 0.989105, test_acc= 0.253020


Progress Bar:  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████   | 245044/250000 [15:19<00:49, 100.36it/s]

step 245000: loss = 0.002617, train_acc= 0.987595, test_acc= 0.253050


Progress Bar: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 250000/250000 [15:36<00:00, 266.85it/s]

final loss= 0.000006





In [11]:
lr= 5e-4
tran = MultiHeadAttention(20, 200, 200, 256, 256, 100, 32)
tran.to(device= device)
gener= sort_limited_proj(20, 200, 5000)
opt = torch.optim.Adam(tran.parameters(), lr= lr)
loss_fn = nn.CrossEntropyLoss()
print("learning rate= ", (lr))
trainer(tran, gener, 250000, opt, loss_fn, verbose= True, non_lin= True)

learning rate=  0.0005


Progress Bar:   0%|                                                                                                                                                       | 26/250000 [00:00<1:49:16, 38.13it/s]

step 0: loss = 5.498064, train_acc= 0.005120, test_acc= 0.004965


Progress Bar:   2%|███                                                                                                                                                   | 5040/250000 [00:20<40:07, 101.77it/s]

step 5000: loss = 3.594720, train_acc= 0.129020, test_acc= 0.115685


Progress Bar:   4%|█████▉                                                                                                                                               | 10040/250000 [00:38<35:42, 111.98it/s]

step 10000: loss = 2.460152, train_acc= 0.407755, test_acc= 0.374430


Progress Bar:   6%|████████▉                                                                                                                                            | 15050/250000 [00:57<38:47, 100.94it/s]

step 15000: loss = 1.286237, train_acc= 0.569175, test_acc= 0.509045


Progress Bar:   8%|████████████                                                                                                                                          | 20041/250000 [01:16<38:21, 99.93it/s]

step 20000: loss = 0.969983, train_acc= 0.623500, test_acc= 0.560725


Progress Bar:  10%|██████████████▉                                                                                                                                      | 25031/250000 [01:36<34:30, 108.63it/s]

step 25000: loss = 0.899418, train_acc= 0.695205, test_acc= 0.618845


Progress Bar:  12%|█████████████████▉                                                                                                                                   | 30034/250000 [01:54<33:47, 108.48it/s]

step 30000: loss = 0.913394, train_acc= 0.698550, test_acc= 0.621445


Progress Bar:  14%|████████████████████▉                                                                                                                                | 35048/250000 [02:14<34:15, 104.56it/s]

step 35000: loss = 0.441857, train_acc= 0.734595, test_acc= 0.644880


Progress Bar:  16%|███████████████████████▊                                                                                                                             | 40046/250000 [02:33<34:48, 100.54it/s]

step 40000: loss = 0.724864, train_acc= 0.751205, test_acc= 0.658375


Progress Bar:  18%|██████████████████████████▊                                                                                                                          | 45044/250000 [02:52<31:38, 107.95it/s]

step 45000: loss = 1.378092, train_acc= 0.741195, test_acc= 0.640870


Progress Bar:  20%|█████████████████████████████▊                                                                                                                       | 50042/250000 [03:11<31:57, 104.29it/s]

step 50000: loss = 1.143079, train_acc= 0.797350, test_acc= 0.687170


Progress Bar:  22%|█████████████████████████████████                                                                                                                     | 55024/250000 [03:30<37:02, 87.74it/s]

step 55000: loss = 0.351584, train_acc= 0.812335, test_acc= 0.698990


Progress Bar:  24%|███████████████████████████████████▊                                                                                                                 | 60000/250000 [03:49<12:05, 262.01it/s]


KeyboardInterrupt: 

In [4]:
lr= 5e-4
tran = MultiHeadAttention(20, 200, 200, 256, 256, 100, 32)
tran.to(device= device)
gener= sort_limited_proj(20, 200, 3000)
opt = torch.optim.Adam(tran.parameters(), lr= lr)
loss_fn = nn.CrossEntropyLoss()
print("learning rate= ", (lr))
trainer(tran, gener, 250000, opt, loss_fn, verbose= True, non_lin= True)

NameError: name 'MultiHeadAttention' is not defined

In [None]:
class sort_limited_proj_curr():
    def __init__(self, leng, ran, curriculum_levels, curriculum_nums):
        self.len = leng
        self.ran= ran
        self.proj = np.random.randn(ran, ran) / np.sqrt(ran)
            
        self.levels = curriculum_levels
        self.nums = curriculum_nums
        self.indices = {}
        assert len(self.levels) == len(self.nums), "lengths don't match"
        
        index = np.random.choice(50000, np.sum(self.nums), replace = False)
        counter= 0

        for j in range(len(self.nums)):
            self.indices{"%i"%(levels[j])} = index[counter:counter+self.nums[j]]
    
    def get_leveled_train(self, num_swaps, b):
        train_set = self.indices{"%i"%(num_swaps)}
        train_list = np.random.choice(train_set, b, replace= True)
        seqs = []
        
        for i in train_list:
            np.random.seed(i)
            sorted_seq = np.sort(np.random.choice(self.ran, (self.len)))
            seq = np.copy(sorted_seq)
            for _ in np.arange(num_swaps):
                i = np.random.randint(self.len-1)
                t= seq[i]
                seq[i] = seq[i+1]
                seq[i+1] = t
            seqs.append(seq)
            
        seqs = np.stack(seqs, axis = 0)
        sorted_seqs = np.sort(seqs)
        seqs = np.eye(self.ran)[seqs] @ self.proj

        return seqs, sorted_seqs
    
    
    def get_leveled_test(self, num_swaps, b):
        sorted_seq = np.sort(np.random.choice(self.ran, [b, self.len]))
        seq = np.copy(sorted_seq)
        for _ in np.arange(num_swaps):
            i = np.random.randint(self.len-1, size= (b,))
            t= seq[np.arange(b), i]
            seq[np.arange(b), i] = seq[np.arange(b), i+1]
            seq[np.arange(b), i+1] = t
        seq = np.eye(self.ran)[seq] @ self.proj

        return seq, sorted_seq
    
    
    def get_test(self, b):
        seq= np.random.choice(self.ran, [b, self.len])
        sorted_seq = np.sort(seq)
        seq = np.eye(self.ran)[seq] @ self.proj
        
        return seq, sorted_seq
    

def trainer_curr(model, gener, iters, opt, loss_fn, swap_plan, verbose= True, non_lin = False, device= "cuda:1"):
    for step, swap_num in enumerate(swap_plan):
        for i in tqdm(range(iters), desc = 'Progress Bar'):
            (X, Y) = gener.get_leveled_train(64)
            preds= model(torch.tensor(X, device = device, dtype= torch.float32), non_lin = non_lin)
            loss= loss_fn(preds.transpose(1, 2), torch.tensor(Y, device = device))

            loss.backward()
            opt.step()
            opt.zero_grad()


            if i%5000 == 0 and verbose:  
                with torch.no_grad():
                    (X_train, Y_train) = gener.get_train(10000)
                    preds_train= torch.argmax(model(torch.tensor(X_train, device = device, dtype= torch.float32), non_lin = non_lin), dim = 2)
                    train_acc = (torch.sum(1*(preds_train == torch.tensor(Y_train, device = device)))/2e5).detach().cpu().numpy()

                    (X_valid, Y_valid) = gener.get_test(10000)
                    preds_valid= torch.argmax(model(torch.tensor(X_valid, device = device, dtype= torch.float32), non_lin = non_lin), dim = 2)
                    test_acc = (torch.sum(1*(preds_valid == torch.tensor(Y_valid, device = device)))/2e5).detach().cpu().numpy()

                print("step %i: loss = %f, train_acc= %f, test_acc= %f"%(i, loss, train_acc, test_acc))
                torch.save({"model": model.state_dict(),
                            "opt": opt.state_dict(),
                            "num_train": i}, "./Sorting_limited.tar")
        print("final loss= %f"%(loss.detach().cpu().numpy()))
