In [1]:
from Datasets import TokenizedChromaDataset, PermutationsTokenizedChromaDataset
import numpy as np
from torch.utils.data import DataLoader, Subset
import sys
sys.path.insert(0, '..')
from transformer.models import TransformerFromModels, EncoderModel, DecoderModel
from torch.nn import CrossEntropyLoss
from torch.optim import Adam
import torch
from tqdm import tqdm
import os

In [2]:
npz_path = '../data/augmented_and_padded_data.npz'
dataset = TokenizedChromaDataset(npz_path)

train_percentage = 0.9
split_idx = int( len(dataset)*train_percentage )

train_set = Subset(dataset, range(0,split_idx))
test_set = Subset(dataset, range(split_idx, len(dataset)))

batch_size = 16
epochs = 1000

train_loader = DataLoader(train_set, batch_size=batch_size, shuffle=True)
test_loader = DataLoader(test_set, batch_size=batch_size, shuffle=True)

In [3]:
permutation_dataset = PermutationsTokenizedChromaDataset(npz_path)
permutation_loader = DataLoader(permutation_dataset, batch_size=batch_size, shuffle=True)

In [4]:
src_vocab_size = 2**12
tgt_vocab_size = 2**12
d_model = 256
num_heads = 4
num_layers = 4
d_ff = 256
max_seq_length = 129
dropout = 0.3

dev = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")

encoderModel = EncoderModel(src_vocab_size, d_model, num_heads, num_layers, d_ff, max_seq_length, dropout)
decoderModel = DecoderModel(tgt_vocab_size, d_model, num_heads, num_layers, d_ff, max_seq_length, dropout)

encoderModel = encoderModel.to(dev)
decoderModel = decoderModel.to(dev)

transformer = TransformerFromModels(encoderModel, decoderModel)

transformer = transformer.to(dev)

In [5]:
criterion = CrossEntropyLoss(ignore_index=0)
optimizer = Adam(transformer.parameters(), lr=0.0001, betas=(0.9, 0.98), eps=1e-9)

transformer.train()

# keep best validation loss for saving
best_val_loss = np.inf
save_dir = '../saved_models/encoder_decoder_one_hot/'
encoder_path = save_dir + 'encoder_one_hot.pt'
decoder_path = save_dir + 'decoder_one_hot.pt'
os.makedirs(save_dir, exist_ok=True)

for epoch in range(epochs):
    train_loss = 0
    running_loss = 0
    samples_num = 0
    running_accuracy = 0
    accuracy = 0
    with tqdm(train_loader, unit='batch') as tepoch:
        tepoch.set_description(f"Epoch {epoch} | trn")
        for melodies, chords in tepoch:
            melodies = melodies.to(dev)
            chords = chords.to(dev)
            optimizer.zero_grad()
            output = transformer(melodies, chords[:, :-1])
            loss = criterion(output.contiguous().view(-1, tgt_vocab_size), chords[:, 1:].contiguous().view(-1))
            loss.backward()
            optimizer.step()
            # update loss
            samples_num += melodies.shape[0]
            running_loss += loss.item()
            train_loss = running_loss/samples_num
            # accuracy
            prediction = output.argmax(dim=2, keepdim=True).squeeze()
            running_accuracy += (prediction == chords[:, 1:]).sum().item()/prediction.shape[1]
            accuracy = running_accuracy/samples_num
            tepoch.set_postfix(loss=train_loss, accuracy=accuracy) # tepoch.set_postfix(loss=loss.item(), accuracy=100. * accuracy)
    with tqdm(permutation_loader, unit='batch') as tepoch:
        tepoch.set_description(f"Epoch {epoch} | prm")
        for melodies, chords in tepoch:
            melodies = melodies.to(dev)
            chords = chords.to(dev)
            optimizer.zero_grad()
            output = transformer(melodies, chords[:, :-1])
            loss = criterion(output.contiguous().view(-1, tgt_vocab_size), chords[:, 1:].contiguous().view(-1))
            loss.backward()
            optimizer.step()
            # update loss
            samples_num += melodies.shape[0]
            running_loss += loss.item()
            train_loss = running_loss/samples_num
            # accuracy
            prediction = output.argmax(dim=2, keepdim=True).squeeze()
            running_accuracy += (prediction == chords[:, 1:]).sum().item()/prediction.shape[1]
            accuracy = running_accuracy/samples_num
            tepoch.set_postfix(loss=train_loss, accuracy=accuracy) # tepoch.set_postfix(loss=loss.item(), accuracy=100. * accuracy)
    # validation
    with torch.no_grad():
        val_loss = 0
        running_loss = 0
        samples_num = 0
        running_accuracy = 0
        accuracy = 0
        print('validation...')
        for melodies, chords in test_loader:
            melodies = melodies.to(dev)
            chords = chords.to(dev)
            output = transformer(melodies, chords[:, :-1])
            loss = criterion(output.contiguous().view(-1, tgt_vocab_size), chords[:, 1:].contiguous().view(-1))
            # update loss
            samples_num += melodies.shape[0]
            running_loss += loss.item()
            val_loss = running_loss/samples_num
            # accuracy
            prediction = output.argmax(dim=2, keepdim=True).squeeze()
            running_accuracy += (prediction == chords[:, 1:]).sum().item()/prediction.shape[1]
            accuracy = running_accuracy/samples_num
        if best_val_loss > val_loss:
            print('saving!')
            best_val_loss = val_loss
            torch.save(encoderModel.state_dict(), encoder_path)
            torch.save(decoderModel.state_dict(), decoder_path)
        print(f'validation: accuracy={accuracy}, loss={val_loss}')
    # print(f"Epoch: {epoch+1}, training loss: {train_loss} | validation loss {val_loss}")

Epoch 0 | trn: 100%|█████████████████████████████████████████████████████████████████████████████████| 300/300 [00:49<00:00,  6.01batch/s, accuracy=0.0156, loss=0.375]
Epoch 0 | prm: 100%|█████████████████████████████████████████████████████████████████████████████████| 333/333 [00:55<00:00,  5.97batch/s, accuracy=0.0238, loss=0.369]


validation...
saving!
validation: accuracy=0.04464704502814259, loss=0.32719523106014975


Epoch 1 | trn: 100%|█████████████████████████████████████████████████████████████████████████████████| 300/300 [00:49<00:00,  6.01batch/s, accuracy=0.0572, loss=0.281]
Epoch 1 | prm: 100%|█████████████████████████████████████████████████████████████████████████████████| 333/333 [00:55<00:00,  5.97batch/s, accuracy=0.0492, loss=0.307]


validation...
saving!
validation: accuracy=0.0572672373358349, loss=0.29777783792864315


Epoch 2 | trn: 100%|█████████████████████████████████████████████████████████████████████████████████| 300/300 [00:49<00:00,  6.01batch/s, accuracy=0.0698, loss=0.253]
Epoch 2 | prm: 100%|█████████████████████████████████████████████████████████████████████████████████| 333/333 [00:55<00:00,  5.97batch/s, accuracy=0.0586, loss=0.287]


validation...
saving!
validation: accuracy=0.06422959662288931, loss=0.28385320702815814


Epoch 3 | trn: 100%|████████████████████████████████████████████████████████████████████████████████████████| 300/300 [00:49<00:00,  6.01batch/s, accuracy=0.078, loss=0.238]
Epoch 3 | prm: 100%|███████████████████████████████████████████████████████████████████████████████████████| 333/333 [00:55<00:00,  5.97batch/s, accuracy=0.0649, loss=0.275]


validation...
saving!
validation: accuracy=0.06855358818011258, loss=0.275437434216154


Epoch 4 | trn: 100%|███████████████████████████████████████████████████████████████████████████████████████| 300/300 [00:49<00:00,  6.01batch/s, accuracy=0.0832, loss=0.227]
Epoch 4 | prm: 100%|████████████████████████████████████████████████████████████████████████████████████████| 333/333 [00:55<00:00,  5.97batch/s, accuracy=0.069, loss=0.266]


validation...
saving!
validation: accuracy=0.07107469512195122, loss=0.27163747551293577


Epoch 5 | trn: 100%|████████████████████████████████████████████████████████████████████████████████████████| 300/300 [00:49<00:00,  6.01batch/s, accuracy=0.087, loss=0.219]
Epoch 5 | prm: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 333/333 [00:55<00:00,  5.97batch/s, accuracy=0.072, loss=0.26]


validation...
saving!
validation: accuracy=0.0715437382739212, loss=0.2682915682193262


Epoch 6 | trn: 100%|███████████████████████████████████████████████████████████████████████████████████████| 300/300 [00:49<00:00,  6.01batch/s, accuracy=0.0897, loss=0.212]
Epoch 6 | prm: 100%|███████████████████████████████████████████████████████████████████████████████████████| 333/333 [00:55<00:00,  5.97batch/s, accuracy=0.0742, loss=0.254]


validation...
saving!
validation: accuracy=0.07324401969981238, loss=0.2677002346761678


Epoch 7 | trn: 100%|███████████████████████████████████████████████████████████████████████████████████████| 300/300 [00:49<00:00,  6.01batch/s, accuracy=0.0926, loss=0.207]
Epoch 7 | prm: 100%|████████████████████████████████████████████████████████████████████████████████████████| 333/333 [00:55<00:00,  5.97batch/s, accuracy=0.0764, loss=0.25]


validation...
saving!
validation: accuracy=0.07456320356472795, loss=0.2617965916531618


Epoch 8 | trn: 100%|███████████████████████████████████████████████████████████████████████████████████████| 300/300 [00:49<00:00,  6.01batch/s, accuracy=0.0949, loss=0.202]
Epoch 8 | prm: 100%|███████████████████████████████████████████████████████████████████████████████████████| 333/333 [00:55<00:00,  5.97batch/s, accuracy=0.0783, loss=0.246]


validation...
saving!
validation: accuracy=0.07613156660412758, loss=0.2607909823448081


Epoch 9 | trn: 100%|███████████████████████████████████████████████████████████████████████████████████████| 300/300 [00:49<00:00,  6.01batch/s, accuracy=0.0967, loss=0.198]
Epoch 9 | prm: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 333/333 [00:55<00:00,  5.97batch/s, accuracy=0.08, loss=0.243]


validation...
validation: accuracy=0.0754719746716698, loss=0.26098465114328695


Epoch 10 | trn: 100%|██████████████████████████████████████████████████████████████████████████████████████| 300/300 [00:49<00:00,  6.01batch/s, accuracy=0.0989, loss=0.194]
Epoch 10 | prm: 100%|██████████████████████████████████████████████████████████████████████████████████████| 333/333 [00:55<00:00,  5.96batch/s, accuracy=0.0819, loss=0.239]


validation...
saving!
validation: accuracy=0.07816897279549719, loss=0.25605810247711125


Epoch 11 | trn: 100%|███████████████████████████████████████████████████████████████████████████████████| 300/300 [00:49<00:00,  6.01batch/s, accuracy=0.1, loss=0.191]
Epoch 11 | prm: 100%|████████████████████████████████████████████████████████████████████████████████| 333/333 [00:55<00:00,  5.96batch/s, accuracy=0.0832, loss=0.237]


validation...
saving!
validation: accuracy=0.0794734990619137, loss=0.2552501296460293


Epoch 12 | trn: 100%|█████████████████████████████████████████████████████████████████████████████████| 300/300 [00:50<00:00,  6.00batch/s, accuracy=0.102, loss=0.188]
Epoch 12 | prm: 100%|████████████████████████████████████████████████████████████████████████████████| 333/333 [00:55<00:00,  5.96batch/s, accuracy=0.0847, loss=0.234]


validation...
saving!
validation: accuracy=0.07960541744840526, loss=0.2537454037907871


Epoch 13 | trn: 100%|█████████████████████████████████████████████████████████████████████████████████| 300/300 [00:49<00:00,  6.00batch/s, accuracy=0.104, loss=0.185]
Epoch 13 | prm: 100%|█████████████████████████████████████████████████████████████████████████████████| 333/333 [00:55<00:00,  5.96batch/s, accuracy=0.086, loss=0.231]


validation...
saving!
validation: accuracy=0.08102720450281425, loss=0.2521034342710341


Epoch 14 | trn: 100%|███████████████████████████████████████████████████████████████████████████████████████| 300/300 [00:49<00:00,  6.01batch/s, accuracy=0.105, loss=0.181]
Epoch 14 | prm: 100%|██████████████████████████████████████████████████████████████████████████████████████| 333/333 [00:55<00:00,  5.97batch/s, accuracy=0.0873, loss=0.229]


validation...
saving!
validation: accuracy=0.08284474671669793, loss=0.24967908769790048


Epoch 15 | trn: 100%|███████████████████████████████████████████████████████████████████████████████████████| 300/300 [00:49<00:00,  6.01batch/s, accuracy=0.107, loss=0.179]
Epoch 15 | prm: 100%|██████████████████████████████████████████████████████████████████████████████████████| 333/333 [00:55<00:00,  5.97batch/s, accuracy=0.0886, loss=0.226]


validation...
saving!
validation: accuracy=0.08302063789868667, loss=0.24809621333181298


Epoch 16 | trn: 100%|███████████████████████████████████████████████████████████████████████████████████████| 300/300 [00:49<00:00,  6.00batch/s, accuracy=0.108, loss=0.176]
Epoch 16 | prm: 100%|██████████████████████████████████████████████████████████████████████████████████████| 333/333 [00:55<00:00,  5.97batch/s, accuracy=0.0897, loss=0.224]


validation...
saving!
validation: accuracy=0.08373886022514071, loss=0.24694101716519296


Epoch 17 | trn: 100%|████████████████████████████████████████████████████████████████████████████████████████| 300/300 [00:49<00:00,  6.01batch/s, accuracy=0.11, loss=0.174]
Epoch 17 | prm: 100%|██████████████████████████████████████████████████████████████████████████████████████| 333/333 [00:55<00:00,  5.97batch/s, accuracy=0.0909, loss=0.222]


validation...
saving!
validation: accuracy=0.08476489212007504, loss=0.24575961061087603


Epoch 18 | trn: 100%|███████████████████████████████████████████████████████████████████████████████████████| 300/300 [00:49<00:00,  6.01batch/s, accuracy=0.111, loss=0.171]
Epoch 18 | prm: 100%|███████████████████████████████████████████████████████████████████████████████████████| 333/333 [00:55<00:00,  5.97batch/s, accuracy=0.0922, loss=0.22]


validation...
saving!
validation: accuracy=0.08492612570356473, loss=0.24473657214395547


Epoch 19 | trn: 100%|███████████████████████████████████████████████████████████████████████████████████████| 300/300 [00:49<00:00,  6.01batch/s, accuracy=0.113, loss=0.169]
Epoch 19 | prm: 100%|██████████████████████████████████████████████████████████████████████████████████████| 333/333 [00:55<00:00,  5.97batch/s, accuracy=0.0935, loss=0.218]


validation...
saving!
validation: accuracy=0.08554174484052533, loss=0.24395440622297504


Epoch 20 | trn: 100%|███████████████████████████████████████████████████████████████████████████████████████| 300/300 [00:49<00:00,  6.01batch/s, accuracy=0.114, loss=0.167]
Epoch 20 | prm: 100%|██████████████████████████████████████████████████████████████████████████████████████| 333/333 [00:55<00:00,  5.97batch/s, accuracy=0.0948, loss=0.216]


validation...
saving!
validation: accuracy=0.08694887429643527, loss=0.24167121463152974


Epoch 21 | trn: 100%|███████████████████████████████████████████████████████████████████████████████████████| 300/300 [00:49<00:00,  6.01batch/s, accuracy=0.115, loss=0.164]
Epoch 21 | prm: 100%|██████████████████████████████████████████████████████████████████████████████████████| 333/333 [00:55<00:00,  5.97batch/s, accuracy=0.0957, loss=0.214]


validation...
validation: accuracy=0.08592284240150094, loss=0.24321840806928852


Epoch 22 | trn: 100%|███████████████████████████████████████████████████████████████████████████████████████| 300/300 [00:49<00:00,  6.01batch/s, accuracy=0.117, loss=0.163]
Epoch 22 | prm: 100%|██████████████████████████████████████████████████████████████████████████████████████| 333/333 [00:55<00:00,  5.97batch/s, accuracy=0.0969, loss=0.212]


validation...
validation: accuracy=0.08573229362101313, loss=0.24328041971288972


Epoch 23 | trn: 100%|████████████████████████████████████████████████████████████████████████████████████████| 300/300 [00:49<00:00,  6.00batch/s, accuracy=0.118, loss=0.16]
Epoch 23 | prm: 100%|███████████████████████████████████████████████████████████████████████████████████████| 333/333 [00:55<00:00,  5.97batch/s, accuracy=0.0979, loss=0.21]


validation...
saving!
validation: accuracy=0.08709545028142589, loss=0.24086959679623257


Epoch 24 | trn: 100%|███████████████████████████████████████████████████████████████████████████████████████| 300/300 [00:49<00:00,  6.01batch/s, accuracy=0.119, loss=0.158]
Epoch 24 | prm: 100%|███████████████████████████████████████████████████████████████████████████████████████| 333/333 [00:55<00:00,  5.97batch/s, accuracy=0.099, loss=0.208]


validation...
saving!
validation: accuracy=0.08713942307692307, loss=0.2397890457740197


Epoch 25 | trn: 100%|████████████████████████████████████████████████████████████████████████████████████████| 300/300 [00:49<00:00,  6.01batch/s, accuracy=0.12, loss=0.156]
Epoch 25 | prm: 100%|██████████████████████████████████████████████████████████████████████████████████████| 333/333 [00:55<00:00,  5.95batch/s, accuracy=0.0999, loss=0.207]


validation...
validation: accuracy=0.087359287054409, loss=0.2405064168611566


Epoch 26 | trn: 100%|█████████████████████████████████████████████████████████████████████████████████| 300/300 [00:50<00:00,  5.99batch/s, accuracy=0.122, loss=0.154]
Epoch 26 | prm: 100%|█████████████████████████████████████████████████████████████████████████████████| 333/333 [00:55<00:00,  5.95batch/s, accuracy=0.101, loss=0.205]


validation...
saving!
validation: accuracy=0.08945532363977486, loss=0.23793593535503796


Epoch 27 | trn: 100%|█████████████████████████████████████████████████████████████████████████████████| 300/300 [00:49<00:00,  6.00batch/s, accuracy=0.123, loss=0.152]
Epoch 27 | prm: 100%|█████████████████████████████████████████████████████████████████████████████████| 333/333 [00:55<00:00,  5.97batch/s, accuracy=0.102, loss=0.204]


validation...
saving!
validation: accuracy=0.08961655722326455, loss=0.23782278851764957


Epoch 28 | trn: 100%|██████████████████████████████████████████████████████████████████████████████████| 300/300 [00:49<00:00,  6.01batch/s, accuracy=0.124, loss=0.15]
Epoch 28 | prm: 100%|█████████████████████████████████████████████████████████████████████████████████| 333/333 [00:55<00:00,  5.97batch/s, accuracy=0.103, loss=0.202]


validation...
saving!
validation: accuracy=0.08927943245778612, loss=0.23747769305674712


Epoch 29 | trn: 100%|█████████████████████████████████████████████████████████████████████████████████| 300/300 [00:49<00:00,  6.00batch/s, accuracy=0.126, loss=0.149]
Epoch 29 | prm: 100%|███████████████████████████████████████████████████████████████████████████████████| 333/333 [00:55<00:00,  5.96batch/s, accuracy=0.104, loss=0.2]


validation...
saving!
validation: accuracy=0.09020286116322701, loss=0.23549226703608014


Epoch 30 | trn: 100%|███████████████████████████████████████████████████████████████████████████████████████| 300/300 [00:49<00:00,  6.00batch/s, accuracy=0.127, loss=0.147]
Epoch 30 | prm: 100%|███████████████████████████████████████████████████████████████████████████████████████| 333/333 [00:55<00:00,  5.97batch/s, accuracy=0.105, loss=0.199]


validation...
saving!
validation: accuracy=0.09039340994371482, loss=0.23286743996067297


Epoch 31 | trn:  98%|████████████████████████████████████████████████████████████████████████████████████▉  | 293/300 [00:49<00:01,  5.97batch/s, accuracy=0.128, loss=0.145]


KeyboardInterrupt: 

In [None]:
# to load the model
encoderModel = EncoderModel(src_vocab_size, d_model, num_heads, num_layers, d_ff, max_seq_length, dropout)
decoderModel = DecoderModel(tgt_vocab_size, d_model, num_heads, num_layers, d_ff, max_seq_length, dropout)

encoderModel.load_state_dict(torch.load(encoder_dir))
decoderModel.load_state_dict(torch.load(decoder_dir))

transformer = TransformerFromModels(encoderModel, decoderModel)
# for inference, not retraining, we need to run
transformer.eval()