In [1]:
# Training the brain, using text alone.

In [2]:
from visual_transformer import *

In [3]:
from pathlib import Path
from tokenizers import ByteLevelBPETokenizer
from tokenizers.processors import BertProcessing
from torch.utils.data import Dataset

In [4]:
#device = torch.device("cuda" if torch.cuda.is_available() else "cpu") # -- penguins.farm version
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu") # -- penguins.army version
paths = ["text_pretraining_data/eng_sentences_pruned-train.txt"]
vocab_size = 10000
# tokenizer.save_model(".", "tokenizer/eng_sentences_tokenizer_vc10000")
tokenizer = ByteLevelBPETokenizer(
    "./text_pretraining_tokenizer/eng_sentences_tokenizer_vc10000_v2-vocab.json",
    "./text_pretraining_tokenizer/eng_sentences_tokenizer_vc10000_v2-merges.txt",
)   
tokenizer._tokenizer.post_processor = BertProcessing(
    ("</s>", tokenizer.token_to_id("</s>")),
    ("<s>", tokenizer.token_to_id("<s>")),
)   
tokenizer.enable_truncation(max_length=32)
tokenizer.enable_padding()

## Dataset
class SampleDataset(Dataset):
    def __init__(self, seq_length = 32, evaluate: bool = False, tokenizer=None, device = None):
        if device is None:
            device = 'cpu'
        self.device = device
        self.seq_length = seq_length
        if tokenizer is None:
            tokenizer = ByteLevelBPETokenizer(
                "./text_pretraining_tokenizer/eng_sentences_tokenizer_v2-vocab.json",
                "./text_pretraining_tokenizer/eng_sentences_tokenizer_v2-merges.txt",
            )   
        tokenizer._tokenizer.post_processor = BertProcessing(
            ("</s>", tokenizer.token_to_id("</s>")),
            ("<s>", tokenizer.token_to_id("<s>")),
        )   
        tokenizer.enable_truncation(max_length=self.seq_length)
        tokenizer.enable_padding()#length=seq_length)
        # or use the RobertaTokenizer from `transformers` directly.

        self.examples = []

        src_files = Path("./text_pretraining_data/").glob("*-eval.txt") if evaluate else Path("./text_pretraining_data/").glob("*-train.txt")
        for src_file in src_files:
            print("🔥", src_file)
            lines = src_file.read_text(encoding="utf-8").splitlines()
            self.examples += [x.ids for x in tokenizer.encode_batch(lines)]

    def __len__(self):
        return len(self.examples)

    def __getitem__(self, i): 
        # We’ll pad at the batch level.
        return torch.tensor(self.examples[i]).to(self.device)

In [5]:
brain = DefaultAgentBrain().to(device)

In [6]:
sdt = SampleDataset(tokenizer=tokenizer)
sdv = SampleDataset(tokenizer=tokenizer, evaluate=True)

🔥 text_pretraining_data/eng_sentences_pruned-train.txt
🔥 text_pretraining_data/eng_sentences_pruned-eval.txt


In [7]:
from torch.utils.data import DataLoader

batch_size = 80 #32*4*2#8
num_workers = 0

train_loader = DataLoader(sdt, batch_size=batch_size,
                          num_workers=num_workers, shuffle=True)

In [8]:
criterion = nn.CrossEntropyLoss(ignore_index=0)

def get_loss(res, inputs):
    return torch.sum(criterion(res[:, :, :-1], inputs[:, 1:]))

In [None]:
from tqdm import tqdm

criterion = nn.CrossEntropyLoss(ignore_index=0)
optimizer = optim.Adam(brain.parameters(), lr=0.0001*80/256, eps=1e-9)#, #betas=(0.9, 0.98), eps=1e-9)

epochs = 16

for epoch in range(epochs):
    brain.train()
    train_loss = 0
    i = -1
    for inputs in tqdm(train_loader, desc=f"Training Epoch {epoch + 1}/{epochs}"):
        i += 1
        inputs = inputs.to(device)
        img_context = torch.randn((batch_size, 256, 768), device=inputs.device) # easier for pretraining
        src_attention_mask, src_key_padding_mask = brain.get_masks(inputs, use_masks=True)
        text_encoding = brain.get_text_encoding(inputs, src_attention_mask, src_key_padding_mask)
        res = brain.get_text_decoding(text_encoding, src_attention_mask, src_key_padding_mask, img_context, return_full=True)
        loss = get_loss(res, inputs)
        loss.backward()
        optimizer.step()
        optimizer.zero_grad()
        train_loss += loss.item()
        if i % 1000 == 0:
            avg_train_loss = train_loss / (i + 1)
            print(f"Average Training Loss at batch {i + 1}: {avg_train_loss}")
            torch.save(brain.text_enc.state_dict(), 'brain_checkpoints/text_encoder_weights_v5.pth')
            torch.save(brain.text_dec.state_dict(), 'brain_checkpoints/text_decoder_weights_v5.pth')
    avg_train_loss = train_loss / len(train_loader)
    print(f"Average Training Loss after epoch {epoch}: {avg_train_loss}")
    torch.save(brain.text_enc.state_dict(), 'brain_checkpoints/text_encoder_weights_v5.pth')
    torch.save(brain.text_dec.state_dict(), 'brain_checkpoints/text_decoder_weights_v5.pth')

Training Epoch 1/16:   0%|                                                                                                                                                                                 | 0/20000 [00:00<?, ?it/s]

Average Training Loss at batch 1: 2.57485294342041


Training Epoch 1/16:   5%|████████▏                                                                                                                                                           | 1000/20000 [11:40<3:39:56,  1.44it/s]

Average Training Loss at batch 1001: 2.7464449901085395


Training Epoch 1/16:  10%|████████████████▍                                                                                                                                                   | 2000/20000 [23:18<3:26:38,  1.45it/s]

Average Training Loss at batch 2001: 2.7476680111968474


Training Epoch 1/16:  15%|████████████████████████▌                                                                                                                                           | 3000/20000 [34:55<3:15:00,  1.45it/s]

Average Training Loss at batch 3001: 2.7470537762926326


Training Epoch 1/16:  20%|████████████████████████████████▊                                                                                                                                   | 4000/20000 [46:30<3:04:01,  1.45it/s]

Average Training Loss at batch 4001: 2.7457614956245338


Training Epoch 1/16:  25%|█████████████████████████████████████████                                                                                                                           | 5000/20000 [58:07<2:52:07,  1.45it/s]

Average Training Loss at batch 5001: 2.745810607413582


Training Epoch 1/16:  30%|████████████████████████████████████████████████▌                                                                                                                 | 6000/20000 [1:09:42<2:41:02,  1.45it/s]

Average Training Loss at batch 6001: 2.7444192146265673


Training Epoch 1/16:  35%|████████████████████████████████████████████████████████▋                                                                                                         | 7000/20000 [1:21:18<2:29:24,  1.45it/s]

Average Training Loss at batch 7001: 2.7441621956323288


Training Epoch 1/16:  40%|████████████████████████████████████████████████████████████████▊                                                                                                 | 8000/20000 [1:32:54<2:17:55,  1.45it/s]

Average Training Loss at batch 8001: 2.7442622507174246


Training Epoch 1/16:  45%|████████████████████████████████████████████████████████████████████████▉                                                                                         | 9000/20000 [1:44:30<2:06:02,  1.45it/s]

Average Training Loss at batch 9001: 2.743551623329906


Training Epoch 1/16:  50%|████████████████████████████████████████████████████████████████████████████████▌                                                                                | 10000/20000 [1:56:05<1:54:34,  1.45it/s]

Average Training Loss at batch 10001: 2.7431635051092593


Training Epoch 1/16:  55%|████████████████████████████████████████████████████████████████████████████████████████▌                                                                        | 11000/20000 [2:07:40<1:43:26,  1.45it/s]

Average Training Loss at batch 11001: 2.7430106039188544


Training Epoch 1/16:  60%|████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                | 12000/20000 [2:19:16<1:31:45,  1.45it/s]

Average Training Loss at batch 12001: 2.7434393701210844


Training Epoch 1/16:  65%|████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                        | 13000/20000 [2:30:51<1:20:24,  1.45it/s]

Average Training Loss at batch 13001: 2.7433261110474354


Training Epoch 1/16:  70%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                | 14000/20000 [2:42:27<1:08:57,  1.45it/s]

Average Training Loss at batch 14001: 2.743612541470236


Training Epoch 1/16:  75%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                        | 15000/20000 [2:54:03<57:28,  1.45it/s]

Average Training Loss at batch 15001: 2.743344100791052


Training Epoch 1/16:  80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                | 16000/20000 [3:05:39<45:41,  1.46it/s]

Average Training Loss at batch 16001: 2.7431497149791997


Training Epoch 1/16:  85%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                        | 17000/20000 [3:17:11<34:19,  1.46it/s]

Average Training Loss at batch 17001: 2.742952244890822


Training Epoch 1/16:  90%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                | 18000/20000 [3:28:44<22:53,  1.46it/s]

Average Training Loss at batch 18001: 2.7426422437650153


Training Epoch 1/16:  95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊        | 19000/20000 [3:40:16<11:26,  1.46it/s]

Average Training Loss at batch 19001: 2.7423734431530034


Training Epoch 1/16: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 20000/20000 [3:51:49<00:00,  1.44it/s]


Average Training Loss after epoch 0: 2.7420826733112333


Training Epoch 2/16:   0%|                                                                                                                                                                                 | 0/20000 [00:00<?, ?it/s]

Average Training Loss at batch 1: 2.7697505950927734


Training Epoch 2/16:   5%|████████▏                                                                                                                                                           | 1000/20000 [11:33<3:36:48,  1.46it/s]

Average Training Loss at batch 1001: 2.6822283818171573


Training Epoch 2/16:  10%|████████████████▍                                                                                                                                                   | 2000/20000 [23:05<3:26:23,  1.45it/s]

Average Training Loss at batch 2001: 2.682164951540839


Training Epoch 2/16:  15%|████████████████████████▌                                                                                                                                           | 3000/20000 [34:37<3:14:34,  1.46it/s]

Average Training Loss at batch 3001: 2.6854271879199345


Training Epoch 2/16:  20%|████████████████████████████████▊                                                                                                                                   | 4000/20000 [46:10<3:03:01,  1.46it/s]

Average Training Loss at batch 4001: 2.6843621767750085


Training Epoch 2/16:  25%|█████████████████████████████████████████                                                                                                                           | 5000/20000 [57:42<2:51:34,  1.46it/s]

Average Training Loss at batch 5001: 2.6865466605947153


Training Epoch 2/16:  30%|████████████████████████████████████████████████▌                                                                                                                 | 6000/20000 [1:09:15<2:39:56,  1.46it/s]

Average Training Loss at batch 6001: 2.6873280816109175


Training Epoch 2/16:  35%|████████████████████████████████████████████████████████▋                                                                                                         | 7000/20000 [1:20:46<2:28:50,  1.46it/s]

Average Training Loss at batch 7001: 2.6875176108951075


Training Epoch 2/16:  40%|████████████████████████████████████████████████████████████████▊                                                                                                 | 8000/20000 [1:32:20<2:16:42,  1.46it/s]

Average Training Loss at batch 8001: 2.6889327716386373


Training Epoch 2/16:  45%|████████████████████████████████████████████████████████████████████████▉                                                                                         | 9000/20000 [1:43:52<2:05:39,  1.46it/s]

Average Training Loss at batch 9001: 2.689944128051968


Training Epoch 2/16:  50%|████████████████████████████████████████████████████████████████████████████████▌                                                                                | 10000/20000 [1:55:24<1:54:14,  1.46it/s]

Average Training Loss at batch 10001: 2.6913956908294767


Training Epoch 2/16:  55%|████████████████████████████████████████████████████████████████████████████████████████▌                                                                        | 11000/20000 [2:06:57<1:43:05,  1.46it/s]

Average Training Loss at batch 11001: 2.6917087791421372


Training Epoch 2/16:  60%|████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                | 12000/20000 [2:18:30<1:31:11,  1.46it/s]

Average Training Loss at batch 12001: 2.692064023556267


Training Epoch 2/16:  65%|████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                        | 13000/20000 [2:30:03<1:19:55,  1.46it/s]

Average Training Loss at batch 13001: 2.6921591690142113


Training Epoch 2/16:  70%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                | 14000/20000 [2:41:35<1:08:40,  1.46it/s]

Average Training Loss at batch 14001: 2.692319878424315


Training Epoch 2/16:  75%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                        | 15000/20000 [2:53:07<57:08,  1.46it/s]

Average Training Loss at batch 15001: 2.6931721077991417


Training Epoch 2/16:  80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                | 16000/20000 [3:04:40<45:48,  1.46it/s]

Average Training Loss at batch 16001: 2.6944201273006554


Training Epoch 2/16:  85%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                        | 17000/20000 [3:16:12<34:09,  1.46it/s]

Average Training Loss at batch 17001: 2.694626669877838


Training Epoch 2/16:  90%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                | 18000/20000 [3:27:44<22:50,  1.46it/s]

Average Training Loss at batch 18001: 2.695031713733447


Training Epoch 2/16:  95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊        | 19000/20000 [3:39:17<11:24,  1.46it/s]

Average Training Loss at batch 19001: 2.695275155677713


Training Epoch 2/16: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 20000/20000 [3:50:49<00:00,  1.44it/s]


Average Training Loss after epoch 1: 2.6958542519330977


Training Epoch 3/16:   0%|                                                                                                                                                                                 | 0/20000 [00:00<?, ?it/s]

Average Training Loss at batch 1: 2.678349494934082


Training Epoch 3/16:   5%|████████▏                                                                                                                                                           | 1000/20000 [11:33<3:37:41,  1.45it/s]

Average Training Loss at batch 1001: 2.63840402399267


Training Epoch 3/16:  10%|████████████████▍                                                                                                                                                   | 2000/20000 [23:05<3:25:42,  1.46it/s]

Average Training Loss at batch 2001: 2.6429334325471086


Training Epoch 3/16:  15%|████████████████████████▌                                                                                                                                           | 3000/20000 [34:38<3:14:27,  1.46it/s]

Average Training Loss at batch 3001: 2.646729375632037


Training Epoch 3/16:  20%|████████████████████████████████▊                                                                                                                                   | 4000/20000 [46:10<3:02:48,  1.46it/s]

Average Training Loss at batch 4001: 2.6474673706303533


Training Epoch 3/16:  25%|█████████████████████████████████████████                                                                                                                           | 5000/20000 [57:43<2:51:38,  1.46it/s]

Average Training Loss at batch 5001: 2.6490506531357454


Training Epoch 3/16:  30%|████████████████████████████████████████████████▌                                                                                                                 | 6000/20000 [1:09:15<2:40:12,  1.46it/s]

Average Training Loss at batch 6001: 2.650761636251848


Training Epoch 3/16:  35%|████████████████████████████████████████████████████████▋                                                                                                         | 7000/20000 [1:20:47<2:28:35,  1.46it/s]

Average Training Loss at batch 7001: 2.6526091728461094


Training Epoch 3/16:  40%|████████████████████████████████████████████████████████████████▊                                                                                                 | 8000/20000 [1:32:19<2:17:00,  1.46it/s]

Average Training Loss at batch 8001: 2.653184524909688


Training Epoch 3/16:  45%|████████████████████████████████████████████████████████████████████████▉                                                                                         | 9000/20000 [1:43:53<2:06:02,  1.45it/s]

Average Training Loss at batch 9001: 2.6548820276973433


Training Epoch 3/16:  50%|████████████████████████████████████████████████████████████████████████████████▌                                                                                | 10000/20000 [1:55:25<1:54:20,  1.46it/s]

Average Training Loss at batch 10001: 2.655866386389544


Training Epoch 3/16:  55%|████████████████████████████████████████████████████████████████████████████████████████▌                                                                        | 11000/20000 [2:07:06<1:43:43,  1.45it/s]

Average Training Loss at batch 11001: 2.6562396255951235


Training Epoch 3/16:  57%|██████████████████████████████████████████████████████████████████████████████████████████▉                                                                      | 11302/20000 [2:10:41<1:40:22,  1.44it/s]

In [10]:
# v4 final score: 2.73
# Relaunching v5 on top of v4, training further, but keeping v4 around as overfitting insurance.