In [1]:
import torch
import torch.nn as nn
from torch.utils.data import Dataset, DataLoader
from transformers import AdamW
from torch.nn.utils.rnn import pad_sequence
from torch.nn.functional import pad
from transformers import AutoModelForCausalLM, TrainingArguments, Trainer



In [2]:
from datasets import load_dataset
eli5 = load_dataset("eli5", split="train_asks[:5000]")
eli5 = eli5.train_test_split(test_size=0.2)

from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("distilgpt2")
eli5 = eli5.flatten()

def preprocess_function(examples):
    return tokenizer([" ".join(x) for x in examples["answers.text"]])

In [3]:
tokenized_eli5 = eli5.map(
    preprocess_function,
    batched=True,
    num_proc=1,
    remove_columns=eli5["train"].column_names,
)

Map:   0%|          | 0/4000 [00:00<?, ? examples/s]

Token indices sequence length is longer than the specified maximum sequence length for this model (1032 > 1024). Running this sequence through the model will result in indexing errors


Map:   0%|          | 0/1000 [00:00<?, ? examples/s]

In [4]:
block_size = 128


def group_texts(examples):
    # Concatenate all texts.
    concatenated_examples = {k: sum(examples[k], []) for k in examples.keys()}
    total_length = len(concatenated_examples[list(examples.keys())[0]])
    # We drop the small remainder, we could add padding if the model supported it instead of this drop, you can
    # customize this part to your needs.
    if total_length >= block_size:
        total_length = (total_length // block_size) * block_size
    # Split by chunks of block_size.
    result = {
        k: [t[i : i + block_size] for i in range(0, total_length, block_size)]
        for k, t in concatenated_examples.items()
    }
    result["labels"] = result["input_ids"].copy()
    return result
lm_dataset = tokenized_eli5.map(group_texts, batched=True, num_proc=1)

Map:   0%|          | 0/4000 [00:00<?, ? examples/s]

Map:   0%|          | 0/1000 [00:00<?, ? examples/s]

In [5]:
class Dataset(Dataset):
    def __init__(self,lm_dataset):
        self.lm_dataset=lm_dataset
        self.input_ids=[torch.tensor(x) for x in self.lm_dataset['train']['input_ids']]
        self.labels=[torch.tensor(x) for x in self.lm_dataset['train']['labels']]
        
    def __len__(self):
        return len(self.input_ids)

    def __getitem__(self, idx):
        # Tokenize and encode the sequence
        return self.input_ids[idx], self.labels[idx]

In [6]:
dataset=Dataset(lm_dataset)
dataset[0]

(tensor([18712,   263,    11,   475,   351,   517,  1176,    13,   220,   198,
          3886,  4395,   606,    13,   220,   198, 23379,   477, 45656,   389,
           783,  9857,   832, 39290, 40990, 34628,    11, 14821, 44847, 34628,
           290, 14821, 22969,   357,  1462,  1438,   257,  1178,   737,   220,
           198, 48401,  5479,   481,  3729,  1663,    11,   475,  2192,   407,
           287, 37312,   290, 22303,   262,   835,   530,   561,  1607,    13,
           383,  1103, 27580,   318,   379,   262, 41858,   290, 15709, 48228,
          1241,    13,   220,   198, 30374,   779,   534, 12855,   319,   534,
          3797,    13,   220,   198,  5297,  1682,    11, 13527,  5107,   357,
          1350,  3243,  4569, 12822, 31562,     8,   286,  8136,   284,   262,
          6769, 16022,  7800,  3499, 12779,   326,  1249,   884,  3499, 12779,
           355, 12855, 26741,   326, 19396,   287,  3095,  1633,    13,   220,
           198,    43, 19865,   481,   307,  8347,  

In [7]:
model = AutoModelForCausalLM.from_pretrained("distilgpt2")

dataloader = DataLoader(dataset, batch_size=8,shuffle=True)

# Set up optimizer and loss function
optimizer = AdamW(model.parameters(), lr=5e-4)
criterion = nn.CrossEntropyLoss()

# Training loop
num_epochs = 100
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
model.to(device)

dataloader



<torch.utils.data.dataloader.DataLoader at 0x152c13dc640>

In [8]:
from tqdm import tqdm
import gc

In [10]:
torch.cuda.empty_cache()
gc.collect()

0

In [11]:
for epoch in range(num_epochs):
    model.train()
    total_loss = 0.0

    for inp, lab in tqdm(dataloader):
        inputs = inp.to(device)
        labels = lab.to(device)

        # Forward pass
        outputs = model(inputs, labels=labels)
        loss = outputs.loss

        # Backward pass and optimization
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()

        total_loss += loss.item()

    average_loss = total_loss / len(dataloader)
    print(f'Epoch {epoch + 1}/{num_epochs}, Loss: {average_loss}')


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:49<00:00,  6.53it/s]


Epoch 1/100, Loss: 4.029330241960384


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:48<00:00,  6.57it/s]


Epoch 2/100, Loss: 3.573347851337619


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:48<00:00,  6.55it/s]


Epoch 3/100, Loss: 3.209056434536498


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:49<00:00,  6.53it/s]


Epoch 4/100, Loss: 2.8666898417429727


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:49<00:00,  6.53it/s]


Epoch 5/100, Loss: 2.5415283965374633


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:49<00:00,  6.53it/s]


Epoch 6/100, Loss: 2.24455025743619


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:49<00:00,  6.52it/s]


Epoch 7/100, Loss: 1.9808479728578012


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:49<00:00,  6.54it/s]


Epoch 8/100, Loss: 1.747976941075075


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:49<00:00,  6.53it/s]


Epoch 9/100, Loss: 1.5474283088396084


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:49<00:00,  6.52it/s]


Epoch 10/100, Loss: 1.37279077685332


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:49<00:00,  6.52it/s]


Epoch 11/100, Loss: 1.225246078444217


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:49<00:00,  6.53it/s]


Epoch 12/100, Loss: 1.0973032704852588


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:49<00:00,  6.53it/s]


Epoch 13/100, Loss: 0.9885152522845035


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:49<00:00,  6.52it/s]


Epoch 14/100, Loss: 0.8940250041471899


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:49<00:00,  6.52it/s]


Epoch 15/100, Loss: 0.8138391736079729


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:49<00:00,  6.53it/s]


Epoch 16/100, Loss: 0.7440948898872027


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:49<00:00,  6.53it/s]


Epoch 17/100, Loss: 0.6843007828831457


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:49<00:00,  6.52it/s]


Epoch 18/100, Loss: 0.6319221829419541


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:49<00:00,  6.52it/s]


Epoch 19/100, Loss: 0.5891103972200891


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:49<00:00,  6.52it/s]


Epoch 20/100, Loss: 0.5521493810911076


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:49<00:00,  6.53it/s]


Epoch 21/100, Loss: 0.5175375942457434


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:49<00:00,  6.53it/s]


Epoch 22/100, Loss: 0.4888826716711465


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:49<00:00,  6.53it/s]


Epoch 23/100, Loss: 0.46280826528507807


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:49<00:00,  6.52it/s]


Epoch 24/100, Loss: 0.44032983937272113


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:49<00:00,  6.52it/s]


Epoch 25/100, Loss: 0.4208432803263932


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:49<00:00,  6.51it/s]


Epoch 26/100, Loss: 0.4024357030447741


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:50<00:00,  6.51it/s]


Epoch 27/100, Loss: 0.3873622761011986


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:49<00:00,  6.52it/s]


Epoch 28/100, Loss: 0.3725807759472949


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:48<00:00,  6.55it/s]


Epoch 29/100, Loss: 0.3582768083076796


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:48<00:00,  6.56it/s]


Epoch 30/100, Loss: 0.34687822151787673


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:48<00:00,  6.55it/s]


Epoch 31/100, Loss: 0.33283490074586264


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:48<00:00,  6.57it/s]


Epoch 32/100, Loss: 0.326294675132573


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:47<00:00,  6.59it/s]


Epoch 33/100, Loss: 0.31350136732861106


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:47<00:00,  6.59it/s]


Epoch 34/100, Loss: 0.3031623926262959


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:49<00:00,  6.54it/s]


Epoch 35/100, Loss: 0.29562674590788957


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:50<00:00,  6.50it/s]


Epoch 36/100, Loss: 0.2891898212068551


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:49<00:00,  6.52it/s]


Epoch 37/100, Loss: 0.2806931450747452


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:50<00:00,  6.48it/s]


Epoch 38/100, Loss: 0.2734598189484577


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:51<00:00,  6.46it/s]


Epoch 39/100, Loss: 0.267194220011424


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:50<00:00,  6.49it/s]


Epoch 40/100, Loss: 0.26103671456924615


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:50<00:00,  6.49it/s]


Epoch 41/100, Loss: 0.2559091316344078


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:51<00:00,  6.47it/s]


Epoch 42/100, Loss: 0.24983766316613065


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:50<00:00,  6.47it/s]


Epoch 43/100, Loss: 0.24488221566996135


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:51<00:00,  6.45it/s]


Epoch 44/100, Loss: 0.23969142196891968


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:50<00:00,  6.48it/s]


Epoch 45/100, Loss: 0.2349021809603379


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:51<00:00,  6.46it/s]


Epoch 46/100, Loss: 0.2301525987859876


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:52<00:00,  6.43it/s]


Epoch 47/100, Loss: 0.22571587991003103


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:51<00:00,  6.45it/s]


Epoch 48/100, Loss: 0.22212872669019923


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:49<00:00,  6.51it/s]


Epoch 49/100, Loss: 0.21882618217986705


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:49<00:00,  6.54it/s]


Epoch 50/100, Loss: 0.21388288413529802


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:48<00:00,  6.56it/s]


Epoch 51/100, Loss: 0.20998228846579306


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:47<00:00,  6.58it/s]


Epoch 52/100, Loss: 0.2077093106739991


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:47<00:00,  6.59it/s]


Epoch 53/100, Loss: 0.20298993715487595


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:47<00:00,  6.58it/s]


Epoch 54/100, Loss: 0.20060778571592533


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:48<00:00,  6.57it/s]


Epoch 55/100, Loss: 0.1984734298765767


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:47<00:00,  6.59it/s]


Epoch 56/100, Loss: 0.19350236449491698


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:47<00:00,  6.59it/s]


Epoch 57/100, Loss: 0.19124597501663143


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:49<00:00,  6.53it/s]


Epoch 58/100, Loss: 0.18863008551259153


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:50<00:00,  6.50it/s]


Epoch 59/100, Loss: 0.18687185992033745


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:50<00:00,  6.49it/s]


Epoch 60/100, Loss: 0.18376896002921014


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:50<00:00,  6.49it/s]


Epoch 61/100, Loss: 0.18098873690201836


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:50<00:00,  6.50it/s]


Epoch 62/100, Loss: 0.1783004322276193


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:49<00:00,  6.52it/s]


Epoch 63/100, Loss: 0.17657674686009803


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:49<00:00,  6.51it/s]


Epoch 64/100, Loss: 0.17330683998857874


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:49<00:00,  6.51it/s]


Epoch 65/100, Loss: 0.17189436492124474


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:49<00:00,  6.51it/s]


Epoch 66/100, Loss: 0.1697751748195393


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:49<00:00,  6.51it/s]


Epoch 67/100, Loss: 0.1676407643201446


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:50<00:00,  6.50it/s]


Epoch 68/100, Loss: 0.1651265189711806


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:51<00:00,  6.47it/s]


Epoch 69/100, Loss: 0.16378104859191728


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:50<00:00,  6.49it/s]


Epoch 70/100, Loss: 0.1614180630305361


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:49<00:00,  6.53it/s]


Epoch 71/100, Loss: 0.16019211904184513


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:49<00:00,  6.54it/s]


Epoch 72/100, Loss: 0.15789688526102044


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:49<00:00,  6.53it/s]


Epoch 73/100, Loss: 0.15572804072450772


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:49<00:00,  6.51it/s]


Epoch 74/100, Loss: 0.1559826531270637


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:49<00:00,  6.51it/s]


Epoch 75/100, Loss: 0.15190720777103095


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:49<00:00,  6.51it/s]


Epoch 76/100, Loss: 0.15089562237532186


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:49<00:00,  6.51it/s]


Epoch 77/100, Loss: 0.15023167221175396


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:49<00:00,  6.53it/s]


Epoch 78/100, Loss: 0.1476830689751865


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:49<00:00,  6.52it/s]


Epoch 79/100, Loss: 0.14656386224664142


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:49<00:00,  6.51it/s]


Epoch 80/100, Loss: 0.14566481122864952


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:49<00:00,  6.52it/s]


Epoch 81/100, Loss: 0.1444224826317907


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:49<00:00,  6.52it/s]


Epoch 82/100, Loss: 0.14258411170318588


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:49<00:00,  6.52it/s]


Epoch 83/100, Loss: 0.1415579016194098


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:49<00:00,  6.52it/s]


Epoch 84/100, Loss: 0.13955529292146077


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:50<00:00,  6.49it/s]


Epoch 85/100, Loss: 0.13887914002723117


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:50<00:00,  6.48it/s]


Epoch 86/100, Loss: 0.1383776355999611


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:50<00:00,  6.49it/s]


Epoch 87/100, Loss: 0.13529894562946737


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:50<00:00,  6.48it/s]


Epoch 88/100, Loss: 0.1344561572531895


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:50<00:00,  6.49it/s]


Epoch 89/100, Loss: 0.1342235179803255


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:50<00:00,  6.49it/s]


Epoch 90/100, Loss: 0.13177346287945296


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:50<00:00,  6.50it/s]


Epoch 91/100, Loss: 0.13186976366135786


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:49<00:00,  6.51it/s]


Epoch 92/100, Loss: 0.13102718150313897


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:50<00:00,  6.50it/s]


Epoch 93/100, Loss: 0.12869446383785813


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:50<00:00,  6.50it/s]


Epoch 94/100, Loss: 0.12825777996701962


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:50<00:00,  6.50it/s]


Epoch 95/100, Loss: 0.12704301868678217


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:49<00:00,  6.52it/s]


Epoch 96/100, Loss: 0.12637844158986594


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:49<00:00,  6.51it/s]


Epoch 97/100, Loss: 0.12476319395288636


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:49<00:00,  6.52it/s]


Epoch 98/100, Loss: 0.12432467264492085


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:49<00:00,  6.53it/s]


Epoch 99/100, Loss: 0.12273606695032681


100%|██████████████████████████████████████████████████████████████████████████████| 1106/1106 [02:49<00:00,  6.52it/s]

Epoch 100/100, Loss: 0.1223069200693052





In [12]:
torch.save(model, 'example_distiledGPT.pth')