In [1]:
import pandas as pd
from transformers import BertTokenizer, BertModel, AutoModelForSequenceClassification, AutoTokenizer, TrainingArguments, Trainer
import torch
import torch.nn as nn
from torch.utils.tensorboard import SummaryWriter
from datasets import Dataset

  from .autonotebook import tqdm as notebook_tqdm


In [2]:
# read the data
df = pd.read_csv('processed_data.csv')
df
# shuffle the data with seed 42
df = df.sample(frac=1, random_state=42).reset_index(drop=True)
# turn short_description to string
df['short_description'] = df['short_description'].astype(str)
df["headline"] = df["headline"].astype(str)
df["authors"] = df["authors"].astype(str)
# numerically encode the category column
df['category'] = pd.Categorical(df['category']).codes
df["text"] = df["short_description"] + " " + df["headline"] + " " + df["authors"]
num_categories = len(df['category'].unique())

# split the data into train and test
train_df = df[:int(len(df)*0.8)][:10000]
test_df = df[int(len(df)*0.8):][:10000]

# from dataframes to datasets (feature: text, label: category)
train_dataset = Dataset.from_pandas(train_df)
test_dataset = Dataset.from_pandas(test_df)



In [3]:
model = AutoModelForSequenceClassification.from_pretrained("distilbert-base-uncased", num_labels=num_categories)
training_args = TrainingArguments(
    output_dir='./results',          # output directory
    num_train_epochs=2,              # total number of training epochs
    per_device_train_batch_size=16,  # batch size per device during training
    per_device_eval_batch_size=16,   # batch size for evaluation
    warmup_steps=50,                # number of warmup steps for learning rate scheduler
    weight_decay=0.01,               # strength of weight decay
    logging_dir='./logs',            # directory for storing logs
    logging_steps=10,
    save_steps=500,
    evaluation_strategy='steps',
    eval_steps=500,
    load_best_model_at_end=True,
    metric_for_best_model='accuracy',
    greater_is_better=True,
)

Some weights of DistilBertForSequenceClassification were not initialized from the model checkpoint at distilbert-base-uncased and are newly initialized: ['classifier.weight', 'pre_classifier.weight', 'pre_classifier.bias', 'classifier.bias']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


In [4]:
# compute F1 on test
from sklearn.metrics import f1_score
from sklearn.metrics import accuracy_score
from sklearn.metrics import precision_score
from sklearn.metrics import recall_score

def compute_metrics(pred):
    labels = pred.label_ids
    preds = pred.predictions.argmax(-1)
    return {"accuracy": accuracy_score(labels, preds),
            "precision": precision_score(labels, preds, average='macro'),
            "recall": recall_score(labels, preds, average='macro'),
            "f1": f1_score(labels, preds, average='macro')}


In [5]:


# Initialize the tokenizer
tokenizer = AutoTokenizer.from_pretrained("distilbert-base-uncased")

# Tokenize the text data
def tokenize_function(examples):
    return tokenizer(examples["text"], padding="max_length", truncation=True)

tokenized_train = train_dataset.map(tokenize_function, batched=True)
tokenized_test = test_dataset.map(tokenize_function, batched=True)

# Define a function to format the dataset correctly
def format_dataset(dataset):
    dataset = dataset.map(lambda examples: {'labels': examples['category']}, batched=True)
    dataset.set_format(type='torch', columns=['input_ids', 'attention_mask', 'labels'])
    return dataset

# Format the datasets
formatted_train_dataset = format_dataset(tokenized_train)
formatted_test_dataset = format_dataset(tokenized_test)


Map: 100%|██████████| 10000/10000 [00:02<00:00, 4428.70 examples/s]
Map: 100%|██████████| 10000/10000 [00:02<00:00, 4372.54 examples/s]
Map: 100%|██████████| 10000/10000 [00:00<00:00, 294093.59 examples/s]
Map: 100%|██████████| 10000/10000 [00:00<00:00, 344781.71 examples/s]


In [6]:

# Update the Trainer with the formatted datasets
trainer = Trainer(
    model=model,                         
    args=training_args,                  
    train_dataset=formatted_train_dataset,  
    eval_dataset=formatted_test_dataset,  
    compute_metrics=compute_metrics,
)

# Train the model
trainer.train()

  1%|          | 10/1250 [00:05<08:40,  2.38it/s]

{'loss': 2.7165, 'learning_rate': 1e-05, 'epoch': 0.02}


  2%|▏         | 20/1250 [00:09<08:12,  2.50it/s]

{'loss': 2.6749, 'learning_rate': 2e-05, 'epoch': 0.03}


  2%|▏         | 30/1250 [00:13<08:07,  2.50it/s]

{'loss': 2.5995, 'learning_rate': 3e-05, 'epoch': 0.05}


  3%|▎         | 40/1250 [00:17<07:48,  2.58it/s]

{'loss': 2.4099, 'learning_rate': 4e-05, 'epoch': 0.06}


  4%|▍         | 50/1250 [00:21<07:43,  2.59it/s]

{'loss': 2.2284, 'learning_rate': 5e-05, 'epoch': 0.08}


  5%|▍         | 60/1250 [00:25<07:41,  2.58it/s]

{'loss': 1.9386, 'learning_rate': 4.958333333333334e-05, 'epoch': 0.1}


  6%|▌         | 70/1250 [00:29<07:38,  2.57it/s]

{'loss': 1.9369, 'learning_rate': 4.9166666666666665e-05, 'epoch': 0.11}


  6%|▋         | 80/1250 [00:33<07:35,  2.57it/s]

{'loss': 1.8245, 'learning_rate': 4.875e-05, 'epoch': 0.13}


  7%|▋         | 90/1250 [00:37<07:30,  2.57it/s]

{'loss': 1.8404, 'learning_rate': 4.8333333333333334e-05, 'epoch': 0.14}


  8%|▊         | 100/1250 [00:40<07:26,  2.57it/s]

{'loss': 1.5408, 'learning_rate': 4.791666666666667e-05, 'epoch': 0.16}


  9%|▉         | 110/1250 [00:44<07:23,  2.57it/s]

{'loss': 1.463, 'learning_rate': 4.75e-05, 'epoch': 0.18}


 10%|▉         | 120/1250 [00:48<07:20,  2.57it/s]

{'loss': 1.4644, 'learning_rate': 4.708333333333334e-05, 'epoch': 0.19}


 10%|█         | 130/1250 [00:52<07:17,  2.56it/s]

{'loss': 1.2488, 'learning_rate': 4.666666666666667e-05, 'epoch': 0.21}


 11%|█         | 140/1250 [00:56<07:13,  2.56it/s]

{'loss': 1.4087, 'learning_rate': 4.6250000000000006e-05, 'epoch': 0.22}


 12%|█▏        | 150/1250 [01:00<07:10,  2.56it/s]

{'loss': 1.153, 'learning_rate': 4.5833333333333334e-05, 'epoch': 0.24}


 13%|█▎        | 160/1250 [01:04<07:04,  2.57it/s]

{'loss': 1.1812, 'learning_rate': 4.541666666666667e-05, 'epoch': 0.26}


 14%|█▎        | 170/1250 [01:08<07:00,  2.57it/s]

{'loss': 1.0112, 'learning_rate': 4.5e-05, 'epoch': 0.27}


 14%|█▍        | 180/1250 [01:11<06:28,  2.76it/s]

{'loss': 1.1526, 'learning_rate': 4.458333333333334e-05, 'epoch': 0.29}


 15%|█▌        | 190/1250 [01:15<06:22,  2.77it/s]

{'loss': 1.036, 'learning_rate': 4.4166666666666665e-05, 'epoch': 0.3}


 16%|█▌        | 200/1250 [01:19<06:20,  2.76it/s]

{'loss': 0.9496, 'learning_rate': 4.375e-05, 'epoch': 0.32}


 17%|█▋        | 210/1250 [01:22<06:15,  2.77it/s]

{'loss': 1.0897, 'learning_rate': 4.3333333333333334e-05, 'epoch': 0.34}


 18%|█▊        | 220/1250 [01:26<06:12,  2.76it/s]

{'loss': 1.204, 'learning_rate': 4.291666666666667e-05, 'epoch': 0.35}


 18%|█▊        | 230/1250 [01:30<06:07,  2.78it/s]

{'loss': 0.9481, 'learning_rate': 4.25e-05, 'epoch': 0.37}


 19%|█▉        | 240/1250 [01:33<06:06,  2.76it/s]

{'loss': 1.0748, 'learning_rate': 4.208333333333334e-05, 'epoch': 0.38}


 20%|██        | 250/1250 [01:37<06:01,  2.77it/s]

{'loss': 0.9425, 'learning_rate': 4.166666666666667e-05, 'epoch': 0.4}


 21%|██        | 260/1250 [01:40<05:57,  2.77it/s]

{'loss': 0.9603, 'learning_rate': 4.125e-05, 'epoch': 0.42}


 22%|██▏       | 270/1250 [01:44<06:20,  2.58it/s]

{'loss': 0.9821, 'learning_rate': 4.0833333333333334e-05, 'epoch': 0.43}


 22%|██▏       | 280/1250 [01:48<06:17,  2.57it/s]

{'loss': 0.8809, 'learning_rate': 4.041666666666667e-05, 'epoch': 0.45}


 23%|██▎       | 290/1250 [01:52<06:13,  2.57it/s]

{'loss': 1.0104, 'learning_rate': 4e-05, 'epoch': 0.46}


 24%|██▍       | 300/1250 [01:56<06:10,  2.57it/s]

{'loss': 0.9669, 'learning_rate': 3.958333333333333e-05, 'epoch': 0.48}


 25%|██▍       | 310/1250 [02:00<06:06,  2.57it/s]

{'loss': 0.9514, 'learning_rate': 3.9166666666666665e-05, 'epoch': 0.5}


 26%|██▌       | 320/1250 [02:04<06:02,  2.57it/s]

{'loss': 1.2655, 'learning_rate': 3.875e-05, 'epoch': 0.51}


 26%|██▋       | 330/1250 [02:08<06:01,  2.55it/s]

{'loss': 0.8736, 'learning_rate': 3.8333333333333334e-05, 'epoch': 0.53}


 27%|██▋       | 340/1250 [02:12<05:54,  2.56it/s]

{'loss': 0.9364, 'learning_rate': 3.791666666666667e-05, 'epoch': 0.54}


 28%|██▊       | 350/1250 [02:16<05:50,  2.57it/s]

{'loss': 0.8242, 'learning_rate': 3.7500000000000003e-05, 'epoch': 0.56}


 29%|██▉       | 360/1250 [02:19<05:46,  2.57it/s]

{'loss': 0.8043, 'learning_rate': 3.708333333333334e-05, 'epoch': 0.58}


 30%|██▉       | 370/1250 [02:23<05:42,  2.57it/s]

{'loss': 0.8243, 'learning_rate': 3.6666666666666666e-05, 'epoch': 0.59}


 30%|███       | 380/1250 [02:27<05:39,  2.56it/s]

{'loss': 0.7827, 'learning_rate': 3.625e-05, 'epoch': 0.61}


 31%|███       | 390/1250 [02:31<05:34,  2.57it/s]

{'loss': 1.0659, 'learning_rate': 3.5833333333333335e-05, 'epoch': 0.62}


 32%|███▏      | 400/1250 [02:35<05:31,  2.56it/s]

{'loss': 0.9391, 'learning_rate': 3.541666666666667e-05, 'epoch': 0.64}


 33%|███▎      | 410/1250 [02:39<05:27,  2.56it/s]

{'loss': 0.8425, 'learning_rate': 3.5e-05, 'epoch': 0.66}


 34%|███▎      | 420/1250 [02:43<05:22,  2.57it/s]

{'loss': 0.8085, 'learning_rate': 3.458333333333333e-05, 'epoch': 0.67}


 34%|███▍      | 430/1250 [02:47<05:19,  2.57it/s]

{'loss': 0.9736, 'learning_rate': 3.4166666666666666e-05, 'epoch': 0.69}


 35%|███▌      | 440/1250 [02:51<05:15,  2.57it/s]

{'loss': 0.8888, 'learning_rate': 3.375000000000001e-05, 'epoch': 0.7}


 36%|███▌      | 450/1250 [02:55<05:12,  2.56it/s]

{'loss': 0.8198, 'learning_rate': 3.3333333333333335e-05, 'epoch': 0.72}


 37%|███▋      | 460/1250 [02:59<05:07,  2.57it/s]

{'loss': 0.7858, 'learning_rate': 3.291666666666667e-05, 'epoch': 0.74}


 38%|███▊      | 470/1250 [03:02<05:04,  2.56it/s]

{'loss': 0.9521, 'learning_rate': 3.2500000000000004e-05, 'epoch': 0.75}


 38%|███▊      | 480/1250 [03:06<05:00,  2.56it/s]

{'loss': 0.7493, 'learning_rate': 3.208333333333334e-05, 'epoch': 0.77}


 39%|███▉      | 490/1250 [03:10<04:57,  2.56it/s]

{'loss': 0.7808, 'learning_rate': 3.1666666666666666e-05, 'epoch': 0.78}


 40%|████      | 500/1250 [03:14<04:52,  2.56it/s]

{'loss': 0.8579, 'learning_rate': 3.125e-05, 'epoch': 0.8}


                                                  
 40%|████      | 500/1250 [04:35<04:52,  2.56it/s]

{'eval_loss': 0.7201665043830872, 'eval_accuracy': 0.7962, 'eval_precision': 0.772314593768759, 'eval_recall': 0.7184057380199713, 'eval_f1': 0.7313174544814747, 'eval_runtime': 80.5916, 'eval_samples_per_second': 124.082, 'eval_steps_per_second': 7.755, 'epoch': 0.8}


 41%|████      | 510/1250 [04:40<17:13,  1.40s/it]  

{'loss': 0.7838, 'learning_rate': 3.0833333333333335e-05, 'epoch': 0.82}


 42%|████▏     | 520/1250 [04:44<05:16,  2.31it/s]

{'loss': 0.7135, 'learning_rate': 3.0416666666666666e-05, 'epoch': 0.83}


 42%|████▏     | 530/1250 [04:48<04:53,  2.45it/s]

{'loss': 0.675, 'learning_rate': 3e-05, 'epoch': 0.85}


 43%|████▎     | 540/1250 [04:52<04:48,  2.46it/s]

{'loss': 0.7418, 'learning_rate': 2.9583333333333335e-05, 'epoch': 0.86}


 44%|████▍     | 550/1250 [04:56<04:44,  2.46it/s]

{'loss': 0.8862, 'learning_rate': 2.916666666666667e-05, 'epoch': 0.88}


 45%|████▍     | 560/1250 [05:00<04:40,  2.46it/s]

{'loss': 0.7703, 'learning_rate': 2.8749999999999997e-05, 'epoch': 0.9}


 46%|████▌     | 570/1250 [05:04<04:25,  2.56it/s]

{'loss': 0.6296, 'learning_rate': 2.8333333333333335e-05, 'epoch': 0.91}


 46%|████▋     | 580/1250 [05:08<04:21,  2.56it/s]

{'loss': 0.7246, 'learning_rate': 2.791666666666667e-05, 'epoch': 0.93}


 47%|████▋     | 590/1250 [05:12<04:18,  2.56it/s]

{'loss': 0.7511, 'learning_rate': 2.7500000000000004e-05, 'epoch': 0.94}


 48%|████▊     | 600/1250 [05:16<04:13,  2.56it/s]

{'loss': 0.5465, 'learning_rate': 2.7083333333333332e-05, 'epoch': 0.96}


 49%|████▉     | 610/1250 [05:20<04:09,  2.56it/s]

{'loss': 0.7194, 'learning_rate': 2.6666666666666667e-05, 'epoch': 0.98}


 50%|████▉     | 620/1250 [05:24<04:06,  2.56it/s]

{'loss': 0.7532, 'learning_rate': 2.625e-05, 'epoch': 0.99}


 50%|█████     | 630/1250 [05:28<04:01,  2.57it/s]

{'loss': 0.582, 'learning_rate': 2.5833333333333336e-05, 'epoch': 1.01}


 51%|█████     | 640/1250 [05:32<03:58,  2.56it/s]

{'loss': 0.4419, 'learning_rate': 2.5416666666666667e-05, 'epoch': 1.02}


 52%|█████▏    | 650/1250 [05:36<03:54,  2.56it/s]

{'loss': 0.4774, 'learning_rate': 2.5e-05, 'epoch': 1.04}


 53%|█████▎    | 660/1250 [05:40<03:50,  2.56it/s]

{'loss': 0.487, 'learning_rate': 2.4583333333333332e-05, 'epoch': 1.06}


 54%|█████▎    | 670/1250 [05:44<03:46,  2.56it/s]

{'loss': 0.3982, 'learning_rate': 2.4166666666666667e-05, 'epoch': 1.07}


 54%|█████▍    | 680/1250 [05:47<03:41,  2.57it/s]

{'loss': 0.3047, 'learning_rate': 2.375e-05, 'epoch': 1.09}


 55%|█████▌    | 690/1250 [05:51<03:38,  2.56it/s]

{'loss': 0.4597, 'learning_rate': 2.3333333333333336e-05, 'epoch': 1.1}


 56%|█████▌    | 700/1250 [05:55<03:34,  2.56it/s]

{'loss': 0.401, 'learning_rate': 2.2916666666666667e-05, 'epoch': 1.12}


 57%|█████▋    | 710/1250 [05:59<03:30,  2.56it/s]

{'loss': 0.3746, 'learning_rate': 2.25e-05, 'epoch': 1.14}


 58%|█████▊    | 720/1250 [06:03<03:26,  2.57it/s]

{'loss': 0.414, 'learning_rate': 2.2083333333333333e-05, 'epoch': 1.15}


 58%|█████▊    | 730/1250 [06:07<03:22,  2.57it/s]

{'loss': 0.4708, 'learning_rate': 2.1666666666666667e-05, 'epoch': 1.17}


 59%|█████▉    | 740/1250 [06:11<03:18,  2.56it/s]

{'loss': 0.3048, 'learning_rate': 2.125e-05, 'epoch': 1.18}


 60%|██████    | 750/1250 [06:15<03:15,  2.56it/s]

{'loss': 0.45, 'learning_rate': 2.0833333333333336e-05, 'epoch': 1.2}


 61%|██████    | 760/1250 [06:19<03:11,  2.57it/s]

{'loss': 0.4606, 'learning_rate': 2.0416666666666667e-05, 'epoch': 1.22}


 62%|██████▏   | 770/1250 [06:23<03:06,  2.57it/s]

{'loss': 0.3206, 'learning_rate': 2e-05, 'epoch': 1.23}


 62%|██████▏   | 780/1250 [06:26<03:02,  2.57it/s]

{'loss': 0.4059, 'learning_rate': 1.9583333333333333e-05, 'epoch': 1.25}


 63%|██████▎   | 790/1250 [06:30<02:59,  2.57it/s]

{'loss': 0.4736, 'learning_rate': 1.9166666666666667e-05, 'epoch': 1.26}


 64%|██████▍   | 800/1250 [06:34<02:55,  2.56it/s]

{'loss': 0.382, 'learning_rate': 1.8750000000000002e-05, 'epoch': 1.28}


 65%|██████▍   | 810/1250 [06:38<02:51,  2.57it/s]

{'loss': 0.467, 'learning_rate': 1.8333333333333333e-05, 'epoch': 1.3}


 66%|██████▌   | 820/1250 [06:42<02:47,  2.56it/s]

{'loss': 0.4191, 'learning_rate': 1.7916666666666667e-05, 'epoch': 1.31}


 66%|██████▋   | 830/1250 [06:46<02:43,  2.56it/s]

{'loss': 0.4692, 'learning_rate': 1.75e-05, 'epoch': 1.33}


 67%|██████▋   | 840/1250 [06:50<02:40,  2.56it/s]

{'loss': 0.3428, 'learning_rate': 1.7083333333333333e-05, 'epoch': 1.34}


 68%|██████▊   | 850/1250 [06:54<02:35,  2.57it/s]

{'loss': 0.3376, 'learning_rate': 1.6666666666666667e-05, 'epoch': 1.36}


 69%|██████▉   | 860/1250 [06:58<02:31,  2.57it/s]

{'loss': 0.4951, 'learning_rate': 1.6250000000000002e-05, 'epoch': 1.38}


 70%|██████▉   | 870/1250 [07:02<02:28,  2.56it/s]

{'loss': 0.5467, 'learning_rate': 1.5833333333333333e-05, 'epoch': 1.39}


 70%|███████   | 880/1250 [07:06<02:24,  2.56it/s]

{'loss': 0.3953, 'learning_rate': 1.5416666666666668e-05, 'epoch': 1.41}


 71%|███████   | 890/1250 [07:09<02:20,  2.57it/s]

{'loss': 0.4783, 'learning_rate': 1.5e-05, 'epoch': 1.42}


 72%|███████▏  | 900/1250 [07:13<02:16,  2.56it/s]

{'loss': 0.2643, 'learning_rate': 1.4583333333333335e-05, 'epoch': 1.44}


 73%|███████▎  | 910/1250 [07:17<02:12,  2.56it/s]

{'loss': 0.1851, 'learning_rate': 1.4166666666666668e-05, 'epoch': 1.46}


 74%|███████▎  | 920/1250 [07:21<02:08,  2.56it/s]

{'loss': 0.4896, 'learning_rate': 1.3750000000000002e-05, 'epoch': 1.47}


 74%|███████▍  | 930/1250 [07:25<02:04,  2.57it/s]

{'loss': 0.2895, 'learning_rate': 1.3333333333333333e-05, 'epoch': 1.49}


 75%|███████▌  | 940/1250 [07:29<02:00,  2.57it/s]

{'loss': 0.3801, 'learning_rate': 1.2916666666666668e-05, 'epoch': 1.5}


 76%|███████▌  | 950/1250 [07:33<01:56,  2.57it/s]

{'loss': 0.4727, 'learning_rate': 1.25e-05, 'epoch': 1.52}


 77%|███████▋  | 960/1250 [07:37<01:52,  2.57it/s]

{'loss': 0.3781, 'learning_rate': 1.2083333333333333e-05, 'epoch': 1.54}


 78%|███████▊  | 970/1250 [07:41<01:49,  2.57it/s]

{'loss': 0.4144, 'learning_rate': 1.1666666666666668e-05, 'epoch': 1.55}


 78%|███████▊  | 980/1250 [07:45<01:45,  2.57it/s]

{'loss': 0.3663, 'learning_rate': 1.125e-05, 'epoch': 1.57}


 79%|███████▉  | 990/1250 [07:49<01:44,  2.48it/s]

{'loss': 0.4346, 'learning_rate': 1.0833333333333334e-05, 'epoch': 1.58}


 80%|████████  | 1000/1250 [07:53<01:41,  2.46it/s]

{'loss': 0.4869, 'learning_rate': 1.0416666666666668e-05, 'epoch': 1.6}


                                                   
 80%|████████  | 1000/1250 [09:12<01:41,  2.46it/s]

{'eval_loss': 0.5769881010055542, 'eval_accuracy': 0.8382, 'eval_precision': 0.8062456684035972, 'eval_recall': 0.7914781246120076, 'eval_f1': 0.7971966493925249, 'eval_runtime': 79.8122, 'eval_samples_per_second': 125.294, 'eval_steps_per_second': 7.831, 'epoch': 1.6}


 81%|████████  | 1010/1250 [09:18<05:30,  1.38s/it]  

{'loss': 0.386, 'learning_rate': 1e-05, 'epoch': 1.62}


 82%|████████▏ | 1020/1250 [09:22<01:36,  2.39it/s]

{'loss': 0.3896, 'learning_rate': 9.583333333333334e-06, 'epoch': 1.63}


 82%|████████▏ | 1030/1250 [09:26<01:25,  2.56it/s]

{'loss': 0.5031, 'learning_rate': 9.166666666666666e-06, 'epoch': 1.65}


 83%|████████▎ | 1040/1250 [09:30<01:23,  2.52it/s]

{'loss': 0.2966, 'learning_rate': 8.75e-06, 'epoch': 1.66}


 84%|████████▍ | 1050/1250 [09:34<01:18,  2.55it/s]

{'loss': 0.3366, 'learning_rate': 8.333333333333334e-06, 'epoch': 1.68}


 85%|████████▍ | 1060/1250 [09:38<01:16,  2.48it/s]

{'loss': 0.322, 'learning_rate': 7.916666666666667e-06, 'epoch': 1.7}


 86%|████████▌ | 1070/1250 [09:42<01:12,  2.47it/s]

{'loss': 0.3243, 'learning_rate': 7.5e-06, 'epoch': 1.71}


 86%|████████▋ | 1080/1250 [09:46<01:09,  2.46it/s]

{'loss': 0.4672, 'learning_rate': 7.083333333333334e-06, 'epoch': 1.73}


 87%|████████▋ | 1090/1250 [09:50<01:05,  2.46it/s]

{'loss': 0.5311, 'learning_rate': 6.666666666666667e-06, 'epoch': 1.74}


 88%|████████▊ | 1100/1250 [09:54<00:58,  2.56it/s]

{'loss': 0.4255, 'learning_rate': 6.25e-06, 'epoch': 1.76}


 89%|████████▉ | 1110/1250 [09:58<00:54,  2.56it/s]

{'loss': 0.3062, 'learning_rate': 5.833333333333334e-06, 'epoch': 1.78}


 90%|████████▉ | 1120/1250 [10:02<00:52,  2.48it/s]

{'loss': 0.3835, 'learning_rate': 5.416666666666667e-06, 'epoch': 1.79}


 90%|█████████ | 1130/1250 [10:05<00:46,  2.55it/s]

{'loss': 0.3132, 'learning_rate': 5e-06, 'epoch': 1.81}


 91%|█████████ | 1140/1250 [10:10<00:44,  2.47it/s]

{'loss': 0.3546, 'learning_rate': 4.583333333333333e-06, 'epoch': 1.82}


 92%|█████████▏| 1150/1250 [10:14<00:40,  2.47it/s]

{'loss': 0.5414, 'learning_rate': 4.166666666666667e-06, 'epoch': 1.84}


 93%|█████████▎| 1160/1250 [10:18<00:36,  2.47it/s]

{'loss': 0.3604, 'learning_rate': 3.75e-06, 'epoch': 1.86}


 94%|█████████▎| 1170/1250 [10:22<00:32,  2.47it/s]

{'loss': 0.4489, 'learning_rate': 3.3333333333333333e-06, 'epoch': 1.87}


 94%|█████████▍| 1180/1250 [10:26<00:27,  2.56it/s]

{'loss': 0.357, 'learning_rate': 2.916666666666667e-06, 'epoch': 1.89}


 95%|█████████▌| 1190/1250 [10:30<00:24,  2.47it/s]

{'loss': 0.51, 'learning_rate': 2.5e-06, 'epoch': 1.9}


 96%|█████████▌| 1200/1250 [10:34<00:19,  2.54it/s]

{'loss': 0.2811, 'learning_rate': 2.0833333333333334e-06, 'epoch': 1.92}


 97%|█████████▋| 1210/1250 [10:38<00:16,  2.49it/s]

{'loss': 0.4938, 'learning_rate': 1.6666666666666667e-06, 'epoch': 1.94}


 98%|█████████▊| 1220/1250 [10:42<00:12,  2.47it/s]

{'loss': 0.3857, 'learning_rate': 1.25e-06, 'epoch': 1.95}


 98%|█████████▊| 1230/1250 [10:46<00:08,  2.48it/s]

{'loss': 0.6268, 'learning_rate': 8.333333333333333e-07, 'epoch': 1.97}


 99%|█████████▉| 1240/1250 [10:50<00:04,  2.47it/s]

{'loss': 0.334, 'learning_rate': 4.1666666666666667e-07, 'epoch': 1.98}


100%|██████████| 1250/1250 [10:54<00:00,  1.91it/s]

{'loss': 0.4044, 'learning_rate': 0.0, 'epoch': 2.0}
{'train_runtime': 654.4479, 'train_samples_per_second': 30.56, 'train_steps_per_second': 1.91, 'train_loss': 0.7685119585037231, 'epoch': 2.0}





TrainOutput(global_step=1250, training_loss=0.7685119585037231, metrics={'train_runtime': 654.4479, 'train_samples_per_second': 30.56, 'train_steps_per_second': 1.91, 'train_loss': 0.7685119585037231, 'epoch': 2.0})

In [7]:
# evaluate the model
trainer.evaluate()


100%|██████████| 625/625 [01:21<00:00,  7.64it/s]


{'eval_loss': 0.5769881010055542,
 'eval_accuracy': 0.8382,
 'eval_precision': 0.8062456684035972,
 'eval_recall': 0.7914781246120076,
 'eval_f1': 0.7971966493925249,
 'eval_runtime': 81.8989,
 'eval_samples_per_second': 122.102,
 'eval_steps_per_second': 7.631,
 'epoch': 2.0}

In [9]:
# save model
trainer.save_model("distilbert-base-uncased-trained")