In [1]:
%cd ..

/Users/ahmedmaher/Desktop/product_classification_api


In [22]:
from datasets import load_dataset

# Data preprocessing

In [3]:
food_dataset=load_dataset('food101',split='train[:5000]')

In [4]:
food_splited=food_dataset.train_test_split(test_size=0.2)

In [5]:
food_splited

DatasetDict({
    train: Dataset({
        features: ['image', 'label'],
        num_rows: 4000
    })
    test: Dataset({
        features: ['image', 'label'],
        num_rows: 1000
    })
})

In [6]:
labels=food_splited['train'].features['label'].names
label2id,id2label={},{}

In [7]:
for i,label in enumerate(labels):
    label2id[label]=i
    id2label[i]=label

# model Preprocessing

In [8]:
from transformers import AutoImageProcessor

In [9]:
processor=AutoImageProcessor.from_pretrained('google/vit-base-patch16-224-in21k',use_fast=True)

In [10]:
from torchvision.transforms import RandomResizedCrop ,Compose,Normalize,Resize,ToTensor

In [11]:
size=(processor.size['height'],processor.size['width'])

In [12]:
transform=Compose([
    RandomResizedCrop(size),
    ToTensor(),
    Normalize(mean=processor.image_mean,std=processor.image_std)
])

In [13]:
def preprocess_image(samples):
    samples['pixel_values']=[transform(img.convert('RGB'))for img in samples['image']]
    del samples['image']
    return samples

In [14]:
food_splited_trans=food_splited.with_transform(preprocess_image)

In [15]:
food_splited_trans["train"][0]

{'label': 53,
 'pixel_values': tensor([[[ 0.8196,  0.7961,  0.7333,  ..., -0.6549, -0.6392, -0.5686],
          [ 0.7804,  0.7961,  0.7804,  ..., -0.7255, -0.6706, -0.6392],
          [ 0.7725,  0.7961,  0.8039,  ..., -0.7804, -0.7412, -0.7098],
          ...,
          [ 0.2000,  0.2314,  0.2471,  ...,  0.3255,  0.2706,  0.2157],
          [ 0.1765,  0.2235,  0.2314,  ...,  0.3255,  0.3176,  0.2863],
          [ 0.1686,  0.2314,  0.2157,  ...,  0.3020,  0.3098,  0.3098]],
 
         [[ 0.5059,  0.5059,  0.4588,  ..., -0.8431, -0.8510, -0.8118],
          [ 0.4902,  0.5137,  0.5216,  ..., -0.9137, -0.8745, -0.8667],
          [ 0.5059,  0.5137,  0.5451,  ..., -0.9529, -0.9294, -0.9059],
          ...,
          [ 0.2078,  0.2471,  0.2784,  ...,  0.3020,  0.2471,  0.2000],
          [ 0.1843,  0.2392,  0.2627,  ...,  0.3020,  0.2941,  0.2706],
          [ 0.1765,  0.2392,  0.2471,  ...,  0.2784,  0.2863,  0.2941]],
 
         [[ 0.0980,  0.0902,  0.0667,  ..., -0.9216, -0.9451, -0.9216]

In [16]:
from transformers import AutoModelForImageClassification, Trainer, TrainingArguments,DefaultDataCollator
data_collator=DefaultDataCollator()

In [17]:
import evaluate
import numpy as np
metric=evaluate.load("accuracy")
def compute_metrics(predictions_and_labels):
    predictions,labels=predictions_and_labels
    predictions=np.argmax(predictions,axis=1)
    return metric.compute(predictions=predictions,references=labels)

In [18]:
from transformers import logging
logging.set_verbosity_error()
model=AutoModelForImageClassification.from_pretrained('google/vit-base-patch16-224-in21k',
                                                      num_labels=len(labels),
                                                      id2label=id2label,
                                                      label2id=label2id
                                                     )


In [19]:
training_args=TrainingArguments(
    output_dir='my_model',
    remove_unused_columns=False,
    learning_rate=0.001,
     per_device_train_batch_size=16,
     per_device_eval_batch_size=16,
     num_train_epochs=32,
      weight_decay=0.01,
      save_strategy="epoch",
      logging_steps=10,
      eval_strategy="epoch",
     push_to_hub=False,
    metric_for_best_model="accuracy"

)

In [20]:
trainer=Trainer(
    model=model,
    args=training_args,
    data_collator=data_collator,
    compute_metrics=compute_metrics,
    train_dataset=food_splited_trans["train"],
    eval_dataset=food_splited_trans["test"]
)

In [21]:
trainer.train()



{'loss': 3.4625, 'grad_norm': 2.0701723098754883, 'learning_rate': 0.000998875, 'epoch': 0.04}
{'loss': 2.1775, 'grad_norm': 2.363891363143921, 'learning_rate': 0.000997625, 'epoch': 0.08}
{'loss': 1.9748, 'grad_norm': 1.380085825920105, 'learning_rate': 0.000996375, 'epoch': 0.12}
{'loss': 1.9265, 'grad_norm': 1.916972041130066, 'learning_rate': 0.0009951250000000001, 'epoch': 0.16}
{'loss': 1.8415, 'grad_norm': 2.3226826190948486, 'learning_rate': 0.000993875, 'epoch': 0.2}
{'loss': 1.8438, 'grad_norm': 2.0557971000671387, 'learning_rate': 0.000992625, 'epoch': 0.24}
{'loss': 1.8533, 'grad_norm': 1.5448344945907593, 'learning_rate': 0.000991375, 'epoch': 0.28}
{'loss': 1.833, 'grad_norm': 1.6742770671844482, 'learning_rate': 0.0009901250000000001, 'epoch': 0.32}
{'loss': 1.7798, 'grad_norm': 2.6234302520751953, 'learning_rate': 0.000988875, 'epoch': 0.36}
{'loss': 1.8778, 'grad_norm': 1.5299742221832275, 'learning_rate': 0.000987625, 'epoch': 0.4}
{'loss': 1.8116, 'grad_norm': 2.8321



{'loss': 1.6517, 'grad_norm': 1.8859647512435913, 'learning_rate': 0.000967625, 'epoch': 1.04}
{'loss': 1.8701, 'grad_norm': 2.7617526054382324, 'learning_rate': 0.000966375, 'epoch': 1.08}
{'loss': 1.8842, 'grad_norm': 2.812778949737549, 'learning_rate': 0.000965125, 'epoch': 1.12}
{'loss': 1.908, 'grad_norm': 2.0122551918029785, 'learning_rate': 0.0009638750000000001, 'epoch': 1.16}
{'loss': 1.9052, 'grad_norm': 1.2858878374099731, 'learning_rate': 0.0009626249999999999, 'epoch': 1.2}
{'loss': 1.8131, 'grad_norm': 2.1636619567871094, 'learning_rate': 0.000961375, 'epoch': 1.24}
{'loss': 1.8556, 'grad_norm': 2.0304503440856934, 'learning_rate': 0.000960125, 'epoch': 1.28}
{'loss': 1.8516, 'grad_norm': 1.9942653179168701, 'learning_rate': 0.0009588750000000001, 'epoch': 1.32}
{'loss': 1.7753, 'grad_norm': 0.9849271774291992, 'learning_rate': 0.0009576249999999999, 'epoch': 1.3599999999999999}
{'loss': 1.7541, 'grad_norm': 2.124354362487793, 'learning_rate': 0.000956375, 'epoch': 1.4}
{



{'loss': 1.7928, 'grad_norm': 2.367276430130005, 'learning_rate': 0.0009363749999999999, 'epoch': 2.04}
{'loss': 1.7034, 'grad_norm': 1.7571275234222412, 'learning_rate': 0.000935125, 'epoch': 2.08}
{'loss': 1.7947, 'grad_norm': 1.780503511428833, 'learning_rate': 0.000933875, 'epoch': 2.12}
{'loss': 1.5843, 'grad_norm': 1.5929690599441528, 'learning_rate': 0.0009326250000000001, 'epoch': 2.16}
{'loss': 1.7084, 'grad_norm': 2.1649351119995117, 'learning_rate': 0.000931375, 'epoch': 2.2}
{'loss': 1.673, 'grad_norm': 0.8578265309333801, 'learning_rate': 0.000930125, 'epoch': 2.24}
{'loss': 1.6237, 'grad_norm': 1.8548352718353271, 'learning_rate': 0.000928875, 'epoch': 2.2800000000000002}
{'loss': 1.5405, 'grad_norm': 1.2871028184890747, 'learning_rate': 0.0009276250000000001, 'epoch': 2.32}
{'loss': 1.7709, 'grad_norm': 1.4955543279647827, 'learning_rate': 0.000926375, 'epoch': 2.36}
{'loss': 1.6496, 'grad_norm': 1.3403770923614502, 'learning_rate': 0.000925125, 'epoch': 2.4}
{'loss': 1.



{'loss': 1.7267, 'grad_norm': 1.6334383487701416, 'learning_rate': 0.000905125, 'epoch': 3.04}
{'loss': 1.6804, 'grad_norm': 2.112466335296631, 'learning_rate': 0.0009038750000000001, 'epoch': 3.08}
{'loss': 1.6187, 'grad_norm': 1.2459501028060913, 'learning_rate': 0.000902625, 'epoch': 3.12}
{'loss': 1.701, 'grad_norm': 1.8556565046310425, 'learning_rate': 0.000901375, 'epoch': 3.16}
{'loss': 1.522, 'grad_norm': 1.0143755674362183, 'learning_rate': 0.000900125, 'epoch': 3.2}
{'loss': 1.5037, 'grad_norm': 1.5513200759887695, 'learning_rate': 0.000898875, 'epoch': 3.24}
{'loss': 1.5692, 'grad_norm': 1.7029914855957031, 'learning_rate': 0.000897625, 'epoch': 3.2800000000000002}
{'loss': 1.6823, 'grad_norm': 0.6907063126564026, 'learning_rate': 0.000896375, 'epoch': 3.32}
{'loss': 1.4951, 'grad_norm': 1.6261961460113525, 'learning_rate': 0.000895125, 'epoch': 3.36}
{'loss': 1.6234, 'grad_norm': 2.154148817062378, 'learning_rate': 0.000893875, 'epoch': 3.4}
{'loss': 1.5532, 'grad_norm': 1.



{'loss': 1.4178, 'grad_norm': 1.452178955078125, 'learning_rate': 0.000873875, 'epoch': 4.04}
{'loss': 1.5889, 'grad_norm': 1.951363444328308, 'learning_rate': 0.000872625, 'epoch': 4.08}
{'loss': 1.3533, 'grad_norm': 1.631226897239685, 'learning_rate': 0.0008713750000000001, 'epoch': 4.12}
{'loss': 1.4823, 'grad_norm': 1.9433729648590088, 'learning_rate': 0.000870125, 'epoch': 4.16}
{'loss': 1.7046, 'grad_norm': 1.115384817123413, 'learning_rate': 0.000868875, 'epoch': 4.2}
{'loss': 1.4911, 'grad_norm': 2.133061170578003, 'learning_rate': 0.000867625, 'epoch': 4.24}
{'loss': 1.5088, 'grad_norm': 1.1846400499343872, 'learning_rate': 0.0008663750000000001, 'epoch': 4.28}
{'loss': 1.5908, 'grad_norm': 1.389189600944519, 'learning_rate': 0.000865125, 'epoch': 4.32}
{'loss': 1.5148, 'grad_norm': 1.6706809997558594, 'learning_rate': 0.000863875, 'epoch': 4.36}
{'loss': 1.4788, 'grad_norm': 1.1517261266708374, 'learning_rate': 0.000862625, 'epoch': 4.4}
{'loss': 1.4023, 'grad_norm': 1.295068



{'loss': 1.3616, 'grad_norm': 0.8656861782073975, 'learning_rate': 0.000842625, 'epoch': 5.04}
{'loss': 1.4968, 'grad_norm': 1.0425033569335938, 'learning_rate': 0.000841375, 'epoch': 5.08}
{'loss': 1.315, 'grad_norm': 1.4545587301254272, 'learning_rate': 0.000840125, 'epoch': 5.12}
{'loss': 1.3049, 'grad_norm': 1.6240155696868896, 'learning_rate': 0.0008388750000000001, 'epoch': 5.16}
{'loss': 1.4027, 'grad_norm': 1.4237035512924194, 'learning_rate': 0.0008376249999999999, 'epoch': 5.2}
{'loss': 1.3981, 'grad_norm': 1.379940390586853, 'learning_rate': 0.000836375, 'epoch': 5.24}
{'loss': 1.5014, 'grad_norm': 1.5989646911621094, 'learning_rate': 0.000835125, 'epoch': 5.28}
{'loss': 1.4669, 'grad_norm': 1.5379945039749146, 'learning_rate': 0.0008338750000000001, 'epoch': 5.32}
{'loss': 1.4336, 'grad_norm': 0.9186481237411499, 'learning_rate': 0.0008326249999999999, 'epoch': 5.36}
{'loss': 1.4732, 'grad_norm': 2.2695462703704834, 'learning_rate': 0.000831375, 'epoch': 5.4}
{'loss': 1.427



{'loss': 1.3805, 'grad_norm': 1.338538408279419, 'learning_rate': 0.0008113749999999999, 'epoch': 6.04}
{'loss': 1.4761, 'grad_norm': 2.824450731277466, 'learning_rate': 0.000810125, 'epoch': 6.08}
{'loss': 1.3984, 'grad_norm': 0.9313728213310242, 'learning_rate': 0.000808875, 'epoch': 6.12}
{'loss': 1.4968, 'grad_norm': 1.1128603219985962, 'learning_rate': 0.0008076250000000001, 'epoch': 6.16}
{'loss': 1.5198, 'grad_norm': 2.2816097736358643, 'learning_rate': 0.000806375, 'epoch': 6.2}
{'loss': 1.3625, 'grad_norm': 0.829047441482544, 'learning_rate': 0.000805125, 'epoch': 6.24}
{'loss': 1.4803, 'grad_norm': 2.1348443031311035, 'learning_rate': 0.000803875, 'epoch': 6.28}
{'loss': 1.5148, 'grad_norm': 1.3798787593841553, 'learning_rate': 0.0008026250000000001, 'epoch': 6.32}
{'loss': 1.282, 'grad_norm': 1.1323866844177246, 'learning_rate': 0.000801375, 'epoch': 6.36}
{'loss': 1.4941, 'grad_norm': 2.076516628265381, 'learning_rate': 0.000800125, 'epoch': 6.4}
{'loss': 1.4817, 'grad_norm



{'loss': 1.3157, 'grad_norm': 1.1444222927093506, 'learning_rate': 0.000780125, 'epoch': 7.04}
{'loss': 1.29, 'grad_norm': 1.1540759801864624, 'learning_rate': 0.000778875, 'epoch': 7.08}
{'loss': 1.2692, 'grad_norm': 2.123654365539551, 'learning_rate': 0.000777625, 'epoch': 7.12}
{'loss': 1.5087, 'grad_norm': 1.2094258069992065, 'learning_rate': 0.000776375, 'epoch': 7.16}
{'loss': 1.3344, 'grad_norm': 0.8078449368476868, 'learning_rate': 0.000775125, 'epoch': 7.2}
{'loss': 1.4252, 'grad_norm': 1.9086836576461792, 'learning_rate': 0.000773875, 'epoch': 7.24}
{'loss': 1.4259, 'grad_norm': 0.9477090835571289, 'learning_rate': 0.000772625, 'epoch': 7.28}
{'loss': 1.3712, 'grad_norm': 1.4253480434417725, 'learning_rate': 0.000771375, 'epoch': 7.32}
{'loss': 1.574, 'grad_norm': 1.3551923036575317, 'learning_rate': 0.000770125, 'epoch': 7.36}
{'loss': 1.4539, 'grad_norm': 1.379867434501648, 'learning_rate': 0.000768875, 'epoch': 7.4}
{'loss': 1.3696, 'grad_norm': 1.2172185182571411, 'learni



{'loss': 1.2798, 'grad_norm': 1.6842150688171387, 'learning_rate': 0.000748875, 'epoch': 8.04}
{'loss': 1.3682, 'grad_norm': 1.631882905960083, 'learning_rate': 0.000747625, 'epoch': 8.08}
{'loss': 1.3677, 'grad_norm': 1.4546489715576172, 'learning_rate': 0.0007463750000000001, 'epoch': 8.12}
{'loss': 1.2174, 'grad_norm': 0.9130122661590576, 'learning_rate': 0.000745125, 'epoch': 8.16}
{'loss': 1.3495, 'grad_norm': 2.0730948448181152, 'learning_rate': 0.000743875, 'epoch': 8.2}
{'loss': 1.2813, 'grad_norm': 1.307197093963623, 'learning_rate': 0.000742625, 'epoch': 8.24}
{'loss': 1.4057, 'grad_norm': 2.0071425437927246, 'learning_rate': 0.0007413750000000001, 'epoch': 8.28}
{'loss': 1.2805, 'grad_norm': 1.917433738708496, 'learning_rate': 0.000740125, 'epoch': 8.32}
{'loss': 1.3834, 'grad_norm': 1.2867121696472168, 'learning_rate': 0.000738875, 'epoch': 8.36}
{'loss': 1.4999, 'grad_norm': 1.5648157596588135, 'learning_rate': 0.000737625, 'epoch': 8.4}
{'loss': 1.404, 'grad_norm': 0.8074



{'loss': 1.2742, 'grad_norm': 0.8800092935562134, 'learning_rate': 0.000717625, 'epoch': 9.04}
{'loss': 1.3935, 'grad_norm': 1.6455706357955933, 'learning_rate': 0.000716375, 'epoch': 9.08}
{'loss': 1.3103, 'grad_norm': 1.7267025709152222, 'learning_rate': 0.000715125, 'epoch': 9.12}
{'loss': 1.4944, 'grad_norm': 1.9768558740615845, 'learning_rate': 0.0007138750000000001, 'epoch': 9.16}
{'loss': 1.3493, 'grad_norm': 1.275032877922058, 'learning_rate': 0.0007126249999999999, 'epoch': 9.2}
{'loss': 1.2892, 'grad_norm': 1.1629246473312378, 'learning_rate': 0.000711375, 'epoch': 9.24}
{'loss': 1.1996, 'grad_norm': 1.936543583869934, 'learning_rate': 0.000710125, 'epoch': 9.28}
{'loss': 1.2549, 'grad_norm': 1.3366206884384155, 'learning_rate': 0.0007088750000000001, 'epoch': 9.32}
{'loss': 1.3193, 'grad_norm': 1.1504706144332886, 'learning_rate': 0.0007076249999999999, 'epoch': 9.36}
{'loss': 1.3334, 'grad_norm': 1.7481998205184937, 'learning_rate': 0.000706375, 'epoch': 9.4}
{'loss': 1.490



{'loss': 1.4852, 'grad_norm': 1.5137310028076172, 'learning_rate': 0.0006863749999999999, 'epoch': 10.04}
{'loss': 1.2742, 'grad_norm': 2.0883331298828125, 'learning_rate': 0.000685125, 'epoch': 10.08}
{'loss': 1.237, 'grad_norm': 2.1337201595306396, 'learning_rate': 0.000683875, 'epoch': 10.12}
{'loss': 1.2407, 'grad_norm': 1.4778368473052979, 'learning_rate': 0.0006826250000000001, 'epoch': 10.16}
{'loss': 1.0943, 'grad_norm': 1.2165096998214722, 'learning_rate': 0.000681375, 'epoch': 10.2}
{'loss': 1.387, 'grad_norm': 1.5528806447982788, 'learning_rate': 0.000680125, 'epoch': 10.24}
{'loss': 1.3581, 'grad_norm': 1.118728518486023, 'learning_rate': 0.000678875, 'epoch': 10.28}
{'loss': 1.2976, 'grad_norm': 1.8761883974075317, 'learning_rate': 0.0006776250000000001, 'epoch': 10.32}
{'loss': 1.086, 'grad_norm': 1.573439359664917, 'learning_rate': 0.000676375, 'epoch': 10.36}
{'loss': 1.3664, 'grad_norm': 1.7740215063095093, 'learning_rate': 0.0006751249999999999, 'epoch': 10.4}
{'loss'



{'loss': 1.1434, 'grad_norm': 0.9951177835464478, 'learning_rate': 0.000655125, 'epoch': 11.04}
{'loss': 1.3445, 'grad_norm': 1.8161180019378662, 'learning_rate': 0.000653875, 'epoch': 11.08}
{'loss': 1.2698, 'grad_norm': 1.8296787738800049, 'learning_rate': 0.000652625, 'epoch': 11.12}
{'loss': 1.2046, 'grad_norm': 1.5451366901397705, 'learning_rate': 0.000651375, 'epoch': 11.16}
{'loss': 1.1685, 'grad_norm': 1.1257987022399902, 'learning_rate': 0.000650125, 'epoch': 11.2}
{'loss': 1.2248, 'grad_norm': 1.7494919300079346, 'learning_rate': 0.000648875, 'epoch': 11.24}
{'loss': 1.1931, 'grad_norm': 1.675409197807312, 'learning_rate': 0.000647625, 'epoch': 11.28}
{'loss': 1.1689, 'grad_norm': 0.9219047427177429, 'learning_rate': 0.000646375, 'epoch': 11.32}
{'loss': 1.2946, 'grad_norm': 1.2447222471237183, 'learning_rate': 0.000645125, 'epoch': 11.36}
{'loss': 1.2612, 'grad_norm': 0.7807382941246033, 'learning_rate': 0.000643875, 'epoch': 11.4}
{'loss': 1.2512, 'grad_norm': 0.93213379383



{'loss': 1.2995, 'grad_norm': 1.381748080253601, 'learning_rate': 0.000623875, 'epoch': 12.04}
{'loss': 1.237, 'grad_norm': 1.641718864440918, 'learning_rate': 0.000622625, 'epoch': 12.08}
{'loss': 1.1251, 'grad_norm': 1.6586359739303589, 'learning_rate': 0.0006213750000000001, 'epoch': 12.12}
{'loss': 1.2755, 'grad_norm': 1.4062894582748413, 'learning_rate': 0.000620125, 'epoch': 12.16}
{'loss': 1.164, 'grad_norm': 1.4981505870819092, 'learning_rate': 0.000618875, 'epoch': 12.2}
{'loss': 1.3346, 'grad_norm': 1.3617616891860962, 'learning_rate': 0.000617625, 'epoch': 12.24}
{'loss': 1.3244, 'grad_norm': 1.2453640699386597, 'learning_rate': 0.0006163750000000001, 'epoch': 12.28}
{'loss': 1.3661, 'grad_norm': 2.457728385925293, 'learning_rate': 0.000615125, 'epoch': 12.32}
{'loss': 1.2871, 'grad_norm': 1.4391382932662964, 'learning_rate': 0.000613875, 'epoch': 12.36}
{'loss': 1.1314, 'grad_norm': 1.2715396881103516, 'learning_rate': 0.000612625, 'epoch': 12.4}
{'loss': 1.1725, 'grad_norm



{'loss': 1.1425, 'grad_norm': 1.1297804117202759, 'learning_rate': 0.0005926249999999999, 'epoch': 13.04}
{'loss': 1.1821, 'grad_norm': 1.5054482221603394, 'learning_rate': 0.000591375, 'epoch': 13.08}
{'loss': 1.2035, 'grad_norm': 1.772578477859497, 'learning_rate': 0.000590125, 'epoch': 13.12}
{'loss': 1.2162, 'grad_norm': 1.397840142250061, 'learning_rate': 0.0005888750000000001, 'epoch': 13.16}
{'loss': 1.1345, 'grad_norm': 1.67515230178833, 'learning_rate': 0.0005876249999999999, 'epoch': 13.2}
{'loss': 1.2286, 'grad_norm': 1.6817145347595215, 'learning_rate': 0.000586375, 'epoch': 13.24}
{'loss': 1.2969, 'grad_norm': 1.3059513568878174, 'learning_rate': 0.000585125, 'epoch': 13.28}
{'loss': 1.2238, 'grad_norm': 1.393142580986023, 'learning_rate': 0.0005838750000000001, 'epoch': 13.32}
{'loss': 1.1977, 'grad_norm': 0.9415990114212036, 'learning_rate': 0.0005826249999999999, 'epoch': 13.36}
{'loss': 1.1253, 'grad_norm': 1.300747275352478, 'learning_rate': 0.000581375, 'epoch': 13.4



{'loss': 1.2424, 'grad_norm': 1.4646997451782227, 'learning_rate': 0.0005613749999999999, 'epoch': 14.04}
{'loss': 1.2681, 'grad_norm': 1.3315969705581665, 'learning_rate': 0.000560125, 'epoch': 14.08}
{'loss': 1.0774, 'grad_norm': 1.9096434116363525, 'learning_rate': 0.000558875, 'epoch': 14.12}
{'loss': 1.0674, 'grad_norm': 1.5859428644180298, 'learning_rate': 0.0005576250000000001, 'epoch': 14.16}
{'loss': 1.2086, 'grad_norm': 1.6815963983535767, 'learning_rate': 0.000556375, 'epoch': 14.2}
{'loss': 1.0865, 'grad_norm': 2.5520124435424805, 'learning_rate': 0.000555125, 'epoch': 14.24}
{'loss': 1.2161, 'grad_norm': 1.9632490873336792, 'learning_rate': 0.000553875, 'epoch': 14.28}
{'loss': 1.2942, 'grad_norm': 1.1865708827972412, 'learning_rate': 0.0005526250000000001, 'epoch': 14.32}
{'loss': 1.159, 'grad_norm': 1.3188966512680054, 'learning_rate': 0.000551375, 'epoch': 14.36}
{'loss': 1.1559, 'grad_norm': 1.2283549308776855, 'learning_rate': 0.0005501249999999999, 'epoch': 14.4}
{'l



{'loss': 1.0202, 'grad_norm': 1.1948020458221436, 'learning_rate': 0.000530125, 'epoch': 15.04}
{'loss': 1.1816, 'grad_norm': 1.5306466817855835, 'learning_rate': 0.000528875, 'epoch': 15.08}
{'loss': 1.1186, 'grad_norm': 1.745948076248169, 'learning_rate': 0.000527625, 'epoch': 15.12}
{'loss': 1.1594, 'grad_norm': 1.4770673513412476, 'learning_rate': 0.000526375, 'epoch': 15.16}
{'loss': 1.2794, 'grad_norm': 1.7748594284057617, 'learning_rate': 0.000525125, 'epoch': 15.2}
{'loss': 1.0684, 'grad_norm': 1.5489381551742554, 'learning_rate': 0.000523875, 'epoch': 15.24}
{'loss': 1.059, 'grad_norm': 1.7903481721878052, 'learning_rate': 0.000522625, 'epoch': 15.28}
{'loss': 1.0917, 'grad_norm': 1.3848718404769897, 'learning_rate': 0.000521375, 'epoch': 15.32}
{'loss': 1.0936, 'grad_norm': 1.3112468719482422, 'learning_rate': 0.000520125, 'epoch': 15.36}
{'loss': 1.007, 'grad_norm': 1.0454243421554565, 'learning_rate': 0.000518875, 'epoch': 15.4}
{'loss': 1.1287, 'grad_norm': 1.4511750936508



{'loss': 1.1179, 'grad_norm': 0.9962911605834961, 'learning_rate': 0.000498875, 'epoch': 16.04}
{'loss': 1.1379, 'grad_norm': 1.9793262481689453, 'learning_rate': 0.000497625, 'epoch': 16.08}
{'loss': 1.1482, 'grad_norm': 1.3721144199371338, 'learning_rate': 0.0004963750000000001, 'epoch': 16.12}
{'loss': 1.1343, 'grad_norm': 1.271437644958496, 'learning_rate': 0.000495125, 'epoch': 16.16}
{'loss': 0.9891, 'grad_norm': 1.3619776964187622, 'learning_rate': 0.0004938750000000001, 'epoch': 16.2}
{'loss': 1.1073, 'grad_norm': 1.4731121063232422, 'learning_rate': 0.000492625, 'epoch': 16.24}
{'loss': 1.1639, 'grad_norm': 1.863294005393982, 'learning_rate': 0.0004913750000000001, 'epoch': 16.28}
{'loss': 1.097, 'grad_norm': 1.497830867767334, 'learning_rate': 0.000490125, 'epoch': 16.32}
{'loss': 1.0825, 'grad_norm': 1.1905689239501953, 'learning_rate': 0.000488875, 'epoch': 16.36}
{'loss': 1.1247, 'grad_norm': 1.4064315557479858, 'learning_rate': 0.000487625, 'epoch': 16.4}
{'loss': 0.9744,



{'loss': 1.1877, 'grad_norm': 1.6582201719284058, 'learning_rate': 0.000467625, 'epoch': 17.04}
{'loss': 1.0951, 'grad_norm': 1.8266810178756714, 'learning_rate': 0.000466375, 'epoch': 17.08}
{'loss': 1.2094, 'grad_norm': 1.326537013053894, 'learning_rate': 0.00046512500000000004, 'epoch': 17.12}
{'loss': 1.0894, 'grad_norm': 1.1218926906585693, 'learning_rate': 0.000463875, 'epoch': 17.16}
{'loss': 1.0319, 'grad_norm': 1.2959154844284058, 'learning_rate': 0.00046262500000000004, 'epoch': 17.2}
{'loss': 0.9801, 'grad_norm': 2.091973304748535, 'learning_rate': 0.000461375, 'epoch': 17.24}
{'loss': 0.9094, 'grad_norm': 1.417224645614624, 'learning_rate': 0.00046012500000000003, 'epoch': 17.28}
{'loss': 1.0135, 'grad_norm': 1.9983463287353516, 'learning_rate': 0.000458875, 'epoch': 17.32}
{'loss': 1.1111, 'grad_norm': 1.285703182220459, 'learning_rate': 0.000457625, 'epoch': 17.36}
{'loss': 0.9933, 'grad_norm': 1.9489517211914062, 'learning_rate': 0.00045637499999999997, 'epoch': 17.4}
{'



{'loss': 1.1347, 'grad_norm': 0.880061149597168, 'learning_rate': 0.000436375, 'epoch': 18.04}
{'loss': 0.9406, 'grad_norm': 1.346882700920105, 'learning_rate': 0.000435125, 'epoch': 18.08}
{'loss': 0.9596, 'grad_norm': 1.241933822631836, 'learning_rate': 0.000433875, 'epoch': 18.12}
{'loss': 1.1481, 'grad_norm': 2.6196138858795166, 'learning_rate': 0.000432625, 'epoch': 18.16}
{'loss': 0.9641, 'grad_norm': 1.2037067413330078, 'learning_rate': 0.000431375, 'epoch': 18.2}
{'loss': 1.1528, 'grad_norm': 1.8283751010894775, 'learning_rate': 0.000430125, 'epoch': 18.24}
{'loss': 1.048, 'grad_norm': 1.2841800451278687, 'learning_rate': 0.000428875, 'epoch': 18.28}
{'loss': 1.1995, 'grad_norm': 1.7407026290893555, 'learning_rate': 0.000427625, 'epoch': 18.32}
{'loss': 1.0207, 'grad_norm': 1.6167948246002197, 'learning_rate': 0.000426375, 'epoch': 18.36}
{'loss': 0.9737, 'grad_norm': 1.6633741855621338, 'learning_rate': 0.000425125, 'epoch': 18.4}
{'loss': 0.9663, 'grad_norm': 1.62018454074859



{'loss': 0.9855, 'grad_norm': 1.6515880823135376, 'learning_rate': 0.000405125, 'epoch': 19.04}
{'loss': 0.9279, 'grad_norm': 1.3683358430862427, 'learning_rate': 0.000403875, 'epoch': 19.08}
{'loss': 1.1117, 'grad_norm': 1.2938191890716553, 'learning_rate': 0.00040262500000000004, 'epoch': 19.12}
{'loss': 0.9841, 'grad_norm': 1.046759009361267, 'learning_rate': 0.000401375, 'epoch': 19.16}
{'loss': 1.1092, 'grad_norm': 1.4465348720550537, 'learning_rate': 0.00040012500000000004, 'epoch': 19.2}
{'loss': 0.8878, 'grad_norm': 1.6646575927734375, 'learning_rate': 0.000398875, 'epoch': 19.24}
{'loss': 1.0013, 'grad_norm': 1.4855166673660278, 'learning_rate': 0.00039762500000000003, 'epoch': 19.28}
{'loss': 0.9799, 'grad_norm': 1.2407201528549194, 'learning_rate': 0.00039637499999999997, 'epoch': 19.32}
{'loss': 0.9682, 'grad_norm': 1.3116496801376343, 'learning_rate': 0.000395125, 'epoch': 19.36}
{'loss': 1.0973, 'grad_norm': 2.29375958442688, 'learning_rate': 0.00039387499999999997, 'epoc



{'loss': 0.9652, 'grad_norm': 1.8794095516204834, 'learning_rate': 0.000373875, 'epoch': 20.04}
{'loss': 1.0822, 'grad_norm': 1.5991714000701904, 'learning_rate': 0.000372625, 'epoch': 20.08}
{'loss': 0.9538, 'grad_norm': 1.5365947484970093, 'learning_rate': 0.000371375, 'epoch': 20.12}
{'loss': 0.8648, 'grad_norm': 1.8909567594528198, 'learning_rate': 0.000370125, 'epoch': 20.16}
{'loss': 1.1227, 'grad_norm': 1.9820175170898438, 'learning_rate': 0.000368875, 'epoch': 20.2}
{'loss': 0.9133, 'grad_norm': 2.3000121116638184, 'learning_rate': 0.000367625, 'epoch': 20.24}
{'loss': 1.1016, 'grad_norm': 1.5893938541412354, 'learning_rate': 0.000366375, 'epoch': 20.28}
{'loss': 0.9551, 'grad_norm': 1.2114020586013794, 'learning_rate': 0.000365125, 'epoch': 20.32}
{'loss': 1.0344, 'grad_norm': 2.1107900142669678, 'learning_rate': 0.000363875, 'epoch': 20.36}
{'loss': 1.1879, 'grad_norm': 1.5892715454101562, 'learning_rate': 0.000362625, 'epoch': 20.4}
{'loss': 1.0782, 'grad_norm': 1.6770913600



{'loss': 1.0304, 'grad_norm': 1.5267200469970703, 'learning_rate': 0.000342625, 'epoch': 21.04}
{'loss': 0.9851, 'grad_norm': 1.8187103271484375, 'learning_rate': 0.000341375, 'epoch': 21.08}
{'loss': 1.0711, 'grad_norm': 1.2395583391189575, 'learning_rate': 0.00034012500000000004, 'epoch': 21.12}
{'loss': 0.9812, 'grad_norm': 1.4132156372070312, 'learning_rate': 0.000338875, 'epoch': 21.16}
{'loss': 1.1159, 'grad_norm': 2.5423126220703125, 'learning_rate': 0.00033762500000000003, 'epoch': 21.2}
{'loss': 0.8742, 'grad_norm': 1.4724979400634766, 'learning_rate': 0.000336375, 'epoch': 21.24}
{'loss': 1.1399, 'grad_norm': 1.3624866008758545, 'learning_rate': 0.00033512500000000003, 'epoch': 21.28}
{'loss': 0.9529, 'grad_norm': 2.7288992404937744, 'learning_rate': 0.00033387499999999997, 'epoch': 21.32}
{'loss': 1.0181, 'grad_norm': 2.512333869934082, 'learning_rate': 0.000332625, 'epoch': 21.36}
{'loss': 0.9171, 'grad_norm': 1.4381024837493896, 'learning_rate': 0.00033137499999999996, 'ep



{'loss': 0.9852, 'grad_norm': 2.314784526824951, 'learning_rate': 0.000311375, 'epoch': 22.04}
{'loss': 1.0942, 'grad_norm': 1.5932952165603638, 'learning_rate': 0.000310125, 'epoch': 22.08}
{'loss': 0.9781, 'grad_norm': 1.236061453819275, 'learning_rate': 0.000308875, 'epoch': 22.12}
{'loss': 0.88, 'grad_norm': 1.6844658851623535, 'learning_rate': 0.000307625, 'epoch': 22.16}
{'loss': 0.8141, 'grad_norm': 1.69593346118927, 'learning_rate': 0.000306375, 'epoch': 22.2}
{'loss': 0.9677, 'grad_norm': 1.6610572338104248, 'learning_rate': 0.000305125, 'epoch': 22.24}
{'loss': 0.9515, 'grad_norm': 1.7200623750686646, 'learning_rate': 0.000303875, 'epoch': 22.28}
{'loss': 1.0934, 'grad_norm': 1.691345453262329, 'learning_rate': 0.000302625, 'epoch': 22.32}
{'loss': 0.8794, 'grad_norm': 1.681248664855957, 'learning_rate': 0.000301375, 'epoch': 22.36}
{'loss': 0.8902, 'grad_norm': 2.1208724975585938, 'learning_rate': 0.000300125, 'epoch': 22.4}
{'loss': 1.0238, 'grad_norm': 1.3956924676895142, 



{'loss': 0.9145, 'grad_norm': 1.7094013690948486, 'learning_rate': 0.000280125, 'epoch': 23.04}
{'loss': 0.8716, 'grad_norm': 1.8866945505142212, 'learning_rate': 0.000278875, 'epoch': 23.08}
{'loss': 0.957, 'grad_norm': 2.1593518257141113, 'learning_rate': 0.00027762500000000004, 'epoch': 23.12}
{'loss': 0.8821, 'grad_norm': 1.2511181831359863, 'learning_rate': 0.000276375, 'epoch': 23.16}
{'loss': 0.9406, 'grad_norm': 2.5028254985809326, 'learning_rate': 0.00027512500000000003, 'epoch': 23.2}
{'loss': 0.9638, 'grad_norm': 1.7463138103485107, 'learning_rate': 0.000273875, 'epoch': 23.24}
{'loss': 0.9588, 'grad_norm': 1.630645751953125, 'learning_rate': 0.000272625, 'epoch': 23.28}
{'loss': 0.8983, 'grad_norm': 2.116305351257324, 'learning_rate': 0.00027137499999999997, 'epoch': 23.32}
{'loss': 1.0126, 'grad_norm': 1.7862011194229126, 'learning_rate': 0.000270125, 'epoch': 23.36}
{'loss': 1.0595, 'grad_norm': 1.329615831375122, 'learning_rate': 0.00026887499999999996, 'epoch': 23.4}
{'



{'loss': 0.796, 'grad_norm': 2.012556791305542, 'learning_rate': 0.000248875, 'epoch': 24.04}
{'loss': 0.7606, 'grad_norm': 2.219350814819336, 'learning_rate': 0.000247625, 'epoch': 24.08}
{'loss': 0.9266, 'grad_norm': 1.9309284687042236, 'learning_rate': 0.000246375, 'epoch': 24.12}
{'loss': 0.9365, 'grad_norm': 1.7512123584747314, 'learning_rate': 0.000245125, 'epoch': 24.16}
{'loss': 0.964, 'grad_norm': 2.071288585662842, 'learning_rate': 0.000243875, 'epoch': 24.2}
{'loss': 0.9446, 'grad_norm': 1.6368205547332764, 'learning_rate': 0.000242625, 'epoch': 24.24}
{'loss': 0.7857, 'grad_norm': 2.408108711242676, 'learning_rate': 0.000241375, 'epoch': 24.28}
{'loss': 1.0758, 'grad_norm': 1.687380313873291, 'learning_rate': 0.00024012500000000002, 'epoch': 24.32}
{'loss': 0.8972, 'grad_norm': 1.7398687601089478, 'learning_rate': 0.00023887500000000002, 'epoch': 24.36}
{'loss': 0.9011, 'grad_norm': 1.8490889072418213, 'learning_rate': 0.00023762500000000002, 'epoch': 24.4}
{'loss': 1.0459,



{'loss': 0.9145, 'grad_norm': 1.788292646408081, 'learning_rate': 0.00021762500000000002, 'epoch': 25.04}
{'loss': 0.7657, 'grad_norm': 1.5387011766433716, 'learning_rate': 0.00021637500000000001, 'epoch': 25.08}
{'loss': 0.9141, 'grad_norm': 1.6512477397918701, 'learning_rate': 0.000215125, 'epoch': 25.12}
{'loss': 0.9712, 'grad_norm': 1.6942732334136963, 'learning_rate': 0.000213875, 'epoch': 25.16}
{'loss': 1.0481, 'grad_norm': 2.337247133255005, 'learning_rate': 0.000212625, 'epoch': 25.2}
{'loss': 1.0783, 'grad_norm': 1.6344432830810547, 'learning_rate': 0.000211375, 'epoch': 25.24}
{'loss': 0.8504, 'grad_norm': 1.298580527305603, 'learning_rate': 0.000210125, 'epoch': 25.28}
{'loss': 0.9077, 'grad_norm': 1.3942900896072388, 'learning_rate': 0.00020887500000000002, 'epoch': 25.32}
{'loss': 0.837, 'grad_norm': 1.7774649858474731, 'learning_rate': 0.00020762500000000002, 'epoch': 25.36}
{'loss': 0.9544, 'grad_norm': 1.2243340015411377, 'learning_rate': 0.00020637500000000002, 'epoch



{'loss': 0.8588, 'grad_norm': 1.5074039697647095, 'learning_rate': 0.00018637500000000002, 'epoch': 26.04}
{'loss': 0.9037, 'grad_norm': 1.503532886505127, 'learning_rate': 0.00018512500000000001, 'epoch': 26.08}
{'loss': 0.8879, 'grad_norm': 2.465338945388794, 'learning_rate': 0.000183875, 'epoch': 26.12}
{'loss': 0.8741, 'grad_norm': 1.6630034446716309, 'learning_rate': 0.000182625, 'epoch': 26.16}
{'loss': 0.8104, 'grad_norm': 1.3949623107910156, 'learning_rate': 0.000181375, 'epoch': 26.2}
{'loss': 0.9298, 'grad_norm': 1.8882005214691162, 'learning_rate': 0.000180125, 'epoch': 26.24}
{'loss': 0.9332, 'grad_norm': 1.6363521814346313, 'learning_rate': 0.000178875, 'epoch': 26.28}
{'loss': 0.8673, 'grad_norm': 1.7520304918289185, 'learning_rate': 0.00017762500000000002, 'epoch': 26.32}
{'loss': 0.7331, 'grad_norm': 2.0423026084899902, 'learning_rate': 0.00017637500000000002, 'epoch': 26.36}
{'loss': 0.7325, 'grad_norm': 1.7242459058761597, 'learning_rate': 0.00017512500000000001, 'epo



{'loss': 0.7195, 'grad_norm': 2.2239222526550293, 'learning_rate': 0.00015512500000000002, 'epoch': 27.04}
{'loss': 0.8648, 'grad_norm': 2.5514795780181885, 'learning_rate': 0.000153875, 'epoch': 27.08}
{'loss': 0.8141, 'grad_norm': 1.8830405473709106, 'learning_rate': 0.000152625, 'epoch': 27.12}
{'loss': 0.8001, 'grad_norm': 1.50951087474823, 'learning_rate': 0.000151375, 'epoch': 27.16}
{'loss': 0.848, 'grad_norm': 2.402578592300415, 'learning_rate': 0.000150125, 'epoch': 27.2}
{'loss': 0.8379, 'grad_norm': 3.2329578399658203, 'learning_rate': 0.000148875, 'epoch': 27.24}
{'loss': 0.9938, 'grad_norm': 2.29789400100708, 'learning_rate': 0.000147625, 'epoch': 27.28}
{'loss': 1.0293, 'grad_norm': 2.2521185874938965, 'learning_rate': 0.00014637500000000002, 'epoch': 27.32}
{'loss': 0.7866, 'grad_norm': 1.714261770248413, 'learning_rate': 0.00014512500000000002, 'epoch': 27.36}
{'loss': 0.7687, 'grad_norm': 1.2726213932037354, 'learning_rate': 0.00014387500000000001, 'epoch': 27.4}
{'los



{'loss': 0.7951, 'grad_norm': 1.4637640714645386, 'learning_rate': 0.000123875, 'epoch': 28.04}
{'loss': 0.8556, 'grad_norm': 2.0473124980926514, 'learning_rate': 0.000122625, 'epoch': 28.08}
{'loss': 0.8194, 'grad_norm': 1.6450310945510864, 'learning_rate': 0.000121375, 'epoch': 28.12}
{'loss': 0.7503, 'grad_norm': 1.2569818496704102, 'learning_rate': 0.00012012499999999999, 'epoch': 28.16}
{'loss': 0.8728, 'grad_norm': 0.9650380611419678, 'learning_rate': 0.000118875, 'epoch': 28.2}
{'loss': 0.913, 'grad_norm': 3.627584934234619, 'learning_rate': 0.000117625, 'epoch': 28.24}
{'loss': 0.9679, 'grad_norm': 1.7676234245300293, 'learning_rate': 0.00011637500000000001, 'epoch': 28.28}
{'loss': 0.8259, 'grad_norm': 2.0368921756744385, 'learning_rate': 0.000115125, 'epoch': 28.32}
{'loss': 0.8585, 'grad_norm': 1.4655870199203491, 'learning_rate': 0.000113875, 'epoch': 28.36}
{'loss': 0.7556, 'grad_norm': 1.9277923107147217, 'learning_rate': 0.000112625, 'epoch': 28.4}
{'loss': 0.9354, 'grad



{'loss': 0.6548, 'grad_norm': 2.8076682090759277, 'learning_rate': 9.2625e-05, 'epoch': 29.04}
{'loss': 0.7752, 'grad_norm': 1.537948489189148, 'learning_rate': 9.1375e-05, 'epoch': 29.08}
{'loss': 0.6286, 'grad_norm': 2.049116373062134, 'learning_rate': 9.0125e-05, 'epoch': 29.12}
{'loss': 0.7924, 'grad_norm': 1.4999457597732544, 'learning_rate': 8.887499999999999e-05, 'epoch': 29.16}
{'loss': 0.9163, 'grad_norm': 1.6586285829544067, 'learning_rate': 8.7625e-05, 'epoch': 29.2}
{'loss': 0.9007, 'grad_norm': 1.6363980770111084, 'learning_rate': 8.6375e-05, 'epoch': 29.24}
{'loss': 0.8004, 'grad_norm': 2.063347816467285, 'learning_rate': 8.512500000000001e-05, 'epoch': 29.28}
{'loss': 0.7245, 'grad_norm': 1.219449758529663, 'learning_rate': 8.3875e-05, 'epoch': 29.32}
{'loss': 0.5853, 'grad_norm': 1.8179984092712402, 'learning_rate': 8.2625e-05, 'epoch': 29.36}
{'loss': 0.7512, 'grad_norm': 1.3663957118988037, 'learning_rate': 8.1375e-05, 'epoch': 29.4}
{'loss': 0.9807, 'grad_norm': 2.66



{'loss': 0.7884, 'grad_norm': 2.2409002780914307, 'learning_rate': 6.1375e-05, 'epoch': 30.04}
{'loss': 0.779, 'grad_norm': 2.0917844772338867, 'learning_rate': 6.0125e-05, 'epoch': 30.08}
{'loss': 0.8056, 'grad_norm': 1.901414155960083, 'learning_rate': 5.8875e-05, 'epoch': 30.12}
{'loss': 0.7965, 'grad_norm': 1.4603939056396484, 'learning_rate': 5.7625000000000005e-05, 'epoch': 30.16}
{'loss': 0.7375, 'grad_norm': 1.6688029766082764, 'learning_rate': 5.6375e-05, 'epoch': 30.2}
{'loss': 0.7427, 'grad_norm': 2.2977092266082764, 'learning_rate': 5.5125e-05, 'epoch': 30.24}
{'loss': 0.6391, 'grad_norm': 1.6796159744262695, 'learning_rate': 5.3875e-05, 'epoch': 30.28}
{'loss': 0.79, 'grad_norm': 2.722339630126953, 'learning_rate': 5.2625e-05, 'epoch': 30.32}
{'loss': 0.715, 'grad_norm': 1.3753089904785156, 'learning_rate': 5.1374999999999995e-05, 'epoch': 30.36}
{'loss': 0.6922, 'grad_norm': 1.6689890623092651, 'learning_rate': 5.0125000000000005e-05, 'epoch': 30.4}
{'loss': 0.8301, 'grad



{'loss': 0.8392, 'grad_norm': 2.2213802337646484, 'learning_rate': 3.0125e-05, 'epoch': 31.04}
{'loss': 0.7224, 'grad_norm': 1.2882667779922485, 'learning_rate': 2.8875e-05, 'epoch': 31.08}
{'loss': 0.7573, 'grad_norm': 2.300048351287842, 'learning_rate': 2.7625e-05, 'epoch': 31.12}
{'loss': 0.7548, 'grad_norm': 1.8402055501937866, 'learning_rate': 2.6375e-05, 'epoch': 31.16}
{'loss': 0.7912, 'grad_norm': 1.851657509803772, 'learning_rate': 2.5125e-05, 'epoch': 31.2}
{'loss': 0.7781, 'grad_norm': 2.0750603675842285, 'learning_rate': 2.3875e-05, 'epoch': 31.24}
{'loss': 0.6917, 'grad_norm': 1.201710820198059, 'learning_rate': 2.2625e-05, 'epoch': 31.28}
{'loss': 0.6804, 'grad_norm': 1.460008978843689, 'learning_rate': 2.1375e-05, 'epoch': 31.32}
{'loss': 0.6675, 'grad_norm': 1.4523489475250244, 'learning_rate': 2.0125e-05, 'epoch': 31.36}
{'loss': 0.7854, 'grad_norm': 2.3688924312591553, 'learning_rate': 1.8875e-05, 'epoch': 31.4}
{'loss': 0.7991, 'grad_norm': 2.0799055099487305, 'learn

TrainOutput(global_step=8000, training_loss=1.1712001399993897, metrics={'train_runtime': 39000.4635, 'train_samples_per_second': 3.282, 'train_steps_per_second': 0.205, 'train_loss': 1.1712001399993897, 'epoch': 32.0})