## Homework: 使用完整的 YelpReviewFull 数据集训练，看 Acc 最高能到多少

In [1]:
# 准备数据集
from datasets import load_dataset

dataset = load_dataset("yelp_review_full")

In [2]:
# 预处理数据
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("bert-base-cased")

def tokenize_function(examples):
    return tokenizer(examples["text"], padding="max_length", truncation=True)

tokenized_datasets = dataset.map(tokenize_function, batched=True)

train_dataset = tokenized_datasets["train"]
# eval_dataset = tokenized_datasets["test"]
eval_dataset = tokenized_datasets["test"].shuffle(seed=42).select(range(1000))

print("Training set:" + str(len(train_dataset)) + "  Test set:" + str(len(eval_dataset)))



Training set:650000  Test set:1000


In [3]:
# 加载BERT模型
from transformers import AutoModelForSequenceClassification

model = AutoModelForSequenceClassification.from_pretrained("bert-base-cased", num_labels=5)

Some weights of BertForSequenceClassification were not initialized from the model checkpoint at bert-base-cased and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


In [4]:
# 训练超参数
from transformers import TrainingArguments

model_dir = "models/bert-base-cased-finetune-full-yelp"

# logging_steps 默认值为500，根据我们的训练数据和步长，将其设置为100
training_args = TrainingArguments(output_dir=model_dir, 
                                  per_device_train_batch_size=16,
                                  num_train_epochs=5,
                                  logging_steps=100)

In [5]:
# 设定评估指标
import numpy as np
import evaluate

metric = evaluate.load("accuracy")

def compute_metrics(eval_pred):
    logits, labels = eval_pred
    predictions = np.argmax(logits, axis=-1)
    return metric.compute(predictions=predictions, references=labels)

In [6]:
from transformers import TrainingArguments, Trainer

training_args = TrainingArguments(output_dir=model_dir,
                                  evaluation_strategy="epoch", 
                                  per_device_train_batch_size=16,
                                  num_train_epochs=3,
                                  logging_steps=100)

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_dataset,
    eval_dataset=eval_dataset,
    compute_metrics=compute_metrics,
)

In [7]:
trainer.train()

  0%|          | 0/121875 [00:00<?, ?it/s]

  return dynamo.is_compiling()


{'loss': 1.5464, 'learning_rate': 4.995897435897436e-05, 'epoch': 0.0}
{'loss': 1.2115, 'learning_rate': 4.991794871794872e-05, 'epoch': 0.0}
{'loss': 1.0936, 'learning_rate': 4.987692307692308e-05, 'epoch': 0.01}
{'loss': 1.0947, 'learning_rate': 4.983589743589744e-05, 'epoch': 0.01}


Checkpoint destination directory models/bert-base-cased-finetune-full-yelp\checkpoint-500 already exists and is non-empty.Saving will proceed but saved results may be invalid.


{'loss': 1.0222, 'learning_rate': 4.979487179487179e-05, 'epoch': 0.01}


  return dynamo.is_compiling()


{'loss': 1.0201, 'learning_rate': 4.975384615384616e-05, 'epoch': 0.01}
{'loss': 0.98, 'learning_rate': 4.971282051282051e-05, 'epoch': 0.02}
{'loss': 1.0129, 'learning_rate': 4.9671794871794876e-05, 'epoch': 0.02}
{'loss': 0.999, 'learning_rate': 4.963076923076923e-05, 'epoch': 0.02}


Checkpoint destination directory models/bert-base-cased-finetune-full-yelp\checkpoint-1000 already exists and is non-empty.Saving will proceed but saved results may be invalid.


{'loss': 0.9619, 'learning_rate': 4.9589743589743594e-05, 'epoch': 0.02}


  return dynamo.is_compiling()


{'loss': 0.9864, 'learning_rate': 4.954871794871795e-05, 'epoch': 0.03}
{'loss': 0.976, 'learning_rate': 4.950769230769231e-05, 'epoch': 0.03}
{'loss': 0.9569, 'learning_rate': 4.9466666666666665e-05, 'epoch': 0.03}
{'loss': 0.9391, 'learning_rate': 4.942564102564103e-05, 'epoch': 0.03}


Checkpoint destination directory models/bert-base-cased-finetune-full-yelp\checkpoint-1500 already exists and is non-empty.Saving will proceed but saved results may be invalid.


{'loss': 0.9416, 'learning_rate': 4.9384615384615384e-05, 'epoch': 0.04}


  return dynamo.is_compiling()


{'loss': 0.9832, 'learning_rate': 4.934358974358975e-05, 'epoch': 0.04}
{'loss': 0.9185, 'learning_rate': 4.93025641025641e-05, 'epoch': 0.04}
{'loss': 0.9274, 'learning_rate': 4.926153846153847e-05, 'epoch': 0.04}
{'loss': 0.9397, 'learning_rate': 4.922051282051282e-05, 'epoch': 0.05}


Checkpoint destination directory models/bert-base-cased-finetune-full-yelp\checkpoint-2000 already exists and is non-empty.Saving will proceed but saved results may be invalid.


{'loss': 0.9498, 'learning_rate': 4.917948717948718e-05, 'epoch': 0.05}


  return dynamo.is_compiling()


{'loss': 0.9387, 'learning_rate': 4.913846153846154e-05, 'epoch': 0.05}
{'loss': 0.9333, 'learning_rate': 4.90974358974359e-05, 'epoch': 0.05}
{'loss': 0.9133, 'learning_rate': 4.905641025641026e-05, 'epoch': 0.06}
{'loss': 0.8907, 'learning_rate': 4.9015384615384616e-05, 'epoch': 0.06}
{'loss': 0.9395, 'learning_rate': 4.8974358974358975e-05, 'epoch': 0.06}


  return dynamo.is_compiling()


{'loss': 0.8933, 'learning_rate': 4.8933333333333335e-05, 'epoch': 0.06}
{'loss': 0.9006, 'learning_rate': 4.8892307692307694e-05, 'epoch': 0.07}
{'loss': 0.9266, 'learning_rate': 4.885128205128205e-05, 'epoch': 0.07}
{'loss': 0.9029, 'learning_rate': 4.881025641025641e-05, 'epoch': 0.07}
{'loss': 0.9055, 'learning_rate': 4.876923076923077e-05, 'epoch': 0.07}


  return dynamo.is_compiling()


{'loss': 0.8971, 'learning_rate': 4.872820512820513e-05, 'epoch': 0.08}
{'loss': 0.8832, 'learning_rate': 4.868717948717949e-05, 'epoch': 0.08}
{'loss': 0.9204, 'learning_rate': 4.864615384615385e-05, 'epoch': 0.08}
{'loss': 0.8817, 'learning_rate': 4.860512820512821e-05, 'epoch': 0.08}
{'loss': 0.9128, 'learning_rate': 4.856410256410257e-05, 'epoch': 0.09}


  return dynamo.is_compiling()


{'loss': 0.8734, 'learning_rate': 4.8523076923076927e-05, 'epoch': 0.09}
{'loss': 0.9018, 'learning_rate': 4.8482051282051286e-05, 'epoch': 0.09}
{'loss': 0.8909, 'learning_rate': 4.8441025641025645e-05, 'epoch': 0.09}
{'loss': 0.8857, 'learning_rate': 4.8400000000000004e-05, 'epoch': 0.1}
{'loss': 0.9029, 'learning_rate': 4.835897435897436e-05, 'epoch': 0.1}


  return dynamo.is_compiling()


{'loss': 0.9054, 'learning_rate': 4.8317948717948716e-05, 'epoch': 0.1}
{'loss': 0.8714, 'learning_rate': 4.827692307692308e-05, 'epoch': 0.1}
{'loss': 0.8713, 'learning_rate': 4.8235897435897434e-05, 'epoch': 0.11}
{'loss': 0.8729, 'learning_rate': 4.81948717948718e-05, 'epoch': 0.11}
{'loss': 0.894, 'learning_rate': 4.815384615384615e-05, 'epoch': 0.11}


  return dynamo.is_compiling()


{'loss': 0.8644, 'learning_rate': 4.811282051282052e-05, 'epoch': 0.11}
{'loss': 0.9032, 'learning_rate': 4.807179487179487e-05, 'epoch': 0.12}
{'loss': 0.888, 'learning_rate': 4.803076923076924e-05, 'epoch': 0.12}
{'loss': 0.884, 'learning_rate': 4.798974358974359e-05, 'epoch': 0.12}
{'loss': 0.862, 'learning_rate': 4.7948717948717955e-05, 'epoch': 0.12}


  return dynamo.is_compiling()


{'loss': 0.8727, 'learning_rate': 4.790769230769231e-05, 'epoch': 0.13}
{'loss': 0.8865, 'learning_rate': 4.7866666666666674e-05, 'epoch': 0.13}
{'loss': 0.8816, 'learning_rate': 4.7825641025641026e-05, 'epoch': 0.13}
{'loss': 0.8622, 'learning_rate': 4.778461538461539e-05, 'epoch': 0.13}
{'loss': 0.91, 'learning_rate': 4.7743589743589744e-05, 'epoch': 0.14}


  return dynamo.is_compiling()


{'loss': 0.8689, 'learning_rate': 4.7702564102564104e-05, 'epoch': 0.14}
{'loss': 0.8489, 'learning_rate': 4.766153846153846e-05, 'epoch': 0.14}
{'loss': 0.8489, 'learning_rate': 4.762051282051282e-05, 'epoch': 0.14}
{'loss': 0.8514, 'learning_rate': 4.757948717948718e-05, 'epoch': 0.15}
{'loss': 0.8691, 'learning_rate': 4.753846153846154e-05, 'epoch': 0.15}


  return dynamo.is_compiling()


{'loss': 0.8463, 'learning_rate': 4.74974358974359e-05, 'epoch': 0.15}
{'loss': 0.8381, 'learning_rate': 4.745641025641026e-05, 'epoch': 0.15}
{'loss': 0.8495, 'learning_rate': 4.741538461538462e-05, 'epoch': 0.16}
{'loss': 0.8676, 'learning_rate': 4.737435897435898e-05, 'epoch': 0.16}
{'loss': 0.8832, 'learning_rate': 4.7333333333333336e-05, 'epoch': 0.16}


  return dynamo.is_compiling()


{'loss': 0.869, 'learning_rate': 4.7292307692307696e-05, 'epoch': 0.16}
{'loss': 0.8742, 'learning_rate': 4.7251282051282055e-05, 'epoch': 0.16}
{'loss': 0.8627, 'learning_rate': 4.7210256410256414e-05, 'epoch': 0.17}
{'loss': 0.8709, 'learning_rate': 4.716923076923077e-05, 'epoch': 0.17}
{'loss': 0.8879, 'learning_rate': 4.712820512820513e-05, 'epoch': 0.17}


  return dynamo.is_compiling()


{'loss': 0.8634, 'learning_rate': 4.708717948717949e-05, 'epoch': 0.17}
{'loss': 0.8601, 'learning_rate': 4.704615384615385e-05, 'epoch': 0.18}
{'loss': 0.8757, 'learning_rate': 4.700512820512821e-05, 'epoch': 0.18}
{'loss': 0.8347, 'learning_rate': 4.696410256410257e-05, 'epoch': 0.18}
{'loss': 0.8414, 'learning_rate': 4.692307692307693e-05, 'epoch': 0.18}


  return dynamo.is_compiling()


{'loss': 0.853, 'learning_rate': 4.688205128205129e-05, 'epoch': 0.19}
{'loss': 0.8516, 'learning_rate': 4.684102564102564e-05, 'epoch': 0.19}
{'loss': 0.8426, 'learning_rate': 4.6800000000000006e-05, 'epoch': 0.19}
{'loss': 0.8552, 'learning_rate': 4.675897435897436e-05, 'epoch': 0.19}
{'loss': 0.8534, 'learning_rate': 4.671794871794872e-05, 'epoch': 0.2}


  return dynamo.is_compiling()


{'loss': 0.8319, 'learning_rate': 4.667692307692308e-05, 'epoch': 0.2}
{'loss': 0.8616, 'learning_rate': 4.6635897435897436e-05, 'epoch': 0.2}
{'loss': 0.8414, 'learning_rate': 4.6594871794871795e-05, 'epoch': 0.2}
{'loss': 0.851, 'learning_rate': 4.6553846153846154e-05, 'epoch': 0.21}
{'loss': 0.8466, 'learning_rate': 4.6512820512820514e-05, 'epoch': 0.21}


  return dynamo.is_compiling()


{'loss': 0.8622, 'learning_rate': 4.647179487179487e-05, 'epoch': 0.21}
{'loss': 0.8172, 'learning_rate': 4.643076923076923e-05, 'epoch': 0.21}
{'loss': 0.8327, 'learning_rate': 4.638974358974359e-05, 'epoch': 0.22}
{'loss': 0.8375, 'learning_rate': 4.634871794871795e-05, 'epoch': 0.22}
{'loss': 0.8339, 'learning_rate': 4.630769230769231e-05, 'epoch': 0.22}


  return dynamo.is_compiling()


{'loss': 0.8356, 'learning_rate': 4.626666666666667e-05, 'epoch': 0.22}
{'loss': 0.8123, 'learning_rate': 4.622564102564103e-05, 'epoch': 0.23}
{'loss': 0.8495, 'learning_rate': 4.618461538461539e-05, 'epoch': 0.23}
{'loss': 0.8407, 'learning_rate': 4.6143589743589746e-05, 'epoch': 0.23}
{'loss': 0.813, 'learning_rate': 4.6102564102564105e-05, 'epoch': 0.23}


  return dynamo.is_compiling()


{'loss': 0.8495, 'learning_rate': 4.6061538461538465e-05, 'epoch': 0.24}
{'loss': 0.8914, 'learning_rate': 4.6020512820512824e-05, 'epoch': 0.24}
{'loss': 0.8185, 'learning_rate': 4.5979487179487176e-05, 'epoch': 0.24}
{'loss': 0.8562, 'learning_rate': 4.593846153846154e-05, 'epoch': 0.24}
{'loss': 0.8229, 'learning_rate': 4.5897435897435895e-05, 'epoch': 0.25}


  return dynamo.is_compiling()


{'loss': 0.8603, 'learning_rate': 4.585641025641026e-05, 'epoch': 0.25}
{'loss': 0.8542, 'learning_rate': 4.581538461538461e-05, 'epoch': 0.25}
{'loss': 0.8169, 'learning_rate': 4.577435897435898e-05, 'epoch': 0.25}
{'loss': 0.8475, 'learning_rate': 4.573333333333333e-05, 'epoch': 0.26}
{'loss': 0.8648, 'learning_rate': 4.56923076923077e-05, 'epoch': 0.26}


  return dynamo.is_compiling()


{'loss': 0.8537, 'learning_rate': 4.565128205128205e-05, 'epoch': 0.26}
{'loss': 0.8581, 'learning_rate': 4.5610256410256416e-05, 'epoch': 0.26}
{'loss': 0.8302, 'learning_rate': 4.556923076923077e-05, 'epoch': 0.27}
{'loss': 0.8444, 'learning_rate': 4.5528205128205134e-05, 'epoch': 0.27}
{'loss': 0.8169, 'learning_rate': 4.5487179487179487e-05, 'epoch': 0.27}


  return dynamo.is_compiling()


{'loss': 0.8171, 'learning_rate': 4.544615384615385e-05, 'epoch': 0.27}
{'loss': 0.8634, 'learning_rate': 4.5405128205128205e-05, 'epoch': 0.28}
{'loss': 0.8336, 'learning_rate': 4.5364102564102564e-05, 'epoch': 0.28}
{'loss': 0.8196, 'learning_rate': 4.532307692307692e-05, 'epoch': 0.28}
{'loss': 0.8442, 'learning_rate': 4.528205128205128e-05, 'epoch': 0.28}


  return dynamo.is_compiling()


{'loss': 0.8594, 'learning_rate': 4.524102564102564e-05, 'epoch': 0.29}
{'loss': 0.8473, 'learning_rate': 4.52e-05, 'epoch': 0.29}
{'loss': 0.8362, 'learning_rate': 4.515897435897436e-05, 'epoch': 0.29}
{'loss': 0.8536, 'learning_rate': 4.511794871794872e-05, 'epoch': 0.29}
{'loss': 0.8489, 'learning_rate': 4.507692307692308e-05, 'epoch': 0.3}


  return dynamo.is_compiling()


{'loss': 0.8488, 'learning_rate': 4.503589743589744e-05, 'epoch': 0.3}
{'loss': 0.8402, 'learning_rate': 4.49948717948718e-05, 'epoch': 0.3}
{'loss': 0.8204, 'learning_rate': 4.4953846153846156e-05, 'epoch': 0.3}
{'loss': 0.8112, 'learning_rate': 4.4912820512820515e-05, 'epoch': 0.31}
{'loss': 0.8305, 'learning_rate': 4.4871794871794874e-05, 'epoch': 0.31}


  return dynamo.is_compiling()


{'loss': 0.8304, 'learning_rate': 4.4830769230769234e-05, 'epoch': 0.31}
{'loss': 0.8122, 'learning_rate': 4.478974358974359e-05, 'epoch': 0.31}
{'loss': 0.8413, 'learning_rate': 4.474871794871795e-05, 'epoch': 0.32}
{'loss': 0.8816, 'learning_rate': 4.470769230769231e-05, 'epoch': 0.32}
{'loss': 0.823, 'learning_rate': 4.466666666666667e-05, 'epoch': 0.32}


  return dynamo.is_compiling()


{'loss': 0.8324, 'learning_rate': 4.462564102564103e-05, 'epoch': 0.32}
{'loss': 0.8196, 'learning_rate': 4.458461538461539e-05, 'epoch': 0.32}
{'loss': 0.8434, 'learning_rate': 4.454358974358975e-05, 'epoch': 0.33}
{'loss': 0.825, 'learning_rate': 4.45025641025641e-05, 'epoch': 0.33}
{'loss': 0.8345, 'learning_rate': 4.4461538461538466e-05, 'epoch': 0.33}


  return dynamo.is_compiling()


{'loss': 0.8057, 'learning_rate': 4.442051282051282e-05, 'epoch': 0.33}
{'loss': 0.8539, 'learning_rate': 4.4379487179487185e-05, 'epoch': 0.34}
{'loss': 0.8195, 'learning_rate': 4.433846153846154e-05, 'epoch': 0.34}
{'loss': 0.8037, 'learning_rate': 4.42974358974359e-05, 'epoch': 0.34}
{'loss': 0.8235, 'learning_rate': 4.4256410256410256e-05, 'epoch': 0.34}


  return dynamo.is_compiling()


{'loss': 0.8019, 'learning_rate': 4.421538461538462e-05, 'epoch': 0.35}
{'loss': 0.8475, 'learning_rate': 4.4174358974358974e-05, 'epoch': 0.35}
{'loss': 0.8109, 'learning_rate': 4.413333333333334e-05, 'epoch': 0.35}
{'loss': 0.7874, 'learning_rate': 4.409230769230769e-05, 'epoch': 0.35}
{'loss': 0.7788, 'learning_rate': 4.405128205128206e-05, 'epoch': 0.36}


  return dynamo.is_compiling()


{'loss': 0.8668, 'learning_rate': 4.401025641025641e-05, 'epoch': 0.36}
{'loss': 0.8277, 'learning_rate': 4.396923076923078e-05, 'epoch': 0.36}
{'loss': 0.8227, 'learning_rate': 4.392820512820513e-05, 'epoch': 0.36}
{'loss': 0.8295, 'learning_rate': 4.388717948717949e-05, 'epoch': 0.37}
{'loss': 0.837, 'learning_rate': 4.384615384615385e-05, 'epoch': 0.37}


  return dynamo.is_compiling()


{'loss': 0.8167, 'learning_rate': 4.380512820512821e-05, 'epoch': 0.37}
{'loss': 0.8149, 'learning_rate': 4.3764102564102566e-05, 'epoch': 0.37}
{'loss': 0.8622, 'learning_rate': 4.3723076923076925e-05, 'epoch': 0.38}
{'loss': 0.8319, 'learning_rate': 4.3682051282051284e-05, 'epoch': 0.38}
{'loss': 0.8149, 'learning_rate': 4.3641025641025643e-05, 'epoch': 0.38}


  return dynamo.is_compiling()


{'loss': 0.7921, 'learning_rate': 4.36e-05, 'epoch': 0.38}
{'loss': 0.8479, 'learning_rate': 4.355897435897436e-05, 'epoch': 0.39}
{'loss': 0.807, 'learning_rate': 4.351794871794872e-05, 'epoch': 0.39}
{'loss': 0.7869, 'learning_rate': 4.347692307692308e-05, 'epoch': 0.39}
{'loss': 0.8249, 'learning_rate': 4.343589743589744e-05, 'epoch': 0.39}


  return dynamo.is_compiling()


{'loss': 0.8451, 'learning_rate': 4.339487179487179e-05, 'epoch': 0.4}
{'loss': 0.8707, 'learning_rate': 4.335384615384616e-05, 'epoch': 0.4}
{'loss': 0.8175, 'learning_rate': 4.331282051282051e-05, 'epoch': 0.4}
{'loss': 0.7956, 'learning_rate': 4.3271794871794876e-05, 'epoch': 0.4}
{'loss': 0.8037, 'learning_rate': 4.323076923076923e-05, 'epoch': 0.41}


  return dynamo.is_compiling()


{'loss': 0.8612, 'learning_rate': 4.3189743589743595e-05, 'epoch': 0.41}
{'loss': 0.7874, 'learning_rate': 4.314871794871795e-05, 'epoch': 0.41}
{'loss': 0.8413, 'learning_rate': 4.310769230769231e-05, 'epoch': 0.41}
{'loss': 0.7893, 'learning_rate': 4.3066666666666665e-05, 'epoch': 0.42}
{'loss': 0.8113, 'learning_rate': 4.302564102564103e-05, 'epoch': 0.42}


  return dynamo.is_compiling()


{'loss': 0.7979, 'learning_rate': 4.2984615384615384e-05, 'epoch': 0.42}
{'loss': 0.8276, 'learning_rate': 4.294358974358974e-05, 'epoch': 0.42}
{'loss': 0.8294, 'learning_rate': 4.29025641025641e-05, 'epoch': 0.43}
{'loss': 0.7973, 'learning_rate': 4.286153846153846e-05, 'epoch': 0.43}
{'loss': 0.7919, 'learning_rate': 4.282051282051282e-05, 'epoch': 0.43}


  return dynamo.is_compiling()


{'loss': 0.7965, 'learning_rate': 4.277948717948718e-05, 'epoch': 0.43}
{'loss': 0.8323, 'learning_rate': 4.273846153846154e-05, 'epoch': 0.44}
{'loss': 0.8142, 'learning_rate': 4.26974358974359e-05, 'epoch': 0.44}
{'loss': 0.8256, 'learning_rate': 4.265641025641026e-05, 'epoch': 0.44}
{'loss': 0.8213, 'learning_rate': 4.2615384615384617e-05, 'epoch': 0.44}


  return dynamo.is_compiling()


{'loss': 0.844, 'learning_rate': 4.2574358974358976e-05, 'epoch': 0.45}
{'loss': 0.8189, 'learning_rate': 4.2533333333333335e-05, 'epoch': 0.45}
{'loss': 0.8156, 'learning_rate': 4.2492307692307694e-05, 'epoch': 0.45}
{'loss': 0.8122, 'learning_rate': 4.245128205128205e-05, 'epoch': 0.45}
{'loss': 0.8395, 'learning_rate': 4.241025641025641e-05, 'epoch': 0.46}


  return dynamo.is_compiling()


{'loss': 0.8278, 'learning_rate': 4.236923076923077e-05, 'epoch': 0.46}
{'loss': 0.8324, 'learning_rate': 4.232820512820513e-05, 'epoch': 0.46}
{'loss': 0.8125, 'learning_rate': 4.228717948717949e-05, 'epoch': 0.46}
{'loss': 0.837, 'learning_rate': 4.224615384615385e-05, 'epoch': 0.47}
{'loss': 0.803, 'learning_rate': 4.220512820512821e-05, 'epoch': 0.47}


  return dynamo.is_compiling()


{'loss': 0.7718, 'learning_rate': 4.216410256410257e-05, 'epoch': 0.47}
{'loss': 0.8195, 'learning_rate': 4.212307692307693e-05, 'epoch': 0.47}
{'loss': 0.8435, 'learning_rate': 4.208205128205128e-05, 'epoch': 0.48}
{'loss': 0.8017, 'learning_rate': 4.2041025641025645e-05, 'epoch': 0.48}
{'loss': 0.793, 'learning_rate': 4.2e-05, 'epoch': 0.48}


  return dynamo.is_compiling()


{'loss': 0.8292, 'learning_rate': 4.1958974358974364e-05, 'epoch': 0.48}
{'loss': 0.8249, 'learning_rate': 4.1917948717948716e-05, 'epoch': 0.48}
{'loss': 0.8012, 'learning_rate': 4.187692307692308e-05, 'epoch': 0.49}
{'loss': 0.7958, 'learning_rate': 4.1835897435897434e-05, 'epoch': 0.49}
{'loss': 0.8086, 'learning_rate': 4.17948717948718e-05, 'epoch': 0.49}


  return dynamo.is_compiling()


{'loss': 0.8134, 'learning_rate': 4.175384615384615e-05, 'epoch': 0.49}
{'loss': 0.8028, 'learning_rate': 4.171282051282052e-05, 'epoch': 0.5}
{'loss': 0.8071, 'learning_rate': 4.167179487179487e-05, 'epoch': 0.5}
{'loss': 0.831, 'learning_rate': 4.163076923076924e-05, 'epoch': 0.5}
{'loss': 0.7653, 'learning_rate': 4.158974358974359e-05, 'epoch': 0.5}


  return dynamo.is_compiling()


{'loss': 0.8545, 'learning_rate': 4.1548717948717956e-05, 'epoch': 0.51}
{'loss': 0.8025, 'learning_rate': 4.150769230769231e-05, 'epoch': 0.51}
{'loss': 0.781, 'learning_rate': 4.146666666666667e-05, 'epoch': 0.51}
{'loss': 0.7833, 'learning_rate': 4.1425641025641026e-05, 'epoch': 0.51}
{'loss': 0.795, 'learning_rate': 4.1384615384615386e-05, 'epoch': 0.52}


  return dynamo.is_compiling()


{'loss': 0.7902, 'learning_rate': 4.1343589743589745e-05, 'epoch': 0.52}
{'loss': 0.7971, 'learning_rate': 4.1302564102564104e-05, 'epoch': 0.52}
{'loss': 0.8135, 'learning_rate': 4.126153846153846e-05, 'epoch': 0.52}
{'loss': 0.8102, 'learning_rate': 4.122051282051282e-05, 'epoch': 0.53}
{'loss': 0.8244, 'learning_rate': 4.117948717948718e-05, 'epoch': 0.53}


  return dynamo.is_compiling()


{'loss': 0.8033, 'learning_rate': 4.113846153846154e-05, 'epoch': 0.53}
{'loss': 0.838, 'learning_rate': 4.10974358974359e-05, 'epoch': 0.53}
{'loss': 0.765, 'learning_rate': 4.105641025641026e-05, 'epoch': 0.54}
{'loss': 0.803, 'learning_rate': 4.101538461538462e-05, 'epoch': 0.54}
{'loss': 0.8155, 'learning_rate': 4.097435897435898e-05, 'epoch': 0.54}


  return dynamo.is_compiling()


{'loss': 0.7897, 'learning_rate': 4.093333333333334e-05, 'epoch': 0.54}
{'loss': 0.838, 'learning_rate': 4.0892307692307696e-05, 'epoch': 0.55}
{'loss': 0.784, 'learning_rate': 4.0851282051282055e-05, 'epoch': 0.55}
{'loss': 0.8025, 'learning_rate': 4.0810256410256414e-05, 'epoch': 0.55}
{'loss': 0.8191, 'learning_rate': 4.0769230769230773e-05, 'epoch': 0.55}


  return dynamo.is_compiling()


{'loss': 0.802, 'learning_rate': 4.072820512820513e-05, 'epoch': 0.56}
{'loss': 0.8429, 'learning_rate': 4.068717948717949e-05, 'epoch': 0.56}
{'loss': 0.8212, 'learning_rate': 4.064615384615385e-05, 'epoch': 0.56}
{'loss': 0.796, 'learning_rate': 4.0605128205128203e-05, 'epoch': 0.56}
{'loss': 0.826, 'learning_rate': 4.056410256410257e-05, 'epoch': 0.57}


  return dynamo.is_compiling()


{'loss': 0.7915, 'learning_rate': 4.052307692307692e-05, 'epoch': 0.57}
{'loss': 0.8118, 'learning_rate': 4.048205128205129e-05, 'epoch': 0.57}
{'loss': 0.8143, 'learning_rate': 4.044102564102564e-05, 'epoch': 0.57}
{'loss': 0.8027, 'learning_rate': 4.0400000000000006e-05, 'epoch': 0.58}
{'loss': 0.7982, 'learning_rate': 4.035897435897436e-05, 'epoch': 0.58}


  return dynamo.is_compiling()


{'loss': 0.8151, 'learning_rate': 4.0317948717948725e-05, 'epoch': 0.58}
{'loss': 0.8244, 'learning_rate': 4.027692307692308e-05, 'epoch': 0.58}
{'loss': 0.8219, 'learning_rate': 4.023589743589744e-05, 'epoch': 0.59}
{'loss': 0.7833, 'learning_rate': 4.0194871794871795e-05, 'epoch': 0.59}
{'loss': 0.7906, 'learning_rate': 4.0153846153846155e-05, 'epoch': 0.59}


  return dynamo.is_compiling()


{'loss': 0.8449, 'learning_rate': 4.0112820512820514e-05, 'epoch': 0.59}
{'loss': 0.8013, 'learning_rate': 4.007179487179487e-05, 'epoch': 0.6}
{'loss': 0.8172, 'learning_rate': 4.003076923076923e-05, 'epoch': 0.6}
{'loss': 0.8151, 'learning_rate': 3.998974358974359e-05, 'epoch': 0.6}
{'loss': 0.819, 'learning_rate': 3.994871794871795e-05, 'epoch': 0.6}


  return dynamo.is_compiling()


{'loss': 0.8018, 'learning_rate': 3.990769230769231e-05, 'epoch': 0.61}
{'loss': 0.7997, 'learning_rate': 3.986666666666667e-05, 'epoch': 0.61}
{'loss': 0.8273, 'learning_rate': 3.982564102564103e-05, 'epoch': 0.61}
{'loss': 0.8015, 'learning_rate': 3.978461538461539e-05, 'epoch': 0.61}
{'loss': 0.8177, 'learning_rate': 3.974358974358974e-05, 'epoch': 0.62}


  return dynamo.is_compiling()


{'loss': 0.8106, 'learning_rate': 3.9702564102564106e-05, 'epoch': 0.62}
{'loss': 0.8068, 'learning_rate': 3.966153846153846e-05, 'epoch': 0.62}
{'loss': 0.8114, 'learning_rate': 3.9620512820512824e-05, 'epoch': 0.62}
{'loss': 0.8275, 'learning_rate': 3.9579487179487177e-05, 'epoch': 0.63}
{'loss': 0.8059, 'learning_rate': 3.953846153846154e-05, 'epoch': 0.63}


  return dynamo.is_compiling()


{'loss': 0.8019, 'learning_rate': 3.9497435897435895e-05, 'epoch': 0.63}
{'loss': 0.7743, 'learning_rate': 3.945641025641026e-05, 'epoch': 0.63}
{'loss': 0.7828, 'learning_rate': 3.941538461538461e-05, 'epoch': 0.64}
{'loss': 0.7733, 'learning_rate': 3.937435897435898e-05, 'epoch': 0.64}
{'loss': 0.7865, 'learning_rate': 3.933333333333333e-05, 'epoch': 0.64}


  return dynamo.is_compiling()


{'loss': 0.8069, 'learning_rate': 3.92923076923077e-05, 'epoch': 0.64}
{'loss': 0.8031, 'learning_rate': 3.925128205128205e-05, 'epoch': 0.64}
{'loss': 0.7899, 'learning_rate': 3.9210256410256416e-05, 'epoch': 0.65}
{'loss': 0.796, 'learning_rate': 3.916923076923077e-05, 'epoch': 0.65}
{'loss': 0.7819, 'learning_rate': 3.912820512820513e-05, 'epoch': 0.65}


  return dynamo.is_compiling()


{'loss': 0.7579, 'learning_rate': 3.908717948717949e-05, 'epoch': 0.65}
{'loss': 0.7948, 'learning_rate': 3.9046153846153846e-05, 'epoch': 0.66}
{'loss': 0.8244, 'learning_rate': 3.9005128205128205e-05, 'epoch': 0.66}
{'loss': 0.7892, 'learning_rate': 3.8964102564102564e-05, 'epoch': 0.66}
{'loss': 0.7753, 'learning_rate': 3.8923076923076924e-05, 'epoch': 0.66}


  return dynamo.is_compiling()


{'loss': 0.8114, 'learning_rate': 3.888205128205128e-05, 'epoch': 0.67}
{'loss': 0.7801, 'learning_rate': 3.884102564102564e-05, 'epoch': 0.67}
{'loss': 0.7862, 'learning_rate': 3.88e-05, 'epoch': 0.67}
{'loss': 0.7657, 'learning_rate': 3.875897435897436e-05, 'epoch': 0.67}
{'loss': 0.8577, 'learning_rate': 3.871794871794872e-05, 'epoch': 0.68}


  return dynamo.is_compiling()


{'loss': 0.8058, 'learning_rate': 3.867692307692308e-05, 'epoch': 0.68}
{'loss': 0.7733, 'learning_rate': 3.863589743589744e-05, 'epoch': 0.68}
{'loss': 0.8061, 'learning_rate': 3.85948717948718e-05, 'epoch': 0.68}
{'loss': 0.8022, 'learning_rate': 3.8553846153846156e-05, 'epoch': 0.69}
{'loss': 0.7858, 'learning_rate': 3.8512820512820516e-05, 'epoch': 0.69}


  return dynamo.is_compiling()


{'loss': 0.7788, 'learning_rate': 3.8471794871794875e-05, 'epoch': 0.69}
{'loss': 0.7859, 'learning_rate': 3.8430769230769234e-05, 'epoch': 0.69}
{'loss': 0.8184, 'learning_rate': 3.838974358974359e-05, 'epoch': 0.7}
{'loss': 0.7947, 'learning_rate': 3.834871794871795e-05, 'epoch': 0.7}
{'loss': 0.7925, 'learning_rate': 3.830769230769231e-05, 'epoch': 0.7}


  return dynamo.is_compiling()


{'loss': 0.7743, 'learning_rate': 3.8266666666666664e-05, 'epoch': 0.7}
{'loss': 0.8033, 'learning_rate': 3.822564102564103e-05, 'epoch': 0.71}
{'loss': 0.7942, 'learning_rate': 3.818461538461538e-05, 'epoch': 0.71}
{'loss': 0.8178, 'learning_rate': 3.814358974358975e-05, 'epoch': 0.71}
{'loss': 0.7735, 'learning_rate': 3.81025641025641e-05, 'epoch': 0.71}


  return dynamo.is_compiling()


{'loss': 0.7825, 'learning_rate': 3.806153846153847e-05, 'epoch': 0.72}
{'loss': 0.8161, 'learning_rate': 3.802051282051282e-05, 'epoch': 0.72}
{'loss': 0.7811, 'learning_rate': 3.7979487179487185e-05, 'epoch': 0.72}
{'loss': 0.7852, 'learning_rate': 3.793846153846154e-05, 'epoch': 0.72}
{'loss': 0.7696, 'learning_rate': 3.7897435897435903e-05, 'epoch': 0.73}


  return dynamo.is_compiling()


{'loss': 0.8104, 'learning_rate': 3.7856410256410256e-05, 'epoch': 0.73}
{'loss': 0.7814, 'learning_rate': 3.781538461538462e-05, 'epoch': 0.73}
{'loss': 0.7828, 'learning_rate': 3.7774358974358974e-05, 'epoch': 0.73}
{'loss': 0.7794, 'learning_rate': 3.773333333333334e-05, 'epoch': 0.74}
{'loss': 0.788, 'learning_rate': 3.769230769230769e-05, 'epoch': 0.74}


  return dynamo.is_compiling()


{'loss': 0.797, 'learning_rate': 3.765128205128205e-05, 'epoch': 0.74}
{'loss': 0.7697, 'learning_rate': 3.761025641025641e-05, 'epoch': 0.74}
{'loss': 0.7722, 'learning_rate': 3.756923076923077e-05, 'epoch': 0.75}
{'loss': 0.8271, 'learning_rate': 3.752820512820513e-05, 'epoch': 0.75}
{'loss': 0.8185, 'learning_rate': 3.748717948717949e-05, 'epoch': 0.75}


  return dynamo.is_compiling()


{'loss': 0.7959, 'learning_rate': 3.744615384615385e-05, 'epoch': 0.75}
{'loss': 0.8133, 'learning_rate': 3.740512820512821e-05, 'epoch': 0.76}
{'loss': 0.7897, 'learning_rate': 3.7364102564102566e-05, 'epoch': 0.76}
{'loss': 0.7862, 'learning_rate': 3.7323076923076925e-05, 'epoch': 0.76}
{'loss': 0.7786, 'learning_rate': 3.7282051282051285e-05, 'epoch': 0.76}


  return dynamo.is_compiling()


{'loss': 0.8036, 'learning_rate': 3.7241025641025644e-05, 'epoch': 0.77}
{'loss': 0.7853, 'learning_rate': 3.72e-05, 'epoch': 0.77}
{'loss': 0.7859, 'learning_rate': 3.715897435897436e-05, 'epoch': 0.77}
{'loss': 0.7589, 'learning_rate': 3.711794871794872e-05, 'epoch': 0.77}
{'loss': 0.7787, 'learning_rate': 3.707692307692308e-05, 'epoch': 0.78}


  return dynamo.is_compiling()


{'loss': 0.7919, 'learning_rate': 3.703589743589744e-05, 'epoch': 0.78}
{'loss': 0.8135, 'learning_rate': 3.69948717948718e-05, 'epoch': 0.78}
{'loss': 0.7773, 'learning_rate': 3.695384615384616e-05, 'epoch': 0.78}
{'loss': 0.7856, 'learning_rate': 3.691282051282052e-05, 'epoch': 0.79}
{'loss': 0.7688, 'learning_rate': 3.6871794871794877e-05, 'epoch': 0.79}


  return dynamo.is_compiling()


{'loss': 0.7762, 'learning_rate': 3.683076923076923e-05, 'epoch': 0.79}
{'loss': 0.807, 'learning_rate': 3.6789743589743595e-05, 'epoch': 0.79}
{'loss': 0.8021, 'learning_rate': 3.674871794871795e-05, 'epoch': 0.8}
{'loss': 0.7939, 'learning_rate': 3.6707692307692307e-05, 'epoch': 0.8}
{'loss': 0.7749, 'learning_rate': 3.6666666666666666e-05, 'epoch': 0.8}


  return dynamo.is_compiling()


{'loss': 0.7833, 'learning_rate': 3.6625641025641025e-05, 'epoch': 0.8}
{'loss': 0.7555, 'learning_rate': 3.6584615384615384e-05, 'epoch': 0.8}
{'loss': 0.7622, 'learning_rate': 3.654358974358974e-05, 'epoch': 0.81}
{'loss': 0.7951, 'learning_rate': 3.65025641025641e-05, 'epoch': 0.81}
{'loss': 0.8208, 'learning_rate': 3.646153846153846e-05, 'epoch': 0.81}


  return dynamo.is_compiling()


{'loss': 0.7446, 'learning_rate': 3.642051282051282e-05, 'epoch': 0.81}
{'loss': 0.7697, 'learning_rate': 3.637948717948718e-05, 'epoch': 0.82}
{'loss': 0.7648, 'learning_rate': 3.633846153846154e-05, 'epoch': 0.82}
{'loss': 0.7939, 'learning_rate': 3.62974358974359e-05, 'epoch': 0.82}
{'loss': 0.7645, 'learning_rate': 3.625641025641026e-05, 'epoch': 0.82}


  return dynamo.is_compiling()


{'loss': 0.8193, 'learning_rate': 3.621538461538462e-05, 'epoch': 0.83}
{'loss': 0.7719, 'learning_rate': 3.6174358974358976e-05, 'epoch': 0.83}
{'loss': 0.7552, 'learning_rate': 3.6133333333333335e-05, 'epoch': 0.83}
{'loss': 0.7795, 'learning_rate': 3.6092307692307694e-05, 'epoch': 0.83}
{'loss': 0.7709, 'learning_rate': 3.6051282051282054e-05, 'epoch': 0.84}


  return dynamo.is_compiling()


{'loss': 0.8009, 'learning_rate': 3.601025641025641e-05, 'epoch': 0.84}
{'loss': 0.765, 'learning_rate': 3.596923076923077e-05, 'epoch': 0.84}
{'loss': 0.7946, 'learning_rate': 3.592820512820513e-05, 'epoch': 0.84}
{'loss': 0.7943, 'learning_rate': 3.588717948717949e-05, 'epoch': 0.85}
{'loss': 0.8192, 'learning_rate': 3.584615384615384e-05, 'epoch': 0.85}


  return dynamo.is_compiling()


{'loss': 0.7968, 'learning_rate': 3.580512820512821e-05, 'epoch': 0.85}
{'loss': 0.7761, 'learning_rate': 3.576410256410256e-05, 'epoch': 0.85}
{'loss': 0.7741, 'learning_rate': 3.572307692307693e-05, 'epoch': 0.86}
{'loss': 0.8069, 'learning_rate': 3.568205128205128e-05, 'epoch': 0.86}
{'loss': 0.7718, 'learning_rate': 3.5641025641025646e-05, 'epoch': 0.86}


  return dynamo.is_compiling()


{'loss': 0.769, 'learning_rate': 3.56e-05, 'epoch': 0.86}
{'loss': 0.7971, 'learning_rate': 3.5558974358974364e-05, 'epoch': 0.87}
{'loss': 0.7861, 'learning_rate': 3.5517948717948716e-05, 'epoch': 0.87}
{'loss': 0.7642, 'learning_rate': 3.547692307692308e-05, 'epoch': 0.87}
{'loss': 0.7672, 'learning_rate': 3.5435897435897435e-05, 'epoch': 0.87}


  return dynamo.is_compiling()


{'loss': 0.8023, 'learning_rate': 3.53948717948718e-05, 'epoch': 0.88}
{'loss': 0.8034, 'learning_rate': 3.535384615384615e-05, 'epoch': 0.88}
{'loss': 0.7542, 'learning_rate': 3.531282051282052e-05, 'epoch': 0.88}
{'loss': 0.7669, 'learning_rate': 3.527179487179487e-05, 'epoch': 0.88}
{'loss': 0.7572, 'learning_rate': 3.523076923076923e-05, 'epoch': 0.89}


  return dynamo.is_compiling()


{'loss': 0.7634, 'learning_rate': 3.518974358974359e-05, 'epoch': 0.89}
{'loss': 0.7875, 'learning_rate': 3.514871794871795e-05, 'epoch': 0.89}
{'loss': 0.7918, 'learning_rate': 3.510769230769231e-05, 'epoch': 0.89}
{'loss': 0.7688, 'learning_rate': 3.506666666666667e-05, 'epoch': 0.9}
{'loss': 0.7899, 'learning_rate': 3.502564102564103e-05, 'epoch': 0.9}


  return dynamo.is_compiling()


{'loss': 0.7828, 'learning_rate': 3.4984615384615386e-05, 'epoch': 0.9}
{'loss': 0.7891, 'learning_rate': 3.4943589743589745e-05, 'epoch': 0.9}
{'loss': 0.7935, 'learning_rate': 3.4902564102564104e-05, 'epoch': 0.91}
{'loss': 0.7851, 'learning_rate': 3.4861538461538463e-05, 'epoch': 0.91}
{'loss': 0.7932, 'learning_rate': 3.482051282051282e-05, 'epoch': 0.91}


  return dynamo.is_compiling()


{'loss': 0.7634, 'learning_rate': 3.477948717948718e-05, 'epoch': 0.91}
{'loss': 0.7844, 'learning_rate': 3.473846153846154e-05, 'epoch': 0.92}
{'loss': 0.77, 'learning_rate': 3.46974358974359e-05, 'epoch': 0.92}
{'loss': 0.7728, 'learning_rate': 3.465641025641026e-05, 'epoch': 0.92}
{'loss': 0.7516, 'learning_rate': 3.461538461538462e-05, 'epoch': 0.92}


  return dynamo.is_compiling()


{'loss': 0.7485, 'learning_rate': 3.457435897435898e-05, 'epoch': 0.93}
{'loss': 0.8002, 'learning_rate': 3.453333333333334e-05, 'epoch': 0.93}
{'loss': 0.7588, 'learning_rate': 3.4492307692307696e-05, 'epoch': 0.93}
{'loss': 0.7887, 'learning_rate': 3.4451282051282055e-05, 'epoch': 0.93}
{'loss': 0.8132, 'learning_rate': 3.4410256410256415e-05, 'epoch': 0.94}


  return dynamo.is_compiling()


{'loss': 0.7511, 'learning_rate': 3.436923076923077e-05, 'epoch': 0.94}
{'loss': 0.7597, 'learning_rate': 3.432820512820513e-05, 'epoch': 0.94}
{'loss': 0.7842, 'learning_rate': 3.4287179487179485e-05, 'epoch': 0.94}
{'loss': 0.7463, 'learning_rate': 3.424615384615385e-05, 'epoch': 0.95}
{'loss': 0.782, 'learning_rate': 3.4205128205128204e-05, 'epoch': 0.95}


  return dynamo.is_compiling()


{'loss': 0.7615, 'learning_rate': 3.416410256410257e-05, 'epoch': 0.95}
{'loss': 0.7709, 'learning_rate': 3.412307692307692e-05, 'epoch': 0.95}
{'loss': 0.8008, 'learning_rate': 3.408205128205129e-05, 'epoch': 0.96}
{'loss': 0.7771, 'learning_rate': 3.404102564102564e-05, 'epoch': 0.96}
{'loss': 0.7995, 'learning_rate': 3.4000000000000007e-05, 'epoch': 0.96}


  return dynamo.is_compiling()


{'loss': 0.7525, 'learning_rate': 3.395897435897436e-05, 'epoch': 0.96}
{'loss': 0.7824, 'learning_rate': 3.3917948717948725e-05, 'epoch': 0.96}
{'loss': 0.7905, 'learning_rate': 3.387692307692308e-05, 'epoch': 0.97}
{'loss': 0.7984, 'learning_rate': 3.383589743589744e-05, 'epoch': 0.97}
{'loss': 0.7427, 'learning_rate': 3.3794871794871796e-05, 'epoch': 0.97}


  return dynamo.is_compiling()


{'loss': 0.7667, 'learning_rate': 3.3753846153846155e-05, 'epoch': 0.97}
{'loss': 0.8094, 'learning_rate': 3.3712820512820514e-05, 'epoch': 0.98}
{'loss': 0.7962, 'learning_rate': 3.367179487179487e-05, 'epoch': 0.98}
{'loss': 0.7824, 'learning_rate': 3.363076923076923e-05, 'epoch': 0.98}
{'loss': 0.7556, 'learning_rate': 3.358974358974359e-05, 'epoch': 0.98}


  return dynamo.is_compiling()


{'loss': 0.7657, 'learning_rate': 3.354871794871795e-05, 'epoch': 0.99}
{'loss': 0.8036, 'learning_rate': 3.35076923076923e-05, 'epoch': 0.99}
{'loss': 0.7726, 'learning_rate': 3.346666666666667e-05, 'epoch': 0.99}
{'loss': 0.7533, 'learning_rate': 3.342564102564102e-05, 'epoch': 0.99}
{'loss': 0.7807, 'learning_rate': 3.338461538461539e-05, 'epoch': 1.0}


  return dynamo.is_compiling()


{'loss': 0.7692, 'learning_rate': 3.334358974358974e-05, 'epoch': 1.0}


  0%|          | 0/125 [00:00<?, ?it/s]

{'eval_loss': 0.7619757056236267, 'eval_accuracy': 0.687, 'eval_runtime': 9.3988, 'eval_samples_per_second': 106.396, 'eval_steps_per_second': 13.3, 'epoch': 1.0}


  return dynamo.is_compiling()


{'loss': 0.7473, 'learning_rate': 3.3302564102564106e-05, 'epoch': 1.0}
{'loss': 0.7228, 'learning_rate': 3.326153846153846e-05, 'epoch': 1.0}
{'loss': 0.745, 'learning_rate': 3.3220512820512824e-05, 'epoch': 1.01}
{'loss': 0.7505, 'learning_rate': 3.317948717948718e-05, 'epoch': 1.01}


  return dynamo.is_compiling()


{'loss': 0.71, 'learning_rate': 3.313846153846154e-05, 'epoch': 1.01}
{'loss': 0.7259, 'learning_rate': 3.3097435897435895e-05, 'epoch': 1.01}
{'loss': 0.7325, 'learning_rate': 3.305641025641026e-05, 'epoch': 1.02}
{'loss': 0.7082, 'learning_rate': 3.3015384615384614e-05, 'epoch': 1.02}
{'loss': 0.7503, 'learning_rate': 3.297435897435898e-05, 'epoch': 1.02}


  return dynamo.is_compiling()


{'loss': 0.6886, 'learning_rate': 3.293333333333333e-05, 'epoch': 1.02}
{'loss': 0.7475, 'learning_rate': 3.289230769230769e-05, 'epoch': 1.03}
{'loss': 0.7319, 'learning_rate': 3.285128205128205e-05, 'epoch': 1.03}
{'loss': 0.7171, 'learning_rate': 3.281025641025641e-05, 'epoch': 1.03}
{'loss': 0.7065, 'learning_rate': 3.276923076923077e-05, 'epoch': 1.03}


  return dynamo.is_compiling()


{'loss': 0.7333, 'learning_rate': 3.272820512820513e-05, 'epoch': 1.04}
{'loss': 0.7614, 'learning_rate': 3.268717948717949e-05, 'epoch': 1.04}
{'loss': 0.7194, 'learning_rate': 3.2646153846153846e-05, 'epoch': 1.04}
{'loss': 0.721, 'learning_rate': 3.2605128205128206e-05, 'epoch': 1.04}
{'loss': 0.7192, 'learning_rate': 3.2564102564102565e-05, 'epoch': 1.05}


  return dynamo.is_compiling()


{'loss': 0.7682, 'learning_rate': 3.2523076923076924e-05, 'epoch': 1.05}
{'loss': 0.7681, 'learning_rate': 3.248205128205128e-05, 'epoch': 1.05}
{'loss': 0.7139, 'learning_rate': 3.244102564102564e-05, 'epoch': 1.05}
{'loss': 0.7104, 'learning_rate': 3.24e-05, 'epoch': 1.06}
{'loss': 0.7363, 'learning_rate': 3.235897435897436e-05, 'epoch': 1.06}


  return dynamo.is_compiling()


{'loss': 0.7478, 'learning_rate': 3.231794871794872e-05, 'epoch': 1.06}
{'loss': 0.7498, 'learning_rate': 3.227692307692308e-05, 'epoch': 1.06}
{'loss': 0.7207, 'learning_rate': 3.223589743589744e-05, 'epoch': 1.07}
{'loss': 0.7361, 'learning_rate': 3.21948717948718e-05, 'epoch': 1.07}
{'loss': 0.7234, 'learning_rate': 3.215384615384616e-05, 'epoch': 1.07}


  return dynamo.is_compiling()


{'loss': 0.7269, 'learning_rate': 3.2112820512820516e-05, 'epoch': 1.07}
{'loss': 0.7164, 'learning_rate': 3.2071794871794875e-05, 'epoch': 1.08}
{'loss': 0.7139, 'learning_rate': 3.2030769230769234e-05, 'epoch': 1.08}
{'loss': 0.6974, 'learning_rate': 3.1989743589743593e-05, 'epoch': 1.08}
{'loss': 0.7005, 'learning_rate': 3.1948717948717946e-05, 'epoch': 1.08}


  return dynamo.is_compiling()


{'loss': 0.7127, 'learning_rate': 3.190769230769231e-05, 'epoch': 1.09}
{'loss': 0.7441, 'learning_rate': 3.1866666666666664e-05, 'epoch': 1.09}
{'loss': 0.729, 'learning_rate': 3.182564102564103e-05, 'epoch': 1.09}
{'loss': 0.7369, 'learning_rate': 3.178461538461538e-05, 'epoch': 1.09}
{'loss': 0.7322, 'learning_rate': 3.174358974358975e-05, 'epoch': 1.1}


  return dynamo.is_compiling()


{'loss': 0.7215, 'learning_rate': 3.17025641025641e-05, 'epoch': 1.1}
{'loss': 0.7299, 'learning_rate': 3.166153846153847e-05, 'epoch': 1.1}
{'loss': 0.697, 'learning_rate': 3.162051282051282e-05, 'epoch': 1.1}
{'loss': 0.7285, 'learning_rate': 3.1579487179487185e-05, 'epoch': 1.11}
{'loss': 0.7463, 'learning_rate': 3.153846153846154e-05, 'epoch': 1.11}


  return dynamo.is_compiling()


{'loss': 0.718, 'learning_rate': 3.1497435897435904e-05, 'epoch': 1.11}
{'loss': 0.7386, 'learning_rate': 3.1456410256410256e-05, 'epoch': 1.11}
{'loss': 0.7031, 'learning_rate': 3.1415384615384615e-05, 'epoch': 1.12}
{'loss': 0.7195, 'learning_rate': 3.1374358974358975e-05, 'epoch': 1.12}
{'loss': 0.7317, 'learning_rate': 3.1333333333333334e-05, 'epoch': 1.12}


  return dynamo.is_compiling()


{'loss': 0.7407, 'learning_rate': 3.129230769230769e-05, 'epoch': 1.12}
{'loss': 0.714, 'learning_rate': 3.125128205128205e-05, 'epoch': 1.12}
{'loss': 0.6887, 'learning_rate': 3.121025641025641e-05, 'epoch': 1.13}
{'loss': 0.7112, 'learning_rate': 3.116923076923077e-05, 'epoch': 1.13}
{'loss': 0.7345, 'learning_rate': 3.112820512820513e-05, 'epoch': 1.13}


  return dynamo.is_compiling()


{'loss': 0.7008, 'learning_rate': 3.108717948717949e-05, 'epoch': 1.13}
{'loss': 0.7072, 'learning_rate': 3.104615384615385e-05, 'epoch': 1.14}
{'loss': 0.734, 'learning_rate': 3.100512820512821e-05, 'epoch': 1.14}
{'loss': 0.752, 'learning_rate': 3.0964102564102566e-05, 'epoch': 1.14}
{'loss': 0.686, 'learning_rate': 3.0923076923076926e-05, 'epoch': 1.14}


  return dynamo.is_compiling()


{'loss': 0.6989, 'learning_rate': 3.0882051282051285e-05, 'epoch': 1.15}
{'loss': 0.6994, 'learning_rate': 3.0841025641025644e-05, 'epoch': 1.15}
{'loss': 0.7495, 'learning_rate': 3.08e-05, 'epoch': 1.15}
{'loss': 0.7506, 'learning_rate': 3.075897435897436e-05, 'epoch': 1.15}
{'loss': 0.7293, 'learning_rate': 3.071794871794872e-05, 'epoch': 1.16}


  return dynamo.is_compiling()


{'loss': 0.7423, 'learning_rate': 3.067692307692308e-05, 'epoch': 1.16}
{'loss': 0.6828, 'learning_rate': 3.063589743589744e-05, 'epoch': 1.16}
{'loss': 0.7366, 'learning_rate': 3.05948717948718e-05, 'epoch': 1.16}
{'loss': 0.6894, 'learning_rate': 3.055384615384616e-05, 'epoch': 1.17}
{'loss': 0.6931, 'learning_rate': 3.0512820512820518e-05, 'epoch': 1.17}


  return dynamo.is_compiling()


{'loss': 0.745, 'learning_rate': 3.0471794871794873e-05, 'epoch': 1.17}
{'loss': 0.7425, 'learning_rate': 3.0430769230769236e-05, 'epoch': 1.17}
{'loss': 0.7052, 'learning_rate': 3.0389743589743592e-05, 'epoch': 1.18}
{'loss': 0.7142, 'learning_rate': 3.0348717948717954e-05, 'epoch': 1.18}
{'loss': 0.6902, 'learning_rate': 3.030769230769231e-05, 'epoch': 1.18}


  return dynamo.is_compiling()


{'loss': 0.6791, 'learning_rate': 3.0266666666666666e-05, 'epoch': 1.18}
{'loss': 0.7155, 'learning_rate': 3.022564102564103e-05, 'epoch': 1.19}
{'loss': 0.7332, 'learning_rate': 3.0184615384615384e-05, 'epoch': 1.19}
{'loss': 0.722, 'learning_rate': 3.0143589743589744e-05, 'epoch': 1.19}
{'loss': 0.7533, 'learning_rate': 3.0102564102564103e-05, 'epoch': 1.19}


  return dynamo.is_compiling()


{'loss': 0.7423, 'learning_rate': 3.0061538461538462e-05, 'epoch': 1.2}
{'loss': 0.7288, 'learning_rate': 3.0020512820512818e-05, 'epoch': 1.2}
{'loss': 0.7014, 'learning_rate': 2.997948717948718e-05, 'epoch': 1.2}
{'loss': 0.7528, 'learning_rate': 2.9938461538461536e-05, 'epoch': 1.2}
{'loss': 0.7242, 'learning_rate': 2.98974358974359e-05, 'epoch': 1.21}


  return dynamo.is_compiling()


{'loss': 0.7212, 'learning_rate': 2.9856410256410255e-05, 'epoch': 1.21}
{'loss': 0.7388, 'learning_rate': 2.9815384615384617e-05, 'epoch': 1.21}
{'loss': 0.731, 'learning_rate': 2.9774358974358973e-05, 'epoch': 1.21}
{'loss': 0.7477, 'learning_rate': 2.9733333333333336e-05, 'epoch': 1.22}
{'loss': 0.7519, 'learning_rate': 2.969230769230769e-05, 'epoch': 1.22}


  return dynamo.is_compiling()


{'loss': 0.7398, 'learning_rate': 2.9651282051282054e-05, 'epoch': 1.22}
{'loss': 0.7533, 'learning_rate': 2.961025641025641e-05, 'epoch': 1.22}
{'loss': 0.7222, 'learning_rate': 2.9569230769230772e-05, 'epoch': 1.23}
{'loss': 0.7313, 'learning_rate': 2.9528205128205128e-05, 'epoch': 1.23}
{'loss': 0.7592, 'learning_rate': 2.948717948717949e-05, 'epoch': 1.23}


  return dynamo.is_compiling()


{'loss': 0.7217, 'learning_rate': 2.9446153846153846e-05, 'epoch': 1.23}
{'loss': 0.6697, 'learning_rate': 2.9405128205128206e-05, 'epoch': 1.24}
{'loss': 0.7033, 'learning_rate': 2.9364102564102565e-05, 'epoch': 1.24}
{'loss': 0.7183, 'learning_rate': 2.9323076923076924e-05, 'epoch': 1.24}
{'loss': 0.6906, 'learning_rate': 2.9282051282051283e-05, 'epoch': 1.24}


  return dynamo.is_compiling()


{'loss': 0.7238, 'learning_rate': 2.9241025641025642e-05, 'epoch': 1.25}
{'loss': 0.6994, 'learning_rate': 2.9199999999999998e-05, 'epoch': 1.25}
{'loss': 0.7274, 'learning_rate': 2.915897435897436e-05, 'epoch': 1.25}
{'loss': 0.7041, 'learning_rate': 2.9117948717948717e-05, 'epoch': 1.25}
{'loss': 0.7074, 'learning_rate': 2.907692307692308e-05, 'epoch': 1.26}


  return dynamo.is_compiling()


{'loss': 0.7263, 'learning_rate': 2.9035897435897435e-05, 'epoch': 1.26}
{'loss': 0.7396, 'learning_rate': 2.8994871794871798e-05, 'epoch': 1.26}
{'loss': 0.7097, 'learning_rate': 2.8953846153846153e-05, 'epoch': 1.26}
{'loss': 0.6972, 'learning_rate': 2.8912820512820516e-05, 'epoch': 1.27}
{'loss': 0.7263, 'learning_rate': 2.8871794871794872e-05, 'epoch': 1.27}


  return dynamo.is_compiling()


{'loss': 0.714, 'learning_rate': 2.8830769230769234e-05, 'epoch': 1.27}
{'loss': 0.696, 'learning_rate': 2.878974358974359e-05, 'epoch': 1.27}
{'loss': 0.714, 'learning_rate': 2.8748717948717953e-05, 'epoch': 1.28}
{'loss': 0.7231, 'learning_rate': 2.870769230769231e-05, 'epoch': 1.28}
{'loss': 0.7425, 'learning_rate': 2.8666666666666668e-05, 'epoch': 1.28}


  return dynamo.is_compiling()


{'loss': 0.728, 'learning_rate': 2.8625641025641027e-05, 'epoch': 1.28}
{'loss': 0.7113, 'learning_rate': 2.8584615384615386e-05, 'epoch': 1.28}
{'loss': 0.7487, 'learning_rate': 2.8543589743589745e-05, 'epoch': 1.29}
{'loss': 0.7213, 'learning_rate': 2.8502564102564105e-05, 'epoch': 1.29}
{'loss': 0.7402, 'learning_rate': 2.846153846153846e-05, 'epoch': 1.29}


  return dynamo.is_compiling()


{'loss': 0.7059, 'learning_rate': 2.8420512820512823e-05, 'epoch': 1.29}
{'loss': 0.6962, 'learning_rate': 2.837948717948718e-05, 'epoch': 1.3}
{'loss': 0.7055, 'learning_rate': 2.833846153846154e-05, 'epoch': 1.3}
{'loss': 0.7369, 'learning_rate': 2.8297435897435897e-05, 'epoch': 1.3}
{'loss': 0.7221, 'learning_rate': 2.825641025641026e-05, 'epoch': 1.3}


  return dynamo.is_compiling()


{'loss': 0.7531, 'learning_rate': 2.8215384615384616e-05, 'epoch': 1.31}
{'loss': 0.7558, 'learning_rate': 2.8174358974358978e-05, 'epoch': 1.31}
{'loss': 0.7444, 'learning_rate': 2.8133333333333334e-05, 'epoch': 1.31}
{'loss': 0.711, 'learning_rate': 2.8092307692307696e-05, 'epoch': 1.31}
{'loss': 0.7385, 'learning_rate': 2.8051282051282052e-05, 'epoch': 1.32}


  return dynamo.is_compiling()


{'loss': 0.6994, 'learning_rate': 2.8010256410256415e-05, 'epoch': 1.32}
{'loss': 0.7095, 'learning_rate': 2.796923076923077e-05, 'epoch': 1.32}
{'loss': 0.7123, 'learning_rate': 2.7928205128205133e-05, 'epoch': 1.32}
{'loss': 0.7505, 'learning_rate': 2.788717948717949e-05, 'epoch': 1.33}
{'loss': 0.7021, 'learning_rate': 2.7846153846153848e-05, 'epoch': 1.33}


  return dynamo.is_compiling()


{'loss': 0.6997, 'learning_rate': 2.7805128205128207e-05, 'epoch': 1.33}
{'loss': 0.71, 'learning_rate': 2.7764102564102567e-05, 'epoch': 1.33}
{'loss': 0.7497, 'learning_rate': 2.7723076923076922e-05, 'epoch': 1.34}
{'loss': 0.718, 'learning_rate': 2.7682051282051285e-05, 'epoch': 1.34}
{'loss': 0.7234, 'learning_rate': 2.764102564102564e-05, 'epoch': 1.34}


  return dynamo.is_compiling()


{'loss': 0.7165, 'learning_rate': 2.7600000000000003e-05, 'epoch': 1.34}
{'loss': 0.7106, 'learning_rate': 2.755897435897436e-05, 'epoch': 1.35}
{'loss': 0.6983, 'learning_rate': 2.7517948717948722e-05, 'epoch': 1.35}
{'loss': 0.7117, 'learning_rate': 2.7476923076923078e-05, 'epoch': 1.35}
{'loss': 0.6993, 'learning_rate': 2.743589743589744e-05, 'epoch': 1.35}


  return dynamo.is_compiling()


{'loss': 0.7493, 'learning_rate': 2.7394871794871796e-05, 'epoch': 1.36}
{'loss': 0.6839, 'learning_rate': 2.735384615384616e-05, 'epoch': 1.36}
{'loss': 0.7151, 'learning_rate': 2.7312820512820514e-05, 'epoch': 1.36}
{'loss': 0.6961, 'learning_rate': 2.7271794871794877e-05, 'epoch': 1.36}
{'loss': 0.719, 'learning_rate': 2.7230769230769233e-05, 'epoch': 1.37}


  return dynamo.is_compiling()


{'loss': 0.7256, 'learning_rate': 2.7189743589743595e-05, 'epoch': 1.37}
{'loss': 0.7057, 'learning_rate': 2.714871794871795e-05, 'epoch': 1.37}
{'loss': 0.7413, 'learning_rate': 2.710769230769231e-05, 'epoch': 1.37}
{'loss': 0.7143, 'learning_rate': 2.706666666666667e-05, 'epoch': 1.38}
{'loss': 0.6983, 'learning_rate': 2.7025641025641025e-05, 'epoch': 1.38}


  return dynamo.is_compiling()


{'loss': 0.7384, 'learning_rate': 2.6984615384615385e-05, 'epoch': 1.38}
{'loss': 0.7346, 'learning_rate': 2.6943589743589744e-05, 'epoch': 1.38}
{'loss': 0.7371, 'learning_rate': 2.6902564102564103e-05, 'epoch': 1.39}
{'loss': 0.6882, 'learning_rate': 2.686153846153846e-05, 'epoch': 1.39}
{'loss': 0.7338, 'learning_rate': 2.682051282051282e-05, 'epoch': 1.39}


  return dynamo.is_compiling()


{'loss': 0.7077, 'learning_rate': 2.6779487179487177e-05, 'epoch': 1.39}
{'loss': 0.7532, 'learning_rate': 2.673846153846154e-05, 'epoch': 1.4}
{'loss': 0.7236, 'learning_rate': 2.6697435897435896e-05, 'epoch': 1.4}
{'loss': 0.7178, 'learning_rate': 2.6656410256410258e-05, 'epoch': 1.4}
{'loss': 0.7, 'learning_rate': 2.6615384615384614e-05, 'epoch': 1.4}


  return dynamo.is_compiling()


{'loss': 0.7435, 'learning_rate': 2.6574358974358976e-05, 'epoch': 1.41}
{'loss': 0.6817, 'learning_rate': 2.6533333333333332e-05, 'epoch': 1.41}
{'loss': 0.7155, 'learning_rate': 2.6492307692307695e-05, 'epoch': 1.41}
{'loss': 0.7262, 'learning_rate': 2.645128205128205e-05, 'epoch': 1.41}
{'loss': 0.7007, 'learning_rate': 2.6410256410256413e-05, 'epoch': 1.42}


  return dynamo.is_compiling()


{'loss': 0.7275, 'learning_rate': 2.636923076923077e-05, 'epoch': 1.42}
{'loss': 0.7113, 'learning_rate': 2.632820512820513e-05, 'epoch': 1.42}
{'loss': 0.6964, 'learning_rate': 2.6287179487179487e-05, 'epoch': 1.42}
{'loss': 0.7047, 'learning_rate': 2.6246153846153847e-05, 'epoch': 1.43}
{'loss': 0.7297, 'learning_rate': 2.6205128205128206e-05, 'epoch': 1.43}


  return dynamo.is_compiling()


{'loss': 0.7387, 'learning_rate': 2.6164102564102565e-05, 'epoch': 1.43}
{'loss': 0.7061, 'learning_rate': 2.612307692307692e-05, 'epoch': 1.43}
{'loss': 0.7249, 'learning_rate': 2.6082051282051283e-05, 'epoch': 1.44}
{'loss': 0.7115, 'learning_rate': 2.604102564102564e-05, 'epoch': 1.44}
{'loss': 0.7416, 'learning_rate': 2.6000000000000002e-05, 'epoch': 1.44}


  return dynamo.is_compiling()


{'loss': 0.6856, 'learning_rate': 2.5958974358974358e-05, 'epoch': 1.44}
{'loss': 0.6888, 'learning_rate': 2.591794871794872e-05, 'epoch': 1.44}
{'loss': 0.7401, 'learning_rate': 2.5876923076923076e-05, 'epoch': 1.45}
{'loss': 0.7276, 'learning_rate': 2.583589743589744e-05, 'epoch': 1.45}
{'loss': 0.7066, 'learning_rate': 2.5794871794871794e-05, 'epoch': 1.45}


  return dynamo.is_compiling()


{'loss': 0.7519, 'learning_rate': 2.5753846153846157e-05, 'epoch': 1.45}
{'loss': 0.7242, 'learning_rate': 2.5712820512820513e-05, 'epoch': 1.46}
{'loss': 0.6873, 'learning_rate': 2.5671794871794875e-05, 'epoch': 1.46}
{'loss': 0.6926, 'learning_rate': 2.563076923076923e-05, 'epoch': 1.46}
{'loss': 0.7292, 'learning_rate': 2.5589743589743594e-05, 'epoch': 1.46}


  return dynamo.is_compiling()


{'loss': 0.7086, 'learning_rate': 2.554871794871795e-05, 'epoch': 1.47}
{'loss': 0.7207, 'learning_rate': 2.550769230769231e-05, 'epoch': 1.47}
{'loss': 0.7434, 'learning_rate': 2.5466666666666668e-05, 'epoch': 1.47}
{'loss': 0.7139, 'learning_rate': 2.5425641025641027e-05, 'epoch': 1.47}
{'loss': 0.7146, 'learning_rate': 2.5384615384615383e-05, 'epoch': 1.48}


  return dynamo.is_compiling()


{'loss': 0.7483, 'learning_rate': 2.5343589743589745e-05, 'epoch': 1.48}
{'loss': 0.7049, 'learning_rate': 2.53025641025641e-05, 'epoch': 1.48}
{'loss': 0.7397, 'learning_rate': 2.5261538461538464e-05, 'epoch': 1.48}
{'loss': 0.6879, 'learning_rate': 2.522051282051282e-05, 'epoch': 1.49}
{'loss': 0.7049, 'learning_rate': 2.5179487179487182e-05, 'epoch': 1.49}


  return dynamo.is_compiling()


{'loss': 0.7033, 'learning_rate': 2.5138461538461538e-05, 'epoch': 1.49}
{'loss': 0.7368, 'learning_rate': 2.50974358974359e-05, 'epoch': 1.49}
{'loss': 0.7064, 'learning_rate': 2.5056410256410256e-05, 'epoch': 1.5}
{'loss': 0.6981, 'learning_rate': 2.501538461538462e-05, 'epoch': 1.5}
{'loss': 0.7396, 'learning_rate': 2.4974358974358975e-05, 'epoch': 1.5}


  return dynamo.is_compiling()


{'loss': 0.7044, 'learning_rate': 2.4933333333333334e-05, 'epoch': 1.5}
{'loss': 0.6831, 'learning_rate': 2.4892307692307693e-05, 'epoch': 1.51}
{'loss': 0.7508, 'learning_rate': 2.4851282051282052e-05, 'epoch': 1.51}
{'loss': 0.7189, 'learning_rate': 2.481025641025641e-05, 'epoch': 1.51}
{'loss': 0.7127, 'learning_rate': 2.476923076923077e-05, 'epoch': 1.51}


  return dynamo.is_compiling()


{'loss': 0.6759, 'learning_rate': 2.472820512820513e-05, 'epoch': 1.52}
{'loss': 0.7366, 'learning_rate': 2.468717948717949e-05, 'epoch': 1.52}
{'loss': 0.7006, 'learning_rate': 2.4646153846153845e-05, 'epoch': 1.52}
{'loss': 0.7537, 'learning_rate': 2.4605128205128204e-05, 'epoch': 1.52}
{'loss': 0.7092, 'learning_rate': 2.4564102564102563e-05, 'epoch': 1.53}


  return dynamo.is_compiling()


{'loss': 0.7053, 'learning_rate': 2.4523076923076923e-05, 'epoch': 1.53}
{'loss': 0.719, 'learning_rate': 2.4482051282051282e-05, 'epoch': 1.53}
{'loss': 0.7435, 'learning_rate': 2.444102564102564e-05, 'epoch': 1.53}
{'loss': 0.7069, 'learning_rate': 2.44e-05, 'epoch': 1.54}
{'loss': 0.689, 'learning_rate': 2.435897435897436e-05, 'epoch': 1.54}


  return dynamo.is_compiling()


{'loss': 0.7136, 'learning_rate': 2.431794871794872e-05, 'epoch': 1.54}
{'loss': 0.7604, 'learning_rate': 2.4276923076923078e-05, 'epoch': 1.54}
{'loss': 0.7317, 'learning_rate': 2.4235897435897437e-05, 'epoch': 1.55}
{'loss': 0.755, 'learning_rate': 2.4194871794871796e-05, 'epoch': 1.55}
{'loss': 0.6882, 'learning_rate': 2.4153846153846155e-05, 'epoch': 1.55}


  return dynamo.is_compiling()


{'loss': 0.703, 'learning_rate': 2.4112820512820515e-05, 'epoch': 1.55}
{'loss': 0.7012, 'learning_rate': 2.4071794871794874e-05, 'epoch': 1.56}
{'loss': 0.7335, 'learning_rate': 2.4030769230769233e-05, 'epoch': 1.56}
{'loss': 0.7178, 'learning_rate': 2.3989743589743592e-05, 'epoch': 1.56}
{'loss': 0.6981, 'learning_rate': 2.394871794871795e-05, 'epoch': 1.56}


  return dynamo.is_compiling()


{'loss': 0.7217, 'learning_rate': 2.3907692307692307e-05, 'epoch': 1.57}
{'loss': 0.7026, 'learning_rate': 2.3866666666666666e-05, 'epoch': 1.57}
{'loss': 0.7208, 'learning_rate': 2.3825641025641025e-05, 'epoch': 1.57}
{'loss': 0.7274, 'learning_rate': 2.3784615384615385e-05, 'epoch': 1.57}
{'loss': 0.7198, 'learning_rate': 2.3743589743589744e-05, 'epoch': 1.58}


  return dynamo.is_compiling()


{'loss': 0.7053, 'learning_rate': 2.3702564102564103e-05, 'epoch': 1.58}
{'loss': 0.6667, 'learning_rate': 2.3661538461538462e-05, 'epoch': 1.58}
{'loss': 0.6925, 'learning_rate': 2.362051282051282e-05, 'epoch': 1.58}
{'loss': 0.7187, 'learning_rate': 2.357948717948718e-05, 'epoch': 1.59}
{'loss': 0.7119, 'learning_rate': 2.353846153846154e-05, 'epoch': 1.59}


  return dynamo.is_compiling()


{'loss': 0.7073, 'learning_rate': 2.34974358974359e-05, 'epoch': 1.59}
{'loss': 0.7384, 'learning_rate': 2.3456410256410258e-05, 'epoch': 1.59}
{'loss': 0.6864, 'learning_rate': 2.3415384615384617e-05, 'epoch': 1.6}
{'loss': 0.7072, 'learning_rate': 2.3374358974358977e-05, 'epoch': 1.6}
{'loss': 0.7319, 'learning_rate': 2.3333333333333336e-05, 'epoch': 1.6}


  return dynamo.is_compiling()


{'loss': 0.7157, 'learning_rate': 2.3292307692307695e-05, 'epoch': 1.6}
{'loss': 0.7143, 'learning_rate': 2.3251282051282054e-05, 'epoch': 1.6}
{'loss': 0.7375, 'learning_rate': 2.3210256410256413e-05, 'epoch': 1.61}
{'loss': 0.7156, 'learning_rate': 2.316923076923077e-05, 'epoch': 1.61}
{'loss': 0.7345, 'learning_rate': 2.312820512820513e-05, 'epoch': 1.61}


  return dynamo.is_compiling()


{'loss': 0.6958, 'learning_rate': 2.3087179487179488e-05, 'epoch': 1.61}
{'loss': 0.7299, 'learning_rate': 2.3046153846153847e-05, 'epoch': 1.62}
{'loss': 0.729, 'learning_rate': 2.3005128205128206e-05, 'epoch': 1.62}
{'loss': 0.7155, 'learning_rate': 2.2964102564102565e-05, 'epoch': 1.62}
{'loss': 0.6906, 'learning_rate': 2.2923076923076924e-05, 'epoch': 1.62}


  return dynamo.is_compiling()


{'loss': 0.7228, 'learning_rate': 2.2882051282051284e-05, 'epoch': 1.63}
{'loss': 0.7278, 'learning_rate': 2.2841025641025643e-05, 'epoch': 1.63}
{'loss': 0.7021, 'learning_rate': 2.2800000000000002e-05, 'epoch': 1.63}
{'loss': 0.6641, 'learning_rate': 2.275897435897436e-05, 'epoch': 1.63}
{'loss': 0.7127, 'learning_rate': 2.271794871794872e-05, 'epoch': 1.64}


  return dynamo.is_compiling()


{'loss': 0.7201, 'learning_rate': 2.267692307692308e-05, 'epoch': 1.64}
{'loss': 0.6976, 'learning_rate': 2.263589743589744e-05, 'epoch': 1.64}
{'loss': 0.6941, 'learning_rate': 2.2594871794871798e-05, 'epoch': 1.64}
{'loss': 0.6952, 'learning_rate': 2.2553846153846157e-05, 'epoch': 1.65}
{'loss': 0.7216, 'learning_rate': 2.2512820512820516e-05, 'epoch': 1.65}


  return dynamo.is_compiling()


{'loss': 0.7135, 'learning_rate': 2.2471794871794875e-05, 'epoch': 1.65}
{'loss': 0.6814, 'learning_rate': 2.243076923076923e-05, 'epoch': 1.65}
{'loss': 0.7418, 'learning_rate': 2.238974358974359e-05, 'epoch': 1.66}
{'loss': 0.706, 'learning_rate': 2.234871794871795e-05, 'epoch': 1.66}
{'loss': 0.7139, 'learning_rate': 2.230769230769231e-05, 'epoch': 1.66}


  return dynamo.is_compiling()


{'loss': 0.7344, 'learning_rate': 2.2266666666666668e-05, 'epoch': 1.66}
{'loss': 0.6766, 'learning_rate': 2.2225641025641027e-05, 'epoch': 1.67}
{'loss': 0.7095, 'learning_rate': 2.2184615384615386e-05, 'epoch': 1.67}
{'loss': 0.7024, 'learning_rate': 2.2143589743589746e-05, 'epoch': 1.67}
{'loss': 0.6951, 'learning_rate': 2.21025641025641e-05, 'epoch': 1.67}


  return dynamo.is_compiling()


{'loss': 0.722, 'learning_rate': 2.206153846153846e-05, 'epoch': 1.68}
{'loss': 0.7148, 'learning_rate': 2.202051282051282e-05, 'epoch': 1.68}
{'loss': 0.7017, 'learning_rate': 2.197948717948718e-05, 'epoch': 1.68}
{'loss': 0.6916, 'learning_rate': 2.1938461538461538e-05, 'epoch': 1.68}
{'loss': 0.7019, 'learning_rate': 2.1897435897435897e-05, 'epoch': 1.69}


  return dynamo.is_compiling()


{'loss': 0.727, 'learning_rate': 2.1856410256410257e-05, 'epoch': 1.69}
{'loss': 0.6903, 'learning_rate': 2.1815384615384616e-05, 'epoch': 1.69}
{'loss': 0.7312, 'learning_rate': 2.1774358974358975e-05, 'epoch': 1.69}
{'loss': 0.6936, 'learning_rate': 2.1733333333333334e-05, 'epoch': 1.7}
{'loss': 0.7289, 'learning_rate': 2.1692307692307693e-05, 'epoch': 1.7}


  return dynamo.is_compiling()


{'loss': 0.6969, 'learning_rate': 2.1651282051282053e-05, 'epoch': 1.7}
{'loss': 0.7335, 'learning_rate': 2.1610256410256412e-05, 'epoch': 1.7}
{'loss': 0.7264, 'learning_rate': 2.156923076923077e-05, 'epoch': 1.71}
{'loss': 0.7212, 'learning_rate': 2.1528205128205127e-05, 'epoch': 1.71}
{'loss': 0.7373, 'learning_rate': 2.1487179487179486e-05, 'epoch': 1.71}


  return dynamo.is_compiling()


{'loss': 0.7109, 'learning_rate': 2.1446153846153845e-05, 'epoch': 1.71}
{'loss': 0.6871, 'learning_rate': 2.1405128205128204e-05, 'epoch': 1.72}
{'loss': 0.7048, 'learning_rate': 2.1364102564102564e-05, 'epoch': 1.72}
{'loss': 0.6996, 'learning_rate': 2.1323076923076923e-05, 'epoch': 1.72}
{'loss': 0.7116, 'learning_rate': 2.1282051282051282e-05, 'epoch': 1.72}


  return dynamo.is_compiling()


{'loss': 0.6856, 'learning_rate': 2.124102564102564e-05, 'epoch': 1.73}
{'loss': 0.7228, 'learning_rate': 2.12e-05, 'epoch': 1.73}
{'loss': 0.7223, 'learning_rate': 2.115897435897436e-05, 'epoch': 1.73}
{'loss': 0.7017, 'learning_rate': 2.111794871794872e-05, 'epoch': 1.73}
{'loss': 0.7126, 'learning_rate': 2.1076923076923078e-05, 'epoch': 1.74}


  return dynamo.is_compiling()


{'loss': 0.6858, 'learning_rate': 2.1035897435897437e-05, 'epoch': 1.74}
{'loss': 0.6948, 'learning_rate': 2.0994871794871796e-05, 'epoch': 1.74}
{'loss': 0.6941, 'learning_rate': 2.0953846153846155e-05, 'epoch': 1.74}
{'loss': 0.7128, 'learning_rate': 2.0912820512820515e-05, 'epoch': 1.75}
{'loss': 0.7012, 'learning_rate': 2.0871794871794874e-05, 'epoch': 1.75}


  return dynamo.is_compiling()


{'loss': 0.7299, 'learning_rate': 2.0830769230769233e-05, 'epoch': 1.75}
{'loss': 0.6759, 'learning_rate': 2.078974358974359e-05, 'epoch': 1.75}
{'loss': 0.7401, 'learning_rate': 2.0748717948717948e-05, 'epoch': 1.76}
{'loss': 0.7196, 'learning_rate': 2.0707692307692307e-05, 'epoch': 1.76}
{'loss': 0.6982, 'learning_rate': 2.0666666666666666e-05, 'epoch': 1.76}


  return dynamo.is_compiling()


{'loss': 0.6971, 'learning_rate': 2.0625641025641026e-05, 'epoch': 1.76}
{'loss': 0.6853, 'learning_rate': 2.0584615384615385e-05, 'epoch': 1.76}
{'loss': 0.6918, 'learning_rate': 2.0543589743589744e-05, 'epoch': 1.77}
{'loss': 0.7146, 'learning_rate': 2.0502564102564103e-05, 'epoch': 1.77}
{'loss': 0.7437, 'learning_rate': 2.0461538461538462e-05, 'epoch': 1.77}


  return dynamo.is_compiling()


{'loss': 0.6545, 'learning_rate': 2.042051282051282e-05, 'epoch': 1.77}
{'loss': 0.6926, 'learning_rate': 2.037948717948718e-05, 'epoch': 1.78}
{'loss': 0.7187, 'learning_rate': 2.033846153846154e-05, 'epoch': 1.78}
{'loss': 0.7097, 'learning_rate': 2.02974358974359e-05, 'epoch': 1.78}
{'loss': 0.6854, 'learning_rate': 2.025641025641026e-05, 'epoch': 1.78}


  return dynamo.is_compiling()


{'loss': 0.6998, 'learning_rate': 2.0215384615384618e-05, 'epoch': 1.79}
{'loss': 0.7283, 'learning_rate': 2.0174358974358977e-05, 'epoch': 1.79}
{'loss': 0.7146, 'learning_rate': 2.0133333333333336e-05, 'epoch': 1.79}
{'loss': 0.7206, 'learning_rate': 2.0092307692307695e-05, 'epoch': 1.79}
{'loss': 0.7266, 'learning_rate': 2.005128205128205e-05, 'epoch': 1.8}


  return dynamo.is_compiling()


{'loss': 0.7342, 'learning_rate': 2.001025641025641e-05, 'epoch': 1.8}
{'loss': 0.6954, 'learning_rate': 1.996923076923077e-05, 'epoch': 1.8}
{'loss': 0.6965, 'learning_rate': 1.992820512820513e-05, 'epoch': 1.8}
{'loss': 0.7161, 'learning_rate': 1.9887179487179488e-05, 'epoch': 1.81}
{'loss': 0.7612, 'learning_rate': 1.9846153846153847e-05, 'epoch': 1.81}


  return dynamo.is_compiling()


{'loss': 0.6971, 'learning_rate': 1.9805128205128206e-05, 'epoch': 1.81}
{'loss': 0.7276, 'learning_rate': 1.9764102564102565e-05, 'epoch': 1.81}
{'loss': 0.7346, 'learning_rate': 1.9723076923076924e-05, 'epoch': 1.82}
{'loss': 0.6977, 'learning_rate': 1.9682051282051284e-05, 'epoch': 1.82}
{'loss': 0.703, 'learning_rate': 1.9641025641025643e-05, 'epoch': 1.82}


  return dynamo.is_compiling()


{'loss': 0.7136, 'learning_rate': 1.9600000000000002e-05, 'epoch': 1.82}
{'loss': 0.699, 'learning_rate': 1.955897435897436e-05, 'epoch': 1.83}
{'loss': 0.7088, 'learning_rate': 1.951794871794872e-05, 'epoch': 1.83}
{'loss': 0.723, 'learning_rate': 1.947692307692308e-05, 'epoch': 1.83}
{'loss': 0.7011, 'learning_rate': 1.943589743589744e-05, 'epoch': 1.83}


  return dynamo.is_compiling()


{'loss': 0.7256, 'learning_rate': 1.9394871794871798e-05, 'epoch': 1.84}
{'loss': 0.6876, 'learning_rate': 1.9353846153846157e-05, 'epoch': 1.84}
{'loss': 0.7176, 'learning_rate': 1.9312820512820516e-05, 'epoch': 1.84}
{'loss': 0.7047, 'learning_rate': 1.9271794871794872e-05, 'epoch': 1.84}
{'loss': 0.6948, 'learning_rate': 1.923076923076923e-05, 'epoch': 1.85}


  return dynamo.is_compiling()


{'loss': 0.7079, 'learning_rate': 1.918974358974359e-05, 'epoch': 1.85}
{'loss': 0.6767, 'learning_rate': 1.914871794871795e-05, 'epoch': 1.85}
{'loss': 0.7073, 'learning_rate': 1.910769230769231e-05, 'epoch': 1.85}
{'loss': 0.717, 'learning_rate': 1.9066666666666668e-05, 'epoch': 1.86}
{'loss': 0.6838, 'learning_rate': 1.9025641025641027e-05, 'epoch': 1.86}


  return dynamo.is_compiling()


{'loss': 0.687, 'learning_rate': 1.8984615384615387e-05, 'epoch': 1.86}
{'loss': 0.723, 'learning_rate': 1.8943589743589746e-05, 'epoch': 1.86}
{'loss': 0.6719, 'learning_rate': 1.8902564102564105e-05, 'epoch': 1.87}
{'loss': 0.706, 'learning_rate': 1.8861538461538464e-05, 'epoch': 1.87}
{'loss': 0.6842, 'learning_rate': 1.882051282051282e-05, 'epoch': 1.87}


  return dynamo.is_compiling()


{'loss': 0.6882, 'learning_rate': 1.877948717948718e-05, 'epoch': 1.87}
{'loss': 0.7036, 'learning_rate': 1.873846153846154e-05, 'epoch': 1.88}
{'loss': 0.7224, 'learning_rate': 1.8697435897435898e-05, 'epoch': 1.88}
{'loss': 0.6972, 'learning_rate': 1.8656410256410257e-05, 'epoch': 1.88}
{'loss': 0.7113, 'learning_rate': 1.8615384615384616e-05, 'epoch': 1.88}


  return dynamo.is_compiling()


{'loss': 0.7008, 'learning_rate': 1.8574358974358975e-05, 'epoch': 1.89}
{'loss': 0.6926, 'learning_rate': 1.8533333333333334e-05, 'epoch': 1.89}
{'loss': 0.7177, 'learning_rate': 1.8492307692307694e-05, 'epoch': 1.89}
{'loss': 0.7123, 'learning_rate': 1.8451282051282053e-05, 'epoch': 1.89}
{'loss': 0.6774, 'learning_rate': 1.841025641025641e-05, 'epoch': 1.9}


  return dynamo.is_compiling()


{'loss': 0.6941, 'learning_rate': 1.8369230769230768e-05, 'epoch': 1.9}
{'loss': 0.7121, 'learning_rate': 1.8328205128205127e-05, 'epoch': 1.9}
{'loss': 0.7003, 'learning_rate': 1.8287179487179486e-05, 'epoch': 1.9}
{'loss': 0.7356, 'learning_rate': 1.8246153846153845e-05, 'epoch': 1.91}
{'loss': 0.682, 'learning_rate': 1.8205128205128204e-05, 'epoch': 1.91}


  return dynamo.is_compiling()


{'loss': 0.684, 'learning_rate': 1.8164102564102564e-05, 'epoch': 1.91}
{'loss': 0.6954, 'learning_rate': 1.8123076923076923e-05, 'epoch': 1.91}
{'loss': 0.7095, 'learning_rate': 1.8082051282051282e-05, 'epoch': 1.92}
{'loss': 0.7212, 'learning_rate': 1.804102564102564e-05, 'epoch': 1.92}
{'loss': 0.6726, 'learning_rate': 1.8e-05, 'epoch': 1.92}


  return dynamo.is_compiling()


{'loss': 0.7203, 'learning_rate': 1.795897435897436e-05, 'epoch': 1.92}
{'loss': 0.7342, 'learning_rate': 1.791794871794872e-05, 'epoch': 1.92}
{'loss': 0.7059, 'learning_rate': 1.7876923076923078e-05, 'epoch': 1.93}
{'loss': 0.7218, 'learning_rate': 1.7835897435897437e-05, 'epoch': 1.93}
{'loss': 0.7177, 'learning_rate': 1.7794871794871796e-05, 'epoch': 1.93}


  return dynamo.is_compiling()


{'loss': 0.707, 'learning_rate': 1.7753846153846156e-05, 'epoch': 1.93}
{'loss': 0.6937, 'learning_rate': 1.7712820512820515e-05, 'epoch': 1.94}
{'loss': 0.7051, 'learning_rate': 1.767179487179487e-05, 'epoch': 1.94}
{'loss': 0.6774, 'learning_rate': 1.763076923076923e-05, 'epoch': 1.94}
{'loss': 0.6772, 'learning_rate': 1.758974358974359e-05, 'epoch': 1.94}


  return dynamo.is_compiling()


{'loss': 0.7038, 'learning_rate': 1.7548717948717948e-05, 'epoch': 1.95}
{'loss': 0.6843, 'learning_rate': 1.7507692307692307e-05, 'epoch': 1.95}
{'loss': 0.707, 'learning_rate': 1.7466666666666667e-05, 'epoch': 1.95}
{'loss': 0.7041, 'learning_rate': 1.7425641025641026e-05, 'epoch': 1.95}
{'loss': 0.6955, 'learning_rate': 1.7384615384615385e-05, 'epoch': 1.96}


  return dynamo.is_compiling()


{'loss': 0.6672, 'learning_rate': 1.7343589743589744e-05, 'epoch': 1.96}
{'loss': 0.6958, 'learning_rate': 1.7302564102564103e-05, 'epoch': 1.96}
{'loss': 0.6967, 'learning_rate': 1.7261538461538463e-05, 'epoch': 1.96}
{'loss': 0.6932, 'learning_rate': 1.7220512820512822e-05, 'epoch': 1.97}
{'loss': 0.6664, 'learning_rate': 1.717948717948718e-05, 'epoch': 1.97}


  return dynamo.is_compiling()


{'loss': 0.7078, 'learning_rate': 1.713846153846154e-05, 'epoch': 1.97}
{'loss': 0.6996, 'learning_rate': 1.70974358974359e-05, 'epoch': 1.97}
{'loss': 0.6874, 'learning_rate': 1.705641025641026e-05, 'epoch': 1.98}
{'loss': 0.7065, 'learning_rate': 1.7015384615384618e-05, 'epoch': 1.98}
{'loss': 0.6957, 'learning_rate': 1.6974358974358977e-05, 'epoch': 1.98}


  return dynamo.is_compiling()


{'loss': 0.7035, 'learning_rate': 1.6933333333333333e-05, 'epoch': 1.98}
{'loss': 0.6995, 'learning_rate': 1.6892307692307692e-05, 'epoch': 1.99}
{'loss': 0.6945, 'learning_rate': 1.685128205128205e-05, 'epoch': 1.99}
{'loss': 0.6984, 'learning_rate': 1.681025641025641e-05, 'epoch': 1.99}
{'loss': 0.6913, 'learning_rate': 1.676923076923077e-05, 'epoch': 1.99}


  return dynamo.is_compiling()


{'loss': 0.6991, 'learning_rate': 1.672820512820513e-05, 'epoch': 2.0}
{'loss': 0.6911, 'learning_rate': 1.6687179487179488e-05, 'epoch': 2.0}


  0%|          | 0/125 [00:00<?, ?it/s]

{'eval_loss': 0.7354094982147217, 'eval_accuracy': 0.694, 'eval_runtime': 8.8577, 'eval_samples_per_second': 112.897, 'eval_steps_per_second': 14.112, 'epoch': 2.0}


  return dynamo.is_compiling()


{'loss': 0.6502, 'learning_rate': 1.6646153846153847e-05, 'epoch': 2.0}
{'loss': 0.6602, 'learning_rate': 1.6605128205128206e-05, 'epoch': 2.0}
{'loss': 0.5989, 'learning_rate': 1.6564102564102565e-05, 'epoch': 2.01}


  return dynamo.is_compiling()


{'loss': 0.601, 'learning_rate': 1.6523076923076925e-05, 'epoch': 2.01}
{'loss': 0.6254, 'learning_rate': 1.6482051282051284e-05, 'epoch': 2.01}
{'loss': 0.628, 'learning_rate': 1.6441025641025643e-05, 'epoch': 2.01}
{'loss': 0.6375, 'learning_rate': 1.6400000000000002e-05, 'epoch': 2.02}
{'loss': 0.6297, 'learning_rate': 1.635897435897436e-05, 'epoch': 2.02}


  return dynamo.is_compiling()


{'loss': 0.6263, 'learning_rate': 1.631794871794872e-05, 'epoch': 2.02}
{'loss': 0.6175, 'learning_rate': 1.627692307692308e-05, 'epoch': 2.02}
{'loss': 0.6119, 'learning_rate': 1.623589743589744e-05, 'epoch': 2.03}
{'loss': 0.6199, 'learning_rate': 1.6194871794871798e-05, 'epoch': 2.03}
{'loss': 0.6463, 'learning_rate': 1.6153846153846154e-05, 'epoch': 2.03}


  return dynamo.is_compiling()


{'loss': 0.6475, 'learning_rate': 1.6112820512820513e-05, 'epoch': 2.03}
{'loss': 0.6271, 'learning_rate': 1.6071794871794872e-05, 'epoch': 2.04}
{'loss': 0.6575, 'learning_rate': 1.603076923076923e-05, 'epoch': 2.04}
{'loss': 0.6363, 'learning_rate': 1.598974358974359e-05, 'epoch': 2.04}
{'loss': 0.6173, 'learning_rate': 1.594871794871795e-05, 'epoch': 2.04}


  return dynamo.is_compiling()


{'loss': 0.633, 'learning_rate': 1.590769230769231e-05, 'epoch': 2.05}
{'loss': 0.6128, 'learning_rate': 1.586666666666667e-05, 'epoch': 2.05}
{'loss': 0.6227, 'learning_rate': 1.5825641025641028e-05, 'epoch': 2.05}
{'loss': 0.615, 'learning_rate': 1.5784615384615387e-05, 'epoch': 2.05}
{'loss': 0.6399, 'learning_rate': 1.5743589743589746e-05, 'epoch': 2.06}


  return dynamo.is_compiling()


{'loss': 0.6231, 'learning_rate': 1.5702564102564105e-05, 'epoch': 2.06}
{'loss': 0.6318, 'learning_rate': 1.5661538461538464e-05, 'epoch': 2.06}
{'loss': 0.6305, 'learning_rate': 1.5620512820512824e-05, 'epoch': 2.06}
{'loss': 0.6232, 'learning_rate': 1.5579487179487183e-05, 'epoch': 2.07}
{'loss': 0.642, 'learning_rate': 1.553846153846154e-05, 'epoch': 2.07}


  return dynamo.is_compiling()


{'loss': 0.6547, 'learning_rate': 1.5497435897435898e-05, 'epoch': 2.07}
{'loss': 0.6161, 'learning_rate': 1.5456410256410257e-05, 'epoch': 2.07}
{'loss': 0.633, 'learning_rate': 1.5415384615384616e-05, 'epoch': 2.08}
{'loss': 0.6191, 'learning_rate': 1.5374358974358975e-05, 'epoch': 2.08}
{'loss': 0.6201, 'learning_rate': 1.5333333333333334e-05, 'epoch': 2.08}


  return dynamo.is_compiling()


{'loss': 0.6211, 'learning_rate': 1.529230769230769e-05, 'epoch': 2.08}
{'loss': 0.6466, 'learning_rate': 1.5251282051282051e-05, 'epoch': 2.08}
{'loss': 0.6282, 'learning_rate': 1.521025641025641e-05, 'epoch': 2.09}
{'loss': 0.6258, 'learning_rate': 1.516923076923077e-05, 'epoch': 2.09}
{'loss': 0.6217, 'learning_rate': 1.5128205128205129e-05, 'epoch': 2.09}


  return dynamo.is_compiling()


{'loss': 0.6597, 'learning_rate': 1.5087179487179486e-05, 'epoch': 2.09}
{'loss': 0.6314, 'learning_rate': 1.5046153846153845e-05, 'epoch': 2.1}
{'loss': 0.6013, 'learning_rate': 1.5005128205128205e-05, 'epoch': 2.1}
{'loss': 0.6169, 'learning_rate': 1.4964102564102564e-05, 'epoch': 2.1}
{'loss': 0.6267, 'learning_rate': 1.4923076923076923e-05, 'epoch': 2.1}


  return dynamo.is_compiling()


{'loss': 0.6275, 'learning_rate': 1.4882051282051282e-05, 'epoch': 2.11}
{'loss': 0.6669, 'learning_rate': 1.4841025641025641e-05, 'epoch': 2.11}
{'loss': 0.6174, 'learning_rate': 1.48e-05, 'epoch': 2.11}
{'loss': 0.6757, 'learning_rate': 1.475897435897436e-05, 'epoch': 2.11}
{'loss': 0.6153, 'learning_rate': 1.4717948717948717e-05, 'epoch': 2.12}


  return dynamo.is_compiling()


{'loss': 0.6196, 'learning_rate': 1.4676923076923076e-05, 'epoch': 2.12}
{'loss': 0.6697, 'learning_rate': 1.4635897435897436e-05, 'epoch': 2.12}
{'loss': 0.6139, 'learning_rate': 1.4594871794871795e-05, 'epoch': 2.12}
{'loss': 0.6341, 'learning_rate': 1.4553846153846154e-05, 'epoch': 2.13}
{'loss': 0.6367, 'learning_rate': 1.4512820512820513e-05, 'epoch': 2.13}


  return dynamo.is_compiling()


{'loss': 0.6018, 'learning_rate': 1.4471794871794872e-05, 'epoch': 2.13}
{'loss': 0.6535, 'learning_rate': 1.4430769230769232e-05, 'epoch': 2.13}
{'loss': 0.6141, 'learning_rate': 1.438974358974359e-05, 'epoch': 2.14}
{'loss': 0.6106, 'learning_rate': 1.4348717948717948e-05, 'epoch': 2.14}
{'loss': 0.6135, 'learning_rate': 1.4307692307692308e-05, 'epoch': 2.14}


  return dynamo.is_compiling()


{'loss': 0.6355, 'learning_rate': 1.4266666666666667e-05, 'epoch': 2.14}
{'loss': 0.584, 'learning_rate': 1.4225641025641026e-05, 'epoch': 2.15}
{'loss': 0.6062, 'learning_rate': 1.4184615384615385e-05, 'epoch': 2.15}
{'loss': 0.6392, 'learning_rate': 1.4143589743589744e-05, 'epoch': 2.15}
{'loss': 0.5975, 'learning_rate': 1.4102564102564104e-05, 'epoch': 2.15}


  return dynamo.is_compiling()


{'loss': 0.6854, 'learning_rate': 1.4061538461538463e-05, 'epoch': 2.16}
{'loss': 0.6144, 'learning_rate': 1.4020512820512822e-05, 'epoch': 2.16}
{'loss': 0.6192, 'learning_rate': 1.397948717948718e-05, 'epoch': 2.16}
{'loss': 0.6272, 'learning_rate': 1.3938461538461539e-05, 'epoch': 2.16}
{'loss': 0.6379, 'learning_rate': 1.3897435897435898e-05, 'epoch': 2.17}


  return dynamo.is_compiling()


{'loss': 0.6271, 'learning_rate': 1.3856410256410257e-05, 'epoch': 2.17}
{'loss': 0.6468, 'learning_rate': 1.3815384615384616e-05, 'epoch': 2.17}
{'loss': 0.6205, 'learning_rate': 1.3774358974358975e-05, 'epoch': 2.17}
{'loss': 0.6287, 'learning_rate': 1.3733333333333335e-05, 'epoch': 2.18}
{'loss': 0.6101, 'learning_rate': 1.3692307692307694e-05, 'epoch': 2.18}


  return dynamo.is_compiling()


{'loss': 0.5769, 'learning_rate': 1.3651282051282053e-05, 'epoch': 2.18}
{'loss': 0.6117, 'learning_rate': 1.361025641025641e-05, 'epoch': 2.18}
{'loss': 0.6231, 'learning_rate': 1.356923076923077e-05, 'epoch': 2.19}
{'loss': 0.6159, 'learning_rate': 1.3528205128205129e-05, 'epoch': 2.19}
{'loss': 0.5948, 'learning_rate': 1.3487179487179488e-05, 'epoch': 2.19}


  return dynamo.is_compiling()


{'loss': 0.6056, 'learning_rate': 1.3446153846153847e-05, 'epoch': 2.19}
{'loss': 0.6329, 'learning_rate': 1.3405128205128206e-05, 'epoch': 2.2}
{'loss': 0.6414, 'learning_rate': 1.3364102564102566e-05, 'epoch': 2.2}
{'loss': 0.6347, 'learning_rate': 1.3323076923076925e-05, 'epoch': 2.2}
{'loss': 0.6231, 'learning_rate': 1.3282051282051284e-05, 'epoch': 2.2}


  return dynamo.is_compiling()


{'loss': 0.6167, 'learning_rate': 1.3241025641025641e-05, 'epoch': 2.21}
{'loss': 0.5939, 'learning_rate': 1.32e-05, 'epoch': 2.21}
{'loss': 0.6256, 'learning_rate': 1.315897435897436e-05, 'epoch': 2.21}
{'loss': 0.6549, 'learning_rate': 1.3117948717948719e-05, 'epoch': 2.21}
{'loss': 0.6541, 'learning_rate': 1.3076923076923078e-05, 'epoch': 2.22}


  return dynamo.is_compiling()


{'loss': 0.6233, 'learning_rate': 1.3035897435897437e-05, 'epoch': 2.22}
{'loss': 0.6217, 'learning_rate': 1.2994871794871797e-05, 'epoch': 2.22}
{'loss': 0.6299, 'learning_rate': 1.2953846153846156e-05, 'epoch': 2.22}
{'loss': 0.5946, 'learning_rate': 1.2912820512820515e-05, 'epoch': 2.23}
{'loss': 0.6071, 'learning_rate': 1.2871794871794873e-05, 'epoch': 2.23}


  return dynamo.is_compiling()


{'loss': 0.6463, 'learning_rate': 1.2830769230769232e-05, 'epoch': 2.23}
{'loss': 0.6242, 'learning_rate': 1.2789743589743591e-05, 'epoch': 2.23}
{'loss': 0.6359, 'learning_rate': 1.274871794871795e-05, 'epoch': 2.24}
{'loss': 0.6408, 'learning_rate': 1.270769230769231e-05, 'epoch': 2.24}
{'loss': 0.6299, 'learning_rate': 1.2666666666666668e-05, 'epoch': 2.24}


  return dynamo.is_compiling()


{'loss': 0.6303, 'learning_rate': 1.2625641025641028e-05, 'epoch': 2.24}
{'loss': 0.6007, 'learning_rate': 1.2584615384615387e-05, 'epoch': 2.24}
{'loss': 0.5793, 'learning_rate': 1.2543589743589746e-05, 'epoch': 2.25}
{'loss': 0.6338, 'learning_rate': 1.2502564102564104e-05, 'epoch': 2.25}
{'loss': 0.5894, 'learning_rate': 1.2461538461538463e-05, 'epoch': 2.25}


  return dynamo.is_compiling()


{'loss': 0.6439, 'learning_rate': 1.242051282051282e-05, 'epoch': 2.25}
{'loss': 0.5989, 'learning_rate': 1.237948717948718e-05, 'epoch': 2.26}
{'loss': 0.6243, 'learning_rate': 1.2338461538461539e-05, 'epoch': 2.26}
{'loss': 0.6723, 'learning_rate': 1.2297435897435898e-05, 'epoch': 2.26}
{'loss': 0.6257, 'learning_rate': 1.2256410256410257e-05, 'epoch': 2.26}


  return dynamo.is_compiling()


{'loss': 0.6238, 'learning_rate': 1.2215384615384616e-05, 'epoch': 2.27}
{'loss': 0.6103, 'learning_rate': 1.2174358974358975e-05, 'epoch': 2.27}
{'loss': 0.5796, 'learning_rate': 1.2133333333333335e-05, 'epoch': 2.27}
{'loss': 0.6144, 'learning_rate': 1.2092307692307694e-05, 'epoch': 2.27}
{'loss': 0.6503, 'learning_rate': 1.2051282051282051e-05, 'epoch': 2.28}


  return dynamo.is_compiling()


{'loss': 0.6335, 'learning_rate': 1.201025641025641e-05, 'epoch': 2.28}
{'loss': 0.6286, 'learning_rate': 1.196923076923077e-05, 'epoch': 2.28}
{'loss': 0.6036, 'learning_rate': 1.1928205128205129e-05, 'epoch': 2.28}
{'loss': 0.6201, 'learning_rate': 1.1887179487179488e-05, 'epoch': 2.29}
{'loss': 0.6151, 'learning_rate': 1.1846153846153847e-05, 'epoch': 2.29}


  return dynamo.is_compiling()


{'loss': 0.6295, 'learning_rate': 1.1805128205128206e-05, 'epoch': 2.29}
{'loss': 0.6118, 'learning_rate': 1.1764102564102566e-05, 'epoch': 2.29}
{'loss': 0.644, 'learning_rate': 1.1723076923076925e-05, 'epoch': 2.3}
{'loss': 0.6096, 'learning_rate': 1.1682051282051282e-05, 'epoch': 2.3}
{'loss': 0.6093, 'learning_rate': 1.1641025641025642e-05, 'epoch': 2.3}


  return dynamo.is_compiling()


{'loss': 0.5933, 'learning_rate': 1.16e-05, 'epoch': 2.3}
{'loss': 0.6187, 'learning_rate': 1.155897435897436e-05, 'epoch': 2.31}
{'loss': 0.6215, 'learning_rate': 1.1517948717948719e-05, 'epoch': 2.31}
{'loss': 0.617, 'learning_rate': 1.1476923076923078e-05, 'epoch': 2.31}
{'loss': 0.6741, 'learning_rate': 1.1435897435897436e-05, 'epoch': 2.31}


  return dynamo.is_compiling()


{'loss': 0.6181, 'learning_rate': 1.1394871794871795e-05, 'epoch': 2.32}
{'loss': 0.6541, 'learning_rate': 1.1353846153846154e-05, 'epoch': 2.32}
{'loss': 0.6222, 'learning_rate': 1.1312820512820513e-05, 'epoch': 2.32}
{'loss': 0.6213, 'learning_rate': 1.1271794871794873e-05, 'epoch': 2.32}
{'loss': 0.6269, 'learning_rate': 1.123076923076923e-05, 'epoch': 2.33}


  return dynamo.is_compiling()


{'loss': 0.6226, 'learning_rate': 1.118974358974359e-05, 'epoch': 2.33}
{'loss': 0.5963, 'learning_rate': 1.1148717948717948e-05, 'epoch': 2.33}
{'loss': 0.635, 'learning_rate': 1.1107692307692308e-05, 'epoch': 2.33}
{'loss': 0.6151, 'learning_rate': 1.1066666666666667e-05, 'epoch': 2.34}
{'loss': 0.6295, 'learning_rate': 1.1025641025641026e-05, 'epoch': 2.34}


  return dynamo.is_compiling()


{'loss': 0.6373, 'learning_rate': 1.0984615384615385e-05, 'epoch': 2.34}
{'loss': 0.6376, 'learning_rate': 1.0943589743589744e-05, 'epoch': 2.34}
{'loss': 0.6394, 'learning_rate': 1.0902564102564104e-05, 'epoch': 2.35}
{'loss': 0.6535, 'learning_rate': 1.0861538461538461e-05, 'epoch': 2.35}
{'loss': 0.6141, 'learning_rate': 1.082051282051282e-05, 'epoch': 2.35}


  return dynamo.is_compiling()


{'loss': 0.6289, 'learning_rate': 1.077948717948718e-05, 'epoch': 2.35}
{'loss': 0.5962, 'learning_rate': 1.0738461538461539e-05, 'epoch': 2.36}
{'loss': 0.6045, 'learning_rate': 1.0697435897435898e-05, 'epoch': 2.36}
{'loss': 0.6183, 'learning_rate': 1.0656410256410257e-05, 'epoch': 2.36}
{'loss': 0.6323, 'learning_rate': 1.0615384615384616e-05, 'epoch': 2.36}


  return dynamo.is_compiling()


{'loss': 0.6323, 'learning_rate': 1.0574358974358975e-05, 'epoch': 2.37}
{'loss': 0.6006, 'learning_rate': 1.0533333333333335e-05, 'epoch': 2.37}
{'loss': 0.6122, 'learning_rate': 1.0492307692307692e-05, 'epoch': 2.37}
{'loss': 0.6154, 'learning_rate': 1.0451282051282051e-05, 'epoch': 2.37}
{'loss': 0.6191, 'learning_rate': 1.041025641025641e-05, 'epoch': 2.38}


  return dynamo.is_compiling()


{'loss': 0.62, 'learning_rate': 1.036923076923077e-05, 'epoch': 2.38}
{'loss': 0.6112, 'learning_rate': 1.0328205128205129e-05, 'epoch': 2.38}
{'loss': 0.6407, 'learning_rate': 1.0287179487179488e-05, 'epoch': 2.38}
{'loss': 0.627, 'learning_rate': 1.0246153846153847e-05, 'epoch': 2.39}
{'loss': 0.6394, 'learning_rate': 1.0205128205128207e-05, 'epoch': 2.39}


  return dynamo.is_compiling()


{'loss': 0.6174, 'learning_rate': 1.0164102564102566e-05, 'epoch': 2.39}
{'loss': 0.6406, 'learning_rate': 1.0123076923076923e-05, 'epoch': 2.39}
{'loss': 0.6221, 'learning_rate': 1.0082051282051282e-05, 'epoch': 2.4}
{'loss': 0.6063, 'learning_rate': 1.0041025641025642e-05, 'epoch': 2.4}
{'loss': 0.6379, 'learning_rate': 1e-05, 'epoch': 2.4}


  return dynamo.is_compiling()


{'loss': 0.6044, 'learning_rate': 9.95897435897436e-06, 'epoch': 2.4}
{'loss': 0.6527, 'learning_rate': 9.91794871794872e-06, 'epoch': 2.4}
{'loss': 0.6098, 'learning_rate': 9.876923076923078e-06, 'epoch': 2.41}
{'loss': 0.6577, 'learning_rate': 9.835897435897436e-06, 'epoch': 2.41}
{'loss': 0.6168, 'learning_rate': 9.794871794871795e-06, 'epoch': 2.41}


  return dynamo.is_compiling()


{'loss': 0.6052, 'learning_rate': 9.753846153846154e-06, 'epoch': 2.41}
{'loss': 0.6387, 'learning_rate': 9.712820512820513e-06, 'epoch': 2.42}
{'loss': 0.6308, 'learning_rate': 9.671794871794871e-06, 'epoch': 2.42}
{'loss': 0.6179, 'learning_rate': 9.63076923076923e-06, 'epoch': 2.42}
{'loss': 0.6375, 'learning_rate': 9.58974358974359e-06, 'epoch': 2.42}


  return dynamo.is_compiling()


{'loss': 0.5927, 'learning_rate': 9.548717948717949e-06, 'epoch': 2.43}
{'loss': 0.6151, 'learning_rate': 9.507692307692308e-06, 'epoch': 2.43}
{'loss': 0.6209, 'learning_rate': 9.466666666666667e-06, 'epoch': 2.43}
{'loss': 0.6504, 'learning_rate': 9.425641025641026e-06, 'epoch': 2.43}
{'loss': 0.6475, 'learning_rate': 9.384615384615385e-06, 'epoch': 2.44}


  return dynamo.is_compiling()


{'loss': 0.6466, 'learning_rate': 9.343589743589745e-06, 'epoch': 2.44}
{'loss': 0.5887, 'learning_rate': 9.302564102564102e-06, 'epoch': 2.44}
{'loss': 0.5976, 'learning_rate': 9.261538461538461e-06, 'epoch': 2.44}
{'loss': 0.5769, 'learning_rate': 9.22051282051282e-06, 'epoch': 2.45}
{'loss': 0.6239, 'learning_rate': 9.17948717948718e-06, 'epoch': 2.45}


  return dynamo.is_compiling()


{'loss': 0.6527, 'learning_rate': 9.138461538461539e-06, 'epoch': 2.45}
{'loss': 0.6212, 'learning_rate': 9.097435897435898e-06, 'epoch': 2.45}
{'loss': 0.594, 'learning_rate': 9.056410256410257e-06, 'epoch': 2.46}
{'loss': 0.6045, 'learning_rate': 9.015384615384616e-06, 'epoch': 2.46}
{'loss': 0.6102, 'learning_rate': 8.974358974358976e-06, 'epoch': 2.46}


  return dynamo.is_compiling()


{'loss': 0.6209, 'learning_rate': 8.933333333333333e-06, 'epoch': 2.46}
{'loss': 0.6126, 'learning_rate': 8.892307692307692e-06, 'epoch': 2.47}
{'loss': 0.5992, 'learning_rate': 8.851282051282051e-06, 'epoch': 2.47}
{'loss': 0.6376, 'learning_rate': 8.81025641025641e-06, 'epoch': 2.47}
{'loss': 0.6115, 'learning_rate': 8.76923076923077e-06, 'epoch': 2.47}


  return dynamo.is_compiling()


{'loss': 0.6076, 'learning_rate': 8.728205128205129e-06, 'epoch': 2.48}
{'loss': 0.6212, 'learning_rate': 8.687179487179488e-06, 'epoch': 2.48}
{'loss': 0.593, 'learning_rate': 8.646153846153847e-06, 'epoch': 2.48}
{'loss': 0.675, 'learning_rate': 8.605128205128207e-06, 'epoch': 2.48}
{'loss': 0.5943, 'learning_rate': 8.564102564102564e-06, 'epoch': 2.49}


  return dynamo.is_compiling()


{'loss': 0.5892, 'learning_rate': 8.523076923076923e-06, 'epoch': 2.49}
{'loss': 0.6043, 'learning_rate': 8.482051282051283e-06, 'epoch': 2.49}
{'loss': 0.6507, 'learning_rate': 8.441025641025642e-06, 'epoch': 2.49}
{'loss': 0.6189, 'learning_rate': 8.400000000000001e-06, 'epoch': 2.5}
{'loss': 0.6304, 'learning_rate': 8.35897435897436e-06, 'epoch': 2.5}


  return dynamo.is_compiling()


{'loss': 0.6098, 'learning_rate': 8.31794871794872e-06, 'epoch': 2.5}
{'loss': 0.611, 'learning_rate': 8.276923076923078e-06, 'epoch': 2.5}
{'loss': 0.6638, 'learning_rate': 8.235897435897438e-06, 'epoch': 2.51}
{'loss': 0.602, 'learning_rate': 8.194871794871795e-06, 'epoch': 2.51}
{'loss': 0.6247, 'learning_rate': 8.153846153846154e-06, 'epoch': 2.51}


  return dynamo.is_compiling()


{'loss': 0.6378, 'learning_rate': 8.112820512820512e-06, 'epoch': 2.51}
{'loss': 0.6268, 'learning_rate': 8.071794871794871e-06, 'epoch': 2.52}
{'loss': 0.6349, 'learning_rate': 8.03076923076923e-06, 'epoch': 2.52}
{'loss': 0.5918, 'learning_rate': 7.98974358974359e-06, 'epoch': 2.52}
{'loss': 0.6315, 'learning_rate': 7.948717948717949e-06, 'epoch': 2.52}


  return dynamo.is_compiling()


{'loss': 0.5948, 'learning_rate': 7.907692307692308e-06, 'epoch': 2.53}
{'loss': 0.614, 'learning_rate': 7.866666666666667e-06, 'epoch': 2.53}
{'loss': 0.6377, 'learning_rate': 7.825641025641026e-06, 'epoch': 2.53}
{'loss': 0.6371, 'learning_rate': 7.784615384615385e-06, 'epoch': 2.53}
{'loss': 0.6292, 'learning_rate': 7.743589743589743e-06, 'epoch': 2.54}


  return dynamo.is_compiling()


{'loss': 0.6377, 'learning_rate': 7.702564102564102e-06, 'epoch': 2.54}
{'loss': 0.6475, 'learning_rate': 7.661538461538461e-06, 'epoch': 2.54}
{'loss': 0.6266, 'learning_rate': 7.6205128205128205e-06, 'epoch': 2.54}
{'loss': 0.6006, 'learning_rate': 7.57948717948718e-06, 'epoch': 2.55}
{'loss': 0.6254, 'learning_rate': 7.538461538461539e-06, 'epoch': 2.55}


  return dynamo.is_compiling()


{'loss': 0.6347, 'learning_rate': 7.497435897435898e-06, 'epoch': 2.55}
{'loss': 0.5897, 'learning_rate': 7.456410256410256e-06, 'epoch': 2.55}
{'loss': 0.6408, 'learning_rate': 7.415384615384616e-06, 'epoch': 2.56}
{'loss': 0.6187, 'learning_rate': 7.374358974358975e-06, 'epoch': 2.56}
{'loss': 0.6297, 'learning_rate': 7.333333333333334e-06, 'epoch': 2.56}


  return dynamo.is_compiling()


{'loss': 0.6165, 'learning_rate': 7.292307692307692e-06, 'epoch': 2.56}
{'loss': 0.6218, 'learning_rate': 7.2512820512820515e-06, 'epoch': 2.56}
{'loss': 0.6333, 'learning_rate': 7.210256410256411e-06, 'epoch': 2.57}
{'loss': 0.6076, 'learning_rate': 7.16923076923077e-06, 'epoch': 2.57}
{'loss': 0.6128, 'learning_rate': 7.128205128205129e-06, 'epoch': 2.57}


  return dynamo.is_compiling()


{'loss': 0.612, 'learning_rate': 7.0871794871794875e-06, 'epoch': 2.57}
{'loss': 0.6251, 'learning_rate': 7.046153846153847e-06, 'epoch': 2.58}
{'loss': 0.6142, 'learning_rate': 7.005128205128206e-06, 'epoch': 2.58}
{'loss': 0.6084, 'learning_rate': 6.964102564102565e-06, 'epoch': 2.58}
{'loss': 0.6304, 'learning_rate': 6.923076923076923e-06, 'epoch': 2.58}


  return dynamo.is_compiling()


{'loss': 0.6557, 'learning_rate': 6.8820512820512826e-06, 'epoch': 2.59}
{'loss': 0.6082, 'learning_rate': 6.841025641025642e-06, 'epoch': 2.59}
{'loss': 0.5893, 'learning_rate': 6.800000000000001e-06, 'epoch': 2.59}
{'loss': 0.6173, 'learning_rate': 6.75897435897436e-06, 'epoch': 2.59}
{'loss': 0.6208, 'learning_rate': 6.7179487179487185e-06, 'epoch': 2.6}


  return dynamo.is_compiling()


{'loss': 0.5804, 'learning_rate': 6.676923076923078e-06, 'epoch': 2.6}
{'loss': 0.6442, 'learning_rate': 6.635897435897437e-06, 'epoch': 2.6}
{'loss': 0.6044, 'learning_rate': 6.594871794871796e-06, 'epoch': 2.6}
{'loss': 0.5902, 'learning_rate': 6.553846153846154e-06, 'epoch': 2.61}
{'loss': 0.6078, 'learning_rate': 6.512820512820513e-06, 'epoch': 2.61}


  return dynamo.is_compiling()


{'loss': 0.6002, 'learning_rate': 6.471794871794871e-06, 'epoch': 2.61}
{'loss': 0.5869, 'learning_rate': 6.43076923076923e-06, 'epoch': 2.61}
{'loss': 0.579, 'learning_rate': 6.3897435897435895e-06, 'epoch': 2.62}
{'loss': 0.5983, 'learning_rate': 6.348717948717949e-06, 'epoch': 2.62}
{'loss': 0.6358, 'learning_rate': 6.307692307692308e-06, 'epoch': 2.62}


  return dynamo.is_compiling()


{'loss': 0.6379, 'learning_rate': 6.266666666666666e-06, 'epoch': 2.62}
{'loss': 0.6262, 'learning_rate': 6.225641025641026e-06, 'epoch': 2.63}
{'loss': 0.6361, 'learning_rate': 6.1846153846153855e-06, 'epoch': 2.63}
{'loss': 0.5948, 'learning_rate': 6.143589743589744e-06, 'epoch': 2.63}
{'loss': 0.6166, 'learning_rate': 6.102564102564102e-06, 'epoch': 2.63}


  return dynamo.is_compiling()


{'loss': 0.6139, 'learning_rate': 6.061538461538461e-06, 'epoch': 2.64}
{'loss': 0.618, 'learning_rate': 6.0205128205128206e-06, 'epoch': 2.64}
{'loss': 0.5894, 'learning_rate': 5.97948717948718e-06, 'epoch': 2.64}
{'loss': 0.6057, 'learning_rate': 5.938461538461539e-06, 'epoch': 2.64}
{'loss': 0.6001, 'learning_rate': 5.897435897435897e-06, 'epoch': 2.65}


  return dynamo.is_compiling()


{'loss': 0.6204, 'learning_rate': 5.8564102564102565e-06, 'epoch': 2.65}
{'loss': 0.6012, 'learning_rate': 5.815384615384616e-06, 'epoch': 2.65}
{'loss': 0.6068, 'learning_rate': 5.774358974358975e-06, 'epoch': 2.65}
{'loss': 0.6039, 'learning_rate': 5.733333333333333e-06, 'epoch': 2.66}
{'loss': 0.6179, 'learning_rate': 5.692307692307692e-06, 'epoch': 2.66}


  return dynamo.is_compiling()


{'loss': 0.6164, 'learning_rate': 5.651282051282052e-06, 'epoch': 2.66}
{'loss': 0.6251, 'learning_rate': 5.610256410256411e-06, 'epoch': 2.66}
{'loss': 0.6233, 'learning_rate': 5.56923076923077e-06, 'epoch': 2.67}
{'loss': 0.6067, 'learning_rate': 5.528205128205128e-06, 'epoch': 2.67}
{'loss': 0.6469, 'learning_rate': 5.4871794871794875e-06, 'epoch': 2.67}


  return dynamo.is_compiling()


{'loss': 0.6245, 'learning_rate': 5.446153846153847e-06, 'epoch': 2.67}
{'loss': 0.5942, 'learning_rate': 5.405128205128206e-06, 'epoch': 2.68}
{'loss': 0.6557, 'learning_rate': 5.364102564102564e-06, 'epoch': 2.68}
{'loss': 0.6031, 'learning_rate': 5.323076923076923e-06, 'epoch': 2.68}
{'loss': 0.6597, 'learning_rate': 5.282051282051282e-06, 'epoch': 2.68}


  return dynamo.is_compiling()


{'loss': 0.607, 'learning_rate': 5.241025641025641e-06, 'epoch': 2.69}
{'loss': 0.6596, 'learning_rate': 5.2e-06, 'epoch': 2.69}
{'loss': 0.6128, 'learning_rate': 5.158974358974359e-06, 'epoch': 2.69}
{'loss': 0.609, 'learning_rate': 5.117948717948718e-06, 'epoch': 2.69}
{'loss': 0.6351, 'learning_rate': 5.076923076923077e-06, 'epoch': 2.7}


  return dynamo.is_compiling()


{'loss': 0.6161, 'learning_rate': 5.035897435897436e-06, 'epoch': 2.7}
{'loss': 0.652, 'learning_rate': 4.994871794871795e-06, 'epoch': 2.7}
{'loss': 0.6019, 'learning_rate': 4.953846153846154e-06, 'epoch': 2.7}
{'loss': 0.6465, 'learning_rate': 4.912820512820513e-06, 'epoch': 2.71}
{'loss': 0.5857, 'learning_rate': 4.871794871794872e-06, 'epoch': 2.71}


  return dynamo.is_compiling()


{'loss': 0.6187, 'learning_rate': 4.830769230769231e-06, 'epoch': 2.71}
{'loss': 0.572, 'learning_rate': 4.7897435897435904e-06, 'epoch': 2.71}
{'loss': 0.5867, 'learning_rate': 4.748717948717949e-06, 'epoch': 2.72}
{'loss': 0.6369, 'learning_rate': 4.707692307692308e-06, 'epoch': 2.72}
{'loss': 0.5892, 'learning_rate': 4.666666666666667e-06, 'epoch': 2.72}


  return dynamo.is_compiling()


{'loss': 0.6118, 'learning_rate': 4.625641025641026e-06, 'epoch': 2.72}
{'loss': 0.6164, 'learning_rate': 4.584615384615385e-06, 'epoch': 2.72}
{'loss': 0.6553, 'learning_rate': 4.543589743589744e-06, 'epoch': 2.73}
{'loss': 0.5813, 'learning_rate': 4.502564102564102e-06, 'epoch': 2.73}
{'loss': 0.6317, 'learning_rate': 4.4615384615384614e-06, 'epoch': 2.73}


  return dynamo.is_compiling()


{'loss': 0.5923, 'learning_rate': 4.420512820512821e-06, 'epoch': 2.73}
{'loss': 0.5752, 'learning_rate': 4.37948717948718e-06, 'epoch': 2.74}
{'loss': 0.6118, 'learning_rate': 4.338461538461538e-06, 'epoch': 2.74}
{'loss': 0.6159, 'learning_rate': 4.297435897435897e-06, 'epoch': 2.74}
{'loss': 0.6161, 'learning_rate': 4.2564102564102566e-06, 'epoch': 2.74}


  return dynamo.is_compiling()


{'loss': 0.6134, 'learning_rate': 4.215384615384616e-06, 'epoch': 2.75}
{'loss': 0.6447, 'learning_rate': 4.174358974358974e-06, 'epoch': 2.75}
{'loss': 0.6077, 'learning_rate': 4.133333333333333e-06, 'epoch': 2.75}
{'loss': 0.6615, 'learning_rate': 4.0923076923076925e-06, 'epoch': 2.75}
{'loss': 0.5959, 'learning_rate': 4.051282051282052e-06, 'epoch': 2.76}


  return dynamo.is_compiling()


{'loss': 0.642, 'learning_rate': 4.010256410256411e-06, 'epoch': 2.76}
{'loss': 0.5891, 'learning_rate': 3.969230769230769e-06, 'epoch': 2.76}
{'loss': 0.616, 'learning_rate': 3.928205128205128e-06, 'epoch': 2.76}
{'loss': 0.6333, 'learning_rate': 3.887179487179488e-06, 'epoch': 2.77}
{'loss': 0.6215, 'learning_rate': 3.846153846153847e-06, 'epoch': 2.77}


  return dynamo.is_compiling()


{'loss': 0.6137, 'learning_rate': 3.8051282051282056e-06, 'epoch': 2.77}
{'loss': 0.6057, 'learning_rate': 3.7641025641025648e-06, 'epoch': 2.77}
{'loss': 0.6073, 'learning_rate': 3.7230769230769235e-06, 'epoch': 2.78}
{'loss': 0.6217, 'learning_rate': 3.682051282051282e-06, 'epoch': 2.78}
{'loss': 0.6496, 'learning_rate': 3.641025641025641e-06, 'epoch': 2.78}


  return dynamo.is_compiling()


{'loss': 0.6141, 'learning_rate': 3.6e-06, 'epoch': 2.78}
{'loss': 0.5869, 'learning_rate': 3.558974358974359e-06, 'epoch': 2.79}
{'loss': 0.6099, 'learning_rate': 3.517948717948718e-06, 'epoch': 2.79}
{'loss': 0.5599, 'learning_rate': 3.476923076923077e-06, 'epoch': 2.79}
{'loss': 0.5796, 'learning_rate': 3.4358974358974358e-06, 'epoch': 2.79}


  return dynamo.is_compiling()


{'loss': 0.6176, 'learning_rate': 3.394871794871795e-06, 'epoch': 2.8}
{'loss': 0.6096, 'learning_rate': 3.353846153846154e-06, 'epoch': 2.8}
{'loss': 0.6312, 'learning_rate': 3.312820512820513e-06, 'epoch': 2.8}
{'loss': 0.5918, 'learning_rate': 3.271794871794872e-06, 'epoch': 2.8}
{'loss': 0.6036, 'learning_rate': 3.230769230769231e-06, 'epoch': 2.81}


  return dynamo.is_compiling()


{'loss': 0.5943, 'learning_rate': 3.18974358974359e-06, 'epoch': 2.81}
{'loss': 0.633, 'learning_rate': 3.148717948717949e-06, 'epoch': 2.81}
{'loss': 0.6126, 'learning_rate': 3.107692307692308e-06, 'epoch': 2.81}
{'loss': 0.6133, 'learning_rate': 3.066666666666667e-06, 'epoch': 2.82}
{'loss': 0.6161, 'learning_rate': 3.0256410256410256e-06, 'epoch': 2.82}


  return dynamo.is_compiling()


{'loss': 0.6113, 'learning_rate': 2.9846153846153848e-06, 'epoch': 2.82}
{'loss': 0.6046, 'learning_rate': 2.9435897435897435e-06, 'epoch': 2.82}
{'loss': 0.5853, 'learning_rate': 2.9025641025641027e-06, 'epoch': 2.83}
{'loss': 0.6006, 'learning_rate': 2.8615384615384615e-06, 'epoch': 2.83}
{'loss': 0.6063, 'learning_rate': 2.8205128205128207e-06, 'epoch': 2.83}


  return dynamo.is_compiling()


{'loss': 0.6036, 'learning_rate': 2.77948717948718e-06, 'epoch': 2.83}
{'loss': 0.5974, 'learning_rate': 2.7384615384615387e-06, 'epoch': 2.84}
{'loss': 0.6381, 'learning_rate': 2.697435897435898e-06, 'epoch': 2.84}
{'loss': 0.6534, 'learning_rate': 2.656410256410256e-06, 'epoch': 2.84}
{'loss': 0.6073, 'learning_rate': 2.6153846153846154e-06, 'epoch': 2.84}


  return dynamo.is_compiling()


{'loss': 0.6185, 'learning_rate': 2.5743589743589746e-06, 'epoch': 2.85}
{'loss': 0.6096, 'learning_rate': 2.5333333333333334e-06, 'epoch': 2.85}
{'loss': 0.6132, 'learning_rate': 2.4923076923076926e-06, 'epoch': 2.85}
{'loss': 0.6357, 'learning_rate': 2.4512820512820513e-06, 'epoch': 2.85}
{'loss': 0.5829, 'learning_rate': 2.4102564102564105e-06, 'epoch': 2.86}


  return dynamo.is_compiling()


{'loss': 0.5952, 'learning_rate': 2.3692307692307693e-06, 'epoch': 2.86}
{'loss': 0.6228, 'learning_rate': 2.3282051282051285e-06, 'epoch': 2.86}
{'loss': 0.5551, 'learning_rate': 2.2871794871794872e-06, 'epoch': 2.86}
{'loss': 0.5851, 'learning_rate': 2.246153846153846e-06, 'epoch': 2.87}
{'loss': 0.5919, 'learning_rate': 2.2051282051282052e-06, 'epoch': 2.87}


  return dynamo.is_compiling()


{'loss': 0.6173, 'learning_rate': 2.164102564102564e-06, 'epoch': 2.87}
{'loss': 0.6093, 'learning_rate': 2.123076923076923e-06, 'epoch': 2.87}
{'loss': 0.6019, 'learning_rate': 2.082051282051282e-06, 'epoch': 2.88}
{'loss': 0.6025, 'learning_rate': 2.041025641025641e-06, 'epoch': 2.88}
{'loss': 0.5913, 'learning_rate': 2.0000000000000003e-06, 'epoch': 2.88}


  return dynamo.is_compiling()


{'loss': 0.5968, 'learning_rate': 1.958974358974359e-06, 'epoch': 2.88}
{'loss': 0.6061, 'learning_rate': 1.9179487179487183e-06, 'epoch': 2.88}
{'loss': 0.6317, 'learning_rate': 1.876923076923077e-06, 'epoch': 2.89}
{'loss': 0.5728, 'learning_rate': 1.8358974358974358e-06, 'epoch': 2.89}
{'loss': 0.6271, 'learning_rate': 1.7948717948717948e-06, 'epoch': 2.89}


  return dynamo.is_compiling()


{'loss': 0.6436, 'learning_rate': 1.7538461538461538e-06, 'epoch': 2.89}
{'loss': 0.6109, 'learning_rate': 1.7128205128205128e-06, 'epoch': 2.9}
{'loss': 0.6009, 'learning_rate': 1.6717948717948718e-06, 'epoch': 2.9}
{'loss': 0.623, 'learning_rate': 1.630769230769231e-06, 'epoch': 2.9}
{'loss': 0.6464, 'learning_rate': 1.58974358974359e-06, 'epoch': 2.9}


  return dynamo.is_compiling()


{'loss': 0.5863, 'learning_rate': 1.548717948717949e-06, 'epoch': 2.91}
{'loss': 0.5929, 'learning_rate': 1.5076923076923077e-06, 'epoch': 2.91}
{'loss': 0.613, 'learning_rate': 1.4666666666666667e-06, 'epoch': 2.91}
{'loss': 0.6128, 'learning_rate': 1.4256410256410257e-06, 'epoch': 2.91}
{'loss': 0.6081, 'learning_rate': 1.3846153846153846e-06, 'epoch': 2.92}


  return dynamo.is_compiling()


{'loss': 0.5878, 'learning_rate': 1.3435897435897438e-06, 'epoch': 2.92}
{'loss': 0.59, 'learning_rate': 1.3025641025641026e-06, 'epoch': 2.92}
{'loss': 0.6262, 'learning_rate': 1.2615384615384616e-06, 'epoch': 2.92}
{'loss': 0.5931, 'learning_rate': 1.2205128205128206e-06, 'epoch': 2.93}
{'loss': 0.6168, 'learning_rate': 1.1794871794871795e-06, 'epoch': 2.93}


  return dynamo.is_compiling()


{'loss': 0.5791, 'learning_rate': 1.1384615384615385e-06, 'epoch': 2.93}
{'loss': 0.5897, 'learning_rate': 1.0974358974358975e-06, 'epoch': 2.93}
{'loss': 0.6099, 'learning_rate': 1.0564102564102565e-06, 'epoch': 2.94}
{'loss': 0.5839, 'learning_rate': 1.0153846153846155e-06, 'epoch': 2.94}
{'loss': 0.5928, 'learning_rate': 9.743589743589745e-07, 'epoch': 2.94}


  return dynamo.is_compiling()


{'loss': 0.5824, 'learning_rate': 9.333333333333334e-07, 'epoch': 2.94}
{'loss': 0.5867, 'learning_rate': 8.923076923076923e-07, 'epoch': 2.95}
{'loss': 0.6054, 'learning_rate': 8.512820512820513e-07, 'epoch': 2.95}
{'loss': 0.6071, 'learning_rate': 8.102564102564103e-07, 'epoch': 2.95}
{'loss': 0.5944, 'learning_rate': 7.692307692307694e-07, 'epoch': 2.95}


  return dynamo.is_compiling()


{'loss': 0.6089, 'learning_rate': 7.282051282051282e-07, 'epoch': 2.96}
{'loss': 0.6032, 'learning_rate': 6.871794871794872e-07, 'epoch': 2.96}
{'loss': 0.6281, 'learning_rate': 6.461538461538462e-07, 'epoch': 2.96}
{'loss': 0.5952, 'learning_rate': 6.051282051282052e-07, 'epoch': 2.96}
{'loss': 0.6317, 'learning_rate': 5.641025641025642e-07, 'epoch': 2.97}


  return dynamo.is_compiling()


{'loss': 0.6634, 'learning_rate': 5.230769230769231e-07, 'epoch': 2.97}
{'loss': 0.5662, 'learning_rate': 4.820512820512821e-07, 'epoch': 2.97}
{'loss': 0.5865, 'learning_rate': 4.41025641025641e-07, 'epoch': 2.97}
{'loss': 0.6149, 'learning_rate': 4.0000000000000003e-07, 'epoch': 2.98}
{'loss': 0.5926, 'learning_rate': 3.58974358974359e-07, 'epoch': 2.98}


  return dynamo.is_compiling()


{'loss': 0.6456, 'learning_rate': 3.1794871794871795e-07, 'epoch': 2.98}
{'loss': 0.6011, 'learning_rate': 2.7692307692307693e-07, 'epoch': 2.98}
{'loss': 0.5709, 'learning_rate': 2.3589743589743593e-07, 'epoch': 2.99}
{'loss': 0.6084, 'learning_rate': 1.948717948717949e-07, 'epoch': 2.99}
{'loss': 0.6351, 'learning_rate': 1.5384615384615385e-07, 'epoch': 2.99}


  return dynamo.is_compiling()


{'loss': 0.5635, 'learning_rate': 1.1282051282051281e-07, 'epoch': 2.99}
{'loss': 0.6047, 'learning_rate': 7.179487179487181e-08, 'epoch': 3.0}
{'loss': 0.5908, 'learning_rate': 3.076923076923077e-08, 'epoch': 3.0}


  0%|          | 0/125 [00:00<?, ?it/s]

{'eval_loss': 0.7242664694786072, 'eval_accuracy': 0.7, 'eval_runtime': 9.0755, 'eval_samples_per_second': 110.186, 'eval_steps_per_second': 13.773, 'epoch': 3.0}
{'train_runtime': 48422.2171, 'train_samples_per_second': 40.271, 'train_steps_per_second': 2.517, 'train_loss': 0.7195786680563903, 'epoch': 3.0}


TrainOutput(global_step=121875, training_loss=0.7195786680563903, metrics={'train_runtime': 48422.2171, 'train_samples_per_second': 40.271, 'train_steps_per_second': 2.517, 'train_loss': 0.7195786680563903, 'epoch': 3.0})

In [8]:
small_test_dataset = tokenized_datasets["test"].shuffle(seed=64).select(range(100))
trainer.evaluate(small_test_dataset)

  return dynamo.is_compiling()


  0%|          | 0/13 [00:00<?, ?it/s]

{'eval_loss': 0.8781958222389221,
 'eval_accuracy': 0.61,
 'eval_runtime': 0.9969,
 'eval_samples_per_second': 100.312,
 'eval_steps_per_second': 13.041,
 'epoch': 3.0}

In [9]:
trainer.save_model(model_dir)
trainer.save_state()

In [10]:
trainer.evaluate(tokenized_datasets["test"])

  return dynamo.is_compiling()


  0%|          | 0/6250 [00:00<?, ?it/s]

{'eval_loss': 0.7412829399108887,
 'eval_accuracy': 0.69098,
 'eval_runtime': 442.0714,
 'eval_samples_per_second': 113.104,
 'eval_steps_per_second': 14.138,
 'epoch': 3.0}