In [1]:
import pandas as pd
from transformers import DistilBertTokenizerFast, DistilBertForSequenceClassification
from transformers import Trainer, TrainingArguments
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
import wandb
import torch
from sklearn.metrics import accuracy_score, f1_score
import ray
from ray import tune
import os

In [2]:
data = pd.read_csv("./dataset/NewsCategorizer.csv")
train_texts, test_texts, train_labels, test_labels = train_test_split(data['short_description'], data['category'], test_size=0.2, shuffle=True)
train_texts, eval_texts, train_labels, eval_labels = train_test_split(data['short_description'], data['category'], test_size=0.2, shuffle=True)

In [3]:
label_encoder = LabelEncoder()
train_labels_encoded = label_encoder.fit_transform(train_labels)
test_labels_encoded = label_encoder.transform(test_labels)
eval_labels_encoded = label_encoder.transform(eval_labels)

In [4]:
tokenizer = DistilBertTokenizerFast.from_pretrained('distilbert-base-uncased', cache_dir='./model')
model = DistilBertForSequenceClassification.from_pretrained('distilbert-base-uncased', num_labels=len(data['category'].unique()), cache_dir='./model')

Some weights of DistilBertForSequenceClassification were not initialized from the model checkpoint at distilbert-base-uncased and are newly initialized: ['classifier.bias', 'classifier.weight', 'pre_classifier.bias', 'pre_classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


In [5]:
train_encodings = tokenizer(train_texts.tolist(), truncation=True, padding=True)
test_encodings = tokenizer(test_texts.tolist(), truncation=True, padding=True)
eval_encodings = tokenizer(test_texts.tolist(), truncation=True, padding=True)

In [6]:
train_labels_tensor = torch.tensor(train_labels_encoded)
test_labels_tensor = torch.tensor(test_labels_encoded)
eval_labels_tensor = torch.tensor(eval_labels_encoded)

In [7]:
class NewsDataset(torch.utils.data.Dataset):
    def __init__(self, encodings, labels):
        self.encodings = encodings
        self.labels = labels

    def __getitem__(self, idx):
        item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}
        item['labels'] = self.labels[idx]
        return item

    def __len__(self):
        return len(self.labels)

In [8]:
train_dataset = NewsDataset(train_encodings, train_labels_tensor)
test_dataset = NewsDataset(test_encodings, test_labels_tensor)
eval_dataset = NewsDataset(eval_encodings, eval_labels_tensor)

In [9]:
def compute_metrics(eval_pred):
    predictions, labels = eval_pred
    # Get the predicted class by using argmax (for multi-class classification)
    preds = np.argmax(predictions, axis=1)
    
    # Calculate accuracy and F1 score
    accuracy = accuracy_score(labels, preds)
    f1 = f1_score(labels, preds, average="macro")  # Use 'micro', 'macro', or 'weighted' based on the task

    return {
        'accuracy': accuracy,
        'f1': f1,
    }

In [10]:
# def get_training_args(learning_rate, batch_size, warmup_steps):
#     return TrainingArguments(
#         output_dir='./autodl-tmp/results',
#         num_train_epochs=1,
#         per_device_train_batch_size=batch_size,  # Hyperparameter
#         per_device_eval_batch_size=batch_size,   # Hyperparameter
#         warmup_steps=warmup_steps,               # Hyperparameter
#         weight_decay=0.01,
#         logging_dir='./autodl-tmp/logs',
#         logging_steps=10,
#         run_name="cla_epoch_1",
#         save_total_limit=3,
#         eval_strategy="epoch",
#     )

In [11]:
from ray.air import session

In [12]:
def train_fn(config, model, train_dataset, eval_dataset):

    try:
        trial_dir = session.get_trial_dir()  # ‰æãÂ¶ÇÔºö~/ray_results/test/trial_xxx/
        output_dir = os.path.join(trial_dir, "results")
    except Exception as e:
        print(f"Ë∑ØÂæÑÈîôËØØ: {str(e)}")
        raise
    
    # Update training arguments with the hyperparameters from Ray Tune
    training_args = TrainingArguments(
        run_name = "id_1_epoch_2",
        output_dir=output_dir,
        num_train_epochs=2,  
        
        per_device_train_batch_size=config["batch_size"],  # Hyperparameter from Ray Tune
        per_device_eval_batch_size=config["batch_size"],   # Hyperparameter from Ray Tune
        # warmup_steps=config["warmup_steps"],               # Hyperparameter from Ray Tune
        warmup_steps=500,
        learning_rate=config["learning_rate"],              # Hyperparameter from Ray Tune
        
        weight_decay=0.01,
        logging_dir=os.path.join(trial_dir, "logs"),  
        logging_steps=500,
        eval_strategy="epoch",
        save_strategy="epoch",
        save_total_limit=1,
        metric_for_best_model="eval_accuracy",
    )

    
    # Initialize the Trainer
    trainer = Trainer(
        model=model, 
        args=training_args, 
        train_dataset=train_dataset, 
        eval_dataset=eval_dataset, 
        compute_metrics=compute_metrics,
    )
    try:
        # Train the model
        trainer.train()
    except Exception as e:
        print(f"ËÆ≠ÁªÉÂ§±Ë¥•: {str(e)}")
        raise

    try:
    # Evaluate the model
        eval_results = trainer.evaluate()
    except Exception as e:
        print(f"ËØÑ‰º∞Â§±Ë¥•: {str(e)}")
        raise

    try:
    # Return the evaluation results to Ray Tune
        tune.report(metrics=eval_results)
        trainer.save_model(output_dir)
        tune.report(
            metrics=eval_results,
            checkpoint=tune.Checkpoint.from_directory(output_dir)  # Â∞ÜÊ®°ÂûãÁõÆÂΩï‰Ωú‰∏∫Ê£ÄÊü•ÁÇπ
        )
    except Exception as e:
        print(f"Êä•ÂëäÈîôËØØ: {str(e)}")
        raise


In [13]:
search_space = {
    "learning_rate": tune.grid_search([1e-5, 2e-5]),
    "batch_size": tune.choice([8, 16]),
    # "warmup_steps": tune.choice([500, 1000, 2000]),
}

In [14]:
wandb.init(project="Mlops-classification", entity="yunchiz-new-york-university")

[34m[1mwandb[0m: Using wandb-core as the SDK backend.  Please refer to https://wandb.me/wandb-core for more information.
[34m[1mwandb[0m: Currently logged in as: [33myunchiz[0m ([33myunchiz-new-york-university[0m) to [32mhttps://api.wandb.ai[0m. Use [1m`wandb login --relogin`[0m to force relogin


In [15]:
current_dir = os.getcwd()
storage_path = f"file://{current_dir}/ray_results"

train_fn_with_params = tune.with_parameters(train_fn, model=model, train_dataset=train_dataset, eval_dataset=eval_dataset)
ray.init(ignore_reinit_error=True)  # Initialize Ray
analysis = tune.run(
    train_fn_with_params,  # The training function that Ray Tune will use
    config=search_space,  # The search space of hyperparameters
    # resources_per_trial={"cpu": 1, "gpu": 1},
    resources_per_trial={"cpu": 0, "gpu": 1},
    num_samples=2,  # Number of trials (hyperparameter combinations)
    verbose=1,  # Verbosity level of Ray Tune
    storage_path=storage_path,
    name="id_1_epoch_2",
)


0,1
Current time:,2025-04-15 02:59:31
Running for:,00:41:36.03
Memory:,76.4/629.9 GiB

Trial name,status,loc,batch_size,learning_rate,iter,total time (s),eval_loss,eval_accuracy,eval_f1
train_fn_c91b5_00000,TERMINATED,172.17.0.2:2241,16,1e-05,2,555.331,4.40342,0.1,0.0999381
train_fn_c91b5_00001,TERMINATED,172.17.0.2:2663,8,2e-05,2,625.94,5.5615,0.0989,0.0988896
train_fn_c91b5_00002,TERMINATED,172.17.0.2:3017,8,1e-05,2,628.239,4.88645,0.0995,0.0994209
train_fn_c91b5_00003,TERMINATED,172.17.0.2:3366,8,2e-05,2,629.715,5.56014,0.0988,0.098788


[36m(train_fn pid=2241)[0m wandb: Currently logged in as: yunchiz (yunchiz-new-york-university) to https://api.wandb.ai. Use `wandb login --relogin` to force relogin
[36m(train_fn pid=2241)[0m wandb: Tracking run with wandb version 0.19.9
[36m(train_fn pid=2241)[0m wandb: Run data is saved locally in /tmp/ray/session_2025-04-15_02-17-47_690880_1125/artifacts/2025-04-15_02-17-55/id_1_epoch_2/working_dirs/train_fn_c91b5_00000_0_batch_size=16,learning_rate=0.0000_2025-04-15_02-17-55/wandb/run-20250415_021809-h3bq80dx
[36m(train_fn pid=2241)[0m wandb: Run `wandb offline` to turn off syncing.
[36m(train_fn pid=2241)[0m wandb: Syncing run id_1_epoch_2
[36m(train_fn pid=2241)[0m wandb: ‚≠êÔ∏è View project at https://wandb.ai/yunchiz-new-york-university/huggingface
[36m(train_fn pid=2241)[0m wandb: üöÄ View run at https://wandb.ai/yunchiz-new-york-university/huggingface/runs/h3bq80dx
  0%|          | 0/5000 [00:00<?, ?it/s]
  0%|          | 1/5000 [00:00<52:20,  1.59it/s]
  0%| 

[36m(train_fn pid=2241)[0m {'loss': 1.9581, 'grad_norm': 8.756377220153809, 'learning_rate': 9.980000000000001e-06, 'epoch': 0.2}


 10%|‚ñà         | 500/5000 [00:49<07:22, 10.18it/s]
 10%|‚ñà         | 502/5000 [00:49<07:29, 10.00it/s]
 10%|‚ñà         | 504/5000 [00:49<07:27, 10.05it/s]
 10%|‚ñà         | 506/5000 [00:49<07:25, 10.08it/s]
 10%|‚ñà         | 508/5000 [00:50<07:23, 10.13it/s]
 10%|‚ñà         | 510/5000 [00:50<07:21, 10.17it/s]
 10%|‚ñà         | 512/5000 [00:50<07:21, 10.17it/s]
 10%|‚ñà         | 514/5000 [00:50<07:21, 10.17it/s]
 10%|‚ñà         | 516/5000 [00:50<07:20, 10.17it/s]
 10%|‚ñà         | 518/5000 [00:51<07:20, 10.19it/s]
 10%|‚ñà         | 520/5000 [00:51<07:19, 10.19it/s]
 10%|‚ñà         | 522/5000 [00:51<07:20, 10.15it/s]
 10%|‚ñà         | 524/5000 [00:51<07:20, 10.17it/s]
 11%|‚ñà         | 526/5000 [00:51<07:19, 10.18it/s]
 11%|‚ñà         | 528/5000 [00:52<07:19, 10.18it/s]
 11%|‚ñà         | 530/5000 [00:52<07:21, 10.13it/s]
 11%|‚ñà         | 532/5000 [00:52<07:22, 10.09it/s]
 11%|‚ñà         | 534/5000 [00:52<07:22, 10.10it/s]
 11%|‚ñà         | 536/5000 [00:52<07:21, 10.1

[36m(train_fn pid=2241)[0m {'loss': 1.0736, 'grad_norm': 6.7667694091796875, 'learning_rate': 8.891111111111111e-06, 'epoch': 0.4}


 20%|‚ñà‚ñà        | 1000/5000 [01:38<06:32, 10.20it/s]
 20%|‚ñà‚ñà        | 1002/5000 [01:38<06:33, 10.15it/s]
 20%|‚ñà‚ñà        | 1004/5000 [01:38<06:33, 10.16it/s]
 20%|‚ñà‚ñà        | 1006/5000 [01:39<06:33, 10.15it/s]
 20%|‚ñà‚ñà        | 1008/5000 [01:39<06:32, 10.17it/s]
 20%|‚ñà‚ñà        | 1010/5000 [01:39<06:31, 10.18it/s]
 20%|‚ñà‚ñà        | 1012/5000 [01:39<06:31, 10.19it/s]
 20%|‚ñà‚ñà        | 1014/5000 [01:39<06:31, 10.19it/s]
 20%|‚ñà‚ñà        | 1016/5000 [01:40<06:31, 10.18it/s]
 20%|‚ñà‚ñà        | 1018/5000 [01:40<06:31, 10.18it/s]
 20%|‚ñà‚ñà        | 1020/5000 [01:40<06:30, 10.19it/s]
 20%|‚ñà‚ñà        | 1022/5000 [01:40<06:30, 10.18it/s]
 20%|‚ñà‚ñà        | 1024/5000 [01:40<06:30, 10.18it/s]
 21%|‚ñà‚ñà        | 1026/5000 [01:40<06:31, 10.16it/s]
 21%|‚ñà‚ñà        | 1028/5000 [01:41<06:30, 10.18it/s]
 21%|‚ñà‚ñà        | 1030/5000 [01:41<06:30, 10.17it/s]
 21%|‚ñà‚ñà        | 1032/5000 [01:41<06:30, 10.17it/s]
 21%|‚ñà‚ñà        | 1034/5000 [01:41<06:29, 10.

[36m(train_fn pid=2241)[0m {'loss': 0.9511, 'grad_norm': 12.38271713256836, 'learning_rate': 7.78e-06, 'epoch': 0.6}


 30%|‚ñà‚ñà‚ñà       | 1500/5000 [02:27<05:44, 10.15it/s]
 30%|‚ñà‚ñà‚ñà       | 1502/5000 [02:27<05:44, 10.15it/s]
 30%|‚ñà‚ñà‚ñà       | 1504/5000 [02:28<05:43, 10.17it/s]
 30%|‚ñà‚ñà‚ñà       | 1506/5000 [02:28<05:42, 10.19it/s]
 30%|‚ñà‚ñà‚ñà       | 1508/5000 [02:28<05:42, 10.20it/s]
 30%|‚ñà‚ñà‚ñà       | 1510/5000 [02:28<05:42, 10.19it/s]
 30%|‚ñà‚ñà‚ñà       | 1512/5000 [02:28<05:42, 10.20it/s]
 30%|‚ñà‚ñà‚ñà       | 1514/5000 [02:29<05:42, 10.19it/s]
 30%|‚ñà‚ñà‚ñà       | 1516/5000 [02:29<05:41, 10.19it/s]
 30%|‚ñà‚ñà‚ñà       | 1518/5000 [02:29<05:43, 10.14it/s]
 30%|‚ñà‚ñà‚ñà       | 1520/5000 [02:29<05:43, 10.14it/s]
 30%|‚ñà‚ñà‚ñà       | 1522/5000 [02:29<05:43, 10.13it/s]
 30%|‚ñà‚ñà‚ñà       | 1524/5000 [02:30<05:43, 10.11it/s]
 31%|‚ñà‚ñà‚ñà       | 1526/5000 [02:30<05:43, 10.12it/s]
 31%|‚ñà‚ñà‚ñà       | 1528/5000 [02:30<05:42, 10.14it/s]
 31%|‚ñà‚ñà‚ñà       | 1530/5000 [02:30<05:42, 10.13it/s]
 31%|‚ñà‚ñà‚ñà       | 1532/5000 [02:30<05:42, 10.12it/s]
 31%|‚ñà‚ñà‚ñà

[36m(train_fn pid=2241)[0m {'loss': 0.8759, 'grad_norm': 4.223433017730713, 'learning_rate': 6.668888888888889e-06, 'epoch': 0.8}


 40%|‚ñà‚ñà‚ñà‚ñà      | 2000/5000 [03:17<04:56, 10.13it/s]
 40%|‚ñà‚ñà‚ñà‚ñà      | 2002/5000 [03:17<04:56, 10.11it/s]
 40%|‚ñà‚ñà‚ñà‚ñà      | 2004/5000 [03:17<04:55, 10.13it/s]
 40%|‚ñà‚ñà‚ñà‚ñà      | 2006/5000 [03:17<04:54, 10.16it/s]
 40%|‚ñà‚ñà‚ñà‚ñà      | 2008/5000 [03:17<04:54, 10.17it/s]
 40%|‚ñà‚ñà‚ñà‚ñà      | 2010/5000 [03:17<04:53, 10.17it/s]
 40%|‚ñà‚ñà‚ñà‚ñà      | 2012/5000 [03:18<04:53, 10.17it/s]
 40%|‚ñà‚ñà‚ñà‚ñà      | 2014/5000 [03:18<04:53, 10.17it/s]
 40%|‚ñà‚ñà‚ñà‚ñà      | 2016/5000 [03:18<04:53, 10.18it/s]
 40%|‚ñà‚ñà‚ñà‚ñà      | 2018/5000 [03:18<04:53, 10.17it/s]
 40%|‚ñà‚ñà‚ñà‚ñà      | 2020/5000 [03:18<04:52, 10.18it/s]
 40%|‚ñà‚ñà‚ñà‚ñà      | 2022/5000 [03:19<04:52, 10.17it/s]
 40%|‚ñà‚ñà‚ñà‚ñà      | 2024/5000 [03:19<04:52, 10.17it/s]
 41%|‚ñà‚ñà‚ñà‚ñà      | 2026/5000 [03:19<04:52, 10.18it/s]
 41%|‚ñà‚ñà‚ñà‚ñà      | 2028/5000 [03:19<04:51, 10.19it/s]
 41%|‚ñà‚ñà‚ñà‚ñà      | 2030/5000 [03:19<04:52, 10.15it/s]
 41%|‚ñà‚ñà‚ñà‚ñà      | 2032/5000 [03:2

[36m(train_fn pid=2241)[0m {'loss': 0.8536, 'grad_norm': 8.943412780761719, 'learning_rate': 5.557777777777778e-06, 'epoch': 1.0}


 50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 2500/5000 [04:06<04:07, 10.11it/s]
  0%|          | 0/625 [00:00<?, ?it/s][A
[36m(train_fn pid=2241)[0m 
  1%|          | 5/625 [00:00<00:13, 46.61it/s][A
[36m(train_fn pid=2241)[0m 
  2%|‚ñè         | 10/625 [00:00<00:15, 40.64it/s][A
[36m(train_fn pid=2241)[0m 
  2%|‚ñè         | 15/625 [00:00<00:15, 38.80it/s][A
[36m(train_fn pid=2241)[0m 
  3%|‚ñé         | 19/625 [00:00<00:15, 38.14it/s][A
[36m(train_fn pid=2241)[0m 
  4%|‚ñé         | 23/625 [00:00<00:15, 37.88it/s][A
[36m(train_fn pid=2241)[0m 
  4%|‚ñç         | 27/625 [00:00<00:15, 37.70it/s][A
[36m(train_fn pid=2241)[0m 
  5%|‚ñç         | 31/625 [00:00<00:15, 37.66it/s][A
[36m(train_fn pid=2241)[0m 
  6%|‚ñå         | 35/625 [00:00<00:15, 37.51it/s][A
[36m(train_fn pid=2241)[0m 
  6%|‚ñå         | 39/625 [00:01<00:15, 37.43it/s][A
[36m(train_fn pid=2241)[0m 
  7%|‚ñã         | 43/625 [00:01<00:15, 37.34it/s][A
[36m(train_fn pid=2241)[0m 
  8%|‚ñä         | 47/625 [0

[36m(train_fn pid=2241)[0m {'eval_loss': 4.019229888916016, 'eval_accuracy': 0.1003, 'eval_f1': 0.10016466394059827, 'eval_runtime': 16.7607, 'eval_samples_per_second': 596.634, 'eval_steps_per_second': 37.29, 'epoch': 1.0}


 50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 2501/5000 [04:24<2:15:58,  3.26s/it]
 50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 2503/5000 [04:24<1:31:40,  2.20s/it]
 50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 2505/5000 [04:24<1:03:15,  1.52s/it]
 50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 2507/5000 [04:24<44:30,  1.07s/it]  
 50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 2509/5000 [04:25<31:55,  1.30it/s]
 50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 2511/5000 [04:25<23:19,  1.78it/s]
 50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 2513/5000 [04:25<17:26,  2.38it/s]
 50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 2515/5000 [04:25<13:21,  3.10it/s]
 50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 2517/5000 [04:25<10:32,  3.92it/s]
 50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 2519/5000 [04:25<08:34,  4.82it/s]
 50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 2521/5000 [04:26<07:12,  5.73it/s]
 50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 2523/5000 [04:26<06:15,  6.60it/s]
 50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 2525/5000 [04:26<05:35,  7.38it/s]
 51%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 2527/5000 [04:26<05:07,  8.04it/s]
 51%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 2529/5000 [04:26<04:47,  8.59it/s]
 51%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 2531/5000 [04:27<04:34,  8.98it/s]


[36m(train_fn pid=2241)[0m {'loss': 0.7371, 'grad_norm': 10.617365837097168, 'learning_rate': 4.446666666666667e-06, 'epoch': 1.2}


 60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 3000/5000 [05:13<03:16, 10.16it/s]
 60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 3001/5000 [05:13<03:17, 10.11it/s]
 60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 3003/5000 [05:13<03:16, 10.14it/s]
 60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 3005/5000 [05:13<03:16, 10.15it/s]
 60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 3007/5000 [05:14<03:16, 10.16it/s]
 60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 3009/5000 [05:14<03:16, 10.16it/s]
 60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 3011/5000 [05:14<03:15, 10.16it/s]
 60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 3013/5000 [05:14<03:15, 10.15it/s]
 60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 3015/5000 [05:14<03:15, 10.15it/s]
 60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 3017/5000 [05:15<03:15, 10.15it/s]
 60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 3019/5000 [05:15<03:14, 10.16it/s]
 60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 3021/5000 [05:15<03:14, 10.18it/s]
 60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 3023/5000 [05:15<03:14, 10.18it/s]
 60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 3025/5000 [05:15<03:14, 10.17it/s]
 61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 3027/5000 [05:16<03:14, 10.17it/s]
 61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 3029/5000 [

[36m(train_fn pid=2241)[0m {'loss': 0.718, 'grad_norm': 13.040584564208984, 'learning_rate': 3.335555555555556e-06, 'epoch': 1.4}


 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 3499/5000 [06:02<02:27, 10.18it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 3500/5000 [06:02<02:27, 10.18it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 3501/5000 [06:02<02:27, 10.14it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 3503/5000 [06:03<02:27, 10.15it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 3505/5000 [06:03<02:27, 10.15it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 3507/5000 [06:03<02:27, 10.15it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 3509/5000 [06:03<02:26, 10.15it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 3511/5000 [06:03<02:26, 10.15it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 3513/5000 [06:04<02:26, 10.15it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 3515/5000 [06:04<02:26, 10.16it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 3517/5000 [06:04<02:25, 10.17it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 3519/5000 [06:04<02:25, 10.17it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 3521/5000 [06:04<02:25, 10.15it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 3523/5000 [06:05<02:25, 10.15it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 3525/5000 [06:05<02:25, 10.15it/s]
 71%|‚ñà‚ñ

[36m(train_fn pid=2241)[0m {'loss': 0.7224, 'grad_norm': 11.033957481384277, 'learning_rate': 2.2244444444444447e-06, 'epoch': 1.6}


 80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 4000/5000 [06:52<01:38, 10.15it/s]
 80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 4002/5000 [06:52<01:38, 10.11it/s]
 80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 4004/5000 [06:52<01:38, 10.13it/s]
 80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 4006/5000 [06:52<01:37, 10.15it/s]
 80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 4008/5000 [06:52<01:37, 10.14it/s]
 80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 4010/5000 [06:53<01:37, 10.14it/s]
 80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 4012/5000 [06:53<01:37, 10.14it/s]
 80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 4014/5000 [06:53<01:37, 10.14it/s]
 80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 4016/5000 [06:53<01:36, 10.16it/s]
 80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 4018/5000 [06:53<01:36, 10.16it/s]
 80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 4020/5000 [06:54<01:36, 10.17it/s]
 80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 4022/5000 [06:54<01:36, 10.17it/s]
 80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 4024/5000 [06:54<01:36, 10.15it/s]
 81%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 4026/5000 [06:54<01:35, 10.16it/s]
 81%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 4028/5000 [06:5

[36m(train_fn pid=2241)[0m {'loss': 0.7075, 'grad_norm': 6.396419525146484, 'learning_rate': 1.1133333333333334e-06, 'epoch': 1.8}


 90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 4500/5000 [07:41<00:49, 10.16it/s]
 90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 4502/5000 [07:41<00:49, 10.13it/s]
 90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 4504/5000 [07:41<00:48, 10.15it/s]
 90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 4506/5000 [07:42<00:48, 10.18it/s]
 90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 4508/5000 [07:42<00:48, 10.18it/s]
 90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 4510/5000 [07:42<00:48, 10.17it/s]
 90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 4512/5000 [07:42<00:48, 10.16it/s]
 90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 4514/5000 [07:42<00:47, 10.18it/s]
 90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 4516/5000 [07:43<00:47, 10.18it/s]
 90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 4518/5000 [07:43<00:47, 10.20it/s]
 90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 4520/5000 [07:43<00:47, 10.20it/s]
 90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 4522/5000 [07:43<00:46, 10.20it/s]
 90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 4524/5000 [07:43<00:46, 10.18it/s]
 91%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 4526/5000 [07:43<00:46, 10.19it/s]
 91%|‚ñà‚ñà‚ñà‚ñà‚ñà

[36m(train_fn pid=2241)[0m {'loss': 0.7077, 'grad_norm': 11.13112735748291, 'learning_rate': 2.2222222222222225e-09, 'epoch': 2.0}


[36m(train_fn pid=2241)[0m 
  0%|          | 0/625 [00:00<?, ?it/s][A
[36m(train_fn pid=2241)[0m 
  1%|          | 5/625 [00:00<00:13, 46.76it/s][A
[36m(train_fn pid=2241)[0m 
  2%|‚ñè         | 10/625 [00:00<00:15, 40.81it/s][A
[36m(train_fn pid=2241)[0m 
  2%|‚ñè         | 15/625 [00:00<00:15, 39.15it/s][A
[36m(train_fn pid=2241)[0m 
  3%|‚ñé         | 19/625 [00:00<00:15, 38.35it/s][A
[36m(train_fn pid=2241)[0m 
  4%|‚ñé         | 23/625 [00:00<00:15, 37.94it/s][A
[36m(train_fn pid=2241)[0m 
  4%|‚ñç         | 27/625 [00:00<00:15, 37.82it/s][A
[36m(train_fn pid=2241)[0m 
  5%|‚ñç         | 31/625 [00:00<00:15, 37.72it/s][A
[36m(train_fn pid=2241)[0m 
  6%|‚ñå         | 35/625 [00:00<00:15, 37.54it/s][A
[36m(train_fn pid=2241)[0m 
  6%|‚ñå         | 39/625 [00:01<00:15, 37.51it/s][A
[36m(train_fn pid=2241)[0m 
  7%|‚ñã         | 43/625 [00:01<00:15, 37.49it/s][A
[36m(train_fn pid=2241)[0m 
  8%|‚ñä         | 47/625 [00:01<00:15, 37.43it/s][A
[36m(

[36m(train_fn pid=2241)[0m {'eval_loss': 4.403422832489014, 'eval_accuracy': 0.1, 'eval_f1': 0.09993812803298482, 'eval_runtime': 16.7715, 'eval_samples_per_second': 596.248, 'eval_steps_per_second': 37.266, 'epoch': 2.0}


                                                   
100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 5000/5000 [08:47<00:00, 10.12it/s]
100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 625/625 [00:16<00:00, 37.27it/s][A
                                                 [A


[36m(train_fn pid=2241)[0m {'train_runtime': 530.1528, 'train_samples_per_second': 150.9, 'train_steps_per_second': 9.431, 'train_loss': 0.9304872985839844, 'epoch': 2.0}


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 5000/5000 [08:48<00:00, 10.12it/s]
100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 5000/5000 [08:48<00:00,  9.45it/s]
  0%|          | 0/625 [00:00<?, ?it/s]
  1%|          | 5/625 [00:00<00:13, 47.35it/s]
  2%|‚ñè         | 10/625 [00:00<00:14, 41.20it/s]
  2%|‚ñè         | 15/625 [00:00<00:15, 39.42it/s]
  3%|‚ñé         | 19/625 [00:00<00:15, 38.26it/s]
  4%|‚ñé         | 23/625 [00:00<00:15, 37.64it/s]
  4%|‚ñç         | 27/625 [00:00<00:15, 37.43it/s]
  5%|‚ñç         | 31/625 [00:00<00:15, 37.48it/s]
  6%|‚ñå         | 35/625 [00:00<00:15, 37.40it/s]
  6%|‚ñå         | 39/625 [00:01<00:15, 37.29it/s]
  7%|‚ñã         | 43/625 [00:01<00:15, 37.28it/s]
  8%|‚ñä         | 47/625 [00:01<00:15, 37.37it/s]
  8%|‚ñä         | 51/625 [00:01<00:15, 37.40it/s]
  9%|‚ñâ         | 55/625 [00:01<00:15, 37.40it/s]
  9%|‚ñâ         | 59/625 [00:01<00:15, 37.34it/s]
 10%|‚ñà         | 63/625 [00:01<00:15, 37.40it/s]
 11%|‚ñà         | 67/625 [00:01<00:14, 37.31it/s]
 11

[36m(train_fn pid=2663)[0m {'loss': 1.8435, 'grad_norm': 8.142973899841309, 'learning_rate': 1.9960000000000002e-05, 'epoch': 0.1}


  5%|‚ñå         | 503/10000 [00:28<09:01, 17.54it/s]
  5%|‚ñå         | 505/10000 [00:28<08:55, 17.74it/s]
  5%|‚ñå         | 507/10000 [00:28<08:50, 17.91it/s]
  5%|‚ñå         | 509/10000 [00:28<08:49, 17.94it/s]
  5%|‚ñå         | 511/10000 [00:28<08:46, 18.02it/s]
  5%|‚ñå         | 513/10000 [00:28<08:44, 18.10it/s]
  5%|‚ñå         | 515/10000 [00:29<08:43, 18.11it/s]
  5%|‚ñå         | 517/10000 [00:29<08:40, 18.21it/s]
  5%|‚ñå         | 519/10000 [00:29<08:41, 18.17it/s]
  5%|‚ñå         | 521/10000 [00:29<08:45, 18.04it/s]
  5%|‚ñå         | 523/10000 [00:29<08:42, 18.12it/s]
  5%|‚ñå         | 525/10000 [00:29<08:42, 18.14it/s]
  5%|‚ñå         | 527/10000 [00:29<08:40, 18.18it/s]
  5%|‚ñå         | 529/10000 [00:29<08:40, 18.19it/s]
  5%|‚ñå         | 531/10000 [00:29<08:38, 18.27it/s]
  5%|‚ñå         | 533/10000 [00:30<08:38, 18.25it/s]
  5%|‚ñå         | 535/10000 [00:30<08:37, 18.28it/s]
  5%|‚ñå         | 537/10000 [00:30<08:39, 18.21it/s]
  5%|‚ñå         | 539/10000

[36m(train_fn pid=2663)[0m {'loss': 1.0333, 'grad_norm': 12.674107551574707, 'learning_rate': 1.894947368421053e-05, 'epoch': 0.2}


 10%|‚ñà         | 1001/10000 [00:55<08:18, 18.04it/s]
 10%|‚ñà         | 1003/10000 [00:55<08:16, 18.12it/s]
 10%|‚ñà         | 1005/10000 [00:55<08:17, 18.09it/s]
 10%|‚ñà         | 1007/10000 [00:56<08:16, 18.13it/s]
 10%|‚ñà         | 1009/10000 [00:56<08:15, 18.15it/s]
 10%|‚ñà         | 1011/10000 [00:56<08:13, 18.21it/s]
 10%|‚ñà         | 1013/10000 [00:56<08:13, 18.20it/s]
 10%|‚ñà         | 1015/10000 [00:56<08:13, 18.20it/s]
 10%|‚ñà         | 1017/10000 [00:56<08:12, 18.23it/s]
 10%|‚ñà         | 1019/10000 [00:56<08:15, 18.12it/s]
 10%|‚ñà         | 1021/10000 [00:56<08:24, 17.81it/s]
 10%|‚ñà         | 1023/10000 [00:56<08:25, 17.74it/s]
 10%|‚ñà         | 1025/10000 [00:57<08:26, 17.72it/s]
 10%|‚ñà         | 1027/10000 [00:57<08:23, 17.80it/s]
 10%|‚ñà         | 1029/10000 [00:57<08:20, 17.91it/s]
 10%|‚ñà         | 1031/10000 [00:57<08:21, 17.89it/s]
 10%|‚ñà         | 1033/10000 [00:57<08:20, 17.92it/s]
 10%|‚ñà         | 1035/10000 [00:57<08:18, 18.00it/s]
 10%|‚ñà  

[36m(train_fn pid=2663)[0m {'loss': 0.9252, 'grad_norm': 14.229909896850586, 'learning_rate': 1.789684210526316e-05, 'epoch': 0.3}


 15%|‚ñà‚ñå        | 1500/10000 [01:23<07:48, 18.14it/s]
 15%|‚ñà‚ñå        | 1501/10000 [01:23<07:52, 18.00it/s]
 15%|‚ñà‚ñå        | 1503/10000 [01:23<07:49, 18.08it/s]
 15%|‚ñà‚ñå        | 1505/10000 [01:23<07:49, 18.11it/s]
 15%|‚ñà‚ñå        | 1507/10000 [01:23<07:50, 18.04it/s]
 15%|‚ñà‚ñå        | 1509/10000 [01:23<07:49, 18.07it/s]
 15%|‚ñà‚ñå        | 1511/10000 [01:23<07:49, 18.09it/s]
 15%|‚ñà‚ñå        | 1513/10000 [01:24<07:48, 18.13it/s]
 15%|‚ñà‚ñå        | 1515/10000 [01:24<07:47, 18.16it/s]
 15%|‚ñà‚ñå        | 1517/10000 [01:24<07:47, 18.15it/s]
 15%|‚ñà‚ñå        | 1519/10000 [01:24<07:48, 18.11it/s]
 15%|‚ñà‚ñå        | 1521/10000 [01:24<07:46, 18.16it/s]
 15%|‚ñà‚ñå        | 1523/10000 [01:24<07:49, 18.07it/s]
 15%|‚ñà‚ñå        | 1525/10000 [01:24<07:47, 18.14it/s]
 15%|‚ñà‚ñå        | 1527/10000 [01:24<07:46, 18.17it/s]
 15%|‚ñà‚ñå        | 1529/10000 [01:24<07:46, 18.16it/s]
 15%|‚ñà‚ñå        | 1531/10000 [01:25<07:45, 18.20it/s]
 15%|‚ñà‚ñå        | 1533/10000

[36m(train_fn pid=2663)[0m {'loss': 0.8881, 'grad_norm': 15.654630661010742, 'learning_rate': 1.684421052631579e-05, 'epoch': 0.4}


 20%|‚ñà‚ñà        | 2003/10000 [01:51<07:23, 18.02it/s]
 20%|‚ñà‚ñà        | 2005/10000 [01:51<07:24, 18.00it/s]
 20%|‚ñà‚ñà        | 2007/10000 [01:51<07:22, 18.06it/s]
 20%|‚ñà‚ñà        | 2009/10000 [01:51<07:22, 18.06it/s]
 20%|‚ñà‚ñà        | 2011/10000 [01:51<07:23, 18.00it/s]
 20%|‚ñà‚ñà        | 2013/10000 [01:51<07:21, 18.07it/s]
 20%|‚ñà‚ñà        | 2015/10000 [01:52<07:20, 18.11it/s]
 20%|‚ñà‚ñà        | 2017/10000 [01:52<07:19, 18.17it/s]
 20%|‚ñà‚ñà        | 2019/10000 [01:52<07:19, 18.15it/s]
 20%|‚ñà‚ñà        | 2021/10000 [01:52<07:19, 18.17it/s]
 20%|‚ñà‚ñà        | 2023/10000 [01:52<07:19, 18.16it/s]
 20%|‚ñà‚ñà        | 2025/10000 [01:52<07:19, 18.16it/s]
 20%|‚ñà‚ñà        | 2027/10000 [01:52<07:18, 18.18it/s]
 20%|‚ñà‚ñà        | 2029/10000 [01:52<07:18, 18.16it/s]
 20%|‚ñà‚ñà        | 2031/10000 [01:52<07:20, 18.10it/s]
 20%|‚ñà‚ñà        | 2033/10000 [01:52<07:20, 18.10it/s]
 20%|‚ñà‚ñà        | 2035/10000 [01:53<07:20, 18.08it/s]
 20%|‚ñà‚ñà        | 2037/10000

[36m(train_fn pid=2663)[0m {'loss': 0.8913, 'grad_norm': 6.04067850112915, 'learning_rate': 1.579157894736842e-05, 'epoch': 0.5}


 25%|‚ñà‚ñà‚ñå       | 2501/10000 [02:18<07:03, 17.71it/s]
 25%|‚ñà‚ñà‚ñå       | 2503/10000 [02:19<07:00, 17.82it/s]
 25%|‚ñà‚ñà‚ñå       | 2505/10000 [02:19<06:58, 17.92it/s]
 25%|‚ñà‚ñà‚ñå       | 2507/10000 [02:19<06:57, 17.93it/s]
 25%|‚ñà‚ñà‚ñå       | 2509/10000 [02:19<06:58, 17.90it/s]
 25%|‚ñà‚ñà‚ñå       | 2511/10000 [02:19<06:56, 17.97it/s]
 25%|‚ñà‚ñà‚ñå       | 2513/10000 [02:19<06:56, 17.99it/s]
 25%|‚ñà‚ñà‚ñå       | 2515/10000 [02:19<06:55, 17.99it/s]
 25%|‚ñà‚ñà‚ñå       | 2517/10000 [02:19<06:55, 18.00it/s]
 25%|‚ñà‚ñà‚ñå       | 2519/10000 [02:19<06:55, 18.03it/s]
 25%|‚ñà‚ñà‚ñå       | 2521/10000 [02:20<06:54, 18.04it/s]
 25%|‚ñà‚ñà‚ñå       | 2523/10000 [02:20<06:54, 18.03it/s]
 25%|‚ñà‚ñà‚ñå       | 2525/10000 [02:20<06:54, 18.05it/s]
 25%|‚ñà‚ñà‚ñå       | 2527/10000 [02:20<06:53, 18.08it/s]
 25%|‚ñà‚ñà‚ñå       | 2529/10000 [02:20<06:51, 18.14it/s]
 25%|‚ñà‚ñà‚ñå       | 2531/10000 [02:20<06:50, 18.17it/s]
 25%|‚ñà‚ñà‚ñå       | 2533/10000 [02:20<06:50, 18.19it/

[36m(train_fn pid=2663)[0m {'loss': 0.8796, 'grad_norm': 11.046977996826172, 'learning_rate': 1.4738947368421055e-05, 'epoch': 0.6}


 30%|‚ñà‚ñà‚ñà       | 3001/10000 [02:46<06:29, 17.95it/s]
 30%|‚ñà‚ñà‚ñà       | 3003/10000 [02:46<06:27, 18.03it/s]
 30%|‚ñà‚ñà‚ñà       | 3005/10000 [02:46<06:26, 18.09it/s]
 30%|‚ñà‚ñà‚ñà       | 3007/10000 [02:46<06:27, 18.06it/s]
 30%|‚ñà‚ñà‚ñà       | 3009/10000 [02:47<06:25, 18.11it/s]
 30%|‚ñà‚ñà‚ñà       | 3011/10000 [02:47<06:27, 18.05it/s]
 30%|‚ñà‚ñà‚ñà       | 3013/10000 [02:47<06:27, 18.05it/s]
 30%|‚ñà‚ñà‚ñà       | 3015/10000 [02:47<06:26, 18.06it/s]
 30%|‚ñà‚ñà‚ñà       | 3017/10000 [02:47<06:26, 18.05it/s]
 30%|‚ñà‚ñà‚ñà       | 3019/10000 [02:47<06:28, 17.95it/s]
 30%|‚ñà‚ñà‚ñà       | 3021/10000 [02:47<06:26, 18.04it/s]
 30%|‚ñà‚ñà‚ñà       | 3023/10000 [02:47<06:29, 17.91it/s]
 30%|‚ñà‚ñà‚ñà       | 3025/10000 [02:47<06:29, 17.90it/s]
 30%|‚ñà‚ñà‚ñà       | 3027/10000 [02:48<06:31, 17.83it/s]
 30%|‚ñà‚ñà‚ñà       | 3029/10000 [02:48<06:29, 17.91it/s]
 30%|‚ñà‚ñà‚ñà       | 3031/10000 [02:48<06:29, 17.89it/s]
 30%|‚ñà‚ñà‚ñà       | 3033/10000 [02:48<06:27, 17.96it/

[36m(train_fn pid=2663)[0m {'loss': 0.8575, 'grad_norm': 14.323173522949219, 'learning_rate': 1.3686315789473685e-05, 'epoch': 0.7}


 35%|‚ñà‚ñà‚ñà‚ñå      | 3500/10000 [03:14<05:58, 18.13it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 3501/10000 [03:14<06:01, 17.99it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 3503/10000 [03:14<05:59, 18.08it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 3505/10000 [03:14<05:58, 18.13it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 3507/10000 [03:14<05:57, 18.15it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 3509/10000 [03:14<05:56, 18.18it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 3511/10000 [03:14<05:57, 18.17it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 3513/10000 [03:14<05:56, 18.17it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 3515/10000 [03:14<05:56, 18.20it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 3517/10000 [03:15<05:56, 18.18it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 3519/10000 [03:15<06:00, 18.00it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 3521/10000 [03:15<06:00, 17.99it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 3523/10000 [03:15<06:00, 17.99it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 3525/10000 [03:15<06:00, 17.95it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 3527/10000 [03:15<06:00, 17.96it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 3529/10000 [03:15<06:00, 17.94it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      |

[36m(train_fn pid=2663)[0m {'loss': 0.7831, 'grad_norm': 2.025141954421997, 'learning_rate': 1.2633684210526316e-05, 'epoch': 0.8}


 40%|‚ñà‚ñà‚ñà‚ñà      | 4003/10000 [03:42<05:30, 18.13it/s]
 40%|‚ñà‚ñà‚ñà‚ñà      | 4005/10000 [03:42<05:30, 18.15it/s]
 40%|‚ñà‚ñà‚ñà‚ñà      | 4007/10000 [03:42<05:30, 18.16it/s]
 40%|‚ñà‚ñà‚ñà‚ñà      | 4009/10000 [03:42<05:29, 18.18it/s]
 40%|‚ñà‚ñà‚ñà‚ñà      | 4011/10000 [03:42<05:28, 18.21it/s]
 40%|‚ñà‚ñà‚ñà‚ñà      | 4013/10000 [03:42<05:28, 18.24it/s]
 40%|‚ñà‚ñà‚ñà‚ñà      | 4015/10000 [03:42<05:29, 18.19it/s]
 40%|‚ñà‚ñà‚ñà‚ñà      | 4017/10000 [03:42<05:29, 18.18it/s]
 40%|‚ñà‚ñà‚ñà‚ñà      | 4019/10000 [03:42<05:28, 18.20it/s]
 40%|‚ñà‚ñà‚ñà‚ñà      | 4021/10000 [03:43<05:28, 18.22it/s]
 40%|‚ñà‚ñà‚ñà‚ñà      | 4023/10000 [03:43<05:28, 18.19it/s]
 40%|‚ñà‚ñà‚ñà‚ñà      | 4025/10000 [03:43<05:27, 18.23it/s]
 40%|‚ñà‚ñà‚ñà‚ñà      | 4027/10000 [03:43<05:28, 18.19it/s]
 40%|‚ñà‚ñà‚ñà‚ñà      | 4029/10000 [03:43<05:28, 18.17it/s]
 40%|‚ñà‚ñà‚ñà‚ñà      | 4031/10000 [03:43<05:28, 18.17it/s]
 40%|‚ñà‚ñà‚ñà‚ñà      | 4033/10000 [03:43<05:29, 18.12it/s]
 40%|‚ñà‚ñà‚ñà‚ñà      |

[36m(train_fn pid=2663)[0m {'loss': 0.7835, 'grad_norm': 12.520217895507812, 'learning_rate': 1.1581052631578948e-05, 'epoch': 0.9}


 45%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 4501/10000 [04:09<05:07, 17.86it/s]
 45%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 4503/10000 [04:09<05:07, 17.89it/s]
 45%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 4505/10000 [04:09<05:05, 17.97it/s]
 45%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 4507/10000 [04:09<05:04, 18.06it/s]
 45%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 4509/10000 [04:09<05:03, 18.08it/s]
 45%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 4511/10000 [04:10<05:03, 18.07it/s]
 45%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 4513/10000 [04:10<05:03, 18.07it/s]
 45%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 4515/10000 [04:10<05:03, 18.06it/s]
 45%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 4517/10000 [04:10<05:04, 18.01it/s]
 45%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 4519/10000 [04:10<05:04, 18.03it/s]
 45%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 4521/10000 [04:10<05:03, 18.03it/s]
 45%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 4523/10000 [04:10<05:04, 18.01it/s]
 45%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 4525/10000 [04:10<05:03, 18.02it/s]
 45%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 4527/10000 [04:10<05:05, 17.92it/s]
 45%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 4529/10000 [04:11<05:04, 17.94it/s]
 45%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 4531/10000 [04:11<05:05, 17.

[36m(train_fn pid=2663)[0m {'loss': 0.82, 'grad_norm': 14.01530933380127, 'learning_rate': 1.052842105263158e-05, 'epoch': 1.0}


 50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 5000/10000 [04:37<04:37, 18.04it/s]
  0%|          | 0/1250 [00:00<?, ?it/s][A
[36m(train_fn pid=2663)[0m 
  1%|          | 8/1250 [00:00<00:16, 73.95it/s][A
[36m(train_fn pid=2663)[0m 
  1%|‚ñè         | 16/1250 [00:00<00:18, 67.97it/s][A
[36m(train_fn pid=2663)[0m 
  2%|‚ñè         | 23/1250 [00:00<00:18, 66.30it/s][A
[36m(train_fn pid=2663)[0m 
  2%|‚ñè         | 30/1250 [00:00<00:18, 65.39it/s][A
[36m(train_fn pid=2663)[0m 
  3%|‚ñé         | 37/1250 [00:00<00:18, 65.00it/s][A
[36m(train_fn pid=2663)[0m 
  4%|‚ñé         | 44/1250 [00:00<00:18, 64.77it/s][A
[36m(train_fn pid=2663)[0m 
  4%|‚ñç         | 51/1250 [00:00<00:18, 64.44it/s][A
[36m(train_fn pid=2663)[0m 
  5%|‚ñç         | 58/1250 [00:00<00:18, 64.45it/s][A
[36m(train_fn pid=2663)[0m 
  5%|‚ñå         | 65/1250 [00:00<00:18, 64.60it/s][A
[36m(train_fn pid=2663)[0m 
  6%|‚ñå         | 72/1250 [00:01<00:18, 64.61it/s][A
[36m(train_fn pid=2663)[0m 
  6%|‚ñã        

[36m(train_fn pid=2663)[0m {'eval_loss': 4.609335899353027, 'eval_accuracy': 0.099, 'eval_f1': 0.09895193154562354, 'eval_runtime': 19.6141, 'eval_samples_per_second': 509.839, 'eval_steps_per_second': 63.73, 'epoch': 1.0}


 50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 5001/10000 [04:58<4:26:52,  3.20s/it]
 50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 5003/10000 [04:58<3:08:05,  2.26s/it]
 50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 5005/10000 [04:58<2:12:58,  1.60s/it]
 50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 5007/10000 [04:58<1:34:24,  1.13s/it]
 50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 5009/10000 [04:58<1:07:26,  1.23it/s]
 50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 5011/10000 [04:58<48:32,  1.71it/s]  
 50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 5013/10000 [04:58<35:19,  2.35it/s]
 50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 5015/10000 [04:58<26:08,  3.18it/s]
 50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 5017/10000 [04:59<19:43,  4.21it/s]
 50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 5019/10000 [04:59<15:16,  5.44it/s]
 50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 5021/10000 [04:59<12:07,  6.85it/s]
 50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 5023/10000 [04:59<09:51,  8.41it/s]
 50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 5025/10000 [04:59<08:17,  9.99it/s]
 50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 5027/10000 [04:59<07:10, 11.54it/s]
 50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 5029/10000 [04:59<06:24, 12.93it/s]
 50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 5031/10000 [04:5

[36m(train_fn pid=2663)[0m {'loss': 0.5744, 'grad_norm': 14.456238746643066, 'learning_rate': 9.475789473684212e-06, 'epoch': 1.1}


 55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 5501/10000 [05:25<04:09, 18.05it/s]
 55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 5503/10000 [05:25<04:09, 18.05it/s]
 55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 5505/10000 [05:26<04:08, 18.11it/s]
 55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 5507/10000 [05:26<04:07, 18.14it/s]
 55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 5509/10000 [05:26<04:07, 18.17it/s]
 55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 5511/10000 [05:26<04:07, 18.17it/s]
 55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 5513/10000 [05:26<04:06, 18.20it/s]
 55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 5515/10000 [05:26<04:06, 18.16it/s]
 55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 5517/10000 [05:26<04:08, 18.02it/s]
 55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 5519/10000 [05:26<04:08, 18.04it/s]
 55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 5521/10000 [05:26<04:07, 18.07it/s]
 55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 5523/10000 [05:27<04:07, 18.10it/s]
 55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 5525/10000 [05:27<04:08, 18.01it/s]
 55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 5527/10000 [05:27<04:08, 18.00it/s]
 55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 5529/10000 [05:27<04:08, 18.01it/s]
 55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  

[36m(train_fn pid=2663)[0m {'loss': 0.5799, 'grad_norm': 13.278834342956543, 'learning_rate': 8.423157894736843e-06, 'epoch': 1.2}


 60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 6003/10000 [05:53<03:44, 17.83it/s]
 60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 6005/10000 [05:53<03:44, 17.83it/s]
 60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 6007/10000 [05:53<03:43, 17.90it/s]
 60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 6009/10000 [05:54<03:42, 17.94it/s]
 60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 6011/10000 [05:54<03:41, 18.00it/s]
 60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 6013/10000 [05:54<03:40, 18.05it/s]
 60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 6015/10000 [05:54<03:40, 18.10it/s]
 60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 6017/10000 [05:54<03:39, 18.15it/s]
 60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 6019/10000 [05:54<03:39, 18.13it/s]
 60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 6021/10000 [05:54<03:39, 18.17it/s]
 60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 6023/10000 [05:54<03:38, 18.18it/s]
 60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 6025/10000 [05:54<03:37, 18.24it/s]
 60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 6027/10000 [05:55<03:38, 18.19it/s]
 60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 6029/10000 [05:55<03:38, 18.20it/s]
 60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 6031/10000 [05:55<03:37, 18.23it/s]
 60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  

[36m(train_fn pid=2663)[0m {'loss': 0.5574, 'grad_norm': 15.928607940673828, 'learning_rate': 7.370526315789474e-06, 'epoch': 1.3}


 65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 6503/10000 [06:21<03:14, 18.01it/s]
 65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 6505/10000 [06:21<03:13, 18.04it/s]
 65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 6507/10000 [06:21<03:14, 17.92it/s]
 65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 6509/10000 [06:21<03:14, 17.93it/s]
 65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 6511/10000 [06:21<03:15, 17.89it/s]
 65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 6513/10000 [06:22<03:14, 17.97it/s]
 65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 6515/10000 [06:22<03:13, 18.01it/s]
 65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 6517/10000 [06:22<03:12, 18.05it/s]
 65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 6519/10000 [06:22<03:12, 18.05it/s]
 65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 6521/10000 [06:22<03:12, 18.06it/s]
 65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 6523/10000 [06:22<03:12, 18.07it/s]
 65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 6525/10000 [06:22<03:13, 17.98it/s]
 65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 6527/10000 [06:22<03:13, 17.94it/s]
 65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 6529/10000 [06:22<03:12, 18.00it/s]
 65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 6531/10000 [06:23<03:12, 17.98i

[36m(train_fn pid=2663)[0m {'loss': 0.5753, 'grad_norm': 3.0778729915618896, 'learning_rate': 6.317894736842106e-06, 'epoch': 1.4}


 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 7001/10000 [06:49<02:46, 18.05it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 7003/10000 [06:49<02:45, 18.11it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 7005/10000 [06:49<02:45, 18.10it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 7007/10000 [06:49<02:44, 18.15it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 7009/10000 [06:49<02:44, 18.16it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 7011/10000 [06:49<02:44, 18.20it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 7013/10000 [06:49<02:44, 18.18it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 7015/10000 [06:49<02:45, 18.07it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 7017/10000 [06:49<02:47, 17.85it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 7019/10000 [06:50<02:48, 17.66it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 7021/10000 [06:50<02:48, 17.73it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 7023/10000 [06:50<02:47, 17.82it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 7025/10000 [06:50<02:46, 17.90it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 7027/10000 [06:50<02:45, 17.97it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 7029/10000 [06:50<02:45, 17.94i

[36m(train_fn pid=2663)[0m {'loss': 0.5747, 'grad_norm': 15.115537643432617, 'learning_rate': 5.265263157894738e-06, 'epoch': 1.5}


 75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 7500/10000 [07:16<02:17, 18.21it/s]
 75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 7501/10000 [07:16<02:18, 18.04it/s]
 75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 7503/10000 [07:16<02:18, 18.04it/s]
 75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 7505/10000 [07:16<02:17, 18.11it/s]
 75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 7507/10000 [07:17<02:17, 18.12it/s]
 75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 7509/10000 [07:17<02:17, 18.11it/s]
 75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 7511/10000 [07:17<02:17, 18.15it/s]
 75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 7513/10000 [07:17<02:17, 18.15it/s]
 75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 7515/10000 [07:17<02:16, 18.16it/s]
 75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 7517/10000 [07:17<02:16, 18.16it/s]
 75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 7519/10000 [07:17<02:16, 18.20it/s]
 75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 7521/10000 [07:17<02:16, 18.20it/s]
 75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 7523/10000 [07:17<02:16, 18.15it/s]
 75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 7525/10000 [07:18<02:16, 18.16it/s]
 75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 7

[36m(train_fn pid=2663)[0m {'loss': 0.5729, 'grad_norm': 3.899631977081299, 'learning_rate': 4.212631578947368e-06, 'epoch': 1.6}


 80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 8001/10000 [07:44<01:51, 17.86it/s]
 80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 8003/10000 [07:44<01:51, 17.91it/s]
 80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 8005/10000 [07:44<01:50, 18.00it/s]
 80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 8007/10000 [07:44<01:51, 17.95it/s]
 80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 8009/10000 [07:44<01:50, 17.99it/s]
 80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 8011/10000 [07:44<01:50, 17.99it/s]
 80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 8013/10000 [07:45<01:50, 18.02it/s]
 80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 8015/10000 [07:45<01:50, 17.98it/s]
 80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 8017/10000 [07:45<01:49, 18.06it/s]
 80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 8019/10000 [07:45<01:49, 18.07it/s]
 80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 8021/10000 [07:45<01:49, 18.10it/s]
 80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 8023/10000 [07:45<01:49, 18.13it/s]
 80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 8025/10000 [07:45<01:48, 18.15it/s]
 80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 8027/10000 [07:45<01:48, 18.14it/s]
 80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 8

[36m(train_fn pid=2663)[0m {'loss': 0.5621, 'grad_norm': 11.045845985412598, 'learning_rate': 3.1600000000000002e-06, 'epoch': 1.7}


 85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 8500/10000 [08:12<01:23, 18.06it/s]
 85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 8501/10000 [08:12<01:23, 17.93it/s]
 85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 8503/10000 [08:12<01:23, 17.97it/s]
 85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 8505/10000 [08:12<01:22, 18.01it/s]
 85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 8507/10000 [08:12<01:23, 17.98it/s]
 85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 8509/10000 [08:12<01:22, 17.98it/s]
 85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 8511/10000 [08:12<01:23, 17.94it/s]
 85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 8513/10000 [08:12<01:22, 17.95it/s]
 85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 8515/10000 [08:12<01:22, 17.99it/s]
 85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 8517/10000 [08:13<01:22, 18.05it/s]
 85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 8519/10000 [08:13<01:22, 17.98it/s]
 85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 8521/10000 [08:13<01:22, 18.01it/s]
 85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 8523/10000 [08:13<01:22, 17.99it/s]
 85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 8525/10000 [08:13<01:21, 18.05it/s]
 85%|‚

[36m(train_fn pid=2663)[0m {'loss': 0.555, 'grad_norm': 9.675712585449219, 'learning_rate': 2.1073684210526317e-06, 'epoch': 1.8}


 90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 9001/10000 [08:39<00:55, 18.09it/s]
 90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 9003/10000 [08:39<00:55, 18.11it/s]
 90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 9005/10000 [08:40<00:54, 18.14it/s]
 90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 9007/10000 [08:40<00:54, 18.16it/s]
 90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 9009/10000 [08:40<00:54, 18.18it/s]
 90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 9011/10000 [08:40<00:54, 18.17it/s]
 90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 9013/10000 [08:40<00:54, 18.21it/s]
 90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 9015/10000 [08:40<00:54, 18.21it/s]
 90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 9017/10000 [08:40<00:54, 18.12it/s]
 90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 9019/10000 [08:40<00:54, 18.01it/s]
 90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 9021/10000 [08:40<00:54, 17.95it/s]
 90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 9023/10000 [08:41<00:54, 17.79it/s]
 90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 9025/10000 [08:41<00:54, 17.84it/s]
 90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 9027/10000 [08:41<00:54, 17.83it/s]
 90%|‚

[36m(train_fn pid=2663)[0m {'loss': 0.5256, 'grad_norm': 25.64690589904785, 'learning_rate': 1.0547368421052632e-06, 'epoch': 1.9}


 95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 9503/10000 [09:07<00:27, 18.13it/s]
 95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 9505/10000 [09:07<00:27, 18.14it/s]
 95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 9507/10000 [09:07<00:27, 18.16it/s]
 95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 9509/10000 [09:08<00:26, 18.19it/s]
 95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 9511/10000 [09:08<00:26, 18.21it/s]
 95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 9513/10000 [09:08<00:26, 18.22it/s]
 95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 9515/10000 [09:08<00:26, 18.17it/s]
 95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 9517/10000 [09:08<00:26, 18.18it/s]
 95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 9519/10000 [09:08<00:26, 18.15it/s]
 95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 9521/10000 [09:08<00:26, 18.18it/s]
 95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 9523/10000 [09:08<00:26, 18.15it/s]
 95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 9525/10000 [09:08<00:26, 18.15it/s]
 95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 9527/10000 [09:08<00:26, 18.17it/s]
 95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 9529/10000 [09

[36m(train_fn pid=2663)[0m {'loss': 0.5636, 'grad_norm': 16.054889678955078, 'learning_rate': 2.105263157894737e-09, 'epoch': 2.0}


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [09:35<00:00, 18.08it/s]
  0%|          | 0/1250 [00:00<?, ?it/s][A
[36m(train_fn pid=2663)[0m 
  1%|          | 8/1250 [00:00<00:17, 73.05it/s][A
[36m(train_fn pid=2663)[0m 
  1%|‚ñè         | 16/1250 [00:00<00:18, 67.22it/s][A
[36m(train_fn pid=2663)[0m 
  2%|‚ñè         | 23/1250 [00:00<00:18, 65.94it/s][A
[36m(train_fn pid=2663)[0m 
  2%|‚ñè         | 30/1250 [00:00<00:18, 65.09it/s][A
[36m(train_fn pid=2663)[0m 
  3%|‚ñé         | 37/1250 [00:00<00:18, 64.60it/s][A
[36m(train_fn pid=2663)[0m 
  4%|‚ñé         | 44/1250 [00:00<00:18, 64.46it/s][A
[36m(train_fn pid=2663)[0m 
  4%|‚ñç         | 51/1250 [00:00<00:18, 64.21it/s][A
[36m(train_fn pid=2663)[0m 
  5%|‚ñç         | 58/1250 [00:00<00:18, 64.28it/s][A
[36m(train_fn pid=2663)[0m 
  5%|‚ñå         | 65/1250 [00:01<00:18, 64.12it/s][A
[36m(train_fn pid=2663)[0m 
  6%|‚ñå         | 72/1250 [00:01<00:18, 64.19it/s][A
[36m(train_fn pid=2663)[0m 
  6%|

[36m(train_fn pid=2663)[0m {'eval_loss': 5.561499118804932, 'eval_accuracy': 0.0989, 'eval_f1': 0.09888964566508604, 'eval_runtime': 19.7208, 'eval_samples_per_second': 507.079, 'eval_steps_per_second': 63.385, 'epoch': 2.0}


[36m(train_fn pid=2663)[0m 
                                                     A
100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [09:54<00:00, 18.08it/s]
100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1250/1250 [00:19<00:00, 63.53it/s][A
                                                   [A


[36m(train_fn pid=2663)[0m {'train_runtime': 597.5566, 'train_samples_per_second': 133.879, 'train_steps_per_second': 16.735, 'train_loss': 0.767304541015625, 'epoch': 2.0}


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [09:56<00:00, 18.08it/s]
100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [09:56<00:00, 16.77it/s]
  0%|          | 0/1250 [00:00<?, ?it/s]
  1%|          | 8/1250 [00:00<00:16, 75.76it/s]
  1%|‚ñè         | 16/1250 [00:00<00:17, 68.94it/s]
  2%|‚ñè         | 23/1250 [00:00<00:18, 67.13it/s]
  2%|‚ñè         | 30/1250 [00:00<00:18, 65.87it/s]
  3%|‚ñé         | 37/1250 [00:00<00:18, 65.06it/s]
  4%|‚ñé         | 44/1250 [00:00<00:18, 64.31it/s]
  4%|‚ñç         | 51/1250 [00:00<00:18, 64.27it/s]
  5%|‚ñç         | 58/1250 [00:00<00:18, 64.40it/s]
  5%|‚ñå         | 65/1250 [00:00<00:18, 64.30it/s]
  6%|‚ñå         | 72/1250 [00:01<00:18, 64.44it/s]
  6%|‚ñã         | 79/1250 [00:01<00:18, 64.58it/s]
  7%|‚ñã         | 86/1250 [00:01<00:18, 64.61it/s]
  7%|‚ñã         | 93/1250 [00:01<00:17, 64.75it/s]
  8%|‚ñä         | 100/1250 [00:01<00:17, 64.77it/s]
  9%|‚ñä         | 107/1250 [00:01<00:17, 64.31it/s]
  9%|‚ñâ         | 114/1250 [00:

[36m(train_fn pid=3017)[0m {'loss': 2.0576, 'grad_norm': 6.575820446014404, 'learning_rate': 9.980000000000001e-06, 'epoch': 0.1}


  5%|‚ñå         | 503/10000 [00:28<09:07, 17.34it/s]
  5%|‚ñå         | 505/10000 [00:28<09:00, 17.58it/s]
  5%|‚ñå         | 507/10000 [00:28<08:55, 17.74it/s]
  5%|‚ñå         | 509/10000 [00:28<08:51, 17.87it/s]
  5%|‚ñå         | 511/10000 [00:28<08:54, 17.76it/s]
  5%|‚ñå         | 513/10000 [00:28<08:51, 17.85it/s]
  5%|‚ñå         | 515/10000 [00:29<08:49, 17.90it/s]
  5%|‚ñå         | 517/10000 [00:29<08:47, 17.96it/s]
  5%|‚ñå         | 519/10000 [00:29<08:46, 18.02it/s]
  5%|‚ñå         | 521/10000 [00:29<08:44, 18.06it/s]
  5%|‚ñå         | 523/10000 [00:29<08:43, 18.10it/s]
  5%|‚ñå         | 525/10000 [00:29<08:42, 18.13it/s]
  5%|‚ñå         | 527/10000 [00:29<08:42, 18.13it/s]
  5%|‚ñå         | 529/10000 [00:29<08:42, 18.12it/s]
  5%|‚ñå         | 531/10000 [00:29<08:40, 18.18it/s]
  5%|‚ñå         | 533/10000 [00:30<08:41, 18.14it/s]
  5%|‚ñå         | 535/10000 [00:30<08:40, 18.20it/s]
  5%|‚ñå         | 537/10000 [00:30<08:39, 18.23it/s]
  5%|‚ñå         | 539/10000

[36m(train_fn pid=3017)[0m {'loss': 1.1772, 'grad_norm': 10.715059280395508, 'learning_rate': 9.474736842105265e-06, 'epoch': 0.2}


 10%|‚ñà         | 1001/10000 [00:55<08:15, 18.15it/s]
 10%|‚ñà         | 1003/10000 [00:55<08:14, 18.18it/s]
 10%|‚ñà         | 1005/10000 [00:56<08:14, 18.18it/s]
 10%|‚ñà         | 1007/10000 [00:56<08:12, 18.24it/s]
 10%|‚ñà         | 1009/10000 [00:56<08:13, 18.23it/s]
 10%|‚ñà         | 1011/10000 [00:56<08:12, 18.24it/s]
 10%|‚ñà         | 1013/10000 [00:56<08:12, 18.24it/s]
 10%|‚ñà         | 1015/10000 [00:56<08:13, 18.19it/s]
 10%|‚ñà         | 1017/10000 [00:56<08:12, 18.23it/s]
 10%|‚ñà         | 1019/10000 [00:56<08:14, 18.16it/s]
 10%|‚ñà         | 1021/10000 [00:56<08:14, 18.17it/s]
 10%|‚ñà         | 1023/10000 [00:57<08:13, 18.21it/s]
 10%|‚ñà         | 1025/10000 [00:57<08:12, 18.21it/s]
 10%|‚ñà         | 1027/10000 [00:57<08:11, 18.26it/s]
 10%|‚ñà         | 1029/10000 [00:57<08:13, 18.18it/s]
 10%|‚ñà         | 1031/10000 [00:57<08:12, 18.21it/s]
 10%|‚ñà         | 1033/10000 [00:57<08:14, 18.15it/s]
 10%|‚ñà         | 1035/10000 [00:57<08:12, 18.21it/s]
 10%|‚ñà  

[36m(train_fn pid=3017)[0m {'loss': 0.9758, 'grad_norm': 18.754186630249023, 'learning_rate': 8.94842105263158e-06, 'epoch': 0.3}


 15%|‚ñà‚ñå        | 1503/10000 [01:23<07:55, 17.87it/s]
 15%|‚ñà‚ñå        | 1505/10000 [01:23<07:52, 17.96it/s]
 15%|‚ñà‚ñå        | 1507/10000 [01:23<07:51, 18.02it/s]
 15%|‚ñà‚ñå        | 1509/10000 [01:23<07:48, 18.10it/s]
 15%|‚ñà‚ñå        | 1511/10000 [01:24<07:47, 18.15it/s]
 15%|‚ñà‚ñå        | 1513/10000 [01:24<07:47, 18.14it/s]
 15%|‚ñà‚ñå        | 1515/10000 [01:24<07:46, 18.19it/s]
 15%|‚ñà‚ñå        | 1517/10000 [01:24<07:45, 18.22it/s]
 15%|‚ñà‚ñå        | 1519/10000 [01:24<07:45, 18.21it/s]
 15%|‚ñà‚ñå        | 1521/10000 [01:24<07:44, 18.24it/s]
 15%|‚ñà‚ñå        | 1523/10000 [01:24<07:46, 18.19it/s]
 15%|‚ñà‚ñå        | 1525/10000 [01:24<07:46, 18.16it/s]
 15%|‚ñà‚ñå        | 1527/10000 [01:24<07:46, 18.16it/s]
 15%|‚ñà‚ñå        | 1529/10000 [01:25<07:46, 18.14it/s]
 15%|‚ñà‚ñå        | 1531/10000 [01:25<07:45, 18.18it/s]
 15%|‚ñà‚ñå        | 1533/10000 [01:25<07:45, 18.18it/s]
 15%|‚ñà‚ñå        | 1535/10000 [01:25<07:46, 18.16it/s]
 15%|‚ñà‚ñå        | 1537/10000

[36m(train_fn pid=3017)[0m {'loss': 0.9166, 'grad_norm': 9.105982780456543, 'learning_rate': 8.422105263157896e-06, 'epoch': 0.4}


 20%|‚ñà‚ñà        | 2001/10000 [01:51<07:30, 17.76it/s]
 20%|‚ñà‚ñà        | 2003/10000 [01:51<07:29, 17.79it/s]
 20%|‚ñà‚ñà        | 2005/10000 [01:51<07:27, 17.87it/s]
 20%|‚ñà‚ñà        | 2007/10000 [01:51<07:27, 17.87it/s]
 20%|‚ñà‚ñà        | 2009/10000 [01:51<07:25, 17.95it/s]
 20%|‚ñà‚ñà        | 2011/10000 [01:51<07:25, 17.92it/s]
 20%|‚ñà‚ñà        | 2013/10000 [01:52<07:24, 17.95it/s]
 20%|‚ñà‚ñà        | 2015/10000 [01:52<07:25, 17.94it/s]
 20%|‚ñà‚ñà        | 2017/10000 [01:52<07:25, 17.91it/s]
 20%|‚ñà‚ñà        | 2019/10000 [01:52<07:27, 17.85it/s]
 20%|‚ñà‚ñà        | 2021/10000 [01:52<07:25, 17.90it/s]
 20%|‚ñà‚ñà        | 2023/10000 [01:52<07:25, 17.90it/s]
 20%|‚ñà‚ñà        | 2025/10000 [01:52<07:24, 17.93it/s]
 20%|‚ñà‚ñà        | 2027/10000 [01:52<07:27, 17.83it/s]
 20%|‚ñà‚ñà        | 2029/10000 [01:52<07:26, 17.85it/s]
 20%|‚ñà‚ñà        | 2031/10000 [01:53<07:25, 17.87it/s]
 20%|‚ñà‚ñà        | 2033/10000 [01:53<07:24, 17.92it/s]
 20%|‚ñà‚ñà        | 2035/10000

[36m(train_fn pid=3017)[0m {'loss': 0.9105, 'grad_norm': 6.662261009216309, 'learning_rate': 7.89578947368421e-06, 'epoch': 0.5}


 25%|‚ñà‚ñà‚ñå       | 2501/10000 [02:19<07:03, 17.71it/s]
 25%|‚ñà‚ñà‚ñå       | 2503/10000 [02:19<07:00, 17.81it/s]
 25%|‚ñà‚ñà‚ñå       | 2505/10000 [02:19<07:00, 17.83it/s]
 25%|‚ñà‚ñà‚ñå       | 2507/10000 [02:19<06:59, 17.86it/s]
 25%|‚ñà‚ñà‚ñå       | 2509/10000 [02:19<06:58, 17.88it/s]
 25%|‚ñà‚ñà‚ñå       | 2511/10000 [02:19<06:57, 17.96it/s]
 25%|‚ñà‚ñà‚ñå       | 2513/10000 [02:19<06:55, 18.03it/s]
 25%|‚ñà‚ñà‚ñå       | 2515/10000 [02:19<06:54, 18.06it/s]
 25%|‚ñà‚ñà‚ñå       | 2517/10000 [02:20<06:54, 18.06it/s]
 25%|‚ñà‚ñà‚ñå       | 2519/10000 [02:20<06:54, 18.06it/s]
 25%|‚ñà‚ñà‚ñå       | 2521/10000 [02:20<06:54, 18.04it/s]
 25%|‚ñà‚ñà‚ñå       | 2523/10000 [02:20<06:55, 18.02it/s]
 25%|‚ñà‚ñà‚ñå       | 2525/10000 [02:20<06:54, 18.02it/s]
 25%|‚ñà‚ñà‚ñå       | 2527/10000 [02:20<06:54, 18.03it/s]
 25%|‚ñà‚ñà‚ñå       | 2529/10000 [02:20<06:53, 18.06it/s]
 25%|‚ñà‚ñà‚ñå       | 2531/10000 [02:20<06:53, 18.07it/s]
 25%|‚ñà‚ñà‚ñå       | 2533/10000 [02:20<06:52, 18.10it/

[36m(train_fn pid=3017)[0m {'loss': 0.8933, 'grad_norm': 13.367292404174805, 'learning_rate': 7.369473684210528e-06, 'epoch': 0.6}


 30%|‚ñà‚ñà‚ñà       | 3000/10000 [02:46<06:24, 18.22it/s]
 30%|‚ñà‚ñà‚ñà       | 3001/10000 [02:46<06:28, 18.03it/s]
 30%|‚ñà‚ñà‚ñà       | 3003/10000 [02:47<06:26, 18.08it/s]
 30%|‚ñà‚ñà‚ñà       | 3005/10000 [02:47<06:26, 18.12it/s]
 30%|‚ñà‚ñà‚ñà       | 3007/10000 [02:47<06:26, 18.11it/s]
 30%|‚ñà‚ñà‚ñà       | 3009/10000 [02:47<06:26, 18.07it/s]
 30%|‚ñà‚ñà‚ñà       | 3011/10000 [02:47<06:26, 18.11it/s]
 30%|‚ñà‚ñà‚ñà       | 3013/10000 [02:47<06:25, 18.14it/s]
 30%|‚ñà‚ñà‚ñà       | 3015/10000 [02:47<06:25, 18.14it/s]
 30%|‚ñà‚ñà‚ñà       | 3017/10000 [02:47<06:24, 18.17it/s]
 30%|‚ñà‚ñà‚ñà       | 3019/10000 [02:47<06:25, 18.13it/s]
 30%|‚ñà‚ñà‚ñà       | 3021/10000 [02:48<06:26, 18.07it/s]
 30%|‚ñà‚ñà‚ñà       | 3023/10000 [02:48<06:26, 18.07it/s]
 30%|‚ñà‚ñà‚ñà       | 3025/10000 [02:48<06:24, 18.14it/s]
 30%|‚ñà‚ñà‚ñà       | 3027/10000 [02:48<06:23, 18.17it/s]
 30%|‚ñà‚ñà‚ñà       | 3029/10000 [02:48<06:23, 18.16it/s]
 30%|‚ñà‚ñà‚ñà       | 3031/10000 [02:48<06:23, 18.16it/

[36m(train_fn pid=3017)[0m {'loss': 0.8796, 'grad_norm': 13.520076751708984, 'learning_rate': 6.843157894736842e-06, 'epoch': 0.7}


 35%|‚ñà‚ñà‚ñà‚ñå      | 3503/10000 [03:14<06:01, 17.96it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 3505/10000 [03:14<05:59, 18.05it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 3507/10000 [03:15<05:58, 18.10it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 3509/10000 [03:15<05:58, 18.12it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 3511/10000 [03:15<05:58, 18.12it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 3513/10000 [03:15<05:57, 18.15it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 3515/10000 [03:15<05:57, 18.16it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 3517/10000 [03:15<05:55, 18.21it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 3519/10000 [03:15<05:56, 18.16it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 3521/10000 [03:15<05:55, 18.21it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 3523/10000 [03:15<05:55, 18.22it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 3525/10000 [03:16<05:55, 18.21it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 3527/10000 [03:16<05:55, 18.19it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 3529/10000 [03:16<05:55, 18.20it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 3531/10000 [03:16<05:55, 18.21it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 3533/10000 [03:16<05:56, 18.12it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      |

[36m(train_fn pid=3017)[0m {'loss': 0.8093, 'grad_norm': 1.8836071491241455, 'learning_rate': 6.316842105263158e-06, 'epoch': 0.8}


 40%|‚ñà‚ñà‚ñà‚ñà      | 4001/10000 [03:42<05:37, 17.79it/s]
 40%|‚ñà‚ñà‚ñà‚ñà      | 4003/10000 [03:42<05:35, 17.90it/s]
 40%|‚ñà‚ñà‚ñà‚ñà      | 4005/10000 [03:42<05:35, 17.88it/s]
 40%|‚ñà‚ñà‚ñà‚ñà      | 4007/10000 [03:42<05:33, 17.95it/s]
 40%|‚ñà‚ñà‚ñà‚ñà      | 4009/10000 [03:43<05:33, 17.98it/s]
 40%|‚ñà‚ñà‚ñà‚ñà      | 4011/10000 [03:43<05:33, 17.93it/s]
 40%|‚ñà‚ñà‚ñà‚ñà      | 4013/10000 [03:43<05:34, 17.91it/s]
 40%|‚ñà‚ñà‚ñà‚ñà      | 4015/10000 [03:43<05:34, 17.90it/s]
 40%|‚ñà‚ñà‚ñà‚ñà      | 4017/10000 [03:43<05:33, 17.92it/s]
 40%|‚ñà‚ñà‚ñà‚ñà      | 4019/10000 [03:43<05:33, 17.96it/s]
 40%|‚ñà‚ñà‚ñà‚ñà      | 4021/10000 [03:43<05:33, 17.94it/s]
 40%|‚ñà‚ñà‚ñà‚ñà      | 4023/10000 [03:43<05:33, 17.94it/s]
 40%|‚ñà‚ñà‚ñà‚ñà      | 4025/10000 [03:43<05:32, 18.00it/s]
 40%|‚ñà‚ñà‚ñà‚ñà      | 4027/10000 [03:44<05:31, 17.99it/s]
 40%|‚ñà‚ñà‚ñà‚ñà      | 4029/10000 [03:44<05:32, 17.93it/s]
 40%|‚ñà‚ñà‚ñà‚ñà      | 4031/10000 [03:44<05:33, 17.89it/s]
 40%|‚ñà‚ñà‚ñà‚ñà      |

[36m(train_fn pid=3017)[0m {'loss': 0.8111, 'grad_norm': 14.0923490524292, 'learning_rate': 5.790526315789474e-06, 'epoch': 0.9}


 45%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 4501/10000 [04:10<05:10, 17.73it/s]
 45%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 4503/10000 [04:10<05:08, 17.79it/s]
 45%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 4505/10000 [04:10<05:07, 17.85it/s]
 45%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 4507/10000 [04:10<05:05, 17.96it/s]
 45%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 4509/10000 [04:10<05:05, 17.99it/s]
 45%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 4511/10000 [04:10<05:04, 18.01it/s]
 45%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 4513/10000 [04:10<05:05, 17.97it/s]
 45%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 4515/10000 [04:11<05:04, 18.00it/s]
 45%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 4517/10000 [04:11<05:04, 18.03it/s]
 45%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 4519/10000 [04:11<05:04, 17.97it/s]
 45%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 4521/10000 [04:11<05:05, 17.92it/s]
 45%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 4523/10000 [04:11<05:05, 17.94it/s]
 45%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 4525/10000 [04:11<05:05, 17.91it/s]
 45%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 4527/10000 [04:11<05:05, 17.90it/s]
 45%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 4529/10000 [04:11<05:05, 17.91it/s]
 45%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 4531/10000 [04:11<05:05, 17.

[36m(train_fn pid=3017)[0m {'loss': 0.8481, 'grad_norm': 14.85327434539795, 'learning_rate': 5.26421052631579e-06, 'epoch': 1.0}


[36m(train_fn pid=3017)[0m 
  0%|          | 0/1250 [00:00<?, ?it/s][A
[36m(train_fn pid=3017)[0m 
  1%|          | 8/1250 [00:00<00:16, 74.83it/s][A
[36m(train_fn pid=3017)[0m 
  1%|‚ñè         | 16/1250 [00:00<00:17, 68.64it/s][A
[36m(train_fn pid=3017)[0m 
  2%|‚ñè         | 23/1250 [00:00<00:18, 66.70it/s][A
[36m(train_fn pid=3017)[0m 
  2%|‚ñè         | 30/1250 [00:00<00:18, 65.77it/s][A
[36m(train_fn pid=3017)[0m 
  3%|‚ñé         | 37/1250 [00:00<00:18, 65.44it/s][A
[36m(train_fn pid=3017)[0m 
  4%|‚ñé         | 44/1250 [00:00<00:18, 65.10it/s][A
[36m(train_fn pid=3017)[0m 
  4%|‚ñç         | 51/1250 [00:00<00:18, 64.79it/s][A
[36m(train_fn pid=3017)[0m 
  5%|‚ñç         | 58/1250 [00:00<00:18, 64.71it/s][A
[36m(train_fn pid=3017)[0m 
  5%|‚ñå         | 65/1250 [00:00<00:18, 64.60it/s][A
[36m(train_fn pid=3017)[0m 
  6%|‚ñå         | 72/1250 [00:01<00:18, 64.58it/s][A
[36m(train_fn pid=3017)[0m 
  6%|‚ñã         | 79/1250 [00:01<00:18, 64.39it/

[36m(train_fn pid=3017)[0m {'eval_loss': 4.325093746185303, 'eval_accuracy': 0.1007, 'eval_f1': 0.10058549811589754, 'eval_runtime': 19.6986, 'eval_samples_per_second': 507.651, 'eval_steps_per_second': 63.456, 'epoch': 1.0}


[36m(train_fn pid=3017)[0m 
                                                    [A
 50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 5000/10000 [04:57<04:35, 18.12it/s]
100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1250/1250 [00:19<00:00, 64.13it/s][A
                                                   [A
 50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 5001/10000 [04:59<4:28:05,  3.22s/it]
 50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 5003/10000 [04:59<3:08:58,  2.27s/it]
 50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 5005/10000 [04:59<2:13:35,  1.60s/it]
 50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 5007/10000 [04:59<1:34:51,  1.14s/it]
 50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 5009/10000 [04:59<1:07:45,  1.23it/s]
 50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 5011/10000 [04:59<48:46,  1.70it/s]  
 50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 5013/10000 [04:59<35:29,  2.34it/s]
 50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 5015/10000 [04:59<26:13,  3.17it/s]
 50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 5017/10000 [04:59<19:45,  4.20it/s]
 50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 5019/10000 [05:00<15:17,  5.43it/s]
 50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 5021/10000 [05:00<12:10,  6.82it/s]
 50%|‚ñà‚ñà‚ñà‚ñà

[36m(train_fn pid=3017)[0m {'loss': 0.679, 'grad_norm': 15.258618354797363, 'learning_rate': 4.737894736842106e-06, 'epoch': 1.1}


 55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 5500/10000 [05:26<04:09, 18.00it/s]
 55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 5501/10000 [05:26<04:10, 17.93it/s]
 55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 5503/10000 [05:27<04:10, 17.98it/s]
 55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 5505/10000 [05:27<04:08, 18.06it/s]
 55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 5507/10000 [05:27<04:08, 18.07it/s]
 55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 5509/10000 [05:27<04:08, 18.07it/s]
 55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 5511/10000 [05:27<04:08, 18.05it/s]
 55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 5513/10000 [05:27<04:08, 18.04it/s]
 55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 5515/10000 [05:27<04:08, 18.07it/s]
 55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 5517/10000 [05:27<04:08, 18.04it/s]
 55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 5519/10000 [05:27<04:08, 18.04it/s]
 55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 5521/10000 [05:27<04:08, 18.06it/s]
 55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 5523/10000 [05:28<04:07, 18.09it/s]
 55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 5525/10000 [05:28<04:07, 18.10it/s]
 55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 5527/10000 [05:28<04:07, 18.10it/s]
 55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  

[36m(train_fn pid=3017)[0m {'loss': 0.6802, 'grad_norm': 14.441023826599121, 'learning_rate': 4.211578947368422e-06, 'epoch': 1.2}


 60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 6000/10000 [05:54<03:40, 18.13it/s]
 60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 6001/10000 [05:54<03:42, 17.99it/s]
 60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 6003/10000 [05:54<03:41, 18.02it/s]
 60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 6005/10000 [05:54<03:41, 18.04it/s]
 60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 6007/10000 [05:55<03:41, 18.00it/s]
 60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 6009/10000 [05:55<03:41, 18.03it/s]
 60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 6011/10000 [05:55<03:41, 18.01it/s]
 60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 6013/10000 [05:55<03:41, 17.98it/s]
 60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 6015/10000 [05:55<03:41, 17.96it/s]
 60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 6017/10000 [05:55<03:40, 18.04it/s]
 60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 6019/10000 [05:55<03:40, 18.02it/s]
 60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 6021/10000 [05:55<03:40, 18.02it/s]
 60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 6023/10000 [05:55<03:41, 17.96it/s]
 60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 6025/10000 [05:56<03:40, 18.02it/s]
 60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 6027/10000 [05:56<03:40, 18.01it/s]
 60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  

[36m(train_fn pid=3017)[0m {'loss': 0.654, 'grad_norm': 12.681214332580566, 'learning_rate': 3.685263157894737e-06, 'epoch': 1.3}


 65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 6501/10000 [06:22<03:16, 17.81it/s]
 65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 6503/10000 [06:22<03:16, 17.76it/s]
 65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 6505/10000 [06:22<03:15, 17.86it/s]
 65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 6507/10000 [06:22<03:15, 17.85it/s]
 65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 6509/10000 [06:23<03:15, 17.89it/s]
 65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 6511/10000 [06:23<03:14, 17.91it/s]
 65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 6513/10000 [06:23<03:14, 17.94it/s]
 65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 6515/10000 [06:23<03:14, 17.96it/s]
 65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 6517/10000 [06:23<03:13, 17.97it/s]
 65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 6519/10000 [06:23<03:14, 17.94it/s]
 65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 6521/10000 [06:23<03:14, 17.91it/s]
 65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 6523/10000 [06:23<03:13, 17.96it/s]
 65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 6525/10000 [06:23<03:13, 17.94it/s]
 65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 6527/10000 [06:24<03:13, 17.99it/s]
 65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 6529/10000 [06:24<03:12, 18.01i

[36m(train_fn pid=3017)[0m {'loss': 0.6752, 'grad_norm': 10.759194374084473, 'learning_rate': 3.158947368421053e-06, 'epoch': 1.4}


 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 7000/10000 [06:50<02:44, 18.19it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 7001/10000 [06:50<02:46, 18.05it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 7003/10000 [06:50<02:45, 18.08it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 7005/10000 [06:50<02:45, 18.12it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 7007/10000 [06:50<02:44, 18.14it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 7009/10000 [06:50<02:45, 18.07it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 7011/10000 [06:50<02:46, 17.97it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 7013/10000 [06:50<02:48, 17.72it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 7015/10000 [06:51<02:51, 17.44it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 7017/10000 [06:51<02:51, 17.39it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 7019/10000 [06:51<02:49, 17.56it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 7021/10000 [06:51<02:47, 17.74it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 7023/10000 [06:51<02:47, 17.82it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 7025/10000 [06:51<02:46, 17.92it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 7027/10000 [06:51<02:46, 17.86i

[36m(train_fn pid=3017)[0m {'loss': 0.6756, 'grad_norm': 18.113868713378906, 'learning_rate': 2.632631578947369e-06, 'epoch': 1.5}


 75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 7501/10000 [07:18<02:20, 17.80it/s]
 75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 7503/10000 [07:18<02:19, 17.93it/s]
 75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 7505/10000 [07:18<02:19, 17.84it/s]
 75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 7507/10000 [07:18<02:19, 17.91it/s]
 75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 7509/10000 [07:18<02:19, 17.88it/s]
 75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 7511/10000 [07:18<02:20, 17.78it/s]
 75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 7513/10000 [07:18<02:19, 17.82it/s]
 75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 7515/10000 [07:18<02:18, 17.96it/s]
 75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 7517/10000 [07:19<02:17, 18.02it/s]
 75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 7519/10000 [07:19<02:16, 18.12it/s]
 75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 7521/10000 [07:19<02:17, 18.07it/s]
 75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 7523/10000 [07:19<02:17, 18.03it/s]
 75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 7525/10000 [07:19<02:16, 18.09it/s]
 75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 7527/10000 [07:19<02:16, 18.12it/s]
 75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 7

[36m(train_fn pid=3017)[0m {'loss': 0.6799, 'grad_norm': 17.03013038635254, 'learning_rate': 2.106315789473684e-06, 'epoch': 1.6}


 80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 8000/10000 [07:45<01:50, 18.02it/s]
 80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 8001/10000 [07:45<01:51, 17.94it/s]
 80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 8003/10000 [07:46<01:50, 18.07it/s]
 80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 8005/10000 [07:46<01:50, 18.01it/s]
 80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 8007/10000 [07:46<01:50, 17.99it/s]
 80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 8009/10000 [07:46<01:50, 18.00it/s]
 80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 8011/10000 [07:46<01:50, 18.00it/s]
 80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 8013/10000 [07:46<01:49, 18.10it/s]
 80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 8015/10000 [07:46<01:49, 18.08it/s]
 80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 8017/10000 [07:46<01:50, 18.00it/s]
 80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 8019/10000 [07:46<01:49, 18.07it/s]
 80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 8021/10000 [07:47<01:49, 18.03it/s]
 80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 8023/10000 [07:47<01:49, 18.05it/s]
 80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 8025/10000 [07:47<01:49, 18.01it/s]
 80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 8

[36m(train_fn pid=3017)[0m {'loss': 0.6627, 'grad_norm': 11.937403678894043, 'learning_rate': 1.5800000000000001e-06, 'epoch': 1.7}


 85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 8503/10000 [08:13<01:24, 17.79it/s]
 85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 8505/10000 [08:14<01:23, 17.83it/s]
 85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 8507/10000 [08:14<01:23, 17.88it/s]
 85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 8509/10000 [08:14<01:23, 17.89it/s]
 85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 8511/10000 [08:14<01:23, 17.94it/s]
 85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 8513/10000 [08:14<01:23, 17.91it/s]
 85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 8515/10000 [08:14<01:22, 17.92it/s]
 85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 8517/10000 [08:14<01:22, 17.87it/s]
 85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 8519/10000 [08:14<01:22, 17.90it/s]
 85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 8521/10000 [08:14<01:22, 17.93it/s]
 85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 8523/10000 [08:15<01:22, 17.93it/s]
 85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 8525/10000 [08:15<01:22, 17.98it/s]
 85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 8527/10000 [08:15<01:21, 18.01it/s]
 85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 8529/10000 [08:15<01:21, 17.96it/s]
 85%|‚

[36m(train_fn pid=3017)[0m {'loss': 0.6607, 'grad_norm': 15.325154304504395, 'learning_rate': 1.0536842105263159e-06, 'epoch': 1.8}


 90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 9001/10000 [08:41<00:55, 18.07it/s]
 90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 9003/10000 [08:41<00:55, 17.94it/s]
 90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 9005/10000 [08:41<00:56, 17.68it/s]
 90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 9007/10000 [08:41<00:58, 16.83it/s]
 90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 9009/10000 [08:42<00:58, 17.07it/s]
 90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 9011/10000 [08:42<00:56, 17.36it/s]
 90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 9013/10000 [08:42<00:56, 17.56it/s]
 90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 9015/10000 [08:42<00:57, 17.12it/s]
 90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 9017/10000 [08:42<00:56, 17.45it/s]
 90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 9019/10000 [08:42<00:55, 17.57it/s]
 90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 9021/10000 [08:42<00:55, 17.59it/s]
 90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 9023/10000 [08:42<00:55, 17.71it/s]
 90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 9025/10000 [08:43<00:54, 17.87it/s]
 90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 9027/10000 [08:43<00:54, 17.83it/s]
 90%|‚

[36m(train_fn pid=3017)[0m {'loss': 0.6362, 'grad_norm': 29.84247398376465, 'learning_rate': 5.273684210526316e-07, 'epoch': 1.9}


 95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 9501/10000 [09:09<00:27, 17.95it/s]
 95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 9503/10000 [09:09<00:27, 18.02it/s]
 95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 9505/10000 [09:09<00:27, 17.94it/s]
 95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 9507/10000 [09:09<00:27, 18.05it/s]
 95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 9509/10000 [09:10<00:27, 18.04it/s]
 95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 9511/10000 [09:10<00:27, 18.03it/s]
 95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 9513/10000 [09:10<00:26, 18.07it/s]
 95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 9515/10000 [09:10<00:26, 18.09it/s]
 95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 9517/10000 [09:10<00:26, 18.18it/s]
 95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 9519/10000 [09:10<00:26, 18.16it/s]
 95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 9521/10000 [09:10<00:26, 18.18it/s]
 95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 9523/10000 [09:10<00:26, 18.11it/s]
 95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 9525/10000 [09:10<00:26, 18.16it/s]
 95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 9527/10000 [09

[36m(train_fn pid=3017)[0m {'loss': 0.6631, 'grad_norm': 21.667659759521484, 'learning_rate': 1.0526315789473685e-09, 'epoch': 2.0}


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [09:37<00:00, 17.89it/s]
  0%|          | 0/1250 [00:00<?, ?it/s][A
[36m(train_fn pid=3017)[0m 
  1%|          | 8/1250 [00:00<00:16, 74.28it/s][A
[36m(train_fn pid=3017)[0m 
  1%|‚ñè         | 16/1250 [00:00<00:18, 67.16it/s][A
[36m(train_fn pid=3017)[0m 
  2%|‚ñè         | 23/1250 [00:00<00:18, 65.58it/s][A
[36m(train_fn pid=3017)[0m 
  2%|‚ñè         | 30/1250 [00:00<00:18, 64.58it/s][A
[36m(train_fn pid=3017)[0m 
  3%|‚ñé         | 37/1250 [00:00<00:18, 64.31it/s][A
[36m(train_fn pid=3017)[0m 
  4%|‚ñé         | 44/1250 [00:00<00:18, 63.74it/s][A
[36m(train_fn pid=3017)[0m 
  4%|‚ñç         | 51/1250 [00:00<00:18, 63.73it/s][A
[36m(train_fn pid=3017)[0m 
  5%|‚ñç         | 58/1250 [00:00<00:18, 63.73it/s][A
[36m(train_fn pid=3017)[0m 
  5%|‚ñå         | 65/1250 [00:01<00:18, 63.93it/s][A
[36m(train_fn pid=3017)[0m 
  6%|‚ñå         | 72/1250 [00:01<00:18, 63.56it/s][A
[36m(train_fn pid=3017)[0m 
  6%|

[36m(train_fn pid=3017)[0m {'eval_loss': 4.886448860168457, 'eval_accuracy': 0.0995, 'eval_f1': 0.09942089402770377, 'eval_runtime': 19.8554, 'eval_samples_per_second': 503.641, 'eval_steps_per_second': 62.955, 'epoch': 2.0}


                                                     
100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [09:57<00:00, 17.89it/s]
100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1250/1250 [00:19<00:00, 63.03it/s][A
                                                   [A
                                                     
100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [09:58<00:00, 17.89it/s]
100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [09:58<00:00, 16.71it/s]
  0%|          | 0/1250 [00:00<?, ?it/s]


[36m(train_fn pid=3017)[0m {'train_runtime': 599.9386, 'train_samples_per_second': 133.347, 'train_steps_per_second': 16.668, 'train_loss': 0.8472752380371094, 'epoch': 2.0}


  1%|          | 8/1250 [00:00<00:17, 72.66it/s]
  1%|‚ñè         | 16/1250 [00:00<00:18, 67.44it/s]
  2%|‚ñè         | 23/1250 [00:00<00:18, 65.62it/s]
  2%|‚ñè         | 30/1250 [00:00<00:18, 64.82it/s]
  3%|‚ñé         | 37/1250 [00:00<00:18, 64.59it/s]
  4%|‚ñé         | 44/1250 [00:00<00:18, 64.61it/s]
  4%|‚ñç         | 51/1250 [00:00<00:18, 64.41it/s]
  5%|‚ñç         | 58/1250 [00:00<00:18, 63.95it/s]
  5%|‚ñå         | 65/1250 [00:01<00:18, 63.72it/s]
  6%|‚ñå         | 72/1250 [00:01<00:18, 63.64it/s]
  6%|‚ñã         | 79/1250 [00:01<00:18, 63.87it/s]
  7%|‚ñã         | 86/1250 [00:01<00:18, 63.84it/s]
  7%|‚ñã         | 93/1250 [00:01<00:18, 63.89it/s]
  8%|‚ñä         | 100/1250 [00:01<00:18, 63.81it/s]
  9%|‚ñä         | 107/1250 [00:01<00:17, 63.90it/s]
  9%|‚ñâ         | 114/1250 [00:01<00:17, 64.07it/s]
 10%|‚ñâ         | 121/1250 [00:01<00:17, 64.28it/s]
 10%|‚ñà         | 128/1250 [00:01<00:17, 64.36it/s]
 11%|‚ñà         | 135/1250 [00:02<00:17, 64.45it/s]
 11%|‚ñà‚

[36m(train_fn pid=3366)[0m {'loss': 1.8435, 'grad_norm': 8.142973899841309, 'learning_rate': 1.9960000000000002e-05, 'epoch': 0.1}


  5%|‚ñå         | 500/10000 [00:28<08:50, 17.92it/s]
  5%|‚ñå         | 501/10000 [00:28<09:07, 17.37it/s]
  5%|‚ñå         | 503/10000 [00:28<09:00, 17.56it/s]
  5%|‚ñå         | 505/10000 [00:28<08:56, 17.69it/s]
  5%|‚ñå         | 507/10000 [00:28<08:52, 17.82it/s]
  5%|‚ñå         | 509/10000 [00:28<08:51, 17.86it/s]
  5%|‚ñå         | 511/10000 [00:29<08:49, 17.92it/s]
  5%|‚ñå         | 513/10000 [00:29<08:48, 17.95it/s]
  5%|‚ñå         | 515/10000 [00:29<08:46, 18.02it/s]
  5%|‚ñå         | 517/10000 [00:29<08:46, 18.00it/s]
  5%|‚ñå         | 519/10000 [00:29<08:45, 18.03it/s]
  5%|‚ñå         | 521/10000 [00:29<08:45, 18.03it/s]
  5%|‚ñå         | 523/10000 [00:29<08:43, 18.09it/s]
  5%|‚ñå         | 525/10000 [00:29<08:43, 18.11it/s]
  5%|‚ñå         | 527/10000 [00:29<08:42, 18.14it/s]
  5%|‚ñå         | 529/10000 [00:29<08:44, 18.06it/s]
  5%|‚ñå         | 531/10000 [00:30<08:43, 18.08it/s]
  5%|‚ñå         | 533/10000 [00:30<08:45, 18.01it/s]
  5%|‚ñå         | 535/10000

[36m(train_fn pid=3366)[0m {'loss': 1.0333, 'grad_norm': 12.674107551574707, 'learning_rate': 1.894947368421053e-05, 'epoch': 0.2}


 10%|‚ñà         | 1001/10000 [00:56<08:28, 17.70it/s]
 10%|‚ñà         | 1003/10000 [00:56<08:29, 17.65it/s]
 10%|‚ñà         | 1005/10000 [00:56<08:47, 17.05it/s]
 10%|‚ñà         | 1007/10000 [00:56<08:39, 17.31it/s]
 10%|‚ñà         | 1009/10000 [00:56<08:32, 17.56it/s]
 10%|‚ñà         | 1011/10000 [00:56<08:27, 17.72it/s]
 10%|‚ñà         | 1013/10000 [00:56<08:24, 17.82it/s]
 10%|‚ñà         | 1015/10000 [00:57<08:25, 17.77it/s]
 10%|‚ñà         | 1017/10000 [00:57<08:24, 17.81it/s]
 10%|‚ñà         | 1019/10000 [00:57<08:23, 17.85it/s]
 10%|‚ñà         | 1021/10000 [00:57<08:21, 17.89it/s]
 10%|‚ñà         | 1023/10000 [00:57<08:22, 17.86it/s]
 10%|‚ñà         | 1025/10000 [00:57<08:22, 17.87it/s]
 10%|‚ñà         | 1027/10000 [00:57<08:21, 17.88it/s]
 10%|‚ñà         | 1029/10000 [00:57<08:19, 17.97it/s]
 10%|‚ñà         | 1031/10000 [00:57<08:18, 17.99it/s]
 10%|‚ñà         | 1033/10000 [00:58<08:17, 18.01it/s]
 10%|‚ñà         | 1035/10000 [00:58<08:20, 17.92it/s]
 10%|‚ñà  

[36m(train_fn pid=3366)[0m {'loss': 0.9252, 'grad_norm': 14.229909896850586, 'learning_rate': 1.789684210526316e-05, 'epoch': 0.3}


 15%|‚ñà‚ñå        | 1501/10000 [01:24<07:59, 17.73it/s]
 15%|‚ñà‚ñå        | 1503/10000 [01:24<07:57, 17.78it/s]
 15%|‚ñà‚ñå        | 1505/10000 [01:24<07:57, 17.78it/s]
 15%|‚ñà‚ñå        | 1507/10000 [01:24<07:59, 17.72it/s]
 15%|‚ñà‚ñå        | 1509/10000 [01:24<07:57, 17.77it/s]
 15%|‚ñà‚ñå        | 1511/10000 [01:24<07:55, 17.86it/s]
 15%|‚ñà‚ñå        | 1513/10000 [01:24<07:55, 17.87it/s]
 15%|‚ñà‚ñå        | 1515/10000 [01:24<07:55, 17.86it/s]
 15%|‚ñà‚ñå        | 1517/10000 [01:25<07:57, 17.78it/s]
 15%|‚ñà‚ñå        | 1519/10000 [01:25<07:54, 17.89it/s]
 15%|‚ñà‚ñå        | 1521/10000 [01:25<07:54, 17.87it/s]
 15%|‚ñà‚ñå        | 1523/10000 [01:25<07:57, 17.74it/s]
 15%|‚ñà‚ñå        | 1525/10000 [01:25<07:58, 17.71it/s]
 15%|‚ñà‚ñå        | 1527/10000 [01:25<07:55, 17.81it/s]
 15%|‚ñà‚ñå        | 1529/10000 [01:25<07:53, 17.89it/s]
 15%|‚ñà‚ñå        | 1531/10000 [01:25<07:55, 17.82it/s]
 15%|‚ñà‚ñå        | 1533/10000 [01:25<07:55, 17.79it/s]
 15%|‚ñà‚ñå        | 1535/10000

[36m(train_fn pid=3366)[0m {'loss': 0.8881, 'grad_norm': 15.654630661010742, 'learning_rate': 1.684421052631579e-05, 'epoch': 0.4}


 20%|‚ñà‚ñà        | 2003/10000 [01:52<07:30, 17.76it/s]
 20%|‚ñà‚ñà        | 2005/10000 [01:52<07:26, 17.89it/s]
 20%|‚ñà‚ñà        | 2007/10000 [01:52<07:25, 17.96it/s]
 20%|‚ñà‚ñà        | 2009/10000 [01:52<07:25, 17.92it/s]
 20%|‚ñà‚ñà        | 2011/10000 [01:52<07:23, 18.01it/s]
 20%|‚ñà‚ñà        | 2013/10000 [01:52<07:24, 17.98it/s]
 20%|‚ñà‚ñà        | 2015/10000 [01:53<07:22, 18.05it/s]
 20%|‚ñà‚ñà        | 2017/10000 [01:53<07:23, 17.99it/s]
 20%|‚ñà‚ñà        | 2019/10000 [01:53<07:22, 18.04it/s]
 20%|‚ñà‚ñà        | 2021/10000 [01:53<07:21, 18.06it/s]
 20%|‚ñà‚ñà        | 2023/10000 [01:53<07:21, 18.08it/s]
 20%|‚ñà‚ñà        | 2025/10000 [01:53<07:21, 18.07it/s]
 20%|‚ñà‚ñà        | 2027/10000 [01:53<07:21, 18.05it/s]
 20%|‚ñà‚ñà        | 2029/10000 [01:53<07:22, 18.03it/s]
 20%|‚ñà‚ñà        | 2031/10000 [01:53<07:23, 17.95it/s]
 20%|‚ñà‚ñà        | 2033/10000 [01:54<07:24, 17.91it/s]
 20%|‚ñà‚ñà        | 2035/10000 [01:54<07:23, 17.97it/s]
 20%|‚ñà‚ñà        | 2037/10000

[36m(train_fn pid=3366)[0m {'loss': 0.8913, 'grad_norm': 6.041505336761475, 'learning_rate': 1.579157894736842e-05, 'epoch': 0.5}


 25%|‚ñà‚ñà‚ñå       | 2501/10000 [02:20<07:03, 17.71it/s]
 25%|‚ñà‚ñà‚ñå       | 2503/10000 [02:20<07:03, 17.69it/s]
 25%|‚ñà‚ñà‚ñå       | 2505/10000 [02:20<07:01, 17.78it/s]
 25%|‚ñà‚ñà‚ñå       | 2507/10000 [02:20<07:00, 17.82it/s]
 25%|‚ñà‚ñà‚ñå       | 2509/10000 [02:20<07:00, 17.81it/s]
 25%|‚ñà‚ñà‚ñå       | 2511/10000 [02:20<06:59, 17.84it/s]
 25%|‚ñà‚ñà‚ñå       | 2513/10000 [02:20<06:59, 17.85it/s]
 25%|‚ñà‚ñà‚ñå       | 2515/10000 [02:21<06:57, 17.92it/s]
 25%|‚ñà‚ñà‚ñå       | 2517/10000 [02:21<06:56, 17.96it/s]
 25%|‚ñà‚ñà‚ñå       | 2519/10000 [02:21<06:55, 17.99it/s]
 25%|‚ñà‚ñà‚ñå       | 2521/10000 [02:21<06:56, 17.94it/s]
 25%|‚ñà‚ñà‚ñå       | 2523/10000 [02:21<06:55, 18.00it/s]
 25%|‚ñà‚ñà‚ñå       | 2525/10000 [02:21<06:56, 17.97it/s]
 25%|‚ñà‚ñà‚ñå       | 2527/10000 [02:21<06:54, 18.02it/s]
 25%|‚ñà‚ñà‚ñå       | 2529/10000 [02:21<06:57, 17.90it/s]
 25%|‚ñà‚ñà‚ñå       | 2531/10000 [02:21<06:55, 17.98it/s]
 25%|‚ñà‚ñà‚ñå       | 2533/10000 [02:22<06:55, 17.95it/

[36m(train_fn pid=3366)[0m {'loss': 0.8796, 'grad_norm': 11.075240135192871, 'learning_rate': 1.4738947368421055e-05, 'epoch': 0.6}


 30%|‚ñà‚ñà‚ñà       | 3001/10000 [02:48<06:37, 17.61it/s]
 30%|‚ñà‚ñà‚ñà       | 3003/10000 [02:48<06:35, 17.70it/s]
 30%|‚ñà‚ñà‚ñà       | 3005/10000 [02:48<06:32, 17.81it/s]
 30%|‚ñà‚ñà‚ñà       | 3007/10000 [02:48<06:32, 17.81it/s]
 30%|‚ñà‚ñà‚ñà       | 3009/10000 [02:48<06:31, 17.87it/s]
 30%|‚ñà‚ñà‚ñà       | 3011/10000 [02:48<06:30, 17.88it/s]
 30%|‚ñà‚ñà‚ñà       | 3013/10000 [02:48<06:30, 17.90it/s]
 30%|‚ñà‚ñà‚ñà       | 3015/10000 [02:48<06:29, 17.91it/s]
 30%|‚ñà‚ñà‚ñà       | 3017/10000 [02:49<06:28, 17.98it/s]
 30%|‚ñà‚ñà‚ñà       | 3019/10000 [02:49<06:27, 18.01it/s]
 30%|‚ñà‚ñà‚ñà       | 3021/10000 [02:49<06:27, 18.00it/s]
 30%|‚ñà‚ñà‚ñà       | 3023/10000 [02:49<06:27, 18.00it/s]
 30%|‚ñà‚ñà‚ñà       | 3025/10000 [02:49<06:26, 18.03it/s]
 30%|‚ñà‚ñà‚ñà       | 3027/10000 [02:49<06:26, 18.05it/s]
 30%|‚ñà‚ñà‚ñà       | 3029/10000 [02:49<06:26, 18.05it/s]
 30%|‚ñà‚ñà‚ñà       | 3031/10000 [02:49<06:26, 18.03it/s]
 30%|‚ñà‚ñà‚ñà       | 3033/10000 [02:49<06:26, 18.04it/

[36m(train_fn pid=3366)[0m {'loss': 0.8576, 'grad_norm': 14.236970901489258, 'learning_rate': 1.3686315789473685e-05, 'epoch': 0.7}


 35%|‚ñà‚ñà‚ñà‚ñå      | 3501/10000 [03:16<06:01, 17.96it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 3503/10000 [03:16<06:00, 18.02it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 3505/10000 [03:16<06:00, 18.02it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 3507/10000 [03:16<05:58, 18.09it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 3509/10000 [03:16<05:58, 18.11it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 3511/10000 [03:16<05:57, 18.17it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 3513/10000 [03:16<05:56, 18.18it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 3515/10000 [03:16<05:56, 18.18it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 3517/10000 [03:16<05:55, 18.23it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 3519/10000 [03:17<05:55, 18.21it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 3521/10000 [03:17<05:56, 18.17it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 3523/10000 [03:17<05:56, 18.15it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 3525/10000 [03:17<05:59, 17.99it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 3527/10000 [03:17<06:03, 17.79it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 3529/10000 [03:17<06:05, 17.69it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 3531/10000 [03:17<06:04, 17.73it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      |

[36m(train_fn pid=3366)[0m {'loss': 0.783, 'grad_norm': 2.0500049591064453, 'learning_rate': 1.2633684210526316e-05, 'epoch': 0.8}


 40%|‚ñà‚ñà‚ñà‚ñà      | 4001/10000 [03:43<05:38, 17.73it/s]
 40%|‚ñà‚ñà‚ñà‚ñà      | 4003/10000 [03:44<05:36, 17.82it/s]
 40%|‚ñà‚ñà‚ñà‚ñà      | 4005/10000 [03:44<05:37, 17.79it/s]
 40%|‚ñà‚ñà‚ñà‚ñà      | 4007/10000 [03:44<05:36, 17.82it/s]
 40%|‚ñà‚ñà‚ñà‚ñà      | 4009/10000 [03:44<05:36, 17.82it/s]
 40%|‚ñà‚ñà‚ñà‚ñà      | 4011/10000 [03:44<05:35, 17.87it/s]
 40%|‚ñà‚ñà‚ñà‚ñà      | 4013/10000 [03:44<05:35, 17.83it/s]
 40%|‚ñà‚ñà‚ñà‚ñà      | 4015/10000 [03:44<05:35, 17.83it/s]
 40%|‚ñà‚ñà‚ñà‚ñà      | 4017/10000 [03:44<05:34, 17.89it/s]
 40%|‚ñà‚ñà‚ñà‚ñà      | 4019/10000 [03:44<05:33, 17.94it/s]
 40%|‚ñà‚ñà‚ñà‚ñà      | 4021/10000 [03:45<05:32, 17.97it/s]
 40%|‚ñà‚ñà‚ñà‚ñà      | 4023/10000 [03:45<05:31, 18.03it/s]
 40%|‚ñà‚ñà‚ñà‚ñà      | 4025/10000 [03:45<05:33, 17.90it/s]
 40%|‚ñà‚ñà‚ñà‚ñà      | 4027/10000 [03:45<05:34, 17.86it/s]
 40%|‚ñà‚ñà‚ñà‚ñà      | 4029/10000 [03:45<05:34, 17.87it/s]
 40%|‚ñà‚ñà‚ñà‚ñà      | 4031/10000 [03:45<05:32, 17.93it/s]
 40%|‚ñà‚ñà‚ñà‚ñà      |

[36m(train_fn pid=3366)[0m {'loss': 0.7835, 'grad_norm': 12.520270347595215, 'learning_rate': 1.1581052631578948e-05, 'epoch': 0.9}


 45%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 4500/10000 [04:11<05:07, 17.90it/s]
 45%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 4501/10000 [04:11<05:11, 17.65it/s]
 45%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 4503/10000 [04:11<05:11, 17.64it/s]
 45%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 4505/10000 [04:12<05:08, 17.78it/s]
 45%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 4507/10000 [04:12<05:08, 17.80it/s]
 45%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 4509/10000 [04:12<05:06, 17.90it/s]
 45%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 4511/10000 [04:12<05:06, 17.93it/s]
 45%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 4513/10000 [04:12<05:07, 17.87it/s]
 45%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 4515/10000 [04:12<05:05, 17.93it/s]
 45%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 4517/10000 [04:12<05:04, 18.03it/s]
 45%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 4519/10000 [04:12<05:03, 18.03it/s]
 45%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 4521/10000 [04:12<05:03, 18.07it/s]
 45%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 4523/10000 [04:13<05:02, 18.10it/s]
 45%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 4525/10000 [04:13<05:04, 18.01it/s]
 45%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 4527/10000 [04:13<05:04, 17.96it/s]
 45%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 4529/10000 [04:13<05:05, 17.

[36m(train_fn pid=3366)[0m {'loss': 0.8199, 'grad_norm': 13.998464584350586, 'learning_rate': 1.052842105263158e-05, 'epoch': 1.0}


[36m(train_fn pid=3366)[0m 
  1%|          | 8/1250 [00:00<00:16, 73.08it/s][A
[36m(train_fn pid=3366)[0m 
  1%|‚ñè         | 16/1250 [00:00<00:18, 66.83it/s][A
[36m(train_fn pid=3366)[0m 
  2%|‚ñè         | 23/1250 [00:00<00:18, 65.27it/s][A
[36m(train_fn pid=3366)[0m 
  2%|‚ñè         | 30/1250 [00:00<00:18, 64.50it/s][A
[36m(train_fn pid=3366)[0m 
  3%|‚ñé         | 37/1250 [00:00<00:18, 63.99it/s][A
[36m(train_fn pid=3366)[0m 
  4%|‚ñé         | 44/1250 [00:00<00:18, 63.88it/s][A
[36m(train_fn pid=3366)[0m 
  4%|‚ñç         | 51/1250 [00:00<00:18, 63.55it/s][A
[36m(train_fn pid=3366)[0m 
  5%|‚ñç         | 58/1250 [00:00<00:18, 63.65it/s][A
[36m(train_fn pid=3366)[0m 
  5%|‚ñå         | 65/1250 [00:01<00:18, 63.46it/s][A
[36m(train_fn pid=3366)[0m 
  6%|‚ñå         | 72/1250 [00:01<00:18, 63.55it/s][A
[36m(train_fn pid=3366)[0m 
  6%|‚ñã         | 79/1250 [00:01<00:18, 63.43it/s][A
[36m(train_fn pid=3366)[0m 
  7%|‚ñã         | 86/1250 [00:01<00:1

[36m(train_fn pid=3366)[0m {'eval_loss': 4.609043121337891, 'eval_accuracy': 0.0992, 'eval_f1': 0.0991591237393714, 'eval_runtime': 19.7973, 'eval_samples_per_second': 505.119, 'eval_steps_per_second': 63.14, 'epoch': 1.0}


                                                    
 50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 5000/10000 [04:59<04:38, 17.94it/s]
100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1250/1250 [00:19<00:00, 63.88it/s][A
                                                   [A
 50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 5001/10000 [05:00<4:29:33,  3.24s/it]
 50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 5003/10000 [05:00<3:09:58,  2.28s/it]
 50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 5005/10000 [05:01<2:14:18,  1.61s/it]
 50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 5007/10000 [05:01<1:35:20,  1.15s/it]
 50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 5009/10000 [05:01<1:08:04,  1.22it/s]
 50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 5011/10000 [05:01<48:59,  1.70it/s]  
 50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 5013/10000 [05:01<35:38,  2.33it/s]
 50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 5015/10000 [05:01<26:19,  3.16it/s]
 50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 5017/10000 [05:01<19:47,  4.19it/s]
 50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 5019/10000 [05:01<15:13,  5.45it/s]
 50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 5021/10000 [05:01<12:01,  6.90it/s]
 50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 5023/10000 [05:02<09:4

[36m(train_fn pid=3366)[0m {'loss': 0.5744, 'grad_norm': 14.364840507507324, 'learning_rate': 9.475789473684212e-06, 'epoch': 1.1}


 55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 5501/10000 [05:28<04:11, 17.87it/s]
 55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 5503/10000 [05:28<04:10, 17.96it/s]
 55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 5505/10000 [05:28<04:09, 17.99it/s]
 55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 5507/10000 [05:29<04:09, 18.04it/s]
 55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 5509/10000 [05:29<04:08, 18.09it/s]
 55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 5511/10000 [05:29<04:07, 18.12it/s]
 55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 5513/10000 [05:29<04:07, 18.12it/s]
 55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 5515/10000 [05:29<04:07, 18.15it/s]
 55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 5517/10000 [05:29<04:06, 18.18it/s]
 55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 5519/10000 [05:29<04:07, 18.13it/s]
 55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 5521/10000 [05:29<04:07, 18.11it/s]
 55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 5523/10000 [05:29<04:07, 18.10it/s]
 55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 5525/10000 [05:30<04:08, 18.03it/s]
 55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 5527/10000 [05:30<04:08, 18.01it/s]
 55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 5529/10000 [05:30<04:07, 18.06it/s]
 55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  

[36m(train_fn pid=3366)[0m {'loss': 0.5799, 'grad_norm': 13.314250946044922, 'learning_rate': 8.423157894736843e-06, 'epoch': 1.2}


 60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 6000/10000 [05:56<03:39, 18.23it/s]
 60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 6001/10000 [05:56<03:40, 18.13it/s]
 60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 6003/10000 [05:56<03:40, 18.12it/s]
 60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 6005/10000 [05:56<03:40, 18.11it/s]
 60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 6007/10000 [05:56<03:40, 18.14it/s]
 60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 6009/10000 [05:56<03:39, 18.18it/s]
 60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 6011/10000 [05:56<03:39, 18.20it/s]
 60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 6013/10000 [05:57<03:39, 18.19it/s]
 60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 6015/10000 [05:57<03:38, 18.23it/s]
 60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 6017/10000 [05:57<03:38, 18.21it/s]
 60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 6019/10000 [05:57<03:38, 18.24it/s]
 60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 6021/10000 [05:57<03:38, 18.19it/s]
 60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 6023/10000 [05:57<03:39, 18.15it/s]
 60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 6025/10000 [05:57<03:40, 18.05it/s]
 60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 6027/10000 [05:57<03:39, 18.09it/s]
 60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  

[36m(train_fn pid=3366)[0m {'loss': 0.5573, 'grad_norm': 15.877497673034668, 'learning_rate': 7.370526315789474e-06, 'epoch': 1.3}


 65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 6501/10000 [06:24<03:17, 17.71it/s]
 65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 6503/10000 [06:24<03:17, 17.70it/s]
 65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 6505/10000 [06:24<03:18, 17.61it/s]
 65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 6507/10000 [06:24<03:17, 17.67it/s]
 65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 6509/10000 [06:24<03:17, 17.67it/s]
 65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 6511/10000 [06:24<03:16, 17.73it/s]
 65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 6513/10000 [06:24<03:16, 17.78it/s]
 65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 6515/10000 [06:25<03:15, 17.78it/s]
 65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 6517/10000 [06:25<03:15, 17.83it/s]
 65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 6519/10000 [06:25<03:16, 17.74it/s]
 65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 6521/10000 [06:25<03:15, 17.81it/s]
 65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 6523/10000 [06:25<03:15, 17.81it/s]
 65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 6525/10000 [06:25<03:13, 17.93it/s]
 65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 6527/10000 [06:25<03:13, 17.94it/s]
 65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 6529/10000 [06:25<03:12, 18.02i

[36m(train_fn pid=3366)[0m {'loss': 0.5751, 'grad_norm': 3.140561580657959, 'learning_rate': 6.317894736842106e-06, 'epoch': 1.4}


 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 7000/10000 [06:52<02:44, 18.20it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 7001/10000 [06:52<02:45, 18.10it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 7003/10000 [06:52<02:45, 18.13it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 7005/10000 [06:52<02:44, 18.18it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 7007/10000 [06:52<02:45, 18.11it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 7009/10000 [06:52<02:45, 18.09it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 7011/10000 [06:52<02:44, 18.17it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 7013/10000 [06:52<02:44, 18.16it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 7015/10000 [06:52<02:44, 18.17it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 7017/10000 [06:52<02:44, 18.18it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 7019/10000 [06:53<02:43, 18.20it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 7021/10000 [06:53<02:43, 18.22it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 7023/10000 [06:53<02:43, 18.16it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 7025/10000 [06:53<02:43, 18.16it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 7027/10000 [06:53<02:43, 18.18i

[36m(train_fn pid=3366)[0m {'loss': 0.5747, 'grad_norm': 15.133587837219238, 'learning_rate': 5.265263157894738e-06, 'epoch': 1.5}


 75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç  | 7499/10000 [07:19<02:23, 17.49it/s]
 75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 7501/10000 [07:19<02:23, 17.47it/s]
 75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 7503/10000 [07:19<02:21, 17.61it/s]
 75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 7505/10000 [07:20<02:20, 17.76it/s]
 75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 7507/10000 [07:20<02:19, 17.82it/s]
 75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 7509/10000 [07:20<02:19, 17.89it/s]
 75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 7511/10000 [07:20<02:21, 17.65it/s]
 75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 7513/10000 [07:20<02:20, 17.71it/s]
 75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 7515/10000 [07:20<02:19, 17.78it/s]
 75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 7517/10000 [07:20<02:20, 17.73it/s]
 75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 7519/10000 [07:20<02:19, 17.77it/s]
 75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 7521/10000 [07:20<02:18, 17.90it/s]
 75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 7523/10000 [07:21<02:18, 17.88it/s]
 75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 7525/10000 [07:21<02:18, 17.90it/s]
 75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 7

[36m(train_fn pid=3366)[0m {'loss': 0.5729, 'grad_norm': 3.9501726627349854, 'learning_rate': 4.212631578947368e-06, 'epoch': 1.6}


 80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 8001/10000 [07:47<01:52, 17.70it/s]
 80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 8003/10000 [07:47<01:51, 17.83it/s]
 80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 8005/10000 [07:47<01:51, 17.91it/s]
 80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 8007/10000 [07:47<01:50, 17.99it/s]
 80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 8009/10000 [07:48<01:50, 17.95it/s]
 80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 8011/10000 [07:48<01:50, 17.93it/s]
 80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 8013/10000 [07:48<01:50, 17.91it/s]
 80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 8015/10000 [07:48<01:50, 17.94it/s]
 80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 8017/10000 [07:48<01:50, 17.98it/s]
 80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 8019/10000 [07:48<01:50, 17.97it/s]
 80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 8021/10000 [07:48<01:50, 17.90it/s]
 80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 8023/10000 [07:48<01:50, 17.95it/s]
 80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 8025/10000 [07:48<01:50, 17.93it/s]
 80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 8027/10000 [07:49<01:50, 17.93it/s]
 80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 8

[36m(train_fn pid=3366)[0m {'loss': 0.5621, 'grad_norm': 11.067232131958008, 'learning_rate': 3.1600000000000002e-06, 'epoch': 1.7}


 85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 8501/10000 [08:15<01:23, 18.04it/s]
 85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 8503/10000 [08:15<01:22, 18.06it/s]
 85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 8505/10000 [08:15<01:22, 18.07it/s]
 85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 8507/10000 [08:15<01:22, 18.10it/s]
 85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 8509/10000 [08:15<01:22, 18.12it/s]
 85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 8511/10000 [08:15<01:22, 18.13it/s]
 85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 8513/10000 [08:16<01:21, 18.16it/s]
 85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 8515/10000 [08:16<01:21, 18.13it/s]
 85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 8517/10000 [08:16<01:21, 18.17it/s]
 85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 8519/10000 [08:16<01:21, 18.11it/s]
 85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 8521/10000 [08:16<01:21, 18.16it/s]
 85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 8523/10000 [08:16<01:21, 18.16it/s]
 85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 8525/10000 [08:16<01:21, 18.17it/s]
 85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 8527/10000 [08:16<01:21, 18.18it/s]
 85%|‚

[36m(train_fn pid=3366)[0m {'loss': 0.5551, 'grad_norm': 9.72142219543457, 'learning_rate': 2.1073684210526317e-06, 'epoch': 1.8}


 90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 9001/10000 [08:43<00:55, 17.85it/s]
 90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 9003/10000 [08:43<00:55, 17.88it/s]
 90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 9005/10000 [08:43<00:55, 17.97it/s]
 90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 9007/10000 [08:43<00:55, 17.90it/s]
 90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 9009/10000 [08:43<00:55, 17.89it/s]
 90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 9011/10000 [08:43<00:55, 17.83it/s]
 90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 9013/10000 [08:43<00:55, 17.84it/s]
 90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 9015/10000 [08:43<00:55, 17.74it/s]
 90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 9017/10000 [08:44<00:55, 17.87it/s]
 90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 9019/10000 [08:44<00:54, 17.87it/s]
 90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 9021/10000 [08:44<00:54, 17.88it/s]
 90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 9023/10000 [08:44<00:54, 17.87it/s]
 90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 9025/10000 [08:44<00:54, 17.88it/s]
 90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 9027/10000 [08:44<00:54, 17.83it/s]
 90%|‚

[36m(train_fn pid=3366)[0m {'loss': 0.5256, 'grad_norm': 25.543140411376953, 'learning_rate': 1.0547368421052632e-06, 'epoch': 1.9}


 95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 9503/10000 [09:10<00:27, 18.05it/s]
 95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 9505/10000 [09:11<00:27, 18.10it/s]
 95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 9507/10000 [09:11<00:27, 18.16it/s]
 95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 9509/10000 [09:11<00:27, 18.18it/s]
 95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 9511/10000 [09:11<00:26, 18.15it/s]
 95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 9513/10000 [09:11<00:26, 18.13it/s]
 95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 9515/10000 [09:11<00:26, 18.18it/s]
 95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 9517/10000 [09:11<00:26, 18.15it/s]
 95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 9519/10000 [09:11<00:26, 18.09it/s]
 95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 9521/10000 [09:11<00:26, 18.08it/s]
 95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 9523/10000 [09:12<00:26, 18.11it/s]
 95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 9525/10000 [09:12<00:26, 18.10it/s]
 95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 9527/10000 [09:12<00:26, 18.11it/s]
 95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 9529/10000 [09

[36m(train_fn pid=3366)[0m {'loss': 0.5635, 'grad_norm': 16.22545623779297, 'learning_rate': 2.105263157894737e-09, 'epoch': 2.0}


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [09:38<00:00, 18.13it/s]
  0%|          | 0/1250 [00:00<?, ?it/s][A
[36m(train_fn pid=3366)[0m 
  1%|          | 8/1250 [00:00<00:16, 74.52it/s][A
[36m(train_fn pid=3366)[0m 
  1%|‚ñè         | 16/1250 [00:00<00:18, 68.17it/s][A
[36m(train_fn pid=3366)[0m 
  2%|‚ñè         | 23/1250 [00:00<00:18, 66.41it/s][A
[36m(train_fn pid=3366)[0m 
  2%|‚ñè         | 30/1250 [00:00<00:18, 65.61it/s][A
[36m(train_fn pid=3366)[0m 
  3%|‚ñé         | 37/1250 [00:00<00:18, 65.09it/s][A
[36m(train_fn pid=3366)[0m 
  4%|‚ñé         | 44/1250 [00:00<00:18, 64.81it/s][A
[36m(train_fn pid=3366)[0m 
  4%|‚ñç         | 51/1250 [00:00<00:18, 64.77it/s][A
[36m(train_fn pid=3366)[0m 
  5%|‚ñç         | 58/1250 [00:00<00:18, 64.10it/s][A
[36m(train_fn pid=3366)[0m 
  5%|‚ñå         | 65/1250 [00:00<00:18, 64.13it/s][A
[36m(train_fn pid=3366)[0m 
  6%|‚ñå         | 72/1250 [00:01<00:18, 64.15it/s][A
[36m(train_fn pid=3366)[0m 
  6%|

[36m(train_fn pid=3366)[0m {'eval_loss': 5.5601372718811035, 'eval_accuracy': 0.0988, 'eval_f1': 0.09878797028181915, 'eval_runtime': 19.7828, 'eval_samples_per_second': 505.488, 'eval_steps_per_second': 63.186, 'epoch': 2.0}


                                                     
100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [09:58<00:00, 18.13it/s]
100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1250/1250 [00:19<00:00, 64.46it/s][A
                                                   [A


[36m(train_fn pid=3366)[0m {'train_runtime': 600.9953, 'train_samples_per_second': 133.113, 'train_steps_per_second': 16.639, 'train_loss': 0.7672928863525391, 'epoch': 2.0}


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [09:59<00:00, 18.13it/s]
100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [09:59<00:00, 16.67it/s]
  0%|          | 0/1250 [00:00<?, ?it/s]
  1%|          | 8/1250 [00:00<00:16, 75.45it/s]
  1%|‚ñè         | 16/1250 [00:00<00:17, 68.99it/s]
  2%|‚ñè         | 23/1250 [00:00<00:18, 67.04it/s]
  2%|‚ñè         | 30/1250 [00:00<00:18, 65.53it/s]
  3%|‚ñé         | 37/1250 [00:00<00:18, 64.70it/s]
  4%|‚ñé         | 44/1250 [00:00<00:18, 64.46it/s]
  4%|‚ñç         | 51/1250 [00:00<00:18, 64.35it/s]
  5%|‚ñç         | 58/1250 [00:00<00:18, 64.36it/s]
  5%|‚ñå         | 65/1250 [00:00<00:18, 63.55it/s]
  6%|‚ñå         | 72/1250 [00:01<00:18, 62.10it/s]
  6%|‚ñã         | 79/1250 [00:01<00:18, 61.73it/s]
  7%|‚ñã         | 86/1250 [00:01<00:18, 61.53it/s]
  7%|‚ñã         | 93/1250 [00:01<00:18, 62.24it/s]
  8%|‚ñä         | 100/1250 [00:01<00:18, 62.79it/s]
  9%|‚ñä         | 107/1250 [00:01<00:18, 63.05it/s]
  9%|‚ñâ         | 114/1250 [00:

In [16]:
best_trial = analysis.get_best_trial(metric="eval_accuracy", mode="max")

# Ëé∑ÂèñÊ£ÄÊü•ÁÇπË∑ØÂæÑÔºàÈÄöËøá checkpoint Â±ûÊÄßÔºâ
best_checkpoint = best_trial.checkpoint
best_checkpoint_dir = best_checkpoint.to_directory()  # ÊèêÂèñÊ£ÄÊü•ÁÇπÁõÆÂΩï
print(f"ÊúÄ‰Ω≥Ê®°ÂûãË∑ØÂæÑÔºö{best_checkpoint_dir}")

# Âä†ËΩΩÊ®°Âûã
from transformers import AutoModel
best_model = DistilBertForSequenceClassification.from_pretrained(best_checkpoint_dir)

ÊúÄ‰Ω≥Ê®°ÂûãË∑ØÂæÑÔºö/tmp/checkpoint_tmp_32a01f50c7a4421fb8fceebea21d4f87


In [17]:
trainer = Trainer(
    model=best_model,
    args=TrainingArguments(output_dir="./tmp"),  # ‰∏¥Êó∂ÁõÆÂΩïÔºå‰ªÖÁî®‰∫éÈ¢ÑÊµã
)

predictions = trainer.predict(test_dataset)
predictions_logits = predictions.predictions
predicted_labels = np.argmax(predictions_logits, axis=1)

accuracy = accuracy_score(test_labels_encoded, predicted_labels)
f1 = f1_score(test_labels_encoded, predicted_labels, average="macro")

print(f"Accuracy: {accuracy:.4f}")
print(f"F1 Score (Macro Average): {f1:.4f}")
wandb.finish()




Accuracy: 0.8056
F1 Score (Macro Average): 0.8055


0,1
test/loss,‚ñÅ
test/model_preparation_time,‚ñÅ
test/runtime,‚ñÅ
test/samples_per_second,‚ñÅ
test/steps_per_second,‚ñÅ
train/global_step,‚ñÅ

0,1
test/loss,0.64161
test/model_preparation_time,0.0014
test/runtime,19.6133
test/samples_per_second,509.858
test/steps_per_second,63.732
train/global_step,0.0
