In [1]:
import wandb
import pandas as pd
from datasets import Dataset
from datasets import DatasetDict
from sklearn.model_selection import train_test_split
from transformers import XLNetTokenizer
import sentencepiece
from transformers import XLNetForSequenceClassification, TrainingArguments, Trainer
import numpy as np
from sklearn.metrics import accuracy_score, f1_score
import torch
from ray.air import session
import ray
from ray import tune
import os

In [2]:
df = pd.read_csv("./dataset/WELFake_Dataset.csv")
df = df.dropna()
df['text'] = df['title'] + " " + df['text']


In [3]:
train_df, test_df = train_test_split(df, test_size=0.2, random_state=42)
train_df, eval_df = train_test_split(train_df, test_size=0.2, random_state=42)


In [4]:
tokenizer = XLNetTokenizer.from_pretrained('xlnet-base-cased', cache_dir='./model')

def preprocess(examples):
    return tokenizer(
        examples['text'],
        truncation=True,
        padding='max_length',
        max_length=256,
        return_tensors="pt"
    )

train_dataset = Dataset.from_pandas(train_df[['text', 'label']])
eval_dataset = Dataset.from_pandas(eval_df[['text', 'label']])
test_dataset = Dataset.from_pandas(test_df[['text', 'label']])

In [5]:
train_dataset = train_dataset.map(preprocess, batched=True)
eval_dataset = eval_dataset.map(preprocess, batched=True)
test_dataset = test_dataset.map(preprocess, batched=True)

Map:   0%|          | 0/45783 [00:00<?, ? examples/s]

Map:   0%|          | 0/11446 [00:00<?, ? examples/s]

Map:   0%|          | 0/14308 [00:00<?, ? examples/s]

In [6]:
def compute_metrics(eval_pred):
    predictions, labels = eval_pred
    # Get the predicted class by using argmax (for multi-class classification)
    preds = np.argmax(predictions, axis=1)
    
    # Calculate accuracy and F1 score
    accuracy = accuracy_score(labels, preds)
    f1 = f1_score(labels, preds, average="binary")  # Use 'micro', 'macro', or 'weighted' based on the task

    return {
        'accuracy': accuracy,
        'f1': f1,
    }

In [7]:
model = XLNetForSequenceClassification.from_pretrained(
    'xlnet/xlnet-base-cased',
    num_labels=2,
    problem_type="single_label_classification",
    cache_dir='./model'
)

Some weights of XLNetForSequenceClassification were not initialized from the model checkpoint at xlnet/xlnet-base-cased and are newly initialized: ['logits_proj.bias', 'logits_proj.weight', 'sequence_summary.summary.bias', 'sequence_summary.summary.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


In [8]:
training_args = TrainingArguments(
    output_dir='./results',
    num_train_epochs=1,
    per_device_train_batch_size=8,
    per_device_eval_batch_size=16,
    warmup_steps=500,
    weight_decay=0.01,
    logging_dir='./logs',
    eval_strategy="epoch",
    save_strategy="epoch",
    load_best_model_at_end=True,
    metric_for_best_model="accuracy"
)

In [9]:
# def compute_metrics(eval_pred):
#     logits, labels = eval_pred
#     predictions = np.argmax(logits, axis=-1)
#     return {'accuracy': accuracy_score(labels, predictions)}

# trainer = Trainer(
#     model=model,
#     args=training_args,
#     train_dataset=train_dataset,
#     eval_dataset=val_dataset,
#     compute_metrics=compute_metrics
# )

# trainer.train()

In [10]:
def train_fn(config, model, train_dataset, eval_dataset):

    try:
        trial_dir = session.get_trial_dir()  # ‰æãÂ¶ÇÔºö~/ray_results/test/trial_xxx/
        output_dir = os.path.join(trial_dir, "results")
    except Exception as e:
        print(f"Ë∑ØÂæÑÈîôËØØ: {str(e)}")
        raise
    
    # Update training arguments with the hyperparameters from Ray Tune
    training_args = TrainingArguments(
        run_name = "ray_test",
        output_dir=output_dir,
        num_train_epochs=1,  
        
        per_device_train_batch_size=config["batch_size"],  # Hyperparameter from Ray Tune
        per_device_eval_batch_size=config["batch_size"],   # Hyperparameter from Ray Tune
        # warmup_steps=config["warmup_steps"],               # Hyperparameter from Ray Tune
        warmup_steps=500,
        learning_rate=config["learning_rate"],              # Hyperparameter from Ray Tune
        # learning_rate=1e-5,
        
        weight_decay=0.01,
        logging_dir=os.path.join(trial_dir, "logs"),  
        logging_steps=500,
        eval_strategy="epoch",
        save_strategy="epoch",
        save_total_limit=1,
        metric_for_best_model="eval_accuracy",
    )

    
    # Initialize the Trainer
    trainer = Trainer(
        model=model, 
        args=training_args, 
        train_dataset=train_dataset, 
        eval_dataset=eval_dataset, 
        compute_metrics=compute_metrics,
    )
    try:
        # Train the model
        trainer.train()
    except Exception as e:
        print(f"ËÆ≠ÁªÉÂ§±Ë¥•: {str(e)}")
        raise

    try:
    # Evaluate the model
        eval_results = trainer.evaluate()
    except Exception as e:
        print(f"ËØÑ‰º∞Â§±Ë¥•: {str(e)}")
        raise

    try:
    # Return the evaluation results to Ray Tune
        tune.report(metrics=eval_results)
        trainer.save_model(output_dir)
        tune.report(
            metrics=eval_results,
            checkpoint=tune.Checkpoint.from_directory(output_dir)  # Â∞ÜÊ®°ÂûãÁõÆÂΩï‰Ωú‰∏∫Ê£ÄÊü•ÁÇπ
        )
    except Exception as e:
        print(f"Êä•ÂëäÈîôËØØ: {str(e)}")
        raise


In [11]:
search_space = {
    "learning_rate": tune.grid_search([1e-5, 2e-5]),
    "batch_size": tune.choice([8, 16]),
    # "warmup_steps": tune.choice([500, 1000, 2000]),
}

In [12]:
wandb.init(project="Mlops-fakenews", entity="yunchiz-new-york-university")

[34m[1mwandb[0m: [32m[41mERROR[0m Failed to detect the name of this notebook. You can set it manually with the WANDB_NOTEBOOK_NAME environment variable to enable code saving.
[34m[1mwandb[0m: Using wandb-core as the SDK backend.  Please refer to https://wandb.me/wandb-core for more information.
[34m[1mwandb[0m: Currently logged in as: [33myunchiz[0m ([33myunchiz-new-york-university[0m) to [32mhttps://api.wandb.ai[0m. Use [1m`wandb login --relogin`[0m to force relogin


In [13]:
current_dir = os.getcwd()
storage_path = f"file://{current_dir}/ray_results"

train_fn_with_params = tune.with_parameters(train_fn, model=model, train_dataset=train_dataset, eval_dataset=eval_dataset)
ray.init(ignore_reinit_error=True)  # Initialize Ray
analysis = tune.run(
    train_fn_with_params,  # The training function that Ray Tune will use
    config=search_space,  # The search space of hyperparameters
    # resources_per_trial={"cpu": 1, "gpu": 1},
    resources_per_trial={"cpu": 0, "gpu": 1},
    num_samples=2,  # Number of trials (hyperparameter combinations)
    verbose=1,  # Verbosity level of Ray Tune
    storage_path=storage_path,
    name="ray_test",
)


0,1
Current time:,2025-04-17 13:03:20
Running for:,01:06:58.62
Memory:,35.1/629.9 GiB

Trial name,status,loc,batch_size,learning_rate,iter,total time (s),eval_loss,eval_accuracy,eval_f1
train_fn_ecb7e_00000,TERMINATED,172.17.0.4:22638,8,1e-05,2,961.868,0.0208877,0.995806,0.995939
train_fn_ecb7e_00001,TERMINATED,172.17.0.4:23219,8,2e-05,2,1013.54,0.0220041,0.995632,0.995766
train_fn_ecb7e_00002,TERMINATED,172.17.0.4:23691,8,1e-05,2,1026.48,0.0208877,0.995806,0.995939
train_fn_ecb7e_00003,TERMINATED,172.17.0.4:24181,16,2e-05,2,908.144,0.0161716,0.996418,0.996533


[36m(train_fn pid=22638)[0m wandb: Currently logged in as: yunchiz (yunchiz-new-york-university) to https://api.wandb.ai. Use `wandb login --relogin` to force relogin
[36m(train_fn pid=22638)[0m wandb: Tracking run with wandb version 0.19.9
[36m(train_fn pid=22638)[0m wandb: Run data is saved locally in /tmp/ray/session_2025-04-17_11-56-14_065850_20753/artifacts/2025-04-17_11-56-21/ray_test/working_dirs/train_fn_ecb7e_00000_0_batch_size=8,learning_rate=0.0000_2025-04-17_11-56-21/wandb/run-20250417_115632-lv2r0ig6
[36m(train_fn pid=22638)[0m wandb: Run `wandb offline` to turn off syncing.
[36m(train_fn pid=22638)[0m wandb: Syncing run ray_test
[36m(train_fn pid=22638)[0m wandb: ‚≠êÔ∏è View project at https://wandb.ai/yunchiz-new-york-university/huggingface
[36m(train_fn pid=22638)[0m wandb: üöÄ View run at https://wandb.ai/yunchiz-new-york-university/huggingface/runs/lv2r0ig6
  0%|          | 0/5723 [00:00<?, ?it/s]
  0%|          | 1/5723 [00:00<1:31:59,  1.04it/s]
  0%|

[36m(train_fn pid=22638)[0m {'loss': 0.3187, 'grad_norm': 0.09295554459095001, 'learning_rate': 9.980000000000001e-06, 'epoch': 0.09}


  9%|‚ñä         | 500/5723 [01:12<12:34,  6.93it/s]
  9%|‚ñâ         | 501/5723 [01:12<13:01,  6.68it/s]
  9%|‚ñâ         | 502/5723 [01:13<12:49,  6.78it/s]
  9%|‚ñâ         | 503/5723 [01:13<12:38,  6.88it/s]
  9%|‚ñâ         | 504/5723 [01:13<12:30,  6.95it/s]
  9%|‚ñâ         | 505/5723 [01:13<12:24,  7.01it/s]
  9%|‚ñâ         | 506/5723 [01:13<12:19,  7.06it/s]
  9%|‚ñâ         | 507/5723 [01:13<12:16,  7.08it/s]
  9%|‚ñâ         | 508/5723 [01:13<12:13,  7.11it/s]
  9%|‚ñâ         | 509/5723 [01:14<12:11,  7.13it/s]
  9%|‚ñâ         | 510/5723 [01:14<12:13,  7.11it/s]
  9%|‚ñâ         | 511/5723 [01:14<12:13,  7.10it/s]
  9%|‚ñâ         | 512/5723 [01:14<12:15,  7.09it/s]
  9%|‚ñâ         | 513/5723 [01:14<12:13,  7.10it/s]
  9%|‚ñâ         | 514/5723 [01:14<12:13,  7.10it/s]
  9%|‚ñâ         | 515/5723 [01:14<12:12,  7.11it/s]
  9%|‚ñâ         | 516/5723 [01:15<12:10,  7.13it/s]
  9%|‚ñâ         | 517/5723 [01:15<12:11,  7.11it/s]
  9%|‚ñâ         | 518/5723 [01:15<12:10,  7.1

[36m(train_fn pid=22638)[0m {'loss': 0.053, 'grad_norm': 0.0030184437055140734, 'learning_rate': 9.044610377177868e-06, 'epoch': 0.17}


 17%|‚ñà‚ñã        | 1001/5723 [02:23<11:12,  7.02it/s]
 18%|‚ñà‚ñä        | 1002/5723 [02:24<11:09,  7.05it/s]
 18%|‚ñà‚ñä        | 1003/5723 [02:24<11:06,  7.08it/s]
 18%|‚ñà‚ñä        | 1004/5723 [02:24<11:06,  7.08it/s]
 18%|‚ñà‚ñä        | 1005/5723 [02:24<11:06,  7.08it/s]
 18%|‚ñà‚ñä        | 1006/5723 [02:24<11:05,  7.09it/s]
 18%|‚ñà‚ñä        | 1007/5723 [02:24<11:05,  7.09it/s]
 18%|‚ñà‚ñä        | 1008/5723 [02:24<11:04,  7.09it/s]
 18%|‚ñà‚ñä        | 1009/5723 [02:25<11:02,  7.11it/s]
 18%|‚ñà‚ñä        | 1010/5723 [02:25<11:02,  7.11it/s]
 18%|‚ñà‚ñä        | 1011/5723 [02:25<11:01,  7.12it/s]
 18%|‚ñà‚ñä        | 1012/5723 [02:25<11:02,  7.12it/s]
 18%|‚ñà‚ñä        | 1013/5723 [02:25<11:02,  7.11it/s]
 18%|‚ñà‚ñä        | 1014/5723 [02:25<11:03,  7.10it/s]
 18%|‚ñà‚ñä        | 1015/5723 [02:25<11:02,  7.11it/s]
 18%|‚ñà‚ñä        | 1016/5723 [02:26<11:02,  7.11it/s]
 18%|‚ñà‚ñä        | 1017/5723 [02:26<11:00,  7.12it/s]
 18%|‚ñà‚ñä        | 1018/5723 [02:26<11:01,  7.

[36m(train_fn pid=22638)[0m {'loss': 0.0602, 'grad_norm': 0.18017518520355225, 'learning_rate': 8.087306145893166e-06, 'epoch': 0.26}


 26%|‚ñà‚ñà‚ñå       | 1501/5723 [03:34<09:57,  7.07it/s]
 26%|‚ñà‚ñà‚ñå       | 1502/5723 [03:34<09:56,  7.08it/s]
 26%|‚ñà‚ñà‚ñã       | 1503/5723 [03:34<09:55,  7.08it/s]
 26%|‚ñà‚ñà‚ñã       | 1504/5723 [03:35<09:55,  7.09it/s]
 26%|‚ñà‚ñà‚ñã       | 1505/5723 [03:35<09:54,  7.09it/s]
 26%|‚ñà‚ñà‚ñã       | 1506/5723 [03:35<09:54,  7.09it/s]
 26%|‚ñà‚ñà‚ñã       | 1507/5723 [03:35<09:54,  7.10it/s]
 26%|‚ñà‚ñà‚ñã       | 1508/5723 [03:35<09:54,  7.09it/s]
 26%|‚ñà‚ñà‚ñã       | 1509/5723 [03:35<09:53,  7.09it/s]
 26%|‚ñà‚ñà‚ñã       | 1510/5723 [03:35<09:53,  7.09it/s]
 26%|‚ñà‚ñà‚ñã       | 1511/5723 [03:35<09:52,  7.11it/s]
 26%|‚ñà‚ñà‚ñã       | 1512/5723 [03:36<09:50,  7.13it/s]
 26%|‚ñà‚ñà‚ñã       | 1513/5723 [03:36<09:50,  7.13it/s]
 26%|‚ñà‚ñà‚ñã       | 1514/5723 [03:36<09:50,  7.12it/s]
 26%|‚ñà‚ñà‚ñã       | 1515/5723 [03:36<09:51,  7.12it/s]
 26%|‚ñà‚ñà‚ñã       | 1516/5723 [03:36<09:50,  7.13it/s]
 27%|‚ñà‚ñà‚ñã       | 1517/5723 [03:36<09:49,  7.13it/s]
 27%|‚ñà‚ñà‚ñã

[36m(train_fn pid=22638)[0m {'loss': 0.0509, 'grad_norm': 0.028956551104784012, 'learning_rate': 7.130001914608463e-06, 'epoch': 0.35}


 35%|‚ñà‚ñà‚ñà‚ñç      | 2001/5723 [04:45<08:48,  7.05it/s]
 35%|‚ñà‚ñà‚ñà‚ñç      | 2002/5723 [04:45<08:45,  7.08it/s]
 35%|‚ñà‚ñà‚ñà‚ñç      | 2003/5723 [04:45<08:45,  7.08it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 2004/5723 [04:45<08:48,  7.04it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 2005/5723 [04:45<08:46,  7.06it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 2006/5723 [04:45<08:45,  7.08it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 2007/5723 [04:45<08:44,  7.09it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 2008/5723 [04:46<08:42,  7.10it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 2009/5723 [04:46<08:42,  7.11it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 2010/5723 [04:46<08:43,  7.10it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 2011/5723 [04:46<08:41,  7.11it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 2012/5723 [04:46<08:42,  7.10it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 2013/5723 [04:46<08:42,  7.10it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 2014/5723 [04:46<08:42,  7.10it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 2015/5723 [04:47<08:43,  7.08it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 2016/5723 [04:47<08:43,  7.08it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 2017/5723 [04:4

[36m(train_fn pid=22638)[0m {'loss': 0.0395, 'grad_norm': 0.0018142297631129622, 'learning_rate': 6.172697683323761e-06, 'epoch': 0.44}


 44%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 2501/5723 [05:55<07:34,  7.09it/s]
 44%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 2502/5723 [05:55<07:33,  7.10it/s]
 44%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 2503/5723 [05:55<07:32,  7.11it/s]
 44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 2504/5723 [05:55<07:33,  7.10it/s]
 44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 2505/5723 [05:56<07:32,  7.12it/s]
 44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 2506/5723 [05:56<07:32,  7.11it/s]
 44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 2507/5723 [05:56<07:35,  7.07it/s]
 44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 2508/5723 [05:56<07:33,  7.09it/s]
 44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 2509/5723 [05:56<07:32,  7.10it/s]
 44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 2510/5723 [05:56<07:32,  7.10it/s]
 44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 2511/5723 [05:56<07:31,  7.11it/s]
 44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 2512/5723 [05:57<07:33,  7.09it/s]
 44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 2513/5723 [05:57<07:33,  7.08it/s]
 44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 2514/5723 [05:57<07:32,  7.09it/s]
 44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 2515/5723 [05:57<07:32,  7.09it/s]
 44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 2516/5723 [05:57<07:32,  7.09it/s]
 44%|‚ñà

[36m(train_fn pid=22638)[0m {'loss': 0.0339, 'grad_norm': 0.003835927229374647, 'learning_rate': 5.215393452039058e-06, 'epoch': 0.52}


 52%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 3001/5723 [07:05<06:27,  7.02it/s]
 52%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 3002/5723 [07:06<06:26,  7.04it/s]
 52%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 3003/5723 [07:06<06:26,  7.03it/s]
 52%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 3004/5723 [07:06<06:25,  7.04it/s]
 53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 3005/5723 [07:06<06:26,  7.04it/s]
 53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 3006/5723 [07:06<06:25,  7.04it/s]
 53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 3007/5723 [07:06<06:30,  6.96it/s]
 53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 3008/5723 [07:06<06:30,  6.95it/s]
 53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 3009/5723 [07:07<06:31,  6.94it/s]
 53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 3010/5723 [07:07<06:28,  6.97it/s]
 53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 3011/5723 [07:07<06:27,  7.01it/s]
 53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 3012/5723 [07:07<06:25,  7.03it/s]
 53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 3013/5723 [07:07<06:26,  7.01it/s]
 53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 3014/5723 [07:07<06:24,  7.04it/s]
 53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 3015/5723 [07:07<06:24,  7.05it/s]
 53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 3016/5723 [

[36m(train_fn pid=22638)[0m {'loss': 0.0411, 'grad_norm': 0.007510774303227663, 'learning_rate': 4.258089220754356e-06, 'epoch': 0.61}


 61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 3500/5723 [08:16<05:11,  7.13it/s]
 61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 3501/5723 [08:16<05:13,  7.09it/s]
 61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 3502/5723 [08:16<05:12,  7.11it/s]
 61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 3503/5723 [08:16<05:11,  7.12it/s]
 61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 3504/5723 [08:16<05:11,  7.13it/s]
 61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 3505/5723 [08:16<05:10,  7.13it/s]
 61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 3506/5723 [08:17<05:11,  7.12it/s]
 61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 3507/5723 [08:17<05:10,  7.14it/s]
 61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 3508/5723 [08:17<05:10,  7.13it/s]
 61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 3509/5723 [08:17<05:11,  7.12it/s]
 61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 3510/5723 [08:17<05:10,  7.12it/s]
 61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 3511/5723 [08:17<05:10,  7.12it/s]
 61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 3512/5723 [08:17<05:10,  7.13it/s]
 61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 3513/5723 [08:18<05:10,  7.12it/s]
 61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 3514/5723 [08:18<05:09,  7.13it/s]
 61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñ

[36m(train_fn pid=22638)[0m {'loss': 0.0193, 'grad_norm': 0.000949591922108084, 'learning_rate': 3.300784989469654e-06, 'epoch': 0.7}


 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 4001/5723 [09:26<04:06,  7.00it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 4002/5723 [09:27<04:04,  7.03it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 4003/5723 [09:27<04:04,  7.05it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 4004/5723 [09:27<04:03,  7.06it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 4005/5723 [09:27<04:01,  7.10it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 4006/5723 [09:27<04:02,  7.09it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 4007/5723 [09:27<04:01,  7.10it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 4008/5723 [09:27<04:01,  7.11it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 4009/5723 [09:28<04:09,  6.87it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 4010/5723 [09:28<04:11,  6.82it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 4011/5723 [09:28<04:07,  6.91it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 4012/5723 [09:28<04:05,  6.96it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 4013/5723 [09:28<04:04,  7.00it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 4014/5723 [09:28<04:03,  7.03it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 4015/5723 [09:28<04:01,  7.06it/s]
 70%|‚ñà‚ñ

[36m(train_fn pid=22638)[0m {'loss': 0.0246, 'grad_norm': 0.005030442960560322, 'learning_rate': 2.3434807581849513e-06, 'epoch': 0.79}


 79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 4500/5723 [10:37<02:51,  7.11it/s]
 79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 4501/5723 [10:37<02:52,  7.07it/s]
 79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 4502/5723 [10:37<02:52,  7.07it/s]
 79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 4503/5723 [10:37<02:51,  7.10it/s]
 79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 4504/5723 [10:37<02:52,  7.09it/s]
 79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 4505/5723 [10:38<02:51,  7.10it/s]
 79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 4506/5723 [10:38<02:51,  7.09it/s]
 79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 4507/5723 [10:38<02:51,  7.08it/s]
 79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 4508/5723 [10:38<02:51,  7.09it/s]
 79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 4509/5723 [10:38<02:51,  7.08it/s]
 79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 4510/5723 [10:38<02:51,  7.09it/s]
 79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 4511/5723 [10:38<02:50,  7.10it/s]
 79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 4512/5723 [10:39<02:50,  7.11it/s]
 79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 4513/5723 [10:39<02:50,  7.11it/s]
 79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 4514/5723 [10:3

[36m(train_fn pid=22638)[0m {'loss': 0.0158, 'grad_norm': 0.001941139344125986, 'learning_rate': 1.386176526900249e-06, 'epoch': 0.87}


 87%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 5001/5723 [11:48<01:42,  7.02it/s]
 87%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 5002/5723 [11:48<01:42,  7.03it/s]
 87%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 5003/5723 [11:48<01:42,  7.05it/s]
 87%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 5004/5723 [11:48<01:41,  7.08it/s]
 87%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 5005/5723 [11:49<01:41,  7.10it/s]
 87%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 5006/5723 [11:49<01:40,  7.11it/s]
 87%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 5007/5723 [11:49<01:40,  7.11it/s]
 88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 5008/5723 [11:49<01:40,  7.11it/s]
 88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 5009/5723 [11:49<01:40,  7.10it/s]
 88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 5010/5723 [11:49<01:40,  7.09it/s]
 88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 5011/5723 [11:49<01:40,  7.10it/s]
 88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 5012/5723 [11:50<01:40,  7.10it/s]
 88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 5013/5723 [11:50<01:39,  7.10it/s]
 88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 5014/5723 [11:50<01:39,  7.10it/s]
 88%|‚ñà‚ñà‚ñà‚ñà‚ñà

[36m(train_fn pid=22638)[0m {'loss': 0.0231, 'grad_norm': 0.0025508259423077106, 'learning_rate': 4.2887229561554664e-07, 'epoch': 0.96}


 96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 5501/5723 [12:58<00:31,  7.06it/s]
 96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 5502/5723 [12:59<00:31,  7.09it/s]
 96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 5503/5723 [12:59<00:30,  7.12it/s]
 96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 5504/5723 [12:59<00:30,  7.11it/s]
 96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 5505/5723 [12:59<00:30,  7.11it/s]
 96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 5506/5723 [12:59<00:30,  7.10it/s]
 96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 5507/5723 [12:59<00:30,  7.11it/s]
 96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 5508/5723 [12:59<00:30,  7.12it/s]
 96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã| 5509/5723 [13:00<00:30,  7.13it/s]
 96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã| 5510/5723 [13:00<00:29,  7.14it/s]
 96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã| 5511/5723 [13:00<00:29,  7.14it/s]
 96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã| 5512/5723 [13:00<00:29,  7.13it/s]
 96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã| 5513/5723 [13:00<00:29,  7.13it/s]
 96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã| 5514/5723 [13:00<00:29,  7.

[36m(train_fn pid=22638)[0m {'eval_loss': 0.020887741819024086, 'eval_accuracy': 0.9958063952472479, 'eval_f1': 0.9959390862944163, 'eval_runtime': 71.7114, 'eval_samples_per_second': 159.612, 'eval_steps_per_second': 19.955, 'epoch': 1.0}
[36m(train_fn pid=22638)[0m {'train_runtime': 885.5481, 'train_samples_per_second': 51.7, 'train_steps_per_second': 6.463, 'train_loss': 0.060157695642285014, 'epoch': 1.0}


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 5723/5723 [14:44<00:00,  6.47it/s]
  0%|          | 0/1431 [00:00<?, ?it/s]
  0%|          | 3/1431 [00:00<01:08, 20.73it/s]
  0%|          | 6/1431 [00:00<01:09, 20.48it/s]
  1%|          | 9/1431 [00:00<01:09, 20.38it/s]
  1%|          | 12/1431 [00:00<01:11, 19.93it/s]
  1%|          | 15/1431 [00:00<01:10, 20.05it/s]
  1%|‚ñè         | 18/1431 [00:00<01:10, 20.11it/s]
  1%|‚ñè         | 21/1431 [00:01<01:09, 20.20it/s]
  2%|‚ñè         | 24/1431 [00:01<01:09, 20.24it/s]
  2%|‚ñè         | 27/1431 [00:01<01:09, 20.25it/s]
  2%|‚ñè         | 30/1431 [00:01<01:09, 20.27it/s]
  2%|‚ñè         | 33/1431 [00:01<01:08, 20.30it/s]
  3%|‚ñé         | 36/1431 [00:01<01:08, 20.30it/s]
  3%|‚ñé         | 39/1431 [00:01<01:08, 20.29it/s]
  3%|‚ñé         | 42/1431 [00:02<01:08, 20.24it/s]
  3%|‚ñé         | 45/1431 [00:02<01:08, 20.14it/s]
  3%|‚ñé         | 48/1431 [00:02<01:08, 20.05it/s]
  4%|‚ñé         | 51/1431 [00:02<01:08, 20.02it/s]
  4%|‚ñç        

[36m(train_fn pid=23219)[0m {'loss': 0.2531, 'grad_norm': 0.24035757780075073, 'learning_rate': 1.9960000000000002e-05, 'epoch': 0.09}


  9%|‚ñä         | 500/5723 [01:11<12:20,  7.05it/s]
  9%|‚ñâ         | 501/5723 [01:12<12:38,  6.89it/s]
  9%|‚ñâ         | 502/5723 [01:12<12:32,  6.94it/s]
  9%|‚ñâ         | 503/5723 [01:12<12:28,  6.98it/s]
  9%|‚ñâ         | 504/5723 [01:12<12:29,  6.96it/s]
  9%|‚ñâ         | 505/5723 [01:12<12:25,  7.00it/s]
  9%|‚ñâ         | 506/5723 [01:12<12:22,  7.02it/s]
  9%|‚ñâ         | 507/5723 [01:12<12:22,  7.03it/s]
  9%|‚ñâ         | 508/5723 [01:13<12:18,  7.06it/s]
  9%|‚ñâ         | 509/5723 [01:13<12:17,  7.07it/s]
  9%|‚ñâ         | 510/5723 [01:13<12:18,  7.06it/s]
  9%|‚ñâ         | 511/5723 [01:13<12:18,  7.06it/s]
  9%|‚ñâ         | 512/5723 [01:13<12:17,  7.07it/s]
  9%|‚ñâ         | 513/5723 [01:13<12:16,  7.08it/s]
  9%|‚ñâ         | 514/5723 [01:13<12:18,  7.05it/s]
  9%|‚ñâ         | 515/5723 [01:14<12:17,  7.06it/s]
  9%|‚ñâ         | 516/5723 [01:14<12:15,  7.08it/s]
  9%|‚ñâ         | 517/5723 [01:14<12:14,  7.09it/s]
  9%|‚ñâ         | 518/5723 [01:14<12:13,  7.0

[36m(train_fn pid=23219)[0m {'loss': 0.0576, 'grad_norm': 0.01752578280866146, 'learning_rate': 1.8089220754355736e-05, 'epoch': 0.17}


 17%|‚ñà‚ñã        | 1001/5723 [02:23<11:16,  6.98it/s]
 18%|‚ñà‚ñä        | 1002/5723 [02:23<11:13,  7.01it/s]
 18%|‚ñà‚ñä        | 1003/5723 [02:23<11:14,  6.99it/s]
 18%|‚ñà‚ñä        | 1004/5723 [02:23<11:11,  7.02it/s]
 18%|‚ñà‚ñä        | 1005/5723 [02:23<11:10,  7.03it/s]
 18%|‚ñà‚ñä        | 1006/5723 [02:24<11:09,  7.04it/s]
 18%|‚ñà‚ñä        | 1007/5723 [02:24<11:08,  7.06it/s]
 18%|‚ñà‚ñä        | 1008/5723 [02:24<11:09,  7.04it/s]
 18%|‚ñà‚ñä        | 1009/5723 [02:24<11:06,  7.07it/s]
 18%|‚ñà‚ñä        | 1010/5723 [02:24<11:06,  7.08it/s]
 18%|‚ñà‚ñä        | 1011/5723 [02:24<11:05,  7.08it/s]
 18%|‚ñà‚ñä        | 1012/5723 [02:24<11:06,  7.07it/s]
 18%|‚ñà‚ñä        | 1013/5723 [02:25<11:05,  7.08it/s]
 18%|‚ñà‚ñä        | 1014/5723 [02:25<11:02,  7.10it/s]
 18%|‚ñà‚ñä        | 1015/5723 [02:25<11:02,  7.10it/s]
 18%|‚ñà‚ñä        | 1016/5723 [02:25<11:03,  7.10it/s]
 18%|‚ñà‚ñä        | 1017/5723 [02:25<11:04,  7.08it/s]
 18%|‚ñà‚ñä        | 1018/5723 [02:25<11:02,  7.

[36m(train_fn pid=23219)[0m {'loss': 0.0533, 'grad_norm': 0.03338968753814697, 'learning_rate': 1.6174612291786332e-05, 'epoch': 0.26}


 26%|‚ñà‚ñà‚ñå       | 1501/5723 [03:34<09:55,  7.09it/s]
 26%|‚ñà‚ñà‚ñå       | 1502/5723 [03:34<09:55,  7.09it/s]
 26%|‚ñà‚ñà‚ñã       | 1503/5723 [03:34<09:54,  7.10it/s]
 26%|‚ñà‚ñà‚ñã       | 1504/5723 [03:34<09:53,  7.11it/s]
 26%|‚ñà‚ñà‚ñã       | 1505/5723 [03:35<09:52,  7.11it/s]
 26%|‚ñà‚ñà‚ñã       | 1506/5723 [03:35<09:55,  7.08it/s]
 26%|‚ñà‚ñà‚ñã       | 1507/5723 [03:35<09:54,  7.09it/s]
 26%|‚ñà‚ñà‚ñã       | 1508/5723 [03:35<09:53,  7.10it/s]
 26%|‚ñà‚ñà‚ñã       | 1509/5723 [03:35<09:54,  7.09it/s]
 26%|‚ñà‚ñà‚ñã       | 1510/5723 [03:35<09:53,  7.10it/s]
 26%|‚ñà‚ñà‚ñã       | 1511/5723 [03:35<09:53,  7.10it/s]
 26%|‚ñà‚ñà‚ñã       | 1512/5723 [03:36<09:52,  7.10it/s]
 26%|‚ñà‚ñà‚ñã       | 1513/5723 [03:36<09:52,  7.10it/s]
 26%|‚ñà‚ñà‚ñã       | 1514/5723 [03:36<09:52,  7.10it/s]
 26%|‚ñà‚ñà‚ñã       | 1515/5723 [03:36<09:54,  7.08it/s]
 26%|‚ñà‚ñà‚ñã       | 1516/5723 [03:36<09:53,  7.08it/s]
 27%|‚ñà‚ñà‚ñã       | 1517/5723 [03:36<09:52,  7.10it/s]
 27%|‚ñà‚ñà‚ñã

[36m(train_fn pid=23219)[0m {'loss': 0.0555, 'grad_norm': 0.0402350090444088, 'learning_rate': 1.4260003829216926e-05, 'epoch': 0.35}


 35%|‚ñà‚ñà‚ñà‚ñç      | 2000/5723 [04:45<08:43,  7.11it/s]
 35%|‚ñà‚ñà‚ñà‚ñç      | 2001/5723 [04:45<08:46,  7.07it/s]
 35%|‚ñà‚ñà‚ñà‚ñç      | 2002/5723 [04:45<08:44,  7.10it/s]
 35%|‚ñà‚ñà‚ñà‚ñç      | 2003/5723 [04:45<08:42,  7.12it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 2004/5723 [04:45<08:47,  7.05it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 2005/5723 [04:45<08:45,  7.08it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 2006/5723 [04:45<08:43,  7.10it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 2007/5723 [04:46<08:43,  7.09it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 2008/5723 [04:46<08:43,  7.10it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 2009/5723 [04:46<08:43,  7.10it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 2010/5723 [04:46<08:44,  7.08it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 2011/5723 [04:46<08:45,  7.07it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 2012/5723 [04:46<08:44,  7.07it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 2013/5723 [04:46<08:45,  7.06it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 2014/5723 [04:47<08:44,  7.07it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 2015/5723 [04:47<08:45,  7.06it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 2016/5723 [04:4

[36m(train_fn pid=23219)[0m {'loss': 0.0424, 'grad_norm': 0.001459300285205245, 'learning_rate': 1.2345395366647522e-05, 'epoch': 0.44}


 44%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 2501/5723 [05:56<07:35,  7.07it/s]
 44%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 2502/5723 [05:56<07:34,  7.09it/s]
 44%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 2503/5723 [05:56<07:34,  7.09it/s]
 44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 2504/5723 [05:56<07:34,  7.08it/s]
 44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 2505/5723 [05:56<07:33,  7.10it/s]
 44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 2506/5723 [05:56<07:31,  7.12it/s]
 44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 2507/5723 [05:56<07:30,  7.14it/s]
 44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 2508/5723 [05:57<07:30,  7.14it/s]
 44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 2509/5723 [05:57<07:34,  7.07it/s]
 44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 2510/5723 [05:57<07:37,  7.03it/s]
 44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 2511/5723 [05:57<07:36,  7.04it/s]
 44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 2512/5723 [05:57<07:34,  7.06it/s]
 44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 2513/5723 [05:57<07:34,  7.06it/s]
 44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 2514/5723 [05:57<07:34,  7.06it/s]
 44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 2515/5723 [05:58<07:33,  7.07it/s]
 44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 2516/5723 [05:58<07:34,  7.05it/s]
 44%|‚ñà

[36m(train_fn pid=23219)[0m {'loss': 0.0343, 'grad_norm': 0.001505309366621077, 'learning_rate': 1.0430786904078116e-05, 'epoch': 0.52}


 52%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 3001/5723 [07:07<06:29,  6.98it/s]
 52%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 3002/5723 [07:07<06:28,  7.01it/s]
 52%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 3003/5723 [07:07<06:27,  7.02it/s]
 52%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 3004/5723 [07:08<06:27,  7.01it/s]
 53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 3005/5723 [07:08<06:26,  7.04it/s]
 53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 3006/5723 [07:08<06:25,  7.06it/s]
 53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 3007/5723 [07:08<06:24,  7.06it/s]
 53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 3008/5723 [07:08<06:23,  7.08it/s]
 53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 3009/5723 [07:08<06:22,  7.10it/s]
 53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 3010/5723 [07:08<06:22,  7.10it/s]
 53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 3011/5723 [07:09<06:22,  7.10it/s]
 53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 3012/5723 [07:09<06:21,  7.10it/s]
 53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 3013/5723 [07:09<06:22,  7.08it/s]
 53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 3014/5723 [07:09<06:21,  7.09it/s]
 53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 3015/5723 [07:09<06:21,  7.10it/s]
 53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 3016/5723 [

[36m(train_fn pid=23219)[0m {'loss': 0.0374, 'grad_norm': 0.007210343610495329, 'learning_rate': 8.516178441508712e-06, 'epoch': 0.61}


 61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 3500/5723 [08:21<05:14,  7.06it/s]
 61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 3501/5723 [08:21<05:25,  6.83it/s]
 61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 3502/5723 [08:21<05:26,  6.81it/s]
 61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 3503/5723 [08:21<05:22,  6.88it/s]
 61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 3504/5723 [08:21<05:20,  6.92it/s]
 61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 3505/5723 [08:21<05:18,  6.96it/s]
 61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 3506/5723 [08:22<05:17,  6.99it/s]
 61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 3507/5723 [08:22<05:16,  7.00it/s]
 61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 3508/5723 [08:22<05:14,  7.04it/s]
 61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 3509/5723 [08:22<05:14,  7.05it/s]
 61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 3510/5723 [08:22<05:12,  7.07it/s]
 61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 3511/5723 [08:22<05:15,  7.02it/s]
 61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 3512/5723 [08:22<05:15,  7.00it/s]
 61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 3513/5723 [08:23<05:15,  7.01it/s]
 61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 3514/5723 [08:23<05:14,  7.03it/s]
 61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñ

[36m(train_fn pid=23219)[0m {'loss': 0.0183, 'grad_norm': 0.0004917955957353115, 'learning_rate': 6.601569978939308e-06, 'epoch': 0.7}


 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 4001/5723 [09:32<04:04,  7.04it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 4002/5723 [09:32<04:03,  7.06it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 4003/5723 [09:32<04:03,  7.06it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 4004/5723 [09:32<04:03,  7.07it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 4005/5723 [09:32<04:02,  7.07it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 4006/5723 [09:32<04:02,  7.07it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 4007/5723 [09:33<04:02,  7.08it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 4008/5723 [09:33<04:01,  7.09it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 4009/5723 [09:33<04:02,  7.07it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 4010/5723 [09:33<04:02,  7.07it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 4011/5723 [09:33<04:01,  7.09it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 4012/5723 [09:33<04:01,  7.09it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 4013/5723 [09:33<04:00,  7.10it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 4014/5723 [09:34<04:01,  7.09it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 4015/5723 [09:34<04:00,  7.10it/s]
 70%|‚ñà‚ñ

[36m(train_fn pid=23219)[0m {'loss': 0.0261, 'grad_norm': 0.0008843100513331592, 'learning_rate': 4.686961516369903e-06, 'epoch': 0.79}


 79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 4501/5723 [10:55<02:57,  6.90it/s]
 79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 4502/5723 [10:55<02:55,  6.96it/s]
 79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 4503/5723 [10:55<02:54,  6.99it/s]
 79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 4504/5723 [10:55<02:54,  7.00it/s]
 79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 4505/5723 [10:56<02:53,  7.02it/s]
 79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 4506/5723 [10:56<02:53,  7.03it/s]
 79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 4507/5723 [10:56<02:53,  7.03it/s]
 79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 4508/5723 [10:56<02:52,  7.03it/s]
 79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 4509/5723 [10:56<02:52,  7.05it/s]
 79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 4510/5723 [10:56<02:53,  7.00it/s]
 79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 4511/5723 [10:56<02:52,  7.03it/s]
 79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 4512/5723 [10:57<02:51,  7.04it/s]
 79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 4513/5723 [10:57<02:51,  7.05it/s]
 79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 4514/5723 [10:57<02:52,  7.00it/s]
 79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 4515/5723 [10:5

[36m(train_fn pid=23219)[0m {'loss': 0.0177, 'grad_norm': 0.0004878229519817978, 'learning_rate': 2.772353053800498e-06, 'epoch': 0.87}


 87%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 5001/5723 [12:11<01:44,  6.94it/s]
 87%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 5002/5723 [12:11<01:43,  6.98it/s]
 87%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 5003/5723 [12:12<01:42,  7.01it/s]
 87%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 5004/5723 [12:12<01:42,  7.03it/s]
 87%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 5005/5723 [12:12<01:41,  7.05it/s]
 87%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 5006/5723 [12:12<01:41,  7.05it/s]
 87%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 5007/5723 [12:12<01:41,  7.05it/s]
 88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 5008/5723 [12:12<01:41,  7.06it/s]
 88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 5009/5723 [12:12<01:41,  7.06it/s]
 88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 5010/5723 [12:13<01:40,  7.06it/s]
 88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 5011/5723 [12:13<01:40,  7.08it/s]
 88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 5012/5723 [12:13<01:40,  7.10it/s]
 88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 5013/5723 [12:13<01:40,  7.10it/s]
 88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 5014/5723 [12:13<01:39,  7.10it/s]
 88%|‚ñà‚ñà‚ñà‚ñà‚ñà

[36m(train_fn pid=23219)[0m {'loss': 0.0237, 'grad_norm': 0.007599094416946173, 'learning_rate': 8.577445912310933e-07, 'epoch': 0.96}


 96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 5500/5723 [13:26<00:31,  7.06it/s]
 96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 5501/5723 [13:26<00:32,  6.93it/s]
 96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 5502/5723 [13:27<00:31,  6.97it/s]
 96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 5503/5723 [13:27<00:31,  6.97it/s]
 96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 5504/5723 [13:27<00:31,  7.00it/s]
 96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 5505/5723 [13:27<00:31,  7.01it/s]
 96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 5506/5723 [13:27<00:34,  6.25it/s]
 96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 5507/5723 [13:27<00:33,  6.44it/s]
 96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 5508/5723 [13:28<00:32,  6.60it/s]
 96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã| 5509/5723 [13:28<00:31,  6.74it/s]
 96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã| 5510/5723 [13:28<00:31,  6.83it/s]
 96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã| 5511/5723 [13:28<00:30,  6.90it/s]
 96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã| 5512/5723 [13:28<00:30,  6.96it/s]
 96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã| 5513/5723 [13:28<00:30,  7.

[36m(train_fn pid=23219)[0m {'eval_loss': 0.022004147991538048, 'eval_accuracy': 0.9956316617158832, 'eval_f1': 0.995766299745978, 'eval_runtime': 74.262, 'eval_samples_per_second': 154.13, 'eval_steps_per_second': 19.27, 'epoch': 1.0}


[36m(train_fn pid=23219)[0m 
                                                   [A
100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 5723/5723 [15:12<00:00,  6.91it/s]
100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1431/1431 [01:14<00:00, 20.30it/s][A
                                                   [A


[36m(train_fn pid=23219)[0m {'train_runtime': 916.8093, 'train_samples_per_second': 49.937, 'train_steps_per_second': 6.242, 'train_loss': 0.05478113113781924, 'epoch': 1.0}


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 5723/5723 [15:15<00:00,  6.25it/s]
  0%|          | 0/1431 [00:00<?, ?it/s]
  0%|          | 3/1431 [00:00<01:01, 23.20it/s]
  0%|          | 6/1431 [00:00<01:07, 21.10it/s]
  1%|          | 9/1431 [00:00<01:08, 20.68it/s]
  1%|          | 12/1431 [00:00<01:09, 20.51it/s]
  1%|          | 15/1431 [00:00<01:09, 20.34it/s]
  1%|‚ñè         | 18/1431 [00:00<01:09, 20.32it/s]
  1%|‚ñè         | 21/1431 [00:01<01:10, 20.07it/s]
  2%|‚ñè         | 24/1431 [00:01<01:10, 20.08it/s]
  2%|‚ñè         | 27/1431 [00:01<01:11, 19.65it/s]
  2%|‚ñè         | 29/1431 [00:01<01:11, 19.58it/s]
  2%|‚ñè         | 31/1431 [00:01<01:11, 19.51it/s]
  2%|‚ñè         | 34/1431 [00:01<01:10, 19.74it/s]
  3%|‚ñé         | 37/1431 [00:01<01:10, 19.84it/s]
  3%|‚ñé         | 39/1431 [00:01<01:10, 19.86it/s]
  3%|‚ñé         | 41/1431 [00:02<01:09, 19.87it/s]
  3%|‚ñé         | 43/1431 [00:02<01:09, 19.88it/s]
  3%|‚ñé         | 45/1431 [00:02<01:10, 19.67it/s]
  3%|‚ñé        

[36m(train_fn pid=23691)[0m {'loss': 0.3187, 'grad_norm': 0.09295554459095001, 'learning_rate': 9.980000000000001e-06, 'epoch': 0.09}


  9%|‚ñä         | 500/5723 [01:13<12:22,  7.04it/s]
  9%|‚ñâ         | 501/5723 [01:13<12:54,  6.74it/s]
  9%|‚ñâ         | 502/5723 [01:13<13:51,  6.28it/s]
  9%|‚ñâ         | 503/5723 [01:13<13:21,  6.51it/s]
  9%|‚ñâ         | 504/5723 [01:13<13:01,  6.68it/s]
  9%|‚ñâ         | 505/5723 [01:13<12:48,  6.79it/s]
  9%|‚ñâ         | 506/5723 [01:13<12:37,  6.89it/s]
  9%|‚ñâ         | 507/5723 [01:14<12:29,  6.96it/s]
  9%|‚ñâ         | 508/5723 [01:14<12:22,  7.02it/s]
  9%|‚ñâ         | 509/5723 [01:14<12:26,  6.99it/s]
  9%|‚ñâ         | 510/5723 [01:14<12:31,  6.94it/s]
  9%|‚ñâ         | 511/5723 [01:14<12:25,  6.99it/s]
  9%|‚ñâ         | 512/5723 [01:14<12:20,  7.03it/s]
  9%|‚ñâ         | 513/5723 [01:14<12:17,  7.07it/s]
  9%|‚ñâ         | 514/5723 [01:15<12:18,  7.05it/s]
  9%|‚ñâ         | 515/5723 [01:15<12:16,  7.07it/s]
  9%|‚ñâ         | 516/5723 [01:15<12:14,  7.09it/s]
  9%|‚ñâ         | 517/5723 [01:15<12:12,  7.10it/s]
  9%|‚ñâ         | 518/5723 [01:15<12:11,  7.1

[36m(train_fn pid=23691)[0m {'loss': 0.053, 'grad_norm': 0.0030184437055140734, 'learning_rate': 9.044610377177868e-06, 'epoch': 0.17}


 17%|‚ñà‚ñã        | 1000/5723 [02:24<11:11,  7.03it/s]
 17%|‚ñà‚ñã        | 1001/5723 [02:24<11:26,  6.88it/s]
 18%|‚ñà‚ñä        | 1002/5723 [02:24<11:20,  6.94it/s]
 18%|‚ñà‚ñä        | 1003/5723 [02:24<11:15,  6.98it/s]
 18%|‚ñà‚ñä        | 1004/5723 [02:24<11:12,  7.01it/s]
 18%|‚ñà‚ñä        | 1005/5723 [02:24<11:17,  6.96it/s]
 18%|‚ñà‚ñä        | 1006/5723 [02:25<11:20,  6.93it/s]
 18%|‚ñà‚ñä        | 1007/5723 [02:25<11:17,  6.96it/s]
 18%|‚ñà‚ñä        | 1008/5723 [02:25<11:14,  6.99it/s]
 18%|‚ñà‚ñä        | 1009/5723 [02:25<11:14,  6.99it/s]
 18%|‚ñà‚ñä        | 1010/5723 [02:25<11:13,  7.00it/s]
 18%|‚ñà‚ñä        | 1011/5723 [02:25<11:21,  6.92it/s]
 18%|‚ñà‚ñä        | 1012/5723 [02:25<11:14,  6.98it/s]
 18%|‚ñà‚ñä        | 1013/5723 [02:26<11:13,  6.99it/s]
 18%|‚ñà‚ñä        | 1014/5723 [02:26<11:10,  7.02it/s]
 18%|‚ñà‚ñä        | 1015/5723 [02:26<11:13,  6.99it/s]
 18%|‚ñà‚ñä        | 1016/5723 [02:26<11:14,  6.98it/s]
 18%|‚ñà‚ñä        | 1017/5723 [02:26<11:10,  7.

[36m(train_fn pid=23691)[0m {'loss': 0.0602, 'grad_norm': 0.18017518520355225, 'learning_rate': 8.087306145893166e-06, 'epoch': 0.26}


 26%|‚ñà‚ñà‚ñå       | 1500/5723 [03:35<10:01,  7.02it/s]
 26%|‚ñà‚ñà‚ñå       | 1501/5723 [03:35<10:06,  6.96it/s]
 26%|‚ñà‚ñà‚ñå       | 1502/5723 [03:36<10:04,  6.98it/s]
 26%|‚ñà‚ñà‚ñã       | 1503/5723 [03:36<10:03,  6.99it/s]
 26%|‚ñà‚ñà‚ñã       | 1504/5723 [03:36<10:00,  7.02it/s]
 26%|‚ñà‚ñà‚ñã       | 1505/5723 [03:36<10:06,  6.96it/s]
 26%|‚ñà‚ñà‚ñã       | 1506/5723 [03:36<10:03,  6.99it/s]
 26%|‚ñà‚ñà‚ñã       | 1507/5723 [03:36<10:02,  7.00it/s]
 26%|‚ñà‚ñà‚ñã       | 1508/5723 [03:36<10:05,  6.96it/s]
 26%|‚ñà‚ñà‚ñã       | 1509/5723 [03:37<10:04,  6.97it/s]
 26%|‚ñà‚ñà‚ñã       | 1510/5723 [03:37<10:03,  6.99it/s]
 26%|‚ñà‚ñà‚ñã       | 1511/5723 [03:37<10:01,  7.01it/s]
 26%|‚ñà‚ñà‚ñã       | 1512/5723 [03:37<09:59,  7.02it/s]
 26%|‚ñà‚ñà‚ñã       | 1513/5723 [03:37<09:59,  7.02it/s]
 26%|‚ñà‚ñà‚ñã       | 1514/5723 [03:37<09:59,  7.02it/s]
 26%|‚ñà‚ñà‚ñã       | 1515/5723 [03:37<09:58,  7.03it/s]
 26%|‚ñà‚ñà‚ñã       | 1516/5723 [03:38<09:59,  7.02it/s]
 27%|‚ñà‚ñà‚ñã

[36m(train_fn pid=23691)[0m {'loss': 0.0509, 'grad_norm': 0.028956551104784012, 'learning_rate': 7.130001914608463e-06, 'epoch': 0.35}


 35%|‚ñà‚ñà‚ñà‚ñç      | 2000/5723 [04:47<08:53,  6.98it/s]
 35%|‚ñà‚ñà‚ñà‚ñç      | 2001/5723 [04:47<08:54,  6.97it/s]
 35%|‚ñà‚ñà‚ñà‚ñç      | 2002/5723 [04:47<08:53,  6.97it/s]
 35%|‚ñà‚ñà‚ñà‚ñç      | 2003/5723 [04:47<08:51,  6.99it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 2004/5723 [04:48<08:50,  7.01it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 2005/5723 [04:48<08:51,  7.00it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 2006/5723 [04:48<08:49,  7.02it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 2007/5723 [04:48<08:52,  6.98it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 2008/5723 [04:48<08:53,  6.96it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 2009/5723 [04:48<08:52,  6.98it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 2010/5723 [04:48<08:50,  6.99it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 2011/5723 [04:49<08:53,  6.96it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 2012/5723 [04:49<08:53,  6.96it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 2013/5723 [04:49<08:52,  6.97it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 2014/5723 [04:49<08:49,  7.00it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 2015/5723 [04:49<08:49,  7.00it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 2016/5723 [04:4

[36m(train_fn pid=23691)[0m {'loss': 0.0395, 'grad_norm': 0.0018142297631129622, 'learning_rate': 6.172697683323761e-06, 'epoch': 0.44}


 44%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 2501/5723 [05:59<07:40,  6.99it/s]
 44%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 2502/5723 [05:59<07:39,  7.01it/s]
 44%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 2503/5723 [05:59<07:39,  7.01it/s]
 44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 2504/5723 [05:59<07:37,  7.03it/s]
 44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 2505/5723 [05:59<07:37,  7.04it/s]
 44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 2506/5723 [06:00<07:37,  7.04it/s]
 44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 2507/5723 [06:00<07:38,  7.01it/s]
 44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 2508/5723 [06:00<07:38,  7.01it/s]
 44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 2509/5723 [06:00<07:37,  7.02it/s]
 44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 2510/5723 [06:00<07:37,  7.03it/s]
 44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 2511/5723 [06:00<07:36,  7.04it/s]
 44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 2512/5723 [06:00<07:36,  7.04it/s]
 44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 2513/5723 [06:01<07:36,  7.04it/s]
 44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 2514/5723 [06:01<07:35,  7.04it/s]
 44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 2515/5723 [06:01<07:35,  7.05it/s]
 44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 2516/5723 [06:01<07:35,  7.04it/s]
 44%|‚ñà

[36m(train_fn pid=23691)[0m {'loss': 0.0339, 'grad_norm': 0.003835927229374647, 'learning_rate': 5.215393452039058e-06, 'epoch': 0.52}


 52%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 3001/5723 [07:16<18:35,  2.44it/s]
 52%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 3002/5723 [07:16<14:53,  3.04it/s]
 52%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 3003/5723 [07:17<12:20,  3.67it/s]
 52%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 3004/5723 [07:17<10:34,  4.29it/s]
 53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 3005/5723 [07:17<09:20,  4.85it/s]
 53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 3006/5723 [07:17<08:31,  5.31it/s]
 53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 3007/5723 [07:17<07:54,  5.72it/s]
 53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 3008/5723 [07:17<07:30,  6.03it/s]
 53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 3009/5723 [07:17<07:10,  6.30it/s]
 53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 3010/5723 [07:18<06:56,  6.52it/s]
 53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 3011/5723 [07:18<06:46,  6.67it/s]
 53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 3012/5723 [07:18<06:39,  6.78it/s]
 53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 3013/5723 [07:18<06:34,  6.87it/s]
 53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 3014/5723 [07:18<06:30,  6.93it/s]
 53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 3015/5723 [07:18<06:31,  6.92it/s]
 53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 3016/5723 [

[36m(train_fn pid=23691)[0m {'loss': 0.0411, 'grad_norm': 0.007510774303227663, 'learning_rate': 4.258089220754356e-06, 'epoch': 0.61}


 61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 3500/5723 [08:29<05:17,  7.01it/s]
 61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 3501/5723 [08:29<05:20,  6.93it/s]
 61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 3502/5723 [08:29<05:22,  6.90it/s]
 61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 3503/5723 [08:29<05:21,  6.90it/s]
 61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 3504/5723 [08:29<05:19,  6.95it/s]
 61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 3505/5723 [08:29<05:18,  6.97it/s]
 61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 3506/5723 [08:29<05:17,  6.98it/s]
 61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 3507/5723 [08:30<05:18,  6.96it/s]
 61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 3508/5723 [08:30<05:18,  6.96it/s]
 61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 3509/5723 [08:30<05:16,  6.99it/s]
 61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 3510/5723 [08:30<05:17,  6.97it/s]
 61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 3511/5723 [08:30<05:17,  6.97it/s]
 61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 3512/5723 [08:30<05:16,  6.98it/s]
 61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 3513/5723 [08:30<05:16,  6.99it/s]
 61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 3514/5723 [08:31<05:15,  7.01it/s]
 61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñ

[36m(train_fn pid=23691)[0m {'loss': 0.0193, 'grad_norm': 0.000949591922108084, 'learning_rate': 3.300784989469654e-06, 'epoch': 0.7}


 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 4001/5723 [09:40<04:03,  7.08it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 4002/5723 [09:40<04:03,  7.07it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 4003/5723 [09:40<04:04,  7.04it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 4004/5723 [09:40<04:03,  7.06it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 4005/5723 [09:41<04:03,  7.07it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 4006/5723 [09:41<04:03,  7.06it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 4007/5723 [09:41<04:02,  7.07it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 4008/5723 [09:41<04:02,  7.08it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 4009/5723 [09:41<04:01,  7.09it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 4010/5723 [09:41<04:01,  7.10it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 4011/5723 [09:41<04:00,  7.11it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 4012/5723 [09:41<04:00,  7.11it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 4013/5723 [09:42<04:01,  7.09it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 4014/5723 [09:42<04:00,  7.09it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 4015/5723 [09:42<04:00,  7.10it/s]
 70%|‚ñà‚ñ

[36m(train_fn pid=23691)[0m {'loss': 0.0246, 'grad_norm': 0.005030442960560322, 'learning_rate': 2.3434807581849513e-06, 'epoch': 0.79}


 79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 4501/5723 [10:51<02:54,  7.00it/s]
 79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 4502/5723 [10:51<02:53,  7.04it/s]
 79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 4503/5723 [10:51<02:53,  7.05it/s]
 79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 4504/5723 [10:51<02:53,  7.03it/s]
 79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 4505/5723 [10:52<02:52,  7.04it/s]
 79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 4506/5723 [10:52<02:52,  7.05it/s]
 79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 4507/5723 [10:52<02:52,  7.05it/s]
 79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 4508/5723 [10:52<02:51,  7.07it/s]
 79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 4509/5723 [10:52<02:51,  7.07it/s]
 79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 4510/5723 [10:52<02:51,  7.07it/s]
 79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 4511/5723 [10:52<02:51,  7.06it/s]
 79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 4512/5723 [10:53<02:51,  7.07it/s]
 79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 4513/5723 [10:53<02:50,  7.08it/s]
 79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 4514/5723 [10:53<02:51,  7.06it/s]
 79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 4515/5723 [10:5

[36m(train_fn pid=23691)[0m {'loss': 0.0158, 'grad_norm': 0.001941139344125986, 'learning_rate': 1.386176526900249e-06, 'epoch': 0.87}


 87%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 5000/5723 [12:15<01:42,  7.06it/s]
 87%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 5001/5723 [12:15<01:44,  6.93it/s]
 87%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 5002/5723 [12:15<01:43,  6.98it/s]
 87%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 5003/5723 [12:15<01:42,  7.02it/s]
 87%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 5004/5723 [12:16<01:41,  7.06it/s]
 87%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 5005/5723 [12:16<01:41,  7.10it/s]
 87%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 5006/5723 [12:16<01:40,  7.11it/s]
 87%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 5007/5723 [12:16<01:40,  7.12it/s]
 88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 5008/5723 [12:16<01:40,  7.09it/s]
 88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 5009/5723 [12:16<01:40,  7.10it/s]
 88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 5010/5723 [12:16<01:40,  7.12it/s]
 88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 5011/5723 [12:17<01:39,  7.13it/s]
 88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 5012/5723 [12:17<01:39,  7.11it/s]
 88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 5013/5723 [12:17<01:39,  7.11it/s]
 88%|‚ñà‚ñà‚ñà‚ñà‚ñà

[36m(train_fn pid=23691)[0m {'loss': 0.0231, 'grad_norm': 0.0025508259423077106, 'learning_rate': 4.2887229561554664e-07, 'epoch': 0.96}


 96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 5500/5723 [13:31<00:31,  7.02it/s]
 96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 5501/5723 [13:31<00:31,  7.01it/s]
 96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 5502/5723 [13:31<00:31,  7.01it/s]
 96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 5503/5723 [13:31<00:31,  7.03it/s]
 96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 5504/5723 [13:31<00:31,  7.03it/s]
 96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 5505/5723 [13:31<00:30,  7.04it/s]
 96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 5506/5723 [13:31<00:30,  7.06it/s]
 96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 5507/5723 [13:32<00:30,  7.06it/s]
 96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 5508/5723 [13:32<00:30,  7.06it/s]
 96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã| 5509/5723 [13:32<00:30,  7.04it/s]
 96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã| 5510/5723 [13:32<00:30,  7.01it/s]
 96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã| 5511/5723 [13:32<00:30,  7.01it/s]
 96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã| 5512/5723 [13:32<00:29,  7.03it/s]
 96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã| 5513/5723 [13:32<00:29,  7.

[36m(train_fn pid=23691)[0m {'eval_loss': 0.020887741819024086, 'eval_accuracy': 0.9958063952472479, 'eval_f1': 0.9959390862944163, 'eval_runtime': 92.511, 'eval_samples_per_second': 123.726, 'eval_steps_per_second': 15.468, 'epoch': 1.0}


                                                   
100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 5723/5723 [15:35<00:00,  7.13it/s]
100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1431/1431 [01:32<00:00, 19.37it/s][A
                                                   [A


[36m(train_fn pid=23691)[0m {'train_runtime': 941.4638, 'train_samples_per_second': 48.63, 'train_steps_per_second': 6.079, 'train_loss': 0.060157695642285014, 'epoch': 1.0}


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 5723/5723 [15:39<00:00,  6.09it/s]
  0%|          | 0/1431 [00:00<?, ?it/s]
  0%|          | 3/1431 [00:00<01:08, 20.93it/s]
  0%|          | 6/1431 [00:00<01:10, 20.33it/s]
  1%|          | 9/1431 [00:00<01:10, 20.22it/s]
  1%|          | 12/1431 [00:00<01:10, 19.99it/s]
  1%|          | 15/1431 [00:00<01:10, 20.04it/s]
  1%|‚ñè         | 18/1431 [00:00<01:10, 20.06it/s]
  1%|‚ñè         | 21/1431 [00:01<01:10, 20.04it/s]
  2%|‚ñè         | 24/1431 [00:01<01:10, 20.09it/s]
  2%|‚ñè         | 27/1431 [00:01<01:09, 20.13it/s]
  2%|‚ñè         | 30/1431 [00:01<01:09, 20.15it/s]
  2%|‚ñè         | 33/1431 [00:01<01:09, 20.16it/s]
  3%|‚ñé         | 36/1431 [00:01<01:09, 20.09it/s]
  3%|‚ñé         | 39/1431 [00:01<01:09, 20.02it/s]
  3%|‚ñé         | 42/1431 [00:02<01:09, 19.98it/s]
  3%|‚ñé         | 45/1431 [00:02<01:09, 19.98it/s]
  3%|‚ñé         | 47/1431 [00:02<01:09, 19.96it/s]
  3%|‚ñé         | 49/1431 [00:02<01:09, 19.95it/s]
  4%|‚ñé        

[36m(train_fn pid=24181)[0m {'loss': 0.1999, 'grad_norm': 8.816625595092773, 'learning_rate': 1.9960000000000002e-05, 'epoch': 0.17}


 17%|‚ñà‚ñã        | 500/2862 [02:18<10:19,  3.82it/s]
 18%|‚ñà‚ñä        | 501/2862 [02:18<10:38,  3.70it/s]
 18%|‚ñà‚ñä        | 502/2862 [02:18<10:31,  3.74it/s]
 18%|‚ñà‚ñä        | 503/2862 [02:18<10:27,  3.76it/s]
 18%|‚ñà‚ñä        | 504/2862 [02:19<10:23,  3.78it/s]
 18%|‚ñà‚ñä        | 505/2862 [02:19<10:20,  3.80it/s]
 18%|‚ñà‚ñä        | 506/2862 [02:19<10:20,  3.80it/s]
 18%|‚ñà‚ñä        | 507/2862 [02:19<10:18,  3.81it/s]
 18%|‚ñà‚ñä        | 508/2862 [02:20<10:18,  3.81it/s]
 18%|‚ñà‚ñä        | 509/2862 [02:20<10:17,  3.81it/s]
 18%|‚ñà‚ñä        | 510/2862 [02:20<10:18,  3.80it/s]
 18%|‚ñà‚ñä        | 511/2862 [02:21<10:17,  3.81it/s]
 18%|‚ñà‚ñä        | 512/2862 [02:21<10:16,  3.81it/s]
 18%|‚ñà‚ñä        | 513/2862 [02:21<10:17,  3.80it/s]
 18%|‚ñà‚ñä        | 514/2862 [02:21<10:16,  3.81it/s]
 18%|‚ñà‚ñä        | 515/2862 [02:22<10:15,  3.82it/s]
 18%|‚ñà‚ñä        | 516/2862 [02:22<10:16,  3.81it/s]
 18%|‚ñà‚ñä        | 517/2862 [02:22<10:17,  3.80it/s]
 18%|‚ñà‚ñ

[36m(train_fn pid=24181)[0m {'loss': 0.0629, 'grad_norm': 0.03777868300676346, 'learning_rate': 1.577476714648603e-05, 'epoch': 0.35}


 35%|‚ñà‚ñà‚ñà‚ñç      | 1000/2862 [04:28<08:04,  3.84it/s]
 35%|‚ñà‚ñà‚ñà‚ñç      | 1001/2862 [04:29<08:06,  3.82it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 1002/2862 [04:29<08:04,  3.84it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 1003/2862 [04:29<08:04,  3.84it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 1004/2862 [04:29<08:03,  3.84it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 1005/2862 [04:30<08:03,  3.84it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 1006/2862 [04:30<08:04,  3.83it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 1007/2862 [04:30<08:03,  3.84it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 1008/2862 [04:30<08:03,  3.83it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 1009/2862 [04:31<08:03,  3.83it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 1010/2862 [04:31<08:04,  3.83it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 1011/2862 [04:31<08:04,  3.82it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 1012/2862 [04:32<08:04,  3.82it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 1013/2862 [04:32<08:03,  3.82it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 1014/2862 [04:32<08:03,  3.82it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 1015/2862 [04:32<08:03,  3.82it/s]
 35%|‚ñà‚ñà‚ñà‚ñå      | 1016/2862 [04:3

[36m(train_fn pid=24181)[0m {'loss': 0.0303, 'grad_norm': 0.0016064002411440015, 'learning_rate': 1.1541066892464014e-05, 'epoch': 0.52}


 52%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 1500/2862 [06:39<05:57,  3.81it/s]
 52%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 1501/2862 [06:40<05:59,  3.78it/s]
 52%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 1502/2862 [06:40<05:58,  3.79it/s]
 53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 1503/2862 [06:40<05:56,  3.81it/s]
 53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 1504/2862 [06:40<05:56,  3.81it/s]
 53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 1505/2862 [06:41<05:55,  3.82it/s]
 53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 1506/2862 [06:41<05:54,  3.82it/s]
 53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 1507/2862 [06:41<05:54,  3.82it/s]
 53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 1508/2862 [06:41<05:54,  3.82it/s]
 53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 1509/2862 [06:42<05:54,  3.81it/s]
 53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 1510/2862 [06:42<05:54,  3.82it/s]
 53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 1511/2862 [06:42<05:54,  3.82it/s]
 53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 1512/2862 [06:43<05:55,  3.80it/s]
 53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 1513/2862 [06:43<05:56,  3.78it/s]
 53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 1514/2862 [06:43<05:55,  3.79it/s]
 53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 1515/2862 [

[36m(train_fn pid=24181)[0m {'loss': 0.0254, 'grad_norm': 0.0021647396497428417, 'learning_rate': 7.307366638442e-06, 'epoch': 0.7}


 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 2000/2862 [08:50<03:46,  3.80it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 2001/2862 [08:51<03:47,  3.78it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 2002/2862 [08:51<03:46,  3.80it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 2003/2862 [08:51<03:45,  3.81it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 2004/2862 [08:51<03:44,  3.81it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 2005/2862 [08:52<03:44,  3.82it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 2006/2862 [08:52<03:44,  3.81it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 2007/2862 [08:52<03:44,  3.82it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 2008/2862 [08:53<03:44,  3.81it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 2009/2862 [08:53<03:44,  3.80it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 2010/2862 [08:53<03:44,  3.80it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 2011/2862 [08:53<03:44,  3.79it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 2012/2862 [08:54<03:44,  3.79it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 2013/2862 [08:54<03:43,  3.79it/s]
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 2014/2862 [08:54<03:43,  3.79it/s]
 70%|‚ñà‚ñ

[36m(train_fn pid=24181)[0m {'loss': 0.0213, 'grad_norm': 0.0014555171364918351, 'learning_rate': 3.0736663844199834e-06, 'epoch': 0.87}


 87%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 2501/2862 [11:02<01:35,  3.78it/s]
 87%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 2502/2862 [11:03<01:34,  3.80it/s]
 87%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 2503/2862 [11:03<01:34,  3.81it/s]
 87%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 2504/2862 [11:03<01:34,  3.81it/s]
 88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 2505/2862 [11:04<01:33,  3.81it/s]
 88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 2506/2862 [11:04<01:33,  3.81it/s]
 88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 2507/2862 [11:04<01:33,  3.80it/s]
 88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 2508/2862 [11:04<01:33,  3.80it/s]
 88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 2509/2862 [11:05<01:32,  3.81it/s]
 88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 2510/2862 [11:05<01:32,  3.82it/s]
 88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 2511/2862 [11:05<01:31,  3.83it/s]
 88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 2512/2862 [11:05<01:31,  3.83it/s]
 88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 2513/2862 [11:06<01:31,  3.83it/s]
 88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 2514/2862 [11:06<01:30,  3.83it/s]
 88%|‚ñà‚ñà‚ñà‚ñà‚ñà

[36m(train_fn pid=24181)[0m {'eval_loss': 0.016171641647815704, 'eval_accuracy': 0.9964179626070243, 'eval_f1': 0.9965333558806122, 'eval_runtime': 67.3889, 'eval_samples_per_second': 169.85, 'eval_steps_per_second': 10.625, 'epoch': 1.0}


[36m(train_fn pid=24181)[0m 
                                                   A
100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 2862/2862 [13:44<00:00,  4.41it/s]
100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 716/716 [01:07<00:00, 10.75it/s][A
                                                 [A


[36m(train_fn pid=24181)[0m {'train_runtime': 829.3354, 'train_samples_per_second': 55.204, 'train_steps_per_second': 3.451, 'train_loss': 0.06189949124280928, 'epoch': 1.0}


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 2862/2862 [13:47<00:00,  3.46it/s]
  0%|          | 0/716 [00:00<?, ?it/s]
  0%|          | 2/716 [00:00<00:38, 18.38it/s]
  1%|          | 4/716 [00:00<00:56, 12.63it/s]
  1%|          | 6/716 [00:00<01:00, 11.73it/s]
  1%|          | 8/716 [00:00<01:02, 11.37it/s]
  1%|‚ñè         | 10/716 [00:00<01:03, 11.12it/s]
  2%|‚ñè         | 12/716 [00:01<01:05, 10.70it/s]
  2%|‚ñè         | 14/716 [00:01<01:06, 10.63it/s]
  2%|‚ñè         | 16/716 [00:01<01:06, 10.51it/s]
  3%|‚ñé         | 18/716 [00:01<01:05, 10.62it/s]
  3%|‚ñé         | 20/716 [00:01<01:05, 10.66it/s]
  3%|‚ñé         | 22/716 [00:02<01:05, 10.59it/s]
  3%|‚ñé         | 24/716 [00:02<01:05, 10.62it/s]
  4%|‚ñé         | 26/716 [00:02<01:05, 10.57it/s]
  4%|‚ñç         | 28/716 [00:02<01:05, 10.50it/s]
  4%|‚ñç         | 30/716 [00:02<01:05, 10.41it/s]
  4%|‚ñç         | 32/716 [00:02<01:06, 10.35it/s]
  5%|‚ñç         | 34/716 [00:03<01:05, 10.38it/s]
  5%|‚ñå         | 36/716 [00:03<

In [14]:
best_trial = analysis.get_best_trial(metric="eval_accuracy", mode="max")

# Ëé∑ÂèñÊ£ÄÊü•ÁÇπË∑ØÂæÑÔºàÈÄöËøá checkpoint Â±ûÊÄßÔºâ
best_checkpoint = best_trial.checkpoint
best_checkpoint_dir = best_checkpoint.to_directory()  # ÊèêÂèñÊ£ÄÊü•ÁÇπÁõÆÂΩï
print(f"ÊúÄ‰Ω≥Ê®°ÂûãË∑ØÂæÑÔºö{best_checkpoint_dir}")

# Âä†ËΩΩÊ®°Âûã
from transformers import AutoModel
best_model = XLNetForSequenceClassification.from_pretrained(best_checkpoint_dir)

ÊúÄ‰Ω≥Ê®°ÂûãË∑ØÂæÑÔºö/tmp/checkpoint_tmp_cde45623d157481e8b5d7ff7e1365b0b


In [15]:
trainer = Trainer(
    model=best_model,
    args=TrainingArguments(output_dir="./tmp"),  # ‰∏¥Êó∂ÁõÆÂΩïÔºå‰ªÖÁî®‰∫éÈ¢ÑÊµã
)

predictions = trainer.predict(test_dataset)
predictions_logits = predictions.predictions
predicted_labels = np.argmax(predictions_logits, axis=1)

accuracy = accuracy_score(test_dataset['label'], predicted_labels)
f1 = f1_score(test_dataset['label'], predicted_labels, average="binary")

print(f"Accuracy: {accuracy:.4f}")
print(f"F1 Score (Macro Average): {f1:.4f}")
wandb.finish()




Accuracy: 0.9963
F1 Score (Macro Average): 0.9963


0,1
test/loss,‚ñÅ
test/model_preparation_time,‚ñÅ
test/runtime,‚ñÅ
test/samples_per_second,‚ñÅ
test/steps_per_second,‚ñÅ
train/global_step,‚ñÅ

0,1
test/loss,0.01636
test/model_preparation_time,0.0023
test/runtime,91.119
test/samples_per_second,157.025
test/steps_per_second,19.634
train/global_step,0.0


In [16]:
wandb.finish()