In [None]:
!pip -q install wandb

import os, math, time, contextlib, copy
from dataclasses import dataclass, asdict
from typing import Optional

import torch
import torch.nn as nn
import torch.nn.functional as F
from torch import amp
from tqdm import trange

import wandb
wandb.login()

# ---- Speed knobs ----
def enable_tf32():
    if torch.cuda.is_available():
        if hasattr(torch.backends.cuda.matmul, "fp32_precision"):
            torch.backends.cuda.matmul.fp32_precision = "tf32"
        else:
            torch.backends.cuda.matmul.allow_tf32 = True

        if (
            hasattr(torch.backends, "cudnn")
            and hasattr(torch.backends.cudnn, "conv")
            and hasattr(torch.backends.cudnn.conv, "fp32_precision")
        ):
            torch.backends.cudnn.conv.fp32_precision = "tf32"
        else:
            torch.backends.cudnn.allow_tf32 = True

    try:
        torch.set_float32_matmul_precision("high")
    except Exception:
        pass

enable_tf32()

def flash_sdpa_context():
    """Request FlashAttention kernels when available; safe fallback otherwise."""
    try:
        from torch.nn.attention import sdpa_kernel, SDPBackend
        return sdpa_kernel([SDPBackend.FLASH_ATTENTION])
    except Exception:
        return contextlib.nullcontext()


  | |_| | '_ \/ _` / _` |  _/ -_)
[34m[1mwandb[0m: (1) Create a W&B account
[34m[1mwandb[0m: (2) Use an existing W&B account
[34m[1mwandb[0m: (3) Don't visualize my results
[34m[1mwandb[0m: Enter your choice:

 2


[34m[1mwandb[0m: You chose 'Use an existing W&B account'
[34m[1mwandb[0m: Logging into https://api.wandb.ai. (Learn how to deploy a W&B server locally: https://wandb.me/wandb-server)
[34m[1mwandb[0m: Find your API key here: https://wandb.ai/authorize
[34m[1mwandb[0m: Paste an API key from your profile and hit enter:

 ¬∑¬∑¬∑¬∑¬∑¬∑¬∑¬∑¬∑¬∑


[34m[1mwandb[0m: No netrc file found, creating one.
[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc
[34m[1mwandb[0m: Currently logged in as: [33mnathan-henry[0m ([33mnathan-henry-uc-berkeley-electrical-engineering-computer[0m) to [32mhttps://api.wandb.ai[0m. Use [1m`wandb login --relogin`[0m to force relogin
  _C._set_float32_matmul_precision(precision)


In [None]:
# -------------------------
# Model components
# -------------------------
class MLP(nn.Module):
    def __init__(self, config):
        super().__init__()
        self.fc_1 = nn.Linear(config.n_embd, 3 * config.n_embd)
        self.gelu = nn.GELU(approximate="tanh")
        self.fc_2 = nn.Linear(3 * config.n_embd, config.n_embd)

    def forward(self, x):
        return self.fc_2(self.gelu(self.fc_1(x)))


class CausalSelfAttention(nn.Module):
    def __init__(self, config):
        super().__init__()
        assert config.n_embd % config.n_heads == 0
        self.n_embd = config.n_embd
        self.n_heads = config.n_heads
        self.head_dim = config.n_embd // config.n_heads

        self.c_attn = nn.Linear(config.n_embd, 3 * config.n_embd)
        self.c_proj = nn.Linear(config.n_embd, config.n_embd)
        self.c_proj.NANOGPT_SCALE_INIT = True

    def forward(self, x):
        B, T, C = x.size()

        qkv = self.c_attn(x)
        q, k, v = qkv.split(self.n_embd, dim=2)

        q = q.view(B, T, self.n_heads, self.head_dim).transpose(1, 2)
        k = k.view(B, T, self.n_heads, self.head_dim).transpose(1, 2)
        v = v.view(B, T, self.n_heads, self.head_dim).transpose(1, 2)

        y = F.scaled_dot_product_attention(q, k, v, dropout_p=0.0, is_causal=True)
        y = y.transpose(1, 2).contiguous().view(B, T, C)
        y = self.c_proj(y)
        return y


class Block(nn.Module):
    def __init__(self, config):
        super().__init__()
        self.attn = CausalSelfAttention(config)
        self.mlp = MLP(config)
        self.ln_1 = nn.LayerNorm(config.n_embd)
        self.ln_2 = nn.LayerNorm(config.n_embd)

    def forward(self, x):
        x = x + self.attn(self.ln_1(x))
        x = x + self.mlp(self.ln_2(x))
        return x


class GPT(nn.Module):
    def __init__(self, config):
        super().__init__()
        self.config = config
        self.n_layers = config.n_layers

        self.transformer = nn.ModuleDict(
            dict(
                wte=nn.Embedding(config.vocab_size, config.n_embd),
                wpe=nn.Embedding(config.max_seq_len, config.n_embd),
                h=nn.ModuleList([Block(config) for _ in range(config.n_layers)]),
                ln_f=nn.LayerNorm(config.n_embd),
            )
        )
        self.lm_head = nn.Linear(config.n_embd, config.vocab_size, bias=False)
        self.lm_head.weight = self.transformer.wte.weight  # weight tying
        self.apply(self._init_weights)

        self.register_buffer("pos_idx", torch.arange(config.max_seq_len), persistent=False)

    def _init_weights(self, module):
        std = 0.02
        if isinstance(module, nn.Linear):
            if hasattr(module, "NANOGPT_SCALE_INIT"):
                std *= (2 * self.n_layers) ** -0.5
            torch.nn.init.normal_(module.weight, mean=0.0, std=std)
            if module.bias is not None:
                torch.nn.init.zeros_(module.bias)
        elif isinstance(module, nn.Embedding):
            torch.nn.init.normal_(module.weight, mean=0.0, std=std)

    def forward(self, idx, return_full_logits: bool = False):
        B, T = idx.size()
        assert T <= self.config.max_seq_len, f"T={T} exceeds max_seq_len={self.config.max_seq_len}"

        pos = self.transformer.wpe(self.pos_idx[:T])
        x = self.transformer.wte(idx) if self.config.without_pos else (self.transformer.wte(idx) + pos)

        for block in self.transformer.h:
            x = block(x)

        x = self.transformer.ln_f(x)

        # targets are the sorted half (tokens after SEP)
        targets = idx[:, self.config.block_size + 1 :]  # (B, block_size)

        if return_full_logits:
            logits = self.lm_head(x)
            logits_for_loss = logits[:, self.config.block_size : T - 1, :]
        else:
            x_for_loss = x[:, self.config.block_size : T - 1, :]
            logits_for_loss = self.lm_head(x_for_loss)
            logits = logits_for_loss

        loss = F.cross_entropy(
            logits_for_loss.reshape(-1, logits_for_loss.size(-1)),
            targets.reshape(-1),
        )
        return logits, loss


class GPTConfig:
    def __init__(
        self,
        block_size: int,
        vocab_size: int,
        n_layers: int = 2,
        n_heads: int = 1,
        n_embd: int = 64,
        without_pos: bool = False,
    ):
        self.block_size = int(block_size)
        self.vocab_size = int(vocab_size)
        self.n_layers = int(n_layers)
        self.n_heads = int(n_heads)
        self.n_embd = int(n_embd)
        self.without_pos = bool(without_pos)
        self.max_seq_len = 2 * self.block_size + 1


# -------------------------
# Data batching
# -------------------------
SEP_TOKEN = "SEP"

def _sample_numbers(batch_size: int, vocab_n: int, block_size: int, device: torch.device, allow_duplicates: bool):
    if allow_duplicates:
        return torch.randint(0, vocab_n, (batch_size, block_size), device=device, dtype=torch.long)

    if block_size > vocab_n:
        raise ValueError(f"allow_duplicates=False requires block_size <= vocab_n (got block_size={block_size}, vocab_n={vocab_n})")

    # Uniform random subset + random order via random scores + topk
    scores = torch.rand(batch_size, vocab_n, device=device)
    return scores.topk(block_size, dim=1).indices.to(torch.long)

def get_batch(batch_size: int, device: torch.device, vocab_n: int, block_size: int, allow_duplicates: bool):
    """
    Returns idx: (B, 2*block_size + 1)
      [x (len=block_size), SEP, sort(x)]
    Vocabulary:
      numbers: 0..vocab_n-1
      SEP id : vocab_n   (total vocab = vocab_n + 1)
    """
    x = _sample_numbers(batch_size, vocab_n, block_size, device, allow_duplicates)
    vals = x.sort(dim=1).values
    sep_id = vocab_n
    sep = torch.full((batch_size, 1), sep_id, device=device, dtype=torch.long)
    return torch.cat([x, sep, vals], dim=1)


# -------------------------
# Optim + schedule + plateau helpers
# -------------------------
def create_optimizer(model, weight_decay: float, lr: float):
    params = [p for p in model.parameters() if p.requires_grad]
    decay_params = [p for p in params if p.dim() > 1]
    nondecay_params = [p for p in params if p.dim() <= 1]
    optim_groups = [
        {"params": decay_params, "weight_decay": weight_decay},
        {"params": nondecay_params, "weight_decay": 0.0},
    ]
    try:
        return torch.optim.AdamW(optim_groups, lr=lr, betas=(0.9, 0.95), eps=1e-8, fused=True)
    except TypeError:
        return torch.optim.AdamW(optim_groups, lr=lr, betas=(0.9, 0.95), eps=1e-8)

@dataclass
class TrainConfig:
    # Task/data
    vocab_n: int = 1024
    block_size: int = 32
    allow_duplicates: bool = True
    sep_token: str = SEP_TOKEN

    # Model
    n_layers: int = 2
    n_heads: int = 1
    n_embd: int = 64
    without_pos: bool = False

    # Optim
    warmup_iters: int = 200
    max_iters: int = 120000
    learning_rate: float = 1e-4
    min_lr: float = 1e-6
    weight_decay: float = 0.0

    # Batch
    micro_batch_size: int = 1024
    effective_batch_size: int = 4096

    # Logging / ckpt
    log_interval: int = 250
    ckpt_interval: int = 20000
    save_dir: str = "./saved_models"

    # Plateau early stop (log‚Äìlog)
    # We fit slope of y=log10(loss) vs x=log10(step) over the last `plateau_window_logs` LOG POINTS.
    # Plateau triggers when:
    #   - improvement in log10(loss) across the window is tiny, AND
    #   - the fitted slope is close to 0 (not very negative),
    # for `plateau_patience_logs` consecutive checks.
    plateau_window_logs: int = 40              # window length in *logged points* (each point spaced by log_interval steps)
    plateau_slope_threshold: float = 0.02      # plateau if slope > -this (e.g. -0.01 is "flat-ish")
    plateau_log10_loss_delta: float = 0.02     # plateau if log10(loss) improves by < this across the window (~<4.7% improvement)
    plateau_patience_logs: int = 2             # require plateau condition for this many consecutive checks
    plateau_extra_logs: int = 1                # once plateau confirmed, run this many extra log intervals and then stop
    plateau_min_iters: int = 20000             # don't even check plateau until this many optimizer steps completed

    # Misc
    seed: int = 1337
    use_compile: bool = False

    # W&B
    wandb_project: str = "sortgpt"
    wandb_entity: Optional[str] = None
    wandb_group: Optional[str] = None
    wandb_mode: Optional[str] = None  # "online" | "offline" | "disabled"

def get_lr(itr: int, cfg: TrainConfig) -> float:
    if itr < cfg.warmup_iters:
        return cfg.learning_rate * (itr + 1) / (cfg.warmup_iters + 1)
    if itr > cfg.max_iters:
        return cfg.min_lr
    ratio = (itr - cfg.warmup_iters) / (cfg.max_iters - cfg.warmup_iters)
    ratio = 0.5 * (1.0 + math.cos(math.pi * ratio))
    return cfg.min_lr + ratio * (cfg.learning_rate - cfg.min_lr)

def _safe_log10(x: float, eps: float = 1e-30) -> float:
    return math.log10(max(float(x), eps))

def _linreg_slope(xs, ys) -> float:
    """Slope of y vs x via least squares."""
    n = len(xs)
    if n < 2:
        return 0.0
    x_mean = sum(xs) / n
    y_mean = sum(ys) / n
    cov = 0.0
    var = 0.0
    for x, y in zip(xs, ys):
        dx = x - x_mean
        dy = y - y_mean
        cov += dx * dy
        var += dx * dx
    return cov / var if var > 0 else 0.0

def make_wandb_run_name(cfg: TrainConfig) -> str:
    return f"sortgpt_N{cfg.vocab_n}_K{cfg.block_size}_L{cfg.n_layers}_dup{int(cfg.allow_duplicates)}"

def make_save_filename(prefix: str, cfg: TrainConfig, iters_done: int) -> str:
    # prefix in {"Final", "Checkpoint"}
    return f"{prefix}_N{cfg.vocab_n}_L{cfg.n_layers}_dup{int(cfg.allow_duplicates)}_iters{int(iters_done)}.pt"

@torch.no_grad()
def eval_train_loss_once(model: nn.Module, device: torch.device, cfg: TrainConfig, use_amp: bool, amp_dtype: Optional[torch.dtype]):
    model.eval()
    batch = get_batch(
        batch_size=cfg.micro_batch_size,
        device=device,
        vocab_n=cfg.vocab_n,
        block_size=cfg.block_size,
        allow_duplicates=cfg.allow_duplicates,
    )
    if use_amp:
        with amp.autocast(device_type="cuda", dtype=amp_dtype):
            _, loss = model(batch, return_full_logits=False)
    else:
        _, loss = model(batch, return_full_logits=False)
    model.train()
    return float(loss.item())

def train_sorting_gpt(cfg: TrainConfig):
    # ---- seeds ----
    torch.manual_seed(cfg.seed)
    if torch.cuda.is_available():
        torch.cuda.manual_seed_all(cfg.seed)

    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
    print(f"using device: {device}")

    # No-duplicate sanity checks
    if not cfg.allow_duplicates:
        if cfg.block_size > cfg.vocab_n:
            raise ValueError("allow_duplicates=False requires block_size <= vocab_n")
        if cfg.block_size == cfg.vocab_n:
            print("‚ö†Ô∏è  Warning: block_size == vocab_n with allow_duplicates=False => sorted output is constant (degenerate task).")

    total_vocab_size = cfg.vocab_n + 1
    sep_id = cfg.vocab_n
    max_seq_len = 2 * cfg.block_size + 1

    grad_accum_steps = cfg.effective_batch_size // cfg.micro_batch_size
    assert cfg.effective_batch_size % cfg.micro_batch_size == 0, "effective_batch_size must be divisible by micro_batch_size"

    # ---- AMP ----
    use_amp = (device.type == "cuda")
    if use_amp:
        bf16_ok = getattr(torch.cuda, "is_bf16_supported", lambda: False)()
        amp_dtype = torch.bfloat16 if bf16_ok else torch.float16
    else:
        amp_dtype = None

    scaler = amp.GradScaler(enabled=(use_amp and amp_dtype == torch.float16))

    # ---- model ----
    model_cfg = GPTConfig(
        block_size=cfg.block_size,
        vocab_size=total_vocab_size,
        n_layers=cfg.n_layers,
        n_heads=cfg.n_heads,
        n_embd=cfg.n_embd,
        without_pos=cfg.without_pos,
    )
    model = GPT(model_cfg).to(device)

    if cfg.use_compile and hasattr(torch, "compile"):
        try:
            model = torch.compile(model, mode="max-autotune")
            print("torch.compile enabled")
        except Exception as e:
            print(f"torch.compile failed, continuing uncompiled: {e}")

    optimizer = create_optimizer(model, weight_decay=cfg.weight_decay, lr=cfg.learning_rate)
    os.makedirs(cfg.save_dir, exist_ok=True)

    # ---- W&B init ----
    if wandb.run is not None:
        wandb.finish()

    wandb_cfg = asdict(cfg)
    wandb_cfg.update(
        dict(
            total_vocab_size=total_vocab_size,
            sep_id=sep_id,
            max_seq_len=max_seq_len,
            grad_accum_steps=grad_accum_steps,
            amp_dtype=str(amp_dtype) if amp_dtype is not None else "none",
            device=str(device),
        )
    )

    run = wandb.init(
        project=cfg.wandb_project,
        entity=cfg.wandb_entity,
        group=cfg.wandb_group,
        name=make_wandb_run_name(cfg),
        config=wandb_cfg,
        mode=cfg.wandb_mode,
    )

    # Raw metrics
    run.define_metric("iter")
    run.define_metric("train/*", step_metric="iter")
    run.define_metric("lr", step_metric="iter")
    run.define_metric("plateau/*", step_metric="iter")

    # Log‚Äìlog coordinates metrics (these charts are ‚Äúlog‚Äìlog‚Äù without UI toggles)
    run.define_metric("ll/iter")
    run.define_metric("ll/*", step_metric="ll/iter")

    # ---- plateau state ----
    ll_iters_hist = []
    ll_loss_hist = []
    plateau_hits = 0
    plateau_reached = False
    plateau_reached_iter = None
    stop_after_log_iter = None  # iteration index (itr) at which we stop after logging

    last_logged_itr = None
    iters_done = cfg.max_iters
    last_log_t = time.time()

    with flash_sdpa_context():
        for itr in trange(cfg.max_iters, desc="training"):
            optimizer.zero_grad(set_to_none=True)
            loss_accum = torch.zeros((), device=device)

            for _ in range(grad_accum_steps):
                batch = get_batch(
                    batch_size=cfg.micro_batch_size,
                    device=device,
                    vocab_n=cfg.vocab_n,
                    block_size=cfg.block_size,
                    allow_duplicates=cfg.allow_duplicates,
                )

                if use_amp:
                    with amp.autocast(device_type="cuda", dtype=amp_dtype):
                        _, loss = model(batch, return_full_logits=False)
                else:
                    _, loss = model(batch, return_full_logits=False)

                loss_to_back = loss / grad_accum_steps
                if scaler.is_enabled():
                    scaler.scale(loss_to_back).backward()
                else:
                    loss_to_back.backward()

                loss_accum = loss_accum + loss.detach()

            lr = get_lr(itr, cfg)
            for pg in optimizer.param_groups:
                pg["lr"] = lr

            if scaler.is_enabled():
                scaler.step(optimizer)
                scaler.update()
            else:
                optimizer.step()

            # ---- log + plateau check ----
            if itr % cfg.log_interval == 0:
                train_loss_t = (loss_accum / grad_accum_steps).detach()
                train_loss = float(train_loss_t.item())  # sync only here

                steps_done = itr + 1
                ll_iter = _safe_log10(steps_done)
                ll_loss = _safe_log10(train_loss)
                ll_lr = _safe_log10(lr)

                ll_iters_hist.append(ll_iter)
                ll_loss_hist.append(ll_loss)

                slope = None
                delta_ll_loss = None
                plateau_now = 0

                # Only attempt plateau detection when we have enough log points and have trained long enough
                if (
                    (not plateau_reached)
                    and (len(ll_iters_hist) >= cfg.plateau_window_logs)
                    and (steps_done >= cfg.plateau_min_iters)
                ):
                    xs = ll_iters_hist[-cfg.plateau_window_logs:]
                    ys = ll_loss_hist[-cfg.plateau_window_logs:]

                    slope = _linreg_slope(xs, ys)
                    delta_ll_loss = ys[0] - ys[-1]  # improvement in log10(loss); should be >=0 when improving

                    is_improving = (delta_ll_loss >= 0.0)
                    plateau_now = int(
                        is_improving
                        and (delta_ll_loss < cfg.plateau_log10_loss_delta)
                        and (slope > -cfg.plateau_slope_threshold)
                    )

                    plateau_hits = (plateau_hits + 1) if plateau_now else 0

                    if plateau_hits >= cfg.plateau_patience_logs:
                        plateau_reached = True
                        plateau_reached_iter = itr
                        stop_after_log_iter = itr + cfg.log_interval * max(int(cfg.plateau_extra_logs), 0)
                        print(
                            f"üü® plateau detected @ itr={itr} "
                            f"(slope={slope:.4f}, Œîlog10(loss)={delta_ll_loss:.4f}); "
                            f"will stop after logging itr={stop_after_log_iter}"
                        )

                now = time.time()
                dt = now - last_log_t
                last_log_t = now
                print(f"itr: {itr} lr: {lr:.3e} train loss: {train_loss:.6f} (dt={dt:.2f}s)")

                log_dict = {
                    "iter": steps_done,
                    "train/loss": train_loss,
                    "lr": lr,

                    # log‚Äìlog coordinates stream
                    "ll/iter": ll_iter,
                    "ll/train_loss": ll_loss,
                    "ll/lr": ll_lr,

                    # plateau telemetry
                    "plateau/now": plateau_now,
                    "plateau/hits": plateau_hits,
                    "plateau/reached": int(plateau_reached),
                }
                if slope is not None:
                    log_dict["plateau/loglog_slope"] = float(slope)
                if delta_ll_loss is not None:
                    log_dict["plateau/delta_log10_loss_window"] = float(delta_ll_loss)

                run.log(log_dict, step=steps_done)
                last_logged_itr = itr

                # Stop after extra log(s) once plateau is confirmed
                if plateau_reached and (stop_after_log_iter is not None) and (itr >= stop_after_log_iter):
                    iters_done = steps_done
                    break

            # ---- checkpointing ----
            if cfg.ckpt_interval and (itr > 0) and (itr % cfg.ckpt_interval == 0):
                steps_done = itr + 1
                ckpt_name = make_save_filename("Checkpoint", cfg, steps_done)
                ckpt_path = os.path.join(cfg.save_dir, ckpt_name)
                torch.save(
                    {
                        "itr": itr,
                        "iters_done": steps_done,
                        "plateau_reached": plateau_reached,
                        "plateau_reached_iter": plateau_reached_iter,
                        "train_config": wandb_cfg,
                        "model_config": vars(model_cfg),
                        "model": model.state_dict(),
                        "optimizer": optimizer.state_dict(),
                    },
                    ckpt_path,
                )
                print(f"saved checkpoint: {ckpt_path}")

    # If we didn't log the very last step, log one final point
    final_itr = iters_done - 1
    if last_logged_itr is None or last_logged_itr != final_itr:
        final_loss = eval_train_loss_once(model, device, cfg, use_amp, amp_dtype)
        final_lr = get_lr(final_itr, cfg)
        steps_done = iters_done

        run.log(
            {
                "iter": steps_done,
                "train/loss": final_loss,
                "lr": final_lr,
                "ll/iter": _safe_log10(steps_done),
                "ll/train_loss": _safe_log10(final_loss),
                "ll/lr": _safe_log10(final_lr),
                "plateau/reached": int(plateau_reached),
                "plateau/hits": plateau_hits,
                "plateau/now": 0,
            },
            step=steps_done,
        )

    # Final save (iters_done computed after run)
    final_name = make_save_filename("Final", cfg, iters_done)
    final_path = os.path.join(cfg.save_dir, final_name)
    torch.save(
        {
            "iters_done": iters_done,
            "plateau_reached": plateau_reached,
            "plateau_reached_iter": plateau_reached_iter,
            "train_config": wandb_cfg,
            "model_config": vars(model_cfg),
            "model": model.state_dict(),
        },
        final_path,
    )
    print(f"saved final model: {final_path}")

    run.summary["iters_done"] = iters_done
    run.summary["plateau_reached"] = bool(plateau_reached)
    run.summary["plateau_reached_iter"] = int(plateau_reached_iter) if plateau_reached_iter is not None else None
    run.finish()

    return final_path


# -------------------------
# Grid runner (expensive-first, no duplicates only)
# -------------------------
def run_grid(base_cfg: TrainConfig, vocab_sizes, layer_counts):
    # expensive first: vocab desc, then layers desc
    vocab_sizes = sorted(list(vocab_sizes), reverse=True)
    layer_counts = sorted(list(layer_counts), reverse=True)

    for N in vocab_sizes:
        for L in layer_counts:
            cfg = copy.deepcopy(base_cfg)
            cfg.vocab_n = int(N)
            cfg.n_layers = int(L)
            cfg.allow_duplicates = False  # per your request (no dup grid)
            train_sorting_gpt(cfg)


In [None]:
import os, time

STAMP = time.strftime("%Y%m%d_%H%M%S")

# Keep local wandb run files isolated (doesn't affect online grouping)
os.environ["WANDB_DIR"] = f"./wandb_grid_bs8192_{STAMP}"
SAVE_DIR = f"./saved_models_grid_bs8192_{STAMP}"

# Use the same project as earlier if you defined PROJECT; otherwise default
PROJECT = globals().get("PROJECT", "sortgpt")
GROUP = f"grid_bs8192_nodup_v256to32_{STAMP}"

print("WANDB_DIR =", os.environ["WANDB_DIR"])
print("SAVE_DIR  =", SAVE_DIR)
print("PROJECT   =", PROJECT)
print("GROUP     =", GROUP)

# --- Override run naming so W&B run titles include the batch size (8192) ---
# train_sorting_gpt() calls make_wandb_run_name(cfg), so redefining it here affects naming.
def make_wandb_run_name(cfg):
    ga = int(cfg.effective_batch_size) // int(cfg.micro_batch_size)
    return (
        f"bs{int(cfg.micro_batch_size)}"
        f"_eb{int(cfg.effective_batch_size)}"
        f"_ga{ga}"
        f"_N{int(cfg.vocab_n)}"
        f"_K{int(cfg.block_size)}"
        f"_L{int(cfg.n_layers)}"
        f"_dup{int(cfg.allow_duplicates)}"
    )

# IMPORTANT for no-duplicates: block_size must be <= smallest vocab size (32),
# and should be < 32 to avoid degenerate constant target when vocab_n=32.
base_cfg = TrainConfig(
    # Task (vocab_n and n_layers will be overridden in run_grid)
    vocab_n=256,
    block_size=31,
    allow_duplicates=False,

    # Model
    n_layers=2,
    n_heads=1,
    n_embd=64,
    without_pos=False,

    # Train
    max_iters=120000,
    warmup_iters=200,
    learning_rate=1e-4,
    min_lr=1e-6,
    weight_decay=0.0,

    # Batch (NO grad accumulation)
    micro_batch_size=8192,
    effective_batch_size=8192,

    # Logging / ckpt
    log_interval=250,
    ckpt_interval=20000,
    save_dir=SAVE_DIR,

    # Plateau stop
    plateau_window_logs=40,
    plateau_min_iters=20000,
    plateau_slope_threshold=0.02,
    plateau_log10_loss_delta=0.02,
    plateau_patience_logs=2,
    plateau_extra_logs=1,

    # W&B
    wandb_project=PROJECT,
    wandb_group=GROUP,
)

run_grid(
    base_cfg,
    vocab_sizes=[256, 128, 64, 32],
    layer_counts=[1, 2, 3],
)


WANDB_DIR = ./wandb_grid_bs8192_20260103_075004
SAVE_DIR  = ./saved_models_grid_bs8192_20260103_075004
PROJECT   = sortgpt
GROUP     = grid_bs8192_nodup_v256to32_20260103_075004
using device: cuda


0,1
iter,‚ñÅ‚ñÇ‚ñÉ‚ñÑ‚ñÖ‚ñÖ‚ñÜ‚ñá‚ñà
ll/iter,‚ñÅ‚ñÜ‚ñá‚ñá‚ñá‚ñà‚ñà‚ñà‚ñà
ll/lr,‚ñÅ‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà
ll/train_loss,‚ñà‚ñà‚ñá‚ñá‚ñÜ‚ñÖ‚ñÉ‚ñÇ‚ñÅ
lr,‚ñÅ‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà
plateau/hits,‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ
plateau/now,‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ
plateau/reached,‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ
train/loss,‚ñà‚ñá‚ñÖ‚ñÑ‚ñÉ‚ñÇ‚ñÅ‚ñÅ‚ñÅ

0,1
iter,2001.0
ll/iter,3.30125
ll/lr,-4.00024
ll/train_loss,-1.08292
lr,0.0001
plateau/hits,0.0
plateau/now,0.0
plateau/reached,0.0
train/loss,0.08262


training:   0%|          | 6/120000 [00:00<48:07, 41.55it/s]

itr: 0 lr: 4.975e-07 train loss: 5.565396 (dt=0.06s)


training:   0%|          | 257/120000 [00:11<1:25:09, 23.43it/s]

itr: 250 lr: 1.000e-04 train loss: 4.664448 (dt=11.52s)


training:   0%|          | 507/120000 [00:23<1:27:33, 22.74it/s]

itr: 500 lr: 1.000e-04 train loss: 3.550416 (dt=11.49s)


training:   1%|          | 757/120000 [00:34<1:27:29, 22.72it/s]

itr: 750 lr: 9.999e-05 train loss: 2.531034 (dt=11.49s)


training:   1%|          | 1007/120000 [00:46<1:27:13, 22.74it/s]

itr: 1000 lr: 9.999e-05 train loss: 1.542227 (dt=11.50s)


training:   1%|          | 1257/120000 [00:57<1:27:01, 22.74it/s]

itr: 1250 lr: 9.998e-05 train loss: 0.774185 (dt=11.49s)


training:   1%|‚ñè         | 1507/120000 [01:09<1:26:51, 22.74it/s]

itr: 1500 lr: 9.997e-05 train loss: 0.340226 (dt=11.49s)


training:   1%|‚ñè         | 1757/120000 [01:20<1:26:39, 22.74it/s]

itr: 1750 lr: 9.996e-05 train loss: 0.158270 (dt=11.49s)


training:   2%|‚ñè         | 2007/120000 [01:32<1:26:24, 22.76it/s]

itr: 2000 lr: 9.994e-05 train loss: 0.082619 (dt=11.49s)


training:   2%|‚ñè         | 2257/120000 [01:43<1:26:21, 22.73it/s]

itr: 2250 lr: 9.993e-05 train loss: 0.047909 (dt=11.49s)


training:   2%|‚ñè         | 2507/120000 [01:55<1:26:11, 22.72it/s]

itr: 2500 lr: 9.991e-05 train loss: 0.030037 (dt=11.49s)


training:   2%|‚ñè         | 2757/120000 [02:06<1:25:57, 22.73it/s]

itr: 2750 lr: 9.989e-05 train loss: 0.019931 (dt=11.49s)


training:   3%|‚ñé         | 3007/120000 [02:18<1:25:45, 22.74it/s]

itr: 3000 lr: 9.987e-05 train loss: 0.014208 (dt=11.49s)


training:   3%|‚ñé         | 3257/120000 [02:29<1:25:32, 22.75it/s]

itr: 3250 lr: 9.984e-05 train loss: 0.010513 (dt=11.49s)


training:   3%|‚ñé         | 3507/120000 [02:41<1:25:23, 22.74it/s]

itr: 3500 lr: 9.981e-05 train loss: 0.007819 (dt=11.49s)


training:   3%|‚ñé         | 3757/120000 [02:52<1:25:11, 22.74it/s]

itr: 3750 lr: 9.979e-05 train loss: 0.006074 (dt=11.49s)


training:   3%|‚ñé         | 4007/120000 [03:04<1:25:01, 22.74it/s]

itr: 4000 lr: 9.975e-05 train loss: 0.004823 (dt=11.49s)


training:   4%|‚ñé         | 4257/120000 [03:15<1:24:50, 22.74it/s]

itr: 4250 lr: 9.972e-05 train loss: 0.003645 (dt=11.49s)


training:   4%|‚ñç         | 4507/120000 [03:27<1:24:36, 22.75it/s]

itr: 4500 lr: 9.969e-05 train loss: 0.003522 (dt=11.49s)


training:   4%|‚ñç         | 4757/120000 [03:38<1:24:27, 22.74it/s]

itr: 4750 lr: 9.965e-05 train loss: 0.002291 (dt=11.49s)


training:   4%|‚ñç         | 5007/120000 [03:50<1:24:18, 22.73it/s]

itr: 5000 lr: 9.961e-05 train loss: 0.001927 (dt=11.49s)


training:   4%|‚ñç         | 5257/120000 [04:01<1:24:06, 22.74it/s]

itr: 5250 lr: 9.957e-05 train loss: 0.001560 (dt=11.49s)


training:   5%|‚ñç         | 5507/120000 [04:13<1:23:57, 22.73it/s]

itr: 5500 lr: 9.952e-05 train loss: 0.001332 (dt=11.49s)


training:   5%|‚ñç         | 5757/120000 [04:24<1:23:36, 22.77it/s]

itr: 5750 lr: 9.948e-05 train loss: 0.001119 (dt=11.49s)


training:   5%|‚ñå         | 6007/120000 [04:36<1:23:35, 22.73it/s]

itr: 6000 lr: 9.943e-05 train loss: 0.001226 (dt=11.49s)


training:   5%|‚ñå         | 6257/120000 [04:47<1:23:20, 22.74it/s]

itr: 6250 lr: 9.938e-05 train loss: 0.001010 (dt=11.49s)


training:   5%|‚ñå         | 6507/120000 [04:59<1:23:11, 22.74it/s]

itr: 6500 lr: 9.933e-05 train loss: 0.000620 (dt=11.49s)


training:   6%|‚ñå         | 6757/120000 [05:10<1:22:55, 22.76it/s]

itr: 6750 lr: 9.927e-05 train loss: 0.000636 (dt=11.49s)


training:   6%|‚ñå         | 7007/120000 [05:22<1:22:49, 22.74it/s]

itr: 7000 lr: 9.922e-05 train loss: 0.000589 (dt=11.49s)


training:   6%|‚ñå         | 7257/120000 [05:33<1:22:40, 22.73it/s]

itr: 7250 lr: 9.916e-05 train loss: 0.000369 (dt=11.49s)


training:   6%|‚ñã         | 7507/120000 [05:45<1:22:28, 22.73it/s]

itr: 7500 lr: 9.910e-05 train loss: 0.000539 (dt=11.49s)


training:   6%|‚ñã         | 7757/120000 [05:56<1:22:13, 22.75it/s]

itr: 7750 lr: 9.903e-05 train loss: 0.000401 (dt=11.49s)


training:   7%|‚ñã         | 8007/120000 [06:07<1:22:05, 22.74it/s]

itr: 8000 lr: 9.897e-05 train loss: 0.000340 (dt=11.49s)


training:   7%|‚ñã         | 8257/120000 [06:19<1:21:58, 22.72it/s]

itr: 8250 lr: 9.890e-05 train loss: 0.000348 (dt=11.49s)


training:   7%|‚ñã         | 8507/120000 [06:30<1:21:44, 22.73it/s]

itr: 8500 lr: 9.883e-05 train loss: 0.000274 (dt=11.49s)


training:   7%|‚ñã         | 8757/120000 [06:42<1:21:34, 22.73it/s]

itr: 8750 lr: 9.876e-05 train loss: 0.000424 (dt=11.49s)


training:   8%|‚ñä         | 9007/120000 [06:53<1:21:21, 22.74it/s]

itr: 9000 lr: 9.869e-05 train loss: 0.000336 (dt=11.49s)


training:   8%|‚ñä         | 9257/120000 [07:05<1:21:08, 22.74it/s]

itr: 9250 lr: 9.861e-05 train loss: 0.000206 (dt=11.49s)


training:   8%|‚ñä         | 9507/120000 [07:16<1:20:59, 22.74it/s]

itr: 9500 lr: 9.854e-05 train loss: 0.000149 (dt=11.49s)


training:   8%|‚ñä         | 9757/120000 [07:28<1:20:47, 22.74it/s]

itr: 9750 lr: 9.846e-05 train loss: 0.000183 (dt=11.49s)


training:   8%|‚ñä         | 10007/120000 [07:39<1:20:37, 22.74it/s]

itr: 10000 lr: 9.837e-05 train loss: 0.000400 (dt=11.49s)


training:   9%|‚ñä         | 10257/120000 [07:51<1:20:26, 22.74it/s]

itr: 10250 lr: 9.829e-05 train loss: 0.000126 (dt=11.49s)


training:   9%|‚ñâ         | 10507/120000 [08:02<1:20:17, 22.73it/s]

itr: 10500 lr: 9.821e-05 train loss: 0.000171 (dt=11.49s)


training:   9%|‚ñâ         | 10757/120000 [08:14<1:20:04, 22.74it/s]

itr: 10750 lr: 9.812e-05 train loss: 0.000121 (dt=11.49s)


training:   9%|‚ñâ         | 11007/120000 [08:25<1:19:55, 22.73it/s]

itr: 11000 lr: 9.803e-05 train loss: 0.000378 (dt=11.49s)


training:   9%|‚ñâ         | 11257/120000 [08:37<1:19:42, 22.74it/s]

itr: 11250 lr: 9.794e-05 train loss: 0.000110 (dt=11.49s)


training:  10%|‚ñâ         | 11507/120000 [08:48<1:19:31, 22.74it/s]

itr: 11500 lr: 9.784e-05 train loss: 0.000140 (dt=11.49s)


training:  10%|‚ñâ         | 11757/120000 [09:00<1:19:22, 22.73it/s]

itr: 11750 lr: 9.775e-05 train loss: 0.000192 (dt=11.49s)


training:  10%|‚ñà         | 12007/120000 [09:11<1:19:04, 22.76it/s]

itr: 12000 lr: 9.765e-05 train loss: 0.000059 (dt=11.49s)


training:  10%|‚ñà         | 12257/120000 [09:23<1:18:59, 22.74it/s]

itr: 12250 lr: 9.755e-05 train loss: 0.000064 (dt=11.49s)


training:  10%|‚ñà         | 12507/120000 [09:34<1:18:47, 22.74it/s]

itr: 12500 lr: 9.745e-05 train loss: 0.000061 (dt=11.49s)


training:  11%|‚ñà         | 12757/120000 [09:46<1:18:36, 22.74it/s]

itr: 12750 lr: 9.734e-05 train loss: 0.000055 (dt=11.49s)


training:  11%|‚ñà         | 13007/120000 [09:57<1:18:25, 22.74it/s]

itr: 13000 lr: 9.724e-05 train loss: 0.000150 (dt=11.49s)


training:  11%|‚ñà         | 13257/120000 [10:09<1:18:20, 22.71it/s]

itr: 13250 lr: 9.713e-05 train loss: 0.000050 (dt=11.49s)


training:  11%|‚ñà‚ñè        | 13507/120000 [10:20<1:18:03, 22.74it/s]

itr: 13500 lr: 9.702e-05 train loss: 0.000065 (dt=11.49s)


training:  11%|‚ñà‚ñè        | 13757/120000 [10:32<1:17:52, 22.74it/s]

itr: 13750 lr: 9.691e-05 train loss: 0.000068 (dt=11.49s)


training:  12%|‚ñà‚ñè        | 14007/120000 [10:43<1:17:40, 22.74it/s]

itr: 14000 lr: 9.679e-05 train loss: 0.000055 (dt=11.49s)


training:  12%|‚ñà‚ñè        | 14257/120000 [10:55<1:17:24, 22.77it/s]

itr: 14250 lr: 9.668e-05 train loss: 0.000065 (dt=11.49s)


training:  12%|‚ñà‚ñè        | 14507/120000 [11:06<1:17:19, 22.74it/s]

itr: 14500 lr: 9.656e-05 train loss: 0.000093 (dt=11.49s)


training:  12%|‚ñà‚ñè        | 14757/120000 [11:18<1:17:10, 22.73it/s]

itr: 14750 lr: 9.644e-05 train loss: 0.000049 (dt=11.49s)


training:  13%|‚ñà‚ñé        | 15007/120000 [11:29<1:16:56, 22.74it/s]

itr: 15000 lr: 9.632e-05 train loss: 0.000039 (dt=11.49s)


training:  13%|‚ñà‚ñé        | 15257/120000 [11:41<1:16:47, 22.73it/s]

itr: 15250 lr: 9.619e-05 train loss: 0.000042 (dt=11.49s)


training:  13%|‚ñà‚ñé        | 15507/120000 [11:52<1:16:36, 22.73it/s]

itr: 15500 lr: 9.607e-05 train loss: 0.000100 (dt=11.49s)


training:  13%|‚ñà‚ñé        | 15757/120000 [12:04<1:16:26, 22.73it/s]

itr: 15750 lr: 9.594e-05 train loss: 0.000014 (dt=11.49s)


training:  13%|‚ñà‚ñé        | 16007/120000 [12:15<1:16:14, 22.73it/s]

itr: 16000 lr: 9.581e-05 train loss: 0.000046 (dt=11.49s)


training:  14%|‚ñà‚ñé        | 16257/120000 [12:27<1:16:03, 22.73it/s]

itr: 16250 lr: 9.568e-05 train loss: 0.000064 (dt=11.49s)


training:  14%|‚ñà‚ñç        | 16507/120000 [12:38<1:15:51, 22.74it/s]

itr: 16500 lr: 9.555e-05 train loss: 0.000023 (dt=11.49s)


training:  14%|‚ñà‚ñç        | 16757/120000 [12:50<1:15:41, 22.73it/s]

itr: 16750 lr: 9.541e-05 train loss: 0.000097 (dt=11.49s)


training:  14%|‚ñà‚ñç        | 17007/120000 [13:01<1:15:22, 22.77it/s]

itr: 17000 lr: 9.527e-05 train loss: 0.000035 (dt=11.49s)


training:  14%|‚ñà‚ñç        | 17257/120000 [13:13<1:15:17, 22.75it/s]

itr: 17250 lr: 9.513e-05 train loss: 0.000123 (dt=11.49s)


training:  15%|‚ñà‚ñç        | 17507/120000 [13:24<1:15:08, 22.73it/s]

itr: 17500 lr: 9.499e-05 train loss: 0.000054 (dt=11.49s)


training:  15%|‚ñà‚ñç        | 17757/120000 [13:36<1:15:01, 22.71it/s]

itr: 17750 lr: 9.485e-05 train loss: 0.000036 (dt=11.49s)


training:  15%|‚ñà‚ñå        | 18007/120000 [13:47<1:14:46, 22.73it/s]

itr: 18000 lr: 9.470e-05 train loss: 0.000017 (dt=11.49s)


training:  15%|‚ñà‚ñå        | 18257/120000 [13:59<1:14:36, 22.73it/s]

itr: 18250 lr: 9.456e-05 train loss: 0.000073 (dt=11.49s)


training:  15%|‚ñà‚ñå        | 18507/120000 [14:10<1:14:23, 22.74it/s]

itr: 18500 lr: 9.441e-05 train loss: 0.000052 (dt=11.49s)


training:  16%|‚ñà‚ñå        | 18757/120000 [14:22<1:14:11, 22.74it/s]

itr: 18750 lr: 9.426e-05 train loss: 0.000016 (dt=11.49s)


training:  16%|‚ñà‚ñå        | 19007/120000 [14:33<1:14:03, 22.73it/s]

itr: 19000 lr: 9.411e-05 train loss: 0.000023 (dt=11.49s)


training:  16%|‚ñà‚ñå        | 19257/120000 [14:45<1:13:49, 22.75it/s]

itr: 19250 lr: 9.395e-05 train loss: 0.000041 (dt=11.49s)


training:  16%|‚ñà‚ñã        | 19507/120000 [14:56<1:13:34, 22.77it/s]

itr: 19500 lr: 9.379e-05 train loss: 0.000061 (dt=11.49s)


training:  16%|‚ñà‚ñã        | 19757/120000 [15:08<1:13:28, 22.74it/s]

itr: 19750 lr: 9.364e-05 train loss: 0.000055 (dt=11.49s)


training:  17%|‚ñà‚ñã        | 20007/120000 [15:19<1:15:45, 22.00it/s]

itr: 20000 lr: 9.348e-05 train loss: 0.000018 (dt=11.49s)
saved checkpoint: ./saved_models_grid_bs8192_20260103_075004/Checkpoint_N256_L3_dup0_iters20001.pt


training:  17%|‚ñà‚ñã        | 20257/120000 [15:31<1:13:06, 22.74it/s]

itr: 20250 lr: 9.331e-05 train loss: 0.000018 (dt=11.52s)


training:  17%|‚ñà‚ñã        | 20507/120000 [15:42<1:12:58, 22.72it/s]

itr: 20500 lr: 9.315e-05 train loss: 0.000023 (dt=11.49s)


training:  17%|‚ñà‚ñã        | 20757/120000 [15:54<1:12:46, 22.73it/s]

itr: 20750 lr: 9.298e-05 train loss: 0.000030 (dt=11.49s)


training:  18%|‚ñà‚ñä        | 21007/120000 [16:05<1:12:24, 22.79it/s]

itr: 21000 lr: 9.282e-05 train loss: 0.000018 (dt=11.49s)


training:  18%|‚ñà‚ñä        | 21257/120000 [16:17<1:12:24, 22.73it/s]

itr: 21250 lr: 9.265e-05 train loss: 0.000032 (dt=11.49s)


training:  18%|‚ñà‚ñä        | 21507/120000 [16:28<1:12:12, 22.73it/s]

itr: 21500 lr: 9.248e-05 train loss: 0.000037 (dt=11.49s)


training:  18%|‚ñà‚ñä        | 21757/120000 [16:40<1:12:02, 22.73it/s]

itr: 21750 lr: 9.230e-05 train loss: 0.000036 (dt=11.49s)


training:  18%|‚ñà‚ñä        | 22007/120000 [16:51<1:11:49, 22.74it/s]

itr: 22000 lr: 9.213e-05 train loss: 0.000011 (dt=11.49s)


training:  19%|‚ñà‚ñä        | 22257/120000 [17:03<1:11:40, 22.73it/s]

itr: 22250 lr: 9.195e-05 train loss: 0.000025 (dt=11.49s)


training:  19%|‚ñà‚ñâ        | 22507/120000 [17:14<1:11:23, 22.76it/s]

itr: 22500 lr: 9.177e-05 train loss: 0.000025 (dt=11.49s)


training:  19%|‚ñà‚ñâ        | 22757/120000 [17:26<1:11:18, 22.73it/s]

itr: 22750 lr: 9.159e-05 train loss: 0.000081 (dt=11.49s)


training:  19%|‚ñà‚ñâ        | 23007/120000 [17:37<1:11:05, 22.74it/s]

itr: 23000 lr: 9.141e-05 train loss: 0.000054 (dt=11.49s)


training:  19%|‚ñà‚ñâ        | 23257/120000 [17:49<1:10:58, 22.72it/s]

itr: 23250 lr: 9.123e-05 train loss: 0.000035 (dt=11.49s)


training:  20%|‚ñà‚ñâ        | 23507/120000 [18:00<1:10:35, 22.78it/s]

itr: 23500 lr: 9.104e-05 train loss: 0.000011 (dt=11.49s)


training:  20%|‚ñà‚ñâ        | 23757/120000 [18:12<1:10:33, 22.73it/s]

itr: 23750 lr: 9.086e-05 train loss: 0.000006 (dt=11.49s)


training:  20%|‚ñà‚ñà        | 24007/120000 [18:23<1:10:21, 22.74it/s]

itr: 24000 lr: 9.067e-05 train loss: 0.000061 (dt=11.49s)


training:  20%|‚ñà‚ñà        | 24257/120000 [18:35<1:10:12, 22.73it/s]

itr: 24250 lr: 9.048e-05 train loss: 0.000027 (dt=11.49s)


training:  20%|‚ñà‚ñà        | 24507/120000 [18:46<1:10:03, 22.72it/s]

itr: 24500 lr: 9.029e-05 train loss: 0.000007 (dt=11.49s)


training:  21%|‚ñà‚ñà        | 24757/120000 [18:58<1:09:47, 22.74it/s]

itr: 24750 lr: 9.009e-05 train loss: 0.000009 (dt=11.49s)


training:  21%|‚ñà‚ñà        | 25007/120000 [19:09<1:09:31, 22.77it/s]

itr: 25000 lr: 8.990e-05 train loss: 0.000016 (dt=11.49s)


training:  21%|‚ñà‚ñà        | 25257/120000 [19:21<1:09:26, 22.74it/s]

itr: 25250 lr: 8.970e-05 train loss: 0.000007 (dt=11.49s)


training:  21%|‚ñà‚ñà‚ñè       | 25507/120000 [19:32<1:09:17, 22.73it/s]

itr: 25500 lr: 8.950e-05 train loss: 0.000047 (dt=11.49s)


training:  21%|‚ñà‚ñà‚ñè       | 25757/120000 [19:44<1:09:08, 22.72it/s]

itr: 25750 lr: 8.930e-05 train loss: 0.000051 (dt=11.49s)


training:  22%|‚ñà‚ñà‚ñè       | 26007/120000 [19:55<1:08:52, 22.74it/s]

itr: 26000 lr: 8.910e-05 train loss: 0.000012 (dt=11.49s)


training:  22%|‚ñà‚ñà‚ñè       | 26257/120000 [20:07<1:08:42, 22.74it/s]

itr: 26250 lr: 8.889e-05 train loss: 0.000054 (dt=11.49s)


training:  22%|‚ñà‚ñà‚ñè       | 26507/120000 [20:18<1:08:26, 22.76it/s]

itr: 26500 lr: 8.869e-05 train loss: 0.000020 (dt=11.49s)


training:  22%|‚ñà‚ñà‚ñè       | 26757/120000 [20:30<1:08:22, 22.73it/s]

itr: 26750 lr: 8.848e-05 train loss: 0.000107 (dt=11.49s)


training:  23%|‚ñà‚ñà‚ñé       | 27007/120000 [20:41<1:08:12, 22.72it/s]

itr: 27000 lr: 8.827e-05 train loss: 0.000006 (dt=11.49s)


training:  23%|‚ñà‚ñà‚ñé       | 27257/120000 [20:52<1:07:59, 22.74it/s]

itr: 27250 lr: 8.806e-05 train loss: 0.000006 (dt=11.49s)


training:  23%|‚ñà‚ñà‚ñé       | 27507/120000 [21:04<1:07:48, 22.73it/s]

itr: 27500 lr: 8.785e-05 train loss: 0.000005 (dt=11.49s)


training:  23%|‚ñà‚ñà‚ñé       | 27757/120000 [21:15<1:07:36, 22.74it/s]

itr: 27750 lr: 8.763e-05 train loss: 0.000008 (dt=11.49s)


training:  23%|‚ñà‚ñà‚ñé       | 28007/120000 [21:27<1:07:26, 22.73it/s]

itr: 28000 lr: 8.742e-05 train loss: 0.000012 (dt=11.49s)


training:  24%|‚ñà‚ñà‚ñé       | 28257/120000 [21:38<1:07:17, 22.72it/s]

itr: 28250 lr: 8.720e-05 train loss: 0.000084 (dt=11.49s)


training:  24%|‚ñà‚ñà‚ñç       | 28507/120000 [21:50<1:07:03, 22.74it/s]

itr: 28500 lr: 8.698e-05 train loss: 0.000132 (dt=11.49s)


training:  24%|‚ñà‚ñà‚ñç       | 28757/120000 [22:01<1:06:53, 22.74it/s]

itr: 28750 lr: 8.676e-05 train loss: 0.000008 (dt=11.49s)


training:  24%|‚ñà‚ñà‚ñç       | 29007/120000 [22:13<1:06:43, 22.73it/s]

itr: 29000 lr: 8.654e-05 train loss: 0.000015 (dt=11.49s)


training:  24%|‚ñà‚ñà‚ñç       | 29257/120000 [22:24<1:06:30, 22.74it/s]

itr: 29250 lr: 8.632e-05 train loss: 0.000012 (dt=11.49s)


training:  25%|‚ñà‚ñà‚ñç       | 29507/120000 [22:36<1:06:19, 22.74it/s]

itr: 29500 lr: 8.609e-05 train loss: 0.000021 (dt=11.49s)


training:  25%|‚ñà‚ñà‚ñç       | 29757/120000 [22:47<1:06:09, 22.74it/s]

itr: 29750 lr: 8.587e-05 train loss: 0.000005 (dt=11.49s)


training:  25%|‚ñà‚ñà‚ñå       | 30007/120000 [22:59<1:05:57, 22.74it/s]

itr: 30000 lr: 8.564e-05 train loss: 0.000029 (dt=11.49s)


training:  25%|‚ñà‚ñà‚ñå       | 30257/120000 [23:10<1:05:47, 22.73it/s]

itr: 30250 lr: 8.541e-05 train loss: 0.000005 (dt=11.49s)


training:  25%|‚ñà‚ñà‚ñå       | 30507/120000 [23:22<1:05:38, 22.72it/s]

itr: 30500 lr: 8.518e-05 train loss: 0.000026 (dt=11.49s)


training:  26%|‚ñà‚ñà‚ñå       | 30757/120000 [23:33<1:05:26, 22.73it/s]

itr: 30750 lr: 8.495e-05 train loss: 0.000005 (dt=11.49s)


training:  26%|‚ñà‚ñà‚ñå       | 31007/120000 [23:45<1:05:13, 22.74it/s]

itr: 31000 lr: 8.471e-05 train loss: 0.000058 (dt=11.49s)


training:  26%|‚ñà‚ñà‚ñå       | 31257/120000 [23:56<1:05:04, 22.73it/s]

itr: 31250 lr: 8.448e-05 train loss: 0.000004 (dt=11.49s)


training:  26%|‚ñà‚ñà‚ñã       | 31507/120000 [24:08<1:04:52, 22.73it/s]

itr: 31500 lr: 8.424e-05 train loss: 0.000027 (dt=11.49s)


training:  26%|‚ñà‚ñà‚ñã       | 31757/120000 [24:19<1:04:41, 22.73it/s]

itr: 31750 lr: 8.400e-05 train loss: 0.000007 (dt=11.49s)


training:  27%|‚ñà‚ñà‚ñã       | 32007/120000 [24:31<1:04:29, 22.74it/s]

itr: 32000 lr: 8.376e-05 train loss: 0.000004 (dt=11.49s)


training:  27%|‚ñà‚ñà‚ñã       | 32257/120000 [24:42<1:04:19, 22.73it/s]

itr: 32250 lr: 8.352e-05 train loss: 0.000006 (dt=11.49s)


training:  27%|‚ñà‚ñà‚ñã       | 32507/120000 [24:54<1:04:07, 22.74it/s]

itr: 32500 lr: 8.328e-05 train loss: 0.000009 (dt=11.49s)


training:  27%|‚ñà‚ñà‚ñã       | 32757/120000 [25:05<1:03:58, 22.73it/s]

itr: 32750 lr: 8.304e-05 train loss: 0.000036 (dt=11.49s)


training:  28%|‚ñà‚ñà‚ñä       | 33007/120000 [25:17<1:03:45, 22.74it/s]

itr: 33000 lr: 8.279e-05 train loss: 0.000002 (dt=11.49s)


training:  28%|‚ñà‚ñà‚ñä       | 33257/120000 [25:28<1:03:37, 22.72it/s]

itr: 33250 lr: 8.254e-05 train loss: 0.000018 (dt=11.49s)


training:  28%|‚ñà‚ñà‚ñä       | 33507/120000 [25:40<1:03:24, 22.73it/s]

itr: 33500 lr: 8.230e-05 train loss: 0.000015 (dt=11.49s)


training:  28%|‚ñà‚ñà‚ñä       | 33757/120000 [25:51<1:03:14, 22.73it/s]

itr: 33750 lr: 8.205e-05 train loss: 0.000010 (dt=11.49s)


training:  28%|‚ñà‚ñà‚ñä       | 34007/120000 [26:03<1:03:02, 22.73it/s]

itr: 34000 lr: 8.180e-05 train loss: 0.000003 (dt=11.49s)


training:  29%|‚ñà‚ñà‚ñä       | 34257/120000 [26:14<1:02:50, 22.74it/s]

itr: 34250 lr: 8.154e-05 train loss: 0.000002 (dt=11.49s)


training:  29%|‚ñà‚ñà‚ñâ       | 34507/120000 [26:26<1:02:41, 22.73it/s]

itr: 34500 lr: 8.129e-05 train loss: 0.000021 (dt=11.49s)


training:  29%|‚ñà‚ñà‚ñâ       | 34757/120000 [26:37<1:02:30, 22.73it/s]

itr: 34750 lr: 8.104e-05 train loss: 0.000022 (dt=11.49s)


training:  29%|‚ñà‚ñà‚ñâ       | 35007/120000 [26:49<1:02:17, 22.74it/s]

itr: 35000 lr: 8.078e-05 train loss: 0.000020 (dt=11.49s)


training:  29%|‚ñà‚ñà‚ñâ       | 35257/120000 [27:00<1:02:08, 22.73it/s]

itr: 35250 lr: 8.052e-05 train loss: 0.000008 (dt=11.49s)


training:  30%|‚ñà‚ñà‚ñâ       | 35507/120000 [27:12<1:01:56, 22.73it/s]

itr: 35500 lr: 8.026e-05 train loss: 0.000003 (dt=11.49s)


training:  30%|‚ñà‚ñà‚ñâ       | 35757/120000 [27:23<1:01:47, 22.72it/s]

itr: 35750 lr: 8.000e-05 train loss: 0.000005 (dt=11.49s)


training:  30%|‚ñà‚ñà‚ñà       | 36007/120000 [27:35<1:01:35, 22.73it/s]

itr: 36000 lr: 7.974e-05 train loss: 0.000002 (dt=11.49s)


training:  30%|‚ñà‚ñà‚ñà       | 36257/120000 [27:46<1:01:23, 22.74it/s]

itr: 36250 lr: 7.948e-05 train loss: 0.000004 (dt=11.49s)


training:  30%|‚ñà‚ñà‚ñà       | 36507/120000 [27:58<1:01:13, 22.73it/s]

itr: 36500 lr: 7.922e-05 train loss: 0.000025 (dt=11.49s)


training:  31%|‚ñà‚ñà‚ñà       | 36757/120000 [28:09<1:01:02, 22.73it/s]

itr: 36750 lr: 7.895e-05 train loss: 0.000010 (dt=11.49s)


training:  31%|‚ñà‚ñà‚ñà       | 37007/120000 [28:21<1:00:50, 22.74it/s]

itr: 37000 lr: 7.868e-05 train loss: 0.000026 (dt=11.49s)


training:  31%|‚ñà‚ñà‚ñà       | 37257/120000 [28:32<1:00:39, 22.73it/s]

itr: 37250 lr: 7.842e-05 train loss: 0.000009 (dt=11.49s)


training:  31%|‚ñà‚ñà‚ñà‚ñè      | 37507/120000 [28:44<1:00:29, 22.73it/s]

itr: 37500 lr: 7.815e-05 train loss: 0.000002 (dt=11.49s)


training:  31%|‚ñà‚ñà‚ñà‚ñè      | 37757/120000 [28:55<1:00:10, 22.78it/s]

itr: 37750 lr: 7.788e-05 train loss: 0.000015 (dt=11.49s)


training:  32%|‚ñà‚ñà‚ñà‚ñè      | 38007/120000 [29:07<1:00:07, 22.73it/s]

itr: 38000 lr: 7.761e-05 train loss: 0.000009 (dt=11.49s)


training:  32%|‚ñà‚ñà‚ñà‚ñè      | 38257/120000 [29:18<59:57, 22.72it/s]  

itr: 38250 lr: 7.734e-05 train loss: 0.000005 (dt=11.49s)


training:  32%|‚ñà‚ñà‚ñà‚ñè      | 38507/120000 [29:30<59:43, 22.74it/s]  

itr: 38500 lr: 7.706e-05 train loss: 0.000011 (dt=11.49s)


training:  32%|‚ñà‚ñà‚ñà‚ñè      | 38757/120000 [29:41<59:33, 22.74it/s]  

itr: 38750 lr: 7.679e-05 train loss: 0.000024 (dt=11.49s)


training:  33%|‚ñà‚ñà‚ñà‚ñé      | 39007/120000 [29:53<59:23, 22.73it/s]  

itr: 39000 lr: 7.651e-05 train loss: 0.000006 (dt=11.49s)


training:  33%|‚ñà‚ñà‚ñà‚ñé      | 39257/120000 [30:04<59:05, 22.78it/s]  

itr: 39250 lr: 7.624e-05 train loss: 0.000003 (dt=11.49s)


training:  33%|‚ñà‚ñà‚ñà‚ñé      | 39507/120000 [30:16<58:59, 22.74it/s]  

itr: 39500 lr: 7.596e-05 train loss: 0.000063 (dt=11.49s)


training:  33%|‚ñà‚ñà‚ñà‚ñé      | 39757/120000 [30:27<58:49, 22.73it/s]  

itr: 39750 lr: 7.568e-05 train loss: 0.000001 (dt=11.49s)


training:  33%|‚ñà‚ñà‚ñà‚ñé      | 40007/120000 [30:39<59:53, 22.26it/s]  

itr: 40000 lr: 7.540e-05 train loss: 0.000004 (dt=11.49s)
saved checkpoint: ./saved_models_grid_bs8192_20260103_075004/Checkpoint_N256_L3_dup0_iters40001.pt


training:  34%|‚ñà‚ñà‚ñà‚ñé      | 40257/120000 [30:50<58:28, 22.73it/s]  

itr: 40250 lr: 7.512e-05 train loss: 0.000004 (dt=11.51s)


training:  34%|‚ñà‚ñà‚ñà‚ñç      | 40507/120000 [31:02<58:16, 22.73it/s]  

itr: 40500 lr: 7.484e-05 train loss: 0.000004 (dt=11.49s)


training:  34%|‚ñà‚ñà‚ñà‚ñç      | 40757/120000 [31:13<58:05, 22.73it/s]  

itr: 40750 lr: 7.455e-05 train loss: 0.000005 (dt=11.49s)


training:  34%|‚ñà‚ñà‚ñà‚ñç      | 41007/120000 [31:25<57:54, 22.73it/s]  

itr: 41000 lr: 7.427e-05 train loss: 0.000003 (dt=11.49s)


training:  34%|‚ñà‚ñà‚ñà‚ñç      | 41257/120000 [31:36<57:40, 22.75it/s]  

itr: 41250 lr: 7.398e-05 train loss: 0.000005 (dt=11.49s)


training:  35%|‚ñà‚ñà‚ñà‚ñç      | 41507/120000 [31:48<57:32, 22.74it/s]  

itr: 41500 lr: 7.370e-05 train loss: 0.000002 (dt=11.49s)


training:  35%|‚ñà‚ñà‚ñà‚ñç      | 41757/120000 [31:59<57:22, 22.73it/s]  

itr: 41750 lr: 7.341e-05 train loss: 0.000003 (dt=11.49s)


training:  35%|‚ñà‚ñà‚ñà‚ñå      | 42007/120000 [32:11<57:11, 22.73it/s]  

itr: 42000 lr: 7.312e-05 train loss: 0.000003 (dt=11.49s)


training:  35%|‚ñà‚ñà‚ñà‚ñå      | 42257/120000 [32:22<57:00, 22.73it/s]  

itr: 42250 lr: 7.283e-05 train loss: 0.000036 (dt=11.49s)


training:  35%|‚ñà‚ñà‚ñà‚ñå      | 42507/120000 [32:34<56:47, 22.74it/s]  

itr: 42500 lr: 7.254e-05 train loss: 0.000002 (dt=11.49s)


training:  36%|‚ñà‚ñà‚ñà‚ñå      | 42757/120000 [32:45<56:40, 22.72it/s]  

itr: 42750 lr: 7.225e-05 train loss: 0.000004 (dt=11.49s)


training:  36%|‚ñà‚ñà‚ñà‚ñå      | 43007/120000 [32:57<56:25, 22.74it/s]  

itr: 43000 lr: 7.196e-05 train loss: 0.000034 (dt=11.49s)


training:  36%|‚ñà‚ñà‚ñà‚ñå      | 43257/120000 [33:08<56:18, 22.72it/s]  

itr: 43250 lr: 7.167e-05 train loss: 0.000002 (dt=11.49s)


training:  36%|‚ñà‚ñà‚ñà‚ñã      | 43507/120000 [33:20<56:05, 22.73it/s]  

itr: 43500 lr: 7.137e-05 train loss: 0.000012 (dt=11.49s)


training:  36%|‚ñà‚ñà‚ñà‚ñã      | 43757/120000 [33:31<55:53, 22.74it/s]  

itr: 43750 lr: 7.108e-05 train loss: 0.000013 (dt=11.49s)


training:  37%|‚ñà‚ñà‚ñà‚ñã      | 44007/120000 [33:43<55:42, 22.74it/s]  

itr: 44000 lr: 7.078e-05 train loss: 0.000007 (dt=11.49s)


training:  37%|‚ñà‚ñà‚ñà‚ñã      | 44257/120000 [33:54<55:31, 22.73it/s]  

itr: 44250 lr: 7.049e-05 train loss: 0.000016 (dt=11.49s)


training:  37%|‚ñà‚ñà‚ñà‚ñã      | 44507/120000 [34:06<55:20, 22.73it/s]  

itr: 44500 lr: 7.019e-05 train loss: 0.000002 (dt=11.49s)


training:  37%|‚ñà‚ñà‚ñà‚ñã      | 44757/120000 [34:17<55:09, 22.73it/s]  

itr: 44750 lr: 6.989e-05 train loss: 0.000003 (dt=11.49s)


training:  38%|‚ñà‚ñà‚ñà‚ñä      | 45007/120000 [34:29<54:59, 22.73it/s]  

itr: 45000 lr: 6.959e-05 train loss: 0.000004 (dt=11.49s)


training:  38%|‚ñà‚ñà‚ñà‚ñä      | 45257/120000 [34:40<54:46, 22.75it/s]  

itr: 45250 lr: 6.929e-05 train loss: 0.000003 (dt=11.49s)


training:  38%|‚ñà‚ñà‚ñà‚ñä      | 45507/120000 [34:52<54:36, 22.74it/s]  

itr: 45500 lr: 6.899e-05 train loss: 0.000002 (dt=11.49s)


training:  38%|‚ñà‚ñà‚ñà‚ñä      | 45757/120000 [35:03<54:26, 22.73it/s]  

itr: 45750 lr: 6.869e-05 train loss: 0.000002 (dt=11.49s)


training:  38%|‚ñà‚ñà‚ñà‚ñä      | 46007/120000 [35:15<54:14, 22.73it/s]  

itr: 46000 lr: 6.839e-05 train loss: 0.000003 (dt=11.49s)


training:  39%|‚ñà‚ñà‚ñà‚ñä      | 46257/120000 [35:26<53:57, 22.78it/s]  

itr: 46250 lr: 6.809e-05 train loss: 0.000002 (dt=11.49s)


training:  39%|‚ñà‚ñà‚ñà‚ñâ      | 46507/120000 [35:38<53:51, 22.74it/s]  

itr: 46500 lr: 6.778e-05 train loss: 0.000013 (dt=11.49s)


training:  39%|‚ñà‚ñà‚ñà‚ñâ      | 46757/120000 [35:49<53:42, 22.73it/s]  

itr: 46750 lr: 6.748e-05 train loss: 0.000005 (dt=11.49s)


training:  39%|‚ñà‚ñà‚ñà‚ñâ      | 47007/120000 [36:00<53:31, 22.73it/s]  

itr: 47000 lr: 6.717e-05 train loss: 0.000018 (dt=11.49s)


training:  39%|‚ñà‚ñà‚ñà‚ñâ      | 47257/120000 [36:12<53:19, 22.74it/s]  

itr: 47250 lr: 6.687e-05 train loss: 0.000004 (dt=11.49s)


training:  40%|‚ñà‚ñà‚ñà‚ñâ      | 47507/120000 [36:23<53:08, 22.74it/s]  

itr: 47500 lr: 6.656e-05 train loss: 0.000006 (dt=11.49s)


training:  40%|‚ñà‚ñà‚ñà‚ñâ      | 47757/120000 [36:35<52:57, 22.73it/s]  

itr: 47750 lr: 6.625e-05 train loss: 0.000002 (dt=11.49s)


training:  40%|‚ñà‚ñà‚ñà‚ñà      | 48007/120000 [36:46<52:45, 22.74it/s]  

itr: 48000 lr: 6.594e-05 train loss: 0.000002 (dt=11.49s)


training:  40%|‚ñà‚ñà‚ñà‚ñà      | 48257/120000 [36:58<52:37, 22.72it/s]  

itr: 48250 lr: 6.564e-05 train loss: 0.000008 (dt=11.49s)


training:  40%|‚ñà‚ñà‚ñà‚ñà      | 48507/120000 [37:09<52:24, 22.74it/s]  

itr: 48500 lr: 6.533e-05 train loss: 0.000002 (dt=11.49s)


training:  41%|‚ñà‚ñà‚ñà‚ñà      | 48757/120000 [37:21<52:13, 22.73it/s]  

itr: 48750 lr: 6.502e-05 train loss: 0.000004 (dt=11.49s)


training:  41%|‚ñà‚ñà‚ñà‚ñà      | 49007/120000 [37:32<52:03, 22.73it/s]  

itr: 49000 lr: 6.471e-05 train loss: 0.000012 (dt=11.49s)


training:  41%|‚ñà‚ñà‚ñà‚ñà      | 49257/120000 [37:44<51:51, 22.74it/s]  

itr: 49250 lr: 6.439e-05 train loss: 0.000001 (dt=11.49s)


training:  41%|‚ñà‚ñà‚ñà‚ñà‚ñè     | 49507/120000 [37:55<51:41, 22.73it/s]  

itr: 49500 lr: 6.408e-05 train loss: 0.000008 (dt=11.49s)


training:  41%|‚ñà‚ñà‚ñà‚ñà‚ñè     | 49757/120000 [38:07<51:30, 22.73it/s]  

itr: 49750 lr: 6.377e-05 train loss: 0.000003 (dt=11.49s)


training:  42%|‚ñà‚ñà‚ñà‚ñà‚ñè     | 50007/120000 [38:18<51:19, 22.73it/s]  

itr: 50000 lr: 6.346e-05 train loss: 0.000011 (dt=11.49s)


training:  42%|‚ñà‚ñà‚ñà‚ñà‚ñè     | 50257/120000 [38:30<51:07, 22.74it/s]  

itr: 50250 lr: 6.314e-05 train loss: 0.000003 (dt=11.49s)


training:  42%|‚ñà‚ñà‚ñà‚ñà‚ñè     | 50507/120000 [38:41<50:57, 22.73it/s]  

itr: 50500 lr: 6.283e-05 train loss: 0.000042 (dt=11.49s)


training:  42%|‚ñà‚ñà‚ñà‚ñà‚ñè     | 50757/120000 [38:53<50:47, 22.72it/s]  

itr: 50750 lr: 6.252e-05 train loss: 0.000002 (dt=11.49s)


training:  43%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 51007/120000 [39:04<50:34, 22.74it/s]  

itr: 51000 lr: 6.220e-05 train loss: 0.000002 (dt=11.49s)


training:  43%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 51257/120000 [39:16<50:22, 22.74it/s]  

itr: 51250 lr: 6.189e-05 train loss: 0.000018 (dt=11.49s)


training:  43%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 51507/120000 [39:27<50:13, 22.73it/s]  

itr: 51500 lr: 6.157e-05 train loss: 0.000001 (dt=11.49s)


training:  43%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 51757/120000 [39:39<50:02, 22.73it/s]  

itr: 51750 lr: 6.125e-05 train loss: 0.000003 (dt=11.49s)


training:  43%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 52007/120000 [39:50<49:50, 22.74it/s]  

itr: 52000 lr: 6.094e-05 train loss: 0.000001 (dt=11.49s)


training:  44%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 52257/120000 [40:02<49:40, 22.73it/s]  

itr: 52250 lr: 6.062e-05 train loss: 0.000001 (dt=11.49s)


training:  44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 52507/120000 [40:13<49:28, 22.74it/s]  

itr: 52500 lr: 6.030e-05 train loss: 0.000002 (dt=11.49s)


training:  44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 52757/120000 [40:25<49:12, 22.78it/s]  

itr: 52750 lr: 5.998e-05 train loss: 0.000016 (dt=11.49s)


training:  44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 53007/120000 [40:36<49:06, 22.73it/s]  

itr: 53000 lr: 5.966e-05 train loss: 0.000002 (dt=11.49s)


training:  44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 53257/120000 [40:48<48:57, 22.72it/s]  

itr: 53250 lr: 5.934e-05 train loss: 0.000001 (dt=11.49s)


training:  45%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 53507/120000 [40:59<48:39, 22.78it/s]  

itr: 53500 lr: 5.902e-05 train loss: 0.000003 (dt=11.49s)


training:  45%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 53757/120000 [41:11<48:33, 22.74it/s]

itr: 53750 lr: 5.870e-05 train loss: 0.000001 (dt=11.49s)


training:  45%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 54007/120000 [41:22<48:22, 22.73it/s]

itr: 54000 lr: 5.838e-05 train loss: 0.000001 (dt=11.49s)


training:  45%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 54257/120000 [41:34<48:08, 22.76it/s]

itr: 54250 lr: 5.806e-05 train loss: 0.000005 (dt=11.49s)


training:  45%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 54507/120000 [41:45<48:00, 22.73it/s]

itr: 54500 lr: 5.774e-05 train loss: 0.000001 (dt=11.49s)


training:  46%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 54757/120000 [41:57<47:42, 22.79it/s]

itr: 54750 lr: 5.742e-05 train loss: 0.000012 (dt=11.49s)


training:  46%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 55007/120000 [42:08<47:36, 22.76it/s]

itr: 55000 lr: 5.710e-05 train loss: 0.000001 (dt=11.49s)


training:  46%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 55257/120000 [42:20<47:25, 22.75it/s]

itr: 55250 lr: 5.678e-05 train loss: 0.000004 (dt=11.49s)


training:  46%|‚ñà‚ñà‚ñà‚ñà‚ñã     | 55507/120000 [42:31<47:16, 22.74it/s]

itr: 55500 lr: 5.646e-05 train loss: 0.000002 (dt=11.49s)


training:  46%|‚ñà‚ñà‚ñà‚ñà‚ñã     | 55757/120000 [42:43<47:06, 22.73it/s]

itr: 55750 lr: 5.613e-05 train loss: 0.000002 (dt=11.49s)


training:  47%|‚ñà‚ñà‚ñà‚ñà‚ñã     | 56007/120000 [42:54<46:55, 22.73it/s]

itr: 56000 lr: 5.581e-05 train loss: 0.000001 (dt=11.49s)


training:  47%|‚ñà‚ñà‚ñà‚ñà‚ñã     | 56257/120000 [43:06<46:44, 22.73it/s]

itr: 56250 lr: 5.549e-05 train loss: 0.000001 (dt=11.49s)


training:  47%|‚ñà‚ñà‚ñà‚ñà‚ñã     | 56507/120000 [43:17<46:34, 22.72it/s]

itr: 56500 lr: 5.517e-05 train loss: 0.000003 (dt=11.49s)


training:  47%|‚ñà‚ñà‚ñà‚ñà‚ñã     | 56757/120000 [43:29<46:22, 22.73it/s]

itr: 56750 lr: 5.484e-05 train loss: 0.000001 (dt=11.49s)


training:  48%|‚ñà‚ñà‚ñà‚ñà‚ñä     | 57007/120000 [43:40<46:12, 22.72it/s]

itr: 57000 lr: 5.452e-05 train loss: 0.000026 (dt=11.49s)


training:  48%|‚ñà‚ñà‚ñà‚ñà‚ñä     | 57257/120000 [43:52<45:59, 22.74it/s]

itr: 57250 lr: 5.420e-05 train loss: 0.000001 (dt=11.49s)


training:  48%|‚ñà‚ñà‚ñà‚ñà‚ñä     | 57507/120000 [44:03<45:50, 22.72it/s]

itr: 57500 lr: 5.387e-05 train loss: 0.000001 (dt=11.49s)


training:  48%|‚ñà‚ñà‚ñà‚ñà‚ñä     | 57757/120000 [44:15<45:37, 22.73it/s]

itr: 57750 lr: 5.355e-05 train loss: 0.000001 (dt=11.49s)


training:  48%|‚ñà‚ñà‚ñà‚ñà‚ñä     | 58007/120000 [44:26<45:27, 22.73it/s]

itr: 58000 lr: 5.322e-05 train loss: 0.000040 (dt=11.49s)


training:  49%|‚ñà‚ñà‚ñà‚ñà‚ñä     | 58257/120000 [44:38<45:17, 22.72it/s]

itr: 58250 lr: 5.290e-05 train loss: 0.000001 (dt=11.49s)


training:  49%|‚ñà‚ñà‚ñà‚ñà‚ñâ     | 58507/120000 [44:49<45:05, 22.73it/s]

itr: 58500 lr: 5.258e-05 train loss: 0.000001 (dt=11.49s)


training:  49%|‚ñà‚ñà‚ñà‚ñà‚ñâ     | 58757/120000 [45:01<44:52, 22.74it/s]

itr: 58750 lr: 5.225e-05 train loss: 0.000002 (dt=11.49s)


training:  49%|‚ñà‚ñà‚ñà‚ñà‚ñâ     | 59007/120000 [45:12<44:43, 22.73it/s]

itr: 59000 lr: 5.193e-05 train loss: 0.000001 (dt=11.49s)


training:  49%|‚ñà‚ñà‚ñà‚ñà‚ñâ     | 59257/120000 [45:24<44:31, 22.74it/s]

itr: 59250 lr: 5.160e-05 train loss: 0.000001 (dt=11.49s)


training:  50%|‚ñà‚ñà‚ñà‚ñà‚ñâ     | 59507/120000 [45:35<44:22, 22.72it/s]

itr: 59500 lr: 5.128e-05 train loss: 0.000061 (dt=11.49s)


training:  50%|‚ñà‚ñà‚ñà‚ñà‚ñâ     | 59757/120000 [45:47<44:09, 22.74it/s]

itr: 59750 lr: 5.095e-05 train loss: 0.000001 (dt=11.49s)


training:  50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 60007/120000 [45:58<44:56, 22.25it/s]

itr: 60000 lr: 5.063e-05 train loss: 0.000001 (dt=11.49s)
saved checkpoint: ./saved_models_grid_bs8192_20260103_075004/Checkpoint_N256_L3_dup0_iters60001.pt


training:  50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 60257/120000 [46:10<43:48, 22.73it/s]

itr: 60250 lr: 5.031e-05 train loss: 0.000002 (dt=11.51s)


training:  50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 60507/120000 [46:21<43:36, 22.73it/s]

itr: 60500 lr: 4.998e-05 train loss: 0.000004 (dt=11.49s)


training:  51%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 60757/120000 [46:33<43:25, 22.74it/s]

itr: 60750 lr: 4.966e-05 train loss: 0.000001 (dt=11.49s)


training:  51%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 61007/120000 [46:44<43:14, 22.74it/s]

itr: 61000 lr: 4.933e-05 train loss: 0.000001 (dt=11.49s)


training:  51%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 61257/120000 [46:56<43:03, 22.74it/s]

itr: 61250 lr: 4.901e-05 train loss: 0.000001 (dt=11.49s)


training:  51%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 61507/120000 [47:07<42:53, 22.73it/s]

itr: 61500 lr: 4.868e-05 train loss: 0.000001 (dt=11.49s)


training:  51%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 61757/120000 [47:19<42:37, 22.77it/s]

itr: 61750 lr: 4.836e-05 train loss: 0.000001 (dt=11.49s)


training:  52%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 62007/120000 [47:30<42:30, 22.74it/s]

itr: 62000 lr: 4.803e-05 train loss: 0.000002 (dt=11.49s)


training:  52%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 62257/120000 [47:42<42:20, 22.73it/s]

itr: 62250 lr: 4.771e-05 train loss: 0.000008 (dt=11.49s)


training:  52%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 62507/120000 [47:53<42:10, 22.72it/s]

itr: 62500 lr: 4.739e-05 train loss: 0.000001 (dt=11.49s)


training:  52%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 62757/120000 [48:05<41:57, 22.74it/s]

itr: 62750 lr: 4.706e-05 train loss: 0.000002 (dt=11.49s)


training:  53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 63007/120000 [48:16<41:48, 22.72it/s]

itr: 63000 lr: 4.674e-05 train loss: 0.000001 (dt=11.49s)


training:  53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 63257/120000 [48:28<41:31, 22.78it/s]

itr: 63250 lr: 4.642e-05 train loss: 0.000002 (dt=11.49s)


training:  53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 63507/120000 [48:39<41:26, 22.72it/s]

itr: 63500 lr: 4.609e-05 train loss: 0.000001 (dt=11.49s)


training:  53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 63757/120000 [48:51<41:14, 22.73it/s]

itr: 63750 lr: 4.577e-05 train loss: 0.000001 (dt=11.49s)


training:  53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 64007/120000 [49:02<41:04, 22.72it/s]

itr: 64000 lr: 4.545e-05 train loss: 0.000012 (dt=11.49s)


training:  54%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 64257/120000 [49:14<40:52, 22.73it/s]

itr: 64250 lr: 4.512e-05 train loss: 0.000002 (dt=11.49s)


training:  54%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç    | 64507/120000 [49:25<40:36, 22.78it/s]

itr: 64500 lr: 4.480e-05 train loss: 0.000007 (dt=11.49s)


training:  54%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç    | 64757/120000 [49:37<40:29, 22.74it/s]

itr: 64750 lr: 4.448e-05 train loss: 0.000001 (dt=11.49s)


training:  54%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç    | 65007/120000 [49:48<40:19, 22.73it/s]

itr: 65000 lr: 4.416e-05 train loss: 0.000001 (dt=11.49s)


training:  54%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç    | 65257/120000 [50:00<40:08, 22.73it/s]

itr: 65250 lr: 4.384e-05 train loss: 0.000001 (dt=11.49s)


training:  55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç    | 65507/120000 [50:11<40:00, 22.70it/s]

itr: 65500 lr: 4.351e-05 train loss: 0.000000 (dt=11.49s)


training:  55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç    | 65757/120000 [50:23<39:45, 22.74it/s]

itr: 65750 lr: 4.319e-05 train loss: 0.000002 (dt=11.49s)


training:  55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 66007/120000 [50:34<39:33, 22.75it/s]

itr: 66000 lr: 4.287e-05 train loss: 0.000001 (dt=11.49s)


training:  55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 66257/120000 [50:46<39:23, 22.73it/s]

itr: 66250 lr: 4.255e-05 train loss: 0.000001 (dt=11.49s)


training:  55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 66507/120000 [50:57<39:13, 22.73it/s]

itr: 66500 lr: 4.223e-05 train loss: 0.000001 (dt=11.49s)


training:  56%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 66757/120000 [51:08<39:03, 22.72it/s]

itr: 66750 lr: 4.191e-05 train loss: 0.000000 (dt=11.49s)


training:  56%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 67007/120000 [51:20<38:50, 22.74it/s]

itr: 67000 lr: 4.159e-05 train loss: 0.000003 (dt=11.49s)


training:  56%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 67257/120000 [51:31<38:39, 22.74it/s]

itr: 67250 lr: 4.127e-05 train loss: 0.000000 (dt=11.49s)


training:  56%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã    | 67507/120000 [51:43<38:27, 22.75it/s]

itr: 67500 lr: 4.095e-05 train loss: 0.000000 (dt=11.49s)


training:  56%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã    | 67757/120000 [51:54<38:18, 22.73it/s]

itr: 67750 lr: 4.064e-05 train loss: 0.000001 (dt=11.49s)


training:  57%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã    | 68007/120000 [52:06<38:07, 22.73it/s]

itr: 68000 lr: 4.032e-05 train loss: 0.000004 (dt=11.49s)


training:  57%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã    | 68257/120000 [52:17<37:56, 22.73it/s]

itr: 68250 lr: 4.000e-05 train loss: 0.000002 (dt=11.49s)


training:  57%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã    | 68507/120000 [52:29<37:44, 22.74it/s]

itr: 68500 lr: 3.968e-05 train loss: 0.000002 (dt=11.49s)


training:  57%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã    | 68757/120000 [52:40<37:35, 22.72it/s]

itr: 68750 lr: 3.937e-05 train loss: 0.000000 (dt=11.49s)


training:  58%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä    | 69007/120000 [52:52<37:23, 22.72it/s]

itr: 69000 lr: 3.905e-05 train loss: 0.000000 (dt=11.49s)


training:  58%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä    | 69257/120000 [53:03<37:12, 22.73it/s]

itr: 69250 lr: 3.874e-05 train loss: 0.000002 (dt=11.49s)


training:  58%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä    | 69507/120000 [53:15<37:00, 22.74it/s]

itr: 69500 lr: 3.842e-05 train loss: 0.000001 (dt=11.49s)


training:  58%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä    | 69757/120000 [53:26<36:47, 22.76it/s]

itr: 69750 lr: 3.811e-05 train loss: 0.000023 (dt=11.49s)


training:  58%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä    | 70007/120000 [53:38<36:40, 22.72it/s]

itr: 70000 lr: 3.779e-05 train loss: 0.000001 (dt=11.49s)


training:  59%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä    | 70257/120000 [53:49<36:28, 22.73it/s]

itr: 70250 lr: 3.748e-05 train loss: 0.000005 (dt=11.49s)


training:  59%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ    | 70507/120000 [54:01<36:17, 22.73it/s]

itr: 70500 lr: 3.717e-05 train loss: 0.000067 (dt=11.49s)


training:  59%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ    | 70757/120000 [54:12<36:06, 22.73it/s]

itr: 70750 lr: 3.685e-05 train loss: 0.000004 (dt=11.49s)


training:  59%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ    | 71007/120000 [54:24<35:55, 22.73it/s]

itr: 71000 lr: 3.654e-05 train loss: 0.000001 (dt=11.49s)


training:  59%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ    | 71257/120000 [54:35<35:45, 22.72it/s]

itr: 71250 lr: 3.623e-05 train loss: 0.000000 (dt=11.49s)


training:  60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ    | 71507/120000 [54:47<35:32, 22.74it/s]

itr: 71500 lr: 3.592e-05 train loss: 0.000001 (dt=11.49s)


training:  60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ    | 71757/120000 [54:58<35:22, 22.73it/s]

itr: 71750 lr: 3.561e-05 train loss: 0.000001 (dt=11.49s)


training:  60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 72007/120000 [55:10<35:10, 22.74it/s]

itr: 72000 lr: 3.530e-05 train loss: 0.000000 (dt=11.49s)


training:  60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 72257/120000 [55:21<34:58, 22.75it/s]

itr: 72250 lr: 3.499e-05 train loss: 0.000000 (dt=11.49s)


training:  60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 72507/120000 [55:33<34:49, 22.73it/s]

itr: 72500 lr: 3.469e-05 train loss: 0.000054 (dt=11.49s)


training:  61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 72757/120000 [55:44<34:37, 22.74it/s]

itr: 72750 lr: 3.438e-05 train loss: 0.000000 (dt=11.49s)


training:  61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 73007/120000 [55:56<34:26, 22.74it/s]

itr: 73000 lr: 3.407e-05 train loss: 0.000000 (dt=11.49s)


training:  61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 73257/120000 [56:07<34:16, 22.73it/s]

itr: 73250 lr: 3.377e-05 train loss: 0.000000 (dt=11.49s)


training:  61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 73507/120000 [56:19<34:03, 22.75it/s]

itr: 73500 lr: 3.346e-05 train loss: 0.000000 (dt=11.49s)


training:  61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 73757/120000 [56:30<33:52, 22.75it/s]

itr: 73750 lr: 3.316e-05 train loss: 0.000000 (dt=11.49s)


training:  62%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 74007/120000 [56:42<33:41, 22.75it/s]

itr: 74000 lr: 3.285e-05 train loss: 0.000000 (dt=11.49s)


training:  62%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 74257/120000 [56:53<33:31, 22.75it/s]

itr: 74250 lr: 3.255e-05 train loss: 0.000000 (dt=11.49s)


training:  62%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 74507/120000 [57:05<33:20, 22.74it/s]

itr: 74500 lr: 3.225e-05 train loss: 0.000000 (dt=11.49s)


training:  62%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 74757/120000 [57:16<33:10, 22.73it/s]

itr: 74750 lr: 3.195e-05 train loss: 0.000000 (dt=11.49s)


training:  63%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé   | 75007/120000 [57:28<32:59, 22.73it/s]

itr: 75000 lr: 3.165e-05 train loss: 0.000001 (dt=11.49s)


training:  63%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé   | 75257/120000 [57:39<32:48, 22.73it/s]

itr: 75250 lr: 3.135e-05 train loss: 0.000000 (dt=11.49s)


training:  63%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé   | 75507/120000 [57:51<32:36, 22.74it/s]

itr: 75500 lr: 3.105e-05 train loss: 0.000000 (dt=11.49s)


training:  63%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé   | 75757/120000 [58:02<32:26, 22.73it/s]

itr: 75750 lr: 3.075e-05 train loss: 0.000000 (dt=11.49s)


training:  63%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé   | 76007/120000 [58:14<32:15, 22.73it/s]

itr: 76000 lr: 3.045e-05 train loss: 0.000000 (dt=11.49s)


training:  64%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé   | 76257/120000 [58:25<32:04, 22.73it/s]

itr: 76250 lr: 3.016e-05 train loss: 0.000000 (dt=11.49s)


training:  64%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç   | 76507/120000 [58:37<31:52, 22.74it/s]

itr: 76500 lr: 2.986e-05 train loss: 0.000000 (dt=11.49s)


training:  64%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç   | 76757/120000 [58:48<31:42, 22.73it/s]

itr: 76750 lr: 2.957e-05 train loss: 0.000000 (dt=11.49s)


training:  64%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç   | 77007/120000 [59:00<31:30, 22.75it/s]

itr: 77000 lr: 2.927e-05 train loss: 0.000000 (dt=11.49s)


training:  64%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç   | 77257/120000 [59:11<31:19, 22.74it/s]

itr: 77250 lr: 2.898e-05 train loss: 0.000000 (dt=11.49s)


training:  65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç   | 77507/120000 [59:23<31:08, 22.74it/s]

itr: 77500 lr: 2.869e-05 train loss: 0.000000 (dt=11.49s)


training:  65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç   | 77757/120000 [59:34<30:58, 22.73it/s]

itr: 77750 lr: 2.840e-05 train loss: 0.000005 (dt=11.49s)


training:  65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 78007/120000 [59:46<30:47, 22.73it/s]

itr: 78000 lr: 2.811e-05 train loss: 0.000003 (dt=11.49s)


training:  65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 78257/120000 [59:57<30:35, 22.74it/s]

itr: 78250 lr: 2.782e-05 train loss: 0.000000 (dt=11.49s)


training:  65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 78507/120000 [1:00:09<30:25, 22.73it/s]

itr: 78500 lr: 2.753e-05 train loss: 0.000001 (dt=11.49s)


training:  66%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 78757/120000 [1:00:20<30:13, 22.74it/s]

itr: 78750 lr: 2.724e-05 train loss: 0.000000 (dt=11.49s)


training:  66%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 79007/120000 [1:00:32<30:03, 22.73it/s]

itr: 79000 lr: 2.696e-05 train loss: 0.000000 (dt=11.49s)


training:  66%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 79257/120000 [1:00:43<29:52, 22.73it/s]

itr: 79250 lr: 2.667e-05 train loss: 0.000002 (dt=11.49s)


training:  66%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã   | 79507/120000 [1:00:55<29:40, 22.74it/s]

itr: 79500 lr: 2.639e-05 train loss: 0.000000 (dt=11.49s)


training:  66%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã   | 79757/120000 [1:01:06<29:30, 22.73it/s]

itr: 79750 lr: 2.611e-05 train loss: 0.000000 (dt=11.49s)


training:  67%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã   | 80007/120000 [1:01:18<29:56, 22.27it/s]

itr: 80000 lr: 2.582e-05 train loss: 0.000006 (dt=11.49s)
saved checkpoint: ./saved_models_grid_bs8192_20260103_075004/Checkpoint_N256_L3_dup0_iters80001.pt


training:  67%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã   | 80257/120000 [1:01:29<29:08, 22.73it/s]

itr: 80250 lr: 2.554e-05 train loss: 0.000000 (dt=11.51s)


training:  67%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã   | 80507/120000 [1:01:41<28:57, 22.73it/s]

itr: 80500 lr: 2.526e-05 train loss: 0.000000 (dt=11.49s)


training:  67%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã   | 80757/120000 [1:01:52<28:45, 22.74it/s]

itr: 80750 lr: 2.499e-05 train loss: 0.000000 (dt=11.49s)


training:  68%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä   | 81007/120000 [1:02:04<28:35, 22.73it/s]

itr: 81000 lr: 2.471e-05 train loss: 0.000000 (dt=11.49s)


training:  68%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä   | 81257/120000 [1:02:15<28:25, 22.72it/s]

itr: 81250 lr: 2.443e-05 train loss: 0.000000 (dt=11.49s)


training:  68%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä   | 81507/120000 [1:02:27<28:14, 22.72it/s]

itr: 81500 lr: 2.416e-05 train loss: 0.000000 (dt=11.49s)


training:  68%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä   | 81757/120000 [1:02:38<28:01, 22.74it/s]

itr: 81750 lr: 2.388e-05 train loss: 0.000000 (dt=11.49s)


training:  68%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä   | 82007/120000 [1:02:50<27:51, 22.72it/s]

itr: 82000 lr: 2.361e-05 train loss: 0.000001 (dt=11.49s)


training:  69%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä   | 82257/120000 [1:03:01<27:39, 22.74it/s]

itr: 82250 lr: 2.334e-05 train loss: 0.000000 (dt=11.49s)


training:  69%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 82507/120000 [1:03:13<27:29, 22.73it/s]

itr: 82500 lr: 2.307e-05 train loss: 0.000000 (dt=11.49s)


training:  69%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 82757/120000 [1:03:24<27:17, 22.74it/s]

itr: 82750 lr: 2.280e-05 train loss: 0.000000 (dt=11.49s)


training:  69%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 83007/120000 [1:03:36<27:07, 22.73it/s]

itr: 83000 lr: 2.253e-05 train loss: 0.000000 (dt=11.49s)


training:  69%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 83257/120000 [1:03:47<26:57, 22.72it/s]

itr: 83250 lr: 2.226e-05 train loss: 0.000000 (dt=11.49s)


training:  70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 83507/120000 [1:03:59<26:44, 22.74it/s]

itr: 83500 lr: 2.200e-05 train loss: 0.000000 (dt=11.49s)


training:  70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 83757/120000 [1:04:10<26:34, 22.73it/s]

itr: 83750 lr: 2.173e-05 train loss: 0.000000 (dt=11.49s)


training:  70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 84007/120000 [1:04:22<26:21, 22.76it/s]

itr: 84000 lr: 2.147e-05 train loss: 0.000000 (dt=11.49s)


training:  70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 84257/120000 [1:04:33<26:12, 22.73it/s]

itr: 84250 lr: 2.121e-05 train loss: 0.000000 (dt=11.49s)


training:  70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 84507/120000 [1:04:45<26:00, 22.74it/s]

itr: 84500 lr: 2.094e-05 train loss: 0.000000 (dt=11.49s)


training:  71%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 84757/120000 [1:04:56<25:50, 22.74it/s]

itr: 84750 lr: 2.068e-05 train loss: 0.000000 (dt=11.49s)


training:  71%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 85007/120000 [1:05:08<25:40, 22.72it/s]

itr: 85000 lr: 2.043e-05 train loss: 0.000000 (dt=11.49s)


training:  71%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 85257/120000 [1:05:19<25:28, 22.74it/s]

itr: 85250 lr: 2.017e-05 train loss: 0.000000 (dt=11.50s)


training:  71%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè  | 85507/120000 [1:05:31<25:16, 22.75it/s]

itr: 85500 lr: 1.991e-05 train loss: 0.000000 (dt=11.49s)


training:  71%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè  | 85757/120000 [1:05:42<25:06, 22.73it/s]

itr: 85750 lr: 1.966e-05 train loss: 0.000001 (dt=11.49s)


training:  72%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè  | 86007/120000 [1:05:54<24:54, 22.74it/s]

itr: 86000 lr: 1.941e-05 train loss: 0.000000 (dt=11.49s)


training:  72%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè  | 86257/120000 [1:06:05<24:43, 22.75it/s]

itr: 86250 lr: 1.915e-05 train loss: 0.000000 (dt=11.49s)


training:  72%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè  | 86507/120000 [1:06:17<24:33, 22.73it/s]

itr: 86500 lr: 1.890e-05 train loss: 0.000000 (dt=11.49s)


training:  72%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè  | 86757/120000 [1:06:28<24:22, 22.73it/s]

itr: 86750 lr: 1.865e-05 train loss: 0.000000 (dt=11.49s)


training:  73%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé  | 87007/120000 [1:06:39<24:10, 22.74it/s]

itr: 87000 lr: 1.841e-05 train loss: 0.000000 (dt=11.49s)


training:  73%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé  | 87257/120000 [1:06:51<24:00, 22.73it/s]

itr: 87250 lr: 1.816e-05 train loss: 0.000000 (dt=11.49s)


training:  73%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé  | 87507/120000 [1:07:02<23:49, 22.73it/s]

itr: 87500 lr: 1.792e-05 train loss: 0.000000 (dt=11.49s)


training:  73%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé  | 87757/120000 [1:07:14<23:38, 22.73it/s]

itr: 87750 lr: 1.767e-05 train loss: 0.000015 (dt=11.49s)


training:  73%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé  | 88007/120000 [1:07:25<23:27, 22.73it/s]

itr: 88000 lr: 1.743e-05 train loss: 0.000000 (dt=11.49s)


training:  74%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé  | 88257/120000 [1:07:37<23:16, 22.73it/s]

itr: 88250 lr: 1.719e-05 train loss: 0.000000 (dt=11.49s)


training:  74%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç  | 88507/120000 [1:07:48<23:06, 22.72it/s]

itr: 88500 lr: 1.695e-05 train loss: 0.000000 (dt=11.49s)


training:  74%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç  | 88757/120000 [1:08:00<22:53, 22.75it/s]

itr: 88750 lr: 1.671e-05 train loss: 0.000000 (dt=11.49s)


training:  74%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç  | 89007/120000 [1:08:11<22:43, 22.73it/s]

itr: 89000 lr: 1.648e-05 train loss: 0.000000 (dt=11.49s)


training:  74%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç  | 89257/120000 [1:08:23<22:31, 22.74it/s]

itr: 89250 lr: 1.624e-05 train loss: 0.000001 (dt=11.49s)


training:  75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç  | 89507/120000 [1:08:34<22:21, 22.73it/s]

itr: 89500 lr: 1.601e-05 train loss: 0.000000 (dt=11.49s)


training:  75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç  | 89757/120000 [1:08:46<22:10, 22.73it/s]

itr: 89750 lr: 1.577e-05 train loss: 0.000000 (dt=11.49s)


training:  75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 90007/120000 [1:08:57<21:57, 22.77it/s]

itr: 90000 lr: 1.554e-05 train loss: 0.000000 (dt=11.49s)


training:  75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 90257/120000 [1:09:09<21:48, 22.74it/s]

itr: 90250 lr: 1.532e-05 train loss: 0.000000 (dt=11.49s)


training:  75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 90507/120000 [1:09:20<21:36, 22.74it/s]

itr: 90500 lr: 1.509e-05 train loss: 0.000000 (dt=11.49s)


training:  76%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 90757/120000 [1:09:32<21:26, 22.73it/s]

itr: 90750 lr: 1.486e-05 train loss: 0.000000 (dt=11.50s)


training:  76%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 91007/120000 [1:09:43<21:14, 22.74it/s]

itr: 91000 lr: 1.464e-05 train loss: 0.000000 (dt=11.49s)


training:  76%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 91257/120000 [1:09:55<21:05, 22.71it/s]

itr: 91250 lr: 1.441e-05 train loss: 0.000000 (dt=11.49s)


training:  76%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã  | 91507/120000 [1:10:06<20:54, 22.72it/s]

itr: 91500 lr: 1.419e-05 train loss: 0.000000 (dt=11.49s)


training:  76%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã  | 91757/120000 [1:10:18<20:42, 22.73it/s]

itr: 91750 lr: 1.397e-05 train loss: 0.000000 (dt=11.49s)


training:  77%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã  | 92007/120000 [1:10:29<20:31, 22.72it/s]

itr: 92000 lr: 1.375e-05 train loss: 0.000000 (dt=11.49s)


training:  77%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã  | 92257/120000 [1:10:41<20:20, 22.74it/s]

itr: 92250 lr: 1.354e-05 train loss: 0.000001 (dt=11.49s)


training:  77%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã  | 92507/120000 [1:10:52<20:09, 22.74it/s]

itr: 92500 lr: 1.332e-05 train loss: 0.000000 (dt=11.49s)


training:  77%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã  | 92757/120000 [1:11:04<19:58, 22.72it/s]

itr: 92750 lr: 1.311e-05 train loss: 0.000000 (dt=11.49s)


training:  78%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 93007/120000 [1:11:15<19:46, 22.74it/s]

itr: 93000 lr: 1.290e-05 train loss: 0.000000 (dt=11.49s)


training:  78%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 93257/120000 [1:11:27<19:36, 22.73it/s]

itr: 93250 lr: 1.269e-05 train loss: 0.000000 (dt=11.50s)


training:  78%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 93507/120000 [1:11:38<19:25, 22.74it/s]

itr: 93500 lr: 1.248e-05 train loss: 0.000000 (dt=11.49s)


training:  78%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 93757/120000 [1:11:50<19:14, 22.72it/s]

itr: 93750 lr: 1.227e-05 train loss: 0.000000 (dt=11.49s)


training:  78%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 94007/120000 [1:12:01<19:03, 22.73it/s]

itr: 94000 lr: 1.207e-05 train loss: 0.000000 (dt=11.49s)


training:  79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 94257/120000 [1:12:13<18:52, 22.73it/s]

itr: 94250 lr: 1.186e-05 train loss: 0.000000 (dt=11.49s)


training:  79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 94507/120000 [1:12:24<18:41, 22.74it/s]

itr: 94500 lr: 1.166e-05 train loss: 0.000000 (dt=11.49s)


training:  79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 94757/120000 [1:12:36<18:30, 22.73it/s]

itr: 94750 lr: 1.146e-05 train loss: 0.000000 (dt=11.49s)


training:  79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 95007/120000 [1:12:47<18:19, 22.73it/s]

itr: 95000 lr: 1.126e-05 train loss: 0.000000 (dt=11.49s)


training:  79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 95257/120000 [1:12:59<18:08, 22.73it/s]

itr: 95250 lr: 1.106e-05 train loss: 0.000000 (dt=11.49s)


training:  80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 95507/120000 [1:13:10<17:57, 22.72it/s]

itr: 95500 lr: 1.087e-05 train loss: 0.000000 (dt=11.49s)


training:  80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 95757/120000 [1:13:22<17:46, 22.73it/s]

itr: 95750 lr: 1.068e-05 train loss: 0.000000 (dt=11.49s)


training:  80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 96007/120000 [1:13:33<17:35, 22.73it/s]

itr: 96000 lr: 1.048e-05 train loss: 0.000000 (dt=11.49s)


training:  80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 96257/120000 [1:13:45<17:23, 22.75it/s]

itr: 96250 lr: 1.029e-05 train loss: 0.000000 (dt=11.49s)


training:  80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 96507/120000 [1:13:56<17:14, 22.72it/s]

itr: 96500 lr: 1.011e-05 train loss: 0.000000 (dt=11.49s)


training:  81%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 96757/120000 [1:14:08<17:02, 22.73it/s]

itr: 96750 lr: 9.919e-06 train loss: 0.000000 (dt=11.49s)


training:  81%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 97007/120000 [1:14:19<16:51, 22.73it/s]

itr: 97000 lr: 9.734e-06 train loss: 0.000000 (dt=11.49s)


training:  81%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 97257/120000 [1:14:31<16:40, 22.74it/s]

itr: 97250 lr: 9.551e-06 train loss: 0.000000 (dt=11.49s)


training:  81%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè | 97507/120000 [1:14:42<16:29, 22.74it/s]

itr: 97500 lr: 9.369e-06 train loss: 0.000000 (dt=11.49s)


training:  81%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè | 97757/120000 [1:14:54<16:18, 22.73it/s]

itr: 97750 lr: 9.190e-06 train loss: 0.000000 (dt=11.49s)


training:  82%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè | 98007/120000 [1:15:05<16:06, 22.77it/s]

itr: 98000 lr: 9.012e-06 train loss: 0.000000 (dt=11.49s)


training:  82%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè | 98257/120000 [1:15:17<15:56, 22.73it/s]

itr: 98250 lr: 8.836e-06 train loss: 0.000000 (dt=11.49s)


training:  82%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè | 98507/120000 [1:15:28<15:45, 22.74it/s]

itr: 98500 lr: 8.661e-06 train loss: 0.000000 (dt=11.49s)


training:  82%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè | 98757/120000 [1:15:40<15:34, 22.73it/s]

itr: 98750 lr: 8.489e-06 train loss: 0.000000 (dt=11.49s)


training:  83%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé | 99007/120000 [1:15:51<15:22, 22.77it/s]

itr: 99000 lr: 8.318e-06 train loss: 0.000000 (dt=11.49s)


training:  83%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé | 99257/120000 [1:16:03<15:12, 22.74it/s]

itr: 99250 lr: 8.149e-06 train loss: 0.000000 (dt=11.49s)


training:  83%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé | 99507/120000 [1:16:14<15:01, 22.74it/s]

itr: 99500 lr: 7.982e-06 train loss: 0.000000 (dt=11.49s)


training:  83%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé | 99757/120000 [1:16:26<14:50, 22.74it/s]

itr: 99750 lr: 7.817e-06 train loss: 0.000000 (dt=11.49s)


training:  83%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé | 100007/120000 [1:16:37<14:58, 22.25it/s]

itr: 100000 lr: 7.653e-06 train loss: 0.000000 (dt=11.49s)
saved checkpoint: ./saved_models_grid_bs8192_20260103_075004/Checkpoint_N256_L3_dup0_iters100001.pt


training:  84%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé | 100257/120000 [1:16:49<14:28, 22.72it/s]

itr: 100250 lr: 7.492e-06 train loss: 0.000000 (dt=11.51s)


training:  84%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç | 100507/120000 [1:17:00<14:17, 22.74it/s]

itr: 100500 lr: 7.332e-06 train loss: 0.000000 (dt=11.49s)


training:  84%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç | 100757/120000 [1:17:12<14:06, 22.73it/s]

itr: 100750 lr: 7.174e-06 train loss: 0.000000 (dt=11.49s)


training:  84%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç | 101007/120000 [1:17:23<13:55, 22.73it/s]

itr: 101000 lr: 7.018e-06 train loss: 0.000000 (dt=11.49s)


training:  84%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç | 101257/120000 [1:17:35<13:44, 22.73it/s]

itr: 101250 lr: 6.864e-06 train loss: 0.000000 (dt=11.49s)


training:  85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç | 101507/120000 [1:17:46<13:33, 22.72it/s]

itr: 101500 lr: 6.712e-06 train loss: 0.000000 (dt=11.49s)


training:  85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç | 101757/120000 [1:17:58<13:22, 22.73it/s]

itr: 101750 lr: 6.561e-06 train loss: 0.000000 (dt=11.49s)


training:  85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 102007/120000 [1:18:09<13:11, 22.73it/s]

itr: 102000 lr: 6.413e-06 train loss: 0.000000 (dt=11.49s)


training:  85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 102257/120000 [1:18:21<13:00, 22.73it/s]

itr: 102250 lr: 6.266e-06 train loss: 0.000000 (dt=11.49s)


training:  85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 102507/120000 [1:18:32<12:49, 22.74it/s]

itr: 102500 lr: 6.122e-06 train loss: 0.000000 (dt=11.49s)


training:  86%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 102757/120000 [1:18:44<12:38, 22.72it/s]

itr: 102750 lr: 5.979e-06 train loss: 0.000000 (dt=11.49s)


training:  86%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 103007/120000 [1:18:55<12:27, 22.74it/s]

itr: 103000 lr: 5.838e-06 train loss: 0.000000 (dt=11.49s)


training:  86%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 103257/120000 [1:19:07<12:16, 22.73it/s]

itr: 103250 lr: 5.699e-06 train loss: 0.000000 (dt=11.49s)


training:  86%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 103507/120000 [1:19:18<12:05, 22.74it/s]

itr: 103500 lr: 5.562e-06 train loss: 0.000000 (dt=11.49s)


training:  86%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 103757/120000 [1:19:30<11:54, 22.73it/s]

itr: 103750 lr: 5.427e-06 train loss: 0.000000 (dt=11.49s)


training:  87%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 104007/120000 [1:19:41<11:43, 22.73it/s]

itr: 104000 lr: 5.294e-06 train loss: 0.000000 (dt=11.49s)


training:  87%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 104257/120000 [1:19:53<11:32, 22.72it/s]

itr: 104250 lr: 5.162e-06 train loss: 0.000000 (dt=11.49s)


training:  87%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 104507/120000 [1:20:04<11:20, 22.75it/s]

itr: 104500 lr: 5.033e-06 train loss: 0.000000 (dt=11.49s)


training:  87%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 104757/120000 [1:20:16<11:09, 22.75it/s]

itr: 104750 lr: 4.906e-06 train loss: 0.000000 (dt=11.49s)


training:  88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 105007/120000 [1:20:27<10:58, 22.76it/s]

itr: 105000 lr: 4.780e-06 train loss: 0.000000 (dt=11.49s)


training:  88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 105257/120000 [1:20:39<10:48, 22.74it/s]

itr: 105250 lr: 4.657e-06 train loss: 0.000000 (dt=11.49s)


training:  88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 105507/120000 [1:20:50<10:37, 22.73it/s]

itr: 105500 lr: 4.536e-06 train loss: 0.000000 (dt=11.49s)


training:  88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 105757/120000 [1:21:02<10:26, 22.74it/s]

itr: 105750 lr: 4.416e-06 train loss: 0.000000 (dt=11.49s)


training:  88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 106007/120000 [1:21:13<10:15, 22.73it/s]

itr: 106000 lr: 4.299e-06 train loss: 0.000000 (dt=11.49s)


training:  89%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 106257/120000 [1:21:25<10:04, 22.72it/s]

itr: 106250 lr: 4.183e-06 train loss: 0.000000 (dt=11.49s)


training:  89%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ | 106507/120000 [1:21:36<09:52, 22.77it/s]

itr: 106500 lr: 4.070e-06 train loss: 0.000000 (dt=11.49s)


training:  89%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ | 106757/120000 [1:21:48<09:42, 22.73it/s]

itr: 106750 lr: 3.958e-06 train loss: 0.000000 (dt=11.49s)


training:  89%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ | 107007/120000 [1:21:59<09:31, 22.73it/s]

itr: 107000 lr: 3.849e-06 train loss: 0.000000 (dt=11.49s)


training:  89%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ | 107257/120000 [1:22:11<09:20, 22.74it/s]

itr: 107250 lr: 3.741e-06 train loss: 0.000000 (dt=11.49s)


training:  90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ | 107507/120000 [1:22:22<09:09, 22.73it/s]

itr: 107500 lr: 3.636e-06 train loss: 0.000000 (dt=11.49s)


training:  90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ | 107757/120000 [1:22:34<08:58, 22.73it/s]

itr: 107750 lr: 3.532e-06 train loss: 0.000000 (dt=11.49s)


training:  90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 108007/120000 [1:22:45<08:47, 22.73it/s]

itr: 108000 lr: 3.431e-06 train loss: 0.000000 (dt=11.49s)


training:  90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 108257/120000 [1:22:57<08:36, 22.73it/s]

itr: 108250 lr: 3.331e-06 train loss: 0.000000 (dt=11.49s)


training:  90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 108507/120000 [1:23:08<08:25, 22.76it/s]

itr: 108500 lr: 3.234e-06 train loss: 0.000000 (dt=11.49s)


training:  91%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 108757/120000 [1:23:20<08:14, 22.72it/s]

itr: 108750 lr: 3.139e-06 train loss: 0.000000 (dt=11.49s)


training:  91%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 109007/120000 [1:23:31<08:03, 22.73it/s]

itr: 109000 lr: 3.045e-06 train loss: 0.000000 (dt=11.49s)


training:  91%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 109257/120000 [1:23:42<07:52, 22.72it/s]

itr: 109250 lr: 2.954e-06 train loss: 0.000000 (dt=11.49s)


training:  91%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè| 109507/120000 [1:23:54<07:41, 22.72it/s]

itr: 109500 lr: 2.865e-06 train loss: 0.000000 (dt=11.49s)


training:  91%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè| 109757/120000 [1:24:05<07:30, 22.73it/s]

itr: 109750 lr: 2.777e-06 train loss: 0.000000 (dt=11.49s)


training:  92%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè| 110007/120000 [1:24:17<07:19, 22.73it/s]

itr: 110000 lr: 2.692e-06 train loss: 0.000000 (dt=11.49s)


training:  92%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè| 110257/120000 [1:24:28<07:08, 22.72it/s]

itr: 110250 lr: 2.609e-06 train loss: 0.000000 (dt=11.49s)


training:  92%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè| 110507/120000 [1:24:40<06:57, 22.73it/s]

itr: 110500 lr: 2.528e-06 train loss: 0.000000 (dt=11.49s)


training:  92%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè| 110757/120000 [1:24:51<06:47, 22.71it/s]

itr: 110750 lr: 2.449e-06 train loss: 0.000000 (dt=11.49s)


training:  93%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé| 111007/120000 [1:25:03<06:35, 22.74it/s]

itr: 111000 lr: 2.372e-06 train loss: 0.000000 (dt=11.49s)


training:  93%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé| 111257/120000 [1:25:14<06:24, 22.72it/s]

itr: 111250 lr: 2.297e-06 train loss: 0.000000 (dt=11.49s)


training:  93%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé| 111507/120000 [1:25:26<06:13, 22.73it/s]

itr: 111500 lr: 2.225e-06 train loss: 0.000000 (dt=11.49s)


training:  93%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé| 111757/120000 [1:25:37<06:02, 22.73it/s]

itr: 111750 lr: 2.154e-06 train loss: 0.000000 (dt=11.49s)


training:  93%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé| 112007/120000 [1:25:49<05:51, 22.73it/s]

itr: 112000 lr: 2.085e-06 train loss: 0.000000 (dt=11.49s)


training:  94%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé| 112257/120000 [1:26:00<05:40, 22.76it/s]

itr: 112250 lr: 2.019e-06 train loss: 0.000000 (dt=11.49s)


training:  94%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç| 112507/120000 [1:26:12<05:29, 22.73it/s]

itr: 112500 lr: 1.954e-06 train loss: 0.000000 (dt=11.49s)


training:  94%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç| 112757/120000 [1:26:23<05:18, 22.74it/s]

itr: 112750 lr: 1.892e-06 train loss: 0.000000 (dt=11.49s)


training:  94%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç| 113007/120000 [1:26:35<05:07, 22.73it/s]

itr: 113000 lr: 1.832e-06 train loss: 0.000000 (dt=11.49s)


training:  94%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç| 113257/120000 [1:26:46<04:56, 22.72it/s]

itr: 113250 lr: 1.773e-06 train loss: 0.000000 (dt=11.49s)


training:  95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç| 113507/120000 [1:26:58<04:45, 22.74it/s]

itr: 113500 lr: 1.717e-06 train loss: 0.000000 (dt=11.49s)


training:  95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç| 113757/120000 [1:27:09<04:34, 22.72it/s]

itr: 113750 lr: 1.663e-06 train loss: 0.000000 (dt=11.49s)


training:  95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 114007/120000 [1:27:21<04:23, 22.74it/s]

itr: 114000 lr: 1.611e-06 train loss: 0.000000 (dt=11.49s)


training:  95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 114257/120000 [1:27:32<04:12, 22.74it/s]

itr: 114250 lr: 1.562e-06 train loss: 0.000000 (dt=11.49s)


training:  95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 114507/120000 [1:27:44<04:01, 22.73it/s]

itr: 114500 lr: 1.514e-06 train loss: 0.000000 (dt=11.49s)


training:  96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 114757/120000 [1:27:55<03:50, 22.73it/s]

itr: 114750 lr: 1.468e-06 train loss: 0.000000 (dt=11.49s)


training:  96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 115007/120000 [1:28:07<03:39, 22.73it/s]

itr: 115000 lr: 1.425e-06 train loss: 0.000000 (dt=11.49s)


training:  96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 115257/120000 [1:28:18<03:28, 22.74it/s]

itr: 115250 lr: 1.384e-06 train loss: 0.000000 (dt=11.49s)


training:  96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã| 115507/120000 [1:28:30<03:17, 22.74it/s]

itr: 115500 lr: 1.344e-06 train loss: 0.000000 (dt=11.49s)


training:  96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã| 115757/120000 [1:28:41<03:06, 22.73it/s]

itr: 115750 lr: 1.307e-06 train loss: 0.000000 (dt=11.49s)


training:  97%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã| 116007/120000 [1:28:53<02:55, 22.74it/s]

itr: 116000 lr: 1.272e-06 train loss: 0.000000 (dt=11.49s)


training:  97%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã| 116257/120000 [1:29:04<02:44, 22.73it/s]

itr: 116250 lr: 1.239e-06 train loss: 0.000000 (dt=11.49s)


training:  97%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã| 116507/120000 [1:29:16<02:33, 22.74it/s]

itr: 116500 lr: 1.208e-06 train loss: 0.000000 (dt=11.49s)


training:  97%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã| 116757/120000 [1:29:27<02:22, 22.73it/s]

itr: 116750 lr: 1.180e-06 train loss: 0.000000 (dt=11.49s)


training:  98%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä| 117007/120000 [1:29:39<02:11, 22.74it/s]

itr: 117000 lr: 1.153e-06 train loss: 0.000000 (dt=11.49s)


training:  98%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä| 117257/120000 [1:29:50<02:00, 22.75it/s]

itr: 117250 lr: 1.129e-06 train loss: 0.000000 (dt=11.49s)


training:  98%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä| 117507/120000 [1:30:02<01:49, 22.74it/s]

itr: 117500 lr: 1.106e-06 train loss: 0.000000 (dt=11.49s)


training:  98%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä| 117757/120000 [1:30:13<01:38, 22.74it/s]

itr: 117750 lr: 1.086e-06 train loss: 0.000000 (dt=11.49s)


training:  98%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä| 118007/120000 [1:30:25<01:27, 22.74it/s]

itr: 118000 lr: 1.068e-06 train loss: 0.000000 (dt=11.49s)


training:  99%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä| 118257/120000 [1:30:36<01:16, 22.72it/s]

itr: 118250 lr: 1.052e-06 train loss: 0.000000 (dt=11.49s)


training:  99%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ| 118507/120000 [1:30:48<01:05, 22.74it/s]

itr: 118500 lr: 1.038e-06 train loss: 0.000000 (dt=11.49s)


training:  99%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ| 118757/120000 [1:30:59<00:54, 22.72it/s]

itr: 118750 lr: 1.027e-06 train loss: 0.000000 (dt=11.49s)


training:  99%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ| 119007/120000 [1:31:11<00:43, 22.74it/s]

itr: 119000 lr: 1.017e-06 train loss: 0.000000 (dt=11.50s)


training:  99%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ| 119257/120000 [1:31:22<00:32, 22.72it/s]

itr: 119250 lr: 1.010e-06 train loss: 0.000000 (dt=11.49s)


training: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ| 119507/120000 [1:31:34<00:21, 22.73it/s]

itr: 119500 lr: 1.004e-06 train loss: 0.000000 (dt=11.49s)


training: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ| 119757/120000 [1:31:45<00:10, 22.73it/s]

itr: 119750 lr: 1.001e-06 train loss: 0.000000 (dt=11.49s)


training: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 120000/120000 [1:31:56<00:00, 21.75it/s]


saved final model: ./saved_models_grid_bs8192_20260103_075004/Final_N256_L3_dup0_iters120000.pt


0,1
iter,‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÉ‚ñÉ‚ñÉ‚ñÉ‚ñÉ‚ñÑ‚ñÑ‚ñÑ‚ñÖ‚ñÖ‚ñÖ‚ñÖ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñà‚ñà‚ñà‚ñà
ll/iter,‚ñÅ‚ñÉ‚ñÉ‚ñÑ‚ñÑ‚ñÖ‚ñÖ‚ñÖ‚ñÖ‚ñÖ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà
ll/lr,‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÖ‚ñÖ‚ñÖ‚ñÖ‚ñÑ‚ñÉ‚ñÉ‚ñÇ‚ñÅ
ll/train_loss,‚ñà‚ñá‚ñÜ‚ñÖ‚ñÖ‚ñÑ‚ñÑ‚ñÑ‚ñÑ‚ñÑ‚ñÑ‚ñÑ‚ñÑ‚ñÑ‚ñÑ‚ñÑ‚ñÉ‚ñÉ‚ñÉ‚ñÉ‚ñÉ‚ñÉ‚ñÑ‚ñÉ‚ñÉ‚ñÇ‚ñÇ‚ñÇ‚ñÉ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ
lr,‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñÜ‚ñÜ‚ñÖ‚ñÖ‚ñÖ‚ñÑ‚ñÑ‚ñÑ‚ñÑ‚ñÑ‚ñÑ‚ñÑ‚ñÉ‚ñÉ‚ñÉ‚ñÉ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ
plateau/delta_log10_loss_window,‚ñá‚ñá‚ñÜ‚ñÖ‚ñÉ‚ñÜ‚ñÜ‚ñÖ‚ñá‚ñÑ‚ñÖ‚ñÑ‚ñà‚ñÑ‚ñÅ‚ñÉ‚ñà‚ñÖ‚ñÜ‚ñÉ‚ñÑ‚ñÜ‚ñÑ‚ñÖ‚ñÖ‚ñÜ‚ñÜ‚ñÖ‚ñÑ‚ñá‚ñà‚ñÜ‚ñÖ‚ñÖ‚ñÑ‚ñÖ‚ñÑ‚ñÑ‚ñÑ‚ñÑ
plateau/hits,‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ
plateau/loglog_slope,‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñÜ‚ñá‚ñà‚ñá‚ñá‚ñá‚ñá‚ñÜ‚ñá‚ñá‚ñÖ‚ñÇ‚ñÇ‚ñÑ‚ñÜ‚ñÜ‚ñÖ‚ñÜ‚ñÉ‚ñÇ‚ñÅ‚ñÉ‚ñÉ‚ñÖ‚ñÖ‚ñÜ‚ñà‚ñÜ
plateau/now,‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ
plateau/reached,‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ

0,1
iter,120000
iters_done,120000
ll/iter,5.07918
ll/lr,-6.0
ll/train_loss,-8.08615
lr,0.0
plateau/delta_log10_loss_window,0.15791
plateau/hits,0
plateau/loglog_slope,-5.36038
plateau/now,0


using device: cuda


training:   0%|          | 7/120000 [00:00<29:12, 68.47it/s]

itr: 0 lr: 4.975e-07 train loss: 5.565228 (dt=0.04s)


training:   0%|          | 259/120000 [00:08<1:01:12, 32.61it/s]

itr: 250 lr: 1.000e-04 train loss: 4.688733 (dt=8.28s)


training:   0%|          | 509/120000 [00:16<1:02:19, 31.96it/s]

itr: 500 lr: 1.000e-04 train loss: 3.569635 (dt=8.25s)


training:   1%|          | 759/120000 [00:24<1:02:11, 31.96it/s]

itr: 750 lr: 9.999e-05 train loss: 2.487259 (dt=8.25s)


training:   1%|          | 1009/120000 [00:33<1:02:03, 31.96it/s]

itr: 1000 lr: 9.999e-05 train loss: 1.510488 (dt=8.25s)


training:   1%|          | 1259/120000 [00:41<1:01:55, 31.96it/s]

itr: 1250 lr: 9.998e-05 train loss: 0.791601 (dt=8.25s)


training:   1%|‚ñè         | 1509/120000 [00:49<1:01:48, 31.95it/s]

itr: 1500 lr: 9.997e-05 train loss: 0.390158 (dt=8.25s)


training:   1%|‚ñè         | 1759/120000 [00:57<1:01:40, 31.96it/s]

itr: 1750 lr: 9.996e-05 train loss: 0.208275 (dt=8.26s)


training:   2%|‚ñè         | 2009/120000 [01:06<1:01:34, 31.94it/s]

itr: 2000 lr: 9.994e-05 train loss: 0.121754 (dt=8.26s)


training:   2%|‚ñè         | 2259/120000 [01:14<1:01:26, 31.94it/s]

itr: 2250 lr: 9.993e-05 train loss: 0.078360 (dt=8.26s)


training:   2%|‚ñè         | 2509/120000 [01:22<1:01:19, 31.93it/s]

itr: 2500 lr: 9.991e-05 train loss: 0.052508 (dt=8.26s)


training:   2%|‚ñè         | 2759/120000 [01:30<1:01:10, 31.94it/s]

itr: 2750 lr: 9.989e-05 train loss: 0.037677 (dt=8.26s)


training:   3%|‚ñé         | 3009/120000 [01:39<1:01:02, 31.95it/s]

itr: 3000 lr: 9.987e-05 train loss: 0.027572 (dt=8.26s)


training:   3%|‚ñé         | 3259/120000 [01:47<1:00:53, 31.95it/s]

itr: 3250 lr: 9.984e-05 train loss: 0.021507 (dt=8.26s)


training:   3%|‚ñé         | 3509/120000 [01:55<1:00:46, 31.94it/s]

itr: 3500 lr: 9.981e-05 train loss: 0.016191 (dt=8.26s)


training:   3%|‚ñé         | 3759/120000 [02:04<1:00:41, 31.92it/s]

itr: 3750 lr: 9.979e-05 train loss: 0.012666 (dt=8.26s)


training:   3%|‚ñé         | 4009/120000 [02:12<1:00:31, 31.94it/s]

itr: 4000 lr: 9.975e-05 train loss: 0.010375 (dt=8.26s)


training:   4%|‚ñé         | 4259/120000 [02:20<1:00:23, 31.94it/s]

itr: 4250 lr: 9.972e-05 train loss: 0.008366 (dt=8.26s)


training:   4%|‚ñç         | 4509/120000 [02:28<1:00:14, 31.95it/s]

itr: 4500 lr: 9.969e-05 train loss: 0.006896 (dt=8.26s)


training:   4%|‚ñç         | 4759/120000 [02:37<1:00:08, 31.94it/s]

itr: 4750 lr: 9.965e-05 train loss: 0.005481 (dt=8.26s)


training:   4%|‚ñç         | 5009/120000 [02:45<1:00:00, 31.94it/s]

itr: 5000 lr: 9.961e-05 train loss: 0.004719 (dt=8.26s)


training:   4%|‚ñç         | 5259/120000 [02:53<59:52, 31.94it/s]  

itr: 5250 lr: 9.957e-05 train loss: 0.003610 (dt=8.26s)


training:   5%|‚ñç         | 5509/120000 [03:01<59:42, 31.96it/s]  

itr: 5500 lr: 9.952e-05 train loss: 0.003437 (dt=8.26s)


training:   5%|‚ñç         | 5759/120000 [03:10<59:37, 31.94it/s]  

itr: 5750 lr: 9.948e-05 train loss: 0.003228 (dt=8.26s)


training:   5%|‚ñå         | 6009/120000 [03:18<59:28, 31.94it/s]  

itr: 6000 lr: 9.943e-05 train loss: 0.002660 (dt=8.26s)


training:   5%|‚ñå         | 6259/120000 [03:26<59:18, 31.97it/s]  

itr: 6250 lr: 9.938e-05 train loss: 0.002454 (dt=8.26s)


training:   5%|‚ñå         | 6509/120000 [03:34<59:12, 31.94it/s]  

itr: 6500 lr: 9.933e-05 train loss: 0.001925 (dt=8.26s)


training:   6%|‚ñå         | 6759/120000 [03:43<59:04, 31.95it/s]  

itr: 6750 lr: 9.927e-05 train loss: 0.001502 (dt=8.26s)


training:   6%|‚ñå         | 7009/120000 [03:51<58:55, 31.96it/s]  

itr: 7000 lr: 9.922e-05 train loss: 0.001335 (dt=8.26s)


training:   6%|‚ñå         | 7259/120000 [03:59<58:49, 31.94it/s]  

itr: 7250 lr: 9.916e-05 train loss: 0.001501 (dt=8.26s)


training:   6%|‚ñã         | 7509/120000 [04:07<58:41, 31.95it/s]  

itr: 7500 lr: 9.910e-05 train loss: 0.001563 (dt=8.26s)


training:   6%|‚ñã         | 7759/120000 [04:16<58:33, 31.95it/s]  

itr: 7750 lr: 9.903e-05 train loss: 0.001108 (dt=8.26s)


training:   7%|‚ñã         | 8009/120000 [04:24<58:26, 31.94it/s]  

itr: 8000 lr: 9.897e-05 train loss: 0.000958 (dt=8.26s)


training:   7%|‚ñã         | 8259/120000 [04:32<58:18, 31.94it/s]  

itr: 8250 lr: 9.890e-05 train loss: 0.000882 (dt=8.26s)


training:   7%|‚ñã         | 8509/120000 [04:40<58:10, 31.94it/s]  

itr: 8500 lr: 9.883e-05 train loss: 0.000701 (dt=8.26s)


training:   7%|‚ñã         | 8759/120000 [04:49<58:03, 31.93it/s]  

itr: 8750 lr: 9.876e-05 train loss: 0.000805 (dt=8.26s)


training:   8%|‚ñä         | 9009/120000 [04:57<57:55, 31.94it/s]  

itr: 9000 lr: 9.869e-05 train loss: 0.000645 (dt=8.26s)


training:   8%|‚ñä         | 9259/120000 [05:05<57:46, 31.95it/s]  

itr: 9250 lr: 9.861e-05 train loss: 0.000711 (dt=8.26s)


training:   8%|‚ñä         | 9509/120000 [05:13<57:38, 31.94it/s]  

itr: 9500 lr: 9.854e-05 train loss: 0.000551 (dt=8.26s)


training:   8%|‚ñä         | 9759/120000 [05:22<57:30, 31.95it/s]  

itr: 9750 lr: 9.846e-05 train loss: 0.000460 (dt=8.26s)


training:   8%|‚ñä         | 10009/120000 [05:30<57:22, 31.95it/s]  

itr: 10000 lr: 9.837e-05 train loss: 0.000398 (dt=8.26s)


training:   9%|‚ñä         | 10259/120000 [05:38<57:14, 31.95it/s]  

itr: 10250 lr: 9.829e-05 train loss: 0.000357 (dt=8.26s)


training:   9%|‚ñâ         | 10509/120000 [05:46<57:08, 31.93it/s]  

itr: 10500 lr: 9.821e-05 train loss: 0.000368 (dt=8.26s)


training:   9%|‚ñâ         | 10759/120000 [05:55<56:58, 31.96it/s]  

itr: 10750 lr: 9.812e-05 train loss: 0.000329 (dt=8.26s)


training:   9%|‚ñâ         | 11009/120000 [06:03<56:51, 31.94it/s]  

itr: 11000 lr: 9.803e-05 train loss: 0.000318 (dt=8.26s)


training:   9%|‚ñâ         | 11259/120000 [06:11<56:44, 31.94it/s]  

itr: 11250 lr: 9.794e-05 train loss: 0.000393 (dt=8.26s)


training:  10%|‚ñâ         | 11509/120000 [06:19<56:36, 31.94it/s]  

itr: 11500 lr: 9.784e-05 train loss: 0.000314 (dt=8.26s)


training:  10%|‚ñâ         | 11759/120000 [06:28<56:27, 31.95it/s]  

itr: 11750 lr: 9.775e-05 train loss: 0.000265 (dt=8.26s)


training:  10%|‚ñà         | 12009/120000 [06:36<56:19, 31.95it/s]  

itr: 12000 lr: 9.765e-05 train loss: 0.000354 (dt=8.26s)


training:  10%|‚ñà         | 12259/120000 [06:44<56:14, 31.93it/s]  

itr: 12250 lr: 9.755e-05 train loss: 0.000231 (dt=8.26s)


training:  10%|‚ñà         | 12509/120000 [06:53<56:00, 31.98it/s]  

itr: 12500 lr: 9.745e-05 train loss: 0.000216 (dt=8.26s)


training:  11%|‚ñà         | 12759/120000 [07:01<55:57, 31.94it/s]  

itr: 12750 lr: 9.734e-05 train loss: 0.000252 (dt=8.26s)


training:  11%|‚ñà         | 13009/120000 [07:09<55:49, 31.95it/s]  

itr: 13000 lr: 9.724e-05 train loss: 0.000228 (dt=8.26s)


training:  11%|‚ñà         | 13259/120000 [07:17<55:42, 31.94it/s]  

itr: 13250 lr: 9.713e-05 train loss: 0.000148 (dt=8.26s)


training:  11%|‚ñà‚ñè        | 13509/120000 [07:26<55:29, 31.98it/s]  

itr: 13500 lr: 9.702e-05 train loss: 0.000228 (dt=8.26s)


training:  11%|‚ñà‚ñè        | 13759/120000 [07:34<55:25, 31.94it/s]  

itr: 13750 lr: 9.691e-05 train loss: 0.000244 (dt=8.26s)


training:  12%|‚ñà‚ñè        | 14009/120000 [07:42<55:18, 31.94it/s]  

itr: 14000 lr: 9.679e-05 train loss: 0.000150 (dt=8.26s)


training:  12%|‚ñà‚ñè        | 14259/120000 [07:50<55:09, 31.95it/s]  

itr: 14250 lr: 9.668e-05 train loss: 0.000102 (dt=8.26s)


training:  12%|‚ñà‚ñè        | 14509/120000 [07:59<55:02, 31.94it/s]  

itr: 14500 lr: 9.656e-05 train loss: 0.000147 (dt=8.26s)


training:  12%|‚ñà‚ñè        | 14759/120000 [08:07<54:53, 31.95it/s]  

itr: 14750 lr: 9.644e-05 train loss: 0.000400 (dt=8.26s)


training:  13%|‚ñà‚ñé        | 15009/120000 [08:15<54:46, 31.94it/s]  

itr: 15000 lr: 9.632e-05 train loss: 0.000148 (dt=8.26s)


training:  13%|‚ñà‚ñé        | 15259/120000 [08:23<54:39, 31.94it/s]  

itr: 15250 lr: 9.619e-05 train loss: 0.000253 (dt=8.26s)


training:  13%|‚ñà‚ñé        | 15509/120000 [08:32<54:29, 31.96it/s]  

itr: 15500 lr: 9.607e-05 train loss: 0.000163 (dt=8.26s)


training:  13%|‚ñà‚ñé        | 15759/120000 [08:40<54:18, 31.99it/s]  

itr: 15750 lr: 9.594e-05 train loss: 0.000084 (dt=8.26s)


training:  13%|‚ñà‚ñé        | 16009/120000 [08:48<54:15, 31.94it/s]  

itr: 16000 lr: 9.581e-05 train loss: 0.000169 (dt=8.26s)


training:  14%|‚ñà‚ñé        | 16259/120000 [08:56<54:07, 31.95it/s]  

itr: 16250 lr: 9.568e-05 train loss: 0.000094 (dt=8.26s)


training:  14%|‚ñà‚ñç        | 16509/120000 [09:05<53:52, 32.01it/s]  

itr: 16500 lr: 9.555e-05 train loss: 0.000132 (dt=8.26s)


training:  14%|‚ñà‚ñç        | 16759/120000 [09:13<53:51, 31.95it/s]  

itr: 16750 lr: 9.541e-05 train loss: 0.000118 (dt=8.26s)


training:  14%|‚ñà‚ñç        | 17009/120000 [09:21<53:44, 31.94it/s]  

itr: 17000 lr: 9.527e-05 train loss: 0.000274 (dt=8.26s)


training:  14%|‚ñà‚ñç        | 17259/120000 [09:29<53:36, 31.95it/s]  

itr: 17250 lr: 9.513e-05 train loss: 0.000169 (dt=8.26s)


training:  15%|‚ñà‚ñç        | 17509/120000 [09:38<53:29, 31.93it/s]  

itr: 17500 lr: 9.499e-05 train loss: 0.000065 (dt=8.26s)


training:  15%|‚ñà‚ñç        | 17759/120000 [09:46<53:20, 31.95it/s]  

itr: 17750 lr: 9.485e-05 train loss: 0.000059 (dt=8.26s)


training:  15%|‚ñà‚ñå        | 18009/120000 [09:54<53:12, 31.95it/s]  

itr: 18000 lr: 9.470e-05 train loss: 0.000175 (dt=8.26s)


training:  15%|‚ñà‚ñå        | 18259/120000 [10:02<53:05, 31.94it/s]  

itr: 18250 lr: 9.456e-05 train loss: 0.000080 (dt=8.26s)


training:  15%|‚ñà‚ñå        | 18509/120000 [10:11<52:56, 31.95it/s]  

itr: 18500 lr: 9.441e-05 train loss: 0.000092 (dt=8.26s)


training:  16%|‚ñà‚ñå        | 18759/120000 [10:19<52:48, 31.95it/s]  

itr: 18750 lr: 9.426e-05 train loss: 0.000139 (dt=8.26s)


training:  16%|‚ñà‚ñå        | 19009/120000 [10:27<52:41, 31.94it/s]  

itr: 19000 lr: 9.411e-05 train loss: 0.000070 (dt=8.26s)


training:  16%|‚ñà‚ñå        | 19259/120000 [10:35<52:33, 31.95it/s]  

itr: 19250 lr: 9.395e-05 train loss: 0.000156 (dt=8.26s)


training:  16%|‚ñà‚ñã        | 19509/120000 [10:44<52:25, 31.94it/s]  

itr: 19500 lr: 9.379e-05 train loss: 0.000065 (dt=8.26s)


training:  16%|‚ñà‚ñã        | 19759/120000 [10:52<52:18, 31.94it/s]  

itr: 19750 lr: 9.364e-05 train loss: 0.000095 (dt=8.26s)


training:  17%|‚ñà‚ñã        | 20009/120000 [11:00<53:00, 31.44it/s]  

itr: 20000 lr: 9.348e-05 train loss: 0.000098 (dt=8.26s)
saved checkpoint: ./saved_models_grid_bs8192_20260103_075004/Checkpoint_N256_L2_dup0_iters20001.pt


training:  17%|‚ñà‚ñã        | 20259/120000 [11:09<52:01, 31.95it/s]  

itr: 20250 lr: 9.331e-05 train loss: 0.000161 (dt=8.27s)


training:  17%|‚ñà‚ñã        | 20509/120000 [11:17<51:54, 31.95it/s]  

itr: 20500 lr: 9.315e-05 train loss: 0.000090 (dt=8.26s)


training:  17%|‚ñà‚ñã        | 20759/120000 [11:25<51:46, 31.94it/s]  

itr: 20750 lr: 9.298e-05 train loss: 0.000049 (dt=8.26s)


training:  18%|‚ñà‚ñä        | 21009/120000 [11:33<51:37, 31.95it/s]  

itr: 21000 lr: 9.282e-05 train loss: 0.000070 (dt=8.26s)


training:  18%|‚ñà‚ñä        | 21259/120000 [11:42<51:30, 31.95it/s]  

itr: 21250 lr: 9.265e-05 train loss: 0.000116 (dt=8.26s)


training:  18%|‚ñà‚ñä        | 21509/120000 [11:50<51:23, 31.94it/s]  

itr: 21500 lr: 9.248e-05 train loss: 0.000040 (dt=8.26s)


training:  18%|‚ñà‚ñä        | 21759/120000 [11:58<51:15, 31.94it/s]  

itr: 21750 lr: 9.230e-05 train loss: 0.000042 (dt=8.26s)


training:  18%|‚ñà‚ñä        | 22009/120000 [12:06<51:07, 31.94it/s]  

itr: 22000 lr: 9.213e-05 train loss: 0.000035 (dt=8.26s)


training:  19%|‚ñà‚ñä        | 22259/120000 [12:15<50:59, 31.94it/s]  

itr: 22250 lr: 9.195e-05 train loss: 0.000064 (dt=8.26s)


training:  19%|‚ñà‚ñâ        | 22509/120000 [12:23<50:51, 31.95it/s]  

itr: 22500 lr: 9.177e-05 train loss: 0.000176 (dt=8.26s)


training:  19%|‚ñà‚ñâ        | 22759/120000 [12:31<50:44, 31.94it/s]  

itr: 22750 lr: 9.159e-05 train loss: 0.000033 (dt=8.26s)


training:  19%|‚ñà‚ñâ        | 23009/120000 [12:39<50:35, 31.95it/s]  

itr: 23000 lr: 9.141e-05 train loss: 0.000162 (dt=8.26s)


training:  19%|‚ñà‚ñâ        | 23259/120000 [12:48<50:25, 31.98it/s]  

itr: 23250 lr: 9.123e-05 train loss: 0.000063 (dt=8.26s)


training:  20%|‚ñà‚ñâ        | 23509/120000 [12:56<50:20, 31.95it/s]  

itr: 23500 lr: 9.104e-05 train loss: 0.000036 (dt=8.26s)


training:  20%|‚ñà‚ñâ        | 23759/120000 [13:04<50:12, 31.94it/s]  

itr: 23750 lr: 9.086e-05 train loss: 0.000088 (dt=8.26s)


training:  20%|‚ñà‚ñà        | 24009/120000 [13:12<50:02, 31.97it/s]  

itr: 24000 lr: 9.067e-05 train loss: 0.000110 (dt=8.26s)


training:  20%|‚ñà‚ñà        | 24259/120000 [13:21<49:55, 31.97it/s]  

itr: 24250 lr: 9.048e-05 train loss: 0.000027 (dt=8.26s)


training:  20%|‚ñà‚ñà        | 24509/120000 [13:29<49:49, 31.94it/s]  

itr: 24500 lr: 9.029e-05 train loss: 0.000062 (dt=8.26s)


training:  21%|‚ñà‚ñà        | 24759/120000 [13:37<49:41, 31.94it/s]  

itr: 24750 lr: 9.009e-05 train loss: 0.000041 (dt=8.26s)


training:  21%|‚ñà‚ñà        | 25009/120000 [13:45<49:33, 31.95it/s]  

itr: 25000 lr: 8.990e-05 train loss: 0.000062 (dt=8.26s)


training:  21%|‚ñà‚ñà        | 25259/120000 [13:54<49:26, 31.94it/s]  

itr: 25250 lr: 8.970e-05 train loss: 0.000060 (dt=8.26s)


training:  21%|‚ñà‚ñà‚ñè       | 25509/120000 [14:02<49:19, 31.93it/s]  

itr: 25500 lr: 8.950e-05 train loss: 0.000071 (dt=8.26s)


training:  21%|‚ñà‚ñà‚ñè       | 25759/120000 [14:10<49:10, 31.94it/s]  

itr: 25750 lr: 8.930e-05 train loss: 0.000031 (dt=8.26s)


training:  22%|‚ñà‚ñà‚ñè       | 26009/120000 [14:18<49:02, 31.94it/s]  

itr: 26000 lr: 8.910e-05 train loss: 0.000095 (dt=8.26s)


training:  22%|‚ñà‚ñà‚ñè       | 26259/120000 [14:27<48:54, 31.95it/s]  

itr: 26250 lr: 8.889e-05 train loss: 0.000078 (dt=8.26s)


training:  22%|‚ñà‚ñà‚ñè       | 26509/120000 [14:35<48:46, 31.94it/s]  

itr: 26500 lr: 8.869e-05 train loss: 0.000071 (dt=8.26s)


training:  22%|‚ñà‚ñà‚ñè       | 26759/120000 [14:43<48:39, 31.94it/s]  

itr: 26750 lr: 8.848e-05 train loss: 0.000029 (dt=8.26s)


training:  23%|‚ñà‚ñà‚ñé       | 27009/120000 [14:51<48:30, 31.95it/s]  

itr: 27000 lr: 8.827e-05 train loss: 0.000094 (dt=8.26s)


training:  23%|‚ñà‚ñà‚ñé       | 27259/120000 [15:00<48:22, 31.95it/s]  

itr: 27250 lr: 8.806e-05 train loss: 0.000075 (dt=8.26s)


training:  23%|‚ñà‚ñà‚ñé       | 27509/120000 [15:08<48:11, 31.99it/s]  

itr: 27500 lr: 8.785e-05 train loss: 0.000042 (dt=8.26s)


training:  23%|‚ñà‚ñà‚ñé       | 27759/120000 [15:16<48:07, 31.94it/s]  

itr: 27750 lr: 8.763e-05 train loss: 0.000024 (dt=8.26s)


training:  23%|‚ñà‚ñà‚ñé       | 28009/120000 [15:24<47:59, 31.95it/s]  

itr: 28000 lr: 8.742e-05 train loss: 0.000024 (dt=8.26s)


training:  24%|‚ñà‚ñà‚ñé       | 28259/120000 [15:33<47:52, 31.94it/s]  

itr: 28250 lr: 8.720e-05 train loss: 0.000022 (dt=8.26s)


training:  24%|‚ñà‚ñà‚ñç       | 28509/120000 [15:41<47:43, 31.95it/s]  

itr: 28500 lr: 8.698e-05 train loss: 0.000038 (dt=8.26s)


training:  24%|‚ñà‚ñà‚ñç       | 28759/120000 [15:49<47:37, 31.93it/s]  

itr: 28750 lr: 8.676e-05 train loss: 0.000251 (dt=8.26s)


training:  24%|‚ñà‚ñà‚ñç       | 29009/120000 [15:58<47:29, 31.93it/s]  

itr: 29000 lr: 8.654e-05 train loss: 0.000026 (dt=8.26s)


training:  24%|‚ñà‚ñà‚ñç       | 29259/120000 [16:06<47:22, 31.93it/s]  

itr: 29250 lr: 8.632e-05 train loss: 0.000030 (dt=8.26s)


training:  25%|‚ñà‚ñà‚ñç       | 29509/120000 [16:14<47:13, 31.93it/s]  

itr: 29500 lr: 8.609e-05 train loss: 0.000017 (dt=8.26s)


training:  25%|‚ñà‚ñà‚ñç       | 29759/120000 [16:22<47:00, 31.99it/s]  

itr: 29750 lr: 8.587e-05 train loss: 0.000064 (dt=8.26s)


training:  25%|‚ñà‚ñà‚ñå       | 30009/120000 [16:31<46:57, 31.94it/s]  

itr: 30000 lr: 8.564e-05 train loss: 0.000105 (dt=8.26s)


training:  25%|‚ñà‚ñà‚ñå       | 30259/120000 [16:39<46:49, 31.94it/s]  

itr: 30250 lr: 8.541e-05 train loss: 0.000016 (dt=8.26s)


training:  25%|‚ñà‚ñà‚ñå       | 30509/120000 [16:47<46:42, 31.93it/s]

itr: 30500 lr: 8.518e-05 train loss: 0.000065 (dt=8.26s)


training:  26%|‚ñà‚ñà‚ñå       | 30759/120000 [16:55<46:33, 31.95it/s]

itr: 30750 lr: 8.495e-05 train loss: 0.000040 (dt=8.26s)


training:  26%|‚ñà‚ñà‚ñå       | 31009/120000 [17:04<46:26, 31.94it/s]

itr: 31000 lr: 8.471e-05 train loss: 0.000042 (dt=8.26s)


training:  26%|‚ñà‚ñà‚ñå       | 31259/120000 [17:12<46:19, 31.93it/s]

itr: 31250 lr: 8.448e-05 train loss: 0.000013 (dt=8.26s)


training:  26%|‚ñà‚ñà‚ñã       | 31509/120000 [17:20<46:10, 31.94it/s]

itr: 31500 lr: 8.424e-05 train loss: 0.000019 (dt=8.26s)


training:  26%|‚ñà‚ñà‚ñã       | 31759/120000 [17:28<46:02, 31.94it/s]

itr: 31750 lr: 8.400e-05 train loss: 0.000070 (dt=8.26s)


training:  27%|‚ñà‚ñà‚ñã       | 32009/120000 [17:37<45:54, 31.94it/s]

itr: 32000 lr: 8.376e-05 train loss: 0.000036 (dt=8.26s)


training:  27%|‚ñà‚ñà‚ñã       | 32259/120000 [17:45<45:48, 31.93it/s]

itr: 32250 lr: 8.352e-05 train loss: 0.000070 (dt=8.26s)


training:  27%|‚ñà‚ñà‚ñã       | 32509/120000 [17:53<45:39, 31.94it/s]

itr: 32500 lr: 8.328e-05 train loss: 0.000017 (dt=8.26s)


training:  27%|‚ñà‚ñà‚ñã       | 32759/120000 [18:01<45:31, 31.94it/s]

itr: 32750 lr: 8.304e-05 train loss: 0.000026 (dt=8.26s)


training:  28%|‚ñà‚ñà‚ñä       | 33009/120000 [18:10<45:22, 31.95it/s]

itr: 33000 lr: 8.279e-05 train loss: 0.000026 (dt=8.26s)


training:  28%|‚ñà‚ñà‚ñä       | 33259/120000 [18:18<45:15, 31.94it/s]

itr: 33250 lr: 8.254e-05 train loss: 0.000020 (dt=8.26s)


training:  28%|‚ñà‚ñà‚ñä       | 33509/120000 [18:26<45:08, 31.94it/s]

itr: 33500 lr: 8.230e-05 train loss: 0.000039 (dt=8.26s)


training:  28%|‚ñà‚ñà‚ñä       | 33759/120000 [18:34<45:00, 31.94it/s]

itr: 33750 lr: 8.205e-05 train loss: 0.000009 (dt=8.26s)


training:  28%|‚ñà‚ñà‚ñä       | 34009/120000 [18:43<44:51, 31.95it/s]

itr: 34000 lr: 8.180e-05 train loss: 0.000028 (dt=8.26s)


training:  29%|‚ñà‚ñà‚ñä       | 34259/120000 [18:51<44:44, 31.94it/s]

itr: 34250 lr: 8.154e-05 train loss: 0.000104 (dt=8.26s)


training:  29%|‚ñà‚ñà‚ñâ       | 34509/120000 [18:59<44:36, 31.94it/s]

itr: 34500 lr: 8.129e-05 train loss: 0.000031 (dt=8.26s)


training:  29%|‚ñà‚ñà‚ñâ       | 34759/120000 [19:07<44:28, 31.95it/s]

itr: 34750 lr: 8.104e-05 train loss: 0.000033 (dt=8.26s)


training:  29%|‚ñà‚ñà‚ñâ       | 35009/120000 [19:16<44:21, 31.94it/s]

itr: 35000 lr: 8.078e-05 train loss: 0.000044 (dt=8.26s)


training:  29%|‚ñà‚ñà‚ñâ       | 35259/120000 [19:24<44:13, 31.94it/s]

itr: 35250 lr: 8.052e-05 train loss: 0.000019 (dt=8.26s)


training:  30%|‚ñà‚ñà‚ñâ       | 35509/120000 [19:32<44:05, 31.94it/s]

itr: 35500 lr: 8.026e-05 train loss: 0.000009 (dt=8.26s)


training:  30%|‚ñà‚ñà‚ñâ       | 35759/120000 [19:40<43:55, 31.97it/s]

itr: 35750 lr: 8.000e-05 train loss: 0.000031 (dt=8.26s)


training:  30%|‚ñà‚ñà‚ñà       | 36009/120000 [19:49<43:49, 31.94it/s]

itr: 36000 lr: 7.974e-05 train loss: 0.000020 (dt=8.26s)


training:  30%|‚ñà‚ñà‚ñà       | 36259/120000 [19:57<43:38, 31.98it/s]

itr: 36250 lr: 7.948e-05 train loss: 0.000022 (dt=8.26s)


training:  30%|‚ñà‚ñà‚ñà       | 36509/120000 [20:05<43:33, 31.95it/s]

itr: 36500 lr: 7.922e-05 train loss: 0.000038 (dt=8.26s)


training:  31%|‚ñà‚ñà‚ñà       | 36759/120000 [20:14<43:26, 31.93it/s]

itr: 36750 lr: 7.895e-05 train loss: 0.000037 (dt=8.26s)


training:  31%|‚ñà‚ñà‚ñà       | 37009/120000 [20:22<43:17, 31.95it/s]

itr: 37000 lr: 7.868e-05 train loss: 0.000013 (dt=8.26s)


training:  31%|‚ñà‚ñà‚ñà       | 37259/120000 [20:30<43:10, 31.94it/s]

itr: 37250 lr: 7.842e-05 train loss: 0.000008 (dt=8.26s)


training:  31%|‚ñà‚ñà‚ñà‚ñè      | 37509/120000 [20:38<43:03, 31.94it/s]

itr: 37500 lr: 7.815e-05 train loss: 0.000010 (dt=8.26s)


training:  31%|‚ñà‚ñà‚ñà‚ñè      | 37759/120000 [20:47<42:54, 31.95it/s]

itr: 37750 lr: 7.788e-05 train loss: 0.000011 (dt=8.26s)


training:  32%|‚ñà‚ñà‚ñà‚ñè      | 38009/120000 [20:55<42:47, 31.94it/s]

itr: 38000 lr: 7.761e-05 train loss: 0.000021 (dt=8.26s)


training:  32%|‚ñà‚ñà‚ñà‚ñè      | 38259/120000 [21:03<42:38, 31.94it/s]

itr: 38250 lr: 7.734e-05 train loss: 0.000027 (dt=8.26s)


training:  32%|‚ñà‚ñà‚ñà‚ñè      | 38509/120000 [21:11<42:31, 31.94it/s]

itr: 38500 lr: 7.706e-05 train loss: 0.000006 (dt=8.26s)


training:  32%|‚ñà‚ñà‚ñà‚ñè      | 38759/120000 [21:20<42:23, 31.94it/s]

itr: 38750 lr: 7.679e-05 train loss: 0.000011 (dt=8.26s)


training:  33%|‚ñà‚ñà‚ñà‚ñé      | 39009/120000 [21:28<42:15, 31.95it/s]

itr: 39000 lr: 7.651e-05 train loss: 0.000050 (dt=8.26s)


training:  33%|‚ñà‚ñà‚ñà‚ñé      | 39259/120000 [21:36<42:07, 31.94it/s]

itr: 39250 lr: 7.624e-05 train loss: 0.000010 (dt=8.26s)


training:  33%|‚ñà‚ñà‚ñà‚ñé      | 39509/120000 [21:44<42:00, 31.94it/s]

itr: 39500 lr: 7.596e-05 train loss: 0.000026 (dt=8.26s)


training:  33%|‚ñà‚ñà‚ñà‚ñé      | 39759/120000 [21:53<41:52, 31.94it/s]

itr: 39750 lr: 7.568e-05 train loss: 0.000011 (dt=8.26s)


training:  33%|‚ñà‚ñà‚ñà‚ñé      | 40009/120000 [22:01<42:22, 31.46it/s]

itr: 40000 lr: 7.540e-05 train loss: 0.000013 (dt=8.26s)
saved checkpoint: ./saved_models_grid_bs8192_20260103_075004/Checkpoint_N256_L2_dup0_iters40001.pt


training:  34%|‚ñà‚ñà‚ñà‚ñé      | 40259/120000 [22:09<41:36, 31.94it/s]

itr: 40250 lr: 7.512e-05 train loss: 0.000013 (dt=8.27s)


training:  34%|‚ñà‚ñà‚ñà‚ñç      | 40509/120000 [22:17<41:27, 31.96it/s]

itr: 40500 lr: 7.484e-05 train loss: 0.000038 (dt=8.26s)


training:  34%|‚ñà‚ñà‚ñà‚ñç      | 40759/120000 [22:26<41:21, 31.94it/s]

itr: 40750 lr: 7.455e-05 train loss: 0.000016 (dt=8.26s)


training:  34%|‚ñà‚ñà‚ñà‚ñç      | 41009/120000 [22:34<41:12, 31.95it/s]

itr: 41000 lr: 7.427e-05 train loss: 0.000017 (dt=8.26s)


training:  34%|‚ñà‚ñà‚ñà‚ñç      | 41259/120000 [22:42<41:04, 31.95it/s]

itr: 41250 lr: 7.398e-05 train loss: 0.000039 (dt=8.26s)


training:  35%|‚ñà‚ñà‚ñà‚ñç      | 41509/120000 [22:50<40:57, 31.93it/s]

itr: 41500 lr: 7.370e-05 train loss: 0.000046 (dt=8.26s)


training:  35%|‚ñà‚ñà‚ñà‚ñç      | 41759/120000 [22:59<40:48, 31.95it/s]

itr: 41750 lr: 7.341e-05 train loss: 0.000047 (dt=8.26s)


training:  35%|‚ñà‚ñà‚ñà‚ñå      | 42009/120000 [23:07<40:41, 31.94it/s]

itr: 42000 lr: 7.312e-05 train loss: 0.000006 (dt=8.26s)


training:  35%|‚ñà‚ñà‚ñà‚ñå      | 42259/120000 [23:15<40:33, 31.95it/s]

itr: 42250 lr: 7.283e-05 train loss: 0.000016 (dt=8.26s)


training:  35%|‚ñà‚ñà‚ñà‚ñå      | 42509/120000 [23:23<40:26, 31.94it/s]

itr: 42500 lr: 7.254e-05 train loss: 0.000007 (dt=8.26s)


training:  36%|‚ñà‚ñà‚ñà‚ñå      | 42759/120000 [23:32<40:18, 31.94it/s]

itr: 42750 lr: 7.225e-05 train loss: 0.000008 (dt=8.26s)


training:  36%|‚ñà‚ñà‚ñà‚ñå      | 43009/120000 [23:40<40:10, 31.93it/s]

itr: 43000 lr: 7.196e-05 train loss: 0.000008 (dt=8.26s)


training:  36%|‚ñà‚ñà‚ñà‚ñå      | 43259/120000 [23:48<40:03, 31.93it/s]

itr: 43250 lr: 7.167e-05 train loss: 0.000008 (dt=8.26s)


training:  36%|‚ñà‚ñà‚ñà‚ñã      | 43509/120000 [23:56<39:56, 31.92it/s]

itr: 43500 lr: 7.137e-05 train loss: 0.000030 (dt=8.26s)


training:  36%|‚ñà‚ñà‚ñà‚ñã      | 43759/120000 [24:05<39:47, 31.93it/s]

itr: 43750 lr: 7.108e-05 train loss: 0.000011 (dt=8.26s)


training:  37%|‚ñà‚ñà‚ñà‚ñã      | 44009/120000 [24:13<39:39, 31.94it/s]

itr: 44000 lr: 7.078e-05 train loss: 0.000009 (dt=8.26s)


training:  37%|‚ñà‚ñà‚ñà‚ñã      | 44259/120000 [24:21<39:31, 31.94it/s]

itr: 44250 lr: 7.049e-05 train loss: 0.000052 (dt=8.26s)


training:  37%|‚ñà‚ñà‚ñà‚ñã      | 44509/120000 [24:30<39:24, 31.93it/s]

itr: 44500 lr: 7.019e-05 train loss: 0.000007 (dt=8.26s)


training:  37%|‚ñà‚ñà‚ñà‚ñã      | 44759/120000 [24:38<39:15, 31.95it/s]

itr: 44750 lr: 6.989e-05 train loss: 0.000030 (dt=8.26s)


training:  38%|‚ñà‚ñà‚ñà‚ñä      | 45009/120000 [24:46<39:07, 31.94it/s]

itr: 45000 lr: 6.959e-05 train loss: 0.000006 (dt=8.26s)


training:  38%|‚ñà‚ñà‚ñà‚ñä      | 45259/120000 [24:54<38:59, 31.95it/s]

itr: 45250 lr: 6.929e-05 train loss: 0.000040 (dt=8.26s)


training:  38%|‚ñà‚ñà‚ñà‚ñä      | 45509/120000 [25:03<38:48, 31.99it/s]

itr: 45500 lr: 6.899e-05 train loss: 0.000052 (dt=8.26s)


training:  38%|‚ñà‚ñà‚ñà‚ñä      | 45759/120000 [25:11<38:44, 31.94it/s]

itr: 45750 lr: 6.869e-05 train loss: 0.000051 (dt=8.26s)


training:  38%|‚ñà‚ñà‚ñà‚ñä      | 46009/120000 [25:19<38:36, 31.93it/s]

itr: 46000 lr: 6.839e-05 train loss: 0.000007 (dt=8.26s)


training:  39%|‚ñà‚ñà‚ñà‚ñä      | 46259/120000 [25:27<38:28, 31.94it/s]

itr: 46250 lr: 6.809e-05 train loss: 0.000004 (dt=8.26s)


training:  39%|‚ñà‚ñà‚ñà‚ñâ      | 46509/120000 [25:36<38:21, 31.94it/s]

itr: 46500 lr: 6.778e-05 train loss: 0.000033 (dt=8.26s)


training:  39%|‚ñà‚ñà‚ñà‚ñâ      | 46759/120000 [25:44<38:12, 31.94it/s]

itr: 46750 lr: 6.748e-05 train loss: 0.000008 (dt=8.26s)


training:  39%|‚ñà‚ñà‚ñà‚ñâ      | 47009/120000 [25:52<38:05, 31.93it/s]

itr: 47000 lr: 6.717e-05 train loss: 0.000005 (dt=8.26s)


training:  39%|‚ñà‚ñà‚ñà‚ñâ      | 47259/120000 [26:00<37:56, 31.95it/s]

itr: 47250 lr: 6.687e-05 train loss: 0.000006 (dt=8.26s)


training:  40%|‚ñà‚ñà‚ñà‚ñâ      | 47509/120000 [26:09<37:49, 31.94it/s]

itr: 47500 lr: 6.656e-05 train loss: 0.000067 (dt=8.26s)


training:  40%|‚ñà‚ñà‚ñà‚ñâ      | 47759/120000 [26:17<37:40, 31.95it/s]

itr: 47750 lr: 6.625e-05 train loss: 0.000011 (dt=8.26s)


training:  40%|‚ñà‚ñà‚ñà‚ñà      | 48009/120000 [26:25<37:35, 31.92it/s]

itr: 48000 lr: 6.594e-05 train loss: 0.000005 (dt=8.26s)


training:  40%|‚ñà‚ñà‚ñà‚ñà      | 48259/120000 [26:33<37:24, 31.96it/s]

itr: 48250 lr: 6.564e-05 train loss: 0.000005 (dt=8.26s)


training:  40%|‚ñà‚ñà‚ñà‚ñà      | 48509/120000 [26:42<37:17, 31.95it/s]

itr: 48500 lr: 6.533e-05 train loss: 0.000005 (dt=8.26s)


training:  41%|‚ñà‚ñà‚ñà‚ñà      | 48759/120000 [26:50<37:07, 31.99it/s]

itr: 48750 lr: 6.502e-05 train loss: 0.000010 (dt=8.26s)


training:  41%|‚ñà‚ñà‚ñà‚ñà      | 49009/120000 [26:58<37:02, 31.94it/s]

itr: 49000 lr: 6.471e-05 train loss: 0.000004 (dt=8.26s)


training:  41%|‚ñà‚ñà‚ñà‚ñà      | 49259/120000 [27:06<36:54, 31.94it/s]

itr: 49250 lr: 6.439e-05 train loss: 0.000023 (dt=8.26s)


training:  41%|‚ñà‚ñà‚ñà‚ñà‚ñè     | 49509/120000 [27:15<36:46, 31.95it/s]

itr: 49500 lr: 6.408e-05 train loss: 0.000021 (dt=8.26s)


training:  41%|‚ñà‚ñà‚ñà‚ñà‚ñè     | 49759/120000 [27:23<36:40, 31.92it/s]

itr: 49750 lr: 6.377e-05 train loss: 0.000010 (dt=8.26s)


training:  42%|‚ñà‚ñà‚ñà‚ñà‚ñè     | 50009/120000 [27:31<36:31, 31.94it/s]

itr: 50000 lr: 6.346e-05 train loss: 0.000005 (dt=8.26s)


training:  42%|‚ñà‚ñà‚ñà‚ñà‚ñè     | 50259/120000 [27:39<36:23, 31.93it/s]

itr: 50250 lr: 6.314e-05 train loss: 0.000045 (dt=8.26s)


training:  42%|‚ñà‚ñà‚ñà‚ñà‚ñè     | 50509/120000 [27:48<36:16, 31.92it/s]

itr: 50500 lr: 6.283e-05 train loss: 0.000029 (dt=8.26s)


training:  42%|‚ñà‚ñà‚ñà‚ñà‚ñè     | 50759/120000 [27:56<36:07, 31.95it/s]

itr: 50750 lr: 6.252e-05 train loss: 0.000040 (dt=8.26s)


training:  43%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 51009/120000 [28:04<36:00, 31.94it/s]

itr: 51000 lr: 6.220e-05 train loss: 0.000019 (dt=8.26s)


training:  43%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 51259/120000 [28:12<35:52, 31.94it/s]

itr: 51250 lr: 6.189e-05 train loss: 0.000008 (dt=8.26s)


training:  43%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 51509/120000 [28:21<35:44, 31.93it/s]

itr: 51500 lr: 6.157e-05 train loss: 0.000027 (dt=8.26s)


training:  43%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 51759/120000 [28:29<35:36, 31.94it/s]

itr: 51750 lr: 6.125e-05 train loss: 0.000004 (dt=8.26s)


training:  43%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 52009/120000 [28:37<35:29, 31.93it/s]

itr: 52000 lr: 6.094e-05 train loss: 0.000013 (dt=8.26s)


training:  44%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 52259/120000 [28:45<35:21, 31.93it/s]

itr: 52250 lr: 6.062e-05 train loss: 0.000007 (dt=8.26s)


training:  44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 52509/120000 [28:54<35:13, 31.94it/s]

itr: 52500 lr: 6.030e-05 train loss: 0.000020 (dt=8.26s)


training:  44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 52759/120000 [29:02<35:05, 31.94it/s]

itr: 52750 lr: 5.998e-05 train loss: 0.000018 (dt=8.26s)


training:  44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 53009/120000 [29:10<34:54, 31.98it/s]

itr: 53000 lr: 5.966e-05 train loss: 0.000006 (dt=8.26s)


training:  44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 53259/120000 [29:19<34:50, 31.92it/s]

itr: 53250 lr: 5.934e-05 train loss: 0.000011 (dt=8.26s)


training:  45%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 53509/120000 [29:27<34:42, 31.92it/s]

itr: 53500 lr: 5.902e-05 train loss: 0.000015 (dt=8.26s)


training:  45%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 53759/120000 [29:35<34:33, 31.95it/s]

itr: 53750 lr: 5.870e-05 train loss: 0.000006 (dt=8.26s)


training:  45%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 54009/120000 [29:43<34:25, 31.94it/s]

itr: 54000 lr: 5.838e-05 train loss: 0.000020 (dt=8.26s)


training:  45%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 54259/120000 [29:52<34:18, 31.94it/s]

itr: 54250 lr: 5.806e-05 train loss: 0.000030 (dt=8.26s)


training:  45%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 54509/120000 [30:00<34:07, 31.99it/s]

itr: 54500 lr: 5.774e-05 train loss: 0.000015 (dt=8.26s)


training:  46%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 54759/120000 [30:08<34:02, 31.94it/s]

itr: 54750 lr: 5.742e-05 train loss: 0.000010 (dt=8.26s)


training:  46%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 55009/120000 [30:16<33:54, 31.94it/s]

itr: 55000 lr: 5.710e-05 train loss: 0.000003 (dt=8.26s)


training:  46%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 55259/120000 [30:25<33:47, 31.94it/s]

itr: 55250 lr: 5.678e-05 train loss: 0.000006 (dt=8.26s)


training:  46%|‚ñà‚ñà‚ñà‚ñà‚ñã     | 55509/120000 [30:33<33:39, 31.94it/s]

itr: 55500 lr: 5.646e-05 train loss: 0.000004 (dt=8.26s)


training:  46%|‚ñà‚ñà‚ñà‚ñà‚ñã     | 55759/120000 [30:41<33:31, 31.94it/s]

itr: 55750 lr: 5.613e-05 train loss: 0.000004 (dt=8.26s)


training:  47%|‚ñà‚ñà‚ñà‚ñà‚ñã     | 56009/120000 [30:49<33:22, 31.95it/s]

itr: 56000 lr: 5.581e-05 train loss: 0.000018 (dt=8.26s)


training:  47%|‚ñà‚ñà‚ñà‚ñà‚ñã     | 56259/120000 [30:58<33:15, 31.95it/s]

itr: 56250 lr: 5.549e-05 train loss: 0.000017 (dt=8.26s)


training:  47%|‚ñà‚ñà‚ñà‚ñà‚ñã     | 56509/120000 [31:06<33:08, 31.94it/s]

itr: 56500 lr: 5.517e-05 train loss: 0.000016 (dt=8.26s)


training:  47%|‚ñà‚ñà‚ñà‚ñà‚ñã     | 56759/120000 [31:14<33:00, 31.93it/s]

itr: 56750 lr: 5.484e-05 train loss: 0.000003 (dt=8.26s)


training:  48%|‚ñà‚ñà‚ñà‚ñà‚ñä     | 57009/120000 [31:22<32:51, 31.95it/s]

itr: 57000 lr: 5.452e-05 train loss: 0.000003 (dt=8.26s)


training:  48%|‚ñà‚ñà‚ñà‚ñà‚ñä     | 57259/120000 [31:31<32:44, 31.94it/s]

itr: 57250 lr: 5.420e-05 train loss: 0.000005 (dt=8.26s)


training:  48%|‚ñà‚ñà‚ñà‚ñà‚ñä     | 57509/120000 [31:39<32:36, 31.93it/s]

itr: 57500 lr: 5.387e-05 train loss: 0.000011 (dt=8.26s)


training:  48%|‚ñà‚ñà‚ñà‚ñà‚ñä     | 57759/120000 [31:47<32:28, 31.94it/s]

itr: 57750 lr: 5.355e-05 train loss: 0.000004 (dt=8.26s)


training:  48%|‚ñà‚ñà‚ñà‚ñà‚ñä     | 58009/120000 [31:55<32:21, 31.93it/s]

itr: 58000 lr: 5.322e-05 train loss: 0.000005 (dt=8.26s)


training:  49%|‚ñà‚ñà‚ñà‚ñà‚ñä     | 58259/120000 [32:04<32:13, 31.94it/s]

itr: 58250 lr: 5.290e-05 train loss: 0.000018 (dt=8.26s)


training:  49%|‚ñà‚ñà‚ñà‚ñà‚ñâ     | 58509/120000 [32:12<32:05, 31.94it/s]

itr: 58500 lr: 5.258e-05 train loss: 0.000008 (dt=8.26s)


training:  49%|‚ñà‚ñà‚ñà‚ñà‚ñâ     | 58759/120000 [32:20<31:57, 31.93it/s]

itr: 58750 lr: 5.225e-05 train loss: 0.000013 (dt=8.26s)


training:  49%|‚ñà‚ñà‚ñà‚ñà‚ñâ     | 59009/120000 [32:28<31:49, 31.95it/s]

itr: 59000 lr: 5.193e-05 train loss: 0.000006 (dt=8.26s)


training:  49%|‚ñà‚ñà‚ñà‚ñà‚ñâ     | 59259/120000 [32:37<31:41, 31.94it/s]

itr: 59250 lr: 5.160e-05 train loss: 0.000005 (dt=8.26s)


training:  50%|‚ñà‚ñà‚ñà‚ñà‚ñâ     | 59509/120000 [32:45<31:33, 31.94it/s]

itr: 59500 lr: 5.128e-05 train loss: 0.000032 (dt=8.26s)


training:  50%|‚ñà‚ñà‚ñà‚ñà‚ñâ     | 59759/120000 [32:53<31:26, 31.93it/s]

itr: 59750 lr: 5.095e-05 train loss: 0.000004 (dt=8.26s)


training:  50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 60009/120000 [33:01<31:49, 31.42it/s]

itr: 60000 lr: 5.063e-05 train loss: 0.000002 (dt=8.26s)
saved checkpoint: ./saved_models_grid_bs8192_20260103_075004/Checkpoint_N256_L2_dup0_iters60001.pt


training:  50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 60259/120000 [33:10<31:10, 31.94it/s]

itr: 60250 lr: 5.031e-05 train loss: 0.000004 (dt=8.27s)


training:  50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 60509/120000 [33:18<31:02, 31.94it/s]

itr: 60500 lr: 4.998e-05 train loss: 0.000003 (dt=8.26s)


training:  51%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 60759/120000 [33:26<30:54, 31.94it/s]

itr: 60750 lr: 4.966e-05 train loss: 0.000004 (dt=8.26s)


training:  51%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 61009/120000 [33:35<30:47, 31.93it/s]

itr: 61000 lr: 4.933e-05 train loss: 0.000003 (dt=8.26s)


training:  51%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 61259/120000 [33:43<30:39, 31.94it/s]

itr: 61250 lr: 4.901e-05 train loss: 0.000005 (dt=8.26s)


training:  51%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 61509/120000 [33:51<30:31, 31.94it/s]

itr: 61500 lr: 4.868e-05 train loss: 0.000004 (dt=8.26s)


training:  51%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 61759/120000 [33:59<30:23, 31.93it/s]

itr: 61750 lr: 4.836e-05 train loss: 0.000003 (dt=8.26s)


training:  52%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 62009/120000 [34:08<30:14, 31.96it/s]

itr: 62000 lr: 4.803e-05 train loss: 0.000006 (dt=8.26s)


training:  52%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 62259/120000 [34:16<30:08, 31.93it/s]

itr: 62250 lr: 4.771e-05 train loss: 0.000004 (dt=8.26s)


training:  52%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 62509/120000 [34:24<30:00, 31.93it/s]

itr: 62500 lr: 4.739e-05 train loss: 0.000002 (dt=8.26s)


training:  52%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 62759/120000 [34:32<29:51, 31.95it/s]

itr: 62750 lr: 4.706e-05 train loss: 0.000006 (dt=8.26s)


training:  53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 63009/120000 [34:41<29:44, 31.94it/s]

itr: 63000 lr: 4.674e-05 train loss: 0.000016 (dt=8.26s)


training:  53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 63259/120000 [34:49<29:36, 31.93it/s]

itr: 63250 lr: 4.642e-05 train loss: 0.000003 (dt=8.26s)


training:  53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 63509/120000 [34:57<29:26, 31.99it/s]

itr: 63500 lr: 4.609e-05 train loss: 0.000002 (dt=8.26s)


training:  53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 63759/120000 [35:05<29:21, 31.93it/s]

itr: 63750 lr: 4.577e-05 train loss: 0.000002 (dt=8.26s)


training:  53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 64009/120000 [35:14<29:13, 31.94it/s]

itr: 64000 lr: 4.545e-05 train loss: 0.000003 (dt=8.26s)


training:  54%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 64259/120000 [35:22<29:05, 31.94it/s]

itr: 64250 lr: 4.512e-05 train loss: 0.000008 (dt=8.26s)


training:  54%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç    | 64509/120000 [35:30<28:56, 31.95it/s]

itr: 64500 lr: 4.480e-05 train loss: 0.000002 (dt=8.26s)


training:  54%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç    | 64759/120000 [35:38<28:49, 31.94it/s]

itr: 64750 lr: 4.448e-05 train loss: 0.000002 (dt=8.26s)


training:  54%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç    | 65009/120000 [35:47<28:41, 31.94it/s]

itr: 65000 lr: 4.416e-05 train loss: 0.000009 (dt=8.26s)


training:  54%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç    | 65259/120000 [35:55<28:34, 31.93it/s]

itr: 65250 lr: 4.384e-05 train loss: 0.000003 (dt=8.26s)


training:  55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç    | 65509/120000 [36:03<28:26, 31.94it/s]

itr: 65500 lr: 4.351e-05 train loss: 0.000003 (dt=8.26s)


training:  55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç    | 65759/120000 [36:11<28:18, 31.94it/s]

itr: 65750 lr: 4.319e-05 train loss: 0.000030 (dt=8.26s)


training:  55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 66009/120000 [36:20<28:09, 31.95it/s]

itr: 66000 lr: 4.287e-05 train loss: 0.000004 (dt=8.26s)


training:  55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 66259/120000 [36:28<28:02, 31.94it/s]

itr: 66250 lr: 4.255e-05 train loss: 0.000002 (dt=8.26s)


training:  55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 66509/120000 [36:36<27:55, 31.93it/s]

itr: 66500 lr: 4.223e-05 train loss: 0.000002 (dt=8.26s)


training:  56%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 66759/120000 [36:44<27:47, 31.94it/s]

itr: 66750 lr: 4.191e-05 train loss: 0.000003 (dt=8.26s)


training:  56%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 67009/120000 [36:53<27:39, 31.93it/s]

itr: 67000 lr: 4.159e-05 train loss: 0.000002 (dt=8.26s)


training:  56%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 67259/120000 [37:01<27:31, 31.94it/s]

itr: 67250 lr: 4.127e-05 train loss: 0.000026 (dt=8.26s)


training:  56%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã    | 67509/120000 [37:09<27:23, 31.94it/s]

itr: 67500 lr: 4.095e-05 train loss: 0.000043 (dt=8.26s)


training:  56%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã    | 67759/120000 [37:17<27:12, 31.99it/s]

itr: 67750 lr: 4.064e-05 train loss: 0.000002 (dt=8.26s)


training:  57%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã    | 68009/120000 [37:26<27:07, 31.95it/s]

itr: 68000 lr: 4.032e-05 train loss: 0.000007 (dt=8.26s)


training:  57%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã    | 68259/120000 [37:34<26:59, 31.95it/s]

itr: 68250 lr: 4.000e-05 train loss: 0.000004 (dt=8.26s)


training:  57%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã    | 68509/120000 [37:42<26:52, 31.94it/s]

itr: 68500 lr: 3.968e-05 train loss: 0.000002 (dt=8.26s)


training:  57%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã    | 68759/120000 [37:51<26:44, 31.93it/s]

itr: 68750 lr: 3.937e-05 train loss: 0.000002 (dt=8.26s)


training:  58%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä    | 69009/120000 [37:59<26:36, 31.95it/s]

itr: 69000 lr: 3.905e-05 train loss: 0.000003 (dt=8.26s)


training:  58%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä    | 69259/120000 [38:07<26:28, 31.94it/s]

itr: 69250 lr: 3.874e-05 train loss: 0.000005 (dt=8.26s)


training:  58%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä    | 69509/120000 [38:15<26:20, 31.94it/s]

itr: 69500 lr: 3.842e-05 train loss: 0.000006 (dt=8.26s)


training:  58%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä    | 69759/120000 [38:24<26:12, 31.94it/s]

itr: 69750 lr: 3.811e-05 train loss: 0.000002 (dt=8.26s)


training:  58%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä    | 70009/120000 [38:32<26:05, 31.94it/s]

itr: 70000 lr: 3.779e-05 train loss: 0.000002 (dt=8.26s)


training:  59%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä    | 70259/120000 [38:40<25:57, 31.94it/s]

itr: 70250 lr: 3.748e-05 train loss: 0.000043 (dt=8.26s)


training:  59%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ    | 70509/120000 [38:48<25:50, 31.93it/s]

itr: 70500 lr: 3.717e-05 train loss: 0.000002 (dt=8.26s)


training:  59%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ    | 70759/120000 [38:57<25:41, 31.95it/s]

itr: 70750 lr: 3.685e-05 train loss: 0.000002 (dt=8.26s)


training:  59%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ    | 71009/120000 [39:05<25:34, 31.93it/s]

itr: 71000 lr: 3.654e-05 train loss: 0.000002 (dt=8.26s)


training:  59%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ    | 71259/120000 [39:13<25:25, 31.94it/s]

itr: 71250 lr: 3.623e-05 train loss: 0.000002 (dt=8.26s)


training:  60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ    | 71509/120000 [39:21<25:18, 31.94it/s]

itr: 71500 lr: 3.592e-05 train loss: 0.000004 (dt=8.26s)


training:  60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ    | 71759/120000 [39:30<25:09, 31.96it/s]

itr: 71750 lr: 3.561e-05 train loss: 0.000004 (dt=8.26s)


training:  60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 72009/120000 [39:38<25:02, 31.94it/s]

itr: 72000 lr: 3.530e-05 train loss: 0.000002 (dt=8.26s)


training:  60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 72259/120000 [39:46<24:54, 31.94it/s]

itr: 72250 lr: 3.499e-05 train loss: 0.000002 (dt=8.26s)


training:  60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 72509/120000 [39:54<24:46, 31.94it/s]

itr: 72500 lr: 3.469e-05 train loss: 0.000005 (dt=8.26s)


training:  61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 72759/120000 [40:03<24:38, 31.94it/s]

itr: 72750 lr: 3.438e-05 train loss: 0.000023 (dt=8.26s)


training:  61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 73009/120000 [40:11<24:31, 31.93it/s]

itr: 73000 lr: 3.407e-05 train loss: 0.000002 (dt=8.26s)


training:  61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 73259/120000 [40:19<24:23, 31.94it/s]

itr: 73250 lr: 3.377e-05 train loss: 0.000002 (dt=8.26s)


training:  61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 73509/120000 [40:27<24:14, 31.96it/s]

itr: 73500 lr: 3.346e-05 train loss: 0.000002 (dt=8.26s)


training:  61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 73759/120000 [40:36<24:07, 31.94it/s]

itr: 73750 lr: 3.316e-05 train loss: 0.000002 (dt=8.26s)


training:  62%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 74009/120000 [40:44<23:59, 31.94it/s]

itr: 74000 lr: 3.285e-05 train loss: 0.000007 (dt=8.26s)


training:  62%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 74259/120000 [40:52<23:52, 31.94it/s]

itr: 74250 lr: 3.255e-05 train loss: 0.000005 (dt=8.26s)


training:  62%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 74509/120000 [41:00<23:44, 31.94it/s]

itr: 74500 lr: 3.225e-05 train loss: 0.000001 (dt=8.26s)


training:  62%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 74759/120000 [41:09<23:34, 31.99it/s]

itr: 74750 lr: 3.195e-05 train loss: 0.000005 (dt=8.26s)


training:  63%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé   | 75009/120000 [41:17<23:29, 31.93it/s]

itr: 75000 lr: 3.165e-05 train loss: 0.000022 (dt=8.26s)


training:  63%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé   | 75259/120000 [41:25<23:20, 31.94it/s]

itr: 75250 lr: 3.135e-05 train loss: 0.000004 (dt=8.26s)


training:  63%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé   | 75509/120000 [41:33<23:12, 31.94it/s]

itr: 75500 lr: 3.105e-05 train loss: 0.000002 (dt=8.26s)


training:  63%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé   | 75759/120000 [41:42<23:05, 31.93it/s]

itr: 75750 lr: 3.075e-05 train loss: 0.000001 (dt=8.26s)


training:  63%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé   | 76009/120000 [41:50<22:57, 31.94it/s]

itr: 76000 lr: 3.045e-05 train loss: 0.000002 (dt=8.26s)


training:  64%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé   | 76259/120000 [41:58<22:49, 31.94it/s]

itr: 76250 lr: 3.016e-05 train loss: 0.000001 (dt=8.26s)


training:  64%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç   | 76509/120000 [42:07<22:41, 31.94it/s]

itr: 76500 lr: 2.986e-05 train loss: 0.000002 (dt=8.26s)


training:  64%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç   | 76759/120000 [42:15<22:33, 31.94it/s]

itr: 76750 lr: 2.957e-05 train loss: 0.000012 (dt=8.26s)


training:  64%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç   | 77009/120000 [42:23<22:24, 31.98it/s]

itr: 77000 lr: 2.927e-05 train loss: 0.000003 (dt=8.26s)


training:  64%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç   | 77259/120000 [42:31<22:17, 31.97it/s]

itr: 77250 lr: 2.898e-05 train loss: 0.000002 (dt=8.26s)


training:  65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç   | 77509/120000 [42:40<22:10, 31.94it/s]

itr: 77500 lr: 2.869e-05 train loss: 0.000001 (dt=8.26s)


training:  65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç   | 77759/120000 [42:48<22:02, 31.94it/s]

itr: 77750 lr: 2.840e-05 train loss: 0.000003 (dt=8.26s)


training:  65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 78009/120000 [42:56<21:54, 31.94it/s]

itr: 78000 lr: 2.811e-05 train loss: 0.000002 (dt=8.26s)


training:  65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 78259/120000 [43:04<21:44, 31.99it/s]

itr: 78250 lr: 2.782e-05 train loss: 0.000001 (dt=8.26s)


training:  65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 78509/120000 [43:13<21:39, 31.94it/s]

itr: 78500 lr: 2.753e-05 train loss: 0.000015 (dt=8.26s)


training:  66%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 78759/120000 [43:21<21:28, 32.00it/s]

itr: 78750 lr: 2.724e-05 train loss: 0.000001 (dt=8.26s)


training:  66%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 79009/120000 [43:29<21:22, 31.97it/s]

itr: 79000 lr: 2.696e-05 train loss: 0.000002 (dt=8.26s)


training:  66%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 79259/120000 [43:37<21:15, 31.94it/s]

itr: 79250 lr: 2.667e-05 train loss: 0.000001 (dt=8.26s)


training:  66%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã   | 79509/120000 [43:46<21:07, 31.94it/s]

itr: 79500 lr: 2.639e-05 train loss: 0.000002 (dt=8.26s)


training:  66%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã   | 79759/120000 [43:54<20:59, 31.95it/s]

itr: 79750 lr: 2.611e-05 train loss: 0.000002 (dt=8.26s)


training:  67%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã   | 80009/120000 [44:02<21:11, 31.46it/s]

itr: 80000 lr: 2.582e-05 train loss: 0.000001 (dt=8.26s)
saved checkpoint: ./saved_models_grid_bs8192_20260103_075004/Checkpoint_N256_L2_dup0_iters80001.pt


training:  67%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã   | 80259/120000 [44:10<20:42, 31.99it/s]

itr: 80250 lr: 2.554e-05 train loss: 0.000001 (dt=8.27s)


training:  67%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã   | 80509/120000 [44:19<20:36, 31.94it/s]

itr: 80500 lr: 2.526e-05 train loss: 0.000001 (dt=8.26s)


training:  67%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã   | 80759/120000 [44:27<20:29, 31.92it/s]

itr: 80750 lr: 2.499e-05 train loss: 0.000002 (dt=8.26s)


training:  68%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä   | 81009/120000 [44:35<20:20, 31.94it/s]

itr: 81000 lr: 2.471e-05 train loss: 0.000007 (dt=8.26s)


training:  68%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä   | 81259/120000 [44:43<20:12, 31.95it/s]

itr: 81250 lr: 2.443e-05 train loss: 0.000001 (dt=8.26s)


training:  68%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä   | 81509/120000 [44:52<20:04, 31.95it/s]

itr: 81500 lr: 2.416e-05 train loss: 0.000006 (dt=8.26s)


training:  68%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä   | 81759/120000 [45:00<19:57, 31.94it/s]

itr: 81750 lr: 2.388e-05 train loss: 0.000005 (dt=8.26s)


training:  68%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä   | 82009/120000 [45:08<19:49, 31.93it/s]

itr: 82000 lr: 2.361e-05 train loss: 0.000003 (dt=8.26s)


training:  69%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä   | 82259/120000 [45:16<19:41, 31.94it/s]

itr: 82250 lr: 2.334e-05 train loss: 0.000002 (dt=8.26s)


training:  69%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 82509/120000 [45:25<19:33, 31.93it/s]

itr: 82500 lr: 2.307e-05 train loss: 0.000001 (dt=8.26s)


training:  69%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 82759/120000 [45:33<19:26, 31.93it/s]

itr: 82750 lr: 2.280e-05 train loss: 0.000001 (dt=8.26s)


training:  69%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 83009/120000 [45:41<19:18, 31.94it/s]

itr: 83000 lr: 2.253e-05 train loss: 0.000002 (dt=8.26s)


training:  69%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 83259/120000 [45:49<19:10, 31.94it/s]

itr: 83250 lr: 2.226e-05 train loss: 0.000001 (dt=8.26s)


training:  70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 83509/120000 [45:58<19:02, 31.94it/s]

itr: 83500 lr: 2.200e-05 train loss: 0.000002 (dt=8.26s)


training:  70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 83759/120000 [46:06<18:54, 31.94it/s]

itr: 83750 lr: 2.173e-05 train loss: 0.000001 (dt=8.26s)


training:  70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 84009/120000 [46:14<18:47, 31.93it/s]

itr: 84000 lr: 2.147e-05 train loss: 0.000002 (dt=8.26s)


training:  70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 84259/120000 [46:23<18:39, 31.93it/s]

itr: 84250 lr: 2.121e-05 train loss: 0.000001 (dt=8.26s)


training:  70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 84509/120000 [46:31<18:31, 31.94it/s]

itr: 84500 lr: 2.094e-05 train loss: 0.000001 (dt=8.26s)


training:  71%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 84759/120000 [46:39<18:23, 31.94it/s]

itr: 84750 lr: 2.068e-05 train loss: 0.000001 (dt=8.26s)


training:  71%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 85009/120000 [46:47<18:14, 31.98it/s]

itr: 85000 lr: 2.043e-05 train loss: 0.000001 (dt=8.26s)


training:  71%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 85259/120000 [46:56<18:07, 31.94it/s]

itr: 85250 lr: 2.017e-05 train loss: 0.000001 (dt=8.26s)


training:  71%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè  | 85509/120000 [47:04<17:58, 31.99it/s]

itr: 85500 lr: 1.991e-05 train loss: 0.000001 (dt=8.26s)


training:  71%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè  | 85759/120000 [47:12<17:51, 31.97it/s]

itr: 85750 lr: 1.966e-05 train loss: 0.000001 (dt=8.26s)


training:  72%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè  | 86009/120000 [47:20<17:44, 31.93it/s]

itr: 86000 lr: 1.941e-05 train loss: 0.000003 (dt=8.26s)


training:  72%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè  | 86259/120000 [47:29<17:36, 31.94it/s]

itr: 86250 lr: 1.915e-05 train loss: 0.000001 (dt=8.26s)


training:  72%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè  | 86509/120000 [47:37<17:28, 31.94it/s]

itr: 86500 lr: 1.890e-05 train loss: 0.000001 (dt=8.26s)


training:  72%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè  | 86759/120000 [47:45<17:20, 31.94it/s]

itr: 86750 lr: 1.865e-05 train loss: 0.000001 (dt=8.26s)


training:  73%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé  | 87009/120000 [47:53<17:12, 31.94it/s]

itr: 87000 lr: 1.841e-05 train loss: 0.000001 (dt=8.26s)


training:  73%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé  | 87259/120000 [48:02<17:05, 31.94it/s]

itr: 87250 lr: 1.816e-05 train loss: 0.000015 (dt=8.26s)


training:  73%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé  | 87509/120000 [48:10<16:57, 31.94it/s]

itr: 87500 lr: 1.792e-05 train loss: 0.000001 (dt=8.26s)


training:  73%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé  | 87759/120000 [48:18<16:49, 31.95it/s]

itr: 87750 lr: 1.767e-05 train loss: 0.000019 (dt=8.26s)


training:  73%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé  | 88009/120000 [48:26<16:41, 31.95it/s]

itr: 88000 lr: 1.743e-05 train loss: 0.000001 (dt=8.26s)


training:  74%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé  | 88259/120000 [48:35<16:33, 31.94it/s]

itr: 88250 lr: 1.719e-05 train loss: 0.000001 (dt=8.26s)


training:  74%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç  | 88509/120000 [48:43<16:26, 31.94it/s]

itr: 88500 lr: 1.695e-05 train loss: 0.000001 (dt=8.26s)


training:  74%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç  | 88759/120000 [48:51<16:18, 31.93it/s]

itr: 88750 lr: 1.671e-05 train loss: 0.000001 (dt=8.26s)


training:  74%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç  | 89009/120000 [48:59<16:10, 31.94it/s]

itr: 89000 lr: 1.648e-05 train loss: 0.000009 (dt=8.26s)


training:  74%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç  | 89259/120000 [49:08<16:02, 31.95it/s]

itr: 89250 lr: 1.624e-05 train loss: 0.000001 (dt=8.26s)


training:  75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç  | 89509/120000 [49:16<15:55, 31.93it/s]

itr: 89500 lr: 1.601e-05 train loss: 0.000013 (dt=8.26s)


training:  75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç  | 89759/120000 [49:24<15:46, 31.94it/s]

itr: 89750 lr: 1.577e-05 train loss: 0.000001 (dt=8.26s)


training:  75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 90009/120000 [49:32<15:38, 31.94it/s]

itr: 90000 lr: 1.554e-05 train loss: 0.000001 (dt=8.26s)


training:  75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 90259/120000 [49:41<15:31, 31.94it/s]

itr: 90250 lr: 1.532e-05 train loss: 0.000047 (dt=8.26s)


training:  75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 90509/120000 [49:49<15:23, 31.95it/s]

itr: 90500 lr: 1.509e-05 train loss: 0.000018 (dt=8.26s)


training:  76%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 90759/120000 [49:57<15:15, 31.94it/s]

itr: 90750 lr: 1.486e-05 train loss: 0.000001 (dt=8.26s)


training:  76%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 91009/120000 [50:05<15:07, 31.94it/s]

itr: 91000 lr: 1.464e-05 train loss: 0.000001 (dt=8.26s)


training:  76%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 91259/120000 [50:14<14:58, 31.98it/s]

itr: 91250 lr: 1.441e-05 train loss: 0.000001 (dt=8.26s)


training:  76%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã  | 91509/120000 [50:22<14:52, 31.94it/s]

itr: 91500 lr: 1.419e-05 train loss: 0.000001 (dt=8.26s)


training:  76%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã  | 91759/120000 [50:30<14:44, 31.95it/s]

itr: 91750 lr: 1.397e-05 train loss: 0.000001 (dt=8.26s)


training:  77%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã  | 92009/120000 [50:38<14:36, 31.94it/s]

itr: 92000 lr: 1.375e-05 train loss: 0.000001 (dt=8.26s)


training:  77%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã  | 92259/120000 [50:47<14:27, 31.97it/s]

itr: 92250 lr: 1.354e-05 train loss: 0.000001 (dt=8.26s)


training:  77%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã  | 92509/120000 [50:55<14:20, 31.94it/s]

itr: 92500 lr: 1.332e-05 train loss: 0.000002 (dt=8.26s)


training:  77%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã  | 92759/120000 [51:03<14:12, 31.94it/s]

itr: 92750 lr: 1.311e-05 train loss: 0.000001 (dt=8.26s)


training:  78%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 93009/120000 [51:12<14:05, 31.94it/s]

itr: 93000 lr: 1.290e-05 train loss: 0.000001 (dt=8.26s)


training:  78%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 93259/120000 [51:20<13:56, 31.95it/s]

itr: 93250 lr: 1.269e-05 train loss: 0.000001 (dt=8.26s)


training:  78%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 93509/120000 [51:28<13:49, 31.95it/s]

itr: 93500 lr: 1.248e-05 train loss: 0.000001 (dt=8.26s)


training:  78%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 93759/120000 [51:36<13:41, 31.94it/s]

itr: 93750 lr: 1.227e-05 train loss: 0.000044 (dt=8.26s)


training:  78%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 94009/120000 [51:45<13:32, 31.99it/s]

itr: 94000 lr: 1.207e-05 train loss: 0.000004 (dt=8.26s)


training:  79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 94259/120000 [51:53<13:24, 31.98it/s]

itr: 94250 lr: 1.186e-05 train loss: 0.000001 (dt=8.26s)


training:  79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 94509/120000 [52:01<13:17, 31.98it/s]

itr: 94500 lr: 1.166e-05 train loss: 0.000001 (dt=8.26s)


training:  79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 94759/120000 [52:09<13:10, 31.93it/s]

itr: 94750 lr: 1.146e-05 train loss: 0.000001 (dt=8.26s)


training:  79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 95009/120000 [52:18<13:02, 31.94it/s]

itr: 95000 lr: 1.126e-05 train loss: 0.000001 (dt=8.26s)


training:  79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 95259/120000 [52:26<12:54, 31.94it/s]

itr: 95250 lr: 1.106e-05 train loss: 0.000022 (dt=8.26s)


training:  80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 95509/120000 [52:34<12:46, 31.94it/s]

itr: 95500 lr: 1.087e-05 train loss: 0.000001 (dt=8.26s)


training:  80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 95759/120000 [52:42<12:38, 31.94it/s]

itr: 95750 lr: 1.068e-05 train loss: 0.000058 (dt=8.26s)


training:  80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 96009/120000 [52:51<12:30, 31.97it/s]

itr: 96000 lr: 1.048e-05 train loss: 0.000001 (dt=8.26s)


training:  80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 96259/120000 [52:59<12:23, 31.95it/s]

itr: 96250 lr: 1.029e-05 train loss: 0.000000 (dt=8.26s)


training:  80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 96509/120000 [53:07<12:15, 31.93it/s]

itr: 96500 lr: 1.011e-05 train loss: 0.000001 (dt=8.26s)


training:  81%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 96759/120000 [53:15<12:07, 31.94it/s]

itr: 96750 lr: 9.919e-06 train loss: 0.000001 (dt=8.26s)


training:  81%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 97009/120000 [53:24<12:01, 31.87it/s]

itr: 97000 lr: 9.734e-06 train loss: 0.000001 (dt=8.26s)


training:  81%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 97259/120000 [53:32<11:52, 31.94it/s]

itr: 97250 lr: 9.551e-06 train loss: 0.000018 (dt=8.26s)


training:  81%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè | 97509/120000 [53:40<11:44, 31.93it/s]

itr: 97500 lr: 9.369e-06 train loss: 0.000001 (dt=8.26s)


training:  81%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè | 97759/120000 [53:48<11:36, 31.95it/s]

itr: 97750 lr: 9.190e-06 train loss: 0.000001 (dt=8.26s)


training:  82%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè | 98009/120000 [53:57<11:28, 31.94it/s]

itr: 98000 lr: 9.012e-06 train loss: 0.000001 (dt=8.26s)


training:  82%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè | 98259/120000 [54:05<11:19, 31.97it/s]

itr: 98250 lr: 8.836e-06 train loss: 0.000001 (dt=8.26s)


training:  82%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè | 98509/120000 [54:13<11:12, 31.94it/s]

itr: 98500 lr: 8.661e-06 train loss: 0.000018 (dt=8.26s)


training:  82%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè | 98759/120000 [54:21<11:04, 31.94it/s]

itr: 98750 lr: 8.489e-06 train loss: 0.000001 (dt=8.26s)


training:  83%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé | 99009/120000 [54:30<10:56, 31.97it/s]

itr: 99000 lr: 8.318e-06 train loss: 0.000005 (dt=8.26s)


training:  83%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé | 99259/120000 [54:38<10:49, 31.95it/s]

itr: 99250 lr: 8.149e-06 train loss: 0.000000 (dt=8.26s)


training:  83%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé | 99509/120000 [54:46<10:41, 31.94it/s]

itr: 99500 lr: 7.982e-06 train loss: 0.000001 (dt=8.26s)


training:  83%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé | 99759/120000 [54:54<10:33, 31.96it/s]

itr: 99750 lr: 7.817e-06 train loss: 0.000001 (dt=8.26s)


training:  83%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé | 100009/120000 [55:03<10:35, 31.45it/s]

itr: 100000 lr: 7.653e-06 train loss: 0.000017 (dt=8.26s)
saved checkpoint: ./saved_models_grid_bs8192_20260103_075004/Checkpoint_N256_L2_dup0_iters100001.pt


training:  84%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé | 100259/120000 [55:11<10:18, 31.94it/s]

itr: 100250 lr: 7.492e-06 train loss: 0.000001 (dt=8.27s)


training:  84%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç | 100509/120000 [55:19<10:09, 31.99it/s]

itr: 100500 lr: 7.332e-06 train loss: 0.000000 (dt=8.26s)


training:  84%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç | 100759/120000 [55:28<10:02, 31.94it/s]

itr: 100750 lr: 7.174e-06 train loss: 0.000000 (dt=8.26s)


training:  84%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç | 101009/120000 [55:36<09:54, 31.96it/s]

itr: 101000 lr: 7.018e-06 train loss: 0.000000 (dt=8.26s)


training:  84%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç | 101259/120000 [55:44<09:46, 31.94it/s]

itr: 101250 lr: 6.864e-06 train loss: 0.000001 (dt=8.26s)


training:  85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç | 101509/120000 [55:52<09:38, 31.94it/s]

itr: 101500 lr: 6.712e-06 train loss: 0.000001 (dt=8.26s)


training:  85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç | 101759/120000 [56:01<09:31, 31.94it/s]

itr: 101750 lr: 6.561e-06 train loss: 0.000000 (dt=8.26s)


training:  85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 102009/120000 [56:09<09:23, 31.93it/s]

itr: 102000 lr: 6.413e-06 train loss: 0.000000 (dt=8.26s)


training:  85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 102259/120000 [56:17<09:15, 31.93it/s]

itr: 102250 lr: 6.266e-06 train loss: 0.000000 (dt=8.26s)


training:  85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 102509/120000 [56:25<09:07, 31.95it/s]

itr: 102500 lr: 6.122e-06 train loss: 0.000001 (dt=8.26s)


training:  86%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 102759/120000 [56:34<08:59, 31.94it/s]

itr: 102750 lr: 5.979e-06 train loss: 0.000001 (dt=8.26s)


training:  86%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 103009/120000 [56:42<08:51, 31.97it/s]

itr: 103000 lr: 5.838e-06 train loss: 0.000001 (dt=8.26s)


training:  86%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 103259/120000 [56:50<08:44, 31.94it/s]

itr: 103250 lr: 5.699e-06 train loss: 0.000000 (dt=8.26s)


training:  86%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 103509/120000 [56:58<08:36, 31.94it/s]

itr: 103500 lr: 5.562e-06 train loss: 0.000000 (dt=8.26s)


training:  86%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 103759/120000 [57:07<08:28, 31.95it/s]

itr: 103750 lr: 5.427e-06 train loss: 0.000001 (dt=8.26s)


training:  87%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 104009/120000 [57:15<08:20, 31.95it/s]

itr: 104000 lr: 5.294e-06 train loss: 0.000001 (dt=8.26s)


training:  87%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 104259/120000 [57:23<08:12, 31.94it/s]

itr: 104250 lr: 5.162e-06 train loss: 0.000001 (dt=8.26s)


training:  87%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 104509/120000 [57:31<08:04, 31.95it/s]

itr: 104500 lr: 5.033e-06 train loss: 0.000023 (dt=8.26s)


training:  87%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 104759/120000 [57:40<07:57, 31.94it/s]

itr: 104750 lr: 4.906e-06 train loss: 0.000000 (dt=8.26s)


training:  88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 105009/120000 [57:48<07:49, 31.94it/s]

itr: 105000 lr: 4.780e-06 train loss: 0.000000 (dt=8.26s)


training:  88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 105259/120000 [57:56<07:41, 31.95it/s]

itr: 105250 lr: 4.657e-06 train loss: 0.000001 (dt=8.26s)


training:  88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 105509/120000 [58:04<07:33, 31.94it/s]

itr: 105500 lr: 4.536e-06 train loss: 0.000000 (dt=8.26s)


training:  88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 105759/120000 [58:13<07:25, 32.00it/s]

itr: 105750 lr: 4.416e-06 train loss: 0.000000 (dt=8.26s)


training:  88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 106009/120000 [58:21<07:18, 31.94it/s]

itr: 106000 lr: 4.299e-06 train loss: 0.000000 (dt=8.26s)


training:  89%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 106259/120000 [58:29<07:10, 31.94it/s]

itr: 106250 lr: 4.183e-06 train loss: 0.000000 (dt=8.26s)


training:  89%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ | 106509/120000 [58:37<07:02, 31.94it/s]

itr: 106500 lr: 4.070e-06 train loss: 0.000000 (dt=8.26s)


training:  89%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ | 106759/120000 [58:46<06:54, 31.94it/s]

itr: 106750 lr: 3.958e-06 train loss: 0.000000 (dt=8.26s)


training:  89%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ | 107009/120000 [58:54<06:46, 31.93it/s]

itr: 107000 lr: 3.849e-06 train loss: 0.000000 (dt=8.26s)


training:  89%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ | 107259/120000 [59:02<06:38, 31.96it/s]

itr: 107250 lr: 3.741e-06 train loss: 0.000000 (dt=8.26s)


training:  90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ | 107509/120000 [59:10<06:31, 31.95it/s]

itr: 107500 lr: 3.636e-06 train loss: 0.000000 (dt=8.26s)


training:  90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ | 107759/120000 [59:19<06:23, 31.94it/s]

itr: 107750 lr: 3.532e-06 train loss: 0.000000 (dt=8.26s)


training:  90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 108009/120000 [59:27<06:15, 31.95it/s]

itr: 108000 lr: 3.431e-06 train loss: 0.000001 (dt=8.26s)


training:  90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 108259/120000 [59:35<06:07, 31.93it/s]

itr: 108250 lr: 3.331e-06 train loss: 0.000001 (dt=8.26s)


training:  90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 108509/120000 [59:43<05:59, 31.94it/s]

itr: 108500 lr: 3.234e-06 train loss: 0.000000 (dt=8.26s)


training:  91%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 108759/120000 [59:52<05:51, 31.94it/s]

itr: 108750 lr: 3.139e-06 train loss: 0.000000 (dt=8.26s)


training:  91%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 109009/120000 [1:00:00<05:44, 31.95it/s]

itr: 109000 lr: 3.045e-06 train loss: 0.000000 (dt=8.26s)


training:  91%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 109259/120000 [1:00:08<05:36, 31.94it/s]

itr: 109250 lr: 2.954e-06 train loss: 0.000001 (dt=8.26s)


training:  91%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè| 109509/120000 [1:00:17<05:28, 31.93it/s]

itr: 109500 lr: 2.865e-06 train loss: 0.000000 (dt=8.26s)


training:  91%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè| 109759/120000 [1:00:25<05:20, 31.95it/s]

itr: 109750 lr: 2.777e-06 train loss: 0.000000 (dt=8.26s)


training:  92%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè| 110009/120000 [1:00:33<05:12, 31.94it/s]

itr: 110000 lr: 2.692e-06 train loss: 0.000000 (dt=8.26s)


training:  92%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè| 110259/120000 [1:00:41<05:04, 31.95it/s]

itr: 110250 lr: 2.609e-06 train loss: 0.000000 (dt=8.26s)


training:  92%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè| 110509/120000 [1:00:50<04:57, 31.94it/s]

itr: 110500 lr: 2.528e-06 train loss: 0.000001 (dt=8.26s)


training:  92%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè| 110759/120000 [1:00:58<04:49, 31.94it/s]

itr: 110750 lr: 2.449e-06 train loss: 0.000000 (dt=8.26s)


training:  93%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé| 111009/120000 [1:01:06<04:41, 31.94it/s]

itr: 111000 lr: 2.372e-06 train loss: 0.000000 (dt=8.26s)


training:  93%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé| 111259/120000 [1:01:14<04:33, 31.94it/s]

itr: 111250 lr: 2.297e-06 train loss: 0.000005 (dt=8.26s)


training:  93%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé| 111509/120000 [1:01:23<04:25, 31.95it/s]

itr: 111500 lr: 2.225e-06 train loss: 0.000000 (dt=8.26s)


training:  93%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé| 111759/120000 [1:01:31<04:17, 31.95it/s]

itr: 111750 lr: 2.154e-06 train loss: 0.000005 (dt=8.26s)


training:  93%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé| 112009/120000 [1:01:39<04:10, 31.95it/s]

itr: 112000 lr: 2.085e-06 train loss: 0.000046 (dt=8.26s)


training:  94%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé| 112259/120000 [1:01:47<04:02, 31.94it/s]

itr: 112250 lr: 2.019e-06 train loss: 0.000000 (dt=8.26s)


training:  94%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç| 112509/120000 [1:01:56<03:54, 31.94it/s]

itr: 112500 lr: 1.954e-06 train loss: 0.000001 (dt=8.26s)


training:  94%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç| 112759/120000 [1:02:04<03:46, 31.95it/s]

itr: 112750 lr: 1.892e-06 train loss: 0.000000 (dt=8.26s)


training:  94%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç| 113009/120000 [1:02:12<03:38, 31.93it/s]

itr: 113000 lr: 1.832e-06 train loss: 0.000001 (dt=8.26s)


training:  94%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç| 113259/120000 [1:02:20<03:31, 31.94it/s]

itr: 113250 lr: 1.773e-06 train loss: 0.000000 (dt=8.26s)


training:  95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç| 113509/120000 [1:02:29<03:23, 31.95it/s]

itr: 113500 lr: 1.717e-06 train loss: 0.000001 (dt=8.26s)


training:  95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç| 113759/120000 [1:02:37<03:15, 31.94it/s]

itr: 113750 lr: 1.663e-06 train loss: 0.000001 (dt=8.26s)


training:  95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 114009/120000 [1:02:45<03:07, 31.92it/s]

itr: 114000 lr: 1.611e-06 train loss: 0.000000 (dt=8.26s)


training:  95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 114259/120000 [1:02:53<02:59, 31.94it/s]

itr: 114250 lr: 1.562e-06 train loss: 0.000000 (dt=8.26s)


training:  95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 114509/120000 [1:03:02<02:51, 31.95it/s]

itr: 114500 lr: 1.514e-06 train loss: 0.000000 (dt=8.26s)


training:  96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 114759/120000 [1:03:10<02:44, 31.93it/s]

itr: 114750 lr: 1.468e-06 train loss: 0.000000 (dt=8.26s)


training:  96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 115009/120000 [1:03:18<02:36, 31.95it/s]

itr: 115000 lr: 1.425e-06 train loss: 0.000000 (dt=8.26s)


training:  96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 115259/120000 [1:03:26<02:28, 31.94it/s]

itr: 115250 lr: 1.384e-06 train loss: 0.000000 (dt=8.26s)


training:  96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã| 115509/120000 [1:03:35<02:20, 31.94it/s]

itr: 115500 lr: 1.344e-06 train loss: 0.000000 (dt=8.26s)


training:  96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã| 115759/120000 [1:03:43<02:12, 31.94it/s]

itr: 115750 lr: 1.307e-06 train loss: 0.000000 (dt=8.26s)


training:  97%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã| 116009/120000 [1:03:51<02:04, 31.94it/s]

itr: 116000 lr: 1.272e-06 train loss: 0.000000 (dt=8.26s)


training:  97%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã| 116259/120000 [1:03:59<01:57, 31.94it/s]

itr: 116250 lr: 1.239e-06 train loss: 0.000000 (dt=8.26s)


training:  97%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã| 116509/120000 [1:04:08<01:49, 31.94it/s]

itr: 116500 lr: 1.208e-06 train loss: 0.000000 (dt=8.26s)


training:  97%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã| 116759/120000 [1:04:16<01:41, 31.94it/s]

itr: 116750 lr: 1.180e-06 train loss: 0.000023 (dt=8.26s)


training:  98%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä| 117009/120000 [1:04:24<01:33, 31.94it/s]

itr: 117000 lr: 1.153e-06 train loss: 0.000000 (dt=8.26s)


training:  98%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä| 117259/120000 [1:04:33<01:25, 31.99it/s]

itr: 117250 lr: 1.129e-06 train loss: 0.000000 (dt=8.26s)


training:  98%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä| 117509/120000 [1:04:41<01:17, 31.95it/s]

itr: 117500 lr: 1.106e-06 train loss: 0.000000 (dt=8.26s)


training:  98%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä| 117759/120000 [1:04:49<01:10, 31.93it/s]

itr: 117750 lr: 1.086e-06 train loss: 0.000001 (dt=8.26s)


training:  98%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä| 118009/120000 [1:04:57<01:02, 31.94it/s]

itr: 118000 lr: 1.068e-06 train loss: 0.000000 (dt=8.26s)


training:  99%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä| 118259/120000 [1:05:06<00:54, 31.94it/s]

itr: 118250 lr: 1.052e-06 train loss: 0.000000 (dt=8.26s)


training:  99%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ| 118509/120000 [1:05:14<00:46, 31.94it/s]

itr: 118500 lr: 1.038e-06 train loss: 0.000000 (dt=8.26s)


training:  99%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ| 118759/120000 [1:05:22<00:38, 31.94it/s]

itr: 118750 lr: 1.027e-06 train loss: 0.000000 (dt=8.26s)


training:  99%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ| 119009/120000 [1:05:30<00:31, 31.94it/s]

itr: 119000 lr: 1.017e-06 train loss: 0.000000 (dt=8.26s)


training:  99%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ| 119259/120000 [1:05:39<00:23, 31.93it/s]

itr: 119250 lr: 1.010e-06 train loss: 0.000001 (dt=8.26s)


training: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ| 119509/120000 [1:05:47<00:15, 31.94it/s]

itr: 119500 lr: 1.004e-06 train loss: 0.000000 (dt=8.26s)


training: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ| 119759/120000 [1:05:55<00:07, 31.94it/s]

itr: 119750 lr: 1.001e-06 train loss: 0.000000 (dt=8.26s)


training: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 120000/120000 [1:06:03<00:00, 30.28it/s]


saved final model: ./saved_models_grid_bs8192_20260103_075004/Final_N256_L2_dup0_iters120000.pt


0,1
iter,‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÉ‚ñÉ‚ñÉ‚ñÉ‚ñÉ‚ñÑ‚ñÑ‚ñÑ‚ñÑ‚ñÑ‚ñÑ‚ñÖ‚ñÖ‚ñÖ‚ñÖ‚ñÖ‚ñÖ‚ñÖ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñá‚ñá‚ñá‚ñá‚ñá‚ñà‚ñà‚ñà‚ñà
ll/iter,‚ñÅ‚ñÇ‚ñÉ‚ñÉ‚ñÉ‚ñÑ‚ñÑ‚ñÑ‚ñÑ‚ñÖ‚ñÖ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà
ll/lr,‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñÜ‚ñÜ‚ñÖ‚ñÖ‚ñÖ‚ñÖ‚ñÑ‚ñÑ‚ñÉ‚ñÉ‚ñÉ‚ñÇ‚ñÇ‚ñÇ‚ñÅ‚ñÅ
ll/train_loss,‚ñà‚ñà‚ñÜ‚ñÜ‚ñÖ‚ñÑ‚ñÖ‚ñÑ‚ñÖ‚ñÑ‚ñÑ‚ñÉ‚ñÑ‚ñÑ‚ñÉ‚ñÉ‚ñÉ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÉ‚ñÉ‚ñÇ‚ñÇ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ
lr,‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñÜ‚ñÜ‚ñÖ‚ñÖ‚ñÖ‚ñÖ‚ñÑ‚ñÉ‚ñÉ‚ñÉ‚ñÉ‚ñÉ‚ñÉ‚ñÉ‚ñÉ‚ñÉ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ
plateau/delta_log10_loss_window,‚ñÑ‚ñÑ‚ñÖ‚ñÖ‚ñÖ‚ñÖ‚ñÉ‚ñÑ‚ñÑ‚ñÉ‚ñÖ‚ñÖ‚ñÖ‚ñÉ‚ñÇ‚ñÉ‚ñÑ‚ñÉ‚ñÖ‚ñÑ‚ñÉ‚ñÑ‚ñÑ‚ñÑ‚ñÑ‚ñÖ‚ñÅ‚ñÑ‚ñÑ‚ñÑ‚ñà‚ñá‚ñÜ‚ñÉ‚ñÉ‚ñÑ‚ñÇ‚ñÖ‚ñÑ‚ñÇ
plateau/hits,‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñà‚ñÅ
plateau/loglog_slope,‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÖ‚ñÖ‚ñÖ‚ñÖ‚ñÖ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÑ‚ñÑ‚ñÖ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÖ‚ñÜ‚ñÖ‚ñÖ‚ñÖ‚ñÖ‚ñá‚ñá‚ñá‚ñÜ‚ñÜ‚ñÇ‚ñÅ‚ñÉ‚ñÑ‚ñÖ‚ñá‚ñà‚ñà
plateau/now,‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ
plateau/reached,‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ

0,1
iter,120000
iters_done,120000
ll/iter,5.07918
ll/lr,-6.0
ll/train_loss,-6.48492
lr,0.0
plateau/delta_log10_loss_window,-0.01431
plateau/hits,0
plateau/loglog_slope,-8.47694
plateau/now,0


using device: cuda


training:   0%|          | 11/120000 [00:00<19:38, 101.81it/s]

itr: 0 lr: 4.975e-07 train loss: 5.566305 (dt=0.03s)


training:   0%|          | 263/120000 [00:05<37:07, 53.75it/s]

itr: 250 lr: 1.000e-04 train loss: 4.717156 (dt=5.04s)


training:   0%|          | 513/120000 [00:10<36:55, 53.94it/s]

itr: 500 lr: 1.000e-04 train loss: 3.702133 (dt=5.02s)


training:   1%|          | 763/120000 [00:15<36:51, 53.91it/s]

itr: 750 lr: 9.999e-05 train loss: 2.848139 (dt=5.02s)


training:   1%|          | 1013/120000 [00:20<36:45, 53.95it/s]

itr: 1000 lr: 9.999e-05 train loss: 2.046545 (dt=5.02s)


training:   1%|          | 1263/120000 [00:25<36:42, 53.90it/s]

itr: 1250 lr: 9.998e-05 train loss: 1.327839 (dt=5.02s)


training:   1%|‚ñè         | 1513/120000 [00:30<36:38, 53.90it/s]

itr: 1500 lr: 9.997e-05 train loss: 0.790070 (dt=5.02s)


training:   1%|‚ñè         | 1763/120000 [00:35<36:35, 53.86it/s]

itr: 1750 lr: 9.996e-05 train loss: 0.465071 (dt=5.02s)


training:   2%|‚ñè         | 2013/120000 [00:40<36:28, 53.91it/s]

itr: 2000 lr: 9.994e-05 train loss: 0.279605 (dt=5.02s)


training:   2%|‚ñè         | 2263/120000 [00:45<36:24, 53.90it/s]

itr: 2250 lr: 9.993e-05 train loss: 0.180118 (dt=5.02s)


training:   2%|‚ñè         | 2513/120000 [00:50<36:20, 53.87it/s]

itr: 2500 lr: 9.991e-05 train loss: 0.123123 (dt=5.02s)


training:   2%|‚ñè         | 2763/120000 [00:55<36:15, 53.90it/s]

itr: 2750 lr: 9.989e-05 train loss: 0.088309 (dt=5.02s)


training:   3%|‚ñé         | 3013/120000 [01:00<36:09, 53.92it/s]

itr: 3000 lr: 9.987e-05 train loss: 0.065053 (dt=5.02s)


training:   3%|‚ñé         | 3263/120000 [01:05<36:04, 53.92it/s]

itr: 3250 lr: 9.984e-05 train loss: 0.051311 (dt=5.02s)


training:   3%|‚ñé         | 3513/120000 [01:10<35:58, 53.96it/s]

itr: 3500 lr: 9.981e-05 train loss: 0.040331 (dt=5.02s)


training:   3%|‚ñé         | 3763/120000 [01:15<35:55, 53.93it/s]

itr: 3750 lr: 9.979e-05 train loss: 0.032773 (dt=5.02s)


training:   3%|‚ñé         | 4013/120000 [01:20<35:51, 53.92it/s]

itr: 4000 lr: 9.975e-05 train loss: 0.027406 (dt=5.02s)


training:   4%|‚ñé         | 4263/120000 [01:25<35:47, 53.89it/s]

itr: 4250 lr: 9.972e-05 train loss: 0.022837 (dt=5.02s)


training:   4%|‚ñç         | 4513/120000 [01:30<35:40, 53.95it/s]

itr: 4500 lr: 9.969e-05 train loss: 0.019793 (dt=5.02s)


training:   4%|‚ñç         | 4763/120000 [01:35<35:35, 53.96it/s]

itr: 4750 lr: 9.965e-05 train loss: 0.017424 (dt=5.02s)


training:   4%|‚ñç         | 5013/120000 [01:40<35:33, 53.90it/s]

itr: 5000 lr: 9.961e-05 train loss: 0.015409 (dt=5.02s)


training:   4%|‚ñç         | 5263/120000 [01:45<35:28, 53.91it/s]

itr: 5250 lr: 9.957e-05 train loss: 0.013446 (dt=5.02s)


training:   5%|‚ñç         | 5513/120000 [01:50<35:24, 53.90it/s]

itr: 5500 lr: 9.952e-05 train loss: 0.011864 (dt=5.02s)


training:   5%|‚ñç         | 5763/120000 [01:55<35:19, 53.89it/s]

itr: 5750 lr: 9.948e-05 train loss: 0.011346 (dt=5.02s)


training:   5%|‚ñå         | 6013/120000 [02:00<35:13, 53.93it/s]

itr: 6000 lr: 9.943e-05 train loss: 0.009830 (dt=5.02s)


training:   5%|‚ñå         | 6263/120000 [02:05<35:11, 53.86it/s]

itr: 6250 lr: 9.938e-05 train loss: 0.009193 (dt=5.02s)


training:   5%|‚ñå         | 6513/120000 [02:10<35:06, 53.86it/s]

itr: 6500 lr: 9.933e-05 train loss: 0.007870 (dt=5.02s)


training:   6%|‚ñå         | 6763/120000 [02:15<35:00, 53.90it/s]

itr: 6750 lr: 9.927e-05 train loss: 0.007289 (dt=5.02s)


training:   6%|‚ñå         | 7013/120000 [02:20<34:58, 53.85it/s]

itr: 7000 lr: 9.922e-05 train loss: 0.006516 (dt=5.02s)


training:   6%|‚ñå         | 7263/120000 [02:25<34:52, 53.88it/s]

itr: 7250 lr: 9.916e-05 train loss: 0.006096 (dt=5.02s)


training:   6%|‚ñã         | 7513/120000 [02:30<34:47, 53.89it/s]

itr: 7500 lr: 9.910e-05 train loss: 0.005744 (dt=5.02s)


training:   6%|‚ñã         | 7763/120000 [02:35<34:44, 53.85it/s]

itr: 7750 lr: 9.903e-05 train loss: 0.005355 (dt=5.02s)


training:   7%|‚ñã         | 8013/120000 [02:40<34:39, 53.85it/s]

itr: 8000 lr: 9.897e-05 train loss: 0.004841 (dt=5.02s)


training:   7%|‚ñã         | 8263/120000 [02:45<34:31, 53.93it/s]

itr: 8250 lr: 9.890e-05 train loss: 0.004719 (dt=5.02s)


training:   7%|‚ñã         | 8513/120000 [02:50<34:29, 53.88it/s]

itr: 8500 lr: 9.883e-05 train loss: 0.004427 (dt=5.02s)


training:   7%|‚ñã         | 8763/120000 [02:55<34:25, 53.87it/s]

itr: 8750 lr: 9.876e-05 train loss: 0.003888 (dt=5.02s)


training:   8%|‚ñä         | 9013/120000 [03:00<34:20, 53.87it/s]

itr: 9000 lr: 9.869e-05 train loss: 0.003554 (dt=5.02s)


training:   8%|‚ñä         | 9263/120000 [03:06<34:14, 53.91it/s]

itr: 9250 lr: 9.861e-05 train loss: 0.003131 (dt=5.02s)


training:   8%|‚ñä         | 9513/120000 [03:11<34:10, 53.89it/s]

itr: 9500 lr: 9.854e-05 train loss: 0.003076 (dt=5.02s)


training:   8%|‚ñä         | 9763/120000 [03:16<34:06, 53.86it/s]

itr: 9750 lr: 9.846e-05 train loss: 0.003017 (dt=5.02s)


training:   8%|‚ñä         | 10013/120000 [03:21<34:00, 53.90it/s]

itr: 10000 lr: 9.837e-05 train loss: 0.003130 (dt=5.02s)


training:   9%|‚ñä         | 10263/120000 [03:26<33:56, 53.89it/s]

itr: 10250 lr: 9.829e-05 train loss: 0.002716 (dt=5.02s)


training:   9%|‚ñâ         | 10513/120000 [03:31<33:51, 53.89it/s]

itr: 10500 lr: 9.821e-05 train loss: 0.002645 (dt=5.02s)


training:   9%|‚ñâ         | 10763/120000 [03:36<33:45, 53.93it/s]

itr: 10750 lr: 9.812e-05 train loss: 0.002402 (dt=5.02s)


training:   9%|‚ñâ         | 11013/120000 [03:41<33:45, 53.81it/s]

itr: 11000 lr: 9.803e-05 train loss: 0.002321 (dt=5.02s)


training:   9%|‚ñâ         | 11263/120000 [03:46<33:37, 53.88it/s]

itr: 11250 lr: 9.794e-05 train loss: 0.002019 (dt=5.02s)


training:  10%|‚ñâ         | 11513/120000 [03:51<33:32, 53.91it/s]

itr: 11500 lr: 9.784e-05 train loss: 0.001980 (dt=5.02s)


training:  10%|‚ñâ         | 11763/120000 [03:56<33:28, 53.89it/s]

itr: 11750 lr: 9.775e-05 train loss: 0.001847 (dt=5.02s)


training:  10%|‚ñà         | 12013/120000 [04:01<33:22, 53.92it/s]

itr: 12000 lr: 9.765e-05 train loss: 0.001898 (dt=5.02s)


training:  10%|‚ñà         | 12263/120000 [04:06<33:20, 53.85it/s]

itr: 12250 lr: 9.755e-05 train loss: 0.001918 (dt=5.02s)


training:  10%|‚ñà         | 12513/120000 [04:11<33:15, 53.87it/s]

itr: 12500 lr: 9.745e-05 train loss: 0.001784 (dt=5.02s)


training:  11%|‚ñà         | 12764/120000 [04:16<34:16, 52.15it/s]

itr: 12750 lr: 9.734e-05 train loss: 0.001799 (dt=5.02s)


training:  11%|‚ñà         | 13013/120000 [04:21<33:28, 53.26it/s]

itr: 13000 lr: 9.724e-05 train loss: 0.001723 (dt=5.02s)


training:  11%|‚ñà         | 13264/120000 [04:26<33:45, 52.69it/s]

itr: 13250 lr: 9.713e-05 train loss: 0.001582 (dt=5.02s)


training:  11%|‚ñà‚ñè        | 13514/120000 [04:31<33:42, 52.65it/s]

itr: 13500 lr: 9.702e-05 train loss: 0.001476 (dt=5.02s)


training:  11%|‚ñà‚ñè        | 13764/120000 [04:36<33:37, 52.65it/s]

itr: 13750 lr: 9.691e-05 train loss: 0.001289 (dt=5.02s)


training:  12%|‚ñà‚ñè        | 14014/120000 [04:41<33:34, 52.61it/s]

itr: 14000 lr: 9.679e-05 train loss: 0.001753 (dt=5.02s)


training:  12%|‚ñà‚ñè        | 14264/120000 [04:46<33:47, 52.16it/s]

itr: 14250 lr: 9.668e-05 train loss: 0.001254 (dt=5.02s)


training:  12%|‚ñà‚ñè        | 14513/120000 [04:51<33:00, 53.25it/s]

itr: 14500 lr: 9.656e-05 train loss: 0.001324 (dt=5.02s)


training:  12%|‚ñà‚ñè        | 14764/120000 [04:56<33:19, 52.64it/s]

itr: 14750 lr: 9.644e-05 train loss: 0.001414 (dt=5.02s)


training:  13%|‚ñà‚ñé        | 15014/120000 [05:01<33:15, 52.62it/s]

itr: 15000 lr: 9.632e-05 train loss: 0.001388 (dt=5.02s)


training:  13%|‚ñà‚ñé        | 15264/120000 [05:06<33:09, 52.64it/s]

itr: 15250 lr: 9.619e-05 train loss: 0.001108 (dt=5.02s)


training:  13%|‚ñà‚ñé        | 15514/120000 [05:11<33:04, 52.66it/s]

itr: 15500 lr: 9.607e-05 train loss: 0.000957 (dt=5.02s)


training:  13%|‚ñà‚ñé        | 15764/120000 [05:16<32:57, 52.71it/s]

itr: 15750 lr: 9.594e-05 train loss: 0.000873 (dt=5.02s)


training:  13%|‚ñà‚ñé        | 16014/120000 [05:21<32:56, 52.60it/s]

itr: 16000 lr: 9.581e-05 train loss: 0.000959 (dt=5.02s)


training:  14%|‚ñà‚ñé        | 16264/120000 [05:26<32:50, 52.65it/s]

itr: 16250 lr: 9.568e-05 train loss: 0.000867 (dt=5.02s)


training:  14%|‚ñà‚ñç        | 16514/120000 [05:31<32:46, 52.63it/s]

itr: 16500 lr: 9.555e-05 train loss: 0.000939 (dt=5.02s)


training:  14%|‚ñà‚ñç        | 16764/120000 [05:36<32:41, 52.64it/s]

itr: 16750 lr: 9.541e-05 train loss: 0.001191 (dt=5.02s)


training:  14%|‚ñà‚ñç        | 17014/120000 [05:41<32:36, 52.63it/s]

itr: 17000 lr: 9.527e-05 train loss: 0.000937 (dt=5.02s)


training:  14%|‚ñà‚ñç        | 17264/120000 [05:46<32:32, 52.63it/s]

itr: 17250 lr: 9.513e-05 train loss: 0.000901 (dt=5.02s)


training:  15%|‚ñà‚ñç        | 17514/120000 [05:51<32:27, 52.63it/s]

itr: 17500 lr: 9.499e-05 train loss: 0.001113 (dt=5.02s)


training:  15%|‚ñà‚ñç        | 17764/120000 [05:56<32:19, 52.70it/s]

itr: 17750 lr: 9.485e-05 train loss: 0.000828 (dt=5.02s)


training:  15%|‚ñà‚ñå        | 18014/120000 [06:01<32:16, 52.66it/s]

itr: 18000 lr: 9.470e-05 train loss: 0.000989 (dt=5.02s)


training:  15%|‚ñà‚ñå        | 18264/120000 [06:06<32:12, 52.64it/s]

itr: 18250 lr: 9.456e-05 train loss: 0.000854 (dt=5.02s)


training:  15%|‚ñà‚ñå        | 18514/120000 [06:11<32:06, 52.69it/s]

itr: 18500 lr: 9.441e-05 train loss: 0.000694 (dt=5.02s)


training:  16%|‚ñà‚ñå        | 18764/120000 [06:16<32:04, 52.61it/s]

itr: 18750 lr: 9.426e-05 train loss: 0.000823 (dt=5.02s)


training:  16%|‚ñà‚ñå        | 19014/120000 [06:21<31:58, 52.64it/s]

itr: 19000 lr: 9.411e-05 train loss: 0.000736 (dt=5.02s)


training:  16%|‚ñà‚ñå        | 19264/120000 [06:26<31:53, 52.65it/s]

itr: 19250 lr: 9.395e-05 train loss: 0.000878 (dt=5.02s)


training:  16%|‚ñà‚ñã        | 19514/120000 [06:31<31:49, 52.63it/s]

itr: 19500 lr: 9.379e-05 train loss: 0.000614 (dt=5.02s)


training:  16%|‚ñà‚ñã        | 19764/120000 [06:37<32:01, 52.15it/s]

itr: 19750 lr: 9.364e-05 train loss: 0.000907 (dt=5.02s)


training:  17%|‚ñà‚ñã        | 20013/120000 [06:42<31:40, 52.62it/s]

itr: 20000 lr: 9.348e-05 train loss: 0.000654 (dt=5.02s)
saved checkpoint: ./saved_models_grid_bs8192_20260103_075004/Checkpoint_N256_L1_dup0_iters20001.pt


training:  17%|‚ñà‚ñã        | 20264/120000 [06:47<31:34, 52.65it/s]

itr: 20250 lr: 9.331e-05 train loss: 0.000502 (dt=5.03s)


training:  17%|‚ñà‚ñã        | 20514/120000 [06:52<31:30, 52.63it/s]

itr: 20500 lr: 9.315e-05 train loss: 0.000602 (dt=5.02s)


training:  17%|‚ñà‚ñã        | 20764/120000 [06:57<31:25, 52.64it/s]

itr: 20750 lr: 9.298e-05 train loss: 0.000720 (dt=5.02s)


training:  18%|‚ñà‚ñä        | 21014/120000 [07:02<31:20, 52.64it/s]

itr: 21000 lr: 9.282e-05 train loss: 0.000450 (dt=5.02s)


training:  18%|‚ñà‚ñä        | 21264/120000 [07:07<31:15, 52.63it/s]

itr: 21250 lr: 9.265e-05 train loss: 0.000591 (dt=5.02s)


training:  18%|‚ñà‚ñä        | 21514/120000 [07:12<31:11, 52.63it/s]

itr: 21500 lr: 9.248e-05 train loss: 0.000561 (dt=5.02s)


training:  18%|‚ñà‚ñä        | 21764/120000 [07:17<31:06, 52.63it/s]

itr: 21750 lr: 9.230e-05 train loss: 0.000614 (dt=5.02s)


training:  18%|‚ñà‚ñä        | 22014/120000 [07:22<30:58, 52.71it/s]

itr: 22000 lr: 9.213e-05 train loss: 0.000599 (dt=5.02s)


training:  19%|‚ñà‚ñä        | 22264/120000 [07:27<30:56, 52.65it/s]

itr: 22250 lr: 9.195e-05 train loss: 0.000600 (dt=5.02s)


training:  19%|‚ñà‚ñâ        | 22514/120000 [07:32<30:52, 52.63it/s]

itr: 22500 lr: 9.177e-05 train loss: 0.000512 (dt=5.02s)


training:  19%|‚ñà‚ñâ        | 22764/120000 [07:37<30:46, 52.66it/s]

itr: 22750 lr: 9.159e-05 train loss: 0.000487 (dt=5.02s)


training:  19%|‚ñà‚ñâ        | 23014/120000 [07:42<30:42, 52.63it/s]

itr: 23000 lr: 9.141e-05 train loss: 0.000708 (dt=5.02s)


training:  19%|‚ñà‚ñâ        | 23264/120000 [07:47<30:38, 52.62it/s]

itr: 23250 lr: 9.123e-05 train loss: 0.000441 (dt=5.02s)


training:  20%|‚ñà‚ñâ        | 23514/120000 [07:52<30:31, 52.67it/s]

itr: 23500 lr: 9.104e-05 train loss: 0.000619 (dt=5.02s)


training:  20%|‚ñà‚ñâ        | 23764/120000 [07:57<30:28, 52.62it/s]

itr: 23750 lr: 9.086e-05 train loss: 0.000510 (dt=5.02s)


training:  20%|‚ñà‚ñà        | 24014/120000 [08:02<30:22, 52.66it/s]

itr: 24000 lr: 9.067e-05 train loss: 0.000540 (dt=5.02s)


training:  20%|‚ñà‚ñà        | 24264/120000 [08:07<30:15, 52.72it/s]

itr: 24250 lr: 9.048e-05 train loss: 0.000515 (dt=5.02s)


training:  20%|‚ñà‚ñà        | 24514/120000 [08:12<30:11, 52.72it/s]

itr: 24500 lr: 9.029e-05 train loss: 0.000448 (dt=5.02s)


training:  21%|‚ñà‚ñà        | 24764/120000 [08:17<30:07, 52.69it/s]

itr: 24750 lr: 9.009e-05 train loss: 0.000566 (dt=5.02s)


training:  21%|‚ñà‚ñà        | 25014/120000 [08:22<30:04, 52.64it/s]

itr: 25000 lr: 8.990e-05 train loss: 0.000738 (dt=5.02s)


training:  21%|‚ñà‚ñà        | 25264/120000 [08:27<29:59, 52.63it/s]

itr: 25250 lr: 8.970e-05 train loss: 0.000573 (dt=5.02s)


training:  21%|‚ñà‚ñà‚ñè       | 25514/120000 [08:32<29:55, 52.63it/s]

itr: 25500 lr: 8.950e-05 train loss: 0.000389 (dt=5.02s)


training:  21%|‚ñà‚ñà‚ñè       | 25764/120000 [08:37<29:49, 52.65it/s]

itr: 25750 lr: 8.930e-05 train loss: 0.000502 (dt=5.02s)


training:  22%|‚ñà‚ñà‚ñè       | 26014/120000 [08:42<29:45, 52.63it/s]

itr: 26000 lr: 8.910e-05 train loss: 0.000333 (dt=5.02s)


training:  22%|‚ñà‚ñà‚ñè       | 26264/120000 [08:47<29:41, 52.63it/s]

itr: 26250 lr: 8.889e-05 train loss: 0.000472 (dt=5.02s)


training:  22%|‚ñà‚ñà‚ñè       | 26514/120000 [08:52<29:36, 52.63it/s]

itr: 26500 lr: 8.869e-05 train loss: 0.000407 (dt=5.02s)


training:  22%|‚ñà‚ñà‚ñè       | 26764/120000 [08:57<29:30, 52.66it/s]

itr: 26750 lr: 8.848e-05 train loss: 0.000479 (dt=5.02s)


training:  23%|‚ñà‚ñà‚ñé       | 27014/120000 [09:02<29:26, 52.63it/s]

itr: 27000 lr: 8.827e-05 train loss: 0.000382 (dt=5.02s)


training:  23%|‚ñà‚ñà‚ñé       | 27264/120000 [09:07<29:21, 52.63it/s]

itr: 27250 lr: 8.806e-05 train loss: 0.000457 (dt=5.02s)


training:  23%|‚ñà‚ñà‚ñé       | 27514/120000 [09:12<29:16, 52.64it/s]

itr: 27500 lr: 8.785e-05 train loss: 0.000376 (dt=5.02s)


training:  23%|‚ñà‚ñà‚ñé       | 27764/120000 [09:17<29:12, 52.64it/s]

itr: 27750 lr: 8.763e-05 train loss: 0.000315 (dt=5.02s)


training:  23%|‚ñà‚ñà‚ñé       | 28014/120000 [09:22<29:08, 52.62it/s]

itr: 28000 lr: 8.742e-05 train loss: 0.000333 (dt=5.02s)


training:  24%|‚ñà‚ñà‚ñé       | 28264/120000 [09:27<29:02, 52.66it/s]

itr: 28250 lr: 8.720e-05 train loss: 0.000363 (dt=5.02s)


training:  24%|‚ñà‚ñà‚ñç       | 28514/120000 [09:32<28:58, 52.62it/s]

itr: 28500 lr: 8.698e-05 train loss: 0.000486 (dt=5.02s)


training:  24%|‚ñà‚ñà‚ñç       | 28764/120000 [09:37<28:53, 52.62it/s]

itr: 28750 lr: 8.676e-05 train loss: 0.000355 (dt=5.02s)


training:  24%|‚ñà‚ñà‚ñç       | 29014/120000 [09:42<28:48, 52.63it/s]

itr: 29000 lr: 8.654e-05 train loss: 0.000366 (dt=5.02s)


training:  24%|‚ñà‚ñà‚ñç       | 29264/120000 [09:47<28:43, 52.63it/s]

itr: 29250 lr: 8.632e-05 train loss: 0.000469 (dt=5.02s)


training:  25%|‚ñà‚ñà‚ñç       | 29514/120000 [09:52<28:39, 52.61it/s]

itr: 29500 lr: 8.609e-05 train loss: 0.000359 (dt=5.02s)


training:  25%|‚ñà‚ñà‚ñç       | 29764/120000 [09:57<28:33, 52.65it/s]

itr: 29750 lr: 8.587e-05 train loss: 0.000361 (dt=5.02s)


training:  25%|‚ñà‚ñà‚ñå       | 30014/120000 [10:02<28:30, 52.62it/s]

itr: 30000 lr: 8.564e-05 train loss: 0.000523 (dt=5.02s)


training:  25%|‚ñà‚ñà‚ñå       | 30264/120000 [10:07<28:25, 52.63it/s]

itr: 30250 lr: 8.541e-05 train loss: 0.000349 (dt=5.02s)


training:  25%|‚ñà‚ñà‚ñå       | 30514/120000 [10:12<28:20, 52.63it/s]

itr: 30500 lr: 8.518e-05 train loss: 0.000327 (dt=5.02s)


training:  26%|‚ñà‚ñà‚ñå       | 30764/120000 [10:18<28:15, 52.64it/s]

itr: 30750 lr: 8.495e-05 train loss: 0.000314 (dt=5.02s)


training:  26%|‚ñà‚ñà‚ñå       | 31014/120000 [10:23<28:10, 52.65it/s]

itr: 31000 lr: 8.471e-05 train loss: 0.000385 (dt=5.02s)


training:  26%|‚ñà‚ñà‚ñå       | 31264/120000 [10:28<28:06, 52.63it/s]

itr: 31250 lr: 8.448e-05 train loss: 0.000348 (dt=5.02s)


training:  26%|‚ñà‚ñà‚ñã       | 31514/120000 [10:33<28:01, 52.64it/s]

itr: 31500 lr: 8.424e-05 train loss: 0.000388 (dt=5.02s)


training:  26%|‚ñà‚ñà‚ñã       | 31764/120000 [10:38<27:54, 52.70it/s]

itr: 31750 lr: 8.400e-05 train loss: 0.000285 (dt=5.02s)


training:  27%|‚ñà‚ñà‚ñã       | 32014/120000 [10:43<27:51, 52.63it/s]

itr: 32000 lr: 8.376e-05 train loss: 0.000343 (dt=5.02s)


training:  27%|‚ñà‚ñà‚ñã       | 32264/120000 [10:48<27:47, 52.62it/s]

itr: 32250 lr: 8.352e-05 train loss: 0.000388 (dt=5.02s)


training:  27%|‚ñà‚ñà‚ñã       | 32514/120000 [10:53<27:41, 52.64it/s]

itr: 32500 lr: 8.328e-05 train loss: 0.000354 (dt=5.02s)


training:  27%|‚ñà‚ñà‚ñã       | 32764/120000 [10:58<27:34, 52.73it/s]

itr: 32750 lr: 8.304e-05 train loss: 0.000224 (dt=5.02s)


training:  28%|‚ñà‚ñà‚ñä       | 33014/120000 [11:03<27:33, 52.62it/s]

itr: 33000 lr: 8.279e-05 train loss: 0.000332 (dt=5.02s)


training:  28%|‚ñà‚ñà‚ñä       | 33264/120000 [11:08<27:28, 52.62it/s]

itr: 33250 lr: 8.254e-05 train loss: 0.000197 (dt=5.02s)


training:  28%|‚ñà‚ñà‚ñä       | 33514/120000 [11:13<27:23, 52.63it/s]

itr: 33500 lr: 8.230e-05 train loss: 0.000407 (dt=5.02s)


training:  28%|‚ñà‚ñà‚ñä       | 33764/120000 [11:18<27:18, 52.62it/s]

itr: 33750 lr: 8.205e-05 train loss: 0.000350 (dt=5.02s)


training:  28%|‚ñà‚ñà‚ñä       | 34014/120000 [11:23<27:13, 52.64it/s]

itr: 34000 lr: 8.180e-05 train loss: 0.000350 (dt=5.02s)


training:  29%|‚ñà‚ñà‚ñä       | 34264/120000 [11:28<27:08, 52.65it/s]

itr: 34250 lr: 8.154e-05 train loss: 0.000333 (dt=5.02s)


training:  29%|‚ñà‚ñà‚ñâ       | 34514/120000 [11:33<27:04, 52.63it/s]

itr: 34500 lr: 8.129e-05 train loss: 0.000275 (dt=5.02s)


training:  29%|‚ñà‚ñà‚ñâ       | 34764/120000 [11:38<26:58, 52.66it/s]

itr: 34750 lr: 8.104e-05 train loss: 0.000240 (dt=5.02s)


training:  29%|‚ñà‚ñà‚ñâ       | 35014/120000 [11:43<26:55, 52.59it/s]

itr: 35000 lr: 8.078e-05 train loss: 0.000345 (dt=5.02s)


training:  29%|‚ñà‚ñà‚ñâ       | 35263/120000 [11:48<26:12, 53.87it/s]

itr: 35250 lr: 8.052e-05 train loss: 0.000242 (dt=5.02s)


training:  30%|‚ñà‚ñà‚ñâ       | 35513/120000 [11:53<26:08, 53.88it/s]

itr: 35500 lr: 8.026e-05 train loss: 0.000217 (dt=5.02s)


training:  30%|‚ñà‚ñà‚ñâ       | 35763/120000 [11:58<26:02, 53.91it/s]

itr: 35750 lr: 8.000e-05 train loss: 0.000267 (dt=5.02s)


training:  30%|‚ñà‚ñà‚ñà       | 36013/120000 [12:03<25:59, 53.85it/s]

itr: 36000 lr: 7.974e-05 train loss: 0.000263 (dt=5.02s)


training:  30%|‚ñà‚ñà‚ñà       | 36263/120000 [12:08<25:55, 53.84it/s]

itr: 36250 lr: 7.948e-05 train loss: 0.000272 (dt=5.02s)


training:  30%|‚ñà‚ñà‚ñà       | 36513/120000 [12:13<25:50, 53.85it/s]

itr: 36500 lr: 7.922e-05 train loss: 0.000297 (dt=5.02s)


training:  31%|‚ñà‚ñà‚ñà       | 36763/120000 [12:18<25:44, 53.88it/s]

itr: 36750 lr: 7.895e-05 train loss: 0.000344 (dt=5.02s)


training:  31%|‚ñà‚ñà‚ñà       | 37013/120000 [12:23<25:40, 53.88it/s]

itr: 37000 lr: 7.868e-05 train loss: 0.000412 (dt=5.02s)


training:  31%|‚ñà‚ñà‚ñà       | 37263/120000 [12:28<25:35, 53.89it/s]

itr: 37250 lr: 7.842e-05 train loss: 0.000191 (dt=5.02s)


training:  31%|‚ñà‚ñà‚ñà‚ñè      | 37513/120000 [12:33<25:31, 53.85it/s]

itr: 37500 lr: 7.815e-05 train loss: 0.000191 (dt=5.02s)


training:  31%|‚ñà‚ñà‚ñà‚ñè      | 37763/120000 [12:38<25:27, 53.85it/s]

itr: 37750 lr: 7.788e-05 train loss: 0.000218 (dt=5.02s)


training:  32%|‚ñà‚ñà‚ñà‚ñè      | 38013/120000 [12:43<25:21, 53.87it/s]

itr: 38000 lr: 7.761e-05 train loss: 0.000299 (dt=5.02s)


training:  32%|‚ñà‚ñà‚ñà‚ñè      | 38263/120000 [12:48<25:16, 53.91it/s]

itr: 38250 lr: 7.734e-05 train loss: 0.000273 (dt=5.02s)


training:  32%|‚ñà‚ñà‚ñà‚ñè      | 38513/120000 [12:53<25:12, 53.86it/s]

itr: 38500 lr: 7.706e-05 train loss: 0.000163 (dt=5.02s)


training:  32%|‚ñà‚ñà‚ñà‚ñè      | 38763/120000 [12:58<25:08, 53.86it/s]

itr: 38750 lr: 7.679e-05 train loss: 0.000255 (dt=5.02s)


training:  33%|‚ñà‚ñà‚ñà‚ñé      | 39013/120000 [13:03<25:02, 53.92it/s]

itr: 39000 lr: 7.651e-05 train loss: 0.000206 (dt=5.02s)


training:  33%|‚ñà‚ñà‚ñà‚ñé      | 39263/120000 [13:08<24:57, 53.90it/s]

itr: 39250 lr: 7.624e-05 train loss: 0.000207 (dt=5.02s)


training:  33%|‚ñà‚ñà‚ñà‚ñé      | 39513/120000 [13:13<24:53, 53.89it/s]

itr: 39500 lr: 7.596e-05 train loss: 0.000119 (dt=5.02s)


training:  33%|‚ñà‚ñà‚ñà‚ñé      | 39763/120000 [13:18<24:51, 53.81it/s]

itr: 39750 lr: 7.568e-05 train loss: 0.000172 (dt=5.02s)


training:  33%|‚ñà‚ñà‚ñà‚ñé      | 40013/120000 [13:23<25:02, 53.22it/s]

itr: 40000 lr: 7.540e-05 train loss: 0.000162 (dt=5.02s)
saved checkpoint: ./saved_models_grid_bs8192_20260103_075004/Checkpoint_N256_L1_dup0_iters40001.pt


training:  34%|‚ñà‚ñà‚ñà‚ñé      | 40263/120000 [13:28<24:40, 53.85it/s]

itr: 40250 lr: 7.512e-05 train loss: 0.000284 (dt=5.03s)


training:  34%|‚ñà‚ñà‚ñà‚ñç      | 40513/120000 [13:33<24:36, 53.83it/s]

itr: 40500 lr: 7.484e-05 train loss: 0.000204 (dt=5.02s)


training:  34%|‚ñà‚ñà‚ñà‚ñç      | 40764/120000 [13:38<25:18, 52.17it/s]

itr: 40750 lr: 7.455e-05 train loss: 0.000338 (dt=5.02s)


training:  34%|‚ñà‚ñà‚ñà‚ñç      | 41013/120000 [13:43<24:42, 53.26it/s]

itr: 41000 lr: 7.427e-05 train loss: 0.000120 (dt=5.02s)


training:  34%|‚ñà‚ñà‚ñà‚ñç      | 41264/120000 [13:48<24:56, 52.63it/s]

itr: 41250 lr: 7.398e-05 train loss: 0.000178 (dt=5.02s)


training:  35%|‚ñà‚ñà‚ñà‚ñç      | 41514/120000 [13:54<24:49, 52.68it/s]

itr: 41500 lr: 7.370e-05 train loss: 0.000152 (dt=5.02s)


training:  35%|‚ñà‚ñà‚ñà‚ñç      | 41764/120000 [13:59<24:46, 52.62it/s]

itr: 41750 lr: 7.341e-05 train loss: 0.000189 (dt=5.02s)


training:  35%|‚ñà‚ñà‚ñà‚ñå      | 42014/120000 [14:04<24:41, 52.64it/s]

itr: 42000 lr: 7.312e-05 train loss: 0.000321 (dt=5.02s)


training:  35%|‚ñà‚ñà‚ñà‚ñå      | 42264/120000 [14:09<24:37, 52.63it/s]

itr: 42250 lr: 7.283e-05 train loss: 0.000236 (dt=5.02s)


training:  35%|‚ñà‚ñà‚ñà‚ñå      | 42513/120000 [14:14<24:14, 53.26it/s]

itr: 42500 lr: 7.254e-05 train loss: 0.000158 (dt=5.02s)


training:  36%|‚ñà‚ñà‚ñà‚ñå      | 42764/120000 [14:19<24:27, 52.63it/s]

itr: 42750 lr: 7.225e-05 train loss: 0.000247 (dt=5.02s)


training:  36%|‚ñà‚ñà‚ñà‚ñå      | 43014/120000 [14:24<24:22, 52.64it/s]

itr: 43000 lr: 7.196e-05 train loss: 0.000108 (dt=5.02s)


training:  36%|‚ñà‚ñà‚ñà‚ñå      | 43264/120000 [14:29<24:18, 52.62it/s]

itr: 43250 lr: 7.167e-05 train loss: 0.000174 (dt=5.02s)


training:  36%|‚ñà‚ñà‚ñà‚ñã      | 43514/120000 [14:34<24:13, 52.62it/s]

itr: 43500 lr: 7.137e-05 train loss: 0.000221 (dt=5.02s)


training:  36%|‚ñà‚ñà‚ñà‚ñã      | 43764/120000 [14:39<24:08, 52.63it/s]

itr: 43750 lr: 7.108e-05 train loss: 0.000209 (dt=5.02s)


training:  37%|‚ñà‚ñà‚ñà‚ñã      | 44014/120000 [14:44<24:03, 52.65it/s]

itr: 44000 lr: 7.078e-05 train loss: 0.000235 (dt=5.02s)


training:  37%|‚ñà‚ñà‚ñà‚ñã      | 44264/120000 [14:49<23:59, 52.63it/s]

itr: 44250 lr: 7.049e-05 train loss: 0.000165 (dt=5.02s)


training:  37%|‚ñà‚ñà‚ñà‚ñã      | 44514/120000 [14:54<23:54, 52.62it/s]

itr: 44500 lr: 7.019e-05 train loss: 0.000207 (dt=5.02s)


training:  37%|‚ñà‚ñà‚ñà‚ñã      | 44764/120000 [14:59<23:48, 52.66it/s]

itr: 44750 lr: 6.989e-05 train loss: 0.000211 (dt=5.02s)


training:  38%|‚ñà‚ñà‚ñà‚ñä      | 45014/120000 [15:04<23:44, 52.63it/s]

itr: 45000 lr: 6.959e-05 train loss: 0.000187 (dt=5.02s)


training:  38%|‚ñà‚ñà‚ñà‚ñä      | 45264/120000 [15:09<23:40, 52.61it/s]

itr: 45250 lr: 6.929e-05 train loss: 0.000216 (dt=5.02s)


training:  38%|‚ñà‚ñà‚ñà‚ñä      | 45514/120000 [15:14<23:35, 52.63it/s]

itr: 45500 lr: 6.899e-05 train loss: 0.000258 (dt=5.02s)


training:  38%|‚ñà‚ñà‚ñà‚ñä      | 45764/120000 [15:19<23:29, 52.66it/s]

itr: 45750 lr: 6.869e-05 train loss: 0.000183 (dt=5.02s)


training:  38%|‚ñà‚ñà‚ñà‚ñä      | 46014/120000 [15:24<23:26, 52.61it/s]

itr: 46000 lr: 6.839e-05 train loss: 0.000146 (dt=5.02s)


training:  39%|‚ñà‚ñà‚ñà‚ñä      | 46264/120000 [15:29<23:19, 52.68it/s]

itr: 46250 lr: 6.809e-05 train loss: 0.000178 (dt=5.02s)


training:  39%|‚ñà‚ñà‚ñà‚ñâ      | 46514/120000 [15:34<23:16, 52.60it/s]

itr: 46500 lr: 6.778e-05 train loss: 0.000189 (dt=5.02s)


training:  39%|‚ñà‚ñà‚ñà‚ñâ      | 46764/120000 [15:39<23:10, 52.69it/s]

itr: 46750 lr: 6.748e-05 train loss: 0.000181 (dt=5.02s)


training:  39%|‚ñà‚ñà‚ñà‚ñâ      | 47014/120000 [15:44<23:06, 52.63it/s]

itr: 47000 lr: 6.717e-05 train loss: 0.000166 (dt=5.02s)


training:  39%|‚ñà‚ñà‚ñà‚ñâ      | 47264/120000 [15:49<23:02, 52.63it/s]

itr: 47250 lr: 6.687e-05 train loss: 0.000144 (dt=5.02s)


training:  40%|‚ñà‚ñà‚ñà‚ñâ      | 47514/120000 [15:54<22:57, 52.62it/s]

itr: 47500 lr: 6.656e-05 train loss: 0.000156 (dt=5.02s)


training:  40%|‚ñà‚ñà‚ñà‚ñâ      | 47764/120000 [15:59<22:53, 52.58it/s]

itr: 47750 lr: 6.625e-05 train loss: 0.000124 (dt=5.02s)


training:  40%|‚ñà‚ñà‚ñà‚ñà      | 48014/120000 [16:04<22:47, 52.64it/s]

itr: 48000 lr: 6.594e-05 train loss: 0.000133 (dt=5.02s)


training:  40%|‚ñà‚ñà‚ñà‚ñà      | 48264/120000 [16:09<22:42, 52.65it/s]

itr: 48250 lr: 6.564e-05 train loss: 0.000120 (dt=5.02s)


training:  40%|‚ñà‚ñà‚ñà‚ñà      | 48514/120000 [16:14<22:38, 52.62it/s]

itr: 48500 lr: 6.533e-05 train loss: 0.000128 (dt=5.02s)


training:  41%|‚ñà‚ñà‚ñà‚ñà      | 48764/120000 [16:19<22:33, 52.64it/s]

itr: 48750 lr: 6.502e-05 train loss: 0.000170 (dt=5.02s)


training:  41%|‚ñà‚ñà‚ñà‚ñà      | 49014/120000 [16:24<22:28, 52.63it/s]

itr: 49000 lr: 6.471e-05 train loss: 0.000176 (dt=5.02s)


training:  41%|‚ñà‚ñà‚ñà‚ñà      | 49264/120000 [16:29<22:24, 52.61it/s]

itr: 49250 lr: 6.439e-05 train loss: 0.000139 (dt=5.02s)


training:  41%|‚ñà‚ñà‚ñà‚ñà‚ñè     | 49514/120000 [16:34<22:19, 52.61it/s]

itr: 49500 lr: 6.408e-05 train loss: 0.000167 (dt=5.02s)


training:  41%|‚ñà‚ñà‚ñà‚ñà‚ñè     | 49764/120000 [16:39<22:14, 52.64it/s]

itr: 49750 lr: 6.377e-05 train loss: 0.000119 (dt=5.02s)


training:  42%|‚ñà‚ñà‚ñà‚ñà‚ñè     | 50014/120000 [16:44<22:09, 52.64it/s]

itr: 50000 lr: 6.346e-05 train loss: 0.000109 (dt=5.02s)


training:  42%|‚ñà‚ñà‚ñà‚ñà‚ñè     | 50264/120000 [16:49<22:05, 52.63it/s]

itr: 50250 lr: 6.314e-05 train loss: 0.000135 (dt=5.02s)


training:  42%|‚ñà‚ñà‚ñà‚ñà‚ñè     | 50514/120000 [16:54<21:59, 52.64it/s]

itr: 50500 lr: 6.283e-05 train loss: 0.000203 (dt=5.02s)


training:  42%|‚ñà‚ñà‚ñà‚ñà‚ñè     | 50764/120000 [16:59<21:55, 52.64it/s]

itr: 50750 lr: 6.252e-05 train loss: 0.000218 (dt=5.02s)


training:  43%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 51014/120000 [17:04<21:51, 52.62it/s]

itr: 51000 lr: 6.220e-05 train loss: 0.000201 (dt=5.02s)


training:  43%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 51264/120000 [17:09<21:46, 52.63it/s]

itr: 51250 lr: 6.189e-05 train loss: 0.000162 (dt=5.02s)


training:  43%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 51514/120000 [17:14<21:40, 52.65it/s]

itr: 51500 lr: 6.157e-05 train loss: 0.000112 (dt=5.02s)


training:  43%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 51764/120000 [17:19<21:36, 52.64it/s]

itr: 51750 lr: 6.125e-05 train loss: 0.000119 (dt=5.02s)


training:  43%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 52014/120000 [17:24<21:31, 52.63it/s]

itr: 52000 lr: 6.094e-05 train loss: 0.000156 (dt=5.02s)


training:  44%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 52264/120000 [17:30<21:27, 52.63it/s]

itr: 52250 lr: 6.062e-05 train loss: 0.000257 (dt=5.02s)


training:  44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 52514/120000 [17:35<21:22, 52.64it/s]

itr: 52500 lr: 6.030e-05 train loss: 0.000230 (dt=5.02s)


training:  44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 52764/120000 [17:40<21:16, 52.66it/s]

itr: 52750 lr: 5.998e-05 train loss: 0.000128 (dt=5.02s)


training:  44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 53014/120000 [17:45<21:12, 52.65it/s]

itr: 53000 lr: 5.966e-05 train loss: 0.000185 (dt=5.02s)


training:  44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 53264/120000 [17:50<21:08, 52.63it/s]

itr: 53250 lr: 5.934e-05 train loss: 0.000099 (dt=5.02s)


training:  45%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 53514/120000 [17:55<21:02, 52.67it/s]

itr: 53500 lr: 5.902e-05 train loss: 0.000183 (dt=5.02s)


training:  45%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 53764/120000 [18:00<20:58, 52.65it/s]

itr: 53750 lr: 5.870e-05 train loss: 0.000115 (dt=5.02s)


training:  45%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 54014/120000 [18:05<20:51, 52.71it/s]

itr: 54000 lr: 5.838e-05 train loss: 0.000142 (dt=5.02s)


training:  45%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 54264/120000 [18:10<20:47, 52.68it/s]

itr: 54250 lr: 5.806e-05 train loss: 0.000225 (dt=5.02s)


training:  45%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 54514/120000 [18:15<20:43, 52.64it/s]

itr: 54500 lr: 5.774e-05 train loss: 0.000127 (dt=5.02s)


training:  46%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 54764/120000 [18:20<20:39, 52.63it/s]

itr: 54750 lr: 5.742e-05 train loss: 0.000093 (dt=5.02s)


training:  46%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 55014/120000 [18:25<20:34, 52.64it/s]

itr: 55000 lr: 5.710e-05 train loss: 0.000103 (dt=5.02s)


training:  46%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 55264/120000 [18:30<20:30, 52.63it/s]

itr: 55250 lr: 5.678e-05 train loss: 0.000124 (dt=5.02s)


training:  46%|‚ñà‚ñà‚ñà‚ñà‚ñã     | 55514/120000 [18:35<20:25, 52.64it/s]

itr: 55500 lr: 5.646e-05 train loss: 0.000177 (dt=5.02s)


training:  46%|‚ñà‚ñà‚ñà‚ñà‚ñã     | 55764/120000 [18:40<20:20, 52.63it/s]

itr: 55750 lr: 5.613e-05 train loss: 0.000130 (dt=5.02s)


training:  47%|‚ñà‚ñà‚ñà‚ñà‚ñã     | 56014/120000 [18:45<20:13, 52.72it/s]

itr: 56000 lr: 5.581e-05 train loss: 0.000170 (dt=5.02s)


training:  47%|‚ñà‚ñà‚ñà‚ñà‚ñã     | 56264/120000 [18:50<20:09, 52.71it/s]

itr: 56250 lr: 5.549e-05 train loss: 0.000149 (dt=5.02s)


training:  47%|‚ñà‚ñà‚ñà‚ñà‚ñã     | 56514/120000 [18:55<20:05, 52.65it/s]

itr: 56500 lr: 5.517e-05 train loss: 0.000147 (dt=5.02s)


training:  47%|‚ñà‚ñà‚ñà‚ñà‚ñã     | 56764/120000 [19:00<20:13, 52.13it/s]

itr: 56750 lr: 5.484e-05 train loss: 0.000087 (dt=5.02s)


training:  48%|‚ñà‚ñà‚ñà‚ñà‚ñä     | 57013/120000 [19:05<19:42, 53.25it/s]

itr: 57000 lr: 5.452e-05 train loss: 0.000259 (dt=5.02s)


training:  48%|‚ñà‚ñà‚ñà‚ñà‚ñä     | 57264/120000 [19:10<19:52, 52.62it/s]

itr: 57250 lr: 5.420e-05 train loss: 0.000136 (dt=5.02s)


training:  48%|‚ñà‚ñà‚ñà‚ñà‚ñä     | 57514/120000 [19:15<19:46, 52.65it/s]

itr: 57500 lr: 5.387e-05 train loss: 0.000172 (dt=5.02s)


training:  48%|‚ñà‚ñà‚ñà‚ñà‚ñä     | 57764/120000 [19:20<19:42, 52.63it/s]

itr: 57750 lr: 5.355e-05 train loss: 0.000121 (dt=5.02s)


training:  48%|‚ñà‚ñà‚ñà‚ñà‚ñä     | 58014/120000 [19:25<19:37, 52.66it/s]

itr: 58000 lr: 5.322e-05 train loss: 0.000259 (dt=5.02s)


training:  49%|‚ñà‚ñà‚ñà‚ñà‚ñä     | 58264/120000 [19:30<19:32, 52.64it/s]

itr: 58250 lr: 5.290e-05 train loss: 0.000165 (dt=5.02s)


training:  49%|‚ñà‚ñà‚ñà‚ñà‚ñâ     | 58514/120000 [19:35<19:28, 52.64it/s]

itr: 58500 lr: 5.258e-05 train loss: 0.000172 (dt=5.02s)


training:  49%|‚ñà‚ñà‚ñà‚ñà‚ñâ     | 58764/120000 [19:40<19:23, 52.63it/s]

itr: 58750 lr: 5.225e-05 train loss: 0.000142 (dt=5.02s)


training:  49%|‚ñà‚ñà‚ñà‚ñà‚ñâ     | 59014/120000 [19:45<19:18, 52.63it/s]

itr: 59000 lr: 5.193e-05 train loss: 0.000154 (dt=5.02s)


training:  49%|‚ñà‚ñà‚ñà‚ñà‚ñâ     | 59264/120000 [19:50<19:14, 52.61it/s]

itr: 59250 lr: 5.160e-05 train loss: 0.000086 (dt=5.02s)


training:  50%|‚ñà‚ñà‚ñà‚ñà‚ñâ     | 59514/120000 [19:55<19:09, 52.63it/s]

itr: 59500 lr: 5.128e-05 train loss: 0.000253 (dt=5.02s)


training:  50%|‚ñà‚ñà‚ñà‚ñà‚ñâ     | 59764/120000 [20:00<19:04, 52.62it/s]

itr: 59750 lr: 5.095e-05 train loss: 0.000118 (dt=5.02s)


training:  50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 60014/120000 [20:05<19:14, 51.98it/s]

itr: 60000 lr: 5.063e-05 train loss: 0.000172 (dt=5.02s)
saved checkpoint: ./saved_models_grid_bs8192_20260103_075004/Checkpoint_N256_L1_dup0_iters60001.pt


training:  50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 60264/120000 [20:10<18:54, 52.63it/s]

itr: 60250 lr: 5.031e-05 train loss: 0.000247 (dt=5.03s)


training:  50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 60514/120000 [20:15<18:48, 52.70it/s]

itr: 60500 lr: 4.998e-05 train loss: 0.000125 (dt=5.02s)


training:  51%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 60764/120000 [20:20<18:46, 52.60it/s]

itr: 60750 lr: 4.966e-05 train loss: 0.000171 (dt=5.02s)


training:  51%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 61014/120000 [20:25<18:39, 52.70it/s]

itr: 61000 lr: 4.933e-05 train loss: 0.000089 (dt=5.02s)


training:  51%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 61264/120000 [20:30<18:35, 52.64it/s]

itr: 61250 lr: 4.901e-05 train loss: 0.000186 (dt=5.02s)


training:  51%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 61514/120000 [20:35<18:29, 52.71it/s]

itr: 61500 lr: 4.868e-05 train loss: 0.000133 (dt=5.02s)


training:  51%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 61764/120000 [20:40<18:25, 52.66it/s]

itr: 61750 lr: 4.836e-05 train loss: 0.000159 (dt=5.02s)


training:  52%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 62014/120000 [20:45<18:21, 52.63it/s]

itr: 62000 lr: 4.803e-05 train loss: 0.000201 (dt=5.02s)


training:  52%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 62264/120000 [20:50<18:16, 52.65it/s]

itr: 62250 lr: 4.771e-05 train loss: 0.000089 (dt=5.02s)


training:  52%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 62514/120000 [20:55<18:12, 52.62it/s]

itr: 62500 lr: 4.739e-05 train loss: 0.000063 (dt=5.02s)


training:  52%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 62764/120000 [21:00<18:07, 52.62it/s]

itr: 62750 lr: 4.706e-05 train loss: 0.000162 (dt=5.02s)


training:  53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 63014/120000 [21:06<18:02, 52.64it/s]

itr: 63000 lr: 4.674e-05 train loss: 0.000171 (dt=5.02s)


training:  53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 63264/120000 [21:11<17:58, 52.63it/s]

itr: 63250 lr: 4.642e-05 train loss: 0.000172 (dt=5.02s)


training:  53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 63514/120000 [21:16<17:53, 52.62it/s]

itr: 63500 lr: 4.609e-05 train loss: 0.000092 (dt=5.02s)


training:  53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 63764/120000 [21:21<17:48, 52.63it/s]

itr: 63750 lr: 4.577e-05 train loss: 0.000147 (dt=5.02s)


training:  53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 64014/120000 [21:26<17:44, 52.62it/s]

itr: 64000 lr: 4.545e-05 train loss: 0.000122 (dt=5.02s)


training:  54%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 64264/120000 [21:31<17:38, 52.63it/s]

itr: 64250 lr: 4.512e-05 train loss: 0.000070 (dt=5.02s)


training:  54%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç    | 64514/120000 [21:36<17:32, 52.72it/s]

itr: 64500 lr: 4.480e-05 train loss: 0.000097 (dt=5.02s)


training:  54%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç    | 64764/120000 [21:41<17:29, 52.64it/s]

itr: 64750 lr: 4.448e-05 train loss: 0.000092 (dt=5.02s)


training:  54%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç    | 65014/120000 [21:46<17:24, 52.66it/s]

itr: 65000 lr: 4.416e-05 train loss: 0.000170 (dt=5.02s)


training:  54%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç    | 65264/120000 [21:51<17:21, 52.58it/s]

itr: 65250 lr: 4.384e-05 train loss: 0.000212 (dt=5.02s)


training:  55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç    | 65514/120000 [21:56<17:15, 52.62it/s]

itr: 65500 lr: 4.351e-05 train loss: 0.000156 (dt=5.02s)


training:  55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç    | 65764/120000 [22:01<17:10, 52.65it/s]

itr: 65750 lr: 4.319e-05 train loss: 0.000119 (dt=5.02s)


training:  55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 66014/120000 [22:06<17:05, 52.65it/s]

itr: 66000 lr: 4.287e-05 train loss: 0.000072 (dt=5.02s)


training:  55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 66264/120000 [22:11<17:00, 52.64it/s]

itr: 66250 lr: 4.255e-05 train loss: 0.000104 (dt=5.02s)


training:  55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 66514/120000 [22:16<16:56, 52.64it/s]

itr: 66500 lr: 4.223e-05 train loss: 0.000185 (dt=5.02s)


training:  56%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 66764/120000 [22:21<16:51, 52.66it/s]

itr: 66750 lr: 4.191e-05 train loss: 0.000146 (dt=5.02s)


training:  56%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 67014/120000 [22:26<16:46, 52.62it/s]

itr: 67000 lr: 4.159e-05 train loss: 0.000173 (dt=5.02s)


training:  56%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 67264/120000 [22:31<16:41, 52.64it/s]

itr: 67250 lr: 4.127e-05 train loss: 0.000178 (dt=5.02s)


training:  56%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã    | 67514/120000 [22:36<16:36, 52.64it/s]

itr: 67500 lr: 4.095e-05 train loss: 0.000138 (dt=5.02s)


training:  56%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã    | 67764/120000 [22:41<16:32, 52.63it/s]

itr: 67750 lr: 4.064e-05 train loss: 0.000122 (dt=5.02s)


training:  57%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã    | 68014/120000 [22:46<16:28, 52.61it/s]

itr: 68000 lr: 4.032e-05 train loss: 0.000122 (dt=5.02s)


training:  57%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã    | 68264/120000 [22:51<16:22, 52.67it/s]

itr: 68250 lr: 4.000e-05 train loss: 0.000128 (dt=5.02s)


training:  57%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã    | 68514/120000 [22:56<16:18, 52.64it/s]

itr: 68500 lr: 3.968e-05 train loss: 0.000102 (dt=5.02s)


training:  57%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã    | 68764/120000 [23:01<16:12, 52.67it/s]

itr: 68750 lr: 3.937e-05 train loss: 0.000122 (dt=5.02s)


training:  58%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä    | 69014/120000 [23:06<16:08, 52.64it/s]

itr: 69000 lr: 3.905e-05 train loss: 0.000105 (dt=5.02s)


training:  58%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä    | 69264/120000 [23:11<16:04, 52.63it/s]

itr: 69250 lr: 3.874e-05 train loss: 0.000165 (dt=5.02s)


training:  58%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä    | 69514/120000 [23:16<15:59, 52.63it/s]

itr: 69500 lr: 3.842e-05 train loss: 0.000154 (dt=5.02s)


training:  58%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä    | 69764/120000 [23:21<15:54, 52.62it/s]

itr: 69750 lr: 3.811e-05 train loss: 0.000095 (dt=5.02s)


training:  58%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä    | 70014/120000 [23:26<15:48, 52.70it/s]

itr: 70000 lr: 3.779e-05 train loss: 0.000142 (dt=5.02s)


training:  59%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä    | 70264/120000 [23:31<15:45, 52.63it/s]

itr: 70250 lr: 3.748e-05 train loss: 0.000229 (dt=5.02s)


training:  59%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ    | 70514/120000 [23:36<15:39, 52.66it/s]

itr: 70500 lr: 3.717e-05 train loss: 0.000120 (dt=5.02s)


training:  59%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ    | 70764/120000 [23:41<15:35, 52.61it/s]

itr: 70750 lr: 3.685e-05 train loss: 0.000055 (dt=5.02s)


training:  59%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ    | 71014/120000 [23:46<15:30, 52.62it/s]

itr: 71000 lr: 3.654e-05 train loss: 0.000122 (dt=5.02s)


training:  59%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ    | 71264/120000 [23:51<15:26, 52.62it/s]

itr: 71250 lr: 3.623e-05 train loss: 0.000087 (dt=5.02s)


training:  60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ    | 71514/120000 [23:56<15:21, 52.64it/s]

itr: 71500 lr: 3.592e-05 train loss: 0.000078 (dt=5.02s)


training:  60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ    | 71764/120000 [24:01<15:15, 52.68it/s]

itr: 71750 lr: 3.561e-05 train loss: 0.000112 (dt=5.02s)


training:  60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 72014/120000 [24:06<15:11, 52.62it/s]

itr: 72000 lr: 3.530e-05 train loss: 0.000136 (dt=5.02s)


training:  60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 72264/120000 [24:11<15:06, 52.66it/s]

itr: 72250 lr: 3.499e-05 train loss: 0.000061 (dt=5.02s)


training:  60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 72514/120000 [24:16<15:02, 52.62it/s]

itr: 72500 lr: 3.469e-05 train loss: 0.000116 (dt=5.02s)


training:  61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 72764/120000 [24:21<14:57, 52.64it/s]

itr: 72750 lr: 3.438e-05 train loss: 0.000211 (dt=5.02s)


training:  61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 73014/120000 [24:26<14:52, 52.63it/s]

itr: 73000 lr: 3.407e-05 train loss: 0.000094 (dt=5.02s)


training:  61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 73264/120000 [24:31<14:48, 52.63it/s]

itr: 73250 lr: 3.377e-05 train loss: 0.000144 (dt=5.02s)


training:  61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 73514/120000 [24:36<14:43, 52.60it/s]

itr: 73500 lr: 3.346e-05 train loss: 0.000118 (dt=5.02s)


training:  61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 73764/120000 [24:41<14:37, 52.70it/s]

itr: 73750 lr: 3.316e-05 train loss: 0.000123 (dt=5.02s)


training:  62%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 74014/120000 [24:47<14:33, 52.63it/s]

itr: 74000 lr: 3.285e-05 train loss: 0.000083 (dt=5.02s)


training:  62%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 74264/120000 [24:52<14:29, 52.63it/s]

itr: 74250 lr: 3.255e-05 train loss: 0.000127 (dt=5.02s)


training:  62%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 74514/120000 [24:57<14:24, 52.63it/s]

itr: 74500 lr: 3.225e-05 train loss: 0.000085 (dt=5.02s)


training:  62%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 74764/120000 [25:02<14:19, 52.62it/s]

itr: 74750 lr: 3.195e-05 train loss: 0.000143 (dt=5.02s)


training:  63%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé   | 75014/120000 [25:07<14:14, 52.63it/s]

itr: 75000 lr: 3.165e-05 train loss: 0.000189 (dt=5.02s)


training:  63%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé   | 75264/120000 [25:12<14:09, 52.63it/s]

itr: 75250 lr: 3.135e-05 train loss: 0.000107 (dt=5.02s)


training:  63%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé   | 75513/120000 [25:17<13:55, 53.24it/s]

itr: 75500 lr: 3.105e-05 train loss: 0.000196 (dt=5.02s)


training:  63%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé   | 75764/120000 [25:22<14:00, 52.63it/s]

itr: 75750 lr: 3.075e-05 train loss: 0.000145 (dt=5.02s)


training:  63%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé   | 76014/120000 [25:27<13:55, 52.62it/s]

itr: 76000 lr: 3.045e-05 train loss: 0.000090 (dt=5.02s)


training:  64%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé   | 76264/120000 [25:32<13:51, 52.59it/s]

itr: 76250 lr: 3.016e-05 train loss: 0.000097 (dt=5.02s)


training:  64%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç   | 76514/120000 [25:37<13:46, 52.64it/s]

itr: 76500 lr: 2.986e-05 train loss: 0.000099 (dt=5.02s)


training:  64%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç   | 76764/120000 [25:42<13:41, 52.63it/s]

itr: 76750 lr: 2.957e-05 train loss: 0.000121 (dt=5.02s)


training:  64%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç   | 77014/120000 [25:47<13:36, 52.63it/s]

itr: 77000 lr: 2.927e-05 train loss: 0.000135 (dt=5.02s)


training:  64%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç   | 77264/120000 [25:52<13:31, 52.64it/s]

itr: 77250 lr: 2.898e-05 train loss: 0.000063 (dt=5.02s)


training:  65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç   | 77514/120000 [25:57<13:27, 52.63it/s]

itr: 77500 lr: 2.869e-05 train loss: 0.000203 (dt=5.02s)


training:  65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç   | 77764/120000 [26:02<13:23, 52.60it/s]

itr: 77750 lr: 2.840e-05 train loss: 0.000110 (dt=5.02s)


training:  65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 78014/120000 [26:07<13:17, 52.65it/s]

itr: 78000 lr: 2.811e-05 train loss: 0.000101 (dt=5.02s)


training:  65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 78264/120000 [26:12<13:12, 52.63it/s]

itr: 78250 lr: 2.782e-05 train loss: 0.000101 (dt=5.02s)


training:  65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 78514/120000 [26:17<13:07, 52.67it/s]

itr: 78500 lr: 2.753e-05 train loss: 0.000126 (dt=5.02s)


training:  66%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 78764/120000 [26:22<13:01, 52.76it/s]

itr: 78750 lr: 2.724e-05 train loss: 0.000052 (dt=5.02s)


training:  66%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 79014/120000 [26:27<12:59, 52.61it/s]

itr: 79000 lr: 2.696e-05 train loss: 0.000061 (dt=5.02s)


training:  66%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 79264/120000 [26:32<12:54, 52.63it/s]

itr: 79250 lr: 2.667e-05 train loss: 0.000098 (dt=5.02s)


training:  66%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã   | 79514/120000 [26:37<12:48, 52.65it/s]

itr: 79500 lr: 2.639e-05 train loss: 0.000119 (dt=5.02s)


training:  66%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã   | 79764/120000 [26:42<12:44, 52.61it/s]

itr: 79750 lr: 2.611e-05 train loss: 0.000094 (dt=5.02s)


training:  67%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã   | 80014/120000 [26:47<12:49, 51.98it/s]

itr: 80000 lr: 2.582e-05 train loss: 0.000148 (dt=5.02s)
saved checkpoint: ./saved_models_grid_bs8192_20260103_075004/Checkpoint_N256_L1_dup0_iters80001.pt


training:  67%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã   | 80264/120000 [26:52<12:35, 52.61it/s]

itr: 80250 lr: 2.554e-05 train loss: 0.000078 (dt=5.03s)


training:  67%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã   | 80514/120000 [26:57<12:30, 52.64it/s]

itr: 80500 lr: 2.526e-05 train loss: 0.000075 (dt=5.02s)


training:  67%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã   | 80764/120000 [27:02<12:25, 52.64it/s]

itr: 80750 lr: 2.499e-05 train loss: 0.000060 (dt=5.02s)


training:  68%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä   | 81014/120000 [27:07<12:20, 52.63it/s]

itr: 81000 lr: 2.471e-05 train loss: 0.000151 (dt=5.02s)


training:  68%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä   | 81264/120000 [27:12<12:16, 52.63it/s]

itr: 81250 lr: 2.443e-05 train loss: 0.000097 (dt=5.02s)


training:  68%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä   | 81514/120000 [27:17<12:11, 52.62it/s]

itr: 81500 lr: 2.416e-05 train loss: 0.000085 (dt=5.02s)


training:  68%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä   | 81764/120000 [27:22<12:05, 52.70it/s]

itr: 81750 lr: 2.388e-05 train loss: 0.000045 (dt=5.02s)


training:  68%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä   | 82014/120000 [27:27<12:00, 52.74it/s]

itr: 82000 lr: 2.361e-05 train loss: 0.000112 (dt=5.02s)


training:  69%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä   | 82264/120000 [27:32<11:56, 52.64it/s]

itr: 82250 lr: 2.334e-05 train loss: 0.000079 (dt=5.02s)


training:  69%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 82514/120000 [27:37<11:52, 52.63it/s]

itr: 82500 lr: 2.307e-05 train loss: 0.000131 (dt=5.02s)


training:  69%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 82764/120000 [27:42<11:47, 52.61it/s]

itr: 82750 lr: 2.280e-05 train loss: 0.000087 (dt=5.02s)


training:  69%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 83014/120000 [27:47<11:43, 52.61it/s]

itr: 83000 lr: 2.253e-05 train loss: 0.000116 (dt=5.02s)


training:  69%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 83264/120000 [27:52<11:38, 52.61it/s]

itr: 83250 lr: 2.226e-05 train loss: 0.000044 (dt=5.02s)


training:  70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 83514/120000 [27:57<11:33, 52.63it/s]

itr: 83500 lr: 2.200e-05 train loss: 0.000096 (dt=5.02s)


training:  70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 83764/120000 [28:02<11:27, 52.73it/s]

itr: 83750 lr: 2.173e-05 train loss: 0.000079 (dt=5.02s)


training:  70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 84014/120000 [28:07<11:23, 52.64it/s]

itr: 84000 lr: 2.147e-05 train loss: 0.000057 (dt=5.02s)


training:  70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 84264/120000 [28:12<11:19, 52.62it/s]

itr: 84250 lr: 2.121e-05 train loss: 0.000079 (dt=5.02s)


training:  70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 84514/120000 [28:18<11:14, 52.63it/s]

itr: 84500 lr: 2.094e-05 train loss: 0.000228 (dt=5.02s)


training:  71%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 84764/120000 [28:23<11:09, 52.63it/s]

itr: 84750 lr: 2.068e-05 train loss: 0.000078 (dt=5.02s)


training:  71%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 85014/120000 [28:28<11:04, 52.66it/s]

itr: 85000 lr: 2.043e-05 train loss: 0.000051 (dt=5.02s)


training:  71%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 85264/120000 [28:33<10:59, 52.70it/s]

itr: 85250 lr: 2.017e-05 train loss: 0.000057 (dt=5.02s)


training:  71%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè  | 85514/120000 [28:38<10:55, 52.62it/s]

itr: 85500 lr: 1.991e-05 train loss: 0.000043 (dt=5.02s)


training:  71%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè  | 85764/120000 [28:43<10:50, 52.63it/s]

itr: 85750 lr: 1.966e-05 train loss: 0.000095 (dt=5.02s)


training:  72%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè  | 86014/120000 [28:48<10:45, 52.65it/s]

itr: 86000 lr: 1.941e-05 train loss: 0.000148 (dt=5.02s)


training:  72%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè  | 86264/120000 [28:53<10:40, 52.65it/s]

itr: 86250 lr: 1.915e-05 train loss: 0.000054 (dt=5.02s)


training:  72%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè  | 86514/120000 [28:58<10:36, 52.61it/s]

itr: 86500 lr: 1.890e-05 train loss: 0.000068 (dt=5.02s)


training:  72%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè  | 86764/120000 [29:03<10:31, 52.60it/s]

itr: 86750 lr: 1.865e-05 train loss: 0.000064 (dt=5.02s)


training:  73%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé  | 87014/120000 [29:08<10:26, 52.62it/s]

itr: 87000 lr: 1.841e-05 train loss: 0.000119 (dt=5.02s)


training:  73%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé  | 87264/120000 [29:13<10:21, 52.63it/s]

itr: 87250 lr: 1.816e-05 train loss: 0.000114 (dt=5.02s)


training:  73%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé  | 87514/120000 [29:18<10:17, 52.62it/s]

itr: 87500 lr: 1.792e-05 train loss: 0.000105 (dt=5.02s)


training:  73%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé  | 87764/120000 [29:23<10:13, 52.59it/s]

itr: 87750 lr: 1.767e-05 train loss: 0.000117 (dt=5.02s)


training:  73%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé  | 88014/120000 [29:28<10:07, 52.63it/s]

itr: 88000 lr: 1.743e-05 train loss: 0.000102 (dt=5.02s)


training:  74%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé  | 88264/120000 [29:33<10:02, 52.63it/s]

itr: 88250 lr: 1.719e-05 train loss: 0.000077 (dt=5.02s)


training:  74%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç  | 88514/120000 [29:38<09:58, 52.63it/s]

itr: 88500 lr: 1.695e-05 train loss: 0.000078 (dt=5.02s)


training:  74%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç  | 88764/120000 [29:43<09:53, 52.66it/s]

itr: 88750 lr: 1.671e-05 train loss: 0.000126 (dt=5.02s)


training:  74%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç  | 89014/120000 [29:48<09:48, 52.63it/s]

itr: 89000 lr: 1.648e-05 train loss: 0.000295 (dt=5.02s)


training:  74%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç  | 89264/120000 [29:53<09:44, 52.62it/s]

itr: 89250 lr: 1.624e-05 train loss: 0.000077 (dt=5.02s)


training:  75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç  | 89514/120000 [29:58<09:39, 52.64it/s]

itr: 89500 lr: 1.601e-05 train loss: 0.000111 (dt=5.02s)


training:  75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç  | 89764/120000 [30:03<09:34, 52.63it/s]

itr: 89750 lr: 1.577e-05 train loss: 0.000074 (dt=5.02s)


training:  75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 90014/120000 [30:08<09:29, 52.64it/s]

itr: 90000 lr: 1.554e-05 train loss: 0.000159 (dt=5.02s)


training:  75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 90264/120000 [30:13<09:24, 52.63it/s]

itr: 90250 lr: 1.532e-05 train loss: 0.000157 (dt=5.02s)


training:  75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 90514/120000 [30:18<09:20, 52.64it/s]

itr: 90500 lr: 1.509e-05 train loss: 0.000199 (dt=5.02s)


training:  76%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 90764/120000 [30:23<09:15, 52.64it/s]

itr: 90750 lr: 1.486e-05 train loss: 0.000082 (dt=5.02s)


training:  76%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 91014/120000 [30:28<09:10, 52.62it/s]

itr: 91000 lr: 1.464e-05 train loss: 0.000066 (dt=5.02s)


training:  76%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 91264/120000 [30:33<09:06, 52.62it/s]

itr: 91250 lr: 1.441e-05 train loss: 0.000080 (dt=5.02s)


training:  76%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã  | 91514/120000 [30:38<09:01, 52.63it/s]

itr: 91500 lr: 1.419e-05 train loss: 0.000089 (dt=5.02s)


training:  76%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã  | 91764/120000 [30:43<08:56, 52.63it/s]

itr: 91750 lr: 1.397e-05 train loss: 0.000065 (dt=5.02s)


training:  77%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã  | 92014/120000 [30:48<08:50, 52.72it/s]

itr: 92000 lr: 1.375e-05 train loss: 0.000060 (dt=5.02s)


training:  77%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã  | 92264/120000 [30:53<08:46, 52.63it/s]

itr: 92250 lr: 1.354e-05 train loss: 0.000070 (dt=5.02s)


training:  77%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã  | 92514/120000 [30:58<08:42, 52.63it/s]

itr: 92500 lr: 1.332e-05 train loss: 0.000107 (dt=5.02s)


training:  77%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã  | 92764/120000 [31:03<08:37, 52.64it/s]

itr: 92750 lr: 1.311e-05 train loss: 0.000127 (dt=5.02s)


training:  78%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 93014/120000 [31:08<08:32, 52.61it/s]

itr: 93000 lr: 1.290e-05 train loss: 0.000104 (dt=5.02s)


training:  78%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 93264/120000 [31:13<08:27, 52.64it/s]

itr: 93250 lr: 1.269e-05 train loss: 0.000069 (dt=5.02s)


training:  78%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 93514/120000 [31:18<08:23, 52.64it/s]

itr: 93500 lr: 1.248e-05 train loss: 0.000070 (dt=5.02s)


training:  78%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 93764/120000 [31:23<08:18, 52.64it/s]

itr: 93750 lr: 1.227e-05 train loss: 0.000075 (dt=5.02s)


training:  78%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 94014/120000 [31:28<08:13, 52.63it/s]

itr: 94000 lr: 1.207e-05 train loss: 0.000122 (dt=5.02s)


training:  79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 94264/120000 [31:33<08:09, 52.59it/s]

itr: 94250 lr: 1.186e-05 train loss: 0.000096 (dt=5.02s)


training:  79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 94514/120000 [31:38<08:04, 52.63it/s]

itr: 94500 lr: 1.166e-05 train loss: 0.000219 (dt=5.02s)


training:  79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 94764/120000 [31:43<07:59, 52.62it/s]

itr: 94750 lr: 1.146e-05 train loss: 0.000110 (dt=5.02s)


training:  79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 95014/120000 [31:48<07:54, 52.62it/s]

itr: 95000 lr: 1.126e-05 train loss: 0.000129 (dt=5.02s)


training:  79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 95264/120000 [31:53<07:49, 52.64it/s]

itr: 95250 lr: 1.106e-05 train loss: 0.000116 (dt=5.02s)


training:  80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 95514/120000 [31:59<07:45, 52.63it/s]

itr: 95500 lr: 1.087e-05 train loss: 0.000131 (dt=5.02s)


training:  80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 95764/120000 [32:04<07:40, 52.63it/s]

itr: 95750 lr: 1.068e-05 train loss: 0.000112 (dt=5.02s)


training:  80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 96014/120000 [32:09<07:35, 52.63it/s]

itr: 96000 lr: 1.048e-05 train loss: 0.000106 (dt=5.02s)


training:  80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 96264/120000 [32:14<07:30, 52.64it/s]

itr: 96250 lr: 1.029e-05 train loss: 0.000101 (dt=5.02s)


training:  80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 96514/120000 [32:19<07:26, 52.64it/s]

itr: 96500 lr: 1.011e-05 train loss: 0.000071 (dt=5.02s)


training:  81%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 96764/120000 [32:24<07:21, 52.64it/s]

itr: 96750 lr: 9.919e-06 train loss: 0.000075 (dt=5.02s)


training:  81%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 97014/120000 [32:29<07:16, 52.65it/s]

itr: 97000 lr: 9.734e-06 train loss: 0.000112 (dt=5.02s)


training:  81%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 97264/120000 [32:34<07:11, 52.63it/s]

itr: 97250 lr: 9.551e-06 train loss: 0.000136 (dt=5.02s)


training:  81%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè | 97514/120000 [32:39<07:07, 52.63it/s]

itr: 97500 lr: 9.369e-06 train loss: 0.000038 (dt=5.02s)


training:  81%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè | 97764/120000 [32:44<07:02, 52.63it/s]

itr: 97750 lr: 9.190e-06 train loss: 0.000054 (dt=5.02s)


training:  82%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè | 98014/120000 [32:49<06:57, 52.65it/s]

itr: 98000 lr: 9.012e-06 train loss: 0.000066 (dt=5.02s)


training:  82%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè | 98264/120000 [32:54<06:52, 52.63it/s]

itr: 98250 lr: 8.836e-06 train loss: 0.000070 (dt=5.02s)


training:  82%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè | 98514/120000 [32:59<06:48, 52.59it/s]

itr: 98500 lr: 8.661e-06 train loss: 0.000142 (dt=5.02s)


training:  82%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè | 98764/120000 [33:04<06:43, 52.62it/s]

itr: 98750 lr: 8.489e-06 train loss: 0.000075 (dt=5.02s)


training:  83%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé | 99014/120000 [33:09<06:38, 52.65it/s]

itr: 99000 lr: 8.318e-06 train loss: 0.000085 (dt=5.02s)


training:  83%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé | 99264/120000 [33:14<06:33, 52.68it/s]

itr: 99250 lr: 8.149e-06 train loss: 0.000115 (dt=5.02s)


training:  83%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé | 99514/120000 [33:19<06:28, 52.70it/s]

itr: 99500 lr: 7.982e-06 train loss: 0.000047 (dt=5.02s)


training:  83%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé | 99764/120000 [33:24<06:24, 52.62it/s]

itr: 99750 lr: 7.817e-06 train loss: 0.000118 (dt=5.02s)


training:  83%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé | 100014/120000 [33:29<06:24, 52.02it/s]

itr: 100000 lr: 7.653e-06 train loss: 0.000143 (dt=5.02s)
saved checkpoint: ./saved_models_grid_bs8192_20260103_075004/Checkpoint_N256_L1_dup0_iters100001.pt


training:  84%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé | 100264/120000 [33:34<06:14, 52.68it/s]

itr: 100250 lr: 7.492e-06 train loss: 0.000046 (dt=5.03s)


training:  84%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç | 100514/120000 [33:39<06:10, 52.64it/s]

itr: 100500 lr: 7.332e-06 train loss: 0.000093 (dt=5.02s)


training:  84%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç | 100764/120000 [33:44<06:04, 52.73it/s]

itr: 100750 lr: 7.174e-06 train loss: 0.000115 (dt=5.02s)


training:  84%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç | 101014/120000 [33:49<06:00, 52.62it/s]

itr: 101000 lr: 7.018e-06 train loss: 0.000062 (dt=5.02s)


training:  84%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç | 101264/120000 [33:54<05:56, 52.61it/s]

itr: 101250 lr: 6.864e-06 train loss: 0.000087 (dt=5.02s)


training:  85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç | 101514/120000 [33:59<05:51, 52.66it/s]

itr: 101500 lr: 6.712e-06 train loss: 0.000073 (dt=5.02s)


training:  85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç | 101764/120000 [34:04<05:46, 52.64it/s]

itr: 101750 lr: 6.561e-06 train loss: 0.000128 (dt=5.02s)


training:  85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 102014/120000 [34:09<05:41, 52.61it/s]

itr: 102000 lr: 6.413e-06 train loss: 0.000056 (dt=5.02s)


training:  85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 102264/120000 [34:14<05:37, 52.60it/s]

itr: 102250 lr: 6.266e-06 train loss: 0.000074 (dt=5.02s)


training:  85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 102514/120000 [34:19<05:32, 52.64it/s]

itr: 102500 lr: 6.122e-06 train loss: 0.000053 (dt=5.02s)


training:  86%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 102764/120000 [34:24<05:27, 52.63it/s]

itr: 102750 lr: 5.979e-06 train loss: 0.000128 (dt=5.02s)


training:  86%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 103014/120000 [34:29<05:22, 52.64it/s]

itr: 103000 lr: 5.838e-06 train loss: 0.000042 (dt=5.02s)


training:  86%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 103264/120000 [34:34<05:17, 52.67it/s]

itr: 103250 lr: 5.699e-06 train loss: 0.000103 (dt=5.02s)


training:  86%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 103514/120000 [34:39<05:13, 52.61it/s]

itr: 103500 lr: 5.562e-06 train loss: 0.000120 (dt=5.02s)


training:  86%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 103764/120000 [34:44<05:08, 52.64it/s]

itr: 103750 lr: 5.427e-06 train loss: 0.000079 (dt=5.02s)


training:  87%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 104014/120000 [34:49<05:03, 52.62it/s]

itr: 104000 lr: 5.294e-06 train loss: 0.000119 (dt=5.02s)


training:  87%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 104264/120000 [34:54<04:59, 52.62it/s]

itr: 104250 lr: 5.162e-06 train loss: 0.000111 (dt=5.02s)


training:  87%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 104514/120000 [34:59<04:54, 52.67it/s]

itr: 104500 lr: 5.033e-06 train loss: 0.000149 (dt=5.02s)


training:  87%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 104764/120000 [35:04<04:49, 52.60it/s]

itr: 104750 lr: 4.906e-06 train loss: 0.000179 (dt=5.02s)


training:  88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 105014/120000 [35:09<04:44, 52.62it/s]

itr: 105000 lr: 4.780e-06 train loss: 0.000095 (dt=5.02s)


training:  88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 105264/120000 [35:14<04:39, 52.64it/s]

itr: 105250 lr: 4.657e-06 train loss: 0.000096 (dt=5.02s)


training:  88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 105514/120000 [35:19<04:35, 52.66it/s]

itr: 105500 lr: 4.536e-06 train loss: 0.000166 (dt=5.02s)


training:  88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 105764/120000 [35:24<04:30, 52.65it/s]

itr: 105750 lr: 4.416e-06 train loss: 0.000105 (dt=5.02s)


training:  88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 106014/120000 [35:29<04:25, 52.63it/s]

itr: 106000 lr: 4.299e-06 train loss: 0.000094 (dt=5.02s)


training:  89%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 106264/120000 [35:35<04:20, 52.64it/s]

itr: 106250 lr: 4.183e-06 train loss: 0.000057 (dt=5.02s)


training:  89%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ | 106514/120000 [35:40<04:16, 52.63it/s]

itr: 106500 lr: 4.070e-06 train loss: 0.000116 (dt=5.02s)


training:  89%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ | 106764/120000 [35:45<04:11, 52.58it/s]

itr: 106750 lr: 3.958e-06 train loss: 0.000136 (dt=5.02s)


training:  89%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ | 107014/120000 [35:50<04:06, 52.63it/s]

itr: 107000 lr: 3.849e-06 train loss: 0.000065 (dt=5.02s)


training:  89%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ | 107264/120000 [35:55<04:02, 52.60it/s]

itr: 107250 lr: 3.741e-06 train loss: 0.000054 (dt=5.02s)


training:  90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ | 107514/120000 [36:00<03:56, 52.69it/s]

itr: 107500 lr: 3.636e-06 train loss: 0.000060 (dt=5.02s)


training:  90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ | 107764/120000 [36:05<03:52, 52.63it/s]

itr: 107750 lr: 3.532e-06 train loss: 0.000111 (dt=5.02s)


training:  90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 108014/120000 [36:10<03:47, 52.68it/s]

itr: 108000 lr: 3.431e-06 train loss: 0.000059 (dt=5.02s)


training:  90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 108264/120000 [36:15<03:42, 52.65it/s]

itr: 108250 lr: 3.331e-06 train loss: 0.000053 (dt=5.02s)


training:  90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 108514/120000 [36:20<03:38, 52.64it/s]

itr: 108500 lr: 3.234e-06 train loss: 0.000058 (dt=5.02s)


training:  91%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 108764/120000 [36:25<03:33, 52.70it/s]

itr: 108750 lr: 3.139e-06 train loss: 0.000125 (dt=5.02s)


training:  91%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 109014/120000 [36:30<03:28, 52.62it/s]

itr: 109000 lr: 3.045e-06 train loss: 0.000145 (dt=5.02s)


training:  91%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 109264/120000 [36:35<03:24, 52.62it/s]

itr: 109250 lr: 2.954e-06 train loss: 0.000055 (dt=5.02s)


training:  91%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè| 109514/120000 [36:40<03:19, 52.69it/s]

itr: 109500 lr: 2.865e-06 train loss: 0.000063 (dt=5.02s)


training:  91%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè| 109764/120000 [36:45<03:14, 52.62it/s]

itr: 109750 lr: 2.777e-06 train loss: 0.000112 (dt=5.02s)


training:  92%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè| 110014/120000 [36:50<03:09, 52.62it/s]

itr: 110000 lr: 2.692e-06 train loss: 0.000078 (dt=5.02s)


training:  92%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè| 110264/120000 [36:55<03:04, 52.67it/s]

itr: 110250 lr: 2.609e-06 train loss: 0.000037 (dt=5.02s)


training:  92%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè| 110514/120000 [37:00<03:00, 52.65it/s]

itr: 110500 lr: 2.528e-06 train loss: 0.000145 (dt=5.02s)


training:  92%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè| 110764/120000 [37:05<02:55, 52.61it/s]

itr: 110750 lr: 2.449e-06 train loss: 0.000041 (dt=5.02s)


training:  93%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé| 111014/120000 [37:10<02:50, 52.64it/s]

itr: 111000 lr: 2.372e-06 train loss: 0.000111 (dt=5.02s)


training:  93%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé| 111264/120000 [37:15<02:45, 52.63it/s]

itr: 111250 lr: 2.297e-06 train loss: 0.000193 (dt=5.02s)


training:  93%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé| 111514/120000 [37:20<02:41, 52.63it/s]

itr: 111500 lr: 2.225e-06 train loss: 0.000074 (dt=5.02s)


training:  93%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé| 111764/120000 [37:25<02:37, 52.15it/s]

itr: 111750 lr: 2.154e-06 train loss: 0.000157 (dt=5.02s)


training:  93%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé| 112013/120000 [37:30<02:29, 53.25it/s]

itr: 112000 lr: 2.085e-06 train loss: 0.000125 (dt=5.02s)


training:  94%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé| 112264/120000 [37:35<02:27, 52.61it/s]

itr: 112250 lr: 2.019e-06 train loss: 0.000076 (dt=5.02s)


training:  94%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç| 112514/120000 [37:40<02:22, 52.65it/s]

itr: 112500 lr: 1.954e-06 train loss: 0.000066 (dt=5.02s)


training:  94%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç| 112764/120000 [37:45<02:17, 52.63it/s]

itr: 112750 lr: 1.892e-06 train loss: 0.000092 (dt=5.02s)


training:  94%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç| 113014/120000 [37:50<02:12, 52.63it/s]

itr: 113000 lr: 1.832e-06 train loss: 0.000060 (dt=5.02s)


training:  94%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç| 113264/120000 [37:55<02:07, 52.64it/s]

itr: 113250 lr: 1.773e-06 train loss: 0.000044 (dt=5.02s)


training:  95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç| 113514/120000 [38:00<02:03, 52.63it/s]

itr: 113500 lr: 1.717e-06 train loss: 0.000054 (dt=5.02s)


training:  95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç| 113764/120000 [38:05<01:58, 52.64it/s]

itr: 113750 lr: 1.663e-06 train loss: 0.000052 (dt=5.02s)


training:  95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 114014/120000 [38:10<01:53, 52.66it/s]

itr: 114000 lr: 1.611e-06 train loss: 0.000123 (dt=5.02s)


training:  95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 114264/120000 [38:15<01:48, 52.63it/s]

itr: 114250 lr: 1.562e-06 train loss: 0.000113 (dt=5.02s)


training:  95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 114514/120000 [38:20<01:44, 52.67it/s]

itr: 114500 lr: 1.514e-06 train loss: 0.000080 (dt=5.02s)


training:  96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 114764/120000 [38:25<01:39, 52.60it/s]

itr: 114750 lr: 1.468e-06 train loss: 0.000124 (dt=5.02s)


training:  96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 115014/120000 [38:30<01:34, 52.63it/s]

itr: 115000 lr: 1.425e-06 train loss: 0.000124 (dt=5.02s)


training:  96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 115264/120000 [38:35<01:29, 52.70it/s]

itr: 115250 lr: 1.384e-06 train loss: 0.000074 (dt=5.02s)


training:  96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã| 115514/120000 [38:40<01:25, 52.66it/s]

itr: 115500 lr: 1.344e-06 train loss: 0.000089 (dt=5.02s)


training:  96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã| 115764/120000 [38:45<01:20, 52.65it/s]

itr: 115750 lr: 1.307e-06 train loss: 0.000051 (dt=5.02s)


training:  97%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã| 116014/120000 [38:50<01:15, 52.64it/s]

itr: 116000 lr: 1.272e-06 train loss: 0.000093 (dt=5.02s)


training:  97%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã| 116264/120000 [38:55<01:10, 52.65it/s]

itr: 116250 lr: 1.239e-06 train loss: 0.000183 (dt=5.02s)


training:  97%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã| 116514/120000 [39:00<01:06, 52.66it/s]

itr: 116500 lr: 1.208e-06 train loss: 0.000075 (dt=5.02s)


training:  97%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã| 116764/120000 [39:05<01:01, 52.67it/s]

itr: 116750 lr: 1.180e-06 train loss: 0.000096 (dt=5.02s)


training:  98%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä| 117014/120000 [39:11<00:56, 52.65it/s]

itr: 117000 lr: 1.153e-06 train loss: 0.000179 (dt=5.02s)


training:  98%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä| 117264/120000 [39:16<00:51, 52.64it/s]

itr: 117250 lr: 1.129e-06 train loss: 0.000063 (dt=5.02s)


training:  98%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä| 117514/120000 [39:21<00:47, 52.61it/s]

itr: 117500 lr: 1.106e-06 train loss: 0.000034 (dt=5.02s)


training:  98%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä| 117764/120000 [39:26<00:42, 52.63it/s]

itr: 117750 lr: 1.086e-06 train loss: 0.000034 (dt=5.02s)


training:  98%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä| 118014/120000 [39:31<00:37, 52.60it/s]

itr: 118000 lr: 1.068e-06 train loss: 0.000105 (dt=5.02s)


training:  99%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä| 118264/120000 [39:36<00:32, 52.62it/s]

itr: 118250 lr: 1.052e-06 train loss: 0.000046 (dt=5.02s)


training:  99%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ| 118514/120000 [39:41<00:28, 52.68it/s]

itr: 118500 lr: 1.038e-06 train loss: 0.000133 (dt=5.02s)


training:  99%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ| 118764/120000 [39:46<00:23, 52.64it/s]

itr: 118750 lr: 1.027e-06 train loss: 0.000162 (dt=5.02s)


training:  99%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ| 119014/120000 [39:51<00:18, 52.65it/s]

itr: 119000 lr: 1.017e-06 train loss: 0.000110 (dt=5.02s)


training:  99%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ| 119264/120000 [39:56<00:13, 52.64it/s]

itr: 119250 lr: 1.010e-06 train loss: 0.000074 (dt=5.02s)


training: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ| 119514/120000 [40:01<00:09, 52.61it/s]

itr: 119500 lr: 1.004e-06 train loss: 0.000126 (dt=5.02s)


training: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ| 119764/120000 [40:06<00:04, 52.64it/s]

itr: 119750 lr: 1.001e-06 train loss: 0.000055 (dt=5.02s)


training: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 120000/120000 [40:10<00:00, 49.77it/s]


saved final model: ./saved_models_grid_bs8192_20260103_075004/Final_N256_L1_dup0_iters120000.pt


0,1
iter,‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÉ‚ñÉ‚ñÉ‚ñÉ‚ñÉ‚ñÉ‚ñÑ‚ñÑ‚ñÑ‚ñÑ‚ñÑ‚ñÖ‚ñÖ‚ñÖ‚ñÖ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñá‚ñá‚ñá‚ñá‚ñá‚ñà‚ñà‚ñà‚ñà‚ñà
ll/iter,‚ñÅ‚ñÉ‚ñÑ‚ñÑ‚ñÑ‚ñÑ‚ñÖ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà
ll/lr,‚ñÅ‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÖ‚ñÖ‚ñÑ‚ñÉ‚ñÉ‚ñÉ‚ñÇ
ll/train_loss,‚ñà‚ñÖ‚ñÖ‚ñÖ‚ñÑ‚ñÑ‚ñÑ‚ñÑ‚ñÑ‚ñÑ‚ñÑ‚ñÉ‚ñÑ‚ñÑ‚ñÉ‚ñÇ‚ñÉ‚ñÉ‚ñÉ‚ñÉ‚ñÉ‚ñÉ‚ñÇ‚ñÇ‚ñÉ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÅ‚ñÇ‚ñÇ‚ñÉ‚ñÉ‚ñÇ‚ñÇ‚ñÉ‚ñÇ‚ñÅ‚ñÅ
lr,‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÖ‚ñÖ‚ñÑ‚ñÑ‚ñÑ‚ñÑ‚ñÑ‚ñÉ‚ñÉ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ
plateau/delta_log10_loss_window,‚ñá‚ñÖ‚ñÜ‚ñÖ‚ñÖ‚ñÖ‚ñÖ‚ñÜ‚ñÑ‚ñÜ‚ñÑ‚ñÖ‚ñÇ‚ñÑ‚ñÖ‚ñÑ‚ñÉ‚ñÖ‚ñÉ‚ñÇ‚ñÜ‚ñÉ‚ñÑ‚ñÖ‚ñÑ‚ñÖ‚ñÜ‚ñÇ‚ñÖ‚ñÑ‚ñÑ‚ñà‚ñÖ‚ñÑ‚ñÉ‚ñÖ‚ñÖ‚ñÅ‚ñá‚ñÉ
plateau/hits,‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ
plateau/loglog_slope,‚ñÉ‚ñÉ‚ñÉ‚ñÉ‚ñÉ‚ñÑ‚ñÑ‚ñÉ‚ñÉ‚ñÉ‚ñÑ‚ñÑ‚ñÑ‚ñÉ‚ñÑ‚ñÖ‚ñÖ‚ñÑ‚ñÑ‚ñÑ‚ñÑ‚ñÖ‚ñÇ‚ñÅ‚ñÇ‚ñÑ‚ñÑ‚ñÖ‚ñÜ‚ñá‚ñà‚ñà‚ñÑ‚ñÇ‚ñÑ‚ñÖ‚ñÑ‚ñÅ‚ñÑ‚ñÖ
plateau/now,‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ
plateau/reached,‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ

0,1
iter,120000
iters_done,120000
ll/iter,5.07918
ll/lr,-6.0
ll/train_loss,-4.32991
lr,0.0
plateau/delta_log10_loss_window,0.15192
plateau/hits,0
plateau/loglog_slope,0.30101
plateau/now,0


using device: cuda


training:   0%|          | 6/120000 [00:00<46:07, 43.36it/s]

itr: 0 lr: 4.975e-07 train loss: 4.878300 (dt=0.05s)


training:   0%|          | 257/120000 [00:11<1:24:08, 23.72it/s]

itr: 250 lr: 1.000e-04 train loss: 3.857355 (dt=11.23s)


training:   0%|          | 507/120000 [00:22<1:25:26, 23.31it/s]

itr: 500 lr: 1.000e-04 train loss: 2.640877 (dt=11.22s)


training:   1%|          | 757/120000 [00:33<1:25:15, 23.31it/s]

itr: 750 lr: 9.999e-05 train loss: 1.590944 (dt=11.22s)


training:   1%|          | 1008/120000 [00:45<1:25:14, 23.27it/s]

itr: 1000 lr: 9.999e-05 train loss: 0.748157 (dt=11.22s)


training:   1%|          | 1257/120000 [00:56<1:22:24, 24.01it/s]

itr: 1250 lr: 9.998e-05 train loss: 0.261245 (dt=11.22s)


training:   1%|‚ñè         | 1507/120000 [01:07<1:24:45, 23.30it/s]

itr: 1500 lr: 9.997e-05 train loss: 0.078850 (dt=11.22s)


training:   1%|‚ñè         | 1757/120000 [01:18<1:24:36, 23.29it/s]

itr: 1750 lr: 9.996e-05 train loss: 0.026667 (dt=11.22s)


training:   2%|‚ñè         | 2007/120000 [01:29<1:24:24, 23.30it/s]

itr: 2000 lr: 9.994e-05 train loss: 0.011126 (dt=11.22s)


training:   2%|‚ñè         | 2257/120000 [01:41<1:24:11, 23.31it/s]

itr: 2250 lr: 9.993e-05 train loss: 0.008262 (dt=11.22s)


training:   2%|‚ñè         | 2508/120000 [01:52<1:24:12, 23.26it/s]

itr: 2500 lr: 9.991e-05 train loss: 0.003498 (dt=11.22s)


training:   2%|‚ñè         | 2757/120000 [02:03<1:21:23, 24.01it/s]

itr: 2750 lr: 9.989e-05 train loss: 0.002163 (dt=11.22s)


training:   3%|‚ñé         | 3007/120000 [02:14<1:23:47, 23.27it/s]

itr: 3000 lr: 9.987e-05 train loss: 0.001460 (dt=11.22s)


training:   3%|‚ñé         | 3257/120000 [02:26<1:23:30, 23.30it/s]

itr: 3250 lr: 9.984e-05 train loss: 0.001414 (dt=11.22s)


training:   3%|‚ñé         | 3507/120000 [02:37<1:23:17, 23.31it/s]

itr: 3500 lr: 9.981e-05 train loss: 0.001212 (dt=11.22s)


training:   3%|‚ñé         | 3757/120000 [02:48<1:23:08, 23.30it/s]

itr: 3750 lr: 9.979e-05 train loss: 0.000642 (dt=11.22s)


training:   3%|‚ñé         | 4007/120000 [02:59<1:22:57, 23.30it/s]

itr: 4000 lr: 9.975e-05 train loss: 0.002861 (dt=11.22s)


training:   4%|‚ñé         | 4257/120000 [03:10<1:22:42, 23.32it/s]

itr: 4250 lr: 9.972e-05 train loss: 0.000325 (dt=11.22s)


training:   4%|‚ñç         | 4508/120000 [03:22<1:22:50, 23.24it/s]

itr: 4500 lr: 9.969e-05 train loss: 0.000524 (dt=11.22s)


training:   4%|‚ñç         | 4757/120000 [03:33<1:19:58, 24.02it/s]

itr: 4750 lr: 9.965e-05 train loss: 0.000239 (dt=11.22s)


training:   4%|‚ñç         | 5007/120000 [03:44<1:22:15, 23.30it/s]

itr: 5000 lr: 9.961e-05 train loss: 0.000154 (dt=11.22s)


training:   4%|‚ñç         | 5257/120000 [03:55<1:22:02, 23.31it/s]

itr: 5250 lr: 9.957e-05 train loss: 0.000127 (dt=11.22s)


training:   5%|‚ñç         | 5507/120000 [04:07<1:21:53, 23.30it/s]

itr: 5500 lr: 9.952e-05 train loss: 0.000159 (dt=11.22s)


training:   5%|‚ñç         | 5757/120000 [04:18<1:21:44, 23.30it/s]

itr: 5750 lr: 9.948e-05 train loss: 0.000116 (dt=11.22s)


training:   5%|‚ñå         | 6007/120000 [04:29<1:21:30, 23.31it/s]

itr: 6000 lr: 9.943e-05 train loss: 0.000082 (dt=11.22s)


training:   5%|‚ñå         | 6257/120000 [04:40<1:21:16, 23.32it/s]

itr: 6250 lr: 9.938e-05 train loss: 0.000087 (dt=11.22s)


training:   5%|‚ñå         | 6507/120000 [04:51<1:21:09, 23.31it/s]

itr: 6500 lr: 9.933e-05 train loss: 0.000049 (dt=11.22s)


training:   6%|‚ñå         | 6757/120000 [05:03<1:20:58, 23.31it/s]

itr: 6750 lr: 9.927e-05 train loss: 0.000129 (dt=11.22s)


training:   6%|‚ñå         | 7007/120000 [05:14<1:20:47, 23.31it/s]

itr: 7000 lr: 9.922e-05 train loss: 0.000051 (dt=11.22s)


training:   6%|‚ñå         | 7257/120000 [05:25<1:20:37, 23.31it/s]

itr: 7250 lr: 9.916e-05 train loss: 0.000095 (dt=11.22s)


training:   6%|‚ñã         | 7507/120000 [05:36<1:20:26, 23.31it/s]

itr: 7500 lr: 9.910e-05 train loss: 0.000055 (dt=11.22s)


training:   6%|‚ñã         | 7757/120000 [05:48<1:20:16, 23.31it/s]

itr: 7750 lr: 9.903e-05 train loss: 0.000044 (dt=11.22s)


training:   7%|‚ñã         | 8007/120000 [05:59<1:20:07, 23.30it/s]

itr: 8000 lr: 9.897e-05 train loss: 0.000035 (dt=11.22s)


training:   7%|‚ñã         | 8257/120000 [06:10<1:19:55, 23.30it/s]

itr: 8250 lr: 9.890e-05 train loss: 0.000057 (dt=11.22s)


training:   7%|‚ñã         | 8507/120000 [06:21<1:19:44, 23.30it/s]

itr: 8500 lr: 9.883e-05 train loss: 0.000043 (dt=11.22s)


training:   7%|‚ñã         | 8757/120000 [06:32<1:19:31, 23.32it/s]

itr: 8750 lr: 9.876e-05 train loss: 0.000018 (dt=11.22s)


training:   8%|‚ñä         | 9007/120000 [06:44<1:19:22, 23.31it/s]

itr: 9000 lr: 9.869e-05 train loss: 0.000045 (dt=11.22s)


training:   8%|‚ñä         | 9257/120000 [06:55<1:19:13, 23.30it/s]

itr: 9250 lr: 9.861e-05 train loss: 0.000032 (dt=11.22s)


training:   8%|‚ñä         | 9507/120000 [07:06<1:18:56, 23.33it/s]

itr: 9500 lr: 9.854e-05 train loss: 0.000032 (dt=11.22s)


training:   8%|‚ñä         | 9758/120000 [07:17<1:19:07, 23.22it/s]

itr: 9750 lr: 9.846e-05 train loss: 0.000026 (dt=11.22s)


training:   8%|‚ñä         | 10007/120000 [07:29<1:16:20, 24.01it/s]

itr: 10000 lr: 9.837e-05 train loss: 0.000064 (dt=11.22s)


training:   9%|‚ñä         | 10257/120000 [07:40<1:18:28, 23.31it/s]

itr: 10250 lr: 9.829e-05 train loss: 0.000011 (dt=11.22s)


training:   9%|‚ñâ         | 10507/120000 [07:51<1:18:21, 23.29it/s]

itr: 10500 lr: 9.821e-05 train loss: 0.000038 (dt=11.22s)


training:   9%|‚ñâ         | 10757/120000 [08:02<1:18:07, 23.31it/s]

itr: 10750 lr: 9.812e-05 train loss: 0.000014 (dt=11.22s)


training:   9%|‚ñâ         | 11007/120000 [08:13<1:17:54, 23.32it/s]

itr: 11000 lr: 9.803e-05 train loss: 0.000047 (dt=11.22s)


training:   9%|‚ñâ         | 11257/120000 [08:25<1:17:47, 23.30it/s]

itr: 11250 lr: 9.794e-05 train loss: 0.000009 (dt=11.22s)


training:  10%|‚ñâ         | 11508/120000 [08:36<1:17:44, 23.26it/s]

itr: 11500 lr: 9.784e-05 train loss: 0.000019 (dt=11.22s)


training:  10%|‚ñâ         | 11757/120000 [08:47<1:15:11, 23.99it/s]

itr: 11750 lr: 9.775e-05 train loss: 0.000016 (dt=11.22s)


training:  10%|‚ñà         | 12007/120000 [08:58<1:17:13, 23.31it/s]

itr: 12000 lr: 9.765e-05 train loss: 0.000023 (dt=11.22s)


training:  10%|‚ñà         | 12257/120000 [09:10<1:17:04, 23.30it/s]

itr: 12250 lr: 9.755e-05 train loss: 0.000006 (dt=11.22s)


training:  10%|‚ñà         | 12507/120000 [09:21<1:16:52, 23.30it/s]

itr: 12500 lr: 9.745e-05 train loss: 0.000005 (dt=11.22s)


training:  11%|‚ñà         | 12757/120000 [09:32<1:16:40, 23.31it/s]

itr: 12750 lr: 9.734e-05 train loss: 0.000003 (dt=11.22s)


training:  11%|‚ñà         | 13007/120000 [09:43<1:16:32, 23.30it/s]

itr: 13000 lr: 9.724e-05 train loss: 0.000026 (dt=11.22s)


training:  11%|‚ñà         | 13257/120000 [09:54<1:16:19, 23.31it/s]

itr: 13250 lr: 9.713e-05 train loss: 0.000028 (dt=11.22s)


training:  11%|‚ñà‚ñè        | 13507/120000 [10:06<1:16:09, 23.31it/s]

itr: 13500 lr: 9.702e-05 train loss: 0.000008 (dt=11.22s)


training:  11%|‚ñà‚ñè        | 13757/120000 [10:17<1:16:01, 23.29it/s]

itr: 13750 lr: 9.691e-05 train loss: 0.000007 (dt=11.22s)


training:  12%|‚ñà‚ñè        | 14007/120000 [10:28<1:15:47, 23.31it/s]

itr: 14000 lr: 9.679e-05 train loss: 0.000011 (dt=11.22s)


training:  12%|‚ñà‚ñè        | 14257/120000 [10:39<1:15:39, 23.29it/s]

itr: 14250 lr: 9.668e-05 train loss: 0.000004 (dt=11.22s)


training:  12%|‚ñà‚ñè        | 14507/120000 [10:51<1:15:27, 23.30it/s]

itr: 14500 lr: 9.656e-05 train loss: 0.000006 (dt=11.22s)


training:  12%|‚ñà‚ñè        | 14757/120000 [11:02<1:15:15, 23.31it/s]

itr: 14750 lr: 9.644e-05 train loss: 0.000064 (dt=11.22s)


training:  13%|‚ñà‚ñé        | 15007/120000 [11:13<1:15:04, 23.31it/s]

itr: 15000 lr: 9.632e-05 train loss: 0.000017 (dt=11.22s)


training:  13%|‚ñà‚ñé        | 15257/120000 [11:24<1:14:55, 23.30it/s]

itr: 15250 lr: 9.619e-05 train loss: 0.000006 (dt=11.22s)


training:  13%|‚ñà‚ñé        | 15507/120000 [11:35<1:14:40, 23.32it/s]

itr: 15500 lr: 9.607e-05 train loss: 0.000009 (dt=11.22s)


training:  13%|‚ñà‚ñé        | 15757/120000 [11:47<1:14:32, 23.31it/s]

itr: 15750 lr: 9.594e-05 train loss: 0.000002 (dt=11.22s)


training:  13%|‚ñà‚ñé        | 16007/120000 [11:58<1:14:21, 23.31it/s]

itr: 16000 lr: 9.581e-05 train loss: 0.000003 (dt=11.22s)


training:  14%|‚ñà‚ñé        | 16257/120000 [12:09<1:14:10, 23.31it/s]

itr: 16250 lr: 9.568e-05 train loss: 0.000002 (dt=11.22s)


training:  14%|‚ñà‚ñç        | 16507/120000 [12:20<1:14:00, 23.31it/s]

itr: 16500 lr: 9.555e-05 train loss: 0.000009 (dt=11.22s)


training:  14%|‚ñà‚ñç        | 16758/120000 [12:32<1:14:00, 23.25it/s]

itr: 16750 lr: 9.541e-05 train loss: 0.000006 (dt=11.22s)


training:  14%|‚ñà‚ñç        | 17007/120000 [12:43<1:11:29, 24.01it/s]

itr: 17000 lr: 9.527e-05 train loss: 0.000014 (dt=11.22s)


training:  14%|‚ñà‚ñç        | 17257/120000 [12:54<1:13:27, 23.31it/s]

itr: 17250 lr: 9.513e-05 train loss: 0.000001 (dt=11.22s)


training:  15%|‚ñà‚ñç        | 17507/120000 [13:05<1:13:18, 23.30it/s]

itr: 17500 lr: 9.499e-05 train loss: 0.000003 (dt=11.22s)


training:  15%|‚ñà‚ñç        | 17758/120000 [13:16<1:13:17, 23.25it/s]

itr: 17750 lr: 9.485e-05 train loss: 0.000012 (dt=11.22s)


training:  15%|‚ñà‚ñå        | 18007/120000 [13:28<1:10:53, 23.98it/s]

itr: 18000 lr: 9.470e-05 train loss: 0.000004 (dt=11.22s)


training:  15%|‚ñà‚ñå        | 18257/120000 [13:39<1:12:46, 23.30it/s]

itr: 18250 lr: 9.456e-05 train loss: 0.000002 (dt=11.22s)


training:  15%|‚ñà‚ñå        | 18507/120000 [13:50<1:12:32, 23.32it/s]

itr: 18500 lr: 9.441e-05 train loss: 0.000006 (dt=11.22s)


training:  16%|‚ñà‚ñå        | 18757/120000 [14:01<1:12:24, 23.30it/s]

itr: 18750 lr: 9.426e-05 train loss: 0.000002 (dt=11.22s)


training:  16%|‚ñà‚ñå        | 19007/120000 [14:13<1:12:12, 23.31it/s]

itr: 19000 lr: 9.411e-05 train loss: 0.000001 (dt=11.22s)


training:  16%|‚ñà‚ñå        | 19257/120000 [14:24<1:12:03, 23.30it/s]

itr: 19250 lr: 9.395e-05 train loss: 0.000008 (dt=11.22s)


training:  16%|‚ñà‚ñã        | 19507/120000 [14:35<1:11:49, 23.32it/s]

itr: 19500 lr: 9.379e-05 train loss: 0.000015 (dt=11.22s)


training:  16%|‚ñà‚ñã        | 19757/120000 [14:46<1:11:41, 23.31it/s]

itr: 19750 lr: 9.364e-05 train loss: 0.000001 (dt=11.22s)


training:  17%|‚ñà‚ñã        | 20007/120000 [14:57<1:13:07, 22.79it/s]

itr: 20000 lr: 9.348e-05 train loss: 0.000002 (dt=11.22s)
saved checkpoint: ./saved_models_grid_bs8192_20260103_075004/Checkpoint_N128_L3_dup0_iters20001.pt


training:  17%|‚ñà‚ñã        | 20257/120000 [15:09<1:11:15, 23.33it/s]

itr: 20250 lr: 9.331e-05 train loss: 0.000002 (dt=11.24s)


training:  17%|‚ñà‚ñã        | 20507/120000 [15:20<1:11:09, 23.30it/s]

itr: 20500 lr: 9.315e-05 train loss: 0.000001 (dt=11.22s)


training:  17%|‚ñà‚ñã        | 20757/120000 [15:31<1:10:59, 23.30it/s]

itr: 20750 lr: 9.298e-05 train loss: 0.000001 (dt=11.22s)


training:  18%|‚ñà‚ñä        | 21007/120000 [15:42<1:10:47, 23.31it/s]

itr: 21000 lr: 9.282e-05 train loss: 0.000001 (dt=11.22s)


training:  18%|‚ñà‚ñä        | 21257/120000 [15:54<1:10:37, 23.30it/s]

itr: 21250 lr: 9.265e-05 train loss: 0.000001 (dt=11.22s)


training:  18%|‚ñà‚ñä        | 21507/120000 [16:05<1:10:27, 23.30it/s]

itr: 21500 lr: 9.248e-05 train loss: 0.000001 (dt=11.22s)


training:  18%|‚ñà‚ñä        | 21757/120000 [16:16<1:10:15, 23.31it/s]

itr: 21750 lr: 9.230e-05 train loss: 0.000001 (dt=11.22s)


training:  18%|‚ñà‚ñä        | 22007/120000 [16:27<1:10:05, 23.30it/s]

itr: 22000 lr: 9.213e-05 train loss: 0.000001 (dt=11.22s)


training:  19%|‚ñà‚ñä        | 22257/120000 [16:38<1:09:52, 23.32it/s]

itr: 22250 lr: 9.195e-05 train loss: 0.000000 (dt=11.22s)


training:  19%|‚ñà‚ñâ        | 22508/120000 [16:50<1:09:51, 23.26it/s]

itr: 22500 lr: 9.177e-05 train loss: 0.000001 (dt=11.22s)


training:  19%|‚ñà‚ñâ        | 22757/120000 [17:01<1:07:34, 23.99it/s]

itr: 22750 lr: 9.159e-05 train loss: 0.000048 (dt=11.22s)


training:  19%|‚ñà‚ñâ        | 23007/120000 [17:12<1:09:19, 23.32it/s]

itr: 23000 lr: 9.141e-05 train loss: 0.000003 (dt=11.22s)


training:  19%|‚ñà‚ñâ        | 23257/120000 [17:23<1:09:10, 23.31it/s]

itr: 23250 lr: 9.123e-05 train loss: 0.000001 (dt=11.22s)


training:  20%|‚ñà‚ñâ        | 23508/120000 [17:35<1:09:08, 23.26it/s]

itr: 23500 lr: 9.104e-05 train loss: 0.000003 (dt=11.22s)


training:  20%|‚ñà‚ñâ        | 23757/120000 [17:46<1:06:46, 24.02it/s]

itr: 23750 lr: 9.086e-05 train loss: 0.000000 (dt=11.22s)


training:  20%|‚ñà‚ñà        | 24007/120000 [17:57<1:08:38, 23.31it/s]

itr: 24000 lr: 9.067e-05 train loss: 0.000001 (dt=11.22s)


training:  20%|‚ñà‚ñà        | 24257/120000 [18:08<1:08:28, 23.30it/s]

itr: 24250 lr: 9.048e-05 train loss: 0.000001 (dt=11.22s)


training:  20%|‚ñà‚ñà        | 24507/120000 [18:19<1:08:15, 23.32it/s]

itr: 24500 lr: 9.029e-05 train loss: 0.000001 (dt=11.22s)


training:  21%|‚ñà‚ñà        | 24757/120000 [18:31<1:08:06, 23.31it/s]

itr: 24750 lr: 9.009e-05 train loss: 0.000001 (dt=11.22s)


training:  21%|‚ñà‚ñà        | 25007/120000 [18:42<1:07:57, 23.30it/s]

itr: 25000 lr: 8.990e-05 train loss: 0.000001 (dt=11.22s)


training:  21%|‚ñà‚ñà        | 25257/120000 [18:53<1:07:45, 23.30it/s]

itr: 25250 lr: 8.970e-05 train loss: 0.000051 (dt=11.22s)


training:  21%|‚ñà‚ñà‚ñè       | 25507/120000 [19:04<1:07:35, 23.30it/s]

itr: 25500 lr: 8.950e-05 train loss: 0.000001 (dt=11.22s)


training:  21%|‚ñà‚ñà‚ñè       | 25757/120000 [19:16<1:07:22, 23.31it/s]

itr: 25750 lr: 8.930e-05 train loss: 0.000003 (dt=11.22s)


training:  22%|‚ñà‚ñà‚ñè       | 26007/120000 [19:27<1:07:12, 23.31it/s]

itr: 26000 lr: 8.910e-05 train loss: 0.000033 (dt=11.22s)


training:  22%|‚ñà‚ñà‚ñè       | 26257/120000 [19:38<1:07:03, 23.30it/s]

itr: 26250 lr: 8.889e-05 train loss: 0.000003 (dt=11.22s)


training:  22%|‚ñà‚ñà‚ñè       | 26507/120000 [19:49<1:06:51, 23.31it/s]

itr: 26500 lr: 8.869e-05 train loss: 0.000001 (dt=11.22s)


training:  22%|‚ñà‚ñà‚ñè       | 26757/120000 [20:00<1:06:39, 23.31it/s]

itr: 26750 lr: 8.848e-05 train loss: 0.000001 (dt=11.22s)


training:  23%|‚ñà‚ñà‚ñé       | 27007/120000 [20:12<1:06:29, 23.31it/s]

itr: 27000 lr: 8.827e-05 train loss: 0.000000 (dt=11.22s)


training:  23%|‚ñà‚ñà‚ñé       | 27257/120000 [20:23<1:06:20, 23.30it/s]

itr: 27250 lr: 8.806e-05 train loss: 0.000001 (dt=11.22s)


training:  23%|‚ñà‚ñà‚ñé       | 27507/120000 [20:34<1:06:10, 23.30it/s]

itr: 27500 lr: 8.785e-05 train loss: 0.000001 (dt=11.22s)


training:  23%|‚ñà‚ñà‚ñé       | 27757/120000 [20:45<1:05:54, 23.32it/s]

itr: 27750 lr: 8.763e-05 train loss: 0.000001 (dt=11.22s)


training:  23%|‚ñà‚ñà‚ñé       | 28007/120000 [20:57<1:05:44, 23.32it/s]

itr: 28000 lr: 8.742e-05 train loss: 0.000000 (dt=11.22s)


training:  24%|‚ñà‚ñà‚ñé       | 28257/120000 [21:08<1:05:36, 23.30it/s]

itr: 28250 lr: 8.720e-05 train loss: 0.000001 (dt=11.22s)


training:  24%|‚ñà‚ñà‚ñç       | 28507/120000 [21:19<1:05:25, 23.31it/s]

itr: 28500 lr: 8.698e-05 train loss: 0.000005 (dt=11.22s)


training:  24%|‚ñà‚ñà‚ñç       | 28757/120000 [21:30<1:05:14, 23.31it/s]

itr: 28750 lr: 8.676e-05 train loss: 0.000001 (dt=11.22s)


training:  24%|‚ñà‚ñà‚ñç       | 29007/120000 [21:41<1:05:04, 23.31it/s]

itr: 29000 lr: 8.654e-05 train loss: 0.000001 (dt=11.22s)


training:  24%|‚ñà‚ñà‚ñç       | 29257/120000 [21:53<1:04:52, 23.31it/s]

itr: 29250 lr: 8.632e-05 train loss: 0.000000 (dt=11.22s)


training:  25%|‚ñà‚ñà‚ñç       | 29507/120000 [22:04<1:04:43, 23.30it/s]

itr: 29500 lr: 8.609e-05 train loss: 0.000000 (dt=11.22s)


training:  25%|‚ñà‚ñà‚ñç       | 29757/120000 [22:15<1:04:32, 23.31it/s]

itr: 29750 lr: 8.587e-05 train loss: 0.000001 (dt=11.22s)


training:  25%|‚ñà‚ñà‚ñå       | 30007/120000 [22:26<1:04:21, 23.31it/s]

itr: 30000 lr: 8.564e-05 train loss: 0.000000 (dt=11.22s)


training:  25%|‚ñà‚ñà‚ñå       | 30257/120000 [22:38<1:04:08, 23.32it/s]

itr: 30250 lr: 8.541e-05 train loss: 0.000001 (dt=11.22s)


training:  25%|‚ñà‚ñà‚ñå       | 30507/120000 [22:49<1:03:59, 23.31it/s]

itr: 30500 lr: 8.518e-05 train loss: 0.000000 (dt=11.22s)


training:  26%|‚ñà‚ñà‚ñå       | 30757/120000 [23:00<1:03:49, 23.30it/s]

itr: 30750 lr: 8.495e-05 train loss: 0.000000 (dt=11.22s)


training:  26%|‚ñà‚ñà‚ñå       | 31007/120000 [23:11<1:03:40, 23.29it/s]

itr: 31000 lr: 8.471e-05 train loss: 0.000000 (dt=11.22s)


training:  26%|‚ñà‚ñà‚ñå       | 31257/120000 [23:22<1:03:28, 23.30it/s]

itr: 31250 lr: 8.448e-05 train loss: 0.000002 (dt=11.22s)


training:  26%|‚ñà‚ñà‚ñã       | 31508/120000 [23:34<1:03:21, 23.28it/s]

itr: 31500 lr: 8.424e-05 train loss: 0.000001 (dt=11.22s)


training:  26%|‚ñà‚ñà‚ñã       | 31757/120000 [23:45<1:01:18, 23.99it/s]

itr: 31750 lr: 8.400e-05 train loss: 0.000000 (dt=11.22s)


training:  27%|‚ñà‚ñà‚ñã       | 32007/120000 [23:56<1:02:56, 23.30it/s]

itr: 32000 lr: 8.376e-05 train loss: 0.000000 (dt=11.22s)


training:  27%|‚ñà‚ñà‚ñã       | 32257/120000 [24:07<1:02:42, 23.32it/s]

itr: 32250 lr: 8.352e-05 train loss: 0.000002 (dt=11.22s)


training:  27%|‚ñà‚ñà‚ñã       | 32508/120000 [24:19<1:02:46, 23.23it/s]

itr: 32500 lr: 8.328e-05 train loss: 0.000004 (dt=11.22s)


training:  27%|‚ñà‚ñà‚ñã       | 32757/120000 [24:30<1:00:33, 24.01it/s]

itr: 32750 lr: 8.304e-05 train loss: 0.000000 (dt=11.22s)


training:  28%|‚ñà‚ñà‚ñä       | 33007/120000 [24:41<1:02:13, 23.30it/s]

itr: 33000 lr: 8.279e-05 train loss: 0.000000 (dt=11.22s)


training:  28%|‚ñà‚ñà‚ñä       | 33258/120000 [24:52<1:02:13, 23.23it/s]

itr: 33250 lr: 8.254e-05 train loss: 0.000000 (dt=11.22s)


training:  28%|‚ñà‚ñà‚ñä       | 33507/120000 [25:03<1:00:03, 24.00it/s]

itr: 33500 lr: 8.230e-05 train loss: 0.000000 (dt=11.22s)


training:  28%|‚ñà‚ñà‚ñä       | 33757/120000 [25:15<1:01:45, 23.27it/s]

itr: 33750 lr: 8.205e-05 train loss: 0.000000 (dt=11.22s)


training:  28%|‚ñà‚ñà‚ñä       | 34007/120000 [25:26<1:01:30, 23.30it/s]

itr: 34000 lr: 8.180e-05 train loss: 0.000000 (dt=11.22s)


training:  29%|‚ñà‚ñà‚ñä       | 34257/120000 [25:37<1:01:18, 23.31it/s]

itr: 34250 lr: 8.154e-05 train loss: 0.000001 (dt=11.22s)


training:  29%|‚ñà‚ñà‚ñâ       | 34507/120000 [25:48<1:01:08, 23.30it/s]

itr: 34500 lr: 8.129e-05 train loss: 0.000000 (dt=11.22s)


training:  29%|‚ñà‚ñà‚ñâ       | 34757/120000 [26:00<1:00:57, 23.31it/s]

itr: 34750 lr: 8.104e-05 train loss: 0.000000 (dt=11.22s)


training:  29%|‚ñà‚ñà‚ñâ       | 35007/120000 [26:11<1:00:46, 23.31it/s]

itr: 35000 lr: 8.078e-05 train loss: 0.000000 (dt=11.22s)


training:  29%|‚ñà‚ñà‚ñâ       | 35257/120000 [26:22<1:00:36, 23.30it/s]

itr: 35250 lr: 8.052e-05 train loss: 0.000009 (dt=11.22s)


training:  30%|‚ñà‚ñà‚ñâ       | 35507/120000 [26:33<1:00:26, 23.30it/s]

itr: 35500 lr: 8.026e-05 train loss: 0.000014 (dt=11.22s)


training:  30%|‚ñà‚ñà‚ñâ       | 35757/120000 [26:44<1:00:15, 23.30it/s]

itr: 35750 lr: 8.000e-05 train loss: 0.000001 (dt=11.22s)


training:  30%|‚ñà‚ñà‚ñà       | 36007/120000 [26:56<1:00:04, 23.30it/s]

itr: 36000 lr: 7.974e-05 train loss: 0.000001 (dt=11.22s)


training:  30%|‚ñà‚ñà‚ñà       | 36257/120000 [27:07<59:54, 23.30it/s]  

itr: 36250 lr: 7.948e-05 train loss: 0.000000 (dt=11.22s)


training:  30%|‚ñà‚ñà‚ñà       | 36507/120000 [27:18<59:41, 23.31it/s]  

itr: 36500 lr: 7.922e-05 train loss: 0.000005 (dt=11.22s)


training:  31%|‚ñà‚ñà‚ñà       | 36757/120000 [27:29<59:33, 23.30it/s]  

itr: 36750 lr: 7.895e-05 train loss: 0.000001 (dt=11.22s)


training:  31%|‚ñà‚ñà‚ñà       | 37007/120000 [27:41<59:21, 23.30it/s]  

itr: 37000 lr: 7.868e-05 train loss: 0.000001 (dt=11.22s)


training:  31%|‚ñà‚ñà‚ñà       | 37257/120000 [27:52<59:10, 23.30it/s]  

itr: 37250 lr: 7.842e-05 train loss: 0.000002 (dt=11.22s)


training:  31%|‚ñà‚ñà‚ñà‚ñè      | 37508/120000 [28:03<59:09, 23.24it/s]  

itr: 37500 lr: 7.815e-05 train loss: 0.000000 (dt=11.22s)


training:  31%|‚ñà‚ñà‚ñà‚ñè      | 37757/120000 [28:14<57:05, 24.01it/s]  

itr: 37750 lr: 7.788e-05 train loss: 0.000001 (dt=11.22s)


training:  32%|‚ñà‚ñà‚ñà‚ñè      | 38007/120000 [28:25<58:38, 23.30it/s]  

itr: 38000 lr: 7.761e-05 train loss: 0.000000 (dt=11.22s)


training:  32%|‚ñà‚ñà‚ñà‚ñè      | 38258/120000 [28:37<58:34, 23.26it/s]  

itr: 38250 lr: 7.734e-05 train loss: 0.000000 (dt=11.22s)


training:  32%|‚ñà‚ñà‚ñà‚ñè      | 38507/120000 [28:48<56:35, 24.00it/s]  

itr: 38500 lr: 7.706e-05 train loss: 0.000001 (dt=11.22s)


training:  32%|‚ñà‚ñà‚ñà‚ñè      | 38757/120000 [28:59<58:08, 23.29it/s]  

itr: 38750 lr: 7.679e-05 train loss: 0.000000 (dt=11.22s)


training:  33%|‚ñà‚ñà‚ñà‚ñé      | 39007/120000 [29:10<57:54, 23.31it/s]  

itr: 39000 lr: 7.651e-05 train loss: 0.000000 (dt=11.22s)


training:  33%|‚ñà‚ñà‚ñà‚ñé      | 39258/120000 [29:22<57:54, 23.24it/s]  

itr: 39250 lr: 7.624e-05 train loss: 0.000000 (dt=11.22s)


training:  33%|‚ñà‚ñà‚ñà‚ñé      | 39507/120000 [29:33<55:54, 24.00it/s]  

itr: 39500 lr: 7.596e-05 train loss: 0.000000 (dt=11.22s)


training:  33%|‚ñà‚ñà‚ñà‚ñé      | 39757/120000 [29:44<57:23, 23.30it/s]  

itr: 39750 lr: 7.568e-05 train loss: 0.000006 (dt=11.22s)


training:  33%|‚ñà‚ñà‚ñà‚ñé      | 40007/120000 [29:55<58:29, 22.80it/s]  

itr: 40000 lr: 7.540e-05 train loss: 0.000001 (dt=11.22s)
saved checkpoint: ./saved_models_grid_bs8192_20260103_075004/Checkpoint_N128_L3_dup0_iters40001.pt


training:  34%|‚ñà‚ñà‚ñà‚ñé      | 40257/120000 [30:06<57:03, 23.29it/s]  

itr: 40250 lr: 7.512e-05 train loss: 0.000000 (dt=11.24s)


training:  34%|‚ñà‚ñà‚ñà‚ñç      | 40508/120000 [30:18<56:57, 23.26it/s]  

itr: 40500 lr: 7.484e-05 train loss: 0.000000 (dt=11.22s)


training:  34%|‚ñà‚ñà‚ñà‚ñç      | 40757/120000 [30:29<55:02, 24.00it/s]  

itr: 40750 lr: 7.455e-05 train loss: 0.000000 (dt=11.22s)


training:  34%|‚ñà‚ñà‚ñà‚ñç      | 41007/120000 [30:40<56:29, 23.30it/s]  

itr: 41000 lr: 7.427e-05 train loss: 0.000000 (dt=11.22s)


training:  34%|‚ñà‚ñà‚ñà‚ñç      | 41257/120000 [30:51<56:21, 23.29it/s]  

itr: 41250 lr: 7.398e-05 train loss: 0.000000 (dt=11.22s)


training:  35%|‚ñà‚ñà‚ñà‚ñç      | 41507/120000 [31:03<56:08, 23.30it/s]  

itr: 41500 lr: 7.370e-05 train loss: 0.000001 (dt=11.22s)


training:  35%|‚ñà‚ñà‚ñà‚ñç      | 41757/120000 [31:14<55:57, 23.30it/s]  

itr: 41750 lr: 7.341e-05 train loss: 0.000011 (dt=11.22s)


training:  35%|‚ñà‚ñà‚ñà‚ñå      | 42007/120000 [31:25<55:45, 23.31it/s]  

itr: 42000 lr: 7.312e-05 train loss: 0.000000 (dt=11.22s)


training:  35%|‚ñà‚ñà‚ñà‚ñå      | 42257/120000 [31:36<55:35, 23.31it/s]  

itr: 42250 lr: 7.283e-05 train loss: 0.000001 (dt=11.22s)


training:  35%|‚ñà‚ñà‚ñà‚ñå      | 42507/120000 [31:47<55:26, 23.30it/s]  

itr: 42500 lr: 7.254e-05 train loss: 0.000001 (dt=11.22s)


training:  36%|‚ñà‚ñà‚ñà‚ñå      | 42758/120000 [31:59<55:20, 23.26it/s]  

itr: 42750 lr: 7.225e-05 train loss: 0.000000 (dt=11.22s)


training:  36%|‚ñà‚ñà‚ñà‚ñå      | 43007/120000 [32:10<53:27, 24.00it/s]  

itr: 43000 lr: 7.196e-05 train loss: 0.000000 (dt=11.22s)


training:  36%|‚ñà‚ñà‚ñà‚ñå      | 43257/120000 [32:21<54:53, 23.30it/s]  

itr: 43250 lr: 7.167e-05 train loss: 0.000000 (dt=11.22s)


training:  36%|‚ñà‚ñà‚ñà‚ñã      | 43507/120000 [32:32<54:42, 23.31it/s]  

itr: 43500 lr: 7.137e-05 train loss: 0.000000 (dt=11.22s)


training:  36%|‚ñà‚ñà‚ñà‚ñã      | 43757/120000 [32:44<54:29, 23.32it/s]  

itr: 43750 lr: 7.108e-05 train loss: 0.000000 (dt=11.22s)


training:  37%|‚ñà‚ñà‚ñà‚ñã      | 44007/120000 [32:55<54:20, 23.31it/s]  

itr: 44000 lr: 7.078e-05 train loss: 0.000000 (dt=11.22s)


training:  37%|‚ñà‚ñà‚ñà‚ñã      | 44257/120000 [33:06<54:11, 23.30it/s]  

itr: 44250 lr: 7.049e-05 train loss: 0.000000 (dt=11.22s)


training:  37%|‚ñà‚ñà‚ñà‚ñã      | 44507/120000 [33:17<54:00, 23.30it/s]  

itr: 44500 lr: 7.019e-05 train loss: 0.000000 (dt=11.22s)


training:  37%|‚ñà‚ñà‚ñà‚ñã      | 44757/120000 [33:28<53:49, 23.30it/s]  

itr: 44750 lr: 6.989e-05 train loss: 0.000001 (dt=11.22s)


training:  38%|‚ñà‚ñà‚ñà‚ñä      | 45007/120000 [33:40<53:38, 23.30it/s]  

itr: 45000 lr: 6.959e-05 train loss: 0.000000 (dt=11.22s)


training:  38%|‚ñà‚ñà‚ñà‚ñä      | 45257/120000 [33:51<53:27, 23.30it/s]  

itr: 45250 lr: 6.929e-05 train loss: 0.000000 (dt=11.22s)


training:  38%|‚ñà‚ñà‚ñà‚ñä      | 45507/120000 [34:02<53:17, 23.30it/s]  

itr: 45500 lr: 6.899e-05 train loss: 0.000004 (dt=11.22s)


training:  38%|‚ñà‚ñà‚ñà‚ñä      | 45757/120000 [34:13<53:05, 23.31it/s]  

itr: 45750 lr: 6.869e-05 train loss: 0.000000 (dt=11.22s)


training:  38%|‚ñà‚ñà‚ñà‚ñä      | 46007/120000 [34:25<52:55, 23.30it/s]  

itr: 46000 lr: 6.839e-05 train loss: 0.000000 (dt=11.22s)


training:  39%|‚ñà‚ñà‚ñà‚ñä      | 46257/120000 [34:36<52:43, 23.31it/s]  

itr: 46250 lr: 6.809e-05 train loss: 0.000003 (dt=11.22s)


training:  39%|‚ñà‚ñà‚ñà‚ñâ      | 46507/120000 [34:47<52:33, 23.30it/s]  

itr: 46500 lr: 6.778e-05 train loss: 0.000000 (dt=11.22s)


training:  39%|‚ñà‚ñà‚ñà‚ñâ      | 46757/120000 [34:58<52:23, 23.30it/s]  

itr: 46750 lr: 6.748e-05 train loss: 0.000000 (dt=11.22s)


training:  39%|‚ñà‚ñà‚ñà‚ñâ      | 47007/120000 [35:09<52:12, 23.30it/s]  

itr: 47000 lr: 6.717e-05 train loss: 0.000000 (dt=11.22s)


training:  39%|‚ñà‚ñà‚ñà‚ñâ      | 47258/120000 [35:21<52:04, 23.28it/s]  

itr: 47250 lr: 6.687e-05 train loss: 0.000000 (dt=11.22s)


training:  40%|‚ñà‚ñà‚ñà‚ñâ      | 47507/120000 [35:32<50:20, 24.00it/s]  

itr: 47500 lr: 6.656e-05 train loss: 0.000000 (dt=11.22s)


training:  40%|‚ñà‚ñà‚ñà‚ñâ      | 47757/120000 [35:43<51:39, 23.31it/s]  

itr: 47750 lr: 6.625e-05 train loss: 0.000000 (dt=11.22s)


training:  40%|‚ñà‚ñà‚ñà‚ñà      | 48007/120000 [35:54<51:29, 23.30it/s]  

itr: 48000 lr: 6.594e-05 train loss: 0.000000 (dt=11.22s)


training:  40%|‚ñà‚ñà‚ñà‚ñà      | 48257/120000 [36:06<51:19, 23.29it/s]  

itr: 48250 lr: 6.564e-05 train loss: 0.000000 (dt=11.22s)


training:  40%|‚ñà‚ñà‚ñà‚ñà      | 48507/120000 [36:17<51:08, 23.30it/s]  

itr: 48500 lr: 6.533e-05 train loss: 0.000000 (dt=11.22s)


training:  41%|‚ñà‚ñà‚ñà‚ñà      | 48757/120000 [36:28<50:58, 23.29it/s]  

itr: 48750 lr: 6.502e-05 train loss: 0.000000 (dt=11.22s)


training:  41%|‚ñà‚ñà‚ñà‚ñà      | 49007/120000 [36:39<50:44, 23.32it/s]  

itr: 49000 lr: 6.471e-05 train loss: 0.000001 (dt=11.22s)


training:  41%|‚ñà‚ñà‚ñà‚ñà      | 49257/120000 [36:50<50:34, 23.32it/s]  

itr: 49250 lr: 6.439e-05 train loss: 0.000000 (dt=11.22s)


training:  41%|‚ñà‚ñà‚ñà‚ñà‚ñè     | 49507/120000 [37:02<50:24, 23.30it/s]  

itr: 49500 lr: 6.408e-05 train loss: 0.000001 (dt=11.22s)


training:  41%|‚ñà‚ñà‚ñà‚ñà‚ñè     | 49757/120000 [37:13<50:14, 23.30it/s]  

itr: 49750 lr: 6.377e-05 train loss: 0.000000 (dt=11.22s)


training:  42%|‚ñà‚ñà‚ñà‚ñà‚ñè     | 50008/120000 [37:24<50:09, 23.26it/s]  

itr: 50000 lr: 6.346e-05 train loss: 0.000000 (dt=11.22s)


training:  42%|‚ñà‚ñà‚ñà‚ñà‚ñè     | 50257/120000 [37:35<48:25, 24.00it/s]  

itr: 50250 lr: 6.314e-05 train loss: 0.000023 (dt=11.22s)


training:  42%|‚ñà‚ñà‚ñà‚ñà‚ñè     | 50507/120000 [37:47<49:42, 23.30it/s]  

itr: 50500 lr: 6.283e-05 train loss: 0.000000 (dt=11.22s)


training:  42%|‚ñà‚ñà‚ñà‚ñà‚ñè     | 50757/120000 [37:58<49:32, 23.30it/s]  

itr: 50750 lr: 6.252e-05 train loss: 0.000000 (dt=11.22s)


training:  43%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 51007/120000 [38:09<49:20, 23.30it/s]  

itr: 51000 lr: 6.220e-05 train loss: 0.000000 (dt=11.22s)


training:  43%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 51257/120000 [38:20<49:10, 23.30it/s]  

itr: 51250 lr: 6.189e-05 train loss: 0.000000 (dt=11.22s)


training:  43%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 51507/120000 [38:31<48:58, 23.31it/s]  

itr: 51500 lr: 6.157e-05 train loss: 0.000000 (dt=11.22s)


training:  43%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 51757/120000 [38:43<48:48, 23.30it/s]  

itr: 51750 lr: 6.125e-05 train loss: 0.000000 (dt=11.22s)


training:  43%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 52007/120000 [38:54<48:37, 23.31it/s]

itr: 52000 lr: 6.094e-05 train loss: 0.000000 (dt=11.22s)


training:  44%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 52258/120000 [39:05<48:32, 23.26it/s]

itr: 52250 lr: 6.062e-05 train loss: 0.000000 (dt=11.22s)


training:  44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 52507/120000 [39:16<46:53, 23.99it/s]  

itr: 52500 lr: 6.030e-05 train loss: 0.000000 (dt=11.22s)


training:  44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 52757/120000 [39:28<48:05, 23.30it/s]

itr: 52750 lr: 5.998e-05 train loss: 0.000000 (dt=11.22s)


training:  44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 53007/120000 [39:39<47:55, 23.30it/s]

itr: 53000 lr: 5.966e-05 train loss: 0.000000 (dt=11.22s)


training:  44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 53257/120000 [39:50<47:44, 23.30it/s]

itr: 53250 lr: 5.934e-05 train loss: 0.000000 (dt=11.22s)


training:  45%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 53507/120000 [40:01<47:32, 23.31it/s]

itr: 53500 lr: 5.902e-05 train loss: 0.000000 (dt=11.22s)


training:  45%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 53757/120000 [40:12<47:21, 23.31it/s]

itr: 53750 lr: 5.870e-05 train loss: 0.000000 (dt=11.22s)


training:  45%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 54008/120000 [40:24<47:17, 23.26it/s]

itr: 54000 lr: 5.838e-05 train loss: 0.000000 (dt=11.22s)


training:  45%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 54257/120000 [40:35<45:38, 24.00it/s]  

itr: 54250 lr: 5.806e-05 train loss: 0.000000 (dt=11.22s)


training:  45%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 54507/120000 [40:46<46:50, 23.30it/s]

itr: 54500 lr: 5.774e-05 train loss: 0.000000 (dt=11.22s)


training:  46%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 54757/120000 [40:57<46:40, 23.30it/s]

itr: 54750 lr: 5.742e-05 train loss: 0.000021 (dt=11.22s)


training:  46%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 55007/120000 [41:09<46:31, 23.28it/s]

itr: 55000 lr: 5.710e-05 train loss: 0.000000 (dt=11.22s)


training:  46%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 55257/120000 [41:20<46:17, 23.31it/s]

itr: 55250 lr: 5.678e-05 train loss: 0.000000 (dt=11.22s)


training:  46%|‚ñà‚ñà‚ñà‚ñà‚ñã     | 55507/120000 [41:31<46:07, 23.30it/s]

itr: 55500 lr: 5.646e-05 train loss: 0.000000 (dt=11.22s)


training:  46%|‚ñà‚ñà‚ñà‚ñà‚ñã     | 55757/120000 [41:42<45:56, 23.30it/s]

itr: 55750 lr: 5.613e-05 train loss: 0.000000 (dt=11.22s)


training:  47%|‚ñà‚ñà‚ñà‚ñà‚ñã     | 56007/120000 [41:53<45:46, 23.30it/s]

itr: 56000 lr: 5.581e-05 train loss: 0.000000 (dt=11.22s)


training:  47%|‚ñà‚ñà‚ñà‚ñà‚ñã     | 56257/120000 [42:05<45:36, 23.30it/s]

itr: 56250 lr: 5.549e-05 train loss: 0.000000 (dt=11.22s)


training:  47%|‚ñà‚ñà‚ñà‚ñà‚ñã     | 56507/120000 [42:16<45:25, 23.29it/s]

itr: 56500 lr: 5.517e-05 train loss: 0.000000 (dt=11.22s)


training:  47%|‚ñà‚ñà‚ñà‚ñà‚ñã     | 56757/120000 [42:27<45:14, 23.30it/s]

itr: 56750 lr: 5.484e-05 train loss: 0.000000 (dt=11.22s)


training:  48%|‚ñà‚ñà‚ñà‚ñà‚ñä     | 57007/120000 [42:38<45:02, 23.31it/s]

itr: 57000 lr: 5.452e-05 train loss: 0.000000 (dt=11.22s)


training:  48%|‚ñà‚ñà‚ñà‚ñà‚ñä     | 57257/120000 [42:50<44:52, 23.31it/s]

itr: 57250 lr: 5.420e-05 train loss: 0.000000 (dt=11.22s)


training:  48%|‚ñà‚ñà‚ñà‚ñà‚ñä     | 57507/120000 [43:01<44:42, 23.30it/s]

itr: 57500 lr: 5.387e-05 train loss: 0.000000 (dt=11.22s)


training:  48%|‚ñà‚ñà‚ñà‚ñà‚ñä     | 57757/120000 [43:12<44:31, 23.30it/s]

itr: 57750 lr: 5.355e-05 train loss: 0.000002 (dt=11.22s)


training:  48%|‚ñà‚ñà‚ñà‚ñà‚ñä     | 58007/120000 [43:23<44:19, 23.31it/s]

itr: 58000 lr: 5.322e-05 train loss: 0.000000 (dt=11.22s)


training:  49%|‚ñà‚ñà‚ñà‚ñà‚ñä     | 58257/120000 [43:34<44:09, 23.31it/s]

itr: 58250 lr: 5.290e-05 train loss: 0.000000 (dt=11.22s)


training:  49%|‚ñà‚ñà‚ñà‚ñà‚ñâ     | 58507/120000 [43:46<43:57, 23.32it/s]

itr: 58500 lr: 5.258e-05 train loss: 0.000000 (dt=11.22s)


training:  49%|‚ñà‚ñà‚ñà‚ñà‚ñâ     | 58757/120000 [43:57<43:48, 23.30it/s]

itr: 58750 lr: 5.225e-05 train loss: 0.000000 (dt=11.22s)


training:  49%|‚ñà‚ñà‚ñà‚ñà‚ñâ     | 59007/120000 [44:08<43:35, 23.32it/s]

itr: 59000 lr: 5.193e-05 train loss: 0.000002 (dt=11.22s)


training:  49%|‚ñà‚ñà‚ñà‚ñà‚ñâ     | 59257/120000 [44:19<43:26, 23.31it/s]

itr: 59250 lr: 5.160e-05 train loss: 0.000000 (dt=11.22s)


training:  50%|‚ñà‚ñà‚ñà‚ñà‚ñâ     | 59507/120000 [44:31<43:14, 23.32it/s]

itr: 59500 lr: 5.128e-05 train loss: 0.000000 (dt=11.22s)


training:  50%|‚ñà‚ñà‚ñà‚ñà‚ñâ     | 59757/120000 [44:42<43:05, 23.30it/s]

itr: 59750 lr: 5.095e-05 train loss: 0.000000 (dt=11.22s)


training:  50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 60007/120000 [44:53<43:49, 22.82it/s]

itr: 60000 lr: 5.063e-05 train loss: 0.000000 (dt=11.22s)
saved checkpoint: ./saved_models_grid_bs8192_20260103_075004/Checkpoint_N128_L3_dup0_iters60001.pt


training:  50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 60257/120000 [45:04<42:43, 23.30it/s]

itr: 60250 lr: 5.031e-05 train loss: 0.000000 (dt=11.24s)


training:  50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 60508/120000 [45:16<42:38, 23.26it/s]

itr: 60500 lr: 4.998e-05 train loss: 0.000000 (dt=11.22s)


training:  51%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 60757/120000 [45:27<41:09, 23.99it/s]

itr: 60750 lr: 4.966e-05 train loss: 0.000000 (dt=11.22s)


training:  51%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 61007/120000 [45:38<42:11, 23.31it/s]

itr: 61000 lr: 4.933e-05 train loss: 0.000000 (dt=11.22s)


training:  51%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 61257/120000 [45:49<42:01, 23.29it/s]

itr: 61250 lr: 4.901e-05 train loss: 0.000000 (dt=11.22s)


training:  51%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 61507/120000 [46:00<41:47, 23.33it/s]

itr: 61500 lr: 4.868e-05 train loss: 0.000000 (dt=11.22s)


training:  51%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 61757/120000 [46:12<41:38, 23.31it/s]

itr: 61750 lr: 4.836e-05 train loss: 0.000000 (dt=11.22s)


training:  52%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 62007/120000 [46:23<41:28, 23.30it/s]

itr: 62000 lr: 4.803e-05 train loss: 0.000000 (dt=11.22s)


training:  52%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 62257/120000 [46:34<41:18, 23.30it/s]

itr: 62250 lr: 4.771e-05 train loss: 0.000000 (dt=11.22s)


training:  52%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 62507/120000 [46:45<41:08, 23.29it/s]

itr: 62500 lr: 4.739e-05 train loss: 0.000000 (dt=11.22s)


training:  52%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 62757/120000 [46:56<40:56, 23.30it/s]

itr: 62750 lr: 4.706e-05 train loss: 0.000000 (dt=11.22s)


training:  53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 63007/120000 [47:08<40:45, 23.30it/s]

itr: 63000 lr: 4.674e-05 train loss: 0.000000 (dt=11.22s)


training:  53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 63257/120000 [47:19<40:32, 23.33it/s]

itr: 63250 lr: 4.642e-05 train loss: 0.000000 (dt=11.22s)


training:  53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 63507/120000 [47:30<40:23, 23.31it/s]

itr: 63500 lr: 4.609e-05 train loss: 0.000000 (dt=11.22s)


training:  53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 63757/120000 [47:41<40:14, 23.30it/s]

itr: 63750 lr: 4.577e-05 train loss: 0.000000 (dt=11.22s)


training:  53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 64007/120000 [47:53<40:02, 23.31it/s]

itr: 64000 lr: 4.545e-05 train loss: 0.000000 (dt=11.22s)


training:  54%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 64257/120000 [48:04<39:51, 23.30it/s]

itr: 64250 lr: 4.512e-05 train loss: 0.000000 (dt=11.22s)


training:  54%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç    | 64507/120000 [48:15<39:41, 23.31it/s]

itr: 64500 lr: 4.480e-05 train loss: 0.000000 (dt=11.22s)


training:  54%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç    | 64757/120000 [48:26<39:31, 23.30it/s]

itr: 64750 lr: 4.448e-05 train loss: 0.000000 (dt=11.22s)


training:  54%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç    | 65007/120000 [48:37<39:20, 23.30it/s]

itr: 65000 lr: 4.416e-05 train loss: 0.000000 (dt=11.22s)


training:  54%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç    | 65257/120000 [48:49<39:09, 23.30it/s]

itr: 65250 lr: 4.384e-05 train loss: 0.000000 (dt=11.22s)


training:  55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç    | 65507/120000 [49:00<38:57, 23.31it/s]

itr: 65500 lr: 4.351e-05 train loss: 0.000000 (dt=11.22s)


training:  55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç    | 65757/120000 [49:11<38:47, 23.31it/s]

itr: 65750 lr: 4.319e-05 train loss: 0.000000 (dt=11.22s)


training:  55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 66008/120000 [49:22<38:41, 23.26it/s]

itr: 66000 lr: 4.287e-05 train loss: 0.000000 (dt=11.22s)


training:  55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 66257/120000 [49:34<37:19, 24.00it/s]

itr: 66250 lr: 4.255e-05 train loss: 0.000000 (dt=11.22s)


training:  55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 66507/120000 [49:45<38:15, 23.30it/s]

itr: 66500 lr: 4.223e-05 train loss: 0.000000 (dt=11.22s)


training:  56%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 66758/120000 [49:56<38:09, 23.26it/s]

itr: 66750 lr: 4.191e-05 train loss: 0.000000 (dt=11.22s)


training:  56%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 67007/120000 [50:07<36:46, 24.01it/s]

itr: 67000 lr: 4.159e-05 train loss: 0.000000 (dt=11.22s)


training:  56%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 67258/120000 [50:19<37:46, 23.27it/s]

itr: 67250 lr: 4.127e-05 train loss: 0.000000 (dt=11.22s)


training:  56%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã    | 67507/120000 [50:30<36:28, 23.98it/s]

itr: 67500 lr: 4.095e-05 train loss: 0.000000 (dt=11.22s)


training:  56%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã    | 67757/120000 [50:41<37:22, 23.30it/s]

itr: 67750 lr: 4.064e-05 train loss: 0.000000 (dt=11.22s)


training:  57%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã    | 68007/120000 [50:52<37:11, 23.30it/s]

itr: 68000 lr: 4.032e-05 train loss: 0.000000 (dt=11.22s)


training:  57%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã    | 68257/120000 [51:03<37:00, 23.30it/s]

itr: 68250 lr: 4.000e-05 train loss: 0.000000 (dt=11.22s)


training:  57%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã    | 68507/120000 [51:15<36:49, 23.30it/s]

itr: 68500 lr: 3.968e-05 train loss: 0.000000 (dt=11.22s)


training:  57%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã    | 68757/120000 [51:26<36:39, 23.30it/s]

itr: 68750 lr: 3.937e-05 train loss: 0.000002 (dt=11.22s)


training:  58%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä    | 69007/120000 [51:37<36:27, 23.31it/s]

itr: 69000 lr: 3.905e-05 train loss: 0.000000 (dt=11.22s)


training:  58%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä    | 69257/120000 [51:48<36:16, 23.31it/s]

itr: 69250 lr: 3.874e-05 train loss: 0.000000 (dt=11.22s)


training:  58%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä    | 69507/120000 [51:59<36:07, 23.30it/s]

itr: 69500 lr: 3.842e-05 train loss: 0.000000 (dt=11.22s)


training:  58%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä    | 69758/120000 [52:11<36:00, 23.25it/s]

itr: 69750 lr: 3.811e-05 train loss: 0.000000 (dt=11.22s)


training:  58%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä    | 70007/120000 [52:22<34:43, 23.99it/s]

itr: 70000 lr: 3.779e-05 train loss: 0.000000 (dt=11.22s)


training:  59%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä    | 70257/120000 [52:33<35:34, 23.30it/s]

itr: 70250 lr: 3.748e-05 train loss: 0.000000 (dt=11.22s)


training:  59%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ    | 70507/120000 [52:44<35:23, 23.30it/s]

itr: 70500 lr: 3.717e-05 train loss: 0.000000 (dt=11.22s)


training:  59%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ    | 70757/120000 [52:56<35:12, 23.31it/s]

itr: 70750 lr: 3.685e-05 train loss: 0.000000 (dt=11.22s)


training:  59%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ    | 71008/120000 [53:07<35:06, 23.26it/s]

itr: 71000 lr: 3.654e-05 train loss: 0.000000 (dt=11.22s)


training:  59%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ    | 71257/120000 [53:18<33:51, 24.00it/s]

itr: 71250 lr: 3.623e-05 train loss: 0.000000 (dt=11.22s)


training:  60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ    | 71507/120000 [53:29<34:41, 23.30it/s]

itr: 71500 lr: 3.592e-05 train loss: 0.000000 (dt=11.22s)


training:  60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ    | 71757/120000 [53:40<34:30, 23.30it/s]

itr: 71750 lr: 3.561e-05 train loss: 0.000000 (dt=11.22s)


training:  60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 72008/120000 [53:52<34:24, 23.25it/s]

itr: 72000 lr: 3.530e-05 train loss: 0.000000 (dt=11.22s)


training:  60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 72257/120000 [54:03<33:08, 24.01it/s]

itr: 72250 lr: 3.499e-05 train loss: 0.000000 (dt=11.22s)


training:  60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 72507/120000 [54:14<33:58, 23.30it/s]

itr: 72500 lr: 3.469e-05 train loss: 0.000000 (dt=11.22s)


training:  61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 72757/120000 [54:25<33:44, 23.33it/s]

itr: 72750 lr: 3.438e-05 train loss: 0.000000 (dt=11.22s)


training:  61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 73007/120000 [54:37<33:37, 23.30it/s]

itr: 73000 lr: 3.407e-05 train loss: 0.000000 (dt=11.22s)


training:  61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 73257/120000 [54:48<33:25, 23.30it/s]

itr: 73250 lr: 3.377e-05 train loss: 0.000000 (dt=11.22s)


training:  61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 73507/120000 [54:59<33:14, 23.31it/s]

itr: 73500 lr: 3.346e-05 train loss: 0.000000 (dt=11.22s)


training:  61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 73757/120000 [55:10<33:05, 23.30it/s]

itr: 73750 lr: 3.316e-05 train loss: 0.000000 (dt=11.22s)


training:  62%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 74007/120000 [55:21<32:52, 23.32it/s]

itr: 74000 lr: 3.285e-05 train loss: 0.000000 (dt=11.22s)


training:  62%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 74257/120000 [55:33<32:43, 23.30it/s]

itr: 74250 lr: 3.255e-05 train loss: 0.000000 (dt=11.22s)


training:  62%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 74507/120000 [55:44<32:31, 23.31it/s]

itr: 74500 lr: 3.225e-05 train loss: 0.000000 (dt=11.22s)


training:  62%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 74757/120000 [55:55<32:20, 23.31it/s]

itr: 74750 lr: 3.195e-05 train loss: 0.000000 (dt=11.22s)


training:  63%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé   | 75007/120000 [56:06<32:10, 23.31it/s]

itr: 75000 lr: 3.165e-05 train loss: 0.000000 (dt=11.22s)


training:  63%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé   | 75258/120000 [56:18<32:04, 23.25it/s]

itr: 75250 lr: 3.135e-05 train loss: 0.000000 (dt=11.22s)


training:  63%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé   | 75507/120000 [56:29<30:53, 24.00it/s]

itr: 75500 lr: 3.105e-05 train loss: 0.000000 (dt=11.22s)


training:  63%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé   | 75757/120000 [56:40<31:38, 23.30it/s]

itr: 75750 lr: 3.075e-05 train loss: 0.000000 (dt=11.22s)


training:  63%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé   | 76007/120000 [56:51<31:27, 23.31it/s]

itr: 76000 lr: 3.045e-05 train loss: 0.000000 (dt=11.22s)


training:  64%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé   | 76257/120000 [57:02<31:17, 23.29it/s]

itr: 76250 lr: 3.016e-05 train loss: 0.000000 (dt=11.22s)


training:  64%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç   | 76507/120000 [57:14<31:07, 23.29it/s]

itr: 76500 lr: 2.986e-05 train loss: 0.000000 (dt=11.22s)


training:  64%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç   | 76757/120000 [57:25<30:55, 23.31it/s]

itr: 76750 lr: 2.957e-05 train loss: 0.000000 (dt=11.22s)


training:  64%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç   | 77007/120000 [57:36<30:44, 23.31it/s]

itr: 77000 lr: 2.927e-05 train loss: 0.000000 (dt=11.22s)


training:  64%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç   | 77257/120000 [57:47<30:34, 23.30it/s]

itr: 77250 lr: 2.898e-05 train loss: 0.000000 (dt=11.22s)


training:  65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç   | 77508/120000 [57:59<30:28, 23.24it/s]

itr: 77500 lr: 2.869e-05 train loss: 0.000000 (dt=11.22s)


training:  65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç   | 77757/120000 [58:10<29:20, 24.00it/s]

itr: 77750 lr: 2.840e-05 train loss: 0.000000 (dt=11.22s)


training:  65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 78007/120000 [58:21<30:02, 23.29it/s]

itr: 78000 lr: 2.811e-05 train loss: 0.000000 (dt=11.22s)


training:  65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 78257/120000 [58:32<29:51, 23.30it/s]

itr: 78250 lr: 2.782e-05 train loss: 0.000000 (dt=11.22s)


training:  65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 78507/120000 [58:43<29:40, 23.30it/s]

itr: 78500 lr: 2.753e-05 train loss: 0.000000 (dt=11.22s)


training:  66%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 78758/120000 [58:55<29:34, 23.24it/s]

itr: 78750 lr: 2.724e-05 train loss: 0.000000 (dt=11.22s)


training:  66%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 79007/120000 [59:06<28:28, 23.99it/s]

itr: 79000 lr: 2.696e-05 train loss: 0.000000 (dt=11.22s)


training:  66%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 79257/120000 [59:17<29:08, 23.30it/s]

itr: 79250 lr: 2.667e-05 train loss: 0.000000 (dt=11.22s)


training:  66%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã   | 79507/120000 [59:28<28:58, 23.30it/s]

itr: 79500 lr: 2.639e-05 train loss: 0.000000 (dt=11.22s)


training:  66%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã   | 79757/120000 [59:40<28:46, 23.31it/s]

itr: 79750 lr: 2.611e-05 train loss: 0.000000 (dt=11.22s)


training:  67%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã   | 80007/120000 [59:51<29:13, 22.81it/s]

itr: 80000 lr: 2.582e-05 train loss: 0.000000 (dt=11.22s)
saved checkpoint: ./saved_models_grid_bs8192_20260103_075004/Checkpoint_N128_L3_dup0_iters80001.pt


training:  67%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã   | 80257/120000 [1:00:02<28:25, 23.30it/s]

itr: 80250 lr: 2.554e-05 train loss: 0.000000 (dt=11.24s)


training:  67%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã   | 80507/120000 [1:00:13<28:14, 23.30it/s]

itr: 80500 lr: 2.526e-05 train loss: 0.000000 (dt=11.22s)


training:  67%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã   | 80757/120000 [1:00:25<28:03, 23.31it/s]

itr: 80750 lr: 2.499e-05 train loss: 0.000000 (dt=11.22s)


training:  68%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä   | 81007/120000 [1:00:36<27:53, 23.30it/s]

itr: 81000 lr: 2.471e-05 train loss: 0.000000 (dt=11.22s)


training:  68%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä   | 81257/120000 [1:00:47<27:42, 23.30it/s]

itr: 81250 lr: 2.443e-05 train loss: 0.000000 (dt=11.22s)


training:  68%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä   | 81507/120000 [1:00:58<27:32, 23.30it/s]

itr: 81500 lr: 2.416e-05 train loss: 0.000000 (dt=11.22s)


training:  68%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä   | 81757/120000 [1:01:09<27:20, 23.31it/s]

itr: 81750 lr: 2.388e-05 train loss: 0.000000 (dt=11.22s)


training:  68%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä   | 82007/120000 [1:01:21<27:10, 23.30it/s]

itr: 82000 lr: 2.361e-05 train loss: 0.000000 (dt=11.22s)


training:  69%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä   | 82257/120000 [1:01:32<26:59, 23.30it/s]

itr: 82250 lr: 2.334e-05 train loss: 0.000000 (dt=11.22s)


training:  69%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 82507/120000 [1:01:43<26:49, 23.30it/s]

itr: 82500 lr: 2.307e-05 train loss: 0.000000 (dt=11.22s)


training:  69%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 82757/120000 [1:01:54<26:38, 23.31it/s]

itr: 82750 lr: 2.280e-05 train loss: 0.000000 (dt=11.22s)


training:  69%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 83007/120000 [1:02:06<26:27, 23.30it/s]

itr: 83000 lr: 2.253e-05 train loss: 0.000000 (dt=11.22s)


training:  69%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 83257/120000 [1:02:17<26:16, 23.30it/s]

itr: 83250 lr: 2.226e-05 train loss: 0.000000 (dt=11.22s)


training:  70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 83507/120000 [1:02:28<26:06, 23.30it/s]

itr: 83500 lr: 2.200e-05 train loss: 0.000000 (dt=11.22s)


training:  70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 83757/120000 [1:02:39<25:55, 23.30it/s]

itr: 83750 lr: 2.173e-05 train loss: 0.000000 (dt=11.22s)


training:  70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 84007/120000 [1:02:50<25:44, 23.31it/s]

itr: 84000 lr: 2.147e-05 train loss: 0.000000 (dt=11.22s)


training:  70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 84257/120000 [1:03:02<25:33, 23.31it/s]

itr: 84250 lr: 2.121e-05 train loss: 0.000000 (dt=11.22s)


training:  70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 84507/120000 [1:03:13<25:23, 23.30it/s]

itr: 84500 lr: 2.094e-05 train loss: 0.000000 (dt=11.22s)


training:  71%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 84757/120000 [1:03:24<25:12, 23.31it/s]

itr: 84750 lr: 2.068e-05 train loss: 0.000000 (dt=11.22s)


training:  71%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 85007/120000 [1:03:35<25:02, 23.30it/s]

itr: 85000 lr: 2.043e-05 train loss: 0.000000 (dt=11.22s)


training:  71%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 85257/120000 [1:03:47<24:50, 23.30it/s]

itr: 85250 lr: 2.017e-05 train loss: 0.000000 (dt=11.22s)


training:  71%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè  | 85507/120000 [1:03:58<24:40, 23.30it/s]

itr: 85500 lr: 1.991e-05 train loss: 0.000000 (dt=11.22s)


training:  71%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè  | 85757/120000 [1:04:09<24:29, 23.31it/s]

itr: 85750 lr: 1.966e-05 train loss: 0.000000 (dt=11.22s)


training:  72%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè  | 86007/120000 [1:04:20<24:18, 23.30it/s]

itr: 86000 lr: 1.941e-05 train loss: 0.000000 (dt=11.22s)


training:  72%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè  | 86257/120000 [1:04:31<24:07, 23.31it/s]

itr: 86250 lr: 1.915e-05 train loss: 0.000000 (dt=11.22s)


training:  72%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè  | 86507/120000 [1:04:43<23:57, 23.30it/s]

itr: 86500 lr: 1.890e-05 train loss: 0.000000 (dt=11.22s)


training:  72%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè  | 86757/120000 [1:04:54<23:46, 23.30it/s]

itr: 86750 lr: 1.865e-05 train loss: 0.000000 (dt=11.22s)


training:  73%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé  | 87007/120000 [1:05:05<23:35, 23.30it/s]

itr: 87000 lr: 1.841e-05 train loss: 0.000000 (dt=11.22s)


training:  73%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé  | 87257/120000 [1:05:16<23:25, 23.30it/s]

itr: 87250 lr: 1.816e-05 train loss: 0.000000 (dt=11.22s)


training:  73%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé  | 87507/120000 [1:05:28<23:14, 23.29it/s]

itr: 87500 lr: 1.792e-05 train loss: 0.000000 (dt=11.22s)


training:  73%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé  | 87757/120000 [1:05:39<23:03, 23.30it/s]

itr: 87750 lr: 1.767e-05 train loss: 0.000000 (dt=11.22s)


training:  73%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé  | 88007/120000 [1:05:50<22:53, 23.30it/s]

itr: 88000 lr: 1.743e-05 train loss: 0.000000 (dt=11.22s)


training:  74%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé  | 88257/120000 [1:06:01<22:42, 23.29it/s]

itr: 88250 lr: 1.719e-05 train loss: 0.000000 (dt=11.22s)


training:  74%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç  | 88507/120000 [1:06:12<22:31, 23.30it/s]

itr: 88500 lr: 1.695e-05 train loss: 0.000000 (dt=11.22s)


training:  74%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç  | 88757/120000 [1:06:24<22:21, 23.29it/s]

itr: 88750 lr: 1.671e-05 train loss: 0.000000 (dt=11.22s)


training:  74%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç  | 89007/120000 [1:06:35<22:10, 23.30it/s]

itr: 89000 lr: 1.648e-05 train loss: 0.000043 (dt=11.22s)


training:  74%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç  | 89257/120000 [1:06:46<21:59, 23.30it/s]

itr: 89250 lr: 1.624e-05 train loss: 0.000000 (dt=11.22s)


training:  75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç  | 89507/120000 [1:06:57<21:48, 23.30it/s]

itr: 89500 lr: 1.601e-05 train loss: 0.000000 (dt=11.22s)


training:  75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç  | 89757/120000 [1:07:09<21:37, 23.31it/s]

itr: 89750 lr: 1.577e-05 train loss: 0.000000 (dt=11.22s)


training:  75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 90007/120000 [1:07:20<21:27, 23.30it/s]

itr: 90000 lr: 1.554e-05 train loss: 0.000000 (dt=11.22s)


training:  75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 90257/120000 [1:07:31<21:16, 23.31it/s]

itr: 90250 lr: 1.532e-05 train loss: 0.000000 (dt=11.22s)


training:  75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 90508/120000 [1:07:42<21:09, 23.23it/s]

itr: 90500 lr: 1.509e-05 train loss: 0.000000 (dt=11.22s)


training:  76%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 90757/120000 [1:07:53<20:18, 24.01it/s]

itr: 90750 lr: 1.486e-05 train loss: 0.000000 (dt=11.22s)


training:  76%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 91007/120000 [1:08:05<20:42, 23.33it/s]

itr: 91000 lr: 1.464e-05 train loss: 0.000000 (dt=11.22s)


training:  76%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 91257/120000 [1:08:16<20:33, 23.29it/s]

itr: 91250 lr: 1.441e-05 train loss: 0.000000 (dt=11.22s)


training:  76%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã  | 91507/120000 [1:08:27<20:22, 23.31it/s]

itr: 91500 lr: 1.419e-05 train loss: 0.000000 (dt=11.22s)


training:  76%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã  | 91757/120000 [1:08:38<20:12, 23.30it/s]

itr: 91750 lr: 1.397e-05 train loss: 0.000000 (dt=11.22s)


training:  77%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã  | 92007/120000 [1:08:50<20:01, 23.31it/s]

itr: 92000 lr: 1.375e-05 train loss: 0.000000 (dt=11.22s)


training:  77%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã  | 92257/120000 [1:09:01<19:50, 23.30it/s]

itr: 92250 lr: 1.354e-05 train loss: 0.000000 (dt=11.22s)


training:  77%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã  | 92507/120000 [1:09:12<19:40, 23.29it/s]

itr: 92500 lr: 1.332e-05 train loss: 0.000000 (dt=11.22s)


training:  77%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã  | 92757/120000 [1:09:23<19:28, 23.31it/s]

itr: 92750 lr: 1.311e-05 train loss: 0.000000 (dt=11.22s)


training:  78%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 93007/120000 [1:09:34<19:18, 23.31it/s]

itr: 93000 lr: 1.290e-05 train loss: 0.000000 (dt=11.22s)


training:  78%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 93257/120000 [1:09:46<19:07, 23.30it/s]

itr: 93250 lr: 1.269e-05 train loss: 0.000000 (dt=11.22s)


training:  78%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 93507/120000 [1:09:57<18:56, 23.31it/s]

itr: 93500 lr: 1.248e-05 train loss: 0.000000 (dt=11.22s)


training:  78%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 93757/120000 [1:10:08<18:45, 23.31it/s]

itr: 93750 lr: 1.227e-05 train loss: 0.000000 (dt=11.22s)


training:  78%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 94007/120000 [1:10:19<18:35, 23.30it/s]

itr: 94000 lr: 1.207e-05 train loss: 0.000000 (dt=11.22s)


training:  79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 94257/120000 [1:10:31<18:24, 23.30it/s]

itr: 94250 lr: 1.186e-05 train loss: 0.000000 (dt=11.22s)


training:  79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 94507/120000 [1:10:42<18:14, 23.30it/s]

itr: 94500 lr: 1.166e-05 train loss: 0.000000 (dt=11.22s)


training:  79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 94757/120000 [1:10:53<18:03, 23.30it/s]

itr: 94750 lr: 1.146e-05 train loss: 0.000000 (dt=11.22s)


training:  79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 95007/120000 [1:11:04<17:52, 23.30it/s]

itr: 95000 lr: 1.126e-05 train loss: 0.000000 (dt=11.22s)


training:  79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 95257/120000 [1:11:15<17:41, 23.30it/s]

itr: 95250 lr: 1.106e-05 train loss: 0.000000 (dt=11.22s)


training:  80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 95507/120000 [1:11:27<17:31, 23.30it/s]

itr: 95500 lr: 1.087e-05 train loss: 0.000000 (dt=11.22s)


training:  80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 95757/120000 [1:11:38<17:20, 23.31it/s]

itr: 95750 lr: 1.068e-05 train loss: 0.000000 (dt=11.22s)


training:  80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 96007/120000 [1:11:49<17:09, 23.30it/s]

itr: 96000 lr: 1.048e-05 train loss: 0.000000 (dt=11.22s)


training:  80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 96257/120000 [1:12:00<16:59, 23.29it/s]

itr: 96250 lr: 1.029e-05 train loss: 0.000000 (dt=11.22s)


training:  80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 96507/120000 [1:12:12<16:47, 23.31it/s]

itr: 96500 lr: 1.011e-05 train loss: 0.000000 (dt=11.22s)


training:  81%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 96757/120000 [1:12:23<16:36, 23.32it/s]

itr: 96750 lr: 9.919e-06 train loss: 0.000000 (dt=11.22s)


training:  81%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 97007/120000 [1:12:34<16:26, 23.31it/s]

itr: 97000 lr: 9.734e-06 train loss: 0.000000 (dt=11.22s)


training:  81%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 97257/120000 [1:12:45<16:15, 23.30it/s]

itr: 97250 lr: 9.551e-06 train loss: 0.000000 (dt=11.22s)


training:  81%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè | 97507/120000 [1:12:56<16:05, 23.30it/s]

itr: 97500 lr: 9.369e-06 train loss: 0.000000 (dt=11.22s)


training:  81%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè | 97758/120000 [1:13:08<15:56, 23.25it/s]

itr: 97750 lr: 9.190e-06 train loss: 0.000000 (dt=11.22s)


training:  82%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè | 98007/120000 [1:13:19<15:15, 24.01it/s]

itr: 98000 lr: 9.012e-06 train loss: 0.000000 (dt=11.22s)


training:  82%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè | 98257/120000 [1:13:30<15:33, 23.30it/s]

itr: 98250 lr: 8.836e-06 train loss: 0.000000 (dt=11.22s)


training:  82%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè | 98507/120000 [1:13:41<15:22, 23.30it/s]

itr: 98500 lr: 8.661e-06 train loss: 0.000000 (dt=11.22s)


training:  82%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè | 98758/120000 [1:13:53<15:13, 23.25it/s]

itr: 98750 lr: 8.489e-06 train loss: 0.000000 (dt=11.22s)


training:  83%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé | 99007/120000 [1:14:04<14:34, 24.00it/s]

itr: 99000 lr: 8.318e-06 train loss: 0.000000 (dt=11.22s)


training:  83%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé | 99257/120000 [1:14:15<14:49, 23.32it/s]

itr: 99250 lr: 8.149e-06 train loss: 0.000000 (dt=11.22s)


training:  83%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé | 99507/120000 [1:14:26<14:38, 23.33it/s]

itr: 99500 lr: 7.982e-06 train loss: 0.000000 (dt=11.22s)


training:  83%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé | 99757/120000 [1:14:37<14:28, 23.31it/s]

itr: 99750 lr: 7.817e-06 train loss: 0.000000 (dt=11.22s)


training:  83%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé | 100007/120000 [1:14:49<14:37, 22.79it/s]

itr: 100000 lr: 7.653e-06 train loss: 0.000000 (dt=11.22s)
saved checkpoint: ./saved_models_grid_bs8192_20260103_075004/Checkpoint_N128_L3_dup0_iters100001.pt


training:  84%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé | 100257/120000 [1:15:00<14:07, 23.30it/s]

itr: 100250 lr: 7.492e-06 train loss: 0.000000 (dt=11.24s)


training:  84%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç | 100507/120000 [1:15:11<13:56, 23.30it/s]

itr: 100500 lr: 7.332e-06 train loss: 0.000000 (dt=11.22s)


training:  84%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç | 100757/120000 [1:15:22<13:45, 23.30it/s]

itr: 100750 lr: 7.174e-06 train loss: 0.000000 (dt=11.22s)


training:  84%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç | 101007/120000 [1:15:34<13:35, 23.30it/s]

itr: 101000 lr: 7.018e-06 train loss: 0.000000 (dt=11.22s)


training:  84%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç | 101257/120000 [1:15:45<13:24, 23.29it/s]

itr: 101250 lr: 6.864e-06 train loss: 0.000000 (dt=11.22s)


training:  85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç | 101507/120000 [1:15:56<13:13, 23.30it/s]

itr: 101500 lr: 6.712e-06 train loss: 0.000000 (dt=11.22s)


training:  85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç | 101757/120000 [1:16:07<13:02, 23.30it/s]

itr: 101750 lr: 6.561e-06 train loss: 0.000000 (dt=11.22s)


training:  85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 102007/120000 [1:16:18<12:52, 23.30it/s]

itr: 102000 lr: 6.413e-06 train loss: 0.000000 (dt=11.22s)


training:  85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 102257/120000 [1:16:30<12:40, 23.33it/s]

itr: 102250 lr: 6.266e-06 train loss: 0.000000 (dt=11.22s)


training:  85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 102507/120000 [1:16:41<12:30, 23.30it/s]

itr: 102500 lr: 6.122e-06 train loss: 0.000000 (dt=11.22s)


training:  86%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 102757/120000 [1:16:52<12:19, 23.33it/s]

itr: 102750 lr: 5.979e-06 train loss: 0.000000 (dt=11.22s)


training:  86%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 103007/120000 [1:17:03<12:09, 23.30it/s]

itr: 103000 lr: 5.838e-06 train loss: 0.000000 (dt=11.22s)


training:  86%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 103257/120000 [1:17:15<11:58, 23.31it/s]

itr: 103250 lr: 5.699e-06 train loss: 0.000000 (dt=11.22s)


training:  86%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 103507/120000 [1:17:26<11:47, 23.31it/s]

itr: 103500 lr: 5.562e-06 train loss: 0.000000 (dt=11.22s)


training:  86%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 103757/120000 [1:17:37<11:37, 23.30it/s]

itr: 103750 lr: 5.427e-06 train loss: 0.000000 (dt=11.22s)


training:  87%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 104007/120000 [1:17:48<11:26, 23.30it/s]

itr: 104000 lr: 5.294e-06 train loss: 0.000000 (dt=11.22s)


training:  87%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 104257/120000 [1:17:59<11:15, 23.29it/s]

itr: 104250 lr: 5.162e-06 train loss: 0.000000 (dt=11.22s)


training:  87%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 104507/120000 [1:18:11<11:05, 23.30it/s]

itr: 104500 lr: 5.033e-06 train loss: 0.000000 (dt=11.22s)


training:  87%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 104757/120000 [1:18:22<10:54, 23.30it/s]

itr: 104750 lr: 4.906e-06 train loss: 0.000000 (dt=11.22s)


training:  88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 105007/120000 [1:18:33<10:43, 23.31it/s]

itr: 105000 lr: 4.780e-06 train loss: 0.000000 (dt=11.22s)


training:  88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 105257/120000 [1:18:44<10:32, 23.31it/s]

itr: 105250 lr: 4.657e-06 train loss: 0.000000 (dt=11.22s)


training:  88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 105508/120000 [1:18:56<10:23, 23.26it/s]

itr: 105500 lr: 4.536e-06 train loss: 0.000000 (dt=11.22s)


training:  88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 105757/120000 [1:19:07<09:53, 24.01it/s]

itr: 105750 lr: 4.416e-06 train loss: 0.000000 (dt=11.22s)


training:  88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 106007/120000 [1:19:18<10:00, 23.30it/s]

itr: 106000 lr: 4.299e-06 train loss: 0.000000 (dt=11.22s)


training:  89%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 106257/120000 [1:19:29<09:49, 23.29it/s]

itr: 106250 lr: 4.183e-06 train loss: 0.000000 (dt=11.22s)


training:  89%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ | 106508/120000 [1:19:40<09:40, 23.25it/s]

itr: 106500 lr: 4.070e-06 train loss: 0.000000 (dt=11.22s)


training:  89%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ | 106757/120000 [1:19:52<09:11, 24.00it/s]

itr: 106750 lr: 3.958e-06 train loss: 0.000000 (dt=11.22s)


training:  89%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ | 107007/120000 [1:20:03<09:17, 23.30it/s]

itr: 107000 lr: 3.849e-06 train loss: 0.000000 (dt=11.22s)


training:  89%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ | 107257/120000 [1:20:14<09:06, 23.31it/s]

itr: 107250 lr: 3.741e-06 train loss: 0.000000 (dt=11.22s)


training:  90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ | 107507/120000 [1:20:25<08:56, 23.29it/s]

itr: 107500 lr: 3.636e-06 train loss: 0.000000 (dt=11.22s)


training:  90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ | 107757/120000 [1:20:37<08:45, 23.30it/s]

itr: 107750 lr: 3.532e-06 train loss: 0.000000 (dt=11.22s)


training:  90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 108007/120000 [1:20:48<08:34, 23.31it/s]

itr: 108000 lr: 3.431e-06 train loss: 0.000000 (dt=11.22s)


training:  90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 108258/120000 [1:20:59<08:24, 23.26it/s]

itr: 108250 lr: 3.331e-06 train loss: 0.000000 (dt=11.22s)


training:  90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 108507/120000 [1:21:10<07:58, 24.02it/s]

itr: 108500 lr: 3.234e-06 train loss: 0.000000 (dt=11.22s)


training:  91%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 108757/120000 [1:21:21<08:02, 23.30it/s]

itr: 108750 lr: 3.139e-06 train loss: 0.000000 (dt=11.22s)


training:  91%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 109007/120000 [1:21:33<07:51, 23.30it/s]

itr: 109000 lr: 3.045e-06 train loss: 0.000000 (dt=11.22s)


training:  91%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 109257/120000 [1:21:44<07:41, 23.30it/s]

itr: 109250 lr: 2.954e-06 train loss: 0.000000 (dt=11.22s)


training:  91%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè| 109507/120000 [1:21:55<07:30, 23.31it/s]

itr: 109500 lr: 2.865e-06 train loss: 0.000000 (dt=11.22s)


training:  91%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè| 109757/120000 [1:22:06<07:19, 23.30it/s]

itr: 109750 lr: 2.777e-06 train loss: 0.000000 (dt=11.22s)


training:  92%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè| 110007/120000 [1:22:18<07:08, 23.30it/s]

itr: 110000 lr: 2.692e-06 train loss: 0.000000 (dt=11.22s)


training:  92%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè| 110257/120000 [1:22:29<06:58, 23.30it/s]

itr: 110250 lr: 2.609e-06 train loss: 0.000000 (dt=11.22s)


training:  92%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè| 110507/120000 [1:22:40<06:47, 23.31it/s]

itr: 110500 lr: 2.528e-06 train loss: 0.000000 (dt=11.22s)


training:  92%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè| 110757/120000 [1:22:51<06:36, 23.30it/s]

itr: 110750 lr: 2.449e-06 train loss: 0.000000 (dt=11.22s)


training:  93%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé| 111007/120000 [1:23:02<06:25, 23.31it/s]

itr: 111000 lr: 2.372e-06 train loss: 0.000000 (dt=11.22s)


training:  93%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé| 111257/120000 [1:23:14<06:15, 23.30it/s]

itr: 111250 lr: 2.297e-06 train loss: 0.000000 (dt=11.22s)


training:  93%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé| 111507/120000 [1:23:25<06:04, 23.31it/s]

itr: 111500 lr: 2.225e-06 train loss: 0.000000 (dt=11.22s)


training:  93%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé| 111757/120000 [1:23:36<05:53, 23.30it/s]

itr: 111750 lr: 2.154e-06 train loss: 0.000000 (dt=11.22s)


training:  93%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé| 112007/120000 [1:23:47<05:42, 23.31it/s]

itr: 112000 lr: 2.085e-06 train loss: 0.000000 (dt=11.22s)


training:  94%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé| 112257/120000 [1:23:59<05:32, 23.29it/s]

itr: 112250 lr: 2.019e-06 train loss: 0.000000 (dt=11.22s)


training:  94%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç| 112507/120000 [1:24:10<05:21, 23.29it/s]

itr: 112500 lr: 1.954e-06 train loss: 0.000000 (dt=11.22s)


training:  94%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç| 112757/120000 [1:24:21<05:10, 23.31it/s]

itr: 112750 lr: 1.892e-06 train loss: 0.000000 (dt=11.22s)


training:  94%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç| 113008/120000 [1:24:32<05:00, 23.24it/s]

itr: 113000 lr: 1.832e-06 train loss: 0.000000 (dt=11.22s)


training:  94%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç| 113257/120000 [1:24:43<04:40, 24.00it/s]

itr: 113250 lr: 1.773e-06 train loss: 0.000000 (dt=11.22s)


training:  95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç| 113507/120000 [1:24:55<04:38, 23.30it/s]

itr: 113500 lr: 1.717e-06 train loss: 0.000000 (dt=11.22s)


training:  95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç| 113757/120000 [1:25:06<04:27, 23.32it/s]

itr: 113750 lr: 1.663e-06 train loss: 0.000000 (dt=11.22s)


training:  95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 114007/120000 [1:25:17<04:17, 23.30it/s]

itr: 114000 lr: 1.611e-06 train loss: 0.000000 (dt=11.22s)


training:  95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 114257/120000 [1:25:28<04:06, 23.33it/s]

itr: 114250 lr: 1.562e-06 train loss: 0.000000 (dt=11.22s)


training:  95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 114507/120000 [1:25:40<03:55, 23.30it/s]

itr: 114500 lr: 1.514e-06 train loss: 0.000000 (dt=11.22s)


training:  96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 114757/120000 [1:25:51<03:44, 23.31it/s]

itr: 114750 lr: 1.468e-06 train loss: 0.000000 (dt=11.22s)


training:  96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 115008/120000 [1:26:02<03:34, 23.25it/s]

itr: 115000 lr: 1.425e-06 train loss: 0.000000 (dt=11.22s)


training:  96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 115257/120000 [1:26:13<03:17, 24.00it/s]

itr: 115250 lr: 1.384e-06 train loss: 0.000000 (dt=11.22s)


training:  96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã| 115507/120000 [1:26:24<03:12, 23.33it/s]

itr: 115500 lr: 1.344e-06 train loss: 0.000000 (dt=11.22s)


training:  96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã| 115757/120000 [1:26:36<03:02, 23.31it/s]

itr: 115750 lr: 1.307e-06 train loss: 0.000000 (dt=11.22s)


training:  97%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã| 116008/120000 [1:26:47<02:51, 23.26it/s]

itr: 116000 lr: 1.272e-06 train loss: 0.000000 (dt=11.22s)


training:  97%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã| 116257/120000 [1:26:58<02:36, 23.98it/s]

itr: 116250 lr: 1.239e-06 train loss: 0.000000 (dt=11.22s)


training:  97%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã| 116507/120000 [1:27:09<02:29, 23.30it/s]

itr: 116500 lr: 1.208e-06 train loss: 0.000000 (dt=11.22s)


training:  97%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã| 116757/120000 [1:27:21<02:19, 23.31it/s]

itr: 116750 lr: 1.180e-06 train loss: 0.000000 (dt=11.22s)


training:  98%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä| 117007/120000 [1:27:32<02:08, 23.33it/s]

itr: 117000 lr: 1.153e-06 train loss: 0.000000 (dt=11.22s)


training:  98%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä| 117257/120000 [1:27:43<01:57, 23.30it/s]

itr: 117250 lr: 1.129e-06 train loss: 0.000000 (dt=11.22s)


training:  98%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä| 117507/120000 [1:27:54<01:47, 23.29it/s]

itr: 117500 lr: 1.106e-06 train loss: 0.000000 (dt=11.22s)


training:  98%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä| 117757/120000 [1:28:05<01:36, 23.31it/s]

itr: 117750 lr: 1.086e-06 train loss: 0.000000 (dt=11.22s)


training:  98%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä| 118007/120000 [1:28:17<01:25, 23.29it/s]

itr: 118000 lr: 1.068e-06 train loss: 0.000000 (dt=11.22s)


training:  99%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä| 118257/120000 [1:28:28<01:14, 23.31it/s]

itr: 118250 lr: 1.052e-06 train loss: 0.000000 (dt=11.22s)


training:  99%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ| 118507/120000 [1:28:39<01:04, 23.30it/s]

itr: 118500 lr: 1.038e-06 train loss: 0.000000 (dt=11.22s)


training:  99%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ| 118758/120000 [1:28:50<00:53, 23.24it/s]

itr: 118750 lr: 1.027e-06 train loss: 0.000000 (dt=11.22s)


training:  99%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ| 119007/120000 [1:29:02<00:41, 24.01it/s]

itr: 119000 lr: 1.017e-06 train loss: 0.000000 (dt=11.22s)


training:  99%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ| 119257/120000 [1:29:13<00:31, 23.30it/s]

itr: 119250 lr: 1.010e-06 train loss: 0.000000 (dt=11.22s)


training: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ| 119507/120000 [1:29:24<00:21, 23.31it/s]

itr: 119500 lr: 1.004e-06 train loss: 0.000000 (dt=11.22s)


training: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ| 119757/120000 [1:29:35<00:10, 23.31it/s]

itr: 119750 lr: 1.001e-06 train loss: 0.000000 (dt=11.22s)


training: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 120000/120000 [1:29:46<00:00, 22.28it/s]


saved final model: ./saved_models_grid_bs8192_20260103_075004/Final_N128_L3_dup0_iters120000.pt


0,1
iter,‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÉ‚ñÉ‚ñÉ‚ñÑ‚ñÑ‚ñÑ‚ñÑ‚ñÑ‚ñÑ‚ñÑ‚ñÖ‚ñÖ‚ñÖ‚ñÖ‚ñÖ‚ñÖ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñá‚ñá‚ñá‚ñá‚ñà‚ñà‚ñà‚ñà‚ñà
ll/iter,‚ñÅ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÉ‚ñÉ‚ñÑ‚ñÑ‚ñÑ‚ñÑ‚ñÖ‚ñÖ‚ñÖ‚ñÖ‚ñÜ‚ñÜ‚ñÜ‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà
ll/lr,‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñÜ‚ñÜ‚ñÜ‚ñÖ‚ñÖ‚ñÖ‚ñÖ‚ñÖ‚ñÑ‚ñÑ‚ñÑ‚ñÉ‚ñÅ‚ñÅ‚ñÅ‚ñÅ
ll/train_loss,‚ñà‚ñÖ‚ñÖ‚ñÑ‚ñÖ‚ñÉ‚ñÑ‚ñÉ‚ñÉ‚ñÉ‚ñÇ‚ñÇ‚ñÉ‚ñÇ‚ñÇ‚ñÑ‚ñÉ‚ñÇ‚ñÉ‚ñÇ‚ñÉ‚ñÇ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÇ‚ñÅ‚ñÅ‚ñÅ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ
lr,‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñá‚ñá‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÖ‚ñÖ‚ñÖ‚ñÖ‚ñÖ‚ñÖ‚ñÑ‚ñÑ‚ñÑ‚ñÉ‚ñÉ‚ñÉ‚ñÉ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ
plateau/delta_log10_loss_window,‚ñà‚ñá‚ñÜ‚ñÖ‚ñÅ‚ñÜ‚ñÖ‚ñÖ‚ñÇ‚ñÖ‚ñÑ‚ñá‚ñÜ‚ñÖ‚ñÑ‚ñÉ‚ñÑ‚ñÜ‚ñÉ‚ñÑ‚ñÑ‚ñÅ‚ñÑ‚ñÖ‚ñÑ‚ñÑ‚ñÑ‚ñÑ‚ñÑ‚ñÑ‚ñÑ‚ñÑ‚ñÑ‚ñÑ‚ñÑ‚ñÑ‚ñÑ‚ñÑ‚ñÑ‚ñÑ
plateau/hits,‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñà‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ
plateau/loglog_slope,‚ñÑ‚ñÑ‚ñÑ‚ñÖ‚ñÖ‚ñÑ‚ñÖ‚ñÖ‚ñÖ‚ñÖ‚ñÖ‚ñÖ‚ñÑ‚ñÑ‚ñÉ‚ñÇ‚ñÅ‚ñÇ‚ñÑ‚ñÑ‚ñÖ‚ñÖ‚ñÖ‚ñá‚ñá‚ñÜ‚ñÜ‚ñà‚ñÖ‚ñÜ‚ñÑ‚ñÖ‚ñÖ‚ñÜ‚ñÜ‚ñÖ‚ñÖ‚ñÖ‚ñÖ‚ñÖ
plateau/now,‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ
plateau/reached,‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ

0,1
iter,120000
iters_done,120000
ll/iter,5.07918
ll/lr,-6.0
ll/train_loss,-7.61085
lr,0.0
plateau/delta_log10_loss_window,0.00316
plateau/hits,1
plateau/loglog_slope,0.35649
plateau/now,0


using device: cuda


training:   0%|          | 8/120000 [00:00<33:44, 59.26it/s]

itr: 0 lr: 4.975e-07 train loss: 4.875217 (dt=0.04s)


training:   0%|          | 259/120000 [00:08<59:05, 33.77it/s]  

itr: 250 lr: 1.000e-04 train loss: 3.872780 (dt=7.99s)


training:   0%|          | 509/120000 [00:16<1:00:13, 33.07it/s]

itr: 500 lr: 1.000e-04 train loss: 2.699807 (dt=7.98s)


training:   1%|          | 759/120000 [00:24<1:00:04, 33.08it/s]

itr: 750 lr: 9.999e-05 train loss: 1.592466 (dt=7.98s)


training:   1%|          | 1009/120000 [00:32<59:57, 33.08it/s]  

itr: 1000 lr: 9.999e-05 train loss: 0.731872 (dt=7.98s)


training:   1%|          | 1259/120000 [00:40<59:52, 33.05it/s]  

itr: 1250 lr: 9.998e-05 train loss: 0.264422 (dt=7.98s)


training:   1%|‚ñè         | 1510/120000 [00:48<59:53, 32.97it/s]  

itr: 1500 lr: 9.997e-05 train loss: 0.088311 (dt=7.98s)


training:   1%|‚ñè         | 1760/120000 [00:56<1:00:36, 32.52it/s]

itr: 1750 lr: 9.996e-05 train loss: 0.032412 (dt=7.98s)


training:   2%|‚ñè         | 2010/120000 [01:04<1:00:20, 32.59it/s]

itr: 2000 lr: 9.994e-05 train loss: 0.014802 (dt=7.98s)


training:   2%|‚ñè         | 2260/120000 [01:12<1:00:10, 32.61it/s]

itr: 2250 lr: 9.993e-05 train loss: 0.007740 (dt=7.98s)


training:   2%|‚ñè         | 2510/120000 [01:19<1:00:08, 32.56it/s]

itr: 2500 lr: 9.991e-05 train loss: 0.004594 (dt=7.98s)


training:   2%|‚ñè         | 2760/120000 [01:27<1:00:06, 32.51it/s]

itr: 2750 lr: 9.989e-05 train loss: 0.002803 (dt=7.98s)


training:   3%|‚ñé         | 3010/120000 [01:35<59:56, 32.53it/s]  

itr: 3000 lr: 9.987e-05 train loss: 0.001883 (dt=7.98s)


training:   3%|‚ñé         | 3260/120000 [01:43<59:48, 32.53it/s]  

itr: 3250 lr: 9.984e-05 train loss: 0.001408 (dt=7.98s)


training:   3%|‚ñé         | 3510/120000 [01:51<59:41, 32.53it/s]  

itr: 3500 lr: 9.981e-05 train loss: 0.000923 (dt=7.98s)


training:   3%|‚ñé         | 3760/120000 [01:59<59:33, 32.53it/s]  

itr: 3750 lr: 9.979e-05 train loss: 0.000739 (dt=7.98s)


training:   3%|‚ñé         | 4010/120000 [02:07<59:20, 32.57it/s]  

itr: 4000 lr: 9.975e-05 train loss: 0.000563 (dt=7.98s)


training:   4%|‚ñé         | 4260/120000 [02:15<59:17, 32.53it/s]  

itr: 4250 lr: 9.972e-05 train loss: 0.000421 (dt=7.98s)


training:   4%|‚ñç         | 4510/120000 [02:23<59:12, 32.51it/s]  

itr: 4500 lr: 9.969e-05 train loss: 0.000418 (dt=7.98s)


training:   4%|‚ñç         | 4760/120000 [02:31<59:05, 32.50it/s]  

itr: 4750 lr: 9.965e-05 train loss: 0.000291 (dt=7.98s)


training:   4%|‚ñç         | 5010/120000 [02:39<58:55, 32.52it/s]  

itr: 5000 lr: 9.961e-05 train loss: 0.000253 (dt=7.98s)


training:   4%|‚ñç         | 5260/120000 [02:47<58:48, 32.52it/s]  

itr: 5250 lr: 9.957e-05 train loss: 0.000146 (dt=7.98s)


training:   5%|‚ñç         | 5510/120000 [02:55<58:41, 32.52it/s]  

itr: 5500 lr: 9.952e-05 train loss: 0.000183 (dt=7.98s)


training:   5%|‚ñç         | 5760/120000 [03:03<58:33, 32.52it/s]  

itr: 5750 lr: 9.948e-05 train loss: 0.000137 (dt=7.98s)


training:   5%|‚ñå         | 6010/120000 [03:11<58:25, 32.52it/s]  

itr: 6000 lr: 9.943e-05 train loss: 0.000097 (dt=7.98s)


training:   5%|‚ñå         | 6260/120000 [03:19<58:19, 32.50it/s]  

itr: 6250 lr: 9.938e-05 train loss: 0.000091 (dt=7.98s)


training:   5%|‚ñå         | 6510/120000 [03:27<58:12, 32.50it/s]  

itr: 6500 lr: 9.933e-05 train loss: 0.000146 (dt=7.98s)


training:   6%|‚ñå         | 6760/120000 [03:35<58:03, 32.51it/s]  

itr: 6750 lr: 9.927e-05 train loss: 0.000042 (dt=7.98s)


training:   6%|‚ñå         | 7010/120000 [03:43<57:55, 32.51it/s]  

itr: 7000 lr: 9.922e-05 train loss: 0.000061 (dt=7.98s)


training:   6%|‚ñå         | 7260/120000 [03:51<57:47, 32.51it/s]  

itr: 7250 lr: 9.916e-05 train loss: 0.000033 (dt=7.98s)


training:   6%|‚ñã         | 7510/120000 [03:59<57:39, 32.52it/s]  

itr: 7500 lr: 9.910e-05 train loss: 0.000041 (dt=7.98s)


training:   6%|‚ñã         | 7760/120000 [04:07<57:31, 32.52it/s]  

itr: 7750 lr: 9.903e-05 train loss: 0.000028 (dt=7.98s)


training:   7%|‚ñã         | 8010/120000 [04:15<57:24, 32.52it/s]  

itr: 8000 lr: 9.897e-05 train loss: 0.000062 (dt=7.98s)


training:   7%|‚ñã         | 8260/120000 [04:23<57:17, 32.51it/s]  

itr: 8250 lr: 9.890e-05 train loss: 0.000021 (dt=7.98s)


training:   7%|‚ñã         | 8510/120000 [04:31<57:09, 32.51it/s]  

itr: 8500 lr: 9.883e-05 train loss: 0.000073 (dt=7.98s)


training:   7%|‚ñã         | 8760/120000 [04:39<57:00, 32.52it/s]  

itr: 8750 lr: 9.876e-05 train loss: 0.000036 (dt=7.98s)


training:   8%|‚ñä         | 9010/120000 [04:47<56:53, 32.52it/s]  

itr: 9000 lr: 9.869e-05 train loss: 0.000022 (dt=7.98s)


training:   8%|‚ñä         | 9260/120000 [04:55<56:45, 32.52it/s]  

itr: 9250 lr: 9.861e-05 train loss: 0.000016 (dt=7.98s)


training:   8%|‚ñä         | 9510/120000 [05:03<56:38, 32.51it/s]  

itr: 9500 lr: 9.854e-05 train loss: 0.000010 (dt=7.98s)


training:   8%|‚ñä         | 9760/120000 [05:11<56:31, 32.51it/s]  

itr: 9750 lr: 9.846e-05 train loss: 0.000016 (dt=7.98s)


training:   8%|‚ñä         | 10010/120000 [05:19<56:24, 32.50it/s]  

itr: 10000 lr: 9.837e-05 train loss: 0.000014 (dt=7.98s)


training:   9%|‚ñä         | 10260/120000 [05:27<56:14, 32.52it/s]  

itr: 10250 lr: 9.829e-05 train loss: 0.000009 (dt=7.98s)


training:   9%|‚ñâ         | 10510/120000 [05:35<56:06, 32.52it/s]  

itr: 10500 lr: 9.821e-05 train loss: 0.000017 (dt=7.98s)


training:   9%|‚ñâ         | 10760/120000 [05:43<55:59, 32.52it/s]  

itr: 10750 lr: 9.812e-05 train loss: 0.000010 (dt=7.98s)


training:   9%|‚ñâ         | 11010/120000 [05:51<55:52, 32.51it/s]  

itr: 11000 lr: 9.803e-05 train loss: 0.000010 (dt=7.98s)


training:   9%|‚ñâ         | 11260/120000 [05:59<55:44, 32.52it/s]  

itr: 11250 lr: 9.794e-05 train loss: 0.000008 (dt=7.98s)


training:  10%|‚ñâ         | 11510/120000 [06:07<55:36, 32.52it/s]  

itr: 11500 lr: 9.784e-05 train loss: 0.000005 (dt=7.98s)


training:  10%|‚ñâ         | 11760/120000 [06:15<55:28, 32.52it/s]  

itr: 11750 lr: 9.775e-05 train loss: 0.000009 (dt=7.98s)


training:  10%|‚ñà         | 12010/120000 [06:23<55:21, 32.51it/s]  

itr: 12000 lr: 9.765e-05 train loss: 0.000009 (dt=7.98s)


training:  10%|‚ñà         | 12260/120000 [06:31<55:13, 32.51it/s]  

itr: 12250 lr: 9.755e-05 train loss: 0.000005 (dt=7.98s)


training:  10%|‚ñà         | 12510/120000 [06:39<55:05, 32.52it/s]  

itr: 12500 lr: 9.745e-05 train loss: 0.000015 (dt=7.98s)


training:  11%|‚ñà         | 12760/120000 [06:47<54:57, 32.52it/s]  

itr: 12750 lr: 9.734e-05 train loss: 0.000004 (dt=7.98s)


training:  11%|‚ñà         | 13010/120000 [06:55<54:43, 32.58it/s]  

itr: 13000 lr: 9.724e-05 train loss: 0.000010 (dt=7.98s)


training:  11%|‚ñà         | 13260/120000 [07:03<54:43, 32.51it/s]  

itr: 13250 lr: 9.713e-05 train loss: 0.000008 (dt=7.98s)


training:  11%|‚ñà‚ñè        | 13510/120000 [07:11<54:35, 32.51it/s]  

itr: 13500 lr: 9.702e-05 train loss: 0.000003 (dt=7.98s)


training:  11%|‚ñà‚ñè        | 13760/120000 [07:19<54:26, 32.52it/s]  

itr: 13750 lr: 9.691e-05 train loss: 0.000028 (dt=7.98s)


training:  12%|‚ñà‚ñè        | 14010/120000 [07:27<54:15, 32.56it/s]  

itr: 14000 lr: 9.679e-05 train loss: 0.000014 (dt=7.98s)


training:  12%|‚ñà‚ñè        | 14260/120000 [07:35<54:12, 32.51it/s]  

itr: 14250 lr: 9.668e-05 train loss: 0.000008 (dt=7.98s)


training:  12%|‚ñà‚ñè        | 14510/120000 [07:43<54:04, 32.51it/s]  

itr: 14500 lr: 9.656e-05 train loss: 0.000004 (dt=7.98s)


training:  12%|‚ñà‚ñè        | 14760/120000 [07:51<53:56, 32.52it/s]  

itr: 14750 lr: 9.644e-05 train loss: 0.000003 (dt=7.98s)


training:  13%|‚ñà‚ñé        | 15010/120000 [07:59<53:48, 32.52it/s]  

itr: 15000 lr: 9.632e-05 train loss: 0.000003 (dt=7.98s)


training:  13%|‚ñà‚ñé        | 15260/120000 [08:07<53:42, 32.51it/s]  

itr: 15250 lr: 9.619e-05 train loss: 0.000009 (dt=7.98s)


training:  13%|‚ñà‚ñé        | 15510/120000 [08:14<53:33, 32.52it/s]  

itr: 15500 lr: 9.607e-05 train loss: 0.000008 (dt=7.98s)


training:  13%|‚ñà‚ñé        | 15760/120000 [08:22<53:24, 32.53it/s]  

itr: 15750 lr: 9.594e-05 train loss: 0.000002 (dt=7.98s)


training:  13%|‚ñà‚ñé        | 16010/120000 [08:30<53:18, 32.51it/s]  

itr: 16000 lr: 9.581e-05 train loss: 0.000002 (dt=7.98s)


training:  14%|‚ñà‚ñé        | 16260/120000 [08:38<53:10, 32.51it/s]  

itr: 16250 lr: 9.568e-05 train loss: 0.000013 (dt=7.98s)


training:  14%|‚ñà‚ñç        | 16510/120000 [08:46<53:02, 32.52it/s]  

itr: 16500 lr: 9.555e-05 train loss: 0.000005 (dt=7.98s)


training:  14%|‚ñà‚ñç        | 16760/120000 [08:54<52:55, 32.52it/s]  

itr: 16750 lr: 9.541e-05 train loss: 0.000004 (dt=7.98s)


training:  14%|‚ñà‚ñç        | 17010/120000 [09:02<52:46, 32.52it/s]  

itr: 17000 lr: 9.527e-05 train loss: 0.000010 (dt=7.98s)


training:  14%|‚ñà‚ñç        | 17260/120000 [09:10<52:39, 32.51it/s]  

itr: 17250 lr: 9.513e-05 train loss: 0.000003 (dt=7.98s)


training:  15%|‚ñà‚ñç        | 17510/120000 [09:18<52:27, 32.56it/s]  

itr: 17500 lr: 9.499e-05 train loss: 0.000005 (dt=7.98s)


training:  15%|‚ñà‚ñç        | 17760/120000 [09:26<52:24, 32.51it/s]  

itr: 17750 lr: 9.485e-05 train loss: 0.000004 (dt=7.98s)


training:  15%|‚ñà‚ñå        | 18010/120000 [09:34<52:17, 32.51it/s]  

itr: 18000 lr: 9.470e-05 train loss: 0.000004 (dt=7.98s)


training:  15%|‚ñà‚ñå        | 18260/120000 [09:42<52:09, 32.51it/s]  

itr: 18250 lr: 9.456e-05 train loss: 0.000002 (dt=7.98s)


training:  15%|‚ñà‚ñå        | 18510/120000 [09:50<52:02, 32.51it/s]  

itr: 18500 lr: 9.441e-05 train loss: 0.000002 (dt=7.98s)


training:  16%|‚ñà‚ñå        | 18760/120000 [09:58<51:55, 32.50it/s]  

itr: 18750 lr: 9.426e-05 train loss: 0.000002 (dt=7.98s)


training:  16%|‚ñà‚ñå        | 19010/120000 [10:06<51:44, 32.53it/s]  

itr: 19000 lr: 9.411e-05 train loss: 0.000002 (dt=7.98s)


training:  16%|‚ñà‚ñå        | 19260/120000 [10:14<51:37, 32.52it/s]  

itr: 19250 lr: 9.395e-05 train loss: 0.000009 (dt=7.98s)


training:  16%|‚ñà‚ñã        | 19510/120000 [10:22<51:30, 32.51it/s]  

itr: 19500 lr: 9.379e-05 train loss: 0.000014 (dt=7.98s)


training:  16%|‚ñà‚ñã        | 19760/120000 [10:30<51:23, 32.51it/s]  

itr: 19750 lr: 9.364e-05 train loss: 0.000003 (dt=7.98s)


training:  17%|‚ñà‚ñã        | 20010/120000 [10:38<52:06, 31.98it/s]  

itr: 20000 lr: 9.348e-05 train loss: 0.000001 (dt=7.98s)
saved checkpoint: ./saved_models_grid_bs8192_20260103_075004/Checkpoint_N128_L2_dup0_iters20001.pt


training:  17%|‚ñà‚ñã        | 20260/120000 [10:46<51:07, 32.52it/s]  

itr: 20250 lr: 9.331e-05 train loss: 0.000001 (dt=7.99s)


training:  17%|‚ñà‚ñã        | 20510/120000 [10:54<50:57, 32.54it/s]  

itr: 20500 lr: 9.315e-05 train loss: 0.000008 (dt=7.98s)


training:  17%|‚ñà‚ñã        | 20760/120000 [11:02<50:52, 32.51it/s]  

itr: 20750 lr: 9.298e-05 train loss: 0.000005 (dt=7.98s)


training:  18%|‚ñà‚ñä        | 21010/120000 [11:10<50:43, 32.52it/s]  

itr: 21000 lr: 9.282e-05 train loss: 0.000007 (dt=7.98s)


training:  18%|‚ñà‚ñä        | 21260/120000 [11:18<50:36, 32.52it/s]  

itr: 21250 lr: 9.265e-05 train loss: 0.000006 (dt=7.98s)


training:  18%|‚ñà‚ñä        | 21510/120000 [11:26<50:28, 32.52it/s]  

itr: 21500 lr: 9.248e-05 train loss: 0.000035 (dt=7.98s)


training:  18%|‚ñà‚ñä        | 21760/120000 [11:34<50:22, 32.50it/s]  

itr: 21750 lr: 9.230e-05 train loss: 0.000001 (dt=7.98s)


training:  18%|‚ñà‚ñä        | 22010/120000 [11:42<50:13, 32.51it/s]  

itr: 22000 lr: 9.213e-05 train loss: 0.000004 (dt=7.98s)


training:  19%|‚ñà‚ñä        | 22260/120000 [11:50<50:06, 32.50it/s]  

itr: 22250 lr: 9.195e-05 train loss: 0.000008 (dt=7.98s)


training:  19%|‚ñà‚ñâ        | 22510/120000 [11:58<49:57, 32.52it/s]

itr: 22500 lr: 9.177e-05 train loss: 0.000001 (dt=7.98s)


training:  19%|‚ñà‚ñâ        | 22760/120000 [12:06<49:51, 32.51it/s]

itr: 22750 lr: 9.159e-05 train loss: 0.000021 (dt=7.98s)


training:  19%|‚ñà‚ñâ        | 23010/120000 [12:14<49:42, 32.52it/s]

itr: 23000 lr: 9.141e-05 train loss: 0.000002 (dt=7.98s)


training:  19%|‚ñà‚ñâ        | 23260/120000 [12:22<49:34, 32.52it/s]

itr: 23250 lr: 9.123e-05 train loss: 0.000002 (dt=7.98s)


training:  20%|‚ñà‚ñâ        | 23510/120000 [12:30<49:28, 32.50it/s]

itr: 23500 lr: 9.104e-05 train loss: 0.000001 (dt=7.98s)


training:  20%|‚ñà‚ñâ        | 23760/120000 [12:38<49:19, 32.52it/s]

itr: 23750 lr: 9.086e-05 train loss: 0.000001 (dt=7.98s)


training:  20%|‚ñà‚ñà        | 24010/120000 [12:46<49:11, 32.52it/s]

itr: 24000 lr: 9.067e-05 train loss: 0.000001 (dt=7.98s)


training:  20%|‚ñà‚ñà        | 24260/120000 [12:54<48:58, 32.59it/s]

itr: 24250 lr: 9.048e-05 train loss: 0.000001 (dt=7.98s)


training:  20%|‚ñà‚ñà        | 24510/120000 [13:02<48:57, 32.51it/s]

itr: 24500 lr: 9.029e-05 train loss: 0.000001 (dt=7.98s)


training:  21%|‚ñà‚ñà        | 24760/120000 [13:10<48:48, 32.52it/s]

itr: 24750 lr: 9.009e-05 train loss: 0.000001 (dt=7.98s)


training:  21%|‚ñà‚ñà        | 25010/120000 [13:18<48:41, 32.51it/s]

itr: 25000 lr: 8.990e-05 train loss: 0.000006 (dt=7.98s)


training:  21%|‚ñà‚ñà        | 25260/120000 [13:26<48:33, 32.52it/s]

itr: 25250 lr: 8.970e-05 train loss: 0.000003 (dt=7.98s)


training:  21%|‚ñà‚ñà‚ñè       | 25510/120000 [13:34<48:25, 32.52it/s]

itr: 25500 lr: 8.950e-05 train loss: 0.000022 (dt=7.98s)


training:  21%|‚ñà‚ñà‚ñè       | 25760/120000 [13:42<48:16, 32.53it/s]

itr: 25750 lr: 8.930e-05 train loss: 0.000001 (dt=7.98s)


training:  22%|‚ñà‚ñà‚ñè       | 26010/120000 [13:50<48:09, 32.52it/s]

itr: 26000 lr: 8.910e-05 train loss: 0.000008 (dt=7.98s)


training:  22%|‚ñà‚ñà‚ñè       | 26260/120000 [13:58<48:03, 32.51it/s]

itr: 26250 lr: 8.889e-05 train loss: 0.000002 (dt=7.98s)


training:  22%|‚ñà‚ñà‚ñè       | 26510/120000 [14:06<47:55, 32.51it/s]

itr: 26500 lr: 8.869e-05 train loss: 0.000001 (dt=7.98s)


training:  22%|‚ñà‚ñà‚ñè       | 26760/120000 [14:14<47:48, 32.50it/s]

itr: 26750 lr: 8.848e-05 train loss: 0.000001 (dt=7.98s)


training:  23%|‚ñà‚ñà‚ñé       | 27010/120000 [14:22<47:41, 32.50it/s]

itr: 27000 lr: 8.827e-05 train loss: 0.000005 (dt=7.98s)


training:  23%|‚ñà‚ñà‚ñé       | 27260/120000 [14:30<47:32, 32.52it/s]

itr: 27250 lr: 8.806e-05 train loss: 0.000008 (dt=7.98s)


training:  23%|‚ñà‚ñà‚ñé       | 27510/120000 [14:38<47:18, 32.58it/s]

itr: 27500 lr: 8.785e-05 train loss: 0.000001 (dt=7.98s)


training:  23%|‚ñà‚ñà‚ñé       | 27760/120000 [14:46<47:18, 32.50it/s]

itr: 27750 lr: 8.763e-05 train loss: 0.000005 (dt=7.98s)


training:  23%|‚ñà‚ñà‚ñé       | 28010/120000 [14:54<47:09, 32.51it/s]

itr: 28000 lr: 8.742e-05 train loss: 0.000000 (dt=7.98s)


training:  24%|‚ñà‚ñà‚ñé       | 28260/120000 [15:02<47:02, 32.51it/s]

itr: 28250 lr: 8.720e-05 train loss: 0.000001 (dt=7.98s)


training:  24%|‚ñà‚ñà‚ñç       | 28510/120000 [15:10<46:52, 32.53it/s]

itr: 28500 lr: 8.698e-05 train loss: 0.000000 (dt=7.98s)


training:  24%|‚ñà‚ñà‚ñç       | 28760/120000 [15:18<46:46, 32.51it/s]

itr: 28750 lr: 8.676e-05 train loss: 0.000001 (dt=7.98s)


training:  24%|‚ñà‚ñà‚ñç       | 29010/120000 [15:25<46:39, 32.51it/s]

itr: 29000 lr: 8.654e-05 train loss: 0.000001 (dt=7.98s)


training:  24%|‚ñà‚ñà‚ñç       | 29260/120000 [15:33<46:31, 32.50it/s]

itr: 29250 lr: 8.632e-05 train loss: 0.000000 (dt=7.98s)


training:  25%|‚ñà‚ñà‚ñç       | 29510/120000 [15:41<46:21, 32.53it/s]

itr: 29500 lr: 8.609e-05 train loss: 0.000001 (dt=7.98s)


training:  25%|‚ñà‚ñà‚ñç       | 29760/120000 [15:49<46:15, 32.51it/s]

itr: 29750 lr: 8.587e-05 train loss: 0.000000 (dt=7.98s)


training:  25%|‚ñà‚ñà‚ñå       | 30010/120000 [15:57<46:09, 32.50it/s]

itr: 30000 lr: 8.564e-05 train loss: 0.000001 (dt=7.98s)


training:  25%|‚ñà‚ñà‚ñå       | 30260/120000 [16:05<46:01, 32.50it/s]

itr: 30250 lr: 8.541e-05 train loss: 0.000001 (dt=7.98s)


training:  25%|‚ñà‚ñà‚ñå       | 30510/120000 [16:13<45:54, 32.49it/s]

itr: 30500 lr: 8.518e-05 train loss: 0.000024 (dt=7.98s)


training:  26%|‚ñà‚ñà‚ñå       | 30760/120000 [16:21<45:44, 32.51it/s]

itr: 30750 lr: 8.495e-05 train loss: 0.000001 (dt=7.98s)


training:  26%|‚ñà‚ñà‚ñå       | 31010/120000 [16:29<45:37, 32.51it/s]

itr: 31000 lr: 8.471e-05 train loss: 0.000002 (dt=7.98s)


training:  26%|‚ñà‚ñà‚ñå       | 31260/120000 [16:37<45:29, 32.51it/s]

itr: 31250 lr: 8.448e-05 train loss: 0.000000 (dt=7.98s)


training:  26%|‚ñà‚ñà‚ñã       | 31510/120000 [16:45<45:21, 32.51it/s]

itr: 31500 lr: 8.424e-05 train loss: 0.000001 (dt=7.98s)


training:  26%|‚ñà‚ñà‚ñã       | 31760/120000 [16:53<45:13, 32.52it/s]

itr: 31750 lr: 8.400e-05 train loss: 0.000000 (dt=7.98s)


training:  27%|‚ñà‚ñà‚ñã       | 32010/120000 [17:01<45:05, 32.52it/s]

itr: 32000 lr: 8.376e-05 train loss: 0.000004 (dt=7.98s)


training:  27%|‚ñà‚ñà‚ñã       | 32260/120000 [17:09<45:00, 32.49it/s]

itr: 32250 lr: 8.352e-05 train loss: 0.000001 (dt=7.98s)


training:  27%|‚ñà‚ñà‚ñã       | 32510/120000 [17:17<44:51, 32.51it/s]

itr: 32500 lr: 8.328e-05 train loss: 0.000001 (dt=7.98s)


training:  27%|‚ñà‚ñà‚ñã       | 32760/120000 [17:25<44:42, 32.52it/s]

itr: 32750 lr: 8.304e-05 train loss: 0.000001 (dt=7.98s)


training:  28%|‚ñà‚ñà‚ñä       | 33010/120000 [17:33<44:36, 32.51it/s]

itr: 33000 lr: 8.279e-05 train loss: 0.000001 (dt=7.98s)


training:  28%|‚ñà‚ñà‚ñä       | 33260/120000 [17:41<44:28, 32.50it/s]

itr: 33250 lr: 8.254e-05 train loss: 0.000004 (dt=7.98s)


training:  28%|‚ñà‚ñà‚ñä       | 33510/120000 [17:49<44:20, 32.51it/s]

itr: 33500 lr: 8.230e-05 train loss: 0.000001 (dt=7.98s)


training:  28%|‚ñà‚ñà‚ñä       | 33760/120000 [17:57<44:13, 32.51it/s]

itr: 33750 lr: 8.205e-05 train loss: 0.000000 (dt=7.98s)


training:  28%|‚ñà‚ñà‚ñä       | 34010/120000 [18:05<44:03, 32.53it/s]

itr: 34000 lr: 8.180e-05 train loss: 0.000001 (dt=7.98s)


training:  29%|‚ñà‚ñà‚ñä       | 34260/120000 [18:13<43:57, 32.51it/s]

itr: 34250 lr: 8.154e-05 train loss: 0.000000 (dt=7.98s)


training:  29%|‚ñà‚ñà‚ñâ       | 34510/120000 [18:21<43:49, 32.52it/s]

itr: 34500 lr: 8.129e-05 train loss: 0.000001 (dt=7.98s)


training:  29%|‚ñà‚ñà‚ñâ       | 34760/120000 [18:29<43:42, 32.50it/s]

itr: 34750 lr: 8.104e-05 train loss: 0.000048 (dt=7.98s)


training:  29%|‚ñà‚ñà‚ñâ       | 35010/120000 [18:37<43:34, 32.51it/s]

itr: 35000 lr: 8.078e-05 train loss: 0.000002 (dt=7.98s)


training:  29%|‚ñà‚ñà‚ñâ       | 35260/120000 [18:45<43:27, 32.50it/s]

itr: 35250 lr: 8.052e-05 train loss: 0.000001 (dt=7.98s)


training:  30%|‚ñà‚ñà‚ñâ       | 35510/120000 [18:53<43:18, 32.51it/s]

itr: 35500 lr: 8.026e-05 train loss: 0.000009 (dt=7.98s)


training:  30%|‚ñà‚ñà‚ñâ       | 35760/120000 [19:01<43:11, 32.51it/s]

itr: 35750 lr: 8.000e-05 train loss: 0.000000 (dt=7.98s)


training:  30%|‚ñà‚ñà‚ñà       | 36010/120000 [19:09<43:04, 32.50it/s]

itr: 36000 lr: 7.974e-05 train loss: 0.000000 (dt=7.98s)


training:  30%|‚ñà‚ñà‚ñà       | 36260/120000 [19:17<42:51, 32.56it/s]

itr: 36250 lr: 7.948e-05 train loss: 0.000001 (dt=7.98s)


training:  30%|‚ñà‚ñà‚ñà       | 36510/120000 [19:25<42:45, 32.54it/s]

itr: 36500 lr: 7.922e-05 train loss: 0.000008 (dt=7.98s)


training:  31%|‚ñà‚ñà‚ñà       | 36760/120000 [19:33<42:39, 32.52it/s]

itr: 36750 lr: 7.895e-05 train loss: 0.000000 (dt=7.98s)


training:  31%|‚ñà‚ñà‚ñà       | 37010/120000 [19:41<42:32, 32.51it/s]

itr: 37000 lr: 7.868e-05 train loss: 0.000002 (dt=7.98s)


training:  31%|‚ñà‚ñà‚ñà       | 37260/120000 [19:49<42:25, 32.50it/s]

itr: 37250 lr: 7.842e-05 train loss: 0.000000 (dt=7.98s)


training:  31%|‚ñà‚ñà‚ñà‚ñè      | 37510/120000 [19:57<42:13, 32.56it/s]

itr: 37500 lr: 7.815e-05 train loss: 0.000000 (dt=7.98s)


training:  31%|‚ñà‚ñà‚ñà‚ñè      | 37760/120000 [20:05<42:08, 32.53it/s]

itr: 37750 lr: 7.788e-05 train loss: 0.000000 (dt=7.98s)


training:  32%|‚ñà‚ñà‚ñà‚ñè      | 38010/120000 [20:13<42:01, 32.52it/s]

itr: 38000 lr: 7.761e-05 train loss: 0.000002 (dt=7.98s)


training:  32%|‚ñà‚ñà‚ñà‚ñè      | 38260/120000 [20:21<41:52, 32.53it/s]

itr: 38250 lr: 7.734e-05 train loss: 0.000000 (dt=7.98s)


training:  32%|‚ñà‚ñà‚ñà‚ñè      | 38510/120000 [20:29<41:46, 32.52it/s]

itr: 38500 lr: 7.706e-05 train loss: 0.000000 (dt=7.98s)


training:  32%|‚ñà‚ñà‚ñà‚ñè      | 38760/120000 [20:37<41:39, 32.51it/s]

itr: 38750 lr: 7.679e-05 train loss: 0.000000 (dt=7.98s)


training:  33%|‚ñà‚ñà‚ñà‚ñé      | 39010/120000 [20:45<41:30, 32.51it/s]

itr: 39000 lr: 7.651e-05 train loss: 0.000003 (dt=7.98s)


training:  33%|‚ñà‚ñà‚ñà‚ñé      | 39260/120000 [20:53<41:24, 32.50it/s]

itr: 39250 lr: 7.624e-05 train loss: 0.000000 (dt=7.98s)


training:  33%|‚ñà‚ñà‚ñà‚ñé      | 39510/120000 [21:01<41:17, 32.49it/s]

itr: 39500 lr: 7.596e-05 train loss: 0.000008 (dt=7.98s)


training:  33%|‚ñà‚ñà‚ñà‚ñé      | 39760/120000 [21:09<41:07, 32.51it/s]

itr: 39750 lr: 7.568e-05 train loss: 0.000001 (dt=7.98s)


training:  33%|‚ñà‚ñà‚ñà‚ñé      | 40010/120000 [21:17<41:38, 32.01it/s]

itr: 40000 lr: 7.540e-05 train loss: 0.000001 (dt=7.98s)
saved checkpoint: ./saved_models_grid_bs8192_20260103_075004/Checkpoint_N128_L2_dup0_iters40001.pt


training:  34%|‚ñà‚ñà‚ñà‚ñé      | 40260/120000 [21:25<40:51, 32.53it/s]

itr: 40250 lr: 7.512e-05 train loss: 0.000000 (dt=7.99s)


training:  34%|‚ñà‚ñà‚ñà‚ñç      | 40510/120000 [21:33<40:44, 32.52it/s]

itr: 40500 lr: 7.484e-05 train loss: 0.000000 (dt=7.98s)


training:  34%|‚ñà‚ñà‚ñà‚ñç      | 40760/120000 [21:41<40:36, 32.53it/s]

itr: 40750 lr: 7.455e-05 train loss: 0.000000 (dt=7.98s)


training:  34%|‚ñà‚ñà‚ñà‚ñç      | 41010/120000 [21:49<40:29, 32.51it/s]

itr: 41000 lr: 7.427e-05 train loss: 0.000000 (dt=7.98s)


training:  34%|‚ñà‚ñà‚ñà‚ñç      | 41260/120000 [21:57<40:22, 32.50it/s]

itr: 41250 lr: 7.398e-05 train loss: 0.000009 (dt=7.98s)


training:  35%|‚ñà‚ñà‚ñà‚ñç      | 41510/120000 [22:05<40:14, 32.51it/s]

itr: 41500 lr: 7.370e-05 train loss: 0.000000 (dt=7.98s)


training:  35%|‚ñà‚ñà‚ñà‚ñç      | 41760/120000 [22:13<40:06, 32.52it/s]

itr: 41750 lr: 7.341e-05 train loss: 0.000000 (dt=7.98s)


training:  35%|‚ñà‚ñà‚ñà‚ñå      | 42010/120000 [22:21<39:58, 32.51it/s]

itr: 42000 lr: 7.312e-05 train loss: 0.000000 (dt=7.98s)


training:  35%|‚ñà‚ñà‚ñà‚ñå      | 42260/120000 [22:29<39:49, 32.53it/s]

itr: 42250 lr: 7.283e-05 train loss: 0.000001 (dt=7.98s)


training:  35%|‚ñà‚ñà‚ñà‚ñå      | 42510/120000 [22:36<39:44, 32.50it/s]

itr: 42500 lr: 7.254e-05 train loss: 0.000000 (dt=7.98s)


training:  36%|‚ñà‚ñà‚ñà‚ñå      | 42760/120000 [22:44<39:31, 32.57it/s]

itr: 42750 lr: 7.225e-05 train loss: 0.000000 (dt=7.98s)


training:  36%|‚ñà‚ñà‚ñà‚ñå      | 43010/120000 [22:52<39:28, 32.50it/s]

itr: 43000 lr: 7.196e-05 train loss: 0.000002 (dt=7.98s)


training:  36%|‚ñà‚ñà‚ñà‚ñå      | 43260/120000 [23:00<39:20, 32.51it/s]

itr: 43250 lr: 7.167e-05 train loss: 0.000000 (dt=7.98s)


training:  36%|‚ñà‚ñà‚ñà‚ñã      | 43510/120000 [23:08<39:12, 32.52it/s]

itr: 43500 lr: 7.137e-05 train loss: 0.000000 (dt=7.98s)


training:  36%|‚ñà‚ñà‚ñà‚ñã      | 43760/120000 [23:16<39:05, 32.51it/s]

itr: 43750 lr: 7.108e-05 train loss: 0.000000 (dt=7.98s)


training:  37%|‚ñà‚ñà‚ñà‚ñã      | 44010/120000 [23:24<38:56, 32.52it/s]

itr: 44000 lr: 7.078e-05 train loss: 0.000000 (dt=7.98s)


training:  37%|‚ñà‚ñà‚ñà‚ñã      | 44260/120000 [23:32<38:50, 32.50it/s]

itr: 44250 lr: 7.049e-05 train loss: 0.000000 (dt=7.98s)


training:  37%|‚ñà‚ñà‚ñà‚ñã      | 44510/120000 [23:40<38:42, 32.51it/s]

itr: 44500 lr: 7.019e-05 train loss: 0.000000 (dt=7.98s)


training:  37%|‚ñà‚ñà‚ñà‚ñã      | 44760/120000 [23:48<38:33, 32.52it/s]

itr: 44750 lr: 6.989e-05 train loss: 0.000003 (dt=7.98s)


training:  38%|‚ñà‚ñà‚ñà‚ñä      | 45010/120000 [23:56<38:26, 32.51it/s]

itr: 45000 lr: 6.959e-05 train loss: 0.000001 (dt=7.98s)


training:  38%|‚ñà‚ñà‚ñà‚ñä      | 45260/120000 [24:04<38:18, 32.51it/s]

itr: 45250 lr: 6.929e-05 train loss: 0.000001 (dt=7.98s)


training:  38%|‚ñà‚ñà‚ñà‚ñä      | 45510/120000 [24:12<38:12, 32.50it/s]

itr: 45500 lr: 6.899e-05 train loss: 0.000000 (dt=7.98s)


training:  38%|‚ñà‚ñà‚ñà‚ñä      | 45760/120000 [24:20<38:03, 32.51it/s]

itr: 45750 lr: 6.869e-05 train loss: 0.000000 (dt=7.98s)


training:  38%|‚ñà‚ñà‚ñà‚ñä      | 46010/120000 [24:28<37:56, 32.49it/s]

itr: 46000 lr: 6.839e-05 train loss: 0.000000 (dt=7.98s)


training:  39%|‚ñà‚ñà‚ñà‚ñä      | 46260/120000 [24:36<37:47, 32.53it/s]

itr: 46250 lr: 6.809e-05 train loss: 0.000000 (dt=7.98s)


training:  39%|‚ñà‚ñà‚ñà‚ñâ      | 46510/120000 [24:44<37:40, 32.52it/s]

itr: 46500 lr: 6.778e-05 train loss: 0.000000 (dt=7.98s)


training:  39%|‚ñà‚ñà‚ñà‚ñâ      | 46760/120000 [24:52<37:32, 32.51it/s]

itr: 46750 lr: 6.748e-05 train loss: 0.000000 (dt=7.98s)


training:  39%|‚ñà‚ñà‚ñà‚ñâ      | 47010/120000 [25:00<37:24, 32.52it/s]

itr: 47000 lr: 6.717e-05 train loss: 0.000001 (dt=7.98s)


training:  39%|‚ñà‚ñà‚ñà‚ñâ      | 47260/120000 [25:08<37:16, 32.52it/s]

itr: 47250 lr: 6.687e-05 train loss: 0.000000 (dt=7.98s)


training:  40%|‚ñà‚ñà‚ñà‚ñâ      | 47510/120000 [25:16<37:09, 32.52it/s]

itr: 47500 lr: 6.656e-05 train loss: 0.000000 (dt=7.98s)


training:  40%|‚ñà‚ñà‚ñà‚ñâ      | 47760/120000 [25:24<36:59, 32.54it/s]

itr: 47750 lr: 6.625e-05 train loss: 0.000000 (dt=7.98s)


training:  40%|‚ñà‚ñà‚ñà‚ñà      | 48010/120000 [25:32<36:54, 32.51it/s]

itr: 48000 lr: 6.594e-05 train loss: 0.000001 (dt=7.98s)


training:  40%|‚ñà‚ñà‚ñà‚ñà      | 48260/120000 [25:40<36:46, 32.52it/s]

itr: 48250 lr: 6.564e-05 train loss: 0.000000 (dt=7.98s)


training:  40%|‚ñà‚ñà‚ñà‚ñà      | 48510/120000 [25:48<36:38, 32.51it/s]

itr: 48500 lr: 6.533e-05 train loss: 0.000000 (dt=7.98s)


training:  41%|‚ñà‚ñà‚ñà‚ñà      | 48760/120000 [25:56<36:31, 32.51it/s]

itr: 48750 lr: 6.502e-05 train loss: 0.000004 (dt=7.98s)


training:  41%|‚ñà‚ñà‚ñà‚ñà      | 49010/120000 [26:04<36:23, 32.51it/s]

itr: 49000 lr: 6.471e-05 train loss: 0.000000 (dt=7.98s)


training:  41%|‚ñà‚ñà‚ñà‚ñà      | 49260/120000 [26:12<36:15, 32.52it/s]

itr: 49250 lr: 6.439e-05 train loss: 0.000001 (dt=7.98s)


training:  41%|‚ñà‚ñà‚ñà‚ñà‚ñè     | 49510/120000 [26:20<36:08, 32.50it/s]

itr: 49500 lr: 6.408e-05 train loss: 0.000000 (dt=7.98s)


training:  41%|‚ñà‚ñà‚ñà‚ñà‚ñè     | 49760/120000 [26:28<36:01, 32.50it/s]

itr: 49750 lr: 6.377e-05 train loss: 0.000007 (dt=7.98s)


training:  42%|‚ñà‚ñà‚ñà‚ñà‚ñè     | 50010/120000 [26:36<35:52, 32.52it/s]

itr: 50000 lr: 6.346e-05 train loss: 0.000001 (dt=7.98s)


training:  42%|‚ñà‚ñà‚ñà‚ñà‚ñè     | 50260/120000 [26:44<35:44, 32.52it/s]

itr: 50250 lr: 6.314e-05 train loss: 0.000001 (dt=7.98s)


training:  42%|‚ñà‚ñà‚ñà‚ñà‚ñè     | 50510/120000 [26:52<35:37, 32.51it/s]

itr: 50500 lr: 6.283e-05 train loss: 0.000000 (dt=7.98s)


training:  42%|‚ñà‚ñà‚ñà‚ñà‚ñè     | 50760/120000 [27:00<35:29, 32.52it/s]

itr: 50750 lr: 6.252e-05 train loss: 0.000000 (dt=7.98s)


training:  43%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 51010/120000 [27:08<35:22, 32.51it/s]

itr: 51000 lr: 6.220e-05 train loss: 0.000000 (dt=7.98s)


training:  43%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 51260/120000 [27:16<35:14, 32.50it/s]

itr: 51250 lr: 6.189e-05 train loss: 0.000000 (dt=7.98s)


training:  43%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 51510/120000 [27:24<35:06, 32.51it/s]

itr: 51500 lr: 6.157e-05 train loss: 0.000000 (dt=7.98s)


training:  43%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 51760/120000 [27:32<34:58, 32.51it/s]

itr: 51750 lr: 6.125e-05 train loss: 0.000000 (dt=7.98s)


training:  43%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 52010/120000 [27:40<34:50, 32.52it/s]

itr: 52000 lr: 6.094e-05 train loss: 0.000000 (dt=7.98s)


training:  44%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 52260/120000 [27:48<34:43, 32.51it/s]

itr: 52250 lr: 6.062e-05 train loss: 0.000000 (dt=7.98s)


training:  44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 52510/120000 [27:56<34:36, 32.51it/s]

itr: 52500 lr: 6.030e-05 train loss: 0.000000 (dt=7.98s)


training:  44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 52760/120000 [28:04<34:25, 32.55it/s]

itr: 52750 lr: 5.998e-05 train loss: 0.000000 (dt=7.98s)


training:  44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 53010/120000 [28:12<34:21, 32.49it/s]

itr: 53000 lr: 5.966e-05 train loss: 0.000002 (dt=7.98s)


training:  44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 53260/120000 [28:20<34:07, 32.59it/s]

itr: 53250 lr: 5.934e-05 train loss: 0.000000 (dt=7.98s)


training:  45%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 53510/120000 [28:28<34:05, 32.51it/s]

itr: 53500 lr: 5.902e-05 train loss: 0.000000 (dt=7.98s)


training:  45%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 53760/120000 [28:36<33:57, 32.51it/s]

itr: 53750 lr: 5.870e-05 train loss: 0.000000 (dt=7.98s)


training:  45%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 54010/120000 [28:44<33:49, 32.51it/s]

itr: 54000 lr: 5.838e-05 train loss: 0.000000 (dt=7.98s)


training:  45%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 54260/120000 [28:52<33:42, 32.51it/s]

itr: 54250 lr: 5.806e-05 train loss: 0.000000 (dt=7.98s)


training:  45%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 54510/120000 [29:00<33:34, 32.50it/s]

itr: 54500 lr: 5.774e-05 train loss: 0.000000 (dt=7.98s)


training:  46%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 54760/120000 [29:08<33:26, 32.51it/s]

itr: 54750 lr: 5.742e-05 train loss: 0.000007 (dt=7.98s)


training:  46%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 55010/120000 [29:16<33:17, 32.53it/s]

itr: 55000 lr: 5.710e-05 train loss: 0.000000 (dt=7.98s)


training:  46%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 55260/120000 [29:24<33:10, 32.52it/s]

itr: 55250 lr: 5.678e-05 train loss: 0.000003 (dt=7.98s)


training:  46%|‚ñà‚ñà‚ñà‚ñà‚ñã     | 55510/120000 [29:32<33:03, 32.51it/s]

itr: 55500 lr: 5.646e-05 train loss: 0.000000 (dt=7.98s)


training:  46%|‚ñà‚ñà‚ñà‚ñà‚ñã     | 55760/120000 [29:39<32:52, 32.56it/s]

itr: 55750 lr: 5.613e-05 train loss: 0.000000 (dt=7.98s)


training:  47%|‚ñà‚ñà‚ñà‚ñà‚ñã     | 56010/120000 [29:47<32:47, 32.52it/s]

itr: 56000 lr: 5.581e-05 train loss: 0.000000 (dt=7.98s)


training:  47%|‚ñà‚ñà‚ñà‚ñà‚ñã     | 56259/120000 [29:55<31:29, 33.73it/s]

itr: 56250 lr: 5.549e-05 train loss: 0.000000 (dt=7.98s)


training:  47%|‚ñà‚ñà‚ñà‚ñà‚ñã     | 56509/120000 [30:03<32:01, 33.04it/s]

itr: 56500 lr: 5.517e-05 train loss: 0.000000 (dt=7.98s)


training:  47%|‚ñà‚ñà‚ñà‚ñà‚ñã     | 56759/120000 [30:11<31:52, 33.06it/s]

itr: 56750 lr: 5.484e-05 train loss: 0.000000 (dt=7.98s)


training:  48%|‚ñà‚ñà‚ñà‚ñà‚ñä     | 57009/120000 [30:19<31:45, 33.05it/s]

itr: 57000 lr: 5.452e-05 train loss: 0.000000 (dt=7.98s)


training:  48%|‚ñà‚ñà‚ñà‚ñà‚ñä     | 57260/120000 [30:27<31:42, 32.97it/s]

itr: 57250 lr: 5.420e-05 train loss: 0.000000 (dt=7.98s)


training:  48%|‚ñà‚ñà‚ñà‚ñà‚ñä     | 57510/120000 [30:35<32:01, 32.52it/s]

itr: 57500 lr: 5.387e-05 train loss: 0.000000 (dt=7.98s)


training:  48%|‚ñà‚ñà‚ñà‚ñà‚ñä     | 57760/120000 [30:43<31:54, 32.51it/s]

itr: 57750 lr: 5.355e-05 train loss: 0.000000 (dt=7.98s)


training:  48%|‚ñà‚ñà‚ñà‚ñà‚ñä     | 58010/120000 [30:51<31:46, 32.52it/s]

itr: 58000 lr: 5.322e-05 train loss: 0.000000 (dt=7.98s)


training:  49%|‚ñà‚ñà‚ñà‚ñà‚ñä     | 58260/120000 [30:59<31:35, 32.58it/s]

itr: 58250 lr: 5.290e-05 train loss: 0.000000 (dt=7.98s)


training:  49%|‚ñà‚ñà‚ñà‚ñà‚ñâ     | 58510/120000 [31:07<31:30, 32.52it/s]

itr: 58500 lr: 5.258e-05 train loss: 0.000000 (dt=7.98s)


training:  49%|‚ñà‚ñà‚ñà‚ñà‚ñâ     | 58760/120000 [31:15<31:23, 32.52it/s]

itr: 58750 lr: 5.225e-05 train loss: 0.000000 (dt=7.98s)


training:  49%|‚ñà‚ñà‚ñà‚ñà‚ñâ     | 59010/120000 [31:23<31:16, 32.51it/s]

itr: 59000 lr: 5.193e-05 train loss: 0.000009 (dt=7.98s)


training:  49%|‚ñà‚ñà‚ñà‚ñà‚ñâ     | 59260/120000 [31:31<31:07, 32.52it/s]

itr: 59250 lr: 5.160e-05 train loss: 0.000000 (dt=7.98s)


training:  50%|‚ñà‚ñà‚ñà‚ñà‚ñâ     | 59510/120000 [31:39<31:00, 32.52it/s]

itr: 59500 lr: 5.128e-05 train loss: 0.000000 (dt=7.98s)


training:  50%|‚ñà‚ñà‚ñà‚ñà‚ñâ     | 59760/120000 [31:47<30:52, 32.51it/s]

itr: 59750 lr: 5.095e-05 train loss: 0.000001 (dt=7.98s)


training:  50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 60010/120000 [31:55<31:14, 32.01it/s]

itr: 60000 lr: 5.063e-05 train loss: 0.000000 (dt=7.98s)
saved checkpoint: ./saved_models_grid_bs8192_20260103_075004/Checkpoint_N128_L2_dup0_iters60001.pt


training:  50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 60260/120000 [32:03<30:36, 32.52it/s]

itr: 60250 lr: 5.031e-05 train loss: 0.000001 (dt=7.99s)


training:  50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 60510/120000 [32:11<30:30, 32.50it/s]

itr: 60500 lr: 4.998e-05 train loss: 0.000000 (dt=7.98s)


training:  51%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 60760/120000 [32:19<30:21, 32.52it/s]

itr: 60750 lr: 4.966e-05 train loss: 0.000000 (dt=7.98s)


training:  51%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 61010/120000 [32:27<30:13, 32.52it/s]

itr: 61000 lr: 4.933e-05 train loss: 0.000000 (dt=7.98s)


training:  51%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 61260/120000 [32:35<30:06, 32.52it/s]

itr: 61250 lr: 4.901e-05 train loss: 0.000000 (dt=7.98s)


training:  51%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 61510/120000 [32:43<29:58, 32.51it/s]

itr: 61500 lr: 4.868e-05 train loss: 0.000000 (dt=7.98s)


training:  51%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 61760/120000 [32:51<29:52, 32.48it/s]

itr: 61750 lr: 4.836e-05 train loss: 0.000000 (dt=7.98s)


training:  52%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 62010/120000 [32:59<29:43, 32.51it/s]

itr: 62000 lr: 4.803e-05 train loss: 0.000003 (dt=7.98s)


training:  52%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 62260/120000 [33:07<29:36, 32.51it/s]

itr: 62250 lr: 4.771e-05 train loss: 0.000000 (dt=7.98s)


training:  52%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 62510/120000 [33:15<29:28, 32.52it/s]

itr: 62500 lr: 4.739e-05 train loss: 0.000000 (dt=7.98s)


training:  52%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 62760/120000 [33:23<29:20, 32.52it/s]

itr: 62750 lr: 4.706e-05 train loss: 0.000000 (dt=7.98s)


training:  53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 63010/120000 [33:31<29:12, 32.52it/s]

itr: 63000 lr: 4.674e-05 train loss: 0.000000 (dt=7.98s)


training:  53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 63260/120000 [33:39<29:05, 32.51it/s]

itr: 63250 lr: 4.642e-05 train loss: 0.000000 (dt=7.98s)


training:  53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 63510/120000 [33:47<28:58, 32.50it/s]

itr: 63500 lr: 4.609e-05 train loss: 0.000000 (dt=7.98s)


training:  53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 63760/120000 [33:55<28:49, 32.51it/s]

itr: 63750 lr: 4.577e-05 train loss: 0.000000 (dt=7.98s)


training:  53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 64010/120000 [34:03<28:42, 32.50it/s]

itr: 64000 lr: 4.545e-05 train loss: 0.000000 (dt=7.98s)


training:  54%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 64260/120000 [34:11<28:34, 32.51it/s]

itr: 64250 lr: 4.512e-05 train loss: 0.000000 (dt=7.98s)


training:  54%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç    | 64510/120000 [34:19<28:26, 32.51it/s]

itr: 64500 lr: 4.480e-05 train loss: 0.000000 (dt=7.98s)


training:  54%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç    | 64760/120000 [34:27<28:18, 32.52it/s]

itr: 64750 lr: 4.448e-05 train loss: 0.000000 (dt=7.98s)


training:  54%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç    | 65010/120000 [34:35<28:11, 32.51it/s]

itr: 65000 lr: 4.416e-05 train loss: 0.000000 (dt=7.98s)


training:  54%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç    | 65260/120000 [34:43<28:04, 32.50it/s]

itr: 65250 lr: 4.384e-05 train loss: 0.000000 (dt=7.98s)


training:  55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç    | 65510/120000 [34:51<27:55, 32.52it/s]

itr: 65500 lr: 4.351e-05 train loss: 0.000000 (dt=7.98s)


training:  55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç    | 65760/120000 [34:59<27:46, 32.55it/s]

itr: 65750 lr: 4.319e-05 train loss: 0.000000 (dt=7.98s)


training:  55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 66010/120000 [35:07<27:40, 32.52it/s]

itr: 66000 lr: 4.287e-05 train loss: 0.000000 (dt=7.98s)


training:  55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 66260/120000 [35:15<27:33, 32.51it/s]

itr: 66250 lr: 4.255e-05 train loss: 0.000000 (dt=7.98s)


training:  55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 66510/120000 [35:23<27:23, 32.55it/s]

itr: 66500 lr: 4.223e-05 train loss: 0.000000 (dt=7.98s)


training:  56%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 66760/120000 [35:31<27:17, 32.51it/s]

itr: 66750 lr: 4.191e-05 train loss: 0.000000 (dt=7.98s)


training:  56%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 67010/120000 [35:39<27:10, 32.49it/s]

itr: 67000 lr: 4.159e-05 train loss: 0.000000 (dt=7.98s)


training:  56%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 67260/120000 [35:47<27:02, 32.51it/s]

itr: 67250 lr: 4.127e-05 train loss: 0.000000 (dt=7.98s)


training:  56%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã    | 67510/120000 [35:55<26:54, 32.50it/s]

itr: 67500 lr: 4.095e-05 train loss: 0.000000 (dt=7.98s)


training:  56%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã    | 67760/120000 [36:03<26:45, 32.54it/s]

itr: 67750 lr: 4.064e-05 train loss: 0.000000 (dt=7.98s)


training:  57%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã    | 68010/120000 [36:11<26:35, 32.58it/s]

itr: 68000 lr: 4.032e-05 train loss: 0.000000 (dt=7.98s)


training:  57%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã    | 68260/120000 [36:19<26:30, 32.53it/s]

itr: 68250 lr: 4.000e-05 train loss: 0.000000 (dt=7.98s)


training:  57%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã    | 68510/120000 [36:27<26:23, 32.52it/s]

itr: 68500 lr: 3.968e-05 train loss: 0.000000 (dt=7.98s)


training:  57%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã    | 68760/120000 [36:35<26:16, 32.50it/s]

itr: 68750 lr: 3.937e-05 train loss: 0.000000 (dt=7.98s)


training:  58%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä    | 69010/120000 [36:42<26:07, 32.52it/s]

itr: 69000 lr: 3.905e-05 train loss: 0.000000 (dt=7.98s)


training:  58%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä    | 69260/120000 [36:50<26:00, 32.51it/s]

itr: 69250 lr: 3.874e-05 train loss: 0.000000 (dt=7.98s)


training:  58%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä    | 69510/120000 [36:58<25:52, 32.52it/s]

itr: 69500 lr: 3.842e-05 train loss: 0.000000 (dt=7.98s)


training:  58%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä    | 69760/120000 [37:06<25:43, 32.55it/s]

itr: 69750 lr: 3.811e-05 train loss: 0.000000 (dt=7.98s)


training:  58%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä    | 70010/120000 [37:14<25:37, 32.52it/s]

itr: 70000 lr: 3.779e-05 train loss: 0.000000 (dt=7.98s)


training:  59%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä    | 70260/120000 [37:22<25:29, 32.53it/s]

itr: 70250 lr: 3.748e-05 train loss: 0.000000 (dt=7.98s)


training:  59%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ    | 70510/120000 [37:30<25:22, 32.51it/s]

itr: 70500 lr: 3.717e-05 train loss: 0.000000 (dt=7.98s)


training:  59%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ    | 70760/120000 [37:38<25:14, 32.51it/s]

itr: 70750 lr: 3.685e-05 train loss: 0.000000 (dt=7.98s)


training:  59%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ    | 71010/120000 [37:46<25:03, 32.58it/s]

itr: 71000 lr: 3.654e-05 train loss: 0.000000 (dt=7.98s)


training:  59%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ    | 71260/120000 [37:54<24:58, 32.52it/s]

itr: 71250 lr: 3.623e-05 train loss: 0.000000 (dt=7.98s)


training:  60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ    | 71510/120000 [38:02<24:50, 32.52it/s]

itr: 71500 lr: 3.592e-05 train loss: 0.000000 (dt=7.98s)


training:  60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ    | 71760/120000 [38:10<24:43, 32.52it/s]

itr: 71750 lr: 3.561e-05 train loss: 0.000000 (dt=7.98s)


training:  60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 72010/120000 [38:18<24:35, 32.52it/s]

itr: 72000 lr: 3.530e-05 train loss: 0.000047 (dt=7.98s)


training:  60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 72260/120000 [38:26<24:28, 32.51it/s]

itr: 72250 lr: 3.499e-05 train loss: 0.000000 (dt=7.98s)


training:  60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 72510/120000 [38:34<24:20, 32.51it/s]

itr: 72500 lr: 3.469e-05 train loss: 0.000000 (dt=7.98s)


training:  61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 72760/120000 [38:42<24:12, 32.52it/s]

itr: 72750 lr: 3.438e-05 train loss: 0.000000 (dt=7.98s)


training:  61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 73010/120000 [38:50<24:04, 32.52it/s]

itr: 73000 lr: 3.407e-05 train loss: 0.000000 (dt=7.98s)


training:  61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 73260/120000 [38:58<23:57, 32.52it/s]

itr: 73250 lr: 3.377e-05 train loss: 0.000000 (dt=7.98s)


training:  61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 73510/120000 [39:06<23:49, 32.51it/s]

itr: 73500 lr: 3.346e-05 train loss: 0.000000 (dt=7.98s)


training:  61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 73760/120000 [39:14<23:42, 32.51it/s]

itr: 73750 lr: 3.316e-05 train loss: 0.000000 (dt=7.98s)


training:  62%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 74010/120000 [39:22<23:34, 32.50it/s]

itr: 74000 lr: 3.285e-05 train loss: 0.000000 (dt=7.98s)


training:  62%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 74260/120000 [39:30<23:27, 32.51it/s]

itr: 74250 lr: 3.255e-05 train loss: 0.000000 (dt=7.98s)


training:  62%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 74510/120000 [39:38<23:19, 32.51it/s]

itr: 74500 lr: 3.225e-05 train loss: 0.000000 (dt=7.98s)


training:  62%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 74760/120000 [39:46<23:11, 32.51it/s]

itr: 74750 lr: 3.195e-05 train loss: 0.000000 (dt=7.98s)


training:  63%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé   | 75010/120000 [39:54<23:03, 32.51it/s]

itr: 75000 lr: 3.165e-05 train loss: 0.000000 (dt=7.98s)


training:  63%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé   | 75260/120000 [40:02<22:55, 32.51it/s]

itr: 75250 lr: 3.135e-05 train loss: 0.000000 (dt=7.98s)


training:  63%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé   | 75510/120000 [40:10<22:47, 32.53it/s]

itr: 75500 lr: 3.105e-05 train loss: 0.000000 (dt=7.98s)


training:  63%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé   | 75760/120000 [40:18<22:41, 32.49it/s]

itr: 75750 lr: 3.075e-05 train loss: 0.000000 (dt=7.98s)


training:  63%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé   | 76010/120000 [40:26<22:33, 32.51it/s]

itr: 76000 lr: 3.045e-05 train loss: 0.000000 (dt=7.98s)


training:  64%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé   | 76260/120000 [40:34<22:25, 32.51it/s]

itr: 76250 lr: 3.016e-05 train loss: 0.000000 (dt=7.98s)


training:  64%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç   | 76510/120000 [40:42<22:17, 32.51it/s]

itr: 76500 lr: 2.986e-05 train loss: 0.000000 (dt=7.98s)


training:  64%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç   | 76760/120000 [40:50<22:10, 32.51it/s]

itr: 76750 lr: 2.957e-05 train loss: 0.000000 (dt=7.98s)


training:  64%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç   | 77010/120000 [40:58<22:02, 32.52it/s]

itr: 77000 lr: 2.927e-05 train loss: 0.000000 (dt=7.98s)


training:  64%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç   | 77260/120000 [41:06<21:54, 32.52it/s]

itr: 77250 lr: 2.898e-05 train loss: 0.000000 (dt=7.98s)


training:  65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç   | 77510/120000 [41:14<21:47, 32.50it/s]

itr: 77500 lr: 2.869e-05 train loss: 0.000000 (dt=7.98s)


training:  65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç   | 77760/120000 [41:22<21:39, 32.51it/s]

itr: 77750 lr: 2.840e-05 train loss: 0.000000 (dt=7.98s)


training:  65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 78010/120000 [41:30<21:31, 32.51it/s]

itr: 78000 lr: 2.811e-05 train loss: 0.000000 (dt=7.98s)


training:  65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 78260/120000 [41:38<21:20, 32.59it/s]

itr: 78250 lr: 2.782e-05 train loss: 0.000000 (dt=7.98s)


training:  65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 78510/120000 [41:46<21:16, 32.51it/s]

itr: 78500 lr: 2.753e-05 train loss: 0.000000 (dt=7.98s)


training:  66%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 78760/120000 [41:54<21:08, 32.51it/s]

itr: 78750 lr: 2.724e-05 train loss: 0.000000 (dt=7.98s)


training:  66%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 79010/120000 [42:02<21:00, 32.51it/s]

itr: 79000 lr: 2.696e-05 train loss: 0.000000 (dt=7.98s)


training:  66%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 79260/120000 [42:10<20:53, 32.50it/s]

itr: 79250 lr: 2.667e-05 train loss: 0.000000 (dt=7.98s)


training:  66%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã   | 79510/120000 [42:18<20:45, 32.51it/s]

itr: 79500 lr: 2.639e-05 train loss: 0.000000 (dt=7.98s)


training:  66%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã   | 79760/120000 [42:26<20:37, 32.51it/s]

itr: 79750 lr: 2.611e-05 train loss: 0.000000 (dt=7.98s)


training:  67%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã   | 80010/120000 [42:34<20:49, 32.01it/s]

itr: 80000 lr: 2.582e-05 train loss: 0.000000 (dt=7.98s)
saved checkpoint: ./saved_models_grid_bs8192_20260103_075004/Checkpoint_N128_L2_dup0_iters80001.pt


training:  67%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã   | 80260/120000 [42:42<20:22, 32.51it/s]

itr: 80250 lr: 2.554e-05 train loss: 0.000000 (dt=7.99s)


training:  67%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã   | 80510/120000 [42:50<20:14, 32.50it/s]

itr: 80500 lr: 2.526e-05 train loss: 0.000000 (dt=7.98s)


training:  67%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã   | 80760/120000 [42:58<20:05, 32.54it/s]

itr: 80750 lr: 2.499e-05 train loss: 0.000000 (dt=7.98s)


training:  68%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä   | 81010/120000 [43:06<19:57, 32.55it/s]

itr: 81000 lr: 2.471e-05 train loss: 0.000000 (dt=7.98s)


training:  68%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä   | 81260/120000 [43:14<19:50, 32.53it/s]

itr: 81250 lr: 2.443e-05 train loss: 0.000000 (dt=7.98s)


training:  68%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä   | 81510/120000 [43:22<19:44, 32.51it/s]

itr: 81500 lr: 2.416e-05 train loss: 0.000000 (dt=7.98s)


training:  68%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä   | 81760/120000 [43:30<19:36, 32.52it/s]

itr: 81750 lr: 2.388e-05 train loss: 0.000000 (dt=7.98s)


training:  68%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä   | 82010/120000 [43:38<19:28, 32.51it/s]

itr: 82000 lr: 2.361e-05 train loss: 0.000000 (dt=7.98s)


training:  69%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä   | 82260/120000 [43:46<19:21, 32.50it/s]

itr: 82250 lr: 2.334e-05 train loss: 0.000000 (dt=7.98s)


training:  69%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 82510/120000 [43:53<19:10, 32.57it/s]

itr: 82500 lr: 2.307e-05 train loss: 0.000000 (dt=7.98s)


training:  69%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 82760/120000 [44:01<19:05, 32.51it/s]

itr: 82750 lr: 2.280e-05 train loss: 0.000000 (dt=7.98s)


training:  69%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 83010/120000 [44:09<18:57, 32.52it/s]

itr: 83000 lr: 2.253e-05 train loss: 0.000000 (dt=7.98s)


training:  69%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 83260/120000 [44:17<18:49, 32.52it/s]

itr: 83250 lr: 2.226e-05 train loss: 0.000000 (dt=7.98s)


training:  70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 83510/120000 [44:25<18:40, 32.57it/s]

itr: 83500 lr: 2.200e-05 train loss: 0.000000 (dt=7.98s)


training:  70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 83760/120000 [44:33<18:34, 32.52it/s]

itr: 83750 lr: 2.173e-05 train loss: 0.000000 (dt=7.98s)


training:  70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 84010/120000 [44:41<18:27, 32.51it/s]

itr: 84000 lr: 2.147e-05 train loss: 0.000000 (dt=7.98s)


training:  70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 84260/120000 [44:49<18:19, 32.52it/s]

itr: 84250 lr: 2.121e-05 train loss: 0.000000 (dt=7.98s)


training:  70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 84510/120000 [44:57<18:11, 32.51it/s]

itr: 84500 lr: 2.094e-05 train loss: 0.000000 (dt=7.98s)


training:  71%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 84760/120000 [45:05<18:03, 32.51it/s]

itr: 84750 lr: 2.068e-05 train loss: 0.000000 (dt=7.98s)


training:  71%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 85010/120000 [45:13<17:56, 32.51it/s]

itr: 85000 lr: 2.043e-05 train loss: 0.000000 (dt=7.98s)


training:  71%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 85260/120000 [45:21<17:48, 32.52it/s]

itr: 85250 lr: 2.017e-05 train loss: 0.000000 (dt=7.98s)


training:  71%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè  | 85510/120000 [45:29<17:40, 32.52it/s]

itr: 85500 lr: 1.991e-05 train loss: 0.000000 (dt=7.98s)


training:  71%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè  | 85760/120000 [45:37<17:33, 32.51it/s]

itr: 85750 lr: 1.966e-05 train loss: 0.000000 (dt=7.98s)


training:  72%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè  | 86010/120000 [45:45<17:25, 32.51it/s]

itr: 86000 lr: 1.941e-05 train loss: 0.000000 (dt=7.98s)


training:  72%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè  | 86260/120000 [45:53<17:17, 32.51it/s]

itr: 86250 lr: 1.915e-05 train loss: 0.000000 (dt=7.98s)


training:  72%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè  | 86510/120000 [46:01<17:09, 32.52it/s]

itr: 86500 lr: 1.890e-05 train loss: 0.000000 (dt=7.98s)


training:  72%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè  | 86760/120000 [46:09<17:02, 32.51it/s]

itr: 86750 lr: 1.865e-05 train loss: 0.000000 (dt=7.98s)


training:  73%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé  | 87010/120000 [46:17<16:54, 32.51it/s]

itr: 87000 lr: 1.841e-05 train loss: 0.000000 (dt=7.98s)


training:  73%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé  | 87260/120000 [46:25<16:46, 32.52it/s]

itr: 87250 lr: 1.816e-05 train loss: 0.000000 (dt=7.98s)


training:  73%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé  | 87510/120000 [46:33<16:39, 32.51it/s]

itr: 87500 lr: 1.792e-05 train loss: 0.000000 (dt=7.98s)


training:  73%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé  | 87760/120000 [46:41<16:31, 32.50it/s]

itr: 87750 lr: 1.767e-05 train loss: 0.000000 (dt=7.98s)


training:  73%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé  | 88010/120000 [46:49<16:24, 32.51it/s]

itr: 88000 lr: 1.743e-05 train loss: 0.000000 (dt=7.98s)


training:  74%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé  | 88260/120000 [46:57<16:16, 32.49it/s]

itr: 88250 lr: 1.719e-05 train loss: 0.000000 (dt=7.98s)


training:  74%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç  | 88510/120000 [47:05<16:08, 32.51it/s]

itr: 88500 lr: 1.695e-05 train loss: 0.000000 (dt=7.98s)


training:  74%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç  | 88760/120000 [47:13<16:00, 32.51it/s]

itr: 88750 lr: 1.671e-05 train loss: 0.000000 (dt=7.98s)


training:  74%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç  | 89010/120000 [47:21<15:52, 32.52it/s]

itr: 89000 lr: 1.648e-05 train loss: 0.000000 (dt=7.98s)


training:  74%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç  | 89260/120000 [47:29<15:45, 32.51it/s]

itr: 89250 lr: 1.624e-05 train loss: 0.000000 (dt=7.98s)


training:  75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç  | 89510/120000 [47:37<15:37, 32.51it/s]

itr: 89500 lr: 1.601e-05 train loss: 0.000000 (dt=7.98s)


training:  75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç  | 89760/120000 [47:45<15:30, 32.51it/s]

itr: 89750 lr: 1.577e-05 train loss: 0.000000 (dt=7.98s)


training:  75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 90010/120000 [47:53<15:22, 32.50it/s]

itr: 90000 lr: 1.554e-05 train loss: 0.000000 (dt=7.98s)


training:  75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 90260/120000 [48:01<15:12, 32.57it/s]

itr: 90250 lr: 1.532e-05 train loss: 0.000000 (dt=7.98s)


training:  75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 90510/120000 [48:09<15:07, 32.51it/s]

itr: 90500 lr: 1.509e-05 train loss: 0.000000 (dt=7.98s)


training:  76%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 90760/120000 [48:17<14:59, 32.51it/s]

itr: 90750 lr: 1.486e-05 train loss: 0.000000 (dt=7.98s)


training:  76%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 91010/120000 [48:25<14:51, 32.52it/s]

itr: 91000 lr: 1.464e-05 train loss: 0.000000 (dt=7.98s)


training:  76%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 91260/120000 [48:33<14:44, 32.51it/s]

itr: 91250 lr: 1.441e-05 train loss: 0.000000 (dt=7.98s)


training:  76%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã  | 91510/120000 [48:41<14:36, 32.50it/s]

itr: 91500 lr: 1.419e-05 train loss: 0.000000 (dt=7.98s)


training:  76%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã  | 91760/120000 [48:49<14:28, 32.50it/s]

itr: 91750 lr: 1.397e-05 train loss: 0.000000 (dt=7.98s)


training:  77%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã  | 92010/120000 [48:57<14:21, 32.51it/s]

itr: 92000 lr: 1.375e-05 train loss: 0.000000 (dt=7.98s)


training:  77%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã  | 92260/120000 [49:05<14:11, 32.57it/s]

itr: 92250 lr: 1.354e-05 train loss: 0.000000 (dt=7.98s)


training:  77%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã  | 92510/120000 [49:13<14:05, 32.52it/s]

itr: 92500 lr: 1.332e-05 train loss: 0.000000 (dt=7.98s)


training:  77%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã  | 92760/120000 [49:21<13:58, 32.51it/s]

itr: 92750 lr: 1.311e-05 train loss: 0.000000 (dt=7.98s)


training:  78%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 93010/120000 [49:29<13:50, 32.51it/s]

itr: 93000 lr: 1.290e-05 train loss: 0.000000 (dt=7.98s)


training:  78%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 93260/120000 [49:37<13:41, 32.55it/s]

itr: 93250 lr: 1.269e-05 train loss: 0.000000 (dt=7.98s)


training:  78%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 93510/120000 [49:45<13:34, 32.51it/s]

itr: 93500 lr: 1.248e-05 train loss: 0.000000 (dt=7.98s)


training:  78%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 93760/120000 [49:53<13:27, 32.51it/s]

itr: 93750 lr: 1.227e-05 train loss: 0.000000 (dt=7.98s)


training:  78%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 94010/120000 [50:01<13:19, 32.52it/s]

itr: 94000 lr: 1.207e-05 train loss: 0.000000 (dt=7.98s)


training:  79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 94260/120000 [50:09<13:10, 32.54it/s]

itr: 94250 lr: 1.186e-05 train loss: 0.000000 (dt=7.98s)


training:  79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 94510/120000 [50:17<13:03, 32.53it/s]

itr: 94500 lr: 1.166e-05 train loss: 0.000000 (dt=7.98s)


training:  79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 94760/120000 [50:25<12:56, 32.52it/s]

itr: 94750 lr: 1.146e-05 train loss: 0.000000 (dt=7.98s)


training:  79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 95010/120000 [50:33<12:48, 32.51it/s]

itr: 95000 lr: 1.126e-05 train loss: 0.000000 (dt=7.98s)


training:  79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 95260/120000 [50:41<12:40, 32.51it/s]

itr: 95250 lr: 1.106e-05 train loss: 0.000000 (dt=7.98s)


training:  80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 95510/120000 [50:49<12:33, 32.52it/s]

itr: 95500 lr: 1.087e-05 train loss: 0.000000 (dt=7.98s)


training:  80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 95760/120000 [50:57<12:24, 32.55it/s]

itr: 95750 lr: 1.068e-05 train loss: 0.000000 (dt=7.98s)


training:  80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 96010/120000 [51:04<12:17, 32.52it/s]

itr: 96000 lr: 1.048e-05 train loss: 0.000000 (dt=7.98s)


training:  80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 96260/120000 [51:12<12:09, 32.52it/s]

itr: 96250 lr: 1.029e-05 train loss: 0.000000 (dt=7.98s)


training:  80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 96510/120000 [51:20<12:02, 32.52it/s]

itr: 96500 lr: 1.011e-05 train loss: 0.000000 (dt=7.98s)


training:  81%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 96760/120000 [51:28<11:54, 32.51it/s]

itr: 96750 lr: 9.919e-06 train loss: 0.000000 (dt=7.98s)


training:  81%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 97010/120000 [51:36<11:47, 32.50it/s]

itr: 97000 lr: 9.734e-06 train loss: 0.000000 (dt=7.98s)


training:  81%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 97260/120000 [51:44<11:39, 32.51it/s]

itr: 97250 lr: 9.551e-06 train loss: 0.000000 (dt=7.98s)


training:  81%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè | 97510/120000 [51:52<11:31, 32.51it/s]

itr: 97500 lr: 9.369e-06 train loss: 0.000000 (dt=7.98s)


training:  81%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè | 97760/120000 [52:00<11:23, 32.52it/s]

itr: 97750 lr: 9.190e-06 train loss: 0.000000 (dt=7.98s)


training:  82%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè | 98010/120000 [52:08<11:16, 32.51it/s]

itr: 98000 lr: 9.012e-06 train loss: 0.000000 (dt=7.98s)


training:  82%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè | 98260/120000 [52:16<11:08, 32.52it/s]

itr: 98250 lr: 8.836e-06 train loss: 0.000000 (dt=7.98s)


training:  82%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè | 98510/120000 [52:24<11:00, 32.52it/s]

itr: 98500 lr: 8.661e-06 train loss: 0.000000 (dt=7.98s)


training:  82%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè | 98760/120000 [52:32<10:53, 32.51it/s]

itr: 98750 lr: 8.489e-06 train loss: 0.000000 (dt=7.98s)


training:  83%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé | 99010/120000 [52:40<10:44, 32.59it/s]

itr: 99000 lr: 8.318e-06 train loss: 0.000000 (dt=7.98s)


training:  83%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé | 99260/120000 [52:48<10:37, 32.52it/s]

itr: 99250 lr: 8.149e-06 train loss: 0.000000 (dt=7.98s)


training:  83%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé | 99510/120000 [52:56<10:29, 32.55it/s]

itr: 99500 lr: 7.982e-06 train loss: 0.000000 (dt=7.98s)


training:  83%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé | 99760/120000 [53:04<10:22, 32.50it/s]

itr: 99750 lr: 7.817e-06 train loss: 0.000000 (dt=7.98s)


training:  83%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé | 100010/120000 [53:12<10:25, 31.98it/s]

itr: 100000 lr: 7.653e-06 train loss: 0.000000 (dt=7.98s)
saved checkpoint: ./saved_models_grid_bs8192_20260103_075004/Checkpoint_N128_L2_dup0_iters100001.pt


training:  84%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé | 100260/120000 [53:20<10:07, 32.51it/s]

itr: 100250 lr: 7.492e-06 train loss: 0.000000 (dt=7.99s)


training:  84%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç | 100510/120000 [53:28<09:59, 32.51it/s]

itr: 100500 lr: 7.332e-06 train loss: 0.000000 (dt=7.98s)


training:  84%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç | 100760/120000 [53:36<09:51, 32.52it/s]

itr: 100750 lr: 7.174e-06 train loss: 0.000000 (dt=7.98s)


training:  84%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç | 101010/120000 [53:44<09:44, 32.52it/s]

itr: 101000 lr: 7.018e-06 train loss: 0.000000 (dt=7.98s)


training:  84%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç | 101260/120000 [53:52<09:36, 32.50it/s]

itr: 101250 lr: 6.864e-06 train loss: 0.000000 (dt=7.98s)


training:  85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç | 101510/120000 [54:00<09:27, 32.56it/s]

itr: 101500 lr: 6.712e-06 train loss: 0.000000 (dt=7.98s)


training:  85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç | 101760/120000 [54:08<09:21, 32.50it/s]

itr: 101750 lr: 6.561e-06 train loss: 0.000000 (dt=7.98s)


training:  85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 102010/120000 [54:16<09:13, 32.51it/s]

itr: 102000 lr: 6.413e-06 train loss: 0.000000 (dt=7.98s)


training:  85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 102260/120000 [54:24<09:05, 32.50it/s]

itr: 102250 lr: 6.266e-06 train loss: 0.000000 (dt=7.98s)


training:  85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 102510/120000 [54:32<08:57, 32.51it/s]

itr: 102500 lr: 6.122e-06 train loss: 0.000000 (dt=7.98s)


training:  86%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 102760/120000 [54:40<08:50, 32.50it/s]

itr: 102750 lr: 5.979e-06 train loss: 0.000000 (dt=7.98s)


training:  86%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 103010/120000 [54:48<08:42, 32.52it/s]

itr: 103000 lr: 5.838e-06 train loss: 0.000000 (dt=7.98s)


training:  86%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 103260/120000 [54:56<08:34, 32.52it/s]

itr: 103250 lr: 5.699e-06 train loss: 0.000000 (dt=7.98s)


training:  86%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 103510/120000 [55:04<08:27, 32.49it/s]

itr: 103500 lr: 5.562e-06 train loss: 0.000000 (dt=7.98s)


training:  86%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 103760/120000 [55:12<08:19, 32.51it/s]

itr: 103750 lr: 5.427e-06 train loss: 0.000000 (dt=7.98s)


training:  87%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 104010/120000 [55:20<08:11, 32.52it/s]

itr: 104000 lr: 5.294e-06 train loss: 0.000000 (dt=7.98s)


training:  87%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 104260/120000 [55:28<08:04, 32.51it/s]

itr: 104250 lr: 5.162e-06 train loss: 0.000000 (dt=7.98s)


training:  87%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 104510/120000 [55:36<07:56, 32.51it/s]

itr: 104500 lr: 5.033e-06 train loss: 0.000000 (dt=7.98s)


training:  87%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 104760/120000 [55:44<07:48, 32.55it/s]

itr: 104750 lr: 4.906e-06 train loss: 0.000000 (dt=7.98s)


training:  88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 105010/120000 [55:52<07:40, 32.52it/s]

itr: 105000 lr: 4.780e-06 train loss: 0.000000 (dt=7.98s)


training:  88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 105260/120000 [56:00<07:33, 32.50it/s]

itr: 105250 lr: 4.657e-06 train loss: 0.000000 (dt=7.98s)


training:  88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 105510/120000 [56:08<07:25, 32.54it/s]

itr: 105500 lr: 4.536e-06 train loss: 0.000000 (dt=7.98s)


training:  88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 105760/120000 [56:16<07:17, 32.53it/s]

itr: 105750 lr: 4.416e-06 train loss: 0.000000 (dt=7.98s)


training:  88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 106010/120000 [56:24<07:10, 32.51it/s]

itr: 106000 lr: 4.299e-06 train loss: 0.000000 (dt=7.98s)


training:  89%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 106260/120000 [56:32<07:02, 32.51it/s]

itr: 106250 lr: 4.183e-06 train loss: 0.000000 (dt=7.98s)


training:  89%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ | 106510/120000 [56:40<06:54, 32.52it/s]

itr: 106500 lr: 4.070e-06 train loss: 0.000000 (dt=7.98s)


training:  89%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ | 106760/120000 [56:48<06:47, 32.51it/s]

itr: 106750 lr: 3.958e-06 train loss: 0.000000 (dt=7.98s)


training:  89%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ | 107010/120000 [56:56<06:39, 32.52it/s]

itr: 107000 lr: 3.849e-06 train loss: 0.000000 (dt=7.98s)


training:  89%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ | 107260/120000 [57:04<06:31, 32.51it/s]

itr: 107250 lr: 3.741e-06 train loss: 0.000000 (dt=7.98s)


training:  90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ | 107510/120000 [57:12<06:24, 32.51it/s]

itr: 107500 lr: 3.636e-06 train loss: 0.000000 (dt=7.98s)


training:  90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ | 107760/120000 [57:20<06:16, 32.52it/s]

itr: 107750 lr: 3.532e-06 train loss: 0.000000 (dt=7.98s)


training:  90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 108010/120000 [57:28<06:08, 32.52it/s]

itr: 108000 lr: 3.431e-06 train loss: 0.000000 (dt=7.98s)


training:  90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 108260/120000 [57:36<06:01, 32.51it/s]

itr: 108250 lr: 3.331e-06 train loss: 0.000000 (dt=7.98s)


training:  90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 108510/120000 [57:44<05:53, 32.55it/s]

itr: 108500 lr: 3.234e-06 train loss: 0.000000 (dt=7.98s)


training:  91%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 108760/120000 [57:52<05:45, 32.51it/s]

itr: 108750 lr: 3.139e-06 train loss: 0.000000 (dt=7.98s)


training:  91%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 109010/120000 [58:00<05:38, 32.50it/s]

itr: 109000 lr: 3.045e-06 train loss: 0.000000 (dt=7.98s)


training:  91%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 109260/120000 [58:08<05:30, 32.51it/s]

itr: 109250 lr: 2.954e-06 train loss: 0.000000 (dt=7.98s)


training:  91%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè| 109510/120000 [58:15<05:22, 32.51it/s]

itr: 109500 lr: 2.865e-06 train loss: 0.000000 (dt=7.98s)


training:  91%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè| 109760/120000 [58:23<05:14, 32.51it/s]

itr: 109750 lr: 2.777e-06 train loss: 0.000000 (dt=7.98s)


training:  92%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè| 110010/120000 [58:31<05:07, 32.54it/s]

itr: 110000 lr: 2.692e-06 train loss: 0.000000 (dt=7.98s)


training:  92%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè| 110260/120000 [58:39<04:59, 32.52it/s]

itr: 110250 lr: 2.609e-06 train loss: 0.000000 (dt=7.98s)


training:  92%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè| 110510/120000 [58:47<04:51, 32.53it/s]

itr: 110500 lr: 2.528e-06 train loss: 0.000000 (dt=7.98s)


training:  92%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè| 110760/120000 [58:55<04:44, 32.52it/s]

itr: 110750 lr: 2.449e-06 train loss: 0.000000 (dt=7.98s)


training:  93%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé| 111010/120000 [59:03<04:36, 32.51it/s]

itr: 111000 lr: 2.372e-06 train loss: 0.000000 (dt=7.98s)


training:  93%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé| 111260/120000 [59:11<04:28, 32.53it/s]

itr: 111250 lr: 2.297e-06 train loss: 0.000000 (dt=7.98s)


training:  93%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé| 111510/120000 [59:19<04:21, 32.52it/s]

itr: 111500 lr: 2.225e-06 train loss: 0.000000 (dt=7.98s)


training:  93%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé| 111760/120000 [59:27<04:13, 32.52it/s]

itr: 111750 lr: 2.154e-06 train loss: 0.000000 (dt=7.98s)


training:  93%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé| 112010/120000 [59:35<04:05, 32.50it/s]

itr: 112000 lr: 2.085e-06 train loss: 0.000000 (dt=7.98s)


training:  94%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé| 112260/120000 [59:43<03:58, 32.51it/s]

itr: 112250 lr: 2.019e-06 train loss: 0.000000 (dt=7.98s)


training:  94%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç| 112510/120000 [59:51<03:50, 32.56it/s]

itr: 112500 lr: 1.954e-06 train loss: 0.000000 (dt=7.98s)


training:  94%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç| 112760/120000 [59:59<03:42, 32.51it/s]

itr: 112750 lr: 1.892e-06 train loss: 0.000030 (dt=7.98s)


training:  94%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç| 113010/120000 [1:00:07<03:34, 32.60it/s]

itr: 113000 lr: 1.832e-06 train loss: 0.000000 (dt=7.98s)


training:  94%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç| 113260/120000 [1:00:15<03:27, 32.52it/s]

itr: 113250 lr: 1.773e-06 train loss: 0.000000 (dt=7.98s)


training:  95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç| 113510/120000 [1:00:23<03:19, 32.53it/s]

itr: 113500 lr: 1.717e-06 train loss: 0.000000 (dt=7.98s)


training:  95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç| 113760/120000 [1:00:31<03:11, 32.53it/s]

itr: 113750 lr: 1.663e-06 train loss: 0.000000 (dt=7.98s)


training:  95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 114010/120000 [1:00:39<03:04, 32.50it/s]

itr: 114000 lr: 1.611e-06 train loss: 0.000000 (dt=7.98s)


training:  95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 114260/120000 [1:00:47<02:56, 32.50it/s]

itr: 114250 lr: 1.562e-06 train loss: 0.000000 (dt=7.98s)


training:  95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 114510/120000 [1:00:55<02:48, 32.51it/s]

itr: 114500 lr: 1.514e-06 train loss: 0.000000 (dt=7.98s)


training:  96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 114760/120000 [1:01:03<02:41, 32.51it/s]

itr: 114750 lr: 1.468e-06 train loss: 0.000000 (dt=7.98s)


training:  96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 115010/120000 [1:01:11<02:33, 32.51it/s]

itr: 115000 lr: 1.425e-06 train loss: 0.000000 (dt=7.98s)


training:  96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 115260/120000 [1:01:19<02:25, 32.50it/s]

itr: 115250 lr: 1.384e-06 train loss: 0.000000 (dt=7.98s)


training:  96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã| 115510/120000 [1:01:27<02:18, 32.51it/s]

itr: 115500 lr: 1.344e-06 train loss: 0.000000 (dt=7.98s)


training:  96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã| 115760/120000 [1:01:35<02:10, 32.51it/s]

itr: 115750 lr: 1.307e-06 train loss: 0.000000 (dt=7.98s)


training:  97%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã| 116010/120000 [1:01:43<02:02, 32.50it/s]

itr: 116000 lr: 1.272e-06 train loss: 0.000000 (dt=7.98s)


training:  97%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã| 116260/120000 [1:01:51<01:55, 32.51it/s]

itr: 116250 lr: 1.239e-06 train loss: 0.000000 (dt=7.98s)


training:  97%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã| 116510/120000 [1:01:59<01:47, 32.52it/s]

itr: 116500 lr: 1.208e-06 train loss: 0.000000 (dt=7.98s)


training:  97%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã| 116760/120000 [1:02:07<01:39, 32.51it/s]

itr: 116750 lr: 1.180e-06 train loss: 0.000000 (dt=7.98s)


training:  98%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä| 117010/120000 [1:02:15<01:31, 32.53it/s]

itr: 117000 lr: 1.153e-06 train loss: 0.000000 (dt=7.98s)


training:  98%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä| 117260/120000 [1:02:23<01:24, 32.53it/s]

itr: 117250 lr: 1.129e-06 train loss: 0.000000 (dt=7.98s)


training:  98%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä| 117510/120000 [1:02:31<01:16, 32.52it/s]

itr: 117500 lr: 1.106e-06 train loss: 0.000000 (dt=7.98s)


training:  98%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä| 117760/120000 [1:02:39<01:08, 32.50it/s]

itr: 117750 lr: 1.086e-06 train loss: 0.000000 (dt=7.98s)


training:  98%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä| 118010/120000 [1:02:47<01:01, 32.45it/s]

itr: 118000 lr: 1.068e-06 train loss: 0.000000 (dt=7.98s)


training:  99%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä| 118260/120000 [1:02:55<00:53, 32.52it/s]

itr: 118250 lr: 1.052e-06 train loss: 0.000000 (dt=7.98s)


training:  99%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ| 118510/120000 [1:03:03<00:45, 32.55it/s]

itr: 118500 lr: 1.038e-06 train loss: 0.000000 (dt=7.98s)


training:  99%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ| 118760/120000 [1:03:11<00:38, 32.51it/s]

itr: 118750 lr: 1.027e-06 train loss: 0.000000 (dt=7.98s)


training:  99%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ| 119010/120000 [1:03:19<00:30, 32.51it/s]

itr: 119000 lr: 1.017e-06 train loss: 0.000000 (dt=7.98s)


training:  99%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ| 119260/120000 [1:03:27<00:22, 32.50it/s]

itr: 119250 lr: 1.010e-06 train loss: 0.000000 (dt=7.98s)


training: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ| 119510/120000 [1:03:35<00:15, 32.51it/s]

itr: 119500 lr: 1.004e-06 train loss: 0.000000 (dt=7.98s)


training: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ| 119760/120000 [1:03:43<00:07, 32.51it/s]

itr: 119750 lr: 1.001e-06 train loss: 0.000000 (dt=7.98s)


training: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 120000/120000 [1:03:50<00:00, 31.32it/s]


saved final model: ./saved_models_grid_bs8192_20260103_075004/Final_N128_L2_dup0_iters120000.pt


0,1
iter,‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÉ‚ñÉ‚ñÉ‚ñÑ‚ñÑ‚ñÑ‚ñÑ‚ñÖ‚ñÖ‚ñÖ‚ñÖ‚ñÖ‚ñÖ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñà‚ñà
ll/iter,‚ñÅ‚ñÅ‚ñÇ‚ñÉ‚ñÉ‚ñÑ‚ñÑ‚ñÑ‚ñÑ‚ñÑ‚ñÖ‚ñÖ‚ñÖ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà
ll/lr,‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÖ‚ñÖ‚ñÖ‚ñÖ‚ñÖ‚ñÑ‚ñÉ‚ñÉ‚ñÉ‚ñÅ
ll/train_loss,‚ñà‚ñà‚ñá‚ñá‚ñÖ‚ñÖ‚ñÉ‚ñÉ‚ñÑ‚ñÉ‚ñÇ‚ñÖ‚ñÉ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÅ‚ñÇ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÇ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÇ‚ñÅ‚ñÅ
lr,‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñÜ‚ñÜ‚ñÖ‚ñÖ‚ñÑ‚ñÉ‚ñÉ‚ñÉ‚ñÉ‚ñÉ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ
plateau/delta_log10_loss_window,‚ñÖ‚ñÖ‚ñÖ‚ñà‚ñÑ‚ñÑ‚ñá‚ñÜ‚ñÉ‚ñÑ‚ñÖ‚ñÑ‚ñÖ‚ñÇ‚ñÑ‚ñÑ‚ñÑ‚ñÑ‚ñà‚ñÖ‚ñÖ‚ñÖ‚ñÑ‚ñÉ‚ñÉ‚ñÑ‚ñÉ‚ñÉ‚ñÑ‚ñÉ‚ñÅ‚ñÑ‚ñÑ‚ñÜ‚ñÑ‚ñÑ‚ñÑ‚ñÑ‚ñÉ‚ñÑ
plateau/hits,‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñà‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ
plateau/loglog_slope,‚ñÑ‚ñÑ‚ñÑ‚ñÑ‚ñÉ‚ñÑ‚ñÑ‚ñÑ‚ñÑ‚ñÑ‚ñÉ‚ñÉ‚ñÉ‚ñÖ‚ñÑ‚ñÇ‚ñÉ‚ñÇ‚ñÇ‚ñÅ‚ñÑ‚ñÅ‚ñÅ‚ñÇ‚ñÇ‚ñÑ‚ñÉ‚ñÑ‚ñÑ‚ñÖ‚ñá‚ñÜ‚ñÜ‚ñÜ‚ñÖ‚ñÑ‚ñÖ‚ñà‚ñá‚ñÑ
plateau/now,‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ
plateau/reached,‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ

0,1
iter,120000
iters_done,120000
ll/iter,5.07918
ll/lr,-6.0
ll/train_loss,-7.72343
lr,0.0
plateau/delta_log10_loss_window,0.18877
plateau/hits,0
plateau/loglog_slope,-5.5126
plateau/now,0


using device: cuda


training:   0%|          | 11/120000 [00:00<18:37, 107.38it/s]

itr: 0 lr: 4.975e-07 train loss: 4.887243 (dt=0.03s)


training:   0%|          | 264/120000 [00:04<35:42, 55.88it/s]

itr: 250 lr: 1.000e-04 train loss: 3.932730 (dt=4.77s)


training:   0%|          | 514/120000 [00:09<36:13, 54.96it/s]

itr: 500 lr: 1.000e-04 train loss: 2.889059 (dt=4.75s)


training:   1%|          | 764/120000 [00:14<35:50, 55.44it/s]

itr: 750 lr: 9.999e-05 train loss: 1.963163 (dt=4.75s)


training:   1%|          | 1014/120000 [00:19<35:46, 55.43it/s]

itr: 1000 lr: 9.999e-05 train loss: 1.138880 (dt=4.75s)


training:   1%|          | 1264/120000 [00:23<35:41, 55.44it/s]

itr: 1250 lr: 9.998e-05 train loss: 0.523177 (dt=4.75s)


training:   1%|‚ñè         | 1514/120000 [00:28<35:38, 55.40it/s]

itr: 1500 lr: 9.997e-05 train loss: 0.202859 (dt=4.75s)


training:   1%|‚ñè         | 1764/120000 [00:33<35:34, 55.40it/s]

itr: 1750 lr: 9.996e-05 train loss: 0.075798 (dt=4.75s)


training:   2%|‚ñè         | 2014/120000 [00:38<35:29, 55.41it/s]

itr: 2000 lr: 9.994e-05 train loss: 0.031582 (dt=4.75s)


training:   2%|‚ñè         | 2264/120000 [00:42<35:27, 55.35it/s]

itr: 2250 lr: 9.993e-05 train loss: 0.014690 (dt=4.75s)


training:   2%|‚ñè         | 2514/120000 [00:47<35:15, 55.53it/s]

itr: 2500 lr: 9.991e-05 train loss: 0.008471 (dt=4.75s)


training:   2%|‚ñè         | 2764/120000 [00:52<35:33, 54.94it/s]

itr: 2750 lr: 9.989e-05 train loss: 0.005253 (dt=4.75s)


training:   3%|‚ñé         | 3014/120000 [00:57<35:11, 55.40it/s]

itr: 3000 lr: 9.987e-05 train loss: 0.003548 (dt=4.75s)


training:   3%|‚ñé         | 3264/120000 [01:01<35:06, 55.42it/s]

itr: 3250 lr: 9.984e-05 train loss: 0.002341 (dt=4.75s)


training:   3%|‚ñé         | 3514/120000 [01:06<35:02, 55.42it/s]

itr: 3500 lr: 9.981e-05 train loss: 0.001568 (dt=4.75s)


training:   3%|‚ñé         | 3764/120000 [01:11<34:58, 55.40it/s]

itr: 3750 lr: 9.979e-05 train loss: 0.001349 (dt=4.75s)


training:   3%|‚ñé         | 4014/120000 [01:16<34:49, 55.50it/s]

itr: 4000 lr: 9.975e-05 train loss: 0.000987 (dt=4.75s)


training:   4%|‚ñé         | 4264/120000 [01:20<34:49, 55.39it/s]

itr: 4250 lr: 9.972e-05 train loss: 0.000718 (dt=4.75s)


training:   4%|‚ñç         | 4514/120000 [01:25<34:40, 55.50it/s]

itr: 4500 lr: 9.969e-05 train loss: 0.000588 (dt=4.75s)


training:   4%|‚ñç         | 4764/120000 [01:30<34:55, 55.00it/s]

itr: 4750 lr: 9.965e-05 train loss: 0.000634 (dt=4.75s)


training:   4%|‚ñç         | 5014/120000 [01:35<34:35, 55.40it/s]

itr: 5000 lr: 9.961e-05 train loss: 0.000565 (dt=4.75s)


training:   4%|‚ñç         | 5264/120000 [01:39<34:30, 55.41it/s]

itr: 5250 lr: 9.957e-05 train loss: 0.000377 (dt=4.75s)


training:   5%|‚ñç         | 5514/120000 [01:44<34:26, 55.40it/s]

itr: 5500 lr: 9.952e-05 train loss: 0.000334 (dt=4.75s)


training:   5%|‚ñç         | 5764/120000 [01:49<34:21, 55.40it/s]

itr: 5750 lr: 9.948e-05 train loss: 0.000311 (dt=4.75s)


training:   5%|‚ñå         | 6014/120000 [01:54<34:17, 55.40it/s]

itr: 6000 lr: 9.943e-05 train loss: 0.000327 (dt=4.75s)


training:   5%|‚ñå         | 6264/120000 [01:58<34:13, 55.40it/s]

itr: 6250 lr: 9.938e-05 train loss: 0.000214 (dt=4.75s)


training:   5%|‚ñå         | 6514/120000 [02:03<34:08, 55.40it/s]

itr: 6500 lr: 9.933e-05 train loss: 0.000195 (dt=4.75s)


training:   6%|‚ñå         | 6764/120000 [02:08<34:03, 55.42it/s]

itr: 6750 lr: 9.927e-05 train loss: 0.000219 (dt=4.75s)


training:   6%|‚ñå         | 7014/120000 [02:13<33:59, 55.41it/s]

itr: 7000 lr: 9.922e-05 train loss: 0.000166 (dt=4.75s)


training:   6%|‚ñå         | 7264/120000 [02:17<33:53, 55.44it/s]

itr: 7250 lr: 9.916e-05 train loss: 0.000147 (dt=4.75s)


training:   6%|‚ñã         | 7514/120000 [02:22<33:50, 55.41it/s]

itr: 7500 lr: 9.910e-05 train loss: 0.000113 (dt=4.75s)


training:   6%|‚ñã         | 7764/120000 [02:27<33:45, 55.41it/s]

itr: 7750 lr: 9.903e-05 train loss: 0.000085 (dt=4.75s)


training:   7%|‚ñã         | 8014/120000 [02:32<33:38, 55.49it/s]

itr: 8000 lr: 9.897e-05 train loss: 0.000125 (dt=4.75s)


training:   7%|‚ñã         | 8264/120000 [02:36<33:54, 54.91it/s]

itr: 8250 lr: 9.890e-05 train loss: 0.000076 (dt=4.75s)


training:   7%|‚ñã         | 8514/120000 [02:41<33:32, 55.39it/s]

itr: 8500 lr: 9.883e-05 train loss: 0.000139 (dt=4.75s)


training:   7%|‚ñã         | 8764/120000 [02:46<33:27, 55.40it/s]

itr: 8750 lr: 9.876e-05 train loss: 0.000034 (dt=4.75s)


training:   8%|‚ñä         | 9014/120000 [02:51<33:22, 55.41it/s]

itr: 9000 lr: 9.869e-05 train loss: 0.000073 (dt=4.75s)


training:   8%|‚ñä         | 9264/120000 [02:55<33:19, 55.39it/s]

itr: 9250 lr: 9.861e-05 train loss: 0.000056 (dt=4.75s)


training:   8%|‚ñä         | 9514/120000 [03:00<33:14, 55.41it/s]

itr: 9500 lr: 9.854e-05 train loss: 0.000042 (dt=4.75s)


training:   8%|‚ñä         | 9764/120000 [03:05<33:10, 55.39it/s]

itr: 9750 lr: 9.846e-05 train loss: 0.000018 (dt=4.75s)


training:   8%|‚ñä         | 10014/120000 [03:10<33:05, 55.40it/s]

itr: 10000 lr: 9.837e-05 train loss: 0.000106 (dt=4.75s)


training:   9%|‚ñä         | 10264/120000 [03:14<32:57, 55.49it/s]

itr: 10250 lr: 9.829e-05 train loss: 0.000027 (dt=4.75s)


training:   9%|‚ñâ         | 10514/120000 [03:19<33:12, 54.94it/s]

itr: 10500 lr: 9.821e-05 train loss: 0.000028 (dt=4.75s)


training:   9%|‚ñâ         | 10764/120000 [03:24<32:51, 55.40it/s]

itr: 10750 lr: 9.812e-05 train loss: 0.000028 (dt=4.75s)


training:   9%|‚ñâ         | 11014/120000 [03:29<32:47, 55.40it/s]

itr: 11000 lr: 9.803e-05 train loss: 0.000016 (dt=4.75s)


training:   9%|‚ñâ         | 11264/120000 [03:33<32:42, 55.40it/s]

itr: 11250 lr: 9.794e-05 train loss: 0.000046 (dt=4.75s)


training:  10%|‚ñâ         | 11514/120000 [03:38<32:38, 55.38it/s]

itr: 11500 lr: 9.784e-05 train loss: 0.000016 (dt=4.75s)


training:  10%|‚ñâ         | 11764/120000 [03:43<32:33, 55.40it/s]

itr: 11750 lr: 9.775e-05 train loss: 0.000048 (dt=4.75s)


training:  10%|‚ñà         | 12014/120000 [03:48<32:29, 55.40it/s]

itr: 12000 lr: 9.765e-05 train loss: 0.000047 (dt=4.75s)


training:  10%|‚ñà         | 12264/120000 [03:52<32:24, 55.41it/s]

itr: 12250 lr: 9.755e-05 train loss: 0.000045 (dt=4.75s)


training:  10%|‚ñà         | 12514/120000 [03:57<32:19, 55.42it/s]

itr: 12500 lr: 9.745e-05 train loss: 0.000042 (dt=4.75s)


training:  11%|‚ñà         | 12764/120000 [04:02<32:15, 55.42it/s]

itr: 12750 lr: 9.734e-05 train loss: 0.000070 (dt=4.75s)


training:  11%|‚ñà         | 13014/120000 [04:07<32:10, 55.42it/s]

itr: 13000 lr: 9.724e-05 train loss: 0.000008 (dt=4.75s)


training:  11%|‚ñà         | 13264/120000 [04:11<32:06, 55.40it/s]

itr: 13250 lr: 9.713e-05 train loss: 0.000043 (dt=4.75s)


training:  11%|‚ñà‚ñè        | 13514/120000 [04:16<32:01, 55.42it/s]

itr: 13500 lr: 9.702e-05 train loss: 0.000009 (dt=4.75s)


training:  11%|‚ñà‚ñè        | 13764/120000 [04:21<31:56, 55.43it/s]

itr: 13750 lr: 9.691e-05 train loss: 0.000017 (dt=4.75s)


training:  12%|‚ñà‚ñè        | 14014/120000 [04:26<31:53, 55.40it/s]

itr: 14000 lr: 9.679e-05 train loss: 0.000035 (dt=4.75s)


training:  12%|‚ñà‚ñè        | 14264/120000 [04:30<31:48, 55.40it/s]

itr: 14250 lr: 9.668e-05 train loss: 0.000007 (dt=4.75s)


training:  12%|‚ñà‚ñè        | 14514/120000 [04:35<31:43, 55.41it/s]

itr: 14500 lr: 9.656e-05 train loss: 0.000008 (dt=4.75s)


training:  12%|‚ñà‚ñè        | 14764/120000 [04:40<31:39, 55.41it/s]

itr: 14750 lr: 9.644e-05 train loss: 0.000024 (dt=4.75s)


training:  13%|‚ñà‚ñé        | 15014/120000 [04:45<31:35, 55.39it/s]

itr: 15000 lr: 9.632e-05 train loss: 0.000026 (dt=4.75s)


training:  13%|‚ñà‚ñé        | 15264/120000 [04:49<31:29, 55.43it/s]

itr: 15250 lr: 9.619e-05 train loss: 0.000026 (dt=4.75s)


training:  13%|‚ñà‚ñé        | 15514/120000 [04:54<31:24, 55.46it/s]

itr: 15500 lr: 9.607e-05 train loss: 0.000012 (dt=4.75s)


training:  13%|‚ñà‚ñé        | 15764/120000 [04:59<31:21, 55.40it/s]

itr: 15750 lr: 9.594e-05 train loss: 0.000006 (dt=4.75s)


training:  13%|‚ñà‚ñé        | 16014/120000 [05:04<31:16, 55.40it/s]

itr: 16000 lr: 9.581e-05 train loss: 0.000005 (dt=4.75s)


training:  14%|‚ñà‚ñé        | 16264/120000 [05:08<31:10, 55.46it/s]

itr: 16250 lr: 9.568e-05 train loss: 0.000009 (dt=4.75s)


training:  14%|‚ñà‚ñç        | 16514/120000 [05:13<31:06, 55.43it/s]

itr: 16500 lr: 9.555e-05 train loss: 0.000005 (dt=4.75s)


training:  14%|‚ñà‚ñç        | 16764/120000 [05:18<31:03, 55.40it/s]

itr: 16750 lr: 9.541e-05 train loss: 0.000020 (dt=4.75s)


training:  14%|‚ñà‚ñç        | 17014/120000 [05:22<30:59, 55.39it/s]

itr: 17000 lr: 9.527e-05 train loss: 0.000016 (dt=4.75s)


training:  14%|‚ñà‚ñç        | 17264/120000 [05:27<30:54, 55.40it/s]

itr: 17250 lr: 9.513e-05 train loss: 0.000004 (dt=4.75s)


training:  15%|‚ñà‚ñç        | 17514/120000 [05:32<30:47, 55.48it/s]

itr: 17500 lr: 9.499e-05 train loss: 0.000036 (dt=4.75s)


training:  15%|‚ñà‚ñç        | 17764/120000 [05:37<30:45, 55.40it/s]

itr: 17750 lr: 9.485e-05 train loss: 0.000015 (dt=4.75s)


training:  15%|‚ñà‚ñå        | 18014/120000 [05:41<30:40, 55.41it/s]

itr: 18000 lr: 9.470e-05 train loss: 0.000014 (dt=4.75s)


training:  15%|‚ñà‚ñå        | 18264/120000 [05:46<30:36, 55.40it/s]

itr: 18250 lr: 9.456e-05 train loss: 0.000004 (dt=4.75s)


training:  15%|‚ñà‚ñå        | 18514/120000 [05:51<30:31, 55.41it/s]

itr: 18500 lr: 9.441e-05 train loss: 0.000005 (dt=4.75s)


training:  16%|‚ñà‚ñå        | 18764/120000 [05:56<30:24, 55.48it/s]

itr: 18750 lr: 9.426e-05 train loss: 0.000018 (dt=4.75s)


training:  16%|‚ñà‚ñå        | 19014/120000 [06:00<30:23, 55.39it/s]

itr: 19000 lr: 9.411e-05 train loss: 0.000006 (dt=4.75s)


training:  16%|‚ñà‚ñå        | 19264/120000 [06:05<30:18, 55.40it/s]

itr: 19250 lr: 9.395e-05 train loss: 0.000033 (dt=4.75s)


training:  16%|‚ñà‚ñã        | 19514/120000 [06:10<30:13, 55.40it/s]

itr: 19500 lr: 9.379e-05 train loss: 0.000011 (dt=4.75s)


training:  16%|‚ñà‚ñã        | 19764/120000 [06:15<30:08, 55.42it/s]

itr: 19750 lr: 9.364e-05 train loss: 0.000004 (dt=4.75s)


training:  17%|‚ñà‚ñã        | 20014/120000 [06:19<30:24, 54.80it/s]

itr: 20000 lr: 9.348e-05 train loss: 0.000007 (dt=4.75s)
saved checkpoint: ./saved_models_grid_bs8192_20260103_075004/Checkpoint_N128_L1_dup0_iters20001.pt


training:  17%|‚ñà‚ñã        | 20264/120000 [06:24<30:00, 55.41it/s]

itr: 20250 lr: 9.331e-05 train loss: 0.000004 (dt=4.75s)


training:  17%|‚ñà‚ñã        | 20514/120000 [06:29<29:55, 55.41it/s]

itr: 20500 lr: 9.315e-05 train loss: 0.000021 (dt=4.75s)


training:  17%|‚ñà‚ñã        | 20764/120000 [06:34<29:51, 55.40it/s]

itr: 20750 lr: 9.298e-05 train loss: 0.000018 (dt=4.75s)


training:  18%|‚ñà‚ñä        | 21014/120000 [06:38<29:46, 55.41it/s]

itr: 21000 lr: 9.282e-05 train loss: 0.000028 (dt=4.75s)


training:  18%|‚ñà‚ñä        | 21264/120000 [06:43<29:41, 55.41it/s]

itr: 21250 lr: 9.265e-05 train loss: 0.000004 (dt=4.75s)


training:  18%|‚ñà‚ñä        | 21514/120000 [06:48<29:38, 55.38it/s]

itr: 21500 lr: 9.248e-05 train loss: 0.000018 (dt=4.75s)


training:  18%|‚ñà‚ñä        | 21764/120000 [06:53<29:32, 55.42it/s]

itr: 21750 lr: 9.230e-05 train loss: 0.000013 (dt=4.75s)


training:  18%|‚ñà‚ñä        | 22014/120000 [06:57<29:27, 55.43it/s]

itr: 22000 lr: 9.213e-05 train loss: 0.000012 (dt=4.75s)


training:  19%|‚ñà‚ñä        | 22264/120000 [07:02<29:24, 55.38it/s]

itr: 22250 lr: 9.195e-05 train loss: 0.000005 (dt=4.75s)


training:  19%|‚ñà‚ñâ        | 22514/120000 [07:07<29:19, 55.40it/s]

itr: 22500 lr: 9.177e-05 train loss: 0.000008 (dt=4.75s)


training:  19%|‚ñà‚ñâ        | 22764/120000 [07:12<29:15, 55.39it/s]

itr: 22750 lr: 9.159e-05 train loss: 0.000029 (dt=4.75s)


training:  19%|‚ñà‚ñâ        | 23014/120000 [07:16<29:10, 55.41it/s]

itr: 23000 lr: 9.141e-05 train loss: 0.000006 (dt=4.75s)


training:  19%|‚ñà‚ñâ        | 23264/120000 [07:21<29:06, 55.40it/s]

itr: 23250 lr: 9.123e-05 train loss: 0.000003 (dt=4.75s)


training:  20%|‚ñà‚ñâ        | 23514/120000 [07:26<29:01, 55.40it/s]

itr: 23500 lr: 9.104e-05 train loss: 0.000003 (dt=4.75s)


training:  20%|‚ñà‚ñâ        | 23764/120000 [07:31<28:56, 55.42it/s]

itr: 23750 lr: 9.086e-05 train loss: 0.000003 (dt=4.75s)


training:  20%|‚ñà‚ñà        | 24014/120000 [07:35<28:52, 55.40it/s]

itr: 24000 lr: 9.067e-05 train loss: 0.000023 (dt=4.75s)


training:  20%|‚ñà‚ñà        | 24264/120000 [07:40<28:48, 55.40it/s]

itr: 24250 lr: 9.048e-05 train loss: 0.000023 (dt=4.75s)


training:  20%|‚ñà‚ñà        | 24514/120000 [07:45<28:41, 55.47it/s]

itr: 24500 lr: 9.029e-05 train loss: 0.000009 (dt=4.75s)


training:  21%|‚ñà‚ñà        | 24764/120000 [07:50<28:38, 55.40it/s]

itr: 24750 lr: 9.009e-05 train loss: 0.000002 (dt=4.75s)


training:  21%|‚ñà‚ñà        | 25014/120000 [07:54<28:34, 55.40it/s]

itr: 25000 lr: 8.990e-05 train loss: 0.000003 (dt=4.75s)


training:  21%|‚ñà‚ñà        | 25264/120000 [07:59<28:30, 55.40it/s]

itr: 25250 lr: 8.970e-05 train loss: 0.000029 (dt=4.75s)


training:  21%|‚ñà‚ñà‚ñè       | 25514/120000 [08:04<28:26, 55.37it/s]

itr: 25500 lr: 8.950e-05 train loss: 0.000002 (dt=4.75s)


training:  21%|‚ñà‚ñà‚ñè       | 25764/120000 [08:09<28:21, 55.40it/s]

itr: 25750 lr: 8.930e-05 train loss: 0.000005 (dt=4.75s)


training:  22%|‚ñà‚ñà‚ñè       | 26014/120000 [08:13<28:16, 55.38it/s]

itr: 26000 lr: 8.910e-05 train loss: 0.000004 (dt=4.75s)


training:  22%|‚ñà‚ñà‚ñè       | 26264/120000 [08:18<28:11, 55.41it/s]

itr: 26250 lr: 8.889e-05 train loss: 0.000040 (dt=4.75s)


training:  22%|‚ñà‚ñà‚ñè       | 26514/120000 [08:23<28:07, 55.40it/s]

itr: 26500 lr: 8.869e-05 train loss: 0.000008 (dt=4.75s)


training:  22%|‚ñà‚ñà‚ñè       | 26764/120000 [08:28<28:02, 55.43it/s]

itr: 26750 lr: 8.848e-05 train loss: 0.000003 (dt=4.75s)


training:  23%|‚ñà‚ñà‚ñé       | 27014/120000 [08:32<27:59, 55.38it/s]

itr: 27000 lr: 8.827e-05 train loss: 0.000024 (dt=4.75s)


training:  23%|‚ñà‚ñà‚ñé       | 27264/120000 [08:37<27:52, 55.46it/s]

itr: 27250 lr: 8.806e-05 train loss: 0.000002 (dt=4.75s)


training:  23%|‚ñà‚ñà‚ñé       | 27514/120000 [08:42<27:49, 55.40it/s]

itr: 27500 lr: 8.785e-05 train loss: 0.000002 (dt=4.75s)


training:  23%|‚ñà‚ñà‚ñé       | 27764/120000 [08:47<27:44, 55.40it/s]

itr: 27750 lr: 8.763e-05 train loss: 0.000002 (dt=4.75s)


training:  23%|‚ñà‚ñà‚ñé       | 28014/120000 [08:51<27:40, 55.40it/s]

itr: 28000 lr: 8.742e-05 train loss: 0.000002 (dt=4.75s)


training:  24%|‚ñà‚ñà‚ñé       | 28264/120000 [08:56<27:35, 55.41it/s]

itr: 28250 lr: 8.720e-05 train loss: 0.000001 (dt=4.75s)


training:  24%|‚ñà‚ñà‚ñç       | 28514/120000 [09:01<27:31, 55.40it/s]

itr: 28500 lr: 8.698e-05 train loss: 0.000023 (dt=4.75s)


training:  24%|‚ñà‚ñà‚ñç       | 28764/120000 [09:06<27:26, 55.42it/s]

itr: 28750 lr: 8.676e-05 train loss: 0.000022 (dt=4.75s)


training:  24%|‚ñà‚ñà‚ñç       | 29014/120000 [09:10<27:21, 55.41it/s]

itr: 29000 lr: 8.654e-05 train loss: 0.000002 (dt=4.75s)


training:  24%|‚ñà‚ñà‚ñç       | 29264/120000 [09:15<27:16, 55.45it/s]

itr: 29250 lr: 8.632e-05 train loss: 0.000009 (dt=4.75s)


training:  25%|‚ñà‚ñà‚ñç       | 29514/120000 [09:20<27:12, 55.41it/s]

itr: 29500 lr: 8.609e-05 train loss: 0.000011 (dt=4.75s)


training:  25%|‚ñà‚ñà‚ñç       | 29764/120000 [09:25<27:08, 55.40it/s]

itr: 29750 lr: 8.587e-05 train loss: 0.000001 (dt=4.75s)


training:  25%|‚ñà‚ñà‚ñå       | 30014/120000 [09:29<27:04, 55.40it/s]

itr: 30000 lr: 8.564e-05 train loss: 0.000002 (dt=4.75s)


training:  25%|‚ñà‚ñà‚ñå       | 30264/120000 [09:34<26:59, 55.40it/s]

itr: 30250 lr: 8.541e-05 train loss: 0.000002 (dt=4.75s)


training:  25%|‚ñà‚ñà‚ñå       | 30514/120000 [09:39<26:54, 55.41it/s]

itr: 30500 lr: 8.518e-05 train loss: 0.000001 (dt=4.75s)


training:  26%|‚ñà‚ñà‚ñå       | 30764/120000 [09:44<26:50, 55.39it/s]

itr: 30750 lr: 8.495e-05 train loss: 0.000001 (dt=4.75s)


training:  26%|‚ñà‚ñà‚ñå       | 31014/120000 [09:48<26:46, 55.40it/s]

itr: 31000 lr: 8.471e-05 train loss: 0.000003 (dt=4.75s)


training:  26%|‚ñà‚ñà‚ñå       | 31264/120000 [09:53<26:42, 55.39it/s]

itr: 31250 lr: 8.448e-05 train loss: 0.000001 (dt=4.75s)


training:  26%|‚ñà‚ñà‚ñã       | 31514/120000 [09:58<26:37, 55.40it/s]

itr: 31500 lr: 8.424e-05 train loss: 0.000002 (dt=4.75s)


training:  26%|‚ñà‚ñà‚ñã       | 31764/120000 [10:03<26:30, 55.46it/s]

itr: 31750 lr: 8.400e-05 train loss: 0.000001 (dt=4.75s)


training:  27%|‚ñà‚ñà‚ñã       | 32014/120000 [10:07<26:28, 55.41it/s]

itr: 32000 lr: 8.376e-05 train loss: 0.000002 (dt=4.75s)


training:  27%|‚ñà‚ñà‚ñã       | 32264/120000 [10:12<26:23, 55.42it/s]

itr: 32250 lr: 8.352e-05 train loss: 0.000001 (dt=4.75s)


training:  27%|‚ñà‚ñà‚ñã       | 32514/120000 [10:17<26:19, 55.40it/s]

itr: 32500 lr: 8.328e-05 train loss: 0.000001 (dt=4.75s)


training:  27%|‚ñà‚ñà‚ñã       | 32764/120000 [10:22<26:13, 55.43it/s]

itr: 32750 lr: 8.304e-05 train loss: 0.000001 (dt=4.75s)


training:  28%|‚ñà‚ñà‚ñä       | 33014/120000 [10:26<26:08, 55.45it/s]

itr: 33000 lr: 8.279e-05 train loss: 0.000002 (dt=4.75s)


training:  28%|‚ñà‚ñà‚ñä       | 33264/120000 [10:31<26:05, 55.39it/s]

itr: 33250 lr: 8.254e-05 train loss: 0.000003 (dt=4.75s)


training:  28%|‚ñà‚ñà‚ñä       | 33514/120000 [10:36<26:01, 55.40it/s]

itr: 33500 lr: 8.230e-05 train loss: 0.000003 (dt=4.75s)


training:  28%|‚ñà‚ñà‚ñä       | 33764/120000 [10:41<25:56, 55.40it/s]

itr: 33750 lr: 8.205e-05 train loss: 0.000011 (dt=4.75s)


training:  28%|‚ñà‚ñà‚ñä       | 34014/120000 [10:45<25:52, 55.39it/s]

itr: 34000 lr: 8.180e-05 train loss: 0.000021 (dt=4.75s)


training:  29%|‚ñà‚ñà‚ñä       | 34264/120000 [10:50<25:47, 55.41it/s]

itr: 34250 lr: 8.154e-05 train loss: 0.000001 (dt=4.75s)


training:  29%|‚ñà‚ñà‚ñâ       | 34514/120000 [10:55<25:42, 55.40it/s]

itr: 34500 lr: 8.129e-05 train loss: 0.000001 (dt=4.75s)


training:  29%|‚ñà‚ñà‚ñâ       | 34764/120000 [11:00<25:36, 55.47it/s]

itr: 34750 lr: 8.104e-05 train loss: 0.000041 (dt=4.75s)


training:  29%|‚ñà‚ñà‚ñâ       | 35014/120000 [11:04<25:34, 55.40it/s]

itr: 35000 lr: 8.078e-05 train loss: 0.000004 (dt=4.75s)


training:  29%|‚ñà‚ñà‚ñâ       | 35264/120000 [11:09<25:29, 55.40it/s]

itr: 35250 lr: 8.052e-05 train loss: 0.000001 (dt=4.75s)


training:  30%|‚ñà‚ñà‚ñâ       | 35514/120000 [11:14<25:25, 55.40it/s]

itr: 35500 lr: 8.026e-05 train loss: 0.000035 (dt=4.75s)


training:  30%|‚ñà‚ñà‚ñâ       | 35764/120000 [11:19<25:20, 55.39it/s]

itr: 35750 lr: 8.000e-05 train loss: 0.000002 (dt=4.75s)


training:  30%|‚ñà‚ñà‚ñà       | 36014/120000 [11:23<25:16, 55.40it/s]

itr: 36000 lr: 7.974e-05 train loss: 0.000001 (dt=4.75s)


training:  30%|‚ñà‚ñà‚ñà       | 36264/120000 [11:28<25:11, 55.41it/s]

itr: 36250 lr: 7.948e-05 train loss: 0.000008 (dt=4.75s)


training:  30%|‚ñà‚ñà‚ñà       | 36514/120000 [11:33<25:06, 55.40it/s]

itr: 36500 lr: 7.922e-05 train loss: 0.000001 (dt=4.75s)


training:  31%|‚ñà‚ñà‚ñà       | 36764/120000 [11:38<25:02, 55.39it/s]

itr: 36750 lr: 7.895e-05 train loss: 0.000001 (dt=4.75s)


training:  31%|‚ñà‚ñà‚ñà       | 37014/120000 [11:42<24:58, 55.37it/s]

itr: 37000 lr: 7.868e-05 train loss: 0.000001 (dt=4.75s)


training:  31%|‚ñà‚ñà‚ñà       | 37264/120000 [11:47<24:53, 55.41it/s]

itr: 37250 lr: 7.842e-05 train loss: 0.000001 (dt=4.75s)


training:  31%|‚ñà‚ñà‚ñà‚ñè      | 37514/120000 [11:52<24:48, 55.40it/s]

itr: 37500 lr: 7.815e-05 train loss: 0.000001 (dt=4.75s)


training:  31%|‚ñà‚ñà‚ñà‚ñè      | 37764/120000 [11:57<24:44, 55.40it/s]

itr: 37750 lr: 7.788e-05 train loss: 0.000001 (dt=4.75s)


training:  32%|‚ñà‚ñà‚ñà‚ñè      | 38014/120000 [12:01<24:39, 55.42it/s]

itr: 38000 lr: 7.761e-05 train loss: 0.000001 (dt=4.75s)


training:  32%|‚ñà‚ñà‚ñà‚ñè      | 38264/120000 [12:06<24:35, 55.40it/s]

itr: 38250 lr: 7.734e-05 train loss: 0.000001 (dt=4.75s)


training:  32%|‚ñà‚ñà‚ñà‚ñè      | 38514/120000 [12:11<24:30, 55.40it/s]

itr: 38500 lr: 7.706e-05 train loss: 0.000001 (dt=4.75s)


training:  32%|‚ñà‚ñà‚ñà‚ñè      | 38764/120000 [12:16<24:26, 55.40it/s]

itr: 38750 lr: 7.679e-05 train loss: 0.000001 (dt=4.75s)


training:  33%|‚ñà‚ñà‚ñà‚ñé      | 39014/120000 [12:20<24:21, 55.43it/s]

itr: 39000 lr: 7.651e-05 train loss: 0.000006 (dt=4.75s)


training:  33%|‚ñà‚ñà‚ñà‚ñé      | 39264/120000 [12:25<24:16, 55.42it/s]

itr: 39250 lr: 7.624e-05 train loss: 0.000003 (dt=4.75s)


training:  33%|‚ñà‚ñà‚ñà‚ñé      | 39514/120000 [12:30<24:12, 55.41it/s]

itr: 39500 lr: 7.596e-05 train loss: 0.000001 (dt=4.75s)


training:  33%|‚ñà‚ñà‚ñà‚ñé      | 39764/120000 [12:35<24:07, 55.44it/s]

itr: 39750 lr: 7.568e-05 train loss: 0.000001 (dt=4.75s)


training:  33%|‚ñà‚ñà‚ñà‚ñé      | 40014/120000 [12:39<24:20, 54.78it/s]

itr: 40000 lr: 7.540e-05 train loss: 0.000001 (dt=4.75s)
saved checkpoint: ./saved_models_grid_bs8192_20260103_075004/Checkpoint_N128_L1_dup0_iters40001.pt


training:  34%|‚ñà‚ñà‚ñà‚ñé      | 40264/120000 [12:44<23:59, 55.40it/s]

itr: 40250 lr: 7.512e-05 train loss: 0.000006 (dt=4.75s)


training:  34%|‚ñà‚ñà‚ñà‚ñç      | 40514/120000 [12:49<23:52, 55.48it/s]

itr: 40500 lr: 7.484e-05 train loss: 0.000001 (dt=4.75s)


training:  34%|‚ñà‚ñà‚ñà‚ñç      | 40764/120000 [12:54<23:48, 55.46it/s]

itr: 40750 lr: 7.455e-05 train loss: 0.000001 (dt=4.75s)


training:  34%|‚ñà‚ñà‚ñà‚ñç      | 41014/120000 [12:58<23:45, 55.40it/s]

itr: 41000 lr: 7.427e-05 train loss: 0.000010 (dt=4.75s)


training:  34%|‚ñà‚ñà‚ñà‚ñç      | 41264/120000 [13:03<23:41, 55.41it/s]

itr: 41250 lr: 7.398e-05 train loss: 0.000017 (dt=4.75s)


training:  35%|‚ñà‚ñà‚ñà‚ñç      | 41514/120000 [13:08<23:39, 55.28it/s]

itr: 41500 lr: 7.370e-05 train loss: 0.000001 (dt=4.75s)


training:  35%|‚ñà‚ñà‚ñà‚ñç      | 41764/120000 [13:13<23:32, 55.41it/s]

itr: 41750 lr: 7.341e-05 train loss: 0.000001 (dt=4.75s)


training:  35%|‚ñà‚ñà‚ñà‚ñå      | 42014/120000 [13:17<23:27, 55.41it/s]

itr: 42000 lr: 7.312e-05 train loss: 0.000004 (dt=4.75s)


training:  35%|‚ñà‚ñà‚ñà‚ñå      | 42264/120000 [13:22<23:21, 55.47it/s]

itr: 42250 lr: 7.283e-05 train loss: 0.000036 (dt=4.75s)


training:  35%|‚ñà‚ñà‚ñà‚ñå      | 42514/120000 [13:27<23:18, 55.40it/s]

itr: 42500 lr: 7.254e-05 train loss: 0.000001 (dt=4.75s)


training:  36%|‚ñà‚ñà‚ñà‚ñå      | 42764/120000 [13:32<23:14, 55.39it/s]

itr: 42750 lr: 7.225e-05 train loss: 0.000001 (dt=4.75s)


training:  36%|‚ñà‚ñà‚ñà‚ñå      | 43014/120000 [13:36<23:09, 55.41it/s]

itr: 43000 lr: 7.196e-05 train loss: 0.000001 (dt=4.75s)


training:  36%|‚ñà‚ñà‚ñà‚ñå      | 43264/120000 [13:41<23:05, 55.39it/s]

itr: 43250 lr: 7.167e-05 train loss: 0.000001 (dt=4.75s)


training:  36%|‚ñà‚ñà‚ñà‚ñã      | 43514/120000 [13:46<23:00, 55.41it/s]

itr: 43500 lr: 7.137e-05 train loss: 0.000001 (dt=4.75s)


training:  36%|‚ñà‚ñà‚ñà‚ñã      | 43764/120000 [13:50<22:56, 55.39it/s]

itr: 43750 lr: 7.108e-05 train loss: 0.000001 (dt=4.75s)


training:  37%|‚ñà‚ñà‚ñà‚ñã      | 44014/120000 [13:55<22:51, 55.40it/s]

itr: 44000 lr: 7.078e-05 train loss: 0.000010 (dt=4.75s)


training:  37%|‚ñà‚ñà‚ñà‚ñã      | 44264/120000 [14:00<22:46, 55.42it/s]

itr: 44250 lr: 7.049e-05 train loss: 0.000003 (dt=4.75s)


training:  37%|‚ñà‚ñà‚ñà‚ñã      | 44514/120000 [14:05<22:42, 55.40it/s]

itr: 44500 lr: 7.019e-05 train loss: 0.000002 (dt=4.75s)


training:  37%|‚ñà‚ñà‚ñà‚ñã      | 44764/120000 [14:09<22:37, 55.43it/s]

itr: 44750 lr: 6.989e-05 train loss: 0.000007 (dt=4.75s)


training:  38%|‚ñà‚ñà‚ñà‚ñä      | 45014/120000 [14:14<22:33, 55.40it/s]

itr: 45000 lr: 6.959e-05 train loss: 0.000001 (dt=4.75s)


training:  38%|‚ñà‚ñà‚ñà‚ñä      | 45264/120000 [14:19<22:28, 55.41it/s]

itr: 45250 lr: 6.929e-05 train loss: 0.000004 (dt=4.75s)


training:  38%|‚ñà‚ñà‚ñà‚ñä      | 45514/120000 [14:24<22:23, 55.42it/s]

itr: 45500 lr: 6.899e-05 train loss: 0.000001 (dt=4.75s)


training:  38%|‚ñà‚ñà‚ñà‚ñä      | 45764/120000 [14:28<22:19, 55.42it/s]

itr: 45750 lr: 6.869e-05 train loss: 0.000003 (dt=4.75s)


training:  38%|‚ñà‚ñà‚ñà‚ñä      | 46014/120000 [14:33<22:15, 55.39it/s]

itr: 46000 lr: 6.839e-05 train loss: 0.000001 (dt=4.75s)


training:  39%|‚ñà‚ñà‚ñà‚ñä      | 46264/120000 [14:38<22:10, 55.41it/s]

itr: 46250 lr: 6.809e-05 train loss: 0.000001 (dt=4.75s)


training:  39%|‚ñà‚ñà‚ñà‚ñâ      | 46514/120000 [14:43<22:06, 55.39it/s]

itr: 46500 lr: 6.778e-05 train loss: 0.000001 (dt=4.75s)


training:  39%|‚ñà‚ñà‚ñà‚ñâ      | 46764/120000 [14:47<22:02, 55.40it/s]

itr: 46750 lr: 6.748e-05 train loss: 0.000001 (dt=4.75s)


training:  39%|‚ñà‚ñà‚ñà‚ñâ      | 47014/120000 [14:52<21:57, 55.41it/s]

itr: 47000 lr: 6.717e-05 train loss: 0.000002 (dt=4.75s)


training:  39%|‚ñà‚ñà‚ñà‚ñâ      | 47264/120000 [14:57<21:52, 55.41it/s]

itr: 47250 lr: 6.687e-05 train loss: 0.000001 (dt=4.75s)


training:  40%|‚ñà‚ñà‚ñà‚ñâ      | 47514/120000 [15:02<21:48, 55.40it/s]

itr: 47500 lr: 6.656e-05 train loss: 0.000013 (dt=4.75s)


training:  40%|‚ñà‚ñà‚ñà‚ñâ      | 47764/120000 [15:06<21:43, 55.42it/s]

itr: 47750 lr: 6.625e-05 train loss: 0.000001 (dt=4.75s)


training:  40%|‚ñà‚ñà‚ñà‚ñà      | 48014/120000 [15:11<21:39, 55.40it/s]

itr: 48000 lr: 6.594e-05 train loss: 0.000001 (dt=4.75s)


training:  40%|‚ñà‚ñà‚ñà‚ñà      | 48264/120000 [15:16<21:35, 55.39it/s]

itr: 48250 lr: 6.564e-05 train loss: 0.000001 (dt=4.75s)


training:  40%|‚ñà‚ñà‚ñà‚ñà      | 48514/120000 [15:21<21:30, 55.40it/s]

itr: 48500 lr: 6.533e-05 train loss: 0.000001 (dt=4.75s)


training:  41%|‚ñà‚ñà‚ñà‚ñà      | 48764/120000 [15:25<21:26, 55.38it/s]

itr: 48750 lr: 6.502e-05 train loss: 0.000003 (dt=4.75s)


training:  41%|‚ñà‚ñà‚ñà‚ñà      | 49014/120000 [15:30<21:21, 55.41it/s]

itr: 49000 lr: 6.471e-05 train loss: 0.000002 (dt=4.75s)


training:  41%|‚ñà‚ñà‚ñà‚ñà      | 49264/120000 [15:35<21:17, 55.36it/s]

itr: 49250 lr: 6.439e-05 train loss: 0.000005 (dt=4.75s)


training:  41%|‚ñà‚ñà‚ñà‚ñà‚ñè     | 49514/120000 [15:40<21:11, 55.42it/s]

itr: 49500 lr: 6.408e-05 train loss: 0.000001 (dt=4.75s)


training:  41%|‚ñà‚ñà‚ñà‚ñà‚ñè     | 49764/120000 [15:44<21:07, 55.40it/s]

itr: 49750 lr: 6.377e-05 train loss: 0.000007 (dt=4.75s)


training:  42%|‚ñà‚ñà‚ñà‚ñà‚ñè     | 50014/120000 [15:49<21:02, 55.41it/s]

itr: 50000 lr: 6.346e-05 train loss: 0.000001 (dt=4.75s)


training:  42%|‚ñà‚ñà‚ñà‚ñà‚ñè     | 50264/120000 [15:54<20:58, 55.40it/s]

itr: 50250 lr: 6.314e-05 train loss: 0.000008 (dt=4.75s)


training:  42%|‚ñà‚ñà‚ñà‚ñà‚ñè     | 50514/120000 [15:59<20:54, 55.39it/s]

itr: 50500 lr: 6.283e-05 train loss: 0.000001 (dt=4.75s)


training:  42%|‚ñà‚ñà‚ñà‚ñà‚ñè     | 50764/120000 [16:03<20:49, 55.39it/s]

itr: 50750 lr: 6.252e-05 train loss: 0.000006 (dt=4.75s)


training:  43%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 51014/120000 [16:08<20:45, 55.40it/s]

itr: 51000 lr: 6.220e-05 train loss: 0.000002 (dt=4.75s)


training:  43%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 51264/120000 [16:13<20:40, 55.40it/s]

itr: 51250 lr: 6.189e-05 train loss: 0.000001 (dt=4.75s)


training:  43%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 51514/120000 [16:18<20:36, 55.41it/s]

itr: 51500 lr: 6.157e-05 train loss: 0.000013 (dt=4.75s)


training:  43%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 51764/120000 [16:22<20:31, 55.40it/s]

itr: 51750 lr: 6.125e-05 train loss: 0.000001 (dt=4.75s)


training:  43%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 52014/120000 [16:27<20:26, 55.42it/s]

itr: 52000 lr: 6.094e-05 train loss: 0.000047 (dt=4.75s)


training:  44%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 52264/120000 [16:32<20:22, 55.40it/s]

itr: 52250 lr: 6.062e-05 train loss: 0.000000 (dt=4.75s)


training:  44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 52514/120000 [16:37<20:18, 55.39it/s]

itr: 52500 lr: 6.030e-05 train loss: 0.000001 (dt=4.75s)


training:  44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 52764/120000 [16:41<20:13, 55.41it/s]

itr: 52750 lr: 5.998e-05 train loss: 0.000008 (dt=4.75s)


training:  44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 53014/120000 [16:46<20:09, 55.38it/s]

itr: 53000 lr: 5.966e-05 train loss: 0.000004 (dt=4.75s)


training:  44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 53264/120000 [16:51<20:04, 55.39it/s]

itr: 53250 lr: 5.934e-05 train loss: 0.000001 (dt=4.75s)


training:  45%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 53514/120000 [16:56<20:00, 55.40it/s]

itr: 53500 lr: 5.902e-05 train loss: 0.000010 (dt=4.75s)


training:  45%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 53764/120000 [17:00<19:55, 55.41it/s]

itr: 53750 lr: 5.870e-05 train loss: 0.000001 (dt=4.75s)


training:  45%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 54014/120000 [17:05<19:50, 55.42it/s]

itr: 54000 lr: 5.838e-05 train loss: 0.000008 (dt=4.75s)


training:  45%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 54264/120000 [17:10<19:46, 55.40it/s]

itr: 54250 lr: 5.806e-05 train loss: 0.000004 (dt=4.75s)


training:  45%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 54514/120000 [17:15<19:42, 55.40it/s]

itr: 54500 lr: 5.774e-05 train loss: 0.000001 (dt=4.75s)


training:  46%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 54764/120000 [17:19<19:37, 55.39it/s]

itr: 54750 lr: 5.742e-05 train loss: 0.000039 (dt=4.75s)


training:  46%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 55014/120000 [17:24<19:32, 55.40it/s]

itr: 55000 lr: 5.710e-05 train loss: 0.000001 (dt=4.75s)


training:  46%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 55264/120000 [17:29<19:27, 55.43it/s]

itr: 55250 lr: 5.678e-05 train loss: 0.000001 (dt=4.75s)


training:  46%|‚ñà‚ñà‚ñà‚ñà‚ñã     | 55514/120000 [17:34<19:23, 55.41it/s]

itr: 55500 lr: 5.646e-05 train loss: 0.000001 (dt=4.75s)


training:  46%|‚ñà‚ñà‚ñà‚ñà‚ñã     | 55764/120000 [17:38<19:19, 55.40it/s]

itr: 55750 lr: 5.613e-05 train loss: 0.000001 (dt=4.75s)


training:  47%|‚ñà‚ñà‚ñà‚ñà‚ñã     | 56014/120000 [17:43<19:12, 55.50it/s]

itr: 56000 lr: 5.581e-05 train loss: 0.000001 (dt=4.75s)


training:  47%|‚ñà‚ñà‚ñà‚ñà‚ñã     | 56264/120000 [17:48<19:19, 54.95it/s]

itr: 56250 lr: 5.549e-05 train loss: 0.000001 (dt=4.75s)


training:  47%|‚ñà‚ñà‚ñà‚ñà‚ñã     | 56514/120000 [17:53<19:06, 55.39it/s]

itr: 56500 lr: 5.517e-05 train loss: 0.000006 (dt=4.75s)


training:  47%|‚ñà‚ñà‚ñà‚ñà‚ñã     | 56764/120000 [17:57<19:00, 55.43it/s]

itr: 56750 lr: 5.484e-05 train loss: 0.000000 (dt=4.75s)


training:  48%|‚ñà‚ñà‚ñà‚ñà‚ñä     | 57014/120000 [18:02<18:56, 55.41it/s]

itr: 57000 lr: 5.452e-05 train loss: 0.000001 (dt=4.75s)


training:  48%|‚ñà‚ñà‚ñà‚ñà‚ñä     | 57264/120000 [18:07<18:52, 55.40it/s]

itr: 57250 lr: 5.420e-05 train loss: 0.000000 (dt=4.75s)


training:  48%|‚ñà‚ñà‚ñà‚ñà‚ñä     | 57514/120000 [18:12<18:47, 55.40it/s]

itr: 57500 lr: 5.387e-05 train loss: 0.000001 (dt=4.75s)


training:  48%|‚ñà‚ñà‚ñà‚ñà‚ñä     | 57764/120000 [18:16<18:43, 55.39it/s]

itr: 57750 lr: 5.355e-05 train loss: 0.000000 (dt=4.75s)


training:  48%|‚ñà‚ñà‚ñà‚ñà‚ñä     | 58014/120000 [18:21<18:38, 55.41it/s]

itr: 58000 lr: 5.322e-05 train loss: 0.000002 (dt=4.75s)


training:  49%|‚ñà‚ñà‚ñà‚ñà‚ñä     | 58264/120000 [18:26<18:34, 55.40it/s]

itr: 58250 lr: 5.290e-05 train loss: 0.000001 (dt=4.75s)


training:  49%|‚ñà‚ñà‚ñà‚ñà‚ñâ     | 58514/120000 [18:31<18:29, 55.40it/s]

itr: 58500 lr: 5.258e-05 train loss: 0.000000 (dt=4.75s)


training:  49%|‚ñà‚ñà‚ñà‚ñà‚ñâ     | 58764/120000 [18:35<18:24, 55.43it/s]

itr: 58750 lr: 5.225e-05 train loss: 0.000014 (dt=4.75s)


training:  49%|‚ñà‚ñà‚ñà‚ñà‚ñâ     | 59014/120000 [18:40<18:20, 55.40it/s]

itr: 59000 lr: 5.193e-05 train loss: 0.000047 (dt=4.75s)


training:  49%|‚ñà‚ñà‚ñà‚ñà‚ñâ     | 59264/120000 [18:45<18:16, 55.40it/s]

itr: 59250 lr: 5.160e-05 train loss: 0.000001 (dt=4.75s)


training:  50%|‚ñà‚ñà‚ñà‚ñà‚ñâ     | 59514/120000 [18:50<18:11, 55.40it/s]

itr: 59500 lr: 5.128e-05 train loss: 0.000004 (dt=4.75s)


training:  50%|‚ñà‚ñà‚ñà‚ñà‚ñâ     | 59764/120000 [18:54<18:07, 55.40it/s]

itr: 59750 lr: 5.095e-05 train loss: 0.000010 (dt=4.75s)


training:  50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 60014/120000 [18:59<18:13, 54.85it/s]

itr: 60000 lr: 5.063e-05 train loss: 0.000001 (dt=4.75s)
saved checkpoint: ./saved_models_grid_bs8192_20260103_075004/Checkpoint_N128_L1_dup0_iters60001.pt


training:  50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 60264/120000 [19:04<17:58, 55.39it/s]

itr: 60250 lr: 5.031e-05 train loss: 0.000000 (dt=4.75s)


training:  50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 60514/120000 [19:09<17:54, 55.37it/s]

itr: 60500 lr: 4.998e-05 train loss: 0.000000 (dt=4.75s)


training:  51%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 60764/120000 [19:13<17:49, 55.41it/s]

itr: 60750 lr: 4.966e-05 train loss: 0.000001 (dt=4.75s)


training:  51%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 61014/120000 [19:18<17:44, 55.41it/s]

itr: 61000 lr: 4.933e-05 train loss: 0.000001 (dt=4.75s)


training:  51%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 61264/120000 [19:23<17:39, 55.42it/s]

itr: 61250 lr: 4.901e-05 train loss: 0.000000 (dt=4.75s)


training:  51%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 61514/120000 [19:28<17:35, 55.41it/s]

itr: 61500 lr: 4.868e-05 train loss: 0.000000 (dt=4.75s)


training:  51%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 61764/120000 [19:32<17:30, 55.42it/s]

itr: 61750 lr: 4.836e-05 train loss: 0.000001 (dt=4.75s)


training:  52%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 62014/120000 [19:37<17:26, 55.40it/s]

itr: 62000 lr: 4.803e-05 train loss: 0.000000 (dt=4.75s)


training:  52%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 62264/120000 [19:42<17:21, 55.41it/s]

itr: 62250 lr: 4.771e-05 train loss: 0.000001 (dt=4.75s)


training:  52%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 62514/120000 [19:47<17:17, 55.41it/s]

itr: 62500 lr: 4.739e-05 train loss: 0.000000 (dt=4.75s)


training:  52%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 62764/120000 [19:51<17:13, 55.39it/s]

itr: 62750 lr: 4.706e-05 train loss: 0.000001 (dt=4.75s)


training:  53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 63014/120000 [19:56<17:08, 55.42it/s]

itr: 63000 lr: 4.674e-05 train loss: 0.000001 (dt=4.75s)


training:  53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 63264/120000 [20:01<17:04, 55.38it/s]

itr: 63250 lr: 4.642e-05 train loss: 0.000001 (dt=4.75s)


training:  53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 63514/120000 [20:06<16:58, 55.49it/s]

itr: 63500 lr: 4.609e-05 train loss: 0.000001 (dt=4.75s)


training:  53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 63764/120000 [20:10<16:54, 55.41it/s]

itr: 63750 lr: 4.577e-05 train loss: 0.000001 (dt=4.75s)


training:  53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 64014/120000 [20:15<16:49, 55.48it/s]

itr: 64000 lr: 4.545e-05 train loss: 0.000000 (dt=4.75s)


training:  54%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 64264/120000 [20:20<16:54, 54.94it/s]

itr: 64250 lr: 4.512e-05 train loss: 0.000000 (dt=4.75s)


training:  54%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç    | 64514/120000 [20:25<16:40, 55.45it/s]

itr: 64500 lr: 4.480e-05 train loss: 0.000001 (dt=4.75s)


training:  54%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç    | 64764/120000 [20:29<16:37, 55.39it/s]

itr: 64750 lr: 4.448e-05 train loss: 0.000039 (dt=4.75s)


training:  54%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç    | 65014/120000 [20:34<16:31, 55.46it/s]

itr: 65000 lr: 4.416e-05 train loss: 0.000000 (dt=4.75s)


training:  54%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç    | 65264/120000 [20:39<16:28, 55.40it/s]

itr: 65250 lr: 4.384e-05 train loss: 0.000000 (dt=4.75s)


training:  55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç    | 65514/120000 [20:44<16:21, 55.51it/s]

itr: 65500 lr: 4.351e-05 train loss: 0.000000 (dt=4.75s)


training:  55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç    | 65764/120000 [20:48<16:27, 54.92it/s]

itr: 65750 lr: 4.319e-05 train loss: 0.000016 (dt=4.75s)


training:  55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 66014/120000 [20:53<16:14, 55.41it/s]

itr: 66000 lr: 4.287e-05 train loss: 0.000000 (dt=4.75s)


training:  55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 66264/120000 [20:58<16:09, 55.41it/s]

itr: 66250 lr: 4.255e-05 train loss: 0.000012 (dt=4.75s)


training:  55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 66514/120000 [21:03<16:05, 55.41it/s]

itr: 66500 lr: 4.223e-05 train loss: 0.000002 (dt=4.75s)


training:  56%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 66764/120000 [21:07<16:00, 55.41it/s]

itr: 66750 lr: 4.191e-05 train loss: 0.000000 (dt=4.75s)


training:  56%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 67014/120000 [21:12<15:56, 55.39it/s]

itr: 67000 lr: 4.159e-05 train loss: 0.000000 (dt=4.75s)


training:  56%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 67264/120000 [21:17<15:51, 55.40it/s]

itr: 67250 lr: 4.127e-05 train loss: 0.000000 (dt=4.75s)


training:  56%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã    | 67514/120000 [21:22<15:47, 55.40it/s]

itr: 67500 lr: 4.095e-05 train loss: 0.000000 (dt=4.75s)


training:  56%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã    | 67764/120000 [21:26<15:42, 55.44it/s]

itr: 67750 lr: 4.064e-05 train loss: 0.000001 (dt=4.75s)


training:  57%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã    | 68014/120000 [21:31<15:38, 55.40it/s]

itr: 68000 lr: 4.032e-05 train loss: 0.000001 (dt=4.75s)


training:  57%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã    | 68264/120000 [21:36<15:33, 55.40it/s]

itr: 68250 lr: 4.000e-05 train loss: 0.000002 (dt=4.75s)


training:  57%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã    | 68514/120000 [21:40<15:29, 55.41it/s]

itr: 68500 lr: 3.968e-05 train loss: 0.000000 (dt=4.75s)


training:  57%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã    | 68764/120000 [21:45<15:23, 55.46it/s]

itr: 68750 lr: 3.937e-05 train loss: 0.000002 (dt=4.75s)


training:  58%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä    | 69014/120000 [21:50<15:20, 55.36it/s]

itr: 69000 lr: 3.905e-05 train loss: 0.000001 (dt=4.75s)


training:  58%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä    | 69264/120000 [21:55<15:15, 55.41it/s]

itr: 69250 lr: 3.874e-05 train loss: 0.000000 (dt=4.75s)


training:  58%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä    | 69514/120000 [21:59<15:11, 55.40it/s]

itr: 69500 lr: 3.842e-05 train loss: 0.000000 (dt=4.75s)


training:  58%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä    | 69764/120000 [22:04<15:06, 55.42it/s]

itr: 69750 lr: 3.811e-05 train loss: 0.000001 (dt=4.75s)


training:  58%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä    | 70014/120000 [22:09<15:02, 55.40it/s]

itr: 70000 lr: 3.779e-05 train loss: 0.000013 (dt=4.75s)


training:  59%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä    | 70264/120000 [22:14<14:57, 55.40it/s]

itr: 70250 lr: 3.748e-05 train loss: 0.000000 (dt=4.75s)


training:  59%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ    | 70514/120000 [22:18<14:53, 55.40it/s]

itr: 70500 lr: 3.717e-05 train loss: 0.000001 (dt=4.75s)


training:  59%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ    | 70764/120000 [22:23<14:48, 55.40it/s]

itr: 70750 lr: 3.685e-05 train loss: 0.000001 (dt=4.75s)


training:  59%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ    | 71014/120000 [22:28<14:44, 55.38it/s]

itr: 71000 lr: 3.654e-05 train loss: 0.000001 (dt=4.75s)


training:  59%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ    | 71264/120000 [22:33<14:39, 55.41it/s]

itr: 71250 lr: 3.623e-05 train loss: 0.000000 (dt=4.75s)


training:  60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ    | 71514/120000 [22:37<14:35, 55.40it/s]

itr: 71500 lr: 3.592e-05 train loss: 0.000000 (dt=4.75s)


training:  60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ    | 71764/120000 [22:42<14:30, 55.41it/s]

itr: 71750 lr: 3.561e-05 train loss: 0.000009 (dt=4.75s)


training:  60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 72014/120000 [22:47<14:26, 55.37it/s]

itr: 72000 lr: 3.530e-05 train loss: 0.000001 (dt=4.75s)


training:  60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 72264/120000 [22:52<14:21, 55.38it/s]

itr: 72250 lr: 3.499e-05 train loss: 0.000001 (dt=4.75s)


training:  60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 72514/120000 [22:56<14:15, 55.48it/s]

itr: 72500 lr: 3.469e-05 train loss: 0.000002 (dt=4.75s)


training:  61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 72764/120000 [23:01<14:12, 55.40it/s]

itr: 72750 lr: 3.438e-05 train loss: 0.000002 (dt=4.75s)


training:  61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 73014/120000 [23:06<14:08, 55.40it/s]

itr: 73000 lr: 3.407e-05 train loss: 0.000001 (dt=4.75s)


training:  61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 73264/120000 [23:11<14:03, 55.41it/s]

itr: 73250 lr: 3.377e-05 train loss: 0.000005 (dt=4.75s)


training:  61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 73514/120000 [23:15<13:59, 55.40it/s]

itr: 73500 lr: 3.346e-05 train loss: 0.000001 (dt=4.75s)


training:  61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 73764/120000 [23:20<13:53, 55.44it/s]

itr: 73750 lr: 3.316e-05 train loss: 0.000000 (dt=4.75s)


training:  62%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 74014/120000 [23:25<13:50, 55.39it/s]

itr: 74000 lr: 3.285e-05 train loss: 0.000009 (dt=4.75s)


training:  62%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 74264/120000 [23:30<13:45, 55.41it/s]

itr: 74250 lr: 3.255e-05 train loss: 0.000000 (dt=4.75s)


training:  62%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 74514/120000 [23:34<13:41, 55.40it/s]

itr: 74500 lr: 3.225e-05 train loss: 0.000000 (dt=4.75s)


training:  62%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 74764/120000 [23:39<13:36, 55.39it/s]

itr: 74750 lr: 3.195e-05 train loss: 0.000000 (dt=4.75s)


training:  63%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé   | 75014/120000 [23:44<13:31, 55.45it/s]

itr: 75000 lr: 3.165e-05 train loss: 0.000001 (dt=4.75s)


training:  63%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé   | 75264/120000 [23:49<13:27, 55.40it/s]

itr: 75250 lr: 3.135e-05 train loss: 0.000004 (dt=4.75s)


training:  63%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé   | 75514/120000 [23:53<13:22, 55.40it/s]

itr: 75500 lr: 3.105e-05 train loss: 0.000000 (dt=4.75s)


training:  63%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé   | 75764/120000 [23:58<13:18, 55.41it/s]

itr: 75750 lr: 3.075e-05 train loss: 0.000000 (dt=4.75s)


training:  63%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé   | 76014/120000 [24:03<13:13, 55.40it/s]

itr: 76000 lr: 3.045e-05 train loss: 0.000000 (dt=4.75s)


training:  64%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé   | 76264/120000 [24:08<13:09, 55.41it/s]

itr: 76250 lr: 3.016e-05 train loss: 0.000000 (dt=4.75s)


training:  64%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç   | 76514/120000 [24:12<13:04, 55.44it/s]

itr: 76500 lr: 2.986e-05 train loss: 0.000000 (dt=4.75s)


training:  64%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç   | 76764/120000 [24:17<13:00, 55.42it/s]

itr: 76750 lr: 2.957e-05 train loss: 0.000000 (dt=4.75s)


training:  64%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç   | 77014/120000 [24:22<12:55, 55.40it/s]

itr: 77000 lr: 2.927e-05 train loss: 0.000001 (dt=4.75s)


training:  64%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç   | 77264/120000 [24:27<12:51, 55.42it/s]

itr: 77250 lr: 2.898e-05 train loss: 0.000000 (dt=4.75s)


training:  65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç   | 77514/120000 [24:31<12:46, 55.40it/s]

itr: 77500 lr: 2.869e-05 train loss: 0.000000 (dt=4.75s)


training:  65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç   | 77764/120000 [24:36<12:42, 55.41it/s]

itr: 77750 lr: 2.840e-05 train loss: 0.000001 (dt=4.75s)


training:  65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 78014/120000 [24:41<12:37, 55.40it/s]

itr: 78000 lr: 2.811e-05 train loss: 0.000000 (dt=4.75s)


training:  65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 78264/120000 [24:46<12:33, 55.40it/s]

itr: 78250 lr: 2.782e-05 train loss: 0.000000 (dt=4.75s)


training:  65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 78514/120000 [24:50<12:27, 55.49it/s]

itr: 78500 lr: 2.753e-05 train loss: 0.000002 (dt=4.75s)


training:  66%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 78764/120000 [24:55<12:24, 55.41it/s]

itr: 78750 lr: 2.724e-05 train loss: 0.000000 (dt=4.75s)


training:  66%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 79014/120000 [25:00<12:19, 55.40it/s]

itr: 79000 lr: 2.696e-05 train loss: 0.000002 (dt=4.75s)


training:  66%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 79264/120000 [25:05<12:15, 55.40it/s]

itr: 79250 lr: 2.667e-05 train loss: 0.000001 (dt=4.75s)


training:  66%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã   | 79514/120000 [25:09<12:10, 55.42it/s]

itr: 79500 lr: 2.639e-05 train loss: 0.000000 (dt=4.75s)


training:  66%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã   | 79764/120000 [25:14<12:06, 55.40it/s]

itr: 79750 lr: 2.611e-05 train loss: 0.000000 (dt=4.75s)


training:  67%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã   | 80014/120000 [25:19<12:09, 54.78it/s]

itr: 80000 lr: 2.582e-05 train loss: 0.000001 (dt=4.75s)
saved checkpoint: ./saved_models_grid_bs8192_20260103_075004/Checkpoint_N128_L1_dup0_iters80001.pt


training:  67%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã   | 80264/120000 [25:24<11:57, 55.38it/s]

itr: 80250 lr: 2.554e-05 train loss: 0.000000 (dt=4.75s)


training:  67%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã   | 80514/120000 [25:28<11:52, 55.42it/s]

itr: 80500 lr: 2.526e-05 train loss: 0.000001 (dt=4.75s)


training:  67%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã   | 80764/120000 [25:33<11:47, 55.43it/s]

itr: 80750 lr: 2.499e-05 train loss: 0.000000 (dt=4.75s)


training:  68%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä   | 81014/120000 [25:38<11:43, 55.41it/s]

itr: 81000 lr: 2.471e-05 train loss: 0.000001 (dt=4.75s)


training:  68%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä   | 81264/120000 [25:43<11:39, 55.39it/s]

itr: 81250 lr: 2.443e-05 train loss: 0.000000 (dt=4.75s)


training:  68%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä   | 81514/120000 [25:47<11:34, 55.40it/s]

itr: 81500 lr: 2.416e-05 train loss: 0.000000 (dt=4.75s)


training:  68%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä   | 81764/120000 [25:52<11:30, 55.41it/s]

itr: 81750 lr: 2.388e-05 train loss: 0.000000 (dt=4.75s)


training:  68%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä   | 82014/120000 [25:57<11:25, 55.40it/s]

itr: 82000 lr: 2.361e-05 train loss: 0.000000 (dt=4.75s)


training:  69%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä   | 82264/120000 [26:02<11:21, 55.40it/s]

itr: 82250 lr: 2.334e-05 train loss: 0.000000 (dt=4.75s)


training:  69%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 82514/120000 [26:06<11:16, 55.40it/s]

itr: 82500 lr: 2.307e-05 train loss: 0.000000 (dt=4.75s)


training:  69%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 82764/120000 [26:11<11:12, 55.41it/s]

itr: 82750 lr: 2.280e-05 train loss: 0.000000 (dt=4.75s)


training:  69%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 83014/120000 [26:16<11:07, 55.41it/s]

itr: 83000 lr: 2.253e-05 train loss: 0.000008 (dt=4.75s)


training:  69%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 83264/120000 [26:21<11:02, 55.42it/s]

itr: 83250 lr: 2.226e-05 train loss: 0.000001 (dt=4.75s)


training:  70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 83514/120000 [26:25<10:58, 55.41it/s]

itr: 83500 lr: 2.200e-05 train loss: 0.000001 (dt=4.75s)


training:  70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 83764/120000 [26:30<10:54, 55.40it/s]

itr: 83750 lr: 2.173e-05 train loss: 0.000000 (dt=4.75s)


training:  70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 84014/120000 [26:35<10:49, 55.41it/s]

itr: 84000 lr: 2.147e-05 train loss: 0.000001 (dt=4.75s)


training:  70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 84264/120000 [26:40<10:45, 55.38it/s]

itr: 84250 lr: 2.121e-05 train loss: 0.000001 (dt=4.75s)


training:  70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 84514/120000 [26:44<10:40, 55.41it/s]

itr: 84500 lr: 2.094e-05 train loss: 0.000001 (dt=4.75s)


training:  71%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 84764/120000 [26:49<10:36, 55.40it/s]

itr: 84750 lr: 2.068e-05 train loss: 0.000001 (dt=4.75s)


training:  71%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 85014/120000 [26:54<10:31, 55.41it/s]

itr: 85000 lr: 2.043e-05 train loss: 0.000002 (dt=4.75s)


training:  71%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 85264/120000 [26:59<10:26, 55.42it/s]

itr: 85250 lr: 2.017e-05 train loss: 0.000001 (dt=4.75s)


training:  71%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè  | 85514/120000 [27:03<10:22, 55.40it/s]

itr: 85500 lr: 1.991e-05 train loss: 0.000004 (dt=4.75s)


training:  71%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè  | 85764/120000 [27:08<10:17, 55.41it/s]

itr: 85750 lr: 1.966e-05 train loss: 0.000000 (dt=4.75s)


training:  72%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè  | 86014/120000 [27:13<10:13, 55.40it/s]

itr: 86000 lr: 1.941e-05 train loss: 0.000000 (dt=4.75s)


training:  72%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè  | 86264/120000 [27:18<10:08, 55.41it/s]

itr: 86250 lr: 1.915e-05 train loss: 0.000000 (dt=4.75s)


training:  72%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè  | 86514/120000 [27:22<10:04, 55.40it/s]

itr: 86500 lr: 1.890e-05 train loss: 0.000000 (dt=4.75s)


training:  72%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè  | 86764/120000 [27:27<09:59, 55.40it/s]

itr: 86750 lr: 1.865e-05 train loss: 0.000023 (dt=4.75s)


training:  73%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé  | 87014/120000 [27:32<09:55, 55.39it/s]

itr: 87000 lr: 1.841e-05 train loss: 0.000000 (dt=4.75s)


training:  73%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé  | 87264/120000 [27:37<09:50, 55.42it/s]

itr: 87250 lr: 1.816e-05 train loss: 0.000000 (dt=4.75s)


training:  73%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé  | 87514/120000 [27:41<09:46, 55.40it/s]

itr: 87500 lr: 1.792e-05 train loss: 0.000000 (dt=4.75s)


training:  73%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé  | 87764/120000 [27:46<09:40, 55.51it/s]

itr: 87750 lr: 1.767e-05 train loss: 0.000001 (dt=4.75s)


training:  73%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé  | 88014/120000 [27:51<09:42, 54.92it/s]

itr: 88000 lr: 1.743e-05 train loss: 0.000000 (dt=4.75s)


training:  74%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé  | 88264/120000 [27:56<09:31, 55.50it/s]

itr: 88250 lr: 1.719e-05 train loss: 0.000000 (dt=4.75s)


training:  74%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç  | 88514/120000 [28:00<09:33, 54.95it/s]

itr: 88500 lr: 1.695e-05 train loss: 0.000001 (dt=4.75s)


training:  74%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç  | 88764/120000 [28:05<09:23, 55.42it/s]

itr: 88750 lr: 1.671e-05 train loss: 0.000000 (dt=4.75s)


training:  74%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç  | 89014/120000 [28:10<09:19, 55.40it/s]

itr: 89000 lr: 1.648e-05 train loss: 0.000001 (dt=4.75s)


training:  74%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç  | 89264/120000 [28:15<09:14, 55.42it/s]

itr: 89250 lr: 1.624e-05 train loss: 0.000000 (dt=4.75s)


training:  75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç  | 89514/120000 [28:19<09:10, 55.41it/s]

itr: 89500 lr: 1.601e-05 train loss: 0.000014 (dt=4.75s)


training:  75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç  | 89764/120000 [28:24<09:05, 55.38it/s]

itr: 89750 lr: 1.577e-05 train loss: 0.000000 (dt=4.75s)


training:  75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 90014/120000 [28:29<09:01, 55.40it/s]

itr: 90000 lr: 1.554e-05 train loss: 0.000000 (dt=4.75s)


training:  75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 90264/120000 [28:34<08:56, 55.38it/s]

itr: 90250 lr: 1.532e-05 train loss: 0.000000 (dt=4.75s)


training:  75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 90514/120000 [28:38<08:52, 55.37it/s]

itr: 90500 lr: 1.509e-05 train loss: 0.000006 (dt=4.75s)


training:  76%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 90764/120000 [28:43<08:47, 55.40it/s]

itr: 90750 lr: 1.486e-05 train loss: 0.000000 (dt=4.75s)


training:  76%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 91014/120000 [28:48<08:43, 55.39it/s]

itr: 91000 lr: 1.464e-05 train loss: 0.000001 (dt=4.75s)


training:  76%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 91264/120000 [28:53<08:38, 55.41it/s]

itr: 91250 lr: 1.441e-05 train loss: 0.000000 (dt=4.75s)


training:  76%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã  | 91514/120000 [28:57<08:34, 55.38it/s]

itr: 91500 lr: 1.419e-05 train loss: 0.000000 (dt=4.75s)


training:  76%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã  | 91764/120000 [29:02<08:29, 55.42it/s]

itr: 91750 lr: 1.397e-05 train loss: 0.000000 (dt=4.75s)


training:  77%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã  | 92014/120000 [29:07<08:24, 55.44it/s]

itr: 92000 lr: 1.375e-05 train loss: 0.000002 (dt=4.75s)


training:  77%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã  | 92264/120000 [29:12<08:19, 55.48it/s]

itr: 92250 lr: 1.354e-05 train loss: 0.000000 (dt=4.75s)


training:  77%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã  | 92514/120000 [29:16<08:16, 55.38it/s]

itr: 92500 lr: 1.332e-05 train loss: 0.000000 (dt=4.75s)


training:  77%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã  | 92764/120000 [29:21<08:11, 55.40it/s]

itr: 92750 lr: 1.311e-05 train loss: 0.000001 (dt=4.75s)


training:  78%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 93014/120000 [29:26<08:07, 55.38it/s]

itr: 93000 lr: 1.290e-05 train loss: 0.000000 (dt=4.75s)


training:  78%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 93264/120000 [29:31<08:02, 55.42it/s]

itr: 93250 lr: 1.269e-05 train loss: 0.000000 (dt=4.75s)


training:  78%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 93514/120000 [29:35<07:57, 55.41it/s]

itr: 93500 lr: 1.248e-05 train loss: 0.000001 (dt=4.75s)


training:  78%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 93764/120000 [29:40<07:53, 55.41it/s]

itr: 93750 lr: 1.227e-05 train loss: 0.000000 (dt=4.75s)


training:  78%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 94014/120000 [29:45<07:48, 55.42it/s]

itr: 94000 lr: 1.207e-05 train loss: 0.000001 (dt=4.75s)


training:  79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 94264/120000 [29:49<07:44, 55.41it/s]

itr: 94250 lr: 1.186e-05 train loss: 0.000000 (dt=4.75s)


training:  79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 94514/120000 [29:54<07:39, 55.46it/s]

itr: 94500 lr: 1.166e-05 train loss: 0.000000 (dt=4.75s)


training:  79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 94764/120000 [29:59<07:35, 55.42it/s]

itr: 94750 lr: 1.146e-05 train loss: 0.000000 (dt=4.75s)


training:  79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 95014/120000 [30:04<07:30, 55.41it/s]

itr: 95000 lr: 1.126e-05 train loss: 0.000001 (dt=4.75s)


training:  79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 95264/120000 [30:08<07:26, 55.41it/s]

itr: 95250 lr: 1.106e-05 train loss: 0.000000 (dt=4.75s)


training:  80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 95514/120000 [30:13<07:22, 55.40it/s]

itr: 95500 lr: 1.087e-05 train loss: 0.000000 (dt=4.75s)


training:  80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 95764/120000 [30:18<07:17, 55.42it/s]

itr: 95750 lr: 1.068e-05 train loss: 0.000000 (dt=4.75s)


training:  80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 96014/120000 [30:23<07:13, 55.36it/s]

itr: 96000 lr: 1.048e-05 train loss: 0.000000 (dt=4.75s)


training:  80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 96264/120000 [30:27<07:07, 55.50it/s]

itr: 96250 lr: 1.029e-05 train loss: 0.000000 (dt=4.75s)


training:  80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 96514/120000 [30:32<07:04, 55.31it/s]

itr: 96500 lr: 1.011e-05 train loss: 0.000026 (dt=4.75s)


training:  81%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 96764/120000 [30:37<06:59, 55.38it/s]

itr: 96750 lr: 9.919e-06 train loss: 0.000000 (dt=4.75s)


training:  81%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 97014/120000 [30:42<06:54, 55.42it/s]

itr: 97000 lr: 9.734e-06 train loss: 0.000000 (dt=4.75s)


training:  81%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 97264/120000 [30:46<06:50, 55.39it/s]

itr: 97250 lr: 9.551e-06 train loss: 0.000000 (dt=4.75s)


training:  81%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè | 97514/120000 [30:51<06:45, 55.41it/s]

itr: 97500 lr: 9.369e-06 train loss: 0.000007 (dt=4.75s)


training:  81%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè | 97764/120000 [30:56<06:41, 55.41it/s]

itr: 97750 lr: 9.190e-06 train loss: 0.000083 (dt=4.75s)


training:  82%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè | 98014/120000 [31:01<06:36, 55.41it/s]

itr: 98000 lr: 9.012e-06 train loss: 0.000000 (dt=4.75s)


training:  82%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè | 98264/120000 [31:05<06:32, 55.38it/s]

itr: 98250 lr: 8.836e-06 train loss: 0.000000 (dt=4.75s)


training:  82%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè | 98514/120000 [31:10<06:27, 55.42it/s]

itr: 98500 lr: 8.661e-06 train loss: 0.000002 (dt=4.75s)


training:  82%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè | 98764/120000 [31:15<06:23, 55.40it/s]

itr: 98750 lr: 8.489e-06 train loss: 0.000000 (dt=4.75s)


training:  83%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé | 99014/120000 [31:20<06:19, 55.37it/s]

itr: 99000 lr: 8.318e-06 train loss: 0.000000 (dt=4.75s)


training:  83%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé | 99264/120000 [31:24<06:14, 55.43it/s]

itr: 99250 lr: 8.149e-06 train loss: 0.000000 (dt=4.75s)


training:  83%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé | 99514/120000 [31:29<06:09, 55.39it/s]

itr: 99500 lr: 7.982e-06 train loss: 0.000000 (dt=4.75s)


training:  83%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé | 99764/120000 [31:34<06:05, 55.40it/s]

itr: 99750 lr: 7.817e-06 train loss: 0.000003 (dt=4.75s)


training:  83%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé | 100014/120000 [31:39<06:04, 54.81it/s]

itr: 100000 lr: 7.653e-06 train loss: 0.000000 (dt=4.75s)
saved checkpoint: ./saved_models_grid_bs8192_20260103_075004/Checkpoint_N128_L1_dup0_iters100001.pt


training:  84%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé | 100264/120000 [31:43<05:56, 55.42it/s]

itr: 100250 lr: 7.492e-06 train loss: 0.000000 (dt=4.75s)


training:  84%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç | 100514/120000 [31:48<05:51, 55.39it/s]

itr: 100500 lr: 7.332e-06 train loss: 0.000000 (dt=4.75s)


training:  84%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç | 100764/120000 [31:53<05:47, 55.40it/s]

itr: 100750 lr: 7.174e-06 train loss: 0.000000 (dt=4.75s)


training:  84%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç | 101014/120000 [31:58<05:42, 55.40it/s]

itr: 101000 lr: 7.018e-06 train loss: 0.000000 (dt=4.75s)


training:  84%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç | 101264/120000 [32:02<05:38, 55.41it/s]

itr: 101250 lr: 6.864e-06 train loss: 0.000009 (dt=4.75s)


training:  85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç | 101514/120000 [32:07<05:33, 55.38it/s]

itr: 101500 lr: 6.712e-06 train loss: 0.000000 (dt=4.75s)


training:  85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç | 101764/120000 [32:12<05:29, 55.37it/s]

itr: 101750 lr: 6.561e-06 train loss: 0.000000 (dt=4.75s)


training:  85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 102014/120000 [32:17<05:24, 55.40it/s]

itr: 102000 lr: 6.413e-06 train loss: 0.000000 (dt=4.75s)


training:  85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 102264/120000 [32:21<05:20, 55.42it/s]

itr: 102250 lr: 6.266e-06 train loss: 0.000001 (dt=4.75s)


training:  85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 102514/120000 [32:26<05:15, 55.41it/s]

itr: 102500 lr: 6.122e-06 train loss: 0.000000 (dt=4.75s)


training:  86%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 102764/120000 [32:31<05:11, 55.41it/s]

itr: 102750 lr: 5.979e-06 train loss: 0.000005 (dt=4.75s)


training:  86%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 103014/120000 [32:36<05:06, 55.41it/s]

itr: 103000 lr: 5.838e-06 train loss: 0.000000 (dt=4.75s)


training:  86%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 103264/120000 [32:40<05:01, 55.42it/s]

itr: 103250 lr: 5.699e-06 train loss: 0.000030 (dt=4.75s)


training:  86%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 103514/120000 [32:45<04:57, 55.40it/s]

itr: 103500 lr: 5.562e-06 train loss: 0.000000 (dt=4.75s)


training:  86%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 103764/120000 [32:50<04:53, 55.40it/s]

itr: 103750 lr: 5.427e-06 train loss: 0.000001 (dt=4.75s)


training:  87%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 104014/120000 [32:55<04:48, 55.38it/s]

itr: 104000 lr: 5.294e-06 train loss: 0.000000 (dt=4.75s)


training:  87%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 104264/120000 [32:59<04:43, 55.44it/s]

itr: 104250 lr: 5.162e-06 train loss: 0.000000 (dt=4.75s)


training:  87%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 104514/120000 [33:04<04:39, 55.40it/s]

itr: 104500 lr: 5.033e-06 train loss: 0.000000 (dt=4.75s)


training:  87%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 104764/120000 [33:09<04:34, 55.40it/s]

itr: 104750 lr: 4.906e-06 train loss: 0.000000 (dt=4.75s)


training:  88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 105014/120000 [33:14<04:30, 55.44it/s]

itr: 105000 lr: 4.780e-06 train loss: 0.000000 (dt=4.75s)


training:  88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 105264/120000 [33:18<04:26, 55.40it/s]

itr: 105250 lr: 4.657e-06 train loss: 0.000000 (dt=4.75s)


training:  88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 105514/120000 [33:23<04:21, 55.40it/s]

itr: 105500 lr: 4.536e-06 train loss: 0.000017 (dt=4.75s)


training:  88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 105764/120000 [33:28<04:16, 55.42it/s]

itr: 105750 lr: 4.416e-06 train loss: 0.000000 (dt=4.75s)


training:  88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 106014/120000 [33:33<04:12, 55.40it/s]

itr: 106000 lr: 4.299e-06 train loss: 0.000000 (dt=4.75s)


training:  89%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 106264/120000 [33:37<04:07, 55.40it/s]

itr: 106250 lr: 4.183e-06 train loss: 0.000000 (dt=4.75s)


training:  89%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ | 106514/120000 [33:42<04:03, 55.41it/s]

itr: 106500 lr: 4.070e-06 train loss: 0.000000 (dt=4.75s)


training:  89%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ | 106764/120000 [33:47<03:58, 55.38it/s]

itr: 106750 lr: 3.958e-06 train loss: 0.000018 (dt=4.75s)


training:  89%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ | 107014/120000 [33:52<03:54, 55.39it/s]

itr: 107000 lr: 3.849e-06 train loss: 0.000000 (dt=4.75s)


training:  89%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ | 107264/120000 [33:56<03:49, 55.41it/s]

itr: 107250 lr: 3.741e-06 train loss: 0.000001 (dt=4.75s)


training:  90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ | 107514/120000 [34:01<03:45, 55.41it/s]

itr: 107500 lr: 3.636e-06 train loss: 0.000001 (dt=4.75s)


training:  90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ | 107764/120000 [34:06<03:40, 55.38it/s]

itr: 107750 lr: 3.532e-06 train loss: 0.000000 (dt=4.75s)


training:  90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 108014/120000 [34:11<03:36, 55.41it/s]

itr: 108000 lr: 3.431e-06 train loss: 0.000000 (dt=4.75s)


training:  90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 108264/120000 [34:15<03:31, 55.42it/s]

itr: 108250 lr: 3.331e-06 train loss: 0.000000 (dt=4.75s)


training:  90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 108514/120000 [34:20<03:27, 55.42it/s]

itr: 108500 lr: 3.234e-06 train loss: 0.000000 (dt=4.75s)


training:  91%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 108764/120000 [34:25<03:22, 55.41it/s]

itr: 108750 lr: 3.139e-06 train loss: 0.000000 (dt=4.75s)


training:  91%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 109014/120000 [34:30<03:18, 55.41it/s]

itr: 109000 lr: 3.045e-06 train loss: 0.000000 (dt=4.75s)


training:  91%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 109264/120000 [34:34<03:13, 55.41it/s]

itr: 109250 lr: 2.954e-06 train loss: 0.000000 (dt=4.75s)


training:  91%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè| 109514/120000 [34:39<03:09, 55.40it/s]

itr: 109500 lr: 2.865e-06 train loss: 0.000000 (dt=4.75s)


training:  91%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè| 109764/120000 [34:44<03:04, 55.39it/s]

itr: 109750 lr: 2.777e-06 train loss: 0.000000 (dt=4.75s)


training:  92%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè| 110014/120000 [34:49<03:00, 55.41it/s]

itr: 110000 lr: 2.692e-06 train loss: 0.000000 (dt=4.75s)


training:  92%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè| 110264/120000 [34:53<02:55, 55.41it/s]

itr: 110250 lr: 2.609e-06 train loss: 0.000000 (dt=4.75s)


training:  92%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè| 110514/120000 [34:58<02:51, 55.40it/s]

itr: 110500 lr: 2.528e-06 train loss: 0.000000 (dt=4.75s)


training:  92%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè| 110764/120000 [35:03<02:46, 55.40it/s]

itr: 110750 lr: 2.449e-06 train loss: 0.000000 (dt=4.75s)


training:  93%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé| 111014/120000 [35:08<02:42, 55.41it/s]

itr: 111000 lr: 2.372e-06 train loss: 0.000000 (dt=4.75s)


training:  93%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé| 111264/120000 [35:12<02:37, 55.40it/s]

itr: 111250 lr: 2.297e-06 train loss: 0.000000 (dt=4.75s)


training:  93%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé| 111514/120000 [35:17<02:33, 55.41it/s]

itr: 111500 lr: 2.225e-06 train loss: 0.000000 (dt=4.75s)


training:  93%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé| 111764/120000 [35:22<02:28, 55.43it/s]

itr: 111750 lr: 2.154e-06 train loss: 0.000019 (dt=4.75s)


training:  93%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé| 112014/120000 [35:27<02:24, 55.40it/s]

itr: 112000 lr: 2.085e-06 train loss: 0.000002 (dt=4.75s)


training:  94%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé| 112264/120000 [35:31<02:19, 55.39it/s]

itr: 112250 lr: 2.019e-06 train loss: 0.000000 (dt=4.75s)


training:  94%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç| 112514/120000 [35:36<02:15, 55.41it/s]

itr: 112500 lr: 1.954e-06 train loss: 0.000000 (dt=4.75s)


training:  94%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç| 112764/120000 [35:41<02:10, 55.40it/s]

itr: 112750 lr: 1.892e-06 train loss: 0.000000 (dt=4.75s)


training:  94%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç| 113014/120000 [35:46<02:06, 55.39it/s]

itr: 113000 lr: 1.832e-06 train loss: 0.000000 (dt=4.75s)


training:  94%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç| 113264/120000 [35:50<02:01, 55.45it/s]

itr: 113250 lr: 1.773e-06 train loss: 0.000000 (dt=4.75s)


training:  95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç| 113514/120000 [35:55<01:57, 55.41it/s]

itr: 113500 lr: 1.717e-06 train loss: 0.000003 (dt=4.75s)


training:  95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç| 113764/120000 [36:00<01:52, 55.40it/s]

itr: 113750 lr: 1.663e-06 train loss: 0.000001 (dt=4.75s)


training:  95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 114014/120000 [36:05<01:48, 55.36it/s]

itr: 114000 lr: 1.611e-06 train loss: 0.000000 (dt=4.75s)


training:  95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 114264/120000 [36:09<01:43, 55.41it/s]

itr: 114250 lr: 1.562e-06 train loss: 0.000000 (dt=4.75s)


training:  95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 114514/120000 [36:14<01:38, 55.44it/s]

itr: 114500 lr: 1.514e-06 train loss: 0.000000 (dt=4.75s)


training:  96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 114764/120000 [36:19<01:34, 55.40it/s]

itr: 114750 lr: 1.468e-06 train loss: 0.000000 (dt=4.75s)


training:  96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 115014/120000 [36:24<01:29, 55.41it/s]

itr: 115000 lr: 1.425e-06 train loss: 0.000000 (dt=4.75s)


training:  96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 115264/120000 [36:28<01:25, 55.36it/s]

itr: 115250 lr: 1.384e-06 train loss: 0.000000 (dt=4.75s)


training:  96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã| 115514/120000 [36:33<01:20, 55.40it/s]

itr: 115500 lr: 1.344e-06 train loss: 0.000002 (dt=4.75s)


training:  96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã| 115764/120000 [36:38<01:16, 55.46it/s]

itr: 115750 lr: 1.307e-06 train loss: 0.000000 (dt=4.75s)


training:  97%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã| 116014/120000 [36:43<01:11, 55.41it/s]

itr: 116000 lr: 1.272e-06 train loss: 0.000000 (dt=4.75s)


training:  97%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã| 116264/120000 [36:47<01:07, 55.41it/s]

itr: 116250 lr: 1.239e-06 train loss: 0.000000 (dt=4.75s)


training:  97%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã| 116514/120000 [36:52<01:02, 55.41it/s]

itr: 116500 lr: 1.208e-06 train loss: 0.000000 (dt=4.75s)


training:  97%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã| 116764/120000 [36:57<00:58, 55.40it/s]

itr: 116750 lr: 1.180e-06 train loss: 0.000000 (dt=4.75s)


training:  98%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä| 117014/120000 [37:02<00:53, 55.39it/s]

itr: 117000 lr: 1.153e-06 train loss: 0.000000 (dt=4.75s)


training:  98%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä| 117264/120000 [37:06<00:49, 55.40it/s]

itr: 117250 lr: 1.129e-06 train loss: 0.000000 (dt=4.75s)


training:  98%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä| 117514/120000 [37:11<00:44, 55.39it/s]

itr: 117500 lr: 1.106e-06 train loss: 0.000000 (dt=4.75s)


training:  98%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä| 117764/120000 [37:16<00:40, 55.41it/s]

itr: 117750 lr: 1.086e-06 train loss: 0.000000 (dt=4.75s)


training:  98%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä| 118014/120000 [37:21<00:35, 55.41it/s]

itr: 118000 lr: 1.068e-06 train loss: 0.000000 (dt=4.75s)


training:  99%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä| 118264/120000 [37:25<00:31, 55.42it/s]

itr: 118250 lr: 1.052e-06 train loss: 0.000000 (dt=4.75s)


training:  99%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ| 118514/120000 [37:30<00:26, 55.43it/s]

itr: 118500 lr: 1.038e-06 train loss: 0.000000 (dt=4.75s)


training:  99%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ| 118764/120000 [37:35<00:22, 55.40it/s]

itr: 118750 lr: 1.027e-06 train loss: 0.000000 (dt=4.75s)


training:  99%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ| 119014/120000 [37:40<00:17, 55.39it/s]

itr: 119000 lr: 1.017e-06 train loss: 0.000000 (dt=4.75s)


training:  99%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ| 119264/120000 [37:44<00:13, 55.41it/s]

itr: 119250 lr: 1.010e-06 train loss: 0.000000 (dt=4.75s)


training: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ| 119514/120000 [37:49<00:08, 55.40it/s]

itr: 119500 lr: 1.004e-06 train loss: 0.000001 (dt=4.75s)


training: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ| 119764/120000 [37:54<00:04, 55.39it/s]

itr: 119750 lr: 1.001e-06 train loss: 0.000000 (dt=4.75s)


training: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 120000/120000 [37:58<00:00, 52.66it/s]


saved final model: ./saved_models_grid_bs8192_20260103_075004/Final_N128_L1_dup0_iters120000.pt


0,1
iter,‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÉ‚ñÉ‚ñÉ‚ñÑ‚ñÑ‚ñÑ‚ñÑ‚ñÑ‚ñÑ‚ñÑ‚ñÖ‚ñÖ‚ñÖ‚ñÖ‚ñÖ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñà‚ñà
ll/iter,‚ñÅ‚ñÅ‚ñÑ‚ñÑ‚ñÑ‚ñÑ‚ñÖ‚ñÖ‚ñÖ‚ñÖ‚ñÖ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà
ll/lr,‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÖ‚ñÖ‚ñÉ‚ñÇ‚ñÅ
ll/train_loss,‚ñà‚ñà‚ñá‚ñÜ‚ñÖ‚ñÑ‚ñÑ‚ñÉ‚ñÇ‚ñÇ‚ñÑ‚ñÉ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÜ‚ñÇ‚ñÇ‚ñÅ‚ñÅ‚ñÇ‚ñÇ‚ñÉ‚ñÅ‚ñÅ‚ñÅ‚ñÇ‚ñÅ‚ñÑ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÇ‚ñÇ‚ñÅ‚ñÅ‚ñÇ
lr,‚ñà‚ñà‚ñà‚ñà‚ñà‚ñá‚ñá‚ñá‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÖ‚ñÖ‚ñÖ‚ñÖ‚ñÖ‚ñÑ‚ñÑ‚ñÑ‚ñÑ‚ñÉ‚ñÉ‚ñÉ‚ñÉ‚ñÉ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ
plateau/delta_log10_loss_window,‚ñá‚ñÜ‚ñá‚ñÖ‚ñÖ‚ñá‚ñá‚ñÖ‚ñÖ‚ñá‚ñÖ‚ñÉ‚ñÖ‚ñÉ‚ñÖ‚ñÖ‚ñÜ‚ñÖ‚ñÖ‚ñÖ‚ñà‚ñÖ‚ñÖ‚ñÖ‚ñÖ‚ñÖ‚ñÑ‚ñÉ‚ñÖ‚ñÉ‚ñÅ‚ñÖ‚ñÑ‚ñÖ‚ñÜ‚ñÖ‚ñÑ‚ñÑ‚ñÉ‚ñÖ
plateau/hits,‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ
plateau/loglog_slope,‚ñÑ‚ñÖ‚ñÖ‚ñÖ‚ñÖ‚ñÑ‚ñÑ‚ñÖ‚ñÖ‚ñÑ‚ñÖ‚ñÖ‚ñÑ‚ñÖ‚ñÖ‚ñÑ‚ñÜ‚ñÖ‚ñÉ‚ñÑ‚ñÑ‚ñÖ‚ñÖ‚ñÑ‚ñÑ‚ñÅ‚ñÅ‚ñÖ‚ñà‚ñÜ‚ñá‚ñÑ‚ñÑ‚ñÖ‚ñÜ‚ñá‚ñÑ‚ñÜ‚ñÉ‚ñÜ
plateau/now,‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñà‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ
plateau/reached,‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ

0,1
iter,120000
iters_done,120000
ll/iter,5.07918
ll/lr,-6.0
ll/train_loss,-6.45792
lr,0.0
plateau/delta_log10_loss_window,-0.14304
plateau/hits,0
plateau/loglog_slope,-6.93296
plateau/now,0


using device: cuda


training:   0%|          | 6/120000 [00:00<46:35, 42.93it/s]

itr: 0 lr: 4.975e-07 train loss: 4.199029 (dt=0.05s)


training:   0%|          | 257/120000 [00:11<1:22:58, 24.05it/s]

itr: 250 lr: 1.000e-04 train loss: 2.937935 (dt=11.09s)


training:   0%|          | 507/120000 [00:22<1:24:18, 23.62it/s]

itr: 500 lr: 1.000e-04 train loss: 1.707176 (dt=11.07s)


training:   1%|          | 757/120000 [00:33<1:24:08, 23.62it/s]

itr: 750 lr: 9.999e-05 train loss: 0.694598 (dt=11.07s)


training:   1%|          | 1008/120000 [00:44<1:24:16, 23.53it/s]

itr: 1000 lr: 9.999e-05 train loss: 0.204008 (dt=11.07s)


training:   1%|          | 1257/120000 [00:55<1:21:22, 24.32it/s]

itr: 1250 lr: 9.998e-05 train loss: 0.048999 (dt=11.07s)


training:   1%|‚ñè         | 1508/120000 [01:06<1:23:55, 23.53it/s]

itr: 1500 lr: 9.997e-05 train loss: 0.010752 (dt=11.08s)


training:   1%|‚ñè         | 1757/120000 [01:17<1:21:03, 24.31it/s]

itr: 1750 lr: 9.996e-05 train loss: 0.003113 (dt=11.07s)


training:   2%|‚ñè         | 2007/120000 [01:28<1:23:16, 23.62it/s]

itr: 2000 lr: 9.994e-05 train loss: 0.001032 (dt=11.07s)


training:   2%|‚ñè         | 2257/120000 [01:39<1:23:06, 23.61it/s]

itr: 2250 lr: 9.993e-05 train loss: 0.000355 (dt=11.07s)


training:   2%|‚ñè         | 2508/120000 [01:50<1:23:03, 23.58it/s]

itr: 2500 lr: 9.991e-05 train loss: 0.000199 (dt=11.07s)


training:   2%|‚ñè         | 2757/120000 [02:02<1:20:17, 24.34it/s]

itr: 2750 lr: 9.989e-05 train loss: 0.000108 (dt=11.07s)


training:   3%|‚ñé         | 3007/120000 [02:13<1:22:31, 23.63it/s]

itr: 3000 lr: 9.987e-05 train loss: 0.000056 (dt=11.07s)


training:   3%|‚ñé         | 3257/120000 [02:24<1:22:24, 23.61it/s]

itr: 3250 lr: 9.984e-05 train loss: 0.000043 (dt=11.07s)


training:   3%|‚ñé         | 3507/120000 [02:35<1:22:13, 23.61it/s]

itr: 3500 lr: 9.981e-05 train loss: 0.000026 (dt=11.07s)


training:   3%|‚ñé         | 3757/120000 [02:46<1:22:00, 23.63it/s]

itr: 3750 lr: 9.979e-05 train loss: 0.000043 (dt=11.07s)


training:   3%|‚ñé         | 4008/120000 [02:57<1:22:10, 23.53it/s]

itr: 4000 lr: 9.975e-05 train loss: 0.000014 (dt=11.07s)


training:   4%|‚ñé         | 4257/120000 [03:08<1:19:17, 24.33it/s]

itr: 4250 lr: 9.972e-05 train loss: 0.000010 (dt=11.07s)


training:   4%|‚ñç         | 4507/120000 [03:19<1:21:32, 23.61it/s]

itr: 4500 lr: 9.969e-05 train loss: 0.000012 (dt=11.07s)


training:   4%|‚ñç         | 4758/120000 [03:30<1:21:36, 23.53it/s]

itr: 4750 lr: 9.965e-05 train loss: 0.000017 (dt=11.07s)


training:   4%|‚ñç         | 5007/120000 [03:41<1:18:59, 24.26it/s]

itr: 5000 lr: 9.961e-05 train loss: 0.000013 (dt=11.07s)


training:   4%|‚ñç         | 5257/120000 [03:52<1:20:57, 23.62it/s]

itr: 5250 lr: 9.957e-05 train loss: 0.000010 (dt=11.08s)


training:   5%|‚ñç         | 5507/120000 [04:03<1:20:47, 23.62it/s]

itr: 5500 lr: 9.952e-05 train loss: 0.000005 (dt=11.07s)


training:   5%|‚ñç         | 5757/120000 [04:14<1:20:39, 23.61it/s]

itr: 5750 lr: 9.948e-05 train loss: 0.000002 (dt=11.07s)


training:   5%|‚ñå         | 6007/120000 [04:25<1:20:23, 23.63it/s]

itr: 6000 lr: 9.943e-05 train loss: 0.000003 (dt=11.07s)


training:   5%|‚ñå         | 6258/120000 [04:37<1:20:32, 23.54it/s]

itr: 6250 lr: 9.938e-05 train loss: 0.000002 (dt=11.07s)


training:   5%|‚ñå         | 6507/120000 [04:48<1:17:44, 24.33it/s]

itr: 6500 lr: 9.933e-05 train loss: 0.000002 (dt=11.07s)


training:   6%|‚ñå         | 6758/120000 [04:59<1:20:10, 23.54it/s]

itr: 6750 lr: 9.927e-05 train loss: 0.000001 (dt=11.07s)


training:   6%|‚ñå         | 7007/120000 [05:10<1:17:29, 24.30it/s]

itr: 7000 lr: 9.922e-05 train loss: 0.000004 (dt=11.07s)


training:   6%|‚ñå         | 7257/120000 [05:21<1:19:33, 23.62it/s]

itr: 7250 lr: 9.916e-05 train loss: 0.000002 (dt=11.08s)


training:   6%|‚ñã         | 7507/120000 [05:32<1:19:22, 23.62it/s]

itr: 7500 lr: 9.910e-05 train loss: 0.000001 (dt=11.07s)


training:   6%|‚ñã         | 7758/120000 [05:43<1:19:29, 23.53it/s]

itr: 7750 lr: 9.903e-05 train loss: 0.000016 (dt=11.07s)


training:   7%|‚ñã         | 8007/120000 [05:54<1:16:43, 24.33it/s]

itr: 8000 lr: 9.897e-05 train loss: 0.000005 (dt=11.07s)


training:   7%|‚ñã         | 8257/120000 [06:05<1:18:53, 23.61it/s]

itr: 8250 lr: 9.890e-05 train loss: 0.000005 (dt=11.08s)


training:   7%|‚ñã         | 8508/120000 [06:16<1:18:59, 23.52it/s]

itr: 8500 lr: 9.883e-05 train loss: 0.000000 (dt=11.07s)


training:   7%|‚ñã         | 8757/120000 [06:27<1:16:14, 24.32it/s]

itr: 8750 lr: 9.876e-05 train loss: 0.000001 (dt=11.07s)


training:   8%|‚ñä         | 9008/120000 [06:38<1:18:33, 23.55it/s]

itr: 9000 lr: 9.869e-05 train loss: 0.000001 (dt=11.07s)


training:   8%|‚ñä         | 9257/120000 [06:49<1:15:52, 24.33it/s]

itr: 9250 lr: 9.861e-05 train loss: 0.000000 (dt=11.07s)


training:   8%|‚ñä         | 9507/120000 [07:01<1:17:58, 23.62it/s]

itr: 9500 lr: 9.854e-05 train loss: 0.000000 (dt=11.08s)


training:   8%|‚ñä         | 9758/120000 [07:12<1:18:05, 23.53it/s]

itr: 9750 lr: 9.846e-05 train loss: 0.000001 (dt=11.07s)


training:   8%|‚ñä         | 10007/120000 [07:23<1:15:20, 24.33it/s]

itr: 10000 lr: 9.837e-05 train loss: 0.000000 (dt=11.07s)


training:   9%|‚ñä         | 10258/120000 [07:34<1:17:42, 23.54it/s]

itr: 10250 lr: 9.829e-05 train loss: 0.000000 (dt=11.07s)


training:   9%|‚ñâ         | 10507/120000 [07:45<1:15:01, 24.33it/s]

itr: 10500 lr: 9.821e-05 train loss: 0.000000 (dt=11.07s)


training:   9%|‚ñâ         | 10758/120000 [07:56<1:17:23, 23.53it/s]

itr: 10750 lr: 9.812e-05 train loss: 0.000001 (dt=11.07s)


training:   9%|‚ñâ         | 11007/120000 [08:07<1:14:39, 24.33it/s]

itr: 11000 lr: 9.803e-05 train loss: 0.000000 (dt=11.07s)


training:   9%|‚ñâ         | 11257/120000 [08:18<1:16:45, 23.61it/s]

itr: 11250 lr: 9.794e-05 train loss: 0.000004 (dt=11.07s)


training:  10%|‚ñâ         | 11508/120000 [08:29<1:16:49, 23.53it/s]

itr: 11500 lr: 9.784e-05 train loss: 0.000001 (dt=11.07s)


training:  10%|‚ñâ         | 11757/120000 [08:40<1:14:12, 24.31it/s]

itr: 11750 lr: 9.775e-05 train loss: 0.000001 (dt=11.07s)


training:  10%|‚ñà         | 12007/120000 [08:51<1:16:12, 23.62it/s]

itr: 12000 lr: 9.765e-05 train loss: 0.000000 (dt=11.08s)


training:  10%|‚ñà         | 12257/120000 [09:02<1:16:00, 23.63it/s]

itr: 12250 lr: 9.755e-05 train loss: 0.000000 (dt=11.07s)


training:  10%|‚ñà         | 12507/120000 [09:13<1:15:52, 23.61it/s]

itr: 12500 lr: 9.745e-05 train loss: 0.000000 (dt=11.07s)


training:  11%|‚ñà         | 12757/120000 [09:24<1:15:41, 23.61it/s]

itr: 12750 lr: 9.734e-05 train loss: 0.000000 (dt=11.07s)


training:  11%|‚ñà         | 13007/120000 [09:36<1:15:29, 23.62it/s]

itr: 13000 lr: 9.724e-05 train loss: 0.000000 (dt=11.07s)


training:  11%|‚ñà         | 13258/120000 [09:47<1:15:37, 23.52it/s]

itr: 13250 lr: 9.713e-05 train loss: 0.000000 (dt=11.07s)


training:  11%|‚ñà‚ñè        | 13507/120000 [09:58<1:12:56, 24.33it/s]

itr: 13500 lr: 9.702e-05 train loss: 0.000000 (dt=11.07s)


training:  11%|‚ñà‚ñè        | 13758/120000 [10:09<1:15:12, 23.54it/s]

itr: 13750 lr: 9.691e-05 train loss: 0.000001 (dt=11.08s)


training:  12%|‚ñà‚ñè        | 14007/120000 [10:20<1:12:36, 24.33it/s]

itr: 14000 lr: 9.679e-05 train loss: 0.000000 (dt=11.07s)


training:  12%|‚ñà‚ñè        | 14257/120000 [10:31<1:14:36, 23.62it/s]

itr: 14250 lr: 9.668e-05 train loss: 0.000000 (dt=11.08s)


training:  12%|‚ñà‚ñè        | 14508/120000 [10:42<1:14:44, 23.53it/s]

itr: 14500 lr: 9.656e-05 train loss: 0.000000 (dt=11.07s)


training:  12%|‚ñà‚ñè        | 14757/120000 [10:53<1:12:07, 24.32it/s]

itr: 14750 lr: 9.644e-05 train loss: 0.000001 (dt=11.07s)


training:  13%|‚ñà‚ñé        | 15008/120000 [11:04<1:14:17, 23.55it/s]

itr: 15000 lr: 9.632e-05 train loss: 0.000000 (dt=11.08s)


training:  13%|‚ñà‚ñé        | 15257/120000 [11:15<1:11:49, 24.31it/s]

itr: 15250 lr: 9.619e-05 train loss: 0.000000 (dt=11.07s)


training:  13%|‚ñà‚ñé        | 15508/120000 [11:26<1:13:59, 23.54it/s]

itr: 15500 lr: 9.607e-05 train loss: 0.000000 (dt=11.08s)


training:  13%|‚ñà‚ñé        | 15757/120000 [11:37<1:11:26, 24.32it/s]

itr: 15750 lr: 9.594e-05 train loss: 0.000000 (dt=11.07s)


training:  13%|‚ñà‚ñé        | 16007/120000 [11:48<1:13:23, 23.62it/s]

itr: 16000 lr: 9.581e-05 train loss: 0.000000 (dt=11.07s)


training:  14%|‚ñà‚ñé        | 16257/120000 [12:00<1:13:17, 23.59it/s]

itr: 16250 lr: 9.568e-05 train loss: 0.000000 (dt=11.07s)


training:  14%|‚ñà‚ñç        | 16507/120000 [12:11<1:13:01, 23.62it/s]

itr: 16500 lr: 9.555e-05 train loss: 0.000000 (dt=11.07s)


training:  14%|‚ñà‚ñç        | 16757/120000 [12:22<1:12:52, 23.61it/s]

itr: 16750 lr: 9.541e-05 train loss: 0.000000 (dt=11.07s)


training:  14%|‚ñà‚ñç        | 17008/120000 [12:33<1:12:59, 23.52it/s]

itr: 17000 lr: 9.527e-05 train loss: 0.000000 (dt=11.07s)


training:  14%|‚ñà‚ñç        | 17257/120000 [12:44<1:10:23, 24.33it/s]

itr: 17250 lr: 9.513e-05 train loss: 0.000000 (dt=11.07s)


training:  15%|‚ñà‚ñç        | 17507/120000 [12:55<1:12:20, 23.61it/s]

itr: 17500 lr: 9.499e-05 train loss: 0.000000 (dt=11.08s)


training:  15%|‚ñà‚ñç        | 17757/120000 [13:06<1:12:09, 23.61it/s]

itr: 17750 lr: 9.485e-05 train loss: 0.000000 (dt=11.07s)


training:  15%|‚ñà‚ñå        | 18008/120000 [13:17<1:12:13, 23.53it/s]

itr: 18000 lr: 9.470e-05 train loss: 0.000000 (dt=11.07s)


training:  15%|‚ñà‚ñå        | 18257/120000 [13:28<1:09:43, 24.32it/s]

itr: 18250 lr: 9.456e-05 train loss: 0.000000 (dt=11.07s)


training:  15%|‚ñà‚ñå        | 18508/120000 [13:39<1:11:53, 23.53it/s]

itr: 18500 lr: 9.441e-05 train loss: 0.000000 (dt=11.08s)


training:  16%|‚ñà‚ñå        | 18757/120000 [13:50<1:09:21, 24.33it/s]

itr: 18750 lr: 9.426e-05 train loss: 0.000000 (dt=11.07s)


training:  16%|‚ñà‚ñå        | 19007/120000 [14:01<1:11:16, 23.62it/s]

itr: 19000 lr: 9.411e-05 train loss: 0.000000 (dt=11.08s)


training:  16%|‚ñà‚ñå        | 19257/120000 [14:12<1:11:05, 23.62it/s]

itr: 19250 lr: 9.395e-05 train loss: 0.000000 (dt=11.07s)


training:  16%|‚ñà‚ñã        | 19507/120000 [14:23<1:10:56, 23.61it/s]

itr: 19500 lr: 9.379e-05 train loss: 0.000000 (dt=11.07s)


training:  16%|‚ñà‚ñã        | 19757/120000 [14:35<1:10:45, 23.61it/s]

itr: 19750 lr: 9.364e-05 train loss: 0.000000 (dt=11.07s)


training:  17%|‚ñà‚ñã        | 20007/120000 [14:46<1:12:08, 23.10it/s]

itr: 20000 lr: 9.348e-05 train loss: 0.000000 (dt=11.07s)
saved checkpoint: ./saved_models_grid_bs8192_20260103_075004/Checkpoint_N64_L3_dup0_iters20001.pt


training:  17%|‚ñà‚ñã        | 20257/120000 [14:57<1:10:24, 23.61it/s]

itr: 20250 lr: 9.331e-05 train loss: 0.000000 (dt=11.09s)


training:  17%|‚ñà‚ñã        | 20507/120000 [15:08<1:10:12, 23.62it/s]

itr: 20500 lr: 9.315e-05 train loss: 0.000000 (dt=11.07s)


training:  17%|‚ñà‚ñã        | 20758/120000 [15:19<1:10:17, 23.53it/s]

itr: 20750 lr: 9.298e-05 train loss: 0.000000 (dt=11.07s)


training:  18%|‚ñà‚ñä        | 21007/120000 [15:30<1:07:51, 24.31it/s]

itr: 21000 lr: 9.282e-05 train loss: 0.000000 (dt=11.07s)


training:  18%|‚ñà‚ñä        | 21258/120000 [15:41<1:09:58, 23.52it/s]

itr: 21250 lr: 9.265e-05 train loss: 0.000000 (dt=11.08s)


training:  18%|‚ñà‚ñä        | 21507/120000 [15:52<1:07:29, 24.32it/s]

itr: 21500 lr: 9.248e-05 train loss: 0.000000 (dt=11.07s)


training:  18%|‚ñà‚ñä        | 21757/120000 [16:03<1:09:19, 23.62it/s]

itr: 21750 lr: 9.230e-05 train loss: 0.000000 (dt=11.08s)


training:  18%|‚ñà‚ñä        | 22007/120000 [16:14<1:09:08, 23.62it/s]

itr: 22000 lr: 9.213e-05 train loss: 0.000002 (dt=11.07s)


training:  19%|‚ñà‚ñä        | 22258/120000 [16:25<1:09:05, 23.58it/s]

itr: 22250 lr: 9.195e-05 train loss: 0.000000 (dt=11.07s)


training:  19%|‚ñà‚ñâ        | 22507/120000 [16:36<1:06:53, 24.29it/s]

itr: 22500 lr: 9.177e-05 train loss: 0.000000 (dt=11.07s)


training:  19%|‚ñà‚ñâ        | 22757/120000 [16:47<1:08:36, 23.62it/s]

itr: 22750 lr: 9.159e-05 train loss: 0.000000 (dt=11.08s)


training:  19%|‚ñà‚ñâ        | 23007/120000 [16:59<1:08:26, 23.62it/s]

itr: 23000 lr: 9.141e-05 train loss: 0.000000 (dt=11.07s)


training:  19%|‚ñà‚ñâ        | 23257/120000 [17:10<1:08:16, 23.62it/s]

itr: 23250 lr: 9.123e-05 train loss: 0.000000 (dt=11.07s)


training:  20%|‚ñà‚ñâ        | 23507/120000 [17:21<1:08:05, 23.62it/s]

itr: 23500 lr: 9.104e-05 train loss: 0.000004 (dt=11.08s)


training:  20%|‚ñà‚ñâ        | 23758/120000 [17:32<1:08:12, 23.52it/s]

itr: 23750 lr: 9.086e-05 train loss: 0.000000 (dt=11.07s)


training:  20%|‚ñà‚ñà        | 24007/120000 [17:43<1:05:49, 24.31it/s]

itr: 24000 lr: 9.067e-05 train loss: 0.000000 (dt=11.07s)


training:  20%|‚ñà‚ñà        | 24257/120000 [17:54<1:07:33, 23.62it/s]

itr: 24250 lr: 9.048e-05 train loss: 0.000000 (dt=11.08s)


training:  20%|‚ñà‚ñà        | 24508/120000 [18:05<1:07:35, 23.55it/s]

itr: 24500 lr: 9.029e-05 train loss: 0.000000 (dt=11.07s)


training:  21%|‚ñà‚ñà        | 24757/120000 [18:16<1:05:16, 24.32it/s]

itr: 24750 lr: 9.009e-05 train loss: 0.000000 (dt=11.07s)


training:  21%|‚ñà‚ñà        | 25008/120000 [18:27<1:07:19, 23.51it/s]

itr: 25000 lr: 8.990e-05 train loss: 0.000000 (dt=11.08s)


training:  21%|‚ñà‚ñà        | 25257/120000 [18:38<1:04:56, 24.31it/s]

itr: 25250 lr: 8.970e-05 train loss: 0.000000 (dt=11.08s)


training:  21%|‚ñà‚ñà‚ñè       | 25507/120000 [18:49<1:06:40, 23.62it/s]

itr: 25500 lr: 8.950e-05 train loss: 0.000000 (dt=11.08s)


training:  21%|‚ñà‚ñà‚ñè       | 25757/120000 [19:00<1:06:30, 23.62it/s]

itr: 25750 lr: 8.930e-05 train loss: 0.000000 (dt=11.07s)


training:  22%|‚ñà‚ñà‚ñè       | 26008/120000 [19:11<1:06:32, 23.54it/s]

itr: 26000 lr: 8.910e-05 train loss: 0.000000 (dt=11.07s)


training:  22%|‚ñà‚ñà‚ñè       | 26257/120000 [19:23<1:04:15, 24.31it/s]

itr: 26250 lr: 8.889e-05 train loss: 0.000000 (dt=11.07s)


training:  22%|‚ñà‚ñà‚ñè       | 26507/120000 [19:34<1:05:58, 23.62it/s]

itr: 26500 lr: 8.869e-05 train loss: 0.000000 (dt=11.08s)


training:  22%|‚ñà‚ñà‚ñè       | 26758/120000 [19:45<1:06:03, 23.53it/s]

itr: 26750 lr: 8.848e-05 train loss: 0.000000 (dt=11.07s)


training:  23%|‚ñà‚ñà‚ñé       | 27007/120000 [19:56<1:03:43, 24.32it/s]

itr: 27000 lr: 8.827e-05 train loss: 0.000000 (dt=11.07s)


training:  23%|‚ñà‚ñà‚ñé       | 27258/120000 [20:07<1:05:40, 23.54it/s]

itr: 27250 lr: 8.806e-05 train loss: 0.000000 (dt=11.08s)


training:  23%|‚ñà‚ñà‚ñé       | 27507/120000 [20:18<1:03:24, 24.31it/s]

itr: 27500 lr: 8.785e-05 train loss: 0.000000 (dt=11.07s)


training:  23%|‚ñà‚ñà‚ñé       | 27758/120000 [20:29<1:05:20, 23.53it/s]

itr: 27750 lr: 8.763e-05 train loss: 0.000000 (dt=11.08s)


training:  23%|‚ñà‚ñà‚ñé       | 28007/120000 [20:40<1:03:01, 24.33it/s]

itr: 28000 lr: 8.742e-05 train loss: 0.000000 (dt=11.07s)


training:  24%|‚ñà‚ñà‚ñé       | 28258/120000 [20:51<1:04:59, 23.53it/s]

itr: 28250 lr: 8.720e-05 train loss: 0.000000 (dt=11.08s)


training:  24%|‚ñà‚ñà‚ñç       | 28507/120000 [21:02<1:02:43, 24.31it/s]

itr: 28500 lr: 8.698e-05 train loss: 0.000000 (dt=11.07s)


training:  24%|‚ñà‚ñà‚ñç       | 28757/120000 [21:13<1:04:24, 23.61it/s]

itr: 28750 lr: 8.676e-05 train loss: 0.000000 (dt=11.08s)


training:  24%|‚ñà‚ñà‚ñç       | 29007/120000 [21:24<1:04:12, 23.62it/s]

itr: 29000 lr: 8.654e-05 train loss: 0.000000 (dt=11.07s)


training:  24%|‚ñà‚ñà‚ñç       | 29258/120000 [21:35<1:04:13, 23.55it/s]

itr: 29250 lr: 8.632e-05 train loss: 0.000000 (dt=11.07s)


training:  25%|‚ñà‚ñà‚ñç       | 29507/120000 [21:46<1:02:02, 24.31it/s]

itr: 29500 lr: 8.609e-05 train loss: 0.000000 (dt=11.08s)


training:  25%|‚ñà‚ñà‚ñç       | 29757/120000 [21:58<1:03:42, 23.61it/s]

itr: 29750 lr: 8.587e-05 train loss: 0.000000 (dt=11.08s)


training:  25%|‚ñà‚ñà‚ñå       | 30008/120000 [22:09<1:03:45, 23.52it/s]

itr: 30000 lr: 8.564e-05 train loss: 0.000000 (dt=11.07s)


training:  25%|‚ñà‚ñà‚ñå       | 30257/120000 [22:20<1:01:31, 24.31it/s]

itr: 30250 lr: 8.541e-05 train loss: 0.000000 (dt=11.07s)


training:  25%|‚ñà‚ñà‚ñå       | 30508/120000 [22:31<1:03:23, 23.53it/s]

itr: 30500 lr: 8.518e-05 train loss: 0.000000 (dt=11.08s)


training:  26%|‚ñà‚ñà‚ñå       | 30757/120000 [22:42<1:01:08, 24.33it/s]

itr: 30750 lr: 8.495e-05 train loss: 0.000000 (dt=11.07s)


training:  26%|‚ñà‚ñà‚ñå       | 31007/120000 [22:53<1:02:48, 23.61it/s]

itr: 31000 lr: 8.471e-05 train loss: 0.000000 (dt=11.08s)


training:  26%|‚ñà‚ñà‚ñå       | 31257/120000 [23:04<1:02:39, 23.61it/s]

itr: 31250 lr: 8.448e-05 train loss: 0.000000 (dt=11.07s)


training:  26%|‚ñà‚ñà‚ñã       | 31507/120000 [23:15<1:02:28, 23.61it/s]

itr: 31500 lr: 8.424e-05 train loss: 0.000000 (dt=11.08s)


training:  26%|‚ñà‚ñà‚ñã       | 31757/120000 [23:26<1:02:16, 23.62it/s]

itr: 31750 lr: 8.400e-05 train loss: 0.000000 (dt=11.07s)


training:  27%|‚ñà‚ñà‚ñã       | 32008/120000 [23:37<1:02:20, 23.52it/s]

itr: 32000 lr: 8.376e-05 train loss: 0.000000 (dt=11.07s)


training:  27%|‚ñà‚ñà‚ñã       | 32257/120000 [23:48<1:00:08, 24.31it/s]

itr: 32250 lr: 8.352e-05 train loss: 0.000000 (dt=11.08s)


training:  27%|‚ñà‚ñà‚ñã       | 32508/120000 [23:59<1:01:58, 23.53it/s]

itr: 32500 lr: 8.328e-05 train loss: 0.000000 (dt=11.08s)


training:  27%|‚ñà‚ñà‚ñã       | 32757/120000 [24:10<59:46, 24.32it/s]  

itr: 32750 lr: 8.304e-05 train loss: 0.000000 (dt=11.07s)


training:  28%|‚ñà‚ñà‚ñä       | 33007/120000 [24:22<1:01:23, 23.62it/s]

itr: 33000 lr: 8.279e-05 train loss: 0.000000 (dt=11.08s)


training:  28%|‚ñà‚ñà‚ñä       | 33257/120000 [24:33<1:01:14, 23.61it/s]

itr: 33250 lr: 8.254e-05 train loss: 0.000000 (dt=11.08s)


training:  28%|‚ñà‚ñà‚ñä       | 33508/120000 [24:44<1:01:12, 23.55it/s]

itr: 33500 lr: 8.230e-05 train loss: 0.000000 (dt=11.07s)


training:  28%|‚ñà‚ñà‚ñä       | 33757/120000 [24:55<59:06, 24.31it/s]  

itr: 33750 lr: 8.205e-05 train loss: 0.000000 (dt=11.07s)


training:  28%|‚ñà‚ñà‚ñä       | 34008/120000 [25:06<1:00:54, 23.53it/s]

itr: 34000 lr: 8.180e-05 train loss: 0.000000 (dt=11.08s)


training:  29%|‚ñà‚ñà‚ñä       | 34257/120000 [25:17<58:44, 24.33it/s]  

itr: 34250 lr: 8.154e-05 train loss: 0.000000 (dt=11.07s)


training:  29%|‚ñà‚ñà‚ñâ       | 34507/120000 [25:28<1:00:19, 23.62it/s]

itr: 34500 lr: 8.129e-05 train loss: 0.000000 (dt=11.08s)


training:  29%|‚ñà‚ñà‚ñâ       | 34757/120000 [25:39<1:00:09, 23.62it/s]

itr: 34750 lr: 8.104e-05 train loss: 0.000000 (dt=11.07s)


training:  29%|‚ñà‚ñà‚ñâ       | 35008/120000 [25:50<1:00:13, 23.52it/s]

itr: 35000 lr: 8.078e-05 train loss: 0.000000 (dt=11.07s)


training:  29%|‚ñà‚ñà‚ñâ       | 35257/120000 [26:01<58:04, 24.32it/s]  

itr: 35250 lr: 8.052e-05 train loss: 0.000000 (dt=11.08s)


training:  30%|‚ñà‚ñà‚ñâ       | 35507/120000 [26:12<59:37, 23.62it/s]  

itr: 35500 lr: 8.026e-05 train loss: 0.000000 (dt=11.08s)


training:  30%|‚ñà‚ñà‚ñâ       | 35758/120000 [26:23<59:38, 23.54it/s]  

itr: 35750 lr: 8.000e-05 train loss: 0.000000 (dt=11.07s)


training:  30%|‚ñà‚ñà‚ñà       | 36007/120000 [26:34<57:30, 24.34it/s]  

itr: 36000 lr: 7.974e-05 train loss: 0.000000 (dt=11.07s)


training:  30%|‚ñà‚ñà‚ñà       | 36258/120000 [26:46<59:19, 23.52it/s]  

itr: 36250 lr: 7.948e-05 train loss: 0.000000 (dt=11.07s)


training:  30%|‚ñà‚ñà‚ñà       | 36507/120000 [26:57<57:15, 24.30it/s]  

itr: 36500 lr: 7.922e-05 train loss: 0.000000 (dt=11.08s)


training:  31%|‚ñà‚ñà‚ñà       | 36758/120000 [27:08<58:57, 23.53it/s]  

itr: 36750 lr: 7.895e-05 train loss: 0.000000 (dt=11.08s)


training:  31%|‚ñà‚ñà‚ñà       | 37007/120000 [27:19<56:55, 24.30it/s]  

itr: 37000 lr: 7.868e-05 train loss: 0.000000 (dt=11.07s)


training:  31%|‚ñà‚ñà‚ñà       | 37258/120000 [27:30<58:35, 23.54it/s]  

itr: 37250 lr: 7.842e-05 train loss: 0.000000 (dt=11.08s)


training:  31%|‚ñà‚ñà‚ñà‚ñè      | 37507/120000 [27:41<56:33, 24.31it/s]  

itr: 37500 lr: 7.815e-05 train loss: 0.000000 (dt=11.07s)


training:  31%|‚ñà‚ñà‚ñà‚ñè      | 37757/120000 [27:52<58:01, 23.62it/s]  

itr: 37750 lr: 7.788e-05 train loss: 0.000000 (dt=11.08s)


training:  32%|‚ñà‚ñà‚ñà‚ñè      | 38007/120000 [28:03<57:52, 23.62it/s]  

itr: 38000 lr: 7.761e-05 train loss: 0.000000 (dt=11.07s)


training:  32%|‚ñà‚ñà‚ñà‚ñè      | 38257/120000 [28:14<57:40, 23.62it/s]  

itr: 38250 lr: 7.734e-05 train loss: 0.000000 (dt=11.07s)


training:  32%|‚ñà‚ñà‚ñà‚ñè      | 38508/120000 [28:25<57:44, 23.52it/s]  

itr: 38500 lr: 7.706e-05 train loss: 0.000000 (dt=11.07s)


training:  32%|‚ñà‚ñà‚ñà‚ñè      | 38757/120000 [28:36<55:41, 24.32it/s]  

itr: 38750 lr: 7.679e-05 train loss: 0.000000 (dt=11.07s)


training:  33%|‚ñà‚ñà‚ñà‚ñé      | 39007/120000 [28:47<57:08, 23.62it/s]  

itr: 39000 lr: 7.651e-05 train loss: 0.000000 (dt=11.08s)


training:  33%|‚ñà‚ñà‚ñà‚ñé      | 39257/120000 [28:58<56:58, 23.62it/s]  

itr: 39250 lr: 7.624e-05 train loss: 0.000000 (dt=11.07s)


training:  33%|‚ñà‚ñà‚ñà‚ñé      | 39507/120000 [29:09<56:47, 23.63it/s]  

itr: 39500 lr: 7.596e-05 train loss: 0.000000 (dt=11.07s)


training:  33%|‚ñà‚ñà‚ñà‚ñé      | 39757/120000 [29:21<56:38, 23.61it/s]  

itr: 39750 lr: 7.568e-05 train loss: 0.000000 (dt=11.07s)


training:  33%|‚ñà‚ñà‚ñà‚ñé      | 40007/120000 [29:32<57:44, 23.09it/s]  

itr: 40000 lr: 7.540e-05 train loss: 0.000000 (dt=11.07s)
saved checkpoint: ./saved_models_grid_bs8192_20260103_075004/Checkpoint_N64_L3_dup0_iters40001.pt


training:  34%|‚ñà‚ñà‚ñà‚ñé      | 40257/120000 [29:43<56:16, 23.62it/s]  

itr: 40250 lr: 7.512e-05 train loss: 0.000000 (dt=11.09s)


training:  34%|‚ñà‚ñà‚ñà‚ñç      | 40507/120000 [29:54<56:05, 23.62it/s]  

itr: 40500 lr: 7.484e-05 train loss: 0.000000 (dt=11.07s)


training:  34%|‚ñà‚ñà‚ñà‚ñç      | 40757/120000 [30:05<55:56, 23.61it/s]  

itr: 40750 lr: 7.455e-05 train loss: 0.000000 (dt=11.07s)


training:  34%|‚ñà‚ñà‚ñà‚ñç      | 41008/120000 [30:16<55:53, 23.55it/s]  

itr: 41000 lr: 7.427e-05 train loss: 0.000000 (dt=11.07s)


training:  34%|‚ñà‚ñà‚ñà‚ñç      | 41257/120000 [30:27<53:59, 24.31it/s]  

itr: 41250 lr: 7.398e-05 train loss: 0.000000 (dt=11.07s)


training:  35%|‚ñà‚ñà‚ñà‚ñç      | 41507/120000 [30:38<55:23, 23.62it/s]  

itr: 41500 lr: 7.370e-05 train loss: 0.000000 (dt=11.08s)


training:  35%|‚ñà‚ñà‚ñà‚ñç      | 41758/120000 [30:49<55:17, 23.58it/s]  

itr: 41750 lr: 7.341e-05 train loss: 0.000000 (dt=11.07s)


training:  35%|‚ñà‚ñà‚ñà‚ñå      | 42007/120000 [31:00<53:27, 24.32it/s]  

itr: 42000 lr: 7.312e-05 train loss: 0.000000 (dt=11.07s)


training:  35%|‚ñà‚ñà‚ñà‚ñå      | 42258/120000 [31:11<55:03, 23.53it/s]  

itr: 42250 lr: 7.283e-05 train loss: 0.000000 (dt=11.08s)


training:  35%|‚ñà‚ñà‚ñà‚ñå      | 42507/120000 [31:22<53:08, 24.30it/s]  

itr: 42500 lr: 7.254e-05 train loss: 0.000000 (dt=11.07s)


training:  36%|‚ñà‚ñà‚ñà‚ñå      | 42757/120000 [31:33<54:30, 23.62it/s]  

itr: 42750 lr: 7.225e-05 train loss: 0.000000 (dt=11.08s)


training:  36%|‚ñà‚ñà‚ñà‚ñå      | 43007/120000 [31:45<54:19, 23.62it/s]  

itr: 43000 lr: 7.196e-05 train loss: 0.000000 (dt=11.07s)


training:  36%|‚ñà‚ñà‚ñà‚ñå      | 43257/120000 [31:56<54:09, 23.61it/s]  

itr: 43250 lr: 7.167e-05 train loss: 0.000000 (dt=11.07s)


training:  36%|‚ñà‚ñà‚ñà‚ñã      | 43508/120000 [32:07<54:11, 23.53it/s]  

itr: 43500 lr: 7.137e-05 train loss: 0.000000 (dt=11.08s)


training:  36%|‚ñà‚ñà‚ñà‚ñã      | 43757/120000 [32:18<52:15, 24.32it/s]  

itr: 43750 lr: 7.108e-05 train loss: 0.000000 (dt=11.07s)


training:  37%|‚ñà‚ñà‚ñà‚ñã      | 44008/120000 [32:29<53:49, 23.53it/s]  

itr: 44000 lr: 7.078e-05 train loss: 0.000000 (dt=11.08s)


training:  37%|‚ñà‚ñà‚ñà‚ñã      | 44257/120000 [32:40<51:54, 24.32it/s]  

itr: 44250 lr: 7.049e-05 train loss: 0.000000 (dt=11.07s)


training:  37%|‚ñà‚ñà‚ñà‚ñã      | 44507/120000 [32:51<53:16, 23.62it/s]  

itr: 44500 lr: 7.019e-05 train loss: 0.000000 (dt=11.08s)


training:  37%|‚ñà‚ñà‚ñà‚ñã      | 44757/120000 [33:02<53:05, 23.62it/s]  

itr: 44750 lr: 6.989e-05 train loss: 0.000000 (dt=11.07s)


training:  38%|‚ñà‚ñà‚ñà‚ñä      | 45007/120000 [33:13<52:55, 23.62it/s]  

itr: 45000 lr: 6.959e-05 train loss: 0.000000 (dt=11.07s)


training:  38%|‚ñà‚ñà‚ñà‚ñä      | 45257/120000 [33:24<52:43, 23.62it/s]  

itr: 45250 lr: 6.929e-05 train loss: 0.000000 (dt=11.07s)


training:  38%|‚ñà‚ñà‚ñà‚ñä      | 45507/120000 [33:35<52:35, 23.61it/s]  

itr: 45500 lr: 6.899e-05 train loss: 0.000000 (dt=11.07s)


training:  38%|‚ñà‚ñà‚ñà‚ñä      | 45757/120000 [33:46<52:22, 23.62it/s]  

itr: 45750 lr: 6.869e-05 train loss: 0.000000 (dt=11.07s)


training:  38%|‚ñà‚ñà‚ñà‚ñä      | 46007/120000 [33:57<52:12, 23.62it/s]  

itr: 46000 lr: 6.839e-05 train loss: 0.000000 (dt=11.07s)


training:  39%|‚ñà‚ñà‚ñà‚ñä      | 46257/120000 [34:09<52:02, 23.61it/s]  

itr: 46250 lr: 6.809e-05 train loss: 0.000000 (dt=11.07s)


training:  39%|‚ñà‚ñà‚ñà‚ñâ      | 46508/120000 [34:20<52:03, 23.53it/s]  

itr: 46500 lr: 6.778e-05 train loss: 0.000000 (dt=11.07s)


training:  39%|‚ñà‚ñà‚ñà‚ñâ      | 46757/120000 [34:31<50:11, 24.32it/s]  

itr: 46750 lr: 6.748e-05 train loss: 0.000000 (dt=11.07s)


training:  39%|‚ñà‚ñà‚ñà‚ñâ      | 47008/120000 [34:42<51:35, 23.58it/s]  

itr: 47000 lr: 6.717e-05 train loss: 0.000000 (dt=11.08s)


training:  39%|‚ñà‚ñà‚ñà‚ñâ      | 47257/120000 [34:53<49:51, 24.32it/s]  

itr: 47250 lr: 6.687e-05 train loss: 0.000000 (dt=11.07s)


training:  40%|‚ñà‚ñà‚ñà‚ñâ      | 47508/120000 [35:04<51:22, 23.52it/s]  

itr: 47500 lr: 6.656e-05 train loss: 0.000000 (dt=11.08s)


training:  40%|‚ñà‚ñà‚ñà‚ñâ      | 47757/120000 [35:15<49:32, 24.31it/s]  

itr: 47750 lr: 6.625e-05 train loss: 0.000000 (dt=11.08s)


training:  40%|‚ñà‚ñà‚ñà‚ñà      | 48007/120000 [35:26<50:47, 23.62it/s]  

itr: 48000 lr: 6.594e-05 train loss: 0.000000 (dt=11.08s)


training:  40%|‚ñà‚ñà‚ñà‚ñà      | 48257/120000 [35:37<50:38, 23.61it/s]  

itr: 48250 lr: 6.564e-05 train loss: 0.000000 (dt=11.07s)


training:  40%|‚ñà‚ñà‚ñà‚ñà      | 48507/120000 [35:48<50:27, 23.61it/s]  

itr: 48500 lr: 6.533e-05 train loss: 0.000000 (dt=11.07s)


training:  41%|‚ñà‚ñà‚ñà‚ñà      | 48757/120000 [35:59<50:18, 23.60it/s]  

itr: 48750 lr: 6.502e-05 train loss: 0.000000 (dt=11.07s)


training:  41%|‚ñà‚ñà‚ñà‚ñà      | 49007/120000 [36:10<50:05, 23.62it/s]  

itr: 49000 lr: 6.471e-05 train loss: 0.000000 (dt=11.07s)


training:  41%|‚ñà‚ñà‚ñà‚ñà      | 49258/120000 [36:21<50:02, 23.56it/s]  

itr: 49250 lr: 6.439e-05 train loss: 0.000000 (dt=11.07s)


training:  41%|‚ñà‚ñà‚ñà‚ñà‚ñè     | 49507/120000 [36:32<48:18, 24.32it/s]  

itr: 49500 lr: 6.408e-05 train loss: 0.000000 (dt=11.08s)


training:  41%|‚ñà‚ñà‚ñà‚ñà‚ñè     | 49757/120000 [36:44<49:33, 23.62it/s]  

itr: 49750 lr: 6.377e-05 train loss: 0.000000 (dt=11.08s)


training:  42%|‚ñà‚ñà‚ñà‚ñà‚ñè     | 50007/120000 [36:55<49:24, 23.61it/s]  

itr: 50000 lr: 6.346e-05 train loss: 0.000000 (dt=11.07s)


training:  42%|‚ñà‚ñà‚ñà‚ñà‚ñè     | 50257/120000 [37:06<49:13, 23.62it/s]  

itr: 50250 lr: 6.314e-05 train loss: 0.000000 (dt=11.07s)


training:  42%|‚ñà‚ñà‚ñà‚ñà‚ñè     | 50507/120000 [37:17<49:02, 23.62it/s]  

itr: 50500 lr: 6.283e-05 train loss: 0.000000 (dt=11.07s)


training:  42%|‚ñà‚ñà‚ñà‚ñà‚ñè     | 50757/120000 [37:28<48:51, 23.62it/s]  

itr: 50750 lr: 6.252e-05 train loss: 0.000000 (dt=11.07s)


training:  43%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 51008/120000 [37:39<48:44, 23.59it/s]  

itr: 51000 lr: 6.220e-05 train loss: 0.000000 (dt=11.07s)


training:  43%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 51257/120000 [37:50<47:10, 24.29it/s]  

itr: 51250 lr: 6.189e-05 train loss: 0.000000 (dt=11.07s)


training:  43%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 51508/120000 [38:01<48:29, 23.54it/s]

itr: 51500 lr: 6.157e-05 train loss: 0.000000 (dt=11.08s)


training:  43%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 51757/120000 [38:12<46:46, 24.32it/s]  

itr: 51750 lr: 6.125e-05 train loss: 0.000000 (dt=11.07s)


training:  43%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 52007/120000 [38:23<47:59, 23.61it/s]

itr: 52000 lr: 6.094e-05 train loss: 0.000000 (dt=11.08s)


training:  44%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 52257/120000 [38:34<47:49, 23.61it/s]

itr: 52250 lr: 6.062e-05 train loss: 0.000000 (dt=11.07s)


training:  44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 52508/120000 [38:45<47:47, 23.54it/s]

itr: 52500 lr: 6.030e-05 train loss: 0.000000 (dt=11.07s)


training:  44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 52757/120000 [38:56<46:05, 24.32it/s]  

itr: 52750 lr: 5.998e-05 train loss: 0.000000 (dt=11.07s)


training:  44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 53007/120000 [39:08<47:16, 23.62it/s]

itr: 53000 lr: 5.966e-05 train loss: 0.000000 (dt=11.08s)


training:  44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 53257/120000 [39:19<47:05, 23.62it/s]

itr: 53250 lr: 5.934e-05 train loss: 0.000000 (dt=11.07s)


training:  45%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 53507/120000 [39:30<46:55, 23.62it/s]

itr: 53500 lr: 5.902e-05 train loss: 0.000000 (dt=11.07s)


training:  45%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 53757/120000 [39:41<46:46, 23.60it/s]

itr: 53750 lr: 5.870e-05 train loss: 0.000000 (dt=11.07s)


training:  45%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 54007/120000 [39:52<46:34, 23.62it/s]

itr: 54000 lr: 5.838e-05 train loss: 0.000000 (dt=11.07s)


training:  45%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 54258/120000 [40:03<46:34, 23.53it/s]

itr: 54250 lr: 5.806e-05 train loss: 0.000000 (dt=11.07s)


training:  45%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 54507/120000 [40:14<44:54, 24.31it/s]  

itr: 54500 lr: 5.774e-05 train loss: 0.000000 (dt=11.08s)


training:  46%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 54757/120000 [40:25<46:03, 23.61it/s]

itr: 54750 lr: 5.742e-05 train loss: 0.000000 (dt=11.08s)


training:  46%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 55007/120000 [40:36<45:52, 23.61it/s]

itr: 55000 lr: 5.710e-05 train loss: 0.000000 (dt=11.07s)


training:  46%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 55257/120000 [40:47<45:42, 23.61it/s]

itr: 55250 lr: 5.678e-05 train loss: 0.000000 (dt=11.07s)


training:  46%|‚ñà‚ñà‚ñà‚ñà‚ñã     | 55508/120000 [40:58<45:40, 23.53it/s]

itr: 55500 lr: 5.646e-05 train loss: 0.000000 (dt=11.07s)


training:  46%|‚ñà‚ñà‚ñà‚ñà‚ñã     | 55757/120000 [41:09<44:03, 24.30it/s]  

itr: 55750 lr: 5.613e-05 train loss: 0.000000 (dt=11.07s)


training:  47%|‚ñà‚ñà‚ñà‚ñà‚ñã     | 56008/120000 [41:20<45:18, 23.54it/s]

itr: 56000 lr: 5.581e-05 train loss: 0.000000 (dt=11.08s)


training:  47%|‚ñà‚ñà‚ñà‚ñà‚ñã     | 56257/120000 [41:32<43:41, 24.31it/s]  

itr: 56250 lr: 5.549e-05 train loss: 0.000000 (dt=11.07s)


training:  47%|‚ñà‚ñà‚ñà‚ñà‚ñã     | 56507/120000 [41:43<44:47, 23.62it/s]

itr: 56500 lr: 5.517e-05 train loss: 0.000000 (dt=11.08s)


training:  47%|‚ñà‚ñà‚ñà‚ñà‚ñã     | 56757/120000 [41:54<44:37, 23.62it/s]

itr: 56750 lr: 5.484e-05 train loss: 0.000000 (dt=11.07s)


training:  48%|‚ñà‚ñà‚ñà‚ñà‚ñä     | 57008/120000 [42:05<44:36, 23.54it/s]

itr: 57000 lr: 5.452e-05 train loss: 0.000000 (dt=11.07s)


training:  48%|‚ñà‚ñà‚ñà‚ñà‚ñä     | 57257/120000 [42:16<43:00, 24.32it/s]  

itr: 57250 lr: 5.420e-05 train loss: 0.000000 (dt=11.07s)


training:  48%|‚ñà‚ñà‚ñà‚ñà‚ñä     | 57507/120000 [42:27<44:07, 23.60it/s]

itr: 57500 lr: 5.387e-05 train loss: 0.000000 (dt=11.08s)


training:  48%|‚ñà‚ñà‚ñà‚ñà‚ñä     | 57758/120000 [42:38<44:06, 23.52it/s]

itr: 57750 lr: 5.355e-05 train loss: 0.000000 (dt=11.07s)


training:  48%|‚ñà‚ñà‚ñà‚ñà‚ñä     | 58007/120000 [42:49<42:28, 24.32it/s]  

itr: 58000 lr: 5.322e-05 train loss: 0.000000 (dt=11.07s)


training:  49%|‚ñà‚ñà‚ñà‚ñà‚ñä     | 58258/120000 [43:00<43:43, 23.53it/s]

itr: 58250 lr: 5.290e-05 train loss: 0.000000 (dt=11.08s)


training:  49%|‚ñà‚ñà‚ñà‚ñà‚ñâ     | 58507/120000 [43:11<42:09, 24.31it/s]  

itr: 58500 lr: 5.258e-05 train loss: 0.000000 (dt=11.07s)


training:  49%|‚ñà‚ñà‚ñà‚ñà‚ñâ     | 58757/120000 [43:22<43:14, 23.61it/s]

itr: 58750 lr: 5.225e-05 train loss: 0.000000 (dt=11.08s)


training:  49%|‚ñà‚ñà‚ñà‚ñà‚ñâ     | 59008/120000 [43:33<43:11, 23.53it/s]

itr: 59000 lr: 5.193e-05 train loss: 0.000000 (dt=11.07s)


training:  49%|‚ñà‚ñà‚ñà‚ñà‚ñâ     | 59257/120000 [43:44<41:36, 24.33it/s]  

itr: 59250 lr: 5.160e-05 train loss: 0.000000 (dt=11.07s)


training:  50%|‚ñà‚ñà‚ñà‚ñà‚ñâ     | 59508/120000 [43:56<42:50, 23.53it/s]

itr: 59500 lr: 5.128e-05 train loss: 0.000000 (dt=11.08s)


training:  50%|‚ñà‚ñà‚ñà‚ñà‚ñâ     | 59757/120000 [44:07<41:16, 24.33it/s]

itr: 59750 lr: 5.095e-05 train loss: 0.000000 (dt=11.07s)


training:  50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 60008/120000 [44:18<43:19, 23.07it/s]

itr: 60000 lr: 5.063e-05 train loss: 0.000000 (dt=11.08s)
saved checkpoint: ./saved_models_grid_bs8192_20260103_075004/Checkpoint_N64_L3_dup0_iters60001.pt


training:  50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 60257/120000 [44:29<40:56, 24.32it/s]

itr: 60250 lr: 5.031e-05 train loss: 0.000000 (dt=11.09s)


training:  50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 60507/120000 [44:40<41:58, 23.62it/s]

itr: 60500 lr: 4.998e-05 train loss: 0.000000 (dt=11.08s)


training:  51%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 60757/120000 [44:51<41:48, 23.62it/s]

itr: 60750 lr: 4.966e-05 train loss: 0.000000 (dt=11.07s)


training:  51%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 61007/120000 [45:02<41:37, 23.62it/s]

itr: 61000 lr: 4.933e-05 train loss: 0.000000 (dt=11.07s)


training:  51%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 61258/120000 [45:13<41:36, 23.53it/s]

itr: 61250 lr: 4.901e-05 train loss: 0.000000 (dt=11.07s)


training:  51%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 61507/120000 [45:24<40:04, 24.32it/s]

itr: 61500 lr: 4.868e-05 train loss: 0.000000 (dt=11.07s)


training:  51%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 61758/120000 [45:35<41:15, 23.53it/s]

itr: 61750 lr: 4.836e-05 train loss: 0.000000 (dt=11.08s)


training:  52%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 62007/120000 [45:46<39:45, 24.31it/s]

itr: 62000 lr: 4.803e-05 train loss: 0.000000 (dt=11.07s)


training:  52%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 62257/120000 [45:57<40:44, 23.62it/s]

itr: 62250 lr: 4.771e-05 train loss: 0.000000 (dt=11.08s)


training:  52%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 62508/120000 [46:08<40:39, 23.56it/s]

itr: 62500 lr: 4.739e-05 train loss: 0.000000 (dt=11.07s)


training:  52%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 62757/120000 [46:19<39:14, 24.31it/s]

itr: 62750 lr: 4.706e-05 train loss: 0.000000 (dt=11.07s)


training:  53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 63007/120000 [46:31<40:12, 23.62it/s]

itr: 63000 lr: 4.674e-05 train loss: 0.000000 (dt=11.08s)


training:  53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 63258/120000 [46:42<40:18, 23.46it/s]

itr: 63250 lr: 4.642e-05 train loss: 0.000000 (dt=11.08s)


training:  53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 63507/120000 [46:53<38:42, 24.33it/s]

itr: 63500 lr: 4.609e-05 train loss: 0.000000 (dt=11.08s)


training:  53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 63757/120000 [47:04<39:42, 23.61it/s]

itr: 63750 lr: 4.577e-05 train loss: 0.000000 (dt=11.08s)


training:  53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 64008/120000 [47:15<39:39, 23.53it/s]

itr: 64000 lr: 4.545e-05 train loss: 0.000000 (dt=11.07s)


training:  54%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 64257/120000 [47:26<38:12, 24.32it/s]

itr: 64250 lr: 4.512e-05 train loss: 0.000000 (dt=11.07s)


training:  54%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç    | 64508/120000 [47:37<39:18, 23.53it/s]

itr: 64500 lr: 4.480e-05 train loss: 0.000000 (dt=11.08s)


training:  54%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç    | 64757/120000 [47:48<37:51, 24.32it/s]

itr: 64750 lr: 4.448e-05 train loss: 0.000000 (dt=11.07s)


training:  54%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç    | 65007/120000 [47:59<38:48, 23.61it/s]

itr: 65000 lr: 4.416e-05 train loss: 0.000000 (dt=11.08s)


training:  54%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç    | 65257/120000 [48:10<38:38, 23.61it/s]

itr: 65250 lr: 4.384e-05 train loss: 0.000000 (dt=11.07s)


training:  55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç    | 65508/120000 [48:21<38:35, 23.54it/s]

itr: 65500 lr: 4.351e-05 train loss: 0.000000 (dt=11.07s)


training:  55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç    | 65757/120000 [48:32<37:09, 24.33it/s]

itr: 65750 lr: 4.319e-05 train loss: 0.000000 (dt=11.07s)


training:  55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 66007/120000 [48:43<38:06, 23.62it/s]

itr: 66000 lr: 4.287e-05 train loss: 0.000000 (dt=11.08s)


training:  55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 66257/120000 [48:55<37:56, 23.61it/s]

itr: 66250 lr: 4.255e-05 train loss: 0.000000 (dt=11.07s)


training:  55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 66507/120000 [49:06<37:44, 23.62it/s]

itr: 66500 lr: 4.223e-05 train loss: 0.000000 (dt=11.08s)


training:  56%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 66757/120000 [49:17<37:35, 23.61it/s]

itr: 66750 lr: 4.191e-05 train loss: 0.000000 (dt=11.08s)


training:  56%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 67007/120000 [49:28<37:23, 23.62it/s]

itr: 67000 lr: 4.159e-05 train loss: 0.000000 (dt=11.07s)


training:  56%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 67257/120000 [49:39<37:13, 23.62it/s]

itr: 67250 lr: 4.127e-05 train loss: 0.000000 (dt=11.07s)


training:  56%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã    | 67508/120000 [49:50<37:11, 23.52it/s]

itr: 67500 lr: 4.095e-05 train loss: 0.000000 (dt=11.07s)


training:  56%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã    | 67757/120000 [50:01<35:48, 24.31it/s]

itr: 67750 lr: 4.064e-05 train loss: 0.000000 (dt=11.08s)


training:  57%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã    | 68008/120000 [50:12<36:50, 23.52it/s]

itr: 68000 lr: 4.032e-05 train loss: 0.000000 (dt=11.08s)


training:  57%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã    | 68257/120000 [50:23<35:30, 24.29it/s]

itr: 68250 lr: 4.000e-05 train loss: 0.000000 (dt=11.08s)


training:  57%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã    | 68508/120000 [50:34<36:26, 23.54it/s]

itr: 68500 lr: 3.968e-05 train loss: 0.000000 (dt=11.08s)


training:  57%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã    | 68757/120000 [50:45<35:08, 24.31it/s]

itr: 68750 lr: 3.937e-05 train loss: 0.000000 (dt=11.07s)


training:  58%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä    | 69008/120000 [50:56<36:05, 23.55it/s]

itr: 69000 lr: 3.905e-05 train loss: 0.000000 (dt=11.08s)


training:  58%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä    | 69257/120000 [51:07<34:45, 24.33it/s]

itr: 69250 lr: 3.874e-05 train loss: 0.000000 (dt=11.07s)


training:  58%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä    | 69507/120000 [51:18<35:37, 23.62it/s]

itr: 69500 lr: 3.842e-05 train loss: 0.000000 (dt=11.08s)


training:  58%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä    | 69758/120000 [51:30<35:31, 23.57it/s]

itr: 69750 lr: 3.811e-05 train loss: 0.000000 (dt=11.08s)


training:  58%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä    | 70007/120000 [51:41<34:14, 24.33it/s]

itr: 70000 lr: 3.779e-05 train loss: 0.000000 (dt=11.07s)


training:  59%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä    | 70257/120000 [51:52<35:06, 23.61it/s]

itr: 70250 lr: 3.748e-05 train loss: 0.000000 (dt=11.08s)


training:  59%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ    | 70508/120000 [52:03<35:02, 23.54it/s]

itr: 70500 lr: 3.717e-05 train loss: 0.000000 (dt=11.08s)


training:  59%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ    | 70757/120000 [52:14<33:44, 24.32it/s]

itr: 70750 lr: 3.685e-05 train loss: 0.000000 (dt=11.08s)


training:  59%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ    | 71007/120000 [52:25<34:35, 23.61it/s]

itr: 71000 lr: 3.654e-05 train loss: 0.000000 (dt=11.08s)


training:  59%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ    | 71257/120000 [52:36<34:25, 23.60it/s]

itr: 71250 lr: 3.623e-05 train loss: 0.000000 (dt=11.08s)


training:  60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ    | 71507/120000 [52:47<34:13, 23.62it/s]

itr: 71500 lr: 3.592e-05 train loss: 0.000000 (dt=11.08s)


training:  60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ    | 71758/120000 [52:58<34:10, 23.53it/s]

itr: 71750 lr: 3.561e-05 train loss: 0.000000 (dt=11.08s)


training:  60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 72007/120000 [53:09<32:53, 24.32it/s]

itr: 72000 lr: 3.530e-05 train loss: 0.000000 (dt=11.07s)


training:  60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 72258/120000 [53:20<33:47, 23.55it/s]

itr: 72250 lr: 3.499e-05 train loss: 0.000000 (dt=11.08s)


training:  60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 72507/120000 [53:31<32:33, 24.31it/s]

itr: 72500 lr: 3.469e-05 train loss: 0.000000 (dt=11.08s)


training:  61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 72757/120000 [53:42<33:20, 23.61it/s]

itr: 72750 lr: 3.438e-05 train loss: 0.000000 (dt=11.08s)


training:  61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 73008/120000 [53:54<33:17, 23.53it/s]

itr: 73000 lr: 3.407e-05 train loss: 0.000000 (dt=11.07s)


training:  61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 73257/120000 [54:05<32:02, 24.32it/s]

itr: 73250 lr: 3.377e-05 train loss: 0.000000 (dt=11.08s)


training:  61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 73507/120000 [54:16<32:48, 23.62it/s]

itr: 73500 lr: 3.346e-05 train loss: 0.000000 (dt=11.08s)


training:  61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 73757/120000 [54:27<32:38, 23.61it/s]

itr: 73750 lr: 3.316e-05 train loss: 0.000000 (dt=11.08s)


training:  62%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 74007/120000 [54:38<32:27, 23.61it/s]

itr: 74000 lr: 3.285e-05 train loss: 0.000000 (dt=11.08s)


training:  62%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 74257/120000 [54:49<32:17, 23.60it/s]

itr: 74250 lr: 3.255e-05 train loss: 0.000000 (dt=11.08s)


training:  62%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 74507/120000 [55:00<32:06, 23.62it/s]

itr: 74500 lr: 3.225e-05 train loss: 0.000000 (dt=11.08s)


training:  62%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 74757/120000 [55:11<31:55, 23.62it/s]

itr: 74750 lr: 3.195e-05 train loss: 0.000000 (dt=11.08s)


training:  63%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé   | 75007/120000 [55:22<31:45, 23.61it/s]

itr: 75000 lr: 3.165e-05 train loss: 0.000000 (dt=11.07s)


training:  63%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé   | 75258/120000 [55:33<31:41, 23.53it/s]

itr: 75250 lr: 3.135e-05 train loss: 0.000000 (dt=11.08s)


training:  63%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé   | 75507/120000 [55:44<30:30, 24.31it/s]

itr: 75500 lr: 3.105e-05 train loss: 0.000000 (dt=11.08s)


training:  63%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé   | 75757/120000 [55:55<31:13, 23.62it/s]

itr: 75750 lr: 3.075e-05 train loss: 0.000000 (dt=11.08s)


training:  63%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé   | 76008/120000 [56:07<31:08, 23.54it/s]

itr: 76000 lr: 3.045e-05 train loss: 0.000000 (dt=11.07s)


training:  64%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé   | 76257/120000 [56:18<29:58, 24.32it/s]

itr: 76250 lr: 3.016e-05 train loss: 0.000000 (dt=11.08s)


training:  64%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç   | 76507/120000 [56:29<30:41, 23.62it/s]

itr: 76500 lr: 2.986e-05 train loss: 0.000000 (dt=11.08s)


training:  64%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç   | 76757/120000 [56:40<30:31, 23.61it/s]

itr: 76750 lr: 2.957e-05 train loss: 0.000000 (dt=11.08s)


training:  64%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç   | 77007/120000 [56:51<30:20, 23.61it/s]

itr: 77000 lr: 2.927e-05 train loss: 0.000000 (dt=11.07s)


training:  64%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç   | 77258/120000 [57:02<30:15, 23.54it/s]

itr: 77250 lr: 2.898e-05 train loss: 0.000000 (dt=11.08s)


training:  65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç   | 77507/120000 [57:13<29:08, 24.30it/s]

itr: 77500 lr: 2.869e-05 train loss: 0.000000 (dt=11.08s)


training:  65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç   | 77758/120000 [57:24<29:54, 23.54it/s]

itr: 77750 lr: 2.840e-05 train loss: 0.000000 (dt=11.08s)


training:  65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 78007/120000 [57:35<28:46, 24.32it/s]

itr: 78000 lr: 2.811e-05 train loss: 0.000000 (dt=11.08s)


training:  65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 78257/120000 [57:46<29:27, 23.62it/s]

itr: 78250 lr: 2.782e-05 train loss: 0.000000 (dt=11.08s)


training:  65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 78508/120000 [57:57<29:24, 23.52it/s]

itr: 78500 lr: 2.753e-05 train loss: 0.000000 (dt=11.08s)


training:  66%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 78757/120000 [58:08<28:16, 24.30it/s]

itr: 78750 lr: 2.724e-05 train loss: 0.000000 (dt=11.08s)


training:  66%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 79007/120000 [58:19<28:56, 23.61it/s]

itr: 79000 lr: 2.696e-05 train loss: 0.000000 (dt=11.08s)


training:  66%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 79258/120000 [58:30<28:52, 23.52it/s]

itr: 79250 lr: 2.667e-05 train loss: 0.000000 (dt=11.07s)


training:  66%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã   | 79507/120000 [58:42<27:44, 24.32it/s]

itr: 79500 lr: 2.639e-05 train loss: 0.000000 (dt=11.07s)


training:  66%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã   | 79757/120000 [58:53<28:23, 23.63it/s]

itr: 79750 lr: 2.611e-05 train loss: 0.000000 (dt=11.08s)


training:  67%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã   | 80008/120000 [59:04<28:53, 23.07it/s]

itr: 80000 lr: 2.582e-05 train loss: 0.000000 (dt=11.07s)
saved checkpoint: ./saved_models_grid_bs8192_20260103_075004/Checkpoint_N64_L3_dup0_iters80001.pt


training:  67%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã   | 80257/120000 [59:15<27:16, 24.29it/s]

itr: 80250 lr: 2.554e-05 train loss: 0.000000 (dt=11.09s)


training:  67%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã   | 80507/120000 [59:26<27:52, 23.61it/s]

itr: 80500 lr: 2.526e-05 train loss: 0.000000 (dt=11.08s)


training:  67%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã   | 80758/120000 [59:37<27:48, 23.53it/s]

itr: 80750 lr: 2.499e-05 train loss: 0.000000 (dt=11.08s)


training:  68%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä   | 81007/120000 [59:48<26:44, 24.31it/s]

itr: 81000 lr: 2.471e-05 train loss: 0.000000 (dt=11.08s)


training:  68%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä   | 81258/120000 [59:59<27:27, 23.51it/s]

itr: 81250 lr: 2.443e-05 train loss: 0.000000 (dt=11.08s)


training:  68%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä   | 81507/120000 [1:00:10<26:21, 24.33it/s]

itr: 81500 lr: 2.416e-05 train loss: 0.000000 (dt=11.08s)


training:  68%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä   | 81757/120000 [1:00:21<26:59, 23.61it/s]

itr: 81750 lr: 2.388e-05 train loss: 0.000000 (dt=11.08s)


training:  68%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä   | 82007/120000 [1:00:32<26:49, 23.61it/s]

itr: 82000 lr: 2.361e-05 train loss: 0.000000 (dt=11.07s)


training:  69%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä   | 82258/120000 [1:00:43<26:44, 23.53it/s]

itr: 82250 lr: 2.334e-05 train loss: 0.000000 (dt=11.08s)


training:  69%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 82507/120000 [1:00:54<25:43, 24.29it/s]

itr: 82500 lr: 2.307e-05 train loss: 0.000000 (dt=11.08s)


training:  69%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 82758/120000 [1:01:06<26:22, 23.53it/s]

itr: 82750 lr: 2.280e-05 train loss: 0.000000 (dt=11.08s)


training:  69%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 83007/120000 [1:01:17<25:22, 24.31it/s]

itr: 83000 lr: 2.253e-05 train loss: 0.000000 (dt=11.08s)


training:  69%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 83258/120000 [1:01:28<26:02, 23.52it/s]

itr: 83250 lr: 2.226e-05 train loss: 0.000000 (dt=11.08s)


training:  70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 83507/120000 [1:01:39<25:00, 24.32it/s]

itr: 83500 lr: 2.200e-05 train loss: 0.000000 (dt=11.08s)


training:  70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 83758/120000 [1:01:50<25:41, 23.52it/s]

itr: 83750 lr: 2.173e-05 train loss: 0.000000 (dt=11.08s)


training:  70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 84007/120000 [1:02:01<24:40, 24.31it/s]

itr: 84000 lr: 2.147e-05 train loss: 0.000000 (dt=11.08s)


training:  70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 84257/120000 [1:02:12<25:13, 23.62it/s]

itr: 84250 lr: 2.121e-05 train loss: 0.000000 (dt=11.08s)


training:  70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 84508/120000 [1:02:23<25:08, 23.53it/s]

itr: 84500 lr: 2.094e-05 train loss: 0.000000 (dt=11.08s)


training:  71%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 84757/120000 [1:02:34<24:09, 24.31it/s]

itr: 84750 lr: 2.068e-05 train loss: 0.000000 (dt=11.08s)


training:  71%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 85007/120000 [1:02:45<24:42, 23.61it/s]

itr: 85000 lr: 2.043e-05 train loss: 0.000000 (dt=11.08s)


training:  71%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 85257/120000 [1:02:56<24:31, 23.61it/s]

itr: 85250 lr: 2.017e-05 train loss: 0.000000 (dt=11.07s)


training:  71%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè  | 85507/120000 [1:03:07<24:20, 23.62it/s]

itr: 85500 lr: 1.991e-05 train loss: 0.000000 (dt=11.07s)


training:  71%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè  | 85757/120000 [1:03:18<24:09, 23.62it/s]

itr: 85750 lr: 1.966e-05 train loss: 0.000000 (dt=11.07s)


training:  72%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè  | 86008/120000 [1:03:30<24:04, 23.54it/s]

itr: 86000 lr: 1.941e-05 train loss: 0.000000 (dt=11.07s)


training:  72%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè  | 86257/120000 [1:03:41<23:09, 24.29it/s]

itr: 86250 lr: 1.915e-05 train loss: 0.000000 (dt=11.07s)


training:  72%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè  | 86507/120000 [1:03:52<23:38, 23.61it/s]

itr: 86500 lr: 1.890e-05 train loss: 0.000000 (dt=11.08s)


training:  72%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè  | 86757/120000 [1:04:03<23:27, 23.62it/s]

itr: 86750 lr: 1.865e-05 train loss: 0.000000 (dt=11.08s)


training:  73%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé  | 87007/120000 [1:04:14<23:17, 23.61it/s]

itr: 87000 lr: 1.841e-05 train loss: 0.000000 (dt=11.08s)


training:  73%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé  | 87258/120000 [1:04:25<23:11, 23.53it/s]

itr: 87250 lr: 1.816e-05 train loss: 0.000000 (dt=11.08s)


training:  73%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé  | 87507/120000 [1:04:36<22:16, 24.31it/s]

itr: 87500 lr: 1.792e-05 train loss: 0.000000 (dt=11.08s)


training:  73%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé  | 87758/120000 [1:04:47<22:50, 23.52it/s]

itr: 87750 lr: 1.767e-05 train loss: 0.000000 (dt=11.08s)


training:  73%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé  | 88007/120000 [1:04:58<21:56, 24.30it/s]

itr: 88000 lr: 1.743e-05 train loss: 0.000000 (dt=11.07s)


training:  74%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé  | 88258/120000 [1:05:09<22:29, 23.52it/s]

itr: 88250 lr: 1.719e-05 train loss: 0.000000 (dt=11.08s)


training:  74%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç  | 88507/120000 [1:05:20<21:35, 24.32it/s]

itr: 88500 lr: 1.695e-05 train loss: 0.000000 (dt=11.08s)


training:  74%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç  | 88757/120000 [1:05:31<22:03, 23.61it/s]

itr: 88750 lr: 1.671e-05 train loss: 0.000000 (dt=11.08s)


training:  74%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç  | 89008/120000 [1:05:42<21:57, 23.53it/s]

itr: 89000 lr: 1.648e-05 train loss: 0.000000 (dt=11.07s)


training:  74%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç  | 89257/120000 [1:05:53<21:04, 24.32it/s]

itr: 89250 lr: 1.624e-05 train loss: 0.000000 (dt=11.07s)


training:  75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç  | 89508/120000 [1:06:05<21:36, 23.52it/s]

itr: 89500 lr: 1.601e-05 train loss: 0.000000 (dt=11.08s)


training:  75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç  | 89757/120000 [1:06:16<20:44, 24.30it/s]

itr: 89750 lr: 1.577e-05 train loss: 0.000000 (dt=11.07s)


training:  75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 90007/120000 [1:06:27<21:10, 23.61it/s]

itr: 90000 lr: 1.554e-05 train loss: 0.000000 (dt=11.08s)


training:  75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 90258/120000 [1:06:38<21:01, 23.58it/s]

itr: 90250 lr: 1.532e-05 train loss: 0.000000 (dt=11.08s)


training:  75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 90507/120000 [1:06:49<20:13, 24.31it/s]

itr: 90500 lr: 1.509e-05 train loss: 0.000000 (dt=11.08s)


training:  76%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 90758/120000 [1:07:00<20:42, 23.54it/s]

itr: 90750 lr: 1.486e-05 train loss: 0.000000 (dt=11.08s)


training:  76%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 91007/120000 [1:07:11<19:52, 24.32it/s]

itr: 91000 lr: 1.464e-05 train loss: 0.000000 (dt=11.07s)


training:  76%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 91258/120000 [1:07:22<20:21, 23.52it/s]

itr: 91250 lr: 1.441e-05 train loss: 0.000000 (dt=11.08s)


training:  76%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã  | 91507/120000 [1:07:33<19:32, 24.30it/s]

itr: 91500 lr: 1.419e-05 train loss: 0.000000 (dt=11.08s)


training:  76%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã  | 91758/120000 [1:07:44<19:59, 23.54it/s]

itr: 91750 lr: 1.397e-05 train loss: 0.000000 (dt=11.08s)


training:  77%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã  | 92007/120000 [1:07:55<19:11, 24.31it/s]

itr: 92000 lr: 1.375e-05 train loss: 0.000000 (dt=11.07s)


training:  77%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã  | 92258/120000 [1:08:06<19:38, 23.53it/s]

itr: 92250 lr: 1.354e-05 train loss: 0.000000 (dt=11.08s)


training:  77%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã  | 92507/120000 [1:08:17<18:51, 24.30it/s]

itr: 92500 lr: 1.332e-05 train loss: 0.000000 (dt=11.07s)


training:  77%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã  | 92758/120000 [1:08:29<19:16, 23.56it/s]

itr: 92750 lr: 1.311e-05 train loss: 0.000000 (dt=11.08s)


training:  78%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 93007/120000 [1:08:40<18:30, 24.30it/s]

itr: 93000 lr: 1.290e-05 train loss: 0.000000 (dt=11.07s)


training:  78%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 93258/120000 [1:08:51<18:53, 23.59it/s]

itr: 93250 lr: 1.269e-05 train loss: 0.000000 (dt=11.08s)


training:  78%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 93507/120000 [1:09:02<18:10, 24.30it/s]

üü® plateau detected @ itr=93500 (slope=0.3126, Œîlog10(loss)=0.0078); will stop after logging itr=93750
itr: 93500 lr: 1.248e-05 train loss: 0.000000 (dt=11.08s)


training:  78%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 93750/120000 [1:09:13<19:22, 22.57it/s]


itr: 93750 lr: 1.227e-05 train loss: 0.000000 (dt=11.08s)
saved final model: ./saved_models_grid_bs8192_20260103_075004/Final_N64_L3_dup0_iters93751.pt


0,1
iter,‚ñÅ‚ñÅ‚ñÅ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÉ‚ñÉ‚ñÉ‚ñÉ‚ñÉ‚ñÉ‚ñÉ‚ñÑ‚ñÑ‚ñÑ‚ñÑ‚ñÖ‚ñÖ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñà‚ñà‚ñà‚ñà‚ñà
ll/iter,‚ñÅ‚ñÅ‚ñÇ‚ñÇ‚ñÉ‚ñÑ‚ñÑ‚ñÑ‚ñÑ‚ñÑ‚ñÖ‚ñÖ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñà‚ñà‚ñà‚ñà
ll/lr,‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÖ‚ñÖ‚ñÖ‚ñÖ‚ñÖ‚ñÖ‚ñÖ‚ñÖ‚ñÉ‚ñÉ‚ñÉ‚ñÉ‚ñÇ‚ñÇ‚ñÇ‚ñÅ‚ñÅ
ll/train_loss,‚ñà‚ñÖ‚ñÑ‚ñÉ‚ñÑ‚ñÉ‚ñÇ‚ñÇ‚ñÉ‚ñÇ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ
lr,‚ñÅ‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñá‚ñá‚ñá‚ñá‚ñá‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÖ‚ñÖ‚ñÖ‚ñÖ‚ñÑ‚ñÑ‚ñÑ‚ñÉ‚ñÉ‚ñÉ‚ñÉ‚ñÉ‚ñÉ‚ñÉ‚ñÉ‚ñÉ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ
plateau/delta_log10_loss_window,‚ñÉ‚ñÉ‚ñÑ‚ñÉ‚ñÇ‚ñà‚ñÑ‚ñÇ‚ñÅ‚ñÅ‚ñÇ‚ñÅ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ
plateau/hits,‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñà
plateau/loglog_slope,‚ñÇ‚ñÅ‚ñÅ‚ñÇ‚ñÉ‚ñÑ‚ñá‚ñà‚ñá‚ñá‚ñÜ‚ñÖ‚ñÑ‚ñÉ‚ñÉ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÖ‚ñÖ‚ñÖ‚ñÜ‚ñÖ‚ñÜ‚ñÜ‚ñÑ‚ñÑ‚ñÑ‚ñÉ‚ñÉ‚ñÉ‚ñÉ‚ñÜ‚ñÜ‚ñÖ‚ñÑ‚ñÑ‚ñÑ
plateau/now,‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñà‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ
plateau/reached,‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñà

0,1
iter,93751
iters_done,93751
ll/iter,4.97198
ll/lr,-4.91108
ll/train_loss,-7.41029
lr,1e-05
plateau/delta_log10_loss_window,0.0078
plateau/hits,2
plateau/loglog_slope,0.31259
plateau/now,0


using device: cuda


training:   0%|          | 8/120000 [00:00<32:51, 60.87it/s]

itr: 0 lr: 4.975e-07 train loss: 4.188834 (dt=0.04s)


training:   0%|          | 259/120000 [00:07<58:33, 34.08it/s]  

itr: 250 lr: 1.000e-04 train loss: 2.978335 (dt=7.84s)


training:   0%|          | 510/120000 [00:15<59:12, 33.63it/s]  

itr: 500 lr: 1.000e-04 train loss: 1.835906 (dt=7.83s)


training:   1%|          | 760/120000 [00:23<59:57, 33.15it/s]  

itr: 750 lr: 9.999e-05 train loss: 0.817522 (dt=7.83s)


training:   1%|          | 1010/120000 [00:31<59:51, 33.13it/s]  

itr: 1000 lr: 9.999e-05 train loss: 0.241700 (dt=7.84s)


training:   1%|          | 1260/120000 [00:39<59:43, 33.14it/s]  

itr: 1250 lr: 9.998e-05 train loss: 0.055929 (dt=7.84s)


training:   1%|‚ñè         | 1510/120000 [00:47<59:36, 33.13it/s]  

itr: 1500 lr: 9.997e-05 train loss: 0.011809 (dt=7.84s)


training:   1%|‚ñè         | 1760/120000 [00:55<59:26, 33.15it/s]  

itr: 1750 lr: 9.996e-05 train loss: 0.002649 (dt=7.84s)


training:   2%|‚ñè         | 2010/120000 [01:02<59:24, 33.10it/s]  

itr: 2000 lr: 9.994e-05 train loss: 0.000739 (dt=7.84s)


training:   2%|‚ñè         | 2260/120000 [01:10<59:14, 33.12it/s]  

itr: 2250 lr: 9.993e-05 train loss: 0.000282 (dt=7.84s)


training:   2%|‚ñè         | 2510/120000 [01:18<59:06, 33.13it/s]  

itr: 2500 lr: 9.991e-05 train loss: 0.000156 (dt=7.84s)


training:   2%|‚ñè         | 2760/120000 [01:26<58:53, 33.18it/s]  

itr: 2750 lr: 9.989e-05 train loss: 0.000087 (dt=7.84s)


training:   3%|‚ñé         | 3010/120000 [01:34<58:52, 33.12it/s]  

itr: 3000 lr: 9.987e-05 train loss: 0.000068 (dt=7.84s)


training:   3%|‚ñé         | 3260/120000 [01:42<58:39, 33.17it/s]  

itr: 3250 lr: 9.984e-05 train loss: 0.000031 (dt=7.84s)


training:   3%|‚ñé         | 3510/120000 [01:49<58:38, 33.11it/s]  

itr: 3500 lr: 9.981e-05 train loss: 0.000033 (dt=7.84s)


training:   3%|‚ñé         | 3760/120000 [01:57<58:29, 33.12it/s]  

itr: 3750 lr: 9.979e-05 train loss: 0.000055 (dt=7.84s)


training:   3%|‚ñé         | 4010/120000 [02:05<58:20, 33.14it/s]  

itr: 4000 lr: 9.975e-05 train loss: 0.000018 (dt=7.84s)


training:   4%|‚ñé         | 4260/120000 [02:13<58:11, 33.15it/s]  

itr: 4250 lr: 9.972e-05 train loss: 0.000010 (dt=7.84s)


training:   4%|‚ñç         | 4510/120000 [02:21<58:07, 33.12it/s]  

itr: 4500 lr: 9.969e-05 train loss: 0.000005 (dt=7.84s)


training:   4%|‚ñç         | 4760/120000 [02:29<57:58, 33.13it/s]  

itr: 4750 lr: 9.965e-05 train loss: 0.000006 (dt=7.84s)


training:   4%|‚ñç         | 5010/120000 [02:36<57:50, 33.13it/s]  

itr: 5000 lr: 9.961e-05 train loss: 0.000005 (dt=7.84s)


training:   4%|‚ñç         | 5260/120000 [02:44<57:44, 33.12it/s]  

itr: 5250 lr: 9.957e-05 train loss: 0.000003 (dt=7.84s)


training:   5%|‚ñç         | 5510/120000 [02:52<57:36, 33.12it/s]  

itr: 5500 lr: 9.952e-05 train loss: 0.000002 (dt=7.84s)


training:   5%|‚ñç         | 5760/120000 [03:00<57:24, 33.17it/s]  

itr: 5750 lr: 9.948e-05 train loss: 0.000002 (dt=7.84s)


training:   5%|‚ñå         | 6010/120000 [03:08<57:21, 33.12it/s]  

itr: 6000 lr: 9.943e-05 train loss: 0.000003 (dt=7.84s)


training:   5%|‚ñå         | 6260/120000 [03:16<57:12, 33.14it/s]  

itr: 6250 lr: 9.938e-05 train loss: 0.000003 (dt=7.84s)


training:   5%|‚ñå         | 6510/120000 [03:23<57:04, 33.14it/s]  

itr: 6500 lr: 9.933e-05 train loss: 0.000002 (dt=7.84s)


training:   6%|‚ñå         | 6760/120000 [03:31<57:00, 33.10it/s]  

itr: 6750 lr: 9.927e-05 train loss: 0.000001 (dt=7.84s)


training:   6%|‚ñå         | 7010/120000 [03:39<56:51, 33.12it/s]  

itr: 7000 lr: 9.922e-05 train loss: 0.000002 (dt=7.84s)


training:   6%|‚ñå         | 7260/120000 [03:47<56:43, 33.13it/s]  

itr: 7250 lr: 9.916e-05 train loss: 0.000012 (dt=7.84s)


training:   6%|‚ñã         | 7510/120000 [03:55<56:37, 33.11it/s]  

itr: 7500 lr: 9.910e-05 train loss: 0.000001 (dt=7.84s)


training:   6%|‚ñã         | 7760/120000 [04:03<56:29, 33.11it/s]  

itr: 7750 lr: 9.903e-05 train loss: 0.000001 (dt=7.84s)


training:   7%|‚ñã         | 8010/120000 [04:10<56:20, 33.13it/s]  

itr: 8000 lr: 9.897e-05 train loss: 0.000013 (dt=7.84s)


training:   7%|‚ñã         | 8260/120000 [04:18<56:14, 33.11it/s]  

itr: 8250 lr: 9.890e-05 train loss: 0.000001 (dt=7.84s)


training:   7%|‚ñã         | 8510/120000 [04:26<56:06, 33.12it/s]  

itr: 8500 lr: 9.883e-05 train loss: 0.000001 (dt=7.84s)


training:   7%|‚ñã         | 8760/120000 [04:34<55:56, 33.14it/s]  

itr: 8750 lr: 9.876e-05 train loss: 0.000001 (dt=7.84s)


training:   8%|‚ñä         | 9010/120000 [04:42<55:48, 33.15it/s]  

itr: 9000 lr: 9.869e-05 train loss: 0.000000 (dt=7.84s)


training:   8%|‚ñä         | 9260/120000 [04:50<55:41, 33.14it/s]  

itr: 9250 lr: 9.861e-05 train loss: 0.000000 (dt=7.84s)


training:   8%|‚ñä         | 9510/120000 [04:57<55:35, 33.13it/s]  

itr: 9500 lr: 9.854e-05 train loss: 0.000000 (dt=7.84s)


training:   8%|‚ñä         | 9760/120000 [05:05<55:24, 33.16it/s]  

itr: 9750 lr: 9.846e-05 train loss: 0.000000 (dt=7.84s)


training:   8%|‚ñä         | 10010/120000 [05:13<55:19, 33.14it/s]  

itr: 10000 lr: 9.837e-05 train loss: 0.000000 (dt=7.84s)


training:   9%|‚ñä         | 10260/120000 [05:21<55:12, 33.13it/s]  

itr: 10250 lr: 9.829e-05 train loss: 0.000000 (dt=7.84s)


training:   9%|‚ñâ         | 10510/120000 [05:29<55:04, 33.14it/s]  

itr: 10500 lr: 9.821e-05 train loss: 0.000000 (dt=7.84s)


training:   9%|‚ñâ         | 10760/120000 [05:37<54:58, 33.12it/s]  

itr: 10750 lr: 9.812e-05 train loss: 0.000001 (dt=7.84s)


training:   9%|‚ñâ         | 11010/120000 [05:45<54:49, 33.13it/s]  

itr: 11000 lr: 9.803e-05 train loss: 0.000021 (dt=7.84s)


training:   9%|‚ñâ         | 11260/120000 [05:52<54:40, 33.15it/s]  

itr: 11250 lr: 9.794e-05 train loss: 0.000000 (dt=7.84s)


training:  10%|‚ñâ         | 11510/120000 [06:00<54:28, 33.19it/s]  

itr: 11500 lr: 9.784e-05 train loss: 0.000000 (dt=7.84s)


training:  10%|‚ñâ         | 11760/120000 [06:08<54:26, 33.14it/s]  

itr: 11750 lr: 9.775e-05 train loss: 0.000000 (dt=7.84s)


training:  10%|‚ñà         | 12010/120000 [06:16<54:19, 33.13it/s]  

itr: 12000 lr: 9.765e-05 train loss: 0.000001 (dt=7.84s)


training:  10%|‚ñà         | 12260/120000 [06:24<54:10, 33.15it/s]  

itr: 12250 lr: 9.755e-05 train loss: 0.000000 (dt=7.84s)


training:  10%|‚ñà         | 12510/120000 [06:32<54:02, 33.15it/s]  

itr: 12500 lr: 9.745e-05 train loss: 0.000000 (dt=7.84s)


training:  11%|‚ñà         | 12760/120000 [06:39<53:54, 33.16it/s]  

itr: 12750 lr: 9.734e-05 train loss: 0.000000 (dt=7.84s)


training:  11%|‚ñà         | 13010/120000 [06:47<53:49, 33.13it/s]  

itr: 13000 lr: 9.724e-05 train loss: 0.000000 (dt=7.84s)


training:  11%|‚ñà         | 13260/120000 [06:55<53:42, 33.12it/s]  

itr: 13250 lr: 9.713e-05 train loss: 0.000000 (dt=7.84s)


training:  11%|‚ñà‚ñè        | 13510/120000 [07:03<53:34, 33.13it/s]  

itr: 13500 lr: 9.702e-05 train loss: 0.000001 (dt=7.84s)


training:  11%|‚ñà‚ñè        | 13760/120000 [07:11<53:26, 33.13it/s]  

itr: 13750 lr: 9.691e-05 train loss: 0.000000 (dt=7.84s)


training:  12%|‚ñà‚ñè        | 14010/120000 [07:19<53:21, 33.11it/s]  

itr: 14000 lr: 9.679e-05 train loss: 0.000000 (dt=7.84s)


training:  12%|‚ñà‚ñè        | 14260/120000 [07:26<53:11, 33.13it/s]  

itr: 14250 lr: 9.668e-05 train loss: 0.000000 (dt=7.84s)


training:  12%|‚ñà‚ñè        | 14510/120000 [07:34<53:03, 33.14it/s]  

itr: 14500 lr: 9.656e-05 train loss: 0.000000 (dt=7.84s)


training:  12%|‚ñà‚ñè        | 14760/120000 [07:42<52:56, 33.13it/s]  

itr: 14750 lr: 9.644e-05 train loss: 0.000000 (dt=7.84s)


training:  13%|‚ñà‚ñé        | 15010/120000 [07:50<52:49, 33.12it/s]  

itr: 15000 lr: 9.632e-05 train loss: 0.000000 (dt=7.84s)


training:  13%|‚ñà‚ñé        | 15260/120000 [07:58<52:41, 33.13it/s]  

itr: 15250 lr: 9.619e-05 train loss: 0.000000 (dt=7.84s)


training:  13%|‚ñà‚ñé        | 15510/120000 [08:06<52:34, 33.12it/s]  

itr: 15500 lr: 9.607e-05 train loss: 0.000000 (dt=7.84s)


training:  13%|‚ñà‚ñé        | 15760/120000 [08:13<52:21, 33.18it/s]  

itr: 15750 lr: 9.594e-05 train loss: 0.000000 (dt=7.84s)


training:  13%|‚ñà‚ñé        | 16010/120000 [08:21<52:20, 33.12it/s]  

itr: 16000 lr: 9.581e-05 train loss: 0.000000 (dt=7.84s)


training:  14%|‚ñà‚ñé        | 16260/120000 [08:29<52:09, 33.15it/s]  

itr: 16250 lr: 9.568e-05 train loss: 0.000000 (dt=7.84s)


training:  14%|‚ñà‚ñç        | 16510/120000 [08:37<52:04, 33.12it/s]  

itr: 16500 lr: 9.555e-05 train loss: 0.000000 (dt=7.84s)


training:  14%|‚ñà‚ñç        | 16760/120000 [08:45<51:56, 33.13it/s]  

itr: 16750 lr: 9.541e-05 train loss: 0.000000 (dt=7.84s)


training:  14%|‚ñà‚ñç        | 17010/120000 [08:53<51:41, 33.20it/s]  

itr: 17000 lr: 9.527e-05 train loss: 0.000003 (dt=7.84s)


training:  14%|‚ñà‚ñç        | 17260/120000 [09:00<51:43, 33.11it/s]  

itr: 17250 lr: 9.513e-05 train loss: 0.000000 (dt=7.84s)


training:  15%|‚ñà‚ñç        | 17510/120000 [09:08<51:32, 33.14it/s]  

itr: 17500 lr: 9.499e-05 train loss: 0.000000 (dt=7.84s)


training:  15%|‚ñà‚ñç        | 17760/120000 [09:16<51:25, 33.13it/s]  

itr: 17750 lr: 9.485e-05 train loss: 0.000000 (dt=7.84s)


training:  15%|‚ñà‚ñå        | 18010/120000 [09:24<51:17, 33.14it/s]  

itr: 18000 lr: 9.470e-05 train loss: 0.000000 (dt=7.84s)


training:  15%|‚ñà‚ñå        | 18260/120000 [09:32<51:09, 33.14it/s]  

itr: 18250 lr: 9.456e-05 train loss: 0.000000 (dt=7.84s)


training:  15%|‚ñà‚ñå        | 18510/120000 [09:40<51:04, 33.12it/s]  

itr: 18500 lr: 9.441e-05 train loss: 0.000000 (dt=7.84s)


training:  16%|‚ñà‚ñå        | 18760/120000 [09:47<50:52, 33.17it/s]  

itr: 18750 lr: 9.426e-05 train loss: 0.000000 (dt=7.84s)


training:  16%|‚ñà‚ñå        | 19010/120000 [09:55<50:51, 33.10it/s]  

itr: 19000 lr: 9.411e-05 train loss: 0.000000 (dt=7.84s)


training:  16%|‚ñà‚ñå        | 19260/120000 [10:03<50:40, 33.14it/s]  

itr: 19250 lr: 9.395e-05 train loss: 0.000000 (dt=7.84s)


training:  16%|‚ñà‚ñã        | 19510/120000 [10:11<50:31, 33.15it/s]  

itr: 19500 lr: 9.379e-05 train loss: 0.000002 (dt=7.84s)


training:  16%|‚ñà‚ñã        | 19760/120000 [10:19<50:23, 33.15it/s]  

itr: 19750 lr: 9.364e-05 train loss: 0.000001 (dt=7.84s)


training:  17%|‚ñà‚ñã        | 20010/120000 [10:27<51:11, 32.56it/s]  

itr: 20000 lr: 9.348e-05 train loss: 0.000000 (dt=7.84s)
saved checkpoint: ./saved_models_grid_bs8192_20260103_075004/Checkpoint_N64_L2_dup0_iters20001.pt


training:  17%|‚ñà‚ñã        | 20260/120000 [10:34<50:08, 33.16it/s]  

itr: 20250 lr: 9.331e-05 train loss: 0.000000 (dt=7.85s)


training:  17%|‚ñà‚ñã        | 20510/120000 [10:42<50:01, 33.15it/s]  

itr: 20500 lr: 9.315e-05 train loss: 0.000000 (dt=7.84s)


training:  17%|‚ñà‚ñã        | 20760/120000 [10:50<49:57, 33.11it/s]  

itr: 20750 lr: 9.298e-05 train loss: 0.000000 (dt=7.84s)


training:  18%|‚ñà‚ñä        | 21010/120000 [10:58<49:47, 33.14it/s]  

itr: 21000 lr: 9.282e-05 train loss: 0.000000 (dt=7.84s)


training:  18%|‚ñà‚ñä        | 21260/120000 [11:06<49:40, 33.13it/s]

itr: 21250 lr: 9.265e-05 train loss: 0.000000 (dt=7.84s)


training:  18%|‚ñà‚ñä        | 21510/120000 [11:14<49:34, 33.11it/s]

itr: 21500 lr: 9.248e-05 train loss: 0.000000 (dt=7.84s)


training:  18%|‚ñà‚ñä        | 21760/120000 [11:22<49:28, 33.10it/s]

itr: 21750 lr: 9.230e-05 train loss: 0.000001 (dt=7.84s)


training:  18%|‚ñà‚ñä        | 22010/120000 [11:29<49:17, 33.13it/s]

itr: 22000 lr: 9.213e-05 train loss: 0.000006 (dt=7.84s)


training:  19%|‚ñà‚ñä        | 22260/120000 [11:37<49:10, 33.13it/s]

itr: 22250 lr: 9.195e-05 train loss: 0.000000 (dt=7.84s)


training:  19%|‚ñà‚ñâ        | 22510/120000 [11:45<49:03, 33.12it/s]

itr: 22500 lr: 9.177e-05 train loss: 0.000000 (dt=7.84s)


training:  19%|‚ñà‚ñâ        | 22760/120000 [11:53<48:55, 33.12it/s]

itr: 22750 lr: 9.159e-05 train loss: 0.000000 (dt=7.84s)


training:  19%|‚ñà‚ñâ        | 23010/120000 [12:01<48:47, 33.13it/s]

itr: 23000 lr: 9.141e-05 train loss: 0.000000 (dt=7.84s)


training:  19%|‚ñà‚ñâ        | 23260/120000 [12:09<48:40, 33.13it/s]

itr: 23250 lr: 9.123e-05 train loss: 0.000000 (dt=7.84s)


training:  20%|‚ñà‚ñâ        | 23510/120000 [12:16<48:31, 33.14it/s]

itr: 23500 lr: 9.104e-05 train loss: 0.000000 (dt=7.84s)


training:  20%|‚ñà‚ñâ        | 23760/120000 [12:24<48:25, 33.13it/s]

itr: 23750 lr: 9.086e-05 train loss: 0.000000 (dt=7.84s)


training:  20%|‚ñà‚ñà        | 24010/120000 [12:32<48:17, 33.13it/s]

itr: 24000 lr: 9.067e-05 train loss: 0.000000 (dt=7.84s)


training:  20%|‚ñà‚ñà        | 24260/120000 [12:40<48:08, 33.15it/s]

itr: 24250 lr: 9.048e-05 train loss: 0.000000 (dt=7.84s)


training:  20%|‚ñà‚ñà        | 24510/120000 [12:48<48:00, 33.15it/s]

itr: 24500 lr: 9.029e-05 train loss: 0.000000 (dt=7.84s)


training:  21%|‚ñà‚ñà        | 24760/120000 [12:56<47:54, 33.13it/s]

itr: 24750 lr: 9.009e-05 train loss: 0.000000 (dt=7.84s)


training:  21%|‚ñà‚ñà        | 25010/120000 [13:03<47:41, 33.19it/s]

itr: 25000 lr: 8.990e-05 train loss: 0.000000 (dt=7.84s)


training:  21%|‚ñà‚ñà        | 25260/120000 [13:11<47:41, 33.10it/s]

itr: 25250 lr: 8.970e-05 train loss: 0.000000 (dt=7.84s)


training:  21%|‚ñà‚ñà‚ñè       | 25510/120000 [13:19<47:30, 33.15it/s]

itr: 25500 lr: 8.950e-05 train loss: 0.000000 (dt=7.84s)


training:  21%|‚ñà‚ñà‚ñè       | 25760/120000 [13:27<47:25, 33.11it/s]

itr: 25750 lr: 8.930e-05 train loss: 0.000000 (dt=7.84s)


training:  22%|‚ñà‚ñà‚ñè       | 26010/120000 [13:35<47:18, 33.12it/s]

itr: 26000 lr: 8.910e-05 train loss: 0.000000 (dt=7.84s)


training:  22%|‚ñà‚ñà‚ñè       | 26260/120000 [13:43<47:10, 33.12it/s]

itr: 26250 lr: 8.889e-05 train loss: 0.000000 (dt=7.84s)


training:  22%|‚ñà‚ñà‚ñè       | 26510/120000 [13:50<47:01, 33.14it/s]

itr: 26500 lr: 8.869e-05 train loss: 0.000000 (dt=7.84s)


training:  22%|‚ñà‚ñà‚ñè       | 26760/120000 [13:58<46:54, 33.12it/s]

itr: 26750 lr: 8.848e-05 train loss: 0.000000 (dt=7.84s)


training:  23%|‚ñà‚ñà‚ñé       | 27010/120000 [14:06<46:47, 33.13it/s]

itr: 27000 lr: 8.827e-05 train loss: 0.000000 (dt=7.84s)


training:  23%|‚ñà‚ñà‚ñé       | 27260/120000 [14:14<46:38, 33.13it/s]

itr: 27250 lr: 8.806e-05 train loss: 0.000000 (dt=7.84s)


training:  23%|‚ñà‚ñà‚ñé       | 27510/120000 [14:22<46:32, 33.12it/s]

itr: 27500 lr: 8.785e-05 train loss: 0.000000 (dt=7.84s)


training:  23%|‚ñà‚ñà‚ñé       | 27760/120000 [14:30<46:23, 33.13it/s]

itr: 27750 lr: 8.763e-05 train loss: 0.000000 (dt=7.84s)


training:  23%|‚ñà‚ñà‚ñé       | 28010/120000 [14:37<46:17, 33.12it/s]

itr: 28000 lr: 8.742e-05 train loss: 0.000000 (dt=7.84s)


training:  24%|‚ñà‚ñà‚ñé       | 28260/120000 [14:45<46:09, 33.13it/s]

itr: 28250 lr: 8.720e-05 train loss: 0.000000 (dt=7.84s)


training:  24%|‚ñà‚ñà‚ñç       | 28510/120000 [14:53<46:00, 33.15it/s]

itr: 28500 lr: 8.698e-05 train loss: 0.000000 (dt=7.84s)


training:  24%|‚ñà‚ñà‚ñç       | 28760/120000 [15:01<45:57, 33.09it/s]

itr: 28750 lr: 8.676e-05 train loss: 0.000000 (dt=7.84s)


training:  24%|‚ñà‚ñà‚ñç       | 29010/120000 [15:09<45:45, 33.14it/s]

itr: 29000 lr: 8.654e-05 train loss: 0.000000 (dt=7.84s)


training:  24%|‚ñà‚ñà‚ñç       | 29260/120000 [15:17<45:40, 33.11it/s]

itr: 29250 lr: 8.632e-05 train loss: 0.000000 (dt=7.84s)


training:  25%|‚ñà‚ñà‚ñç       | 29510/120000 [15:24<45:30, 33.14it/s]

itr: 29500 lr: 8.609e-05 train loss: 0.000000 (dt=7.84s)


training:  25%|‚ñà‚ñà‚ñç       | 29760/120000 [15:32<45:24, 33.12it/s]

itr: 29750 lr: 8.587e-05 train loss: 0.000000 (dt=7.84s)


training:  25%|‚ñà‚ñà‚ñå       | 30010/120000 [15:40<45:17, 33.12it/s]

itr: 30000 lr: 8.564e-05 train loss: 0.000000 (dt=7.84s)


training:  25%|‚ñà‚ñà‚ñå       | 30260/120000 [15:48<45:09, 33.12it/s]

itr: 30250 lr: 8.541e-05 train loss: 0.000000 (dt=7.84s)


training:  25%|‚ñà‚ñà‚ñå       | 30510/120000 [15:56<45:01, 33.13it/s]

itr: 30500 lr: 8.518e-05 train loss: 0.000000 (dt=7.84s)


training:  26%|‚ñà‚ñà‚ñå       | 30760/120000 [16:04<44:56, 33.10it/s]

itr: 30750 lr: 8.495e-05 train loss: 0.000000 (dt=7.84s)


training:  26%|‚ñà‚ñà‚ñå       | 31010/120000 [16:11<44:44, 33.14it/s]

itr: 31000 lr: 8.471e-05 train loss: 0.000000 (dt=7.84s)


training:  26%|‚ñà‚ñà‚ñå       | 31260/120000 [16:19<44:37, 33.15it/s]

itr: 31250 lr: 8.448e-05 train loss: 0.000000 (dt=7.84s)


training:  26%|‚ñà‚ñà‚ñã       | 31510/120000 [16:27<44:31, 33.13it/s]

itr: 31500 lr: 8.424e-05 train loss: 0.000000 (dt=7.84s)


training:  26%|‚ñà‚ñà‚ñã       | 31760/120000 [16:35<44:23, 33.13it/s]

itr: 31750 lr: 8.400e-05 train loss: 0.000000 (dt=7.84s)


training:  27%|‚ñà‚ñà‚ñã       | 32010/120000 [16:43<44:15, 33.14it/s]

itr: 32000 lr: 8.376e-05 train loss: 0.000000 (dt=7.84s)


training:  27%|‚ñà‚ñà‚ñã       | 32260/120000 [16:51<44:06, 33.15it/s]

itr: 32250 lr: 8.352e-05 train loss: 0.000000 (dt=7.84s)


training:  27%|‚ñà‚ñà‚ñã       | 32510/120000 [16:59<44:01, 33.12it/s]

itr: 32500 lr: 8.328e-05 train loss: 0.000000 (dt=7.84s)


training:  27%|‚ñà‚ñà‚ñã       | 32760/120000 [17:06<43:52, 33.13it/s]

itr: 32750 lr: 8.304e-05 train loss: 0.000000 (dt=7.84s)


training:  28%|‚ñà‚ñà‚ñä       | 33010/120000 [17:14<43:44, 33.15it/s]

itr: 33000 lr: 8.279e-05 train loss: 0.000001 (dt=7.84s)


training:  28%|‚ñà‚ñà‚ñä       | 33260/120000 [17:22<43:38, 33.13it/s]

itr: 33250 lr: 8.254e-05 train loss: 0.000000 (dt=7.84s)


training:  28%|‚ñà‚ñà‚ñä       | 33510/120000 [17:30<43:30, 33.13it/s]

itr: 33500 lr: 8.230e-05 train loss: 0.000000 (dt=7.84s)


training:  28%|‚ñà‚ñà‚ñä       | 33760/120000 [17:38<43:21, 33.15it/s]

itr: 33750 lr: 8.205e-05 train loss: 0.000000 (dt=7.84s)


training:  28%|‚ñà‚ñà‚ñä       | 34010/120000 [17:46<43:15, 33.13it/s]

itr: 34000 lr: 8.180e-05 train loss: 0.000000 (dt=7.84s)


training:  29%|‚ñà‚ñà‚ñä       | 34260/120000 [17:53<43:08, 33.12it/s]

itr: 34250 lr: 8.154e-05 train loss: 0.000000 (dt=7.84s)


training:  29%|‚ñà‚ñà‚ñâ       | 34510/120000 [18:01<42:57, 33.17it/s]

itr: 34500 lr: 8.129e-05 train loss: 0.000000 (dt=7.84s)


training:  29%|‚ñà‚ñà‚ñâ       | 34760/120000 [18:09<42:53, 33.12it/s]

itr: 34750 lr: 8.104e-05 train loss: 0.000000 (dt=7.84s)


training:  29%|‚ñà‚ñà‚ñâ       | 35010/120000 [18:17<42:45, 33.13it/s]

itr: 35000 lr: 8.078e-05 train loss: 0.000000 (dt=7.84s)


training:  29%|‚ñà‚ñà‚ñâ       | 35260/120000 [18:25<42:38, 33.12it/s]

itr: 35250 lr: 8.052e-05 train loss: 0.000000 (dt=7.84s)


training:  30%|‚ñà‚ñà‚ñâ       | 35510/120000 [18:33<42:29, 33.14it/s]

itr: 35500 lr: 8.026e-05 train loss: 0.000000 (dt=7.84s)


training:  30%|‚ñà‚ñà‚ñâ       | 35760/120000 [18:40<42:23, 33.13it/s]

itr: 35750 lr: 8.000e-05 train loss: 0.000000 (dt=7.84s)


training:  30%|‚ñà‚ñà‚ñà       | 36010/120000 [18:48<42:15, 33.12it/s]

itr: 36000 lr: 7.974e-05 train loss: 0.000000 (dt=7.84s)


training:  30%|‚ñà‚ñà‚ñà       | 36260/120000 [18:56<42:08, 33.12it/s]

itr: 36250 lr: 7.948e-05 train loss: 0.000000 (dt=7.84s)


training:  30%|‚ñà‚ñà‚ñà       | 36510/120000 [19:04<41:59, 33.14it/s]

itr: 36500 lr: 7.922e-05 train loss: 0.000000 (dt=7.84s)


training:  31%|‚ñà‚ñà‚ñà       | 36760/120000 [19:12<41:53, 33.12it/s]

itr: 36750 lr: 7.895e-05 train loss: 0.000000 (dt=7.84s)


training:  31%|‚ñà‚ñà‚ñà       | 37010/120000 [19:20<41:46, 33.11it/s]

itr: 37000 lr: 7.868e-05 train loss: 0.000000 (dt=7.84s)


training:  31%|‚ñà‚ñà‚ñà       | 37260/120000 [19:27<41:34, 33.17it/s]

itr: 37250 lr: 7.842e-05 train loss: 0.000000 (dt=7.84s)


training:  31%|‚ñà‚ñà‚ñà‚ñè      | 37510/120000 [19:35<41:28, 33.15it/s]

itr: 37500 lr: 7.815e-05 train loss: 0.000000 (dt=7.84s)


training:  31%|‚ñà‚ñà‚ñà‚ñè      | 37760/120000 [19:43<41:24, 33.10it/s]

itr: 37750 lr: 7.788e-05 train loss: 0.000000 (dt=7.84s)


training:  32%|‚ñà‚ñà‚ñà‚ñè      | 38010/120000 [19:51<41:16, 33.11it/s]

itr: 38000 lr: 7.761e-05 train loss: 0.000000 (dt=7.84s)


training:  32%|‚ñà‚ñà‚ñà‚ñè      | 38260/120000 [19:59<41:07, 33.12it/s]

itr: 38250 lr: 7.734e-05 train loss: 0.000000 (dt=7.84s)


training:  32%|‚ñà‚ñà‚ñà‚ñè      | 38510/120000 [20:07<40:56, 33.17it/s]

itr: 38500 lr: 7.706e-05 train loss: 0.000000 (dt=7.84s)


training:  32%|‚ñà‚ñà‚ñà‚ñè      | 38760/120000 [20:14<40:53, 33.11it/s]

itr: 38750 lr: 7.679e-05 train loss: 0.000000 (dt=7.84s)


training:  33%|‚ñà‚ñà‚ñà‚ñé      | 39010/120000 [20:22<40:45, 33.12it/s]

itr: 39000 lr: 7.651e-05 train loss: 0.000000 (dt=7.84s)


training:  33%|‚ñà‚ñà‚ñà‚ñé      | 39260/120000 [20:30<40:36, 33.14it/s]

itr: 39250 lr: 7.624e-05 train loss: 0.000000 (dt=7.84s)


training:  33%|‚ñà‚ñà‚ñà‚ñé      | 39510/120000 [20:38<40:30, 33.12it/s]

itr: 39500 lr: 7.596e-05 train loss: 0.000000 (dt=7.84s)


training:  33%|‚ñà‚ñà‚ñà‚ñé      | 39760/120000 [20:46<40:22, 33.12it/s]

itr: 39750 lr: 7.568e-05 train loss: 0.000000 (dt=7.84s)


training:  33%|‚ñà‚ñà‚ñà‚ñé      | 40010/120000 [20:54<40:52, 32.61it/s]

itr: 40000 lr: 7.540e-05 train loss: 0.000000 (dt=7.84s)
saved checkpoint: ./saved_models_grid_bs8192_20260103_075004/Checkpoint_N64_L2_dup0_iters40001.pt


training:  34%|‚ñà‚ñà‚ñà‚ñé      | 40260/120000 [21:01<40:07, 33.12it/s]

itr: 40250 lr: 7.512e-05 train loss: 0.000000 (dt=7.85s)


training:  34%|‚ñà‚ñà‚ñà‚ñç      | 40510/120000 [21:09<39:59, 33.12it/s]

itr: 40500 lr: 7.484e-05 train loss: 0.000000 (dt=7.84s)


training:  34%|‚ñà‚ñà‚ñà‚ñç      | 40760/120000 [21:17<39:52, 33.12it/s]

itr: 40750 lr: 7.455e-05 train loss: 0.000000 (dt=7.84s)


training:  34%|‚ñà‚ñà‚ñà‚ñç      | 41010/120000 [21:25<39:45, 33.12it/s]

itr: 41000 lr: 7.427e-05 train loss: 0.000000 (dt=7.84s)


training:  34%|‚ñà‚ñà‚ñà‚ñç      | 41260/120000 [21:33<39:37, 33.12it/s]

itr: 41250 lr: 7.398e-05 train loss: 0.000000 (dt=7.84s)


training:  35%|‚ñà‚ñà‚ñà‚ñç      | 41510/120000 [21:41<39:27, 33.16it/s]

itr: 41500 lr: 7.370e-05 train loss: 0.000000 (dt=7.84s)


training:  35%|‚ñà‚ñà‚ñà‚ñç      | 41760/120000 [21:48<39:22, 33.11it/s]

itr: 41750 lr: 7.341e-05 train loss: 0.000000 (dt=7.84s)


training:  35%|‚ñà‚ñà‚ñà‚ñå      | 42010/120000 [21:56<39:14, 33.13it/s]

itr: 42000 lr: 7.312e-05 train loss: 0.000000 (dt=7.84s)


training:  35%|‚ñà‚ñà‚ñà‚ñå      | 42260/120000 [22:04<39:07, 33.11it/s]

itr: 42250 lr: 7.283e-05 train loss: 0.000000 (dt=7.84s)


training:  35%|‚ñà‚ñà‚ñà‚ñå      | 42510/120000 [22:12<38:58, 33.14it/s]

itr: 42500 lr: 7.254e-05 train loss: 0.000000 (dt=7.84s)


training:  36%|‚ñà‚ñà‚ñà‚ñå      | 42760/120000 [22:20<38:51, 33.12it/s]

itr: 42750 lr: 7.225e-05 train loss: 0.000000 (dt=7.84s)


training:  36%|‚ñà‚ñà‚ñà‚ñå      | 43010/120000 [22:28<38:42, 33.14it/s]

itr: 43000 lr: 7.196e-05 train loss: 0.000000 (dt=7.84s)


training:  36%|‚ñà‚ñà‚ñà‚ñå      | 43260/120000 [22:36<38:36, 33.13it/s]

itr: 43250 lr: 7.167e-05 train loss: 0.000000 (dt=7.84s)


training:  36%|‚ñà‚ñà‚ñà‚ñã      | 43510/120000 [22:43<38:28, 33.13it/s]

itr: 43500 lr: 7.137e-05 train loss: 0.000000 (dt=7.84s)


training:  36%|‚ñà‚ñà‚ñà‚ñã      | 43760/120000 [22:51<38:22, 33.11it/s]

itr: 43750 lr: 7.108e-05 train loss: 0.000000 (dt=7.84s)


training:  37%|‚ñà‚ñà‚ñà‚ñã      | 44010/120000 [22:59<38:11, 33.16it/s]

itr: 44000 lr: 7.078e-05 train loss: 0.000000 (dt=7.84s)


training:  37%|‚ñà‚ñà‚ñà‚ñã      | 44260/120000 [23:07<38:05, 33.13it/s]

itr: 44250 lr: 7.049e-05 train loss: 0.000000 (dt=7.84s)


training:  37%|‚ñà‚ñà‚ñà‚ñã      | 44510/120000 [23:15<37:58, 33.13it/s]

itr: 44500 lr: 7.019e-05 train loss: 0.000000 (dt=7.84s)


training:  37%|‚ñà‚ñà‚ñà‚ñã      | 44760/120000 [23:23<37:51, 33.12it/s]

itr: 44750 lr: 6.989e-05 train loss: 0.000000 (dt=7.84s)


training:  38%|‚ñà‚ñà‚ñà‚ñä      | 45010/120000 [23:30<37:43, 33.13it/s]

itr: 45000 lr: 6.959e-05 train loss: 0.000000 (dt=7.84s)


training:  38%|‚ñà‚ñà‚ñà‚ñä      | 45260/120000 [23:38<37:36, 33.13it/s]

itr: 45250 lr: 6.929e-05 train loss: 0.000000 (dt=7.84s)


training:  38%|‚ñà‚ñà‚ñà‚ñä      | 45510/120000 [23:46<37:28, 33.12it/s]

itr: 45500 lr: 6.899e-05 train loss: 0.000000 (dt=7.84s)


training:  38%|‚ñà‚ñà‚ñà‚ñä      | 45760/120000 [23:54<37:21, 33.11it/s]

itr: 45750 lr: 6.869e-05 train loss: 0.000000 (dt=7.84s)


training:  38%|‚ñà‚ñà‚ñà‚ñä      | 46010/120000 [24:02<37:14, 33.12it/s]

itr: 46000 lr: 6.839e-05 train loss: 0.000000 (dt=7.84s)


training:  39%|‚ñà‚ñà‚ñà‚ñä      | 46260/120000 [24:10<37:06, 33.12it/s]

itr: 46250 lr: 6.809e-05 train loss: 0.000000 (dt=7.84s)


training:  39%|‚ñà‚ñà‚ñà‚ñâ      | 46510/120000 [24:17<36:56, 33.16it/s]

itr: 46500 lr: 6.778e-05 train loss: 0.000000 (dt=7.84s)


training:  39%|‚ñà‚ñà‚ñà‚ñâ      | 46760/120000 [24:25<36:50, 33.14it/s]

itr: 46750 lr: 6.748e-05 train loss: 0.000000 (dt=7.84s)


training:  39%|‚ñà‚ñà‚ñà‚ñâ      | 47010/120000 [24:33<36:43, 33.13it/s]

itr: 47000 lr: 6.717e-05 train loss: 0.000000 (dt=7.84s)


training:  39%|‚ñà‚ñà‚ñà‚ñâ      | 47260/120000 [24:41<36:36, 33.12it/s]

itr: 47250 lr: 6.687e-05 train loss: 0.000000 (dt=7.84s)


training:  40%|‚ñà‚ñà‚ñà‚ñâ      | 47510/120000 [24:49<36:28, 33.12it/s]

itr: 47500 lr: 6.656e-05 train loss: 0.000000 (dt=7.84s)


training:  40%|‚ñà‚ñà‚ñà‚ñâ      | 47760/120000 [24:57<36:20, 33.12it/s]

itr: 47750 lr: 6.625e-05 train loss: 0.000000 (dt=7.84s)


training:  40%|‚ñà‚ñà‚ñà‚ñà      | 48010/120000 [25:04<36:14, 33.11it/s]

itr: 48000 lr: 6.594e-05 train loss: 0.000000 (dt=7.84s)


training:  40%|‚ñà‚ñà‚ñà‚ñà      | 48260/120000 [25:12<36:05, 33.13it/s]

itr: 48250 lr: 6.564e-05 train loss: 0.000000 (dt=7.84s)


training:  40%|‚ñà‚ñà‚ñà‚ñà      | 48510/120000 [25:20<35:58, 33.11it/s]

itr: 48500 lr: 6.533e-05 train loss: 0.000000 (dt=7.84s)


training:  41%|‚ñà‚ñà‚ñà‚ñà      | 48760/120000 [25:28<35:51, 33.11it/s]

itr: 48750 lr: 6.502e-05 train loss: 0.000000 (dt=7.84s)


training:  41%|‚ñà‚ñà‚ñà‚ñà      | 49010/120000 [25:36<35:43, 33.13it/s]

itr: 49000 lr: 6.471e-05 train loss: 0.000000 (dt=7.84s)


training:  41%|‚ñà‚ñà‚ñà‚ñà      | 49260/120000 [25:44<35:36, 33.12it/s]

itr: 49250 lr: 6.439e-05 train loss: 0.000000 (dt=7.84s)


training:  41%|‚ñà‚ñà‚ñà‚ñà‚ñè     | 49510/120000 [25:51<35:28, 33.12it/s]

itr: 49500 lr: 6.408e-05 train loss: 0.000000 (dt=7.84s)


training:  41%|‚ñà‚ñà‚ñà‚ñà‚ñè     | 49760/120000 [25:59<35:20, 33.12it/s]

itr: 49750 lr: 6.377e-05 train loss: 0.000000 (dt=7.84s)


training:  42%|‚ñà‚ñà‚ñà‚ñà‚ñè     | 50010/120000 [26:07<35:13, 33.11it/s]

itr: 50000 lr: 6.346e-05 train loss: 0.000000 (dt=7.84s)


training:  42%|‚ñà‚ñà‚ñà‚ñà‚ñè     | 50260/120000 [26:15<35:05, 33.12it/s]

itr: 50250 lr: 6.314e-05 train loss: 0.000000 (dt=7.84s)


training:  42%|‚ñà‚ñà‚ñà‚ñà‚ñè     | 50510/120000 [26:23<34:58, 33.12it/s]

itr: 50500 lr: 6.283e-05 train loss: 0.000000 (dt=7.84s)


training:  42%|‚ñà‚ñà‚ñà‚ñà‚ñè     | 50760/120000 [26:31<34:51, 33.11it/s]

itr: 50750 lr: 6.252e-05 train loss: 0.000000 (dt=7.84s)


training:  43%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 51010/120000 [26:38<34:42, 33.13it/s]

itr: 51000 lr: 6.220e-05 train loss: 0.000000 (dt=7.84s)


training:  43%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 51260/120000 [26:46<34:34, 33.13it/s]

itr: 51250 lr: 6.189e-05 train loss: 0.000000 (dt=7.84s)


training:  43%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 51510/120000 [26:54<34:28, 33.12it/s]

itr: 51500 lr: 6.157e-05 train loss: 0.000000 (dt=7.84s)


training:  43%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 51760/120000 [27:02<34:20, 33.11it/s]

itr: 51750 lr: 6.125e-05 train loss: 0.000000 (dt=7.84s)


training:  43%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 52010/120000 [27:10<34:13, 33.11it/s]

itr: 52000 lr: 6.094e-05 train loss: 0.000000 (dt=7.84s)


training:  44%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 52260/120000 [27:18<34:05, 33.12it/s]

itr: 52250 lr: 6.062e-05 train loss: 0.000000 (dt=7.84s)


training:  44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 52510/120000 [27:25<33:57, 33.12it/s]

itr: 52500 lr: 6.030e-05 train loss: 0.000000 (dt=7.84s)


training:  44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 52760/120000 [27:33<33:50, 33.11it/s]

itr: 52750 lr: 5.998e-05 train loss: 0.000000 (dt=7.84s)


training:  44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 53010/120000 [27:41<33:42, 33.13it/s]

itr: 53000 lr: 5.966e-05 train loss: 0.000000 (dt=7.84s)


training:  44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 53260/120000 [27:49<33:35, 33.12it/s]

itr: 53250 lr: 5.934e-05 train loss: 0.000000 (dt=7.84s)


training:  45%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 53510/120000 [27:57<33:28, 33.10it/s]

itr: 53500 lr: 5.902e-05 train loss: 0.000000 (dt=7.84s)


training:  45%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 53760/120000 [28:05<33:20, 33.11it/s]

itr: 53750 lr: 5.870e-05 train loss: 0.000000 (dt=7.84s)


training:  45%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 54010/120000 [28:13<33:12, 33.12it/s]

itr: 54000 lr: 5.838e-05 train loss: 0.000000 (dt=7.84s)


training:  45%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 54260/120000 [28:20<33:05, 33.11it/s]

itr: 54250 lr: 5.806e-05 train loss: 0.000000 (dt=7.84s)


training:  45%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 54510/120000 [28:28<32:57, 33.12it/s]

itr: 54500 lr: 5.774e-05 train loss: 0.000000 (dt=7.84s)


training:  46%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 54760/120000 [28:36<32:49, 33.12it/s]

itr: 54750 lr: 5.742e-05 train loss: 0.000000 (dt=7.84s)


training:  46%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 55010/120000 [28:44<32:42, 33.12it/s]

itr: 55000 lr: 5.710e-05 train loss: 0.000000 (dt=7.84s)


training:  46%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 55260/120000 [28:52<32:35, 33.11it/s]

itr: 55250 lr: 5.678e-05 train loss: 0.000000 (dt=7.84s)


training:  46%|‚ñà‚ñà‚ñà‚ñà‚ñã     | 55510/120000 [29:00<32:27, 33.11it/s]

itr: 55500 lr: 5.646e-05 train loss: 0.000000 (dt=7.84s)


training:  46%|‚ñà‚ñà‚ñà‚ñà‚ñã     | 55760/120000 [29:07<32:19, 33.12it/s]

itr: 55750 lr: 5.613e-05 train loss: 0.000000 (dt=7.84s)


training:  47%|‚ñà‚ñà‚ñà‚ñà‚ñã     | 56010/120000 [29:15<32:12, 33.12it/s]

itr: 56000 lr: 5.581e-05 train loss: 0.000000 (dt=7.84s)


training:  47%|‚ñà‚ñà‚ñà‚ñà‚ñã     | 56260/120000 [29:23<32:04, 33.13it/s]

itr: 56250 lr: 5.549e-05 train loss: 0.000000 (dt=7.84s)


training:  47%|‚ñà‚ñà‚ñà‚ñà‚ñã     | 56510/120000 [29:31<31:57, 33.12it/s]

itr: 56500 lr: 5.517e-05 train loss: 0.000000 (dt=7.84s)


training:  47%|‚ñà‚ñà‚ñà‚ñà‚ñã     | 56760/120000 [29:39<31:49, 33.12it/s]

itr: 56750 lr: 5.484e-05 train loss: 0.000000 (dt=7.84s)


training:  48%|‚ñà‚ñà‚ñà‚ñà‚ñä     | 57010/120000 [29:47<31:42, 33.10it/s]

itr: 57000 lr: 5.452e-05 train loss: 0.000000 (dt=7.84s)


training:  48%|‚ñà‚ñà‚ñà‚ñà‚ñä     | 57260/120000 [29:54<31:35, 33.11it/s]

üü® plateau detected @ itr=57250 (slope=1.3537, Œîlog10(loss)=0.0029); will stop after logging itr=57500
itr: 57250 lr: 5.420e-05 train loss: 0.000000 (dt=7.84s)


training:  48%|‚ñà‚ñà‚ñà‚ñà‚ñä     | 57500/120000 [30:02<32:39, 31.90it/s]

itr: 57500 lr: 5.387e-05 train loss: 0.000000 (dt=7.84s)
saved final model: ./saved_models_grid_bs8192_20260103_075004/Final_N64_L2_dup0_iters57501.pt





0,1
iter,‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÉ‚ñÉ‚ñÉ‚ñÉ‚ñÉ‚ñÉ‚ñÉ‚ñÑ‚ñÑ‚ñÑ‚ñÑ‚ñÑ‚ñÖ‚ñÖ‚ñÖ‚ñÖ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñá‚ñá‚ñá‚ñá‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà
ll/iter,‚ñÅ‚ñÇ‚ñÑ‚ñÑ‚ñÖ‚ñÖ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà
ll/lr,‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÖ‚ñÖ‚ñÖ‚ñÖ‚ñÖ‚ñÑ‚ñÑ‚ñÉ‚ñÉ‚ñÉ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÅ
ll/train_loss,‚ñà‚ñÜ‚ñÖ‚ñÑ‚ñÉ‚ñÑ‚ñÉ‚ñÑ‚ñÉ‚ñÑ‚ñÉ‚ñÇ‚ñÉ‚ñÉ‚ñÉ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÉ‚ñÇ‚ñÅ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÅ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ
lr,‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÖ‚ñÖ‚ñÑ‚ñÑ‚ñÉ‚ñÉ‚ñÉ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÅ‚ñÅ
plateau/delta_log10_loss_window,‚ñà‚ñÖ‚ñÉ‚ñÑ‚ñÑ‚ñÜ‚ñÜ‚ñÖ‚ñÑ‚ñÑ‚ñÑ‚ñÑ‚ñÉ‚ñÑ‚ñÅ‚ñÉ‚ñÑ‚ñÉ‚ñÉ‚ñÑ‚ñÉ‚ñÑ‚ñÑ‚ñÑ‚ñÑ‚ñÉ‚ñÇ‚ñÇ‚ñÜ‚ñÉ‚ñÉ‚ñÅ‚ñÇ‚ñÉ‚ñÉ‚ñÉ‚ñÑ‚ñÉ‚ñÑ‚ñÉ
plateau/hits,‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñà
plateau/loglog_slope,‚ñÑ‚ñÑ‚ñÉ‚ñÉ‚ñÉ‚ñÉ‚ñÉ‚ñÉ‚ñÇ‚ñÇ‚ñÅ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÖ‚ñá‚ñá‚ñÜ‚ñá‚ñÜ‚ñÖ‚ñÑ‚ñÑ‚ñÑ‚ñÑ‚ñÖ‚ñÖ‚ñÑ‚ñÑ‚ñÖ‚ñÖ‚ñÖ‚ñÜ‚ñà‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñá
plateau/now,‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ
plateau/reached,‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñà

0,1
iter,57501
iters_done,57501
ll/iter,4.75968
ll/lr,-4.26863
ll/train_loss,-6.78049
lr,5e-05
plateau/delta_log10_loss_window,0.0029
plateau/hits,2
plateau/loglog_slope,1.35368
plateau/now,0


using device: cuda


training:   0%|          | 12/120000 [00:00<19:45, 101.17it/s]

itr: 0 lr: 4.975e-07 train loss: 4.192842 (dt=0.02s)


training:   0%|          | 264/120000 [00:04<35:10, 56.72it/s]

itr: 250 lr: 1.000e-04 train loss: 3.030061 (dt=4.62s)


training:   0%|          | 515/120000 [00:09<35:06, 56.72it/s]

itr: 500 lr: 1.000e-04 train loss: 1.938415 (dt=4.60s)


training:   1%|          | 764/120000 [00:13<35:02, 56.70it/s]

itr: 750 lr: 9.999e-05 train loss: 0.971500 (dt=4.60s)


training:   1%|          | 1014/120000 [00:18<34:58, 56.70it/s]

itr: 1000 lr: 9.999e-05 train loss: 0.310945 (dt=4.60s)


training:   1%|          | 1264/120000 [00:23<34:53, 56.71it/s]

itr: 1250 lr: 9.998e-05 train loss: 0.075114 (dt=4.60s)


training:   1%|‚ñè         | 1514/120000 [00:27<34:50, 56.68it/s]

itr: 1500 lr: 9.997e-05 train loss: 0.016646 (dt=4.60s)


training:   1%|‚ñè         | 1764/120000 [00:32<34:45, 56.69it/s]

itr: 1750 lr: 9.996e-05 train loss: 0.004048 (dt=4.60s)


training:   2%|‚ñè         | 2014/120000 [00:36<34:40, 56.71it/s]

itr: 2000 lr: 9.994e-05 train loss: 0.001306 (dt=4.60s)


training:   2%|‚ñè         | 2264/120000 [00:41<34:39, 56.62it/s]

itr: 2250 lr: 9.993e-05 train loss: 0.000450 (dt=4.60s)


training:   2%|‚ñè         | 2514/120000 [00:46<34:33, 56.66it/s]

itr: 2500 lr: 9.991e-05 train loss: 0.000275 (dt=4.60s)


training:   2%|‚ñè         | 2764/120000 [00:50<34:27, 56.71it/s]

itr: 2750 lr: 9.989e-05 train loss: 0.000161 (dt=4.60s)


training:   3%|‚ñé         | 3014/120000 [00:55<34:23, 56.70it/s]

itr: 3000 lr: 9.987e-05 train loss: 0.000096 (dt=4.60s)


training:   3%|‚ñé         | 3264/120000 [00:59<34:19, 56.69it/s]

itr: 3250 lr: 9.984e-05 train loss: 0.000046 (dt=4.60s)


training:   3%|‚ñé         | 3515/120000 [01:04<34:16, 56.66it/s]

itr: 3500 lr: 9.981e-05 train loss: 0.000048 (dt=4.60s)


training:   3%|‚ñé         | 3764/120000 [01:09<34:09, 56.70it/s]

itr: 3750 lr: 9.979e-05 train loss: 0.000043 (dt=4.60s)


training:   3%|‚ñé         | 4014/120000 [01:13<34:06, 56.67it/s]

itr: 4000 lr: 9.975e-05 train loss: 0.000021 (dt=4.60s)


training:   4%|‚ñé         | 4264/120000 [01:18<34:01, 56.70it/s]

itr: 4250 lr: 9.972e-05 train loss: 0.000037 (dt=4.60s)


training:   4%|‚ñç         | 4514/120000 [01:22<33:56, 56.72it/s]

itr: 4500 lr: 9.969e-05 train loss: 0.000023 (dt=4.60s)


training:   4%|‚ñç         | 4764/120000 [01:27<33:50, 56.74it/s]

itr: 4750 lr: 9.965e-05 train loss: 0.000007 (dt=4.60s)


training:   4%|‚ñç         | 5014/120000 [01:32<33:48, 56.69it/s]

itr: 5000 lr: 9.961e-05 train loss: 0.000006 (dt=4.60s)


training:   4%|‚ñç         | 5264/120000 [01:36<33:45, 56.64it/s]

itr: 5250 lr: 9.957e-05 train loss: 0.000012 (dt=4.60s)


training:   5%|‚ñç         | 5514/120000 [01:41<33:40, 56.66it/s]

itr: 5500 lr: 9.952e-05 train loss: 0.000004 (dt=4.60s)


training:   5%|‚ñç         | 5764/120000 [01:46<33:35, 56.68it/s]

itr: 5750 lr: 9.948e-05 train loss: 0.000003 (dt=4.60s)


training:   5%|‚ñå         | 6014/120000 [01:50<33:31, 56.68it/s]

itr: 6000 lr: 9.943e-05 train loss: 0.000002 (dt=4.60s)


training:   5%|‚ñå         | 6264/120000 [01:55<33:25, 56.71it/s]

itr: 6250 lr: 9.938e-05 train loss: 0.000003 (dt=4.60s)


training:   5%|‚ñå         | 6514/120000 [01:59<33:21, 56.69it/s]

itr: 6500 lr: 9.933e-05 train loss: 0.000002 (dt=4.60s)


training:   6%|‚ñå         | 6764/120000 [02:04<33:17, 56.70it/s]

itr: 6750 lr: 9.927e-05 train loss: 0.000002 (dt=4.60s)


training:   6%|‚ñå         | 7014/120000 [02:09<33:13, 56.68it/s]

itr: 7000 lr: 9.922e-05 train loss: 0.000001 (dt=4.60s)


training:   6%|‚ñå         | 7264/120000 [02:13<33:08, 56.69it/s]

itr: 7250 lr: 9.916e-05 train loss: 0.000008 (dt=4.60s)


training:   6%|‚ñã         | 7514/120000 [02:18<33:03, 56.70it/s]

itr: 7500 lr: 9.910e-05 train loss: 0.000003 (dt=4.60s)


training:   6%|‚ñã         | 7764/120000 [02:22<32:58, 56.71it/s]

itr: 7750 lr: 9.903e-05 train loss: 0.000001 (dt=4.60s)


training:   7%|‚ñã         | 8014/120000 [02:27<32:56, 56.67it/s]

itr: 8000 lr: 9.897e-05 train loss: 0.000003 (dt=4.60s)


training:   7%|‚ñã         | 8265/120000 [02:32<32:52, 56.64it/s]

itr: 8250 lr: 9.890e-05 train loss: 0.000001 (dt=4.60s)


training:   7%|‚ñã         | 8514/120000 [02:36<32:46, 56.71it/s]

itr: 8500 lr: 9.883e-05 train loss: 0.000001 (dt=4.60s)


training:   7%|‚ñã         | 8764/120000 [02:41<32:41, 56.70it/s]

itr: 8750 lr: 9.876e-05 train loss: 0.000001 (dt=4.60s)


training:   8%|‚ñä         | 9014/120000 [02:45<32:38, 56.66it/s]

itr: 9000 lr: 9.869e-05 train loss: 0.000001 (dt=4.60s)


training:   8%|‚ñä         | 9264/120000 [02:50<32:33, 56.69it/s]

itr: 9250 lr: 9.861e-05 train loss: 0.000001 (dt=4.60s)


training:   8%|‚ñä         | 9514/120000 [02:55<32:27, 56.73it/s]

itr: 9500 lr: 9.854e-05 train loss: 0.000003 (dt=4.60s)


training:   8%|‚ñä         | 9764/120000 [02:59<32:22, 56.74it/s]

itr: 9750 lr: 9.846e-05 train loss: 0.000001 (dt=4.60s)


training:   8%|‚ñä         | 10014/120000 [03:04<32:20, 56.69it/s]

itr: 10000 lr: 9.837e-05 train loss: 0.000000 (dt=4.60s)


training:   9%|‚ñä         | 10264/120000 [03:08<32:15, 56.70it/s]

itr: 10250 lr: 9.829e-05 train loss: 0.000000 (dt=4.60s)


training:   9%|‚ñâ         | 10514/120000 [03:13<32:11, 56.69it/s]

itr: 10500 lr: 9.821e-05 train loss: 0.000000 (dt=4.60s)


training:   9%|‚ñâ         | 10764/120000 [03:18<32:06, 56.70it/s]

itr: 10750 lr: 9.812e-05 train loss: 0.000000 (dt=4.60s)


training:   9%|‚ñâ         | 11014/120000 [03:22<32:01, 56.72it/s]

itr: 11000 lr: 9.803e-05 train loss: 0.000023 (dt=4.60s)


training:   9%|‚ñâ         | 11264/120000 [03:27<31:58, 56.67it/s]

itr: 11250 lr: 9.794e-05 train loss: 0.000001 (dt=4.60s)


training:  10%|‚ñâ         | 11514/120000 [03:31<31:53, 56.70it/s]

itr: 11500 lr: 9.784e-05 train loss: 0.000001 (dt=4.60s)


training:  10%|‚ñâ         | 11764/120000 [03:36<31:49, 56.69it/s]

itr: 11750 lr: 9.775e-05 train loss: 0.000000 (dt=4.60s)


training:  10%|‚ñà         | 12014/120000 [03:41<31:44, 56.71it/s]

itr: 12000 lr: 9.765e-05 train loss: 0.000001 (dt=4.60s)


training:  10%|‚ñà         | 12264/120000 [03:45<31:40, 56.68it/s]

itr: 12250 lr: 9.755e-05 train loss: 0.000000 (dt=4.60s)


training:  10%|‚ñà         | 12514/120000 [03:50<31:35, 56.71it/s]

itr: 12500 lr: 9.745e-05 train loss: 0.000000 (dt=4.60s)


training:  11%|‚ñà         | 12764/120000 [03:54<31:31, 56.69it/s]

itr: 12750 lr: 9.734e-05 train loss: 0.000001 (dt=4.60s)


training:  11%|‚ñà         | 13014/120000 [03:59<31:27, 56.68it/s]

itr: 13000 lr: 9.724e-05 train loss: 0.000000 (dt=4.60s)


training:  11%|‚ñà         | 13264/120000 [04:04<31:21, 56.72it/s]

itr: 13250 lr: 9.713e-05 train loss: 0.000000 (dt=4.60s)


training:  11%|‚ñà‚ñè        | 13514/120000 [04:08<31:18, 56.68it/s]

itr: 13500 lr: 9.702e-05 train loss: 0.000000 (dt=4.60s)


training:  11%|‚ñà‚ñè        | 13764/120000 [04:13<31:13, 56.69it/s]

itr: 13750 lr: 9.691e-05 train loss: 0.000000 (dt=4.60s)


training:  12%|‚ñà‚ñè        | 14014/120000 [04:17<31:09, 56.68it/s]

itr: 14000 lr: 9.679e-05 train loss: 0.000000 (dt=4.60s)


training:  12%|‚ñà‚ñè        | 14264/120000 [04:22<31:06, 56.66it/s]

itr: 14250 lr: 9.668e-05 train loss: 0.000004 (dt=4.60s)


training:  12%|‚ñà‚ñè        | 14514/120000 [04:27<31:00, 56.70it/s]

itr: 14500 lr: 9.656e-05 train loss: 0.000000 (dt=4.60s)


training:  12%|‚ñà‚ñè        | 14764/120000 [04:31<30:56, 56.69it/s]

itr: 14750 lr: 9.644e-05 train loss: 0.000000 (dt=4.60s)


training:  13%|‚ñà‚ñé        | 15014/120000 [04:36<30:51, 56.71it/s]

itr: 15000 lr: 9.632e-05 train loss: 0.000000 (dt=4.60s)


training:  13%|‚ñà‚ñé        | 15264/120000 [04:40<30:47, 56.69it/s]

itr: 15250 lr: 9.619e-05 train loss: 0.000000 (dt=4.60s)


training:  13%|‚ñà‚ñé        | 15514/120000 [04:45<30:42, 56.71it/s]

itr: 15500 lr: 9.607e-05 train loss: 0.000000 (dt=4.60s)


training:  13%|‚ñà‚ñé        | 15764/120000 [04:50<30:38, 56.70it/s]

itr: 15750 lr: 9.594e-05 train loss: 0.000000 (dt=4.60s)


training:  13%|‚ñà‚ñé        | 16014/120000 [04:54<30:33, 56.71it/s]

itr: 16000 lr: 9.581e-05 train loss: 0.000000 (dt=4.60s)


training:  14%|‚ñà‚ñé        | 16264/120000 [04:59<30:28, 56.74it/s]

itr: 16250 lr: 9.568e-05 train loss: 0.000000 (dt=4.60s)


training:  14%|‚ñà‚ñç        | 16514/120000 [05:03<30:25, 56.69it/s]

itr: 16500 lr: 9.555e-05 train loss: 0.000001 (dt=4.60s)


training:  14%|‚ñà‚ñç        | 16764/120000 [05:08<30:19, 56.73it/s]

itr: 16750 lr: 9.541e-05 train loss: 0.000000 (dt=4.60s)


training:  14%|‚ñà‚ñç        | 17014/120000 [05:13<30:16, 56.71it/s]

itr: 17000 lr: 9.527e-05 train loss: 0.000000 (dt=4.60s)


training:  14%|‚ñà‚ñç        | 17264/120000 [05:17<30:13, 56.66it/s]

itr: 17250 lr: 9.513e-05 train loss: 0.000000 (dt=4.60s)


training:  15%|‚ñà‚ñç        | 17514/120000 [05:22<30:07, 56.69it/s]

itr: 17500 lr: 9.499e-05 train loss: 0.000000 (dt=4.60s)


training:  15%|‚ñà‚ñç        | 17764/120000 [05:26<30:03, 56.69it/s]

itr: 17750 lr: 9.485e-05 train loss: 0.000000 (dt=4.60s)


training:  15%|‚ñà‚ñå        | 18014/120000 [05:31<29:58, 56.70it/s]

itr: 18000 lr: 9.470e-05 train loss: 0.000000 (dt=4.60s)


training:  15%|‚ñà‚ñå        | 18264/120000 [05:36<29:54, 56.69it/s]

itr: 18250 lr: 9.456e-05 train loss: 0.000000 (dt=4.60s)


training:  15%|‚ñà‚ñå        | 18514/120000 [05:40<29:50, 56.69it/s]

itr: 18500 lr: 9.441e-05 train loss: 0.000000 (dt=4.60s)


training:  16%|‚ñà‚ñå        | 18764/120000 [05:45<29:45, 56.69it/s]

itr: 18750 lr: 9.426e-05 train loss: 0.000000 (dt=4.60s)


training:  16%|‚ñà‚ñå        | 19014/120000 [05:49<29:41, 56.70it/s]

itr: 19000 lr: 9.411e-05 train loss: 0.000000 (dt=4.60s)


training:  16%|‚ñà‚ñå        | 19264/120000 [05:54<29:37, 56.68it/s]

itr: 19250 lr: 9.395e-05 train loss: 0.000000 (dt=4.60s)


training:  16%|‚ñà‚ñã        | 19514/120000 [05:59<29:32, 56.68it/s]

itr: 19500 lr: 9.379e-05 train loss: 0.000000 (dt=4.60s)


training:  16%|‚ñà‚ñã        | 19764/120000 [06:03<29:27, 56.70it/s]

itr: 19750 lr: 9.364e-05 train loss: 0.000019 (dt=4.60s)


training:  17%|‚ñà‚ñã        | 20014/120000 [06:08<29:46, 55.96it/s]

itr: 20000 lr: 9.348e-05 train loss: 0.000000 (dt=4.60s)
saved checkpoint: ./saved_models_grid_bs8192_20260103_075004/Checkpoint_N64_L1_dup0_iters20001.pt


training:  17%|‚ñà‚ñã        | 20264/120000 [06:12<29:03, 57.21it/s]

itr: 20250 lr: 9.331e-05 train loss: 0.000000 (dt=4.61s)


training:  17%|‚ñà‚ñã        | 20514/120000 [06:17<29:14, 56.69it/s]

itr: 20500 lr: 9.315e-05 train loss: 0.000000 (dt=4.60s)


training:  17%|‚ñà‚ñã        | 20764/120000 [06:22<29:10, 56.69it/s]

itr: 20750 lr: 9.298e-05 train loss: 0.000000 (dt=4.60s)


training:  18%|‚ñà‚ñä        | 21014/120000 [06:26<29:05, 56.70it/s]

itr: 21000 lr: 9.282e-05 train loss: 0.000000 (dt=4.60s)


training:  18%|‚ñà‚ñä        | 21264/120000 [06:31<29:01, 56.70it/s]

itr: 21250 lr: 9.265e-05 train loss: 0.000000 (dt=4.60s)


training:  18%|‚ñà‚ñä        | 21514/120000 [06:35<28:55, 56.76it/s]

itr: 21500 lr: 9.248e-05 train loss: 0.000000 (dt=4.60s)


training:  18%|‚ñà‚ñä        | 21764/120000 [06:40<28:50, 56.76it/s]

itr: 21750 lr: 9.230e-05 train loss: 0.000000 (dt=4.60s)


training:  18%|‚ñà‚ñä        | 22014/120000 [06:45<28:48, 56.69it/s]

itr: 22000 lr: 9.213e-05 train loss: 0.000000 (dt=4.60s)


training:  19%|‚ñà‚ñä        | 22264/120000 [06:49<28:43, 56.71it/s]

itr: 22250 lr: 9.195e-05 train loss: 0.000000 (dt=4.60s)


training:  19%|‚ñà‚ñâ        | 22514/120000 [06:54<28:39, 56.69it/s]

itr: 22500 lr: 9.177e-05 train loss: 0.000000 (dt=4.60s)


training:  19%|‚ñà‚ñâ        | 22764/120000 [06:58<28:35, 56.67it/s]

itr: 22750 lr: 9.159e-05 train loss: 0.000000 (dt=4.60s)


training:  19%|‚ñà‚ñâ        | 23014/120000 [07:03<28:31, 56.68it/s]

itr: 23000 lr: 9.141e-05 train loss: 0.000000 (dt=4.60s)


training:  19%|‚ñà‚ñâ        | 23264/120000 [07:08<28:26, 56.70it/s]

itr: 23250 lr: 9.123e-05 train loss: 0.000019 (dt=4.60s)


training:  20%|‚ñà‚ñâ        | 23514/120000 [07:12<28:21, 56.70it/s]

itr: 23500 lr: 9.104e-05 train loss: 0.000000 (dt=4.60s)


training:  20%|‚ñà‚ñâ        | 23764/120000 [07:17<28:17, 56.68it/s]

itr: 23750 lr: 9.086e-05 train loss: 0.000000 (dt=4.60s)


training:  20%|‚ñà‚ñà        | 24014/120000 [07:22<28:13, 56.69it/s]

itr: 24000 lr: 9.067e-05 train loss: 0.000000 (dt=4.60s)


training:  20%|‚ñà‚ñà        | 24264/120000 [07:26<28:08, 56.70it/s]

itr: 24250 lr: 9.048e-05 train loss: 0.000000 (dt=4.60s)


training:  20%|‚ñà‚ñà        | 24514/120000 [07:31<28:03, 56.73it/s]

itr: 24500 lr: 9.029e-05 train loss: 0.000000 (dt=4.60s)


training:  21%|‚ñà‚ñà        | 24764/120000 [07:35<28:00, 56.68it/s]

itr: 24750 lr: 9.009e-05 train loss: 0.000000 (dt=4.60s)


training:  21%|‚ñà‚ñà        | 25014/120000 [07:40<27:55, 56.69it/s]

itr: 25000 lr: 8.990e-05 train loss: 0.000000 (dt=4.60s)


training:  21%|‚ñà‚ñà        | 25264/120000 [07:45<27:51, 56.68it/s]

itr: 25250 lr: 8.970e-05 train loss: 0.000000 (dt=4.60s)


training:  21%|‚ñà‚ñà‚ñè       | 25514/120000 [07:49<27:46, 56.69it/s]

itr: 25500 lr: 8.950e-05 train loss: 0.000000 (dt=4.60s)


training:  21%|‚ñà‚ñà‚ñè       | 25764/120000 [07:54<27:40, 56.74it/s]

itr: 25750 lr: 8.930e-05 train loss: 0.000000 (dt=4.60s)


training:  22%|‚ñà‚ñà‚ñè       | 26014/120000 [07:58<27:38, 56.68it/s]

itr: 26000 lr: 8.910e-05 train loss: 0.000000 (dt=4.60s)


training:  22%|‚ñà‚ñà‚ñè       | 26264/120000 [08:03<27:33, 56.69it/s]

itr: 26250 lr: 8.889e-05 train loss: 0.000000 (dt=4.60s)


training:  22%|‚ñà‚ñà‚ñè       | 26514/120000 [08:08<27:28, 56.72it/s]

itr: 26500 lr: 8.869e-05 train loss: 0.000000 (dt=4.60s)


training:  22%|‚ñà‚ñà‚ñè       | 26764/120000 [08:12<27:24, 56.70it/s]

itr: 26750 lr: 8.848e-05 train loss: 0.000000 (dt=4.60s)


training:  23%|‚ñà‚ñà‚ñé       | 27014/120000 [08:17<27:19, 56.71it/s]

itr: 27000 lr: 8.827e-05 train loss: 0.000000 (dt=4.60s)


training:  23%|‚ñà‚ñà‚ñé       | 27264/120000 [08:21<27:16, 56.67it/s]

itr: 27250 lr: 8.806e-05 train loss: 0.000000 (dt=4.60s)


training:  23%|‚ñà‚ñà‚ñé       | 27514/120000 [08:26<27:10, 56.71it/s]

itr: 27500 lr: 8.785e-05 train loss: 0.000000 (dt=4.60s)


training:  23%|‚ñà‚ñà‚ñé       | 27764/120000 [08:31<27:07, 56.69it/s]

itr: 27750 lr: 8.763e-05 train loss: 0.000000 (dt=4.60s)


training:  23%|‚ñà‚ñà‚ñé       | 28014/120000 [08:35<27:02, 56.70it/s]

itr: 28000 lr: 8.742e-05 train loss: 0.000000 (dt=4.60s)


training:  24%|‚ñà‚ñà‚ñé       | 28264/120000 [08:40<26:58, 56.69it/s]

itr: 28250 lr: 8.720e-05 train loss: 0.000000 (dt=4.60s)


training:  24%|‚ñà‚ñà‚ñç       | 28514/120000 [08:44<26:53, 56.71it/s]

itr: 28500 lr: 8.698e-05 train loss: 0.000000 (dt=4.60s)


training:  24%|‚ñà‚ñà‚ñç       | 28764/120000 [08:49<26:49, 56.67it/s]

itr: 28750 lr: 8.676e-05 train loss: 0.000000 (dt=4.60s)


training:  24%|‚ñà‚ñà‚ñç       | 29014/120000 [08:54<26:46, 56.65it/s]

itr: 29000 lr: 8.654e-05 train loss: 0.000000 (dt=4.60s)


training:  24%|‚ñà‚ñà‚ñç       | 29264/120000 [08:58<26:40, 56.70it/s]

itr: 29250 lr: 8.632e-05 train loss: 0.000000 (dt=4.60s)


training:  25%|‚ñà‚ñà‚ñç       | 29514/120000 [09:03<26:35, 56.70it/s]

itr: 29500 lr: 8.609e-05 train loss: 0.000000 (dt=4.60s)


training:  25%|‚ñà‚ñà‚ñç       | 29764/120000 [09:07<26:31, 56.69it/s]

itr: 29750 lr: 8.587e-05 train loss: 0.000000 (dt=4.60s)


training:  25%|‚ñà‚ñà‚ñå       | 30014/120000 [09:12<26:27, 56.69it/s]

itr: 30000 lr: 8.564e-05 train loss: 0.000000 (dt=4.60s)


training:  25%|‚ñà‚ñà‚ñå       | 30264/120000 [09:17<26:22, 56.69it/s]

itr: 30250 lr: 8.541e-05 train loss: 0.000000 (dt=4.60s)


training:  25%|‚ñà‚ñà‚ñå       | 30514/120000 [09:21<26:18, 56.69it/s]

itr: 30500 lr: 8.518e-05 train loss: 0.000000 (dt=4.60s)


training:  26%|‚ñà‚ñà‚ñå       | 30764/120000 [09:26<26:14, 56.68it/s]

itr: 30750 lr: 8.495e-05 train loss: 0.000000 (dt=4.60s)


training:  26%|‚ñà‚ñà‚ñå       | 31014/120000 [09:30<26:09, 56.69it/s]

itr: 31000 lr: 8.471e-05 train loss: 0.000000 (dt=4.60s)


training:  26%|‚ñà‚ñà‚ñå       | 31264/120000 [09:35<26:06, 56.66it/s]

itr: 31250 lr: 8.448e-05 train loss: 0.000000 (dt=4.60s)


training:  26%|‚ñà‚ñà‚ñã       | 31514/120000 [09:40<26:01, 56.68it/s]

itr: 31500 lr: 8.424e-05 train loss: 0.000000 (dt=4.60s)


training:  26%|‚ñà‚ñà‚ñã       | 31764/120000 [09:44<25:56, 56.69it/s]

itr: 31750 lr: 8.400e-05 train loss: 0.000000 (dt=4.60s)


training:  27%|‚ñà‚ñà‚ñã       | 32014/120000 [09:49<25:52, 56.67it/s]

itr: 32000 lr: 8.376e-05 train loss: 0.000000 (dt=4.60s)


training:  27%|‚ñà‚ñà‚ñã       | 32264/120000 [09:53<25:47, 56.68it/s]

itr: 32250 lr: 8.352e-05 train loss: 0.000000 (dt=4.60s)


training:  27%|‚ñà‚ñà‚ñã       | 32514/120000 [09:58<25:42, 56.71it/s]

itr: 32500 lr: 8.328e-05 train loss: 0.000000 (dt=4.60s)


training:  27%|‚ñà‚ñà‚ñã       | 32765/120000 [10:03<25:38, 56.69it/s]

itr: 32750 lr: 8.304e-05 train loss: 0.000000 (dt=4.60s)


training:  28%|‚ñà‚ñà‚ñä       | 33014/120000 [10:07<25:35, 56.67it/s]

itr: 33000 lr: 8.279e-05 train loss: 0.000000 (dt=4.60s)


training:  28%|‚ñà‚ñà‚ñä       | 33264/120000 [10:12<25:29, 56.70it/s]

itr: 33250 lr: 8.254e-05 train loss: 0.000000 (dt=4.60s)


training:  28%|‚ñà‚ñà‚ñä       | 33514/120000 [10:16<25:25, 56.69it/s]

itr: 33500 lr: 8.230e-05 train loss: 0.000000 (dt=4.60s)


training:  28%|‚ñà‚ñà‚ñä       | 33764/120000 [10:21<25:21, 56.69it/s]

itr: 33750 lr: 8.205e-05 train loss: 0.000000 (dt=4.60s)


training:  28%|‚ñà‚ñà‚ñä       | 34014/120000 [10:26<25:16, 56.68it/s]

itr: 34000 lr: 8.180e-05 train loss: 0.000000 (dt=4.60s)


training:  29%|‚ñà‚ñà‚ñä       | 34264/120000 [10:30<25:12, 56.70it/s]

itr: 34250 lr: 8.154e-05 train loss: 0.000000 (dt=4.60s)


training:  29%|‚ñà‚ñà‚ñâ       | 34514/120000 [10:35<25:08, 56.68it/s]

itr: 34500 lr: 8.129e-05 train loss: 0.000000 (dt=4.60s)


training:  29%|‚ñà‚ñà‚ñâ       | 34764/120000 [10:39<25:03, 56.70it/s]

itr: 34750 lr: 8.104e-05 train loss: 0.000000 (dt=4.60s)


training:  29%|‚ñà‚ñà‚ñâ       | 35014/120000 [10:44<24:59, 56.66it/s]

itr: 35000 lr: 8.078e-05 train loss: 0.000000 (dt=4.60s)


training:  29%|‚ñà‚ñà‚ñâ       | 35264/120000 [10:49<24:54, 56.69it/s]

itr: 35250 lr: 8.052e-05 train loss: 0.000000 (dt=4.60s)


training:  30%|‚ñà‚ñà‚ñâ       | 35514/120000 [10:53<24:50, 56.68it/s]

itr: 35500 lr: 8.026e-05 train loss: 0.000000 (dt=4.60s)


training:  30%|‚ñà‚ñà‚ñâ       | 35764/120000 [10:58<24:45, 56.70it/s]

itr: 35750 lr: 8.000e-05 train loss: 0.000000 (dt=4.60s)


training:  30%|‚ñà‚ñà‚ñà       | 36014/120000 [11:02<24:41, 56.69it/s]

itr: 36000 lr: 7.974e-05 train loss: 0.000000 (dt=4.60s)


training:  30%|‚ñà‚ñà‚ñà       | 36264/120000 [11:07<24:36, 56.70it/s]

itr: 36250 lr: 7.948e-05 train loss: 0.000000 (dt=4.60s)


training:  30%|‚ñà‚ñà‚ñà       | 36514/120000 [11:12<24:32, 56.70it/s]

itr: 36500 lr: 7.922e-05 train loss: 0.000000 (dt=4.60s)


training:  31%|‚ñà‚ñà‚ñà       | 36764/120000 [11:16<24:28, 56.69it/s]

itr: 36750 lr: 7.895e-05 train loss: 0.000000 (dt=4.60s)


training:  31%|‚ñà‚ñà‚ñà       | 37014/120000 [11:21<24:23, 56.71it/s]

itr: 37000 lr: 7.868e-05 train loss: 0.000000 (dt=4.60s)


training:  31%|‚ñà‚ñà‚ñà       | 37264/120000 [11:25<24:19, 56.68it/s]

itr: 37250 lr: 7.842e-05 train loss: 0.000000 (dt=4.60s)


training:  31%|‚ñà‚ñà‚ñà‚ñè      | 37514/120000 [11:30<24:15, 56.68it/s]

itr: 37500 lr: 7.815e-05 train loss: 0.000000 (dt=4.60s)


training:  31%|‚ñà‚ñà‚ñà‚ñè      | 37764/120000 [11:35<24:10, 56.70it/s]

itr: 37750 lr: 7.788e-05 train loss: 0.000000 (dt=4.60s)


training:  32%|‚ñà‚ñà‚ñà‚ñè      | 38014/120000 [11:39<24:05, 56.70it/s]

itr: 38000 lr: 7.761e-05 train loss: 0.000000 (dt=4.60s)


training:  32%|‚ñà‚ñà‚ñà‚ñè      | 38264/120000 [11:44<24:01, 56.69it/s]

itr: 38250 lr: 7.734e-05 train loss: 0.000000 (dt=4.60s)


training:  32%|‚ñà‚ñà‚ñà‚ñè      | 38514/120000 [11:48<23:56, 56.73it/s]

itr: 38500 lr: 7.706e-05 train loss: 0.000000 (dt=4.60s)


training:  32%|‚ñà‚ñà‚ñà‚ñè      | 38764/120000 [11:53<23:51, 56.74it/s]

itr: 38750 lr: 7.679e-05 train loss: 0.000000 (dt=4.60s)


training:  33%|‚ñà‚ñà‚ñà‚ñé      | 39014/120000 [11:58<23:47, 56.75it/s]

itr: 39000 lr: 7.651e-05 train loss: 0.000000 (dt=4.60s)


training:  33%|‚ñà‚ñà‚ñà‚ñé      | 39264/120000 [12:02<23:43, 56.71it/s]

itr: 39250 lr: 7.624e-05 train loss: 0.000000 (dt=4.60s)


training:  33%|‚ñà‚ñà‚ñà‚ñé      | 39514/120000 [12:07<23:39, 56.70it/s]

itr: 39500 lr: 7.596e-05 train loss: 0.000000 (dt=4.60s)


training:  33%|‚ñà‚ñà‚ñà‚ñé      | 39764/120000 [12:11<23:35, 56.70it/s]

itr: 39750 lr: 7.568e-05 train loss: 0.000000 (dt=4.60s)


training:  33%|‚ñà‚ñà‚ñà‚ñé      | 40014/120000 [12:16<23:48, 56.01it/s]

itr: 40000 lr: 7.540e-05 train loss: 0.000000 (dt=4.60s)
saved checkpoint: ./saved_models_grid_bs8192_20260103_075004/Checkpoint_N64_L1_dup0_iters40001.pt


training:  34%|‚ñà‚ñà‚ñà‚ñé      | 40264/120000 [12:21<23:26, 56.70it/s]

itr: 40250 lr: 7.512e-05 train loss: 0.000000 (dt=4.61s)


training:  34%|‚ñà‚ñà‚ñà‚ñç      | 40514/120000 [12:25<23:22, 56.68it/s]

itr: 40500 lr: 7.484e-05 train loss: 0.000000 (dt=4.60s)


training:  34%|‚ñà‚ñà‚ñà‚ñç      | 40764/120000 [12:30<23:18, 56.66it/s]

itr: 40750 lr: 7.455e-05 train loss: 0.000000 (dt=4.60s)


training:  34%|‚ñà‚ñà‚ñà‚ñç      | 41014/120000 [12:34<23:12, 56.71it/s]

itr: 41000 lr: 7.427e-05 train loss: 0.000000 (dt=4.60s)


training:  34%|‚ñà‚ñà‚ñà‚ñç      | 41264/120000 [12:39<23:09, 56.68it/s]

itr: 41250 lr: 7.398e-05 train loss: 0.000000 (dt=4.60s)


training:  35%|‚ñà‚ñà‚ñà‚ñç      | 41514/120000 [12:44<23:04, 56.68it/s]

itr: 41500 lr: 7.370e-05 train loss: 0.000000 (dt=4.60s)


training:  35%|‚ñà‚ñà‚ñà‚ñç      | 41764/120000 [12:48<23:00, 56.69it/s]

itr: 41750 lr: 7.341e-05 train loss: 0.000000 (dt=4.60s)


training:  35%|‚ñà‚ñà‚ñà‚ñå      | 42014/120000 [12:53<22:55, 56.70it/s]

itr: 42000 lr: 7.312e-05 train loss: 0.000000 (dt=4.60s)


training:  35%|‚ñà‚ñà‚ñà‚ñå      | 42264/120000 [12:58<22:50, 56.70it/s]

itr: 42250 lr: 7.283e-05 train loss: 0.000000 (dt=4.60s)


training:  35%|‚ñà‚ñà‚ñà‚ñå      | 42514/120000 [13:02<22:46, 56.72it/s]

itr: 42500 lr: 7.254e-05 train loss: 0.000000 (dt=4.60s)


training:  36%|‚ñà‚ñà‚ñà‚ñå      | 42764/120000 [13:07<22:42, 56.70it/s]

itr: 42750 lr: 7.225e-05 train loss: 0.000000 (dt=4.60s)


training:  36%|‚ñà‚ñà‚ñà‚ñå      | 43014/120000 [13:11<22:38, 56.68it/s]

itr: 43000 lr: 7.196e-05 train loss: 0.000000 (dt=4.60s)


training:  36%|‚ñà‚ñà‚ñà‚ñå      | 43264/120000 [13:16<22:33, 56.69it/s]

itr: 43250 lr: 7.167e-05 train loss: 0.000000 (dt=4.60s)


training:  36%|‚ñà‚ñà‚ñà‚ñã      | 43514/120000 [13:21<22:29, 56.67it/s]

itr: 43500 lr: 7.137e-05 train loss: 0.000001 (dt=4.60s)


training:  36%|‚ñà‚ñà‚ñà‚ñã      | 43764/120000 [13:25<22:24, 56.69it/s]

itr: 43750 lr: 7.108e-05 train loss: 0.000000 (dt=4.60s)


training:  37%|‚ñà‚ñà‚ñà‚ñã      | 44014/120000 [13:30<22:18, 56.75it/s]

itr: 44000 lr: 7.078e-05 train loss: 0.000000 (dt=4.60s)


training:  37%|‚ñà‚ñà‚ñà‚ñã      | 44264/120000 [13:34<22:16, 56.68it/s]

itr: 44250 lr: 7.049e-05 train loss: 0.000000 (dt=4.60s)


training:  37%|‚ñà‚ñà‚ñà‚ñã      | 44514/120000 [13:39<22:11, 56.69it/s]

itr: 44500 lr: 7.019e-05 train loss: 0.000005 (dt=4.60s)


training:  37%|‚ñà‚ñà‚ñà‚ñã      | 44764/120000 [13:44<22:07, 56.67it/s]

itr: 44750 lr: 6.989e-05 train loss: 0.000000 (dt=4.60s)


training:  38%|‚ñà‚ñà‚ñà‚ñä      | 45014/120000 [13:48<22:02, 56.68it/s]

itr: 45000 lr: 6.959e-05 train loss: 0.000000 (dt=4.60s)


training:  38%|‚ñà‚ñà‚ñà‚ñä      | 45264/120000 [13:53<21:58, 56.70it/s]

itr: 45250 lr: 6.929e-05 train loss: 0.000000 (dt=4.60s)


training:  38%|‚ñà‚ñà‚ñà‚ñä      | 45514/120000 [13:57<21:53, 56.70it/s]

itr: 45500 lr: 6.899e-05 train loss: 0.000000 (dt=4.60s)


training:  38%|‚ñà‚ñà‚ñà‚ñä      | 45764/120000 [14:02<21:49, 56.70it/s]

itr: 45750 lr: 6.869e-05 train loss: 0.000000 (dt=4.60s)


training:  38%|‚ñà‚ñà‚ñà‚ñä      | 46014/120000 [14:07<21:44, 56.71it/s]

itr: 46000 lr: 6.839e-05 train loss: 0.000000 (dt=4.60s)


training:  39%|‚ñà‚ñà‚ñà‚ñä      | 46264/120000 [14:11<21:40, 56.68it/s]

itr: 46250 lr: 6.809e-05 train loss: 0.000000 (dt=4.60s)


training:  39%|‚ñà‚ñà‚ñà‚ñâ      | 46514/120000 [14:16<21:36, 56.68it/s]

itr: 46500 lr: 6.778e-05 train loss: 0.000000 (dt=4.60s)


training:  39%|‚ñà‚ñà‚ñà‚ñâ      | 46764/120000 [14:20<21:32, 56.67it/s]

itr: 46750 lr: 6.748e-05 train loss: 0.000000 (dt=4.60s)


training:  39%|‚ñà‚ñà‚ñà‚ñâ      | 47014/120000 [14:25<21:27, 56.69it/s]

itr: 47000 lr: 6.717e-05 train loss: 0.000000 (dt=4.60s)


training:  39%|‚ñà‚ñà‚ñà‚ñâ      | 47264/120000 [14:30<21:23, 56.69it/s]

itr: 47250 lr: 6.687e-05 train loss: 0.000000 (dt=4.60s)


training:  40%|‚ñà‚ñà‚ñà‚ñâ      | 47514/120000 [14:34<21:18, 56.70it/s]

itr: 47500 lr: 6.656e-05 train loss: 0.000000 (dt=4.60s)


training:  40%|‚ñà‚ñà‚ñà‚ñâ      | 47764/120000 [14:39<21:13, 56.70it/s]

itr: 47750 lr: 6.625e-05 train loss: 0.000000 (dt=4.60s)


training:  40%|‚ñà‚ñà‚ñà‚ñà      | 48014/120000 [14:43<21:09, 56.70it/s]

itr: 48000 lr: 6.594e-05 train loss: 0.000000 (dt=4.60s)


training:  40%|‚ñà‚ñà‚ñà‚ñà      | 48264/120000 [14:48<21:05, 56.70it/s]

itr: 48250 lr: 6.564e-05 train loss: 0.000000 (dt=4.60s)


training:  40%|‚ñà‚ñà‚ñà‚ñà      | 48514/120000 [14:53<21:00, 56.73it/s]

itr: 48500 lr: 6.533e-05 train loss: 0.000000 (dt=4.60s)


training:  41%|‚ñà‚ñà‚ñà‚ñà      | 48764/120000 [14:57<20:56, 56.68it/s]

itr: 48750 lr: 6.502e-05 train loss: 0.000000 (dt=4.60s)


training:  41%|‚ñà‚ñà‚ñà‚ñà      | 49014/120000 [15:02<20:51, 56.71it/s]

itr: 49000 lr: 6.471e-05 train loss: 0.000000 (dt=4.60s)


training:  41%|‚ñà‚ñà‚ñà‚ñà      | 49264/120000 [15:06<20:47, 56.69it/s]

itr: 49250 lr: 6.439e-05 train loss: 0.000000 (dt=4.60s)


training:  41%|‚ñà‚ñà‚ñà‚ñà‚ñè     | 49514/120000 [15:11<20:42, 56.71it/s]

itr: 49500 lr: 6.408e-05 train loss: 0.000000 (dt=4.60s)


training:  41%|‚ñà‚ñà‚ñà‚ñà‚ñè     | 49764/120000 [15:16<20:38, 56.69it/s]

itr: 49750 lr: 6.377e-05 train loss: 0.000000 (dt=4.60s)


training:  42%|‚ñà‚ñà‚ñà‚ñà‚ñè     | 50014/120000 [15:20<20:34, 56.71it/s]

itr: 50000 lr: 6.346e-05 train loss: 0.000000 (dt=4.60s)


training:  42%|‚ñà‚ñà‚ñà‚ñà‚ñè     | 50264/120000 [15:25<20:30, 56.68it/s]

itr: 50250 lr: 6.314e-05 train loss: 0.000000 (dt=4.60s)


training:  42%|‚ñà‚ñà‚ñà‚ñà‚ñè     | 50514/120000 [15:29<20:25, 56.69it/s]

itr: 50500 lr: 6.283e-05 train loss: 0.000000 (dt=4.60s)


training:  42%|‚ñà‚ñà‚ñà‚ñà‚ñè     | 50764/120000 [15:34<20:21, 56.69it/s]

itr: 50750 lr: 6.252e-05 train loss: 0.000000 (dt=4.60s)


training:  43%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 51014/120000 [15:39<20:17, 56.66it/s]

itr: 51000 lr: 6.220e-05 train loss: 0.000000 (dt=4.60s)


training:  43%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 51265/120000 [15:43<20:13, 56.64it/s]

itr: 51250 lr: 6.189e-05 train loss: 0.000000 (dt=4.60s)


training:  43%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 51514/120000 [15:48<20:08, 56.69it/s]

itr: 51500 lr: 6.157e-05 train loss: 0.000000 (dt=4.60s)


training:  43%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 51764/120000 [15:52<20:04, 56.67it/s]

itr: 51750 lr: 6.125e-05 train loss: 0.000000 (dt=4.60s)


training:  43%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 52014/120000 [15:57<19:59, 56.69it/s]

itr: 52000 lr: 6.094e-05 train loss: 0.000000 (dt=4.60s)


training:  44%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 52264/120000 [16:02<19:55, 56.68it/s]

itr: 52250 lr: 6.062e-05 train loss: 0.000001 (dt=4.60s)


training:  44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 52514/120000 [16:06<19:50, 56.70it/s]

itr: 52500 lr: 6.030e-05 train loss: 0.000000 (dt=4.60s)


training:  44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 52764/120000 [16:11<19:46, 56.68it/s]

itr: 52750 lr: 5.998e-05 train loss: 0.000000 (dt=4.60s)


training:  44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 53014/120000 [16:15<19:41, 56.67it/s]

itr: 53000 lr: 5.966e-05 train loss: 0.000000 (dt=4.60s)


training:  44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 53264/120000 [16:20<19:37, 56.69it/s]

itr: 53250 lr: 5.934e-05 train loss: 0.000000 (dt=4.60s)


training:  45%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 53514/120000 [16:25<19:32, 56.72it/s]

itr: 53500 lr: 5.902e-05 train loss: 0.000000 (dt=4.60s)


training:  45%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 53764/120000 [16:29<19:27, 56.71it/s]

itr: 53750 lr: 5.870e-05 train loss: 0.000000 (dt=4.60s)


training:  45%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 54014/120000 [16:34<19:23, 56.70it/s]

itr: 54000 lr: 5.838e-05 train loss: 0.000000 (dt=4.60s)


training:  45%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 54264/120000 [16:38<19:20, 56.66it/s]

itr: 54250 lr: 5.806e-05 train loss: 0.000000 (dt=4.60s)


training:  45%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 54515/120000 [16:43<19:15, 56.69it/s]

itr: 54500 lr: 5.774e-05 train loss: 0.000000 (dt=4.60s)


training:  46%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 54764/120000 [16:48<19:10, 56.72it/s]

itr: 54750 lr: 5.742e-05 train loss: 0.000000 (dt=4.60s)


training:  46%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 55014/120000 [16:52<19:06, 56.70it/s]

itr: 55000 lr: 5.710e-05 train loss: 0.000000 (dt=4.60s)


training:  46%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 55264/120000 [16:57<19:02, 56.68it/s]

itr: 55250 lr: 5.678e-05 train loss: 0.000000 (dt=4.60s)


training:  46%|‚ñà‚ñà‚ñà‚ñà‚ñã     | 55514/120000 [17:01<18:57, 56.70it/s]

itr: 55500 lr: 5.646e-05 train loss: 0.000000 (dt=4.60s)


training:  46%|‚ñà‚ñà‚ñà‚ñà‚ñã     | 55764/120000 [17:06<18:53, 56.67it/s]

itr: 55750 lr: 5.613e-05 train loss: 0.000000 (dt=4.60s)


training:  47%|‚ñà‚ñà‚ñà‚ñà‚ñã     | 56014/120000 [17:11<18:48, 56.69it/s]

itr: 56000 lr: 5.581e-05 train loss: 0.000000 (dt=4.60s)


training:  47%|‚ñà‚ñà‚ñà‚ñà‚ñã     | 56264/120000 [17:15<18:44, 56.68it/s]

itr: 56250 lr: 5.549e-05 train loss: 0.000000 (dt=4.60s)


training:  47%|‚ñà‚ñà‚ñà‚ñà‚ñã     | 56514/120000 [17:20<18:40, 56.68it/s]

itr: 56500 lr: 5.517e-05 train loss: 0.000000 (dt=4.60s)


training:  47%|‚ñà‚ñà‚ñà‚ñà‚ñã     | 56764/120000 [17:24<18:35, 56.66it/s]

itr: 56750 lr: 5.484e-05 train loss: 0.000000 (dt=4.60s)


training:  48%|‚ñà‚ñà‚ñà‚ñà‚ñä     | 57015/120000 [17:29<18:31, 56.67it/s]

itr: 57000 lr: 5.452e-05 train loss: 0.000000 (dt=4.60s)


training:  48%|‚ñà‚ñà‚ñà‚ñà‚ñä     | 57264/120000 [17:34<18:26, 56.68it/s]

itr: 57250 lr: 5.420e-05 train loss: 0.000000 (dt=4.60s)


training:  48%|‚ñà‚ñà‚ñà‚ñà‚ñä     | 57514/120000 [17:38<18:22, 56.69it/s]

itr: 57500 lr: 5.387e-05 train loss: 0.000000 (dt=4.60s)


training:  48%|‚ñà‚ñà‚ñà‚ñà‚ñä     | 57764/120000 [17:43<18:17, 56.70it/s]

itr: 57750 lr: 5.355e-05 train loss: 0.000000 (dt=4.60s)


training:  48%|‚ñà‚ñà‚ñà‚ñà‚ñä     | 58014/120000 [17:47<18:13, 56.69it/s]

itr: 58000 lr: 5.322e-05 train loss: 0.000000 (dt=4.60s)


training:  49%|‚ñà‚ñà‚ñà‚ñà‚ñä     | 58264/120000 [17:52<18:09, 56.69it/s]

itr: 58250 lr: 5.290e-05 train loss: 0.000000 (dt=4.60s)


training:  49%|‚ñà‚ñà‚ñà‚ñà‚ñâ     | 58514/120000 [17:57<18:04, 56.69it/s]

itr: 58500 lr: 5.258e-05 train loss: 0.000000 (dt=4.60s)


training:  49%|‚ñà‚ñà‚ñà‚ñà‚ñâ     | 58764/120000 [18:01<18:00, 56.66it/s]

itr: 58750 lr: 5.225e-05 train loss: 0.000000 (dt=4.60s)


training:  49%|‚ñà‚ñà‚ñà‚ñà‚ñâ     | 59014/120000 [18:06<17:55, 56.69it/s]

itr: 59000 lr: 5.193e-05 train loss: 0.000000 (dt=4.60s)


training:  49%|‚ñà‚ñà‚ñà‚ñà‚ñâ     | 59264/120000 [18:10<17:50, 56.71it/s]

itr: 59250 lr: 5.160e-05 train loss: 0.000000 (dt=4.60s)


training:  50%|‚ñà‚ñà‚ñà‚ñà‚ñâ     | 59514/120000 [18:15<17:46, 56.70it/s]

itr: 59500 lr: 5.128e-05 train loss: 0.000000 (dt=4.60s)


training:  50%|‚ñà‚ñà‚ñà‚ñà‚ñâ     | 59764/120000 [18:20<17:42, 56.69it/s]

itr: 59750 lr: 5.095e-05 train loss: 0.000000 (dt=4.60s)


training:  50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 60014/120000 [18:24<17:51, 55.98it/s]

itr: 60000 lr: 5.063e-05 train loss: 0.000000 (dt=4.60s)
saved checkpoint: ./saved_models_grid_bs8192_20260103_075004/Checkpoint_N64_L1_dup0_iters60001.pt


training:  50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 60264/120000 [18:29<17:25, 57.16it/s]

itr: 60250 lr: 5.031e-05 train loss: 0.000000 (dt=4.61s)


training:  50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 60514/120000 [18:34<17:29, 56.68it/s]

itr: 60500 lr: 4.998e-05 train loss: 0.000000 (dt=4.60s)


training:  51%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 60764/120000 [18:38<17:24, 56.70it/s]

itr: 60750 lr: 4.966e-05 train loss: 0.000000 (dt=4.60s)


training:  51%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 61014/120000 [18:43<17:20, 56.71it/s]

itr: 61000 lr: 4.933e-05 train loss: 0.000000 (dt=4.60s)


training:  51%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 61264/120000 [18:47<17:16, 56.67it/s]

itr: 61250 lr: 4.901e-05 train loss: 0.000000 (dt=4.60s)


training:  51%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 61514/120000 [18:52<17:11, 56.68it/s]

itr: 61500 lr: 4.868e-05 train loss: 0.000003 (dt=4.60s)


training:  51%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 61764/120000 [18:57<17:07, 56.67it/s]

itr: 61750 lr: 4.836e-05 train loss: 0.000000 (dt=4.60s)


training:  52%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 62014/120000 [19:01<17:02, 56.69it/s]

itr: 62000 lr: 4.803e-05 train loss: 0.000000 (dt=4.60s)


training:  52%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 62264/120000 [19:06<16:59, 56.65it/s]

itr: 62250 lr: 4.771e-05 train loss: 0.000000 (dt=4.60s)


training:  52%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 62514/120000 [19:10<16:53, 56.69it/s]

itr: 62500 lr: 4.739e-05 train loss: 0.000000 (dt=4.60s)


training:  52%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 62764/120000 [19:15<16:49, 56.69it/s]

itr: 62750 lr: 4.706e-05 train loss: 0.000000 (dt=4.60s)


training:  53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 63014/120000 [19:20<16:44, 56.71it/s]

itr: 63000 lr: 4.674e-05 train loss: 0.000000 (dt=4.60s)


training:  53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 63264/120000 [19:24<16:40, 56.72it/s]

itr: 63250 lr: 4.642e-05 train loss: 0.000000 (dt=4.60s)


training:  53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 63514/120000 [19:29<16:36, 56.70it/s]

itr: 63500 lr: 4.609e-05 train loss: 0.000000 (dt=4.60s)


training:  53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 63764/120000 [19:33<16:31, 56.72it/s]

itr: 63750 lr: 4.577e-05 train loss: 0.000000 (dt=4.60s)


training:  53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 64014/120000 [19:38<16:28, 56.66it/s]

itr: 64000 lr: 4.545e-05 train loss: 0.000000 (dt=4.60s)


training:  54%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 64264/120000 [19:43<16:23, 56.69it/s]

itr: 64250 lr: 4.512e-05 train loss: 0.000000 (dt=4.60s)


training:  54%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç    | 64514/120000 [19:47<16:18, 56.69it/s]

itr: 64500 lr: 4.480e-05 train loss: 0.000000 (dt=4.60s)


training:  54%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç    | 64764/120000 [19:52<16:14, 56.67it/s]

itr: 64750 lr: 4.448e-05 train loss: 0.000000 (dt=4.60s)


training:  54%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç    | 65015/120000 [19:56<16:10, 56.67it/s]

itr: 65000 lr: 4.416e-05 train loss: 0.000000 (dt=4.60s)


training:  54%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç    | 65264/120000 [20:01<16:05, 56.69it/s]

itr: 65250 lr: 4.384e-05 train loss: 0.000000 (dt=4.60s)


training:  55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç    | 65514/120000 [20:06<16:01, 56.68it/s]

itr: 65500 lr: 4.351e-05 train loss: 0.000000 (dt=4.60s)


training:  55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç    | 65764/120000 [20:10<15:56, 56.68it/s]

itr: 65750 lr: 4.319e-05 train loss: 0.000000 (dt=4.60s)


training:  55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 66014/120000 [20:15<15:52, 56.68it/s]

itr: 66000 lr: 4.287e-05 train loss: 0.000000 (dt=4.60s)


training:  55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 66264/120000 [20:19<15:48, 56.65it/s]

itr: 66250 lr: 4.255e-05 train loss: 0.000000 (dt=4.60s)


training:  55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 66514/120000 [20:24<15:43, 56.70it/s]

itr: 66500 lr: 4.223e-05 train loss: 0.000000 (dt=4.60s)


training:  56%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 66764/120000 [20:29<15:39, 56.67it/s]

itr: 66750 lr: 4.191e-05 train loss: 0.000000 (dt=4.60s)


training:  56%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 67014/120000 [20:33<15:34, 56.68it/s]

itr: 67000 lr: 4.159e-05 train loss: 0.000000 (dt=4.60s)


training:  56%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 67264/120000 [20:38<15:30, 56.69it/s]

itr: 67250 lr: 4.127e-05 train loss: 0.000000 (dt=4.60s)


training:  56%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã    | 67514/120000 [20:42<15:26, 56.68it/s]

itr: 67500 lr: 4.095e-05 train loss: 0.000000 (dt=4.60s)


training:  56%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã    | 67764/120000 [20:47<15:21, 56.68it/s]

itr: 67750 lr: 4.064e-05 train loss: 0.000000 (dt=4.60s)


training:  57%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã    | 68014/120000 [20:52<15:16, 56.71it/s]

itr: 68000 lr: 4.032e-05 train loss: 0.000000 (dt=4.60s)


training:  57%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã    | 68264/120000 [20:56<15:12, 56.67it/s]

itr: 68250 lr: 4.000e-05 train loss: 0.000000 (dt=4.60s)


training:  57%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã    | 68514/120000 [21:01<15:07, 56.72it/s]

itr: 68500 lr: 3.968e-05 train loss: 0.000000 (dt=4.60s)


training:  57%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã    | 68764/120000 [21:05<15:03, 56.69it/s]

itr: 68750 lr: 3.937e-05 train loss: 0.000000 (dt=4.60s)


training:  58%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä    | 69014/120000 [21:10<14:59, 56.70it/s]

itr: 69000 lr: 3.905e-05 train loss: 0.000000 (dt=4.60s)


training:  58%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä    | 69264/120000 [21:15<14:53, 56.76it/s]

itr: 69250 lr: 3.874e-05 train loss: 0.000000 (dt=4.60s)


training:  58%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä    | 69514/120000 [21:19<14:51, 56.66it/s]

itr: 69500 lr: 3.842e-05 train loss: 0.000000 (dt=4.60s)


training:  58%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä    | 69764/120000 [21:24<14:46, 56.68it/s]

itr: 69750 lr: 3.811e-05 train loss: 0.000000 (dt=4.60s)


training:  58%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä    | 70014/120000 [21:28<14:41, 56.70it/s]

itr: 70000 lr: 3.779e-05 train loss: 0.000000 (dt=4.60s)


training:  59%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä    | 70264/120000 [21:33<14:37, 56.68it/s]

itr: 70250 lr: 3.748e-05 train loss: 0.000000 (dt=4.60s)


training:  59%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ    | 70514/120000 [21:38<14:33, 56.68it/s]

itr: 70500 lr: 3.717e-05 train loss: 0.000000 (dt=4.60s)


training:  59%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ    | 70764/120000 [21:42<14:28, 56.66it/s]

itr: 70750 lr: 3.685e-05 train loss: 0.000000 (dt=4.60s)


training:  59%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ    | 71014/120000 [21:47<14:23, 56.70it/s]

itr: 71000 lr: 3.654e-05 train loss: 0.000000 (dt=4.60s)


training:  59%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ    | 71264/120000 [21:51<14:20, 56.66it/s]

itr: 71250 lr: 3.623e-05 train loss: 0.000000 (dt=4.60s)


training:  60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ    | 71514/120000 [21:56<14:15, 56.70it/s]

itr: 71500 lr: 3.592e-05 train loss: 0.000000 (dt=4.60s)


training:  60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ    | 71764/120000 [22:01<14:10, 56.70it/s]

itr: 71750 lr: 3.561e-05 train loss: 0.000000 (dt=4.60s)


training:  60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 72014/120000 [22:05<14:06, 56.68it/s]

itr: 72000 lr: 3.530e-05 train loss: 0.000000 (dt=4.60s)


training:  60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 72264/120000 [22:10<14:02, 56.69it/s]

itr: 72250 lr: 3.499e-05 train loss: 0.000000 (dt=4.60s)


training:  60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 72514/120000 [22:14<13:57, 56.73it/s]

itr: 72500 lr: 3.469e-05 train loss: 0.000000 (dt=4.60s)


training:  61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 72764/120000 [22:19<13:53, 56.68it/s]

itr: 72750 lr: 3.438e-05 train loss: 0.000000 (dt=4.60s)


training:  61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 73014/120000 [22:24<13:49, 56.66it/s]

itr: 73000 lr: 3.407e-05 train loss: 0.000000 (dt=4.60s)


training:  61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 73264/120000 [22:28<13:44, 56.68it/s]

itr: 73250 lr: 3.377e-05 train loss: 0.000000 (dt=4.60s)


training:  61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 73514/120000 [22:33<13:40, 56.67it/s]

itr: 73500 lr: 3.346e-05 train loss: 0.000000 (dt=4.60s)


training:  61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 73764/120000 [22:37<13:36, 56.66it/s]

itr: 73750 lr: 3.316e-05 train loss: 0.000000 (dt=4.60s)


training:  62%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 74014/120000 [22:42<13:31, 56.70it/s]

itr: 74000 lr: 3.285e-05 train loss: 0.000000 (dt=4.60s)


training:  62%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 74264/120000 [22:47<13:26, 56.71it/s]

itr: 74250 lr: 3.255e-05 train loss: 0.000000 (dt=4.60s)


training:  62%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 74514/120000 [22:51<13:22, 56.68it/s]

itr: 74500 lr: 3.225e-05 train loss: 0.000000 (dt=4.60s)


training:  62%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 74764/120000 [22:56<13:17, 56.69it/s]

itr: 74750 lr: 3.195e-05 train loss: 0.000000 (dt=4.60s)


training:  63%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé   | 75014/120000 [23:00<13:13, 56.68it/s]

itr: 75000 lr: 3.165e-05 train loss: 0.000000 (dt=4.60s)


training:  63%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé   | 75264/120000 [23:05<13:09, 56.69it/s]

itr: 75250 lr: 3.135e-05 train loss: 0.000000 (dt=4.60s)


training:  63%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé   | 75514/120000 [23:10<13:04, 56.69it/s]

itr: 75500 lr: 3.105e-05 train loss: 0.000000 (dt=4.60s)


training:  63%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé   | 75764/120000 [23:14<13:00, 56.69it/s]

itr: 75750 lr: 3.075e-05 train loss: 0.000000 (dt=4.60s)


training:  63%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé   | 76014/120000 [23:19<12:55, 56.68it/s]

itr: 76000 lr: 3.045e-05 train loss: 0.000000 (dt=4.60s)


training:  64%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé   | 76264/120000 [23:24<12:51, 56.67it/s]

itr: 76250 lr: 3.016e-05 train loss: 0.000000 (dt=4.60s)


training:  64%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç   | 76515/120000 [23:28<12:47, 56.66it/s]

itr: 76500 lr: 2.986e-05 train loss: 0.000000 (dt=4.60s)


training:  64%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç   | 76764/120000 [23:33<12:43, 56.66it/s]

itr: 76750 lr: 2.957e-05 train loss: 0.000000 (dt=4.60s)


training:  64%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç   | 77014/120000 [23:37<12:38, 56.71it/s]

itr: 77000 lr: 2.927e-05 train loss: 0.000000 (dt=4.60s)


training:  64%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç   | 77264/120000 [23:42<12:34, 56.68it/s]

itr: 77250 lr: 2.898e-05 train loss: 0.000000 (dt=4.60s)


training:  65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç   | 77514/120000 [23:47<12:29, 56.69it/s]

itr: 77500 lr: 2.869e-05 train loss: 0.000000 (dt=4.60s)


training:  65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç   | 77764/120000 [23:51<12:24, 56.70it/s]

itr: 77750 lr: 2.840e-05 train loss: 0.000000 (dt=4.60s)


training:  65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 78014/120000 [23:56<12:20, 56.74it/s]

itr: 78000 lr: 2.811e-05 train loss: 0.000000 (dt=4.60s)


training:  65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 78264/120000 [24:00<12:16, 56.68it/s]

itr: 78250 lr: 2.782e-05 train loss: 0.000000 (dt=4.60s)


training:  65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 78514/120000 [24:05<12:11, 56.74it/s]

itr: 78500 lr: 2.753e-05 train loss: 0.000000 (dt=4.60s)


training:  66%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 78764/120000 [24:10<12:07, 56.71it/s]

itr: 78750 lr: 2.724e-05 train loss: 0.000000 (dt=4.60s)


training:  66%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 79014/120000 [24:14<12:03, 56.69it/s]

itr: 79000 lr: 2.696e-05 train loss: 0.000000 (dt=4.60s)


training:  66%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 79264/120000 [24:19<11:58, 56.71it/s]

itr: 79250 lr: 2.667e-05 train loss: 0.000000 (dt=4.60s)


training:  66%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã   | 79514/120000 [24:23<11:54, 56.69it/s]

itr: 79500 lr: 2.639e-05 train loss: 0.000000 (dt=4.60s)


training:  66%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã   | 79764/120000 [24:28<11:50, 56.65it/s]

itr: 79750 lr: 2.611e-05 train loss: 0.000000 (dt=4.60s)


training:  67%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã   | 80014/120000 [24:33<11:53, 56.04it/s]

itr: 80000 lr: 2.582e-05 train loss: 0.000000 (dt=4.60s)
saved checkpoint: ./saved_models_grid_bs8192_20260103_075004/Checkpoint_N64_L1_dup0_iters80001.pt


training:  67%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã   | 80264/120000 [24:37<11:35, 57.16it/s]

itr: 80250 lr: 2.554e-05 train loss: 0.000000 (dt=4.61s)


training:  67%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã   | 80514/120000 [24:42<11:36, 56.66it/s]

itr: 80500 lr: 2.526e-05 train loss: 0.000000 (dt=4.60s)


training:  67%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã   | 80764/120000 [24:46<11:32, 56.68it/s]

itr: 80750 lr: 2.499e-05 train loss: 0.000000 (dt=4.60s)


training:  68%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä   | 81014/120000 [24:51<11:27, 56.69it/s]

itr: 81000 lr: 2.471e-05 train loss: 0.000000 (dt=4.60s)


training:  68%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä   | 81264/120000 [24:56<11:23, 56.67it/s]

itr: 81250 lr: 2.443e-05 train loss: 0.000000 (dt=4.60s)


training:  68%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä   | 81514/120000 [25:00<11:18, 56.68it/s]

itr: 81500 lr: 2.416e-05 train loss: 0.000000 (dt=4.60s)


training:  68%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä   | 81764/120000 [25:05<11:14, 56.69it/s]

itr: 81750 lr: 2.388e-05 train loss: 0.000000 (dt=4.60s)


training:  68%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä   | 82014/120000 [25:09<11:10, 56.67it/s]

itr: 82000 lr: 2.361e-05 train loss: 0.000000 (dt=4.60s)


training:  69%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä   | 82264/120000 [25:14<11:05, 56.69it/s]

itr: 82250 lr: 2.334e-05 train loss: 0.000000 (dt=4.60s)


training:  69%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 82514/120000 [25:19<11:01, 56.67it/s]

itr: 82500 lr: 2.307e-05 train loss: 0.000000 (dt=4.60s)


training:  69%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 82764/120000 [25:23<10:56, 56.68it/s]

itr: 82750 lr: 2.280e-05 train loss: 0.000000 (dt=4.60s)


training:  69%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 83014/120000 [25:28<10:52, 56.66it/s]

itr: 83000 lr: 2.253e-05 train loss: 0.000000 (dt=4.60s)


training:  69%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 83264/120000 [25:32<10:48, 56.67it/s]

itr: 83250 lr: 2.226e-05 train loss: 0.000000 (dt=4.60s)


training:  70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 83514/120000 [25:37<10:43, 56.70it/s]

itr: 83500 lr: 2.200e-05 train loss: 0.000000 (dt=4.60s)


training:  70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 83764/120000 [25:42<10:38, 56.71it/s]

itr: 83750 lr: 2.173e-05 train loss: 0.000000 (dt=4.60s)


training:  70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 84014/120000 [25:46<10:34, 56.69it/s]

itr: 84000 lr: 2.147e-05 train loss: 0.000000 (dt=4.60s)


training:  70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 84264/120000 [25:51<10:30, 56.69it/s]

itr: 84250 lr: 2.121e-05 train loss: 0.000000 (dt=4.60s)


training:  70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 84514/120000 [25:55<10:25, 56.69it/s]

itr: 84500 lr: 2.094e-05 train loss: 0.000000 (dt=4.60s)


training:  71%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 84764/120000 [26:00<10:21, 56.71it/s]

itr: 84750 lr: 2.068e-05 train loss: 0.000000 (dt=4.60s)


training:  71%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 85014/120000 [26:05<10:16, 56.71it/s]

itr: 85000 lr: 2.043e-05 train loss: 0.000000 (dt=4.60s)


training:  71%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 85264/120000 [26:09<10:12, 56.67it/s]

itr: 85250 lr: 2.017e-05 train loss: 0.000000 (dt=4.60s)


training:  71%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè  | 85514/120000 [26:14<10:08, 56.70it/s]

itr: 85500 lr: 1.991e-05 train loss: 0.000000 (dt=4.60s)


training:  71%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè  | 85764/120000 [26:18<10:03, 56.74it/s]

itr: 85750 lr: 1.966e-05 train loss: 0.000000 (dt=4.60s)


training:  72%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè  | 86014/120000 [26:23<09:59, 56.68it/s]

itr: 86000 lr: 1.941e-05 train loss: 0.000000 (dt=4.60s)


training:  72%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè  | 86264/120000 [26:28<09:55, 56.65it/s]

itr: 86250 lr: 1.915e-05 train loss: 0.000000 (dt=4.60s)


training:  72%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè  | 86514/120000 [26:32<09:50, 56.68it/s]

itr: 86500 lr: 1.890e-05 train loss: 0.000000 (dt=4.60s)


training:  72%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè  | 86764/120000 [26:37<09:46, 56.69it/s]

itr: 86750 lr: 1.865e-05 train loss: 0.000000 (dt=4.60s)


training:  73%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé  | 87014/120000 [26:41<09:41, 56.69it/s]

itr: 87000 lr: 1.841e-05 train loss: 0.000000 (dt=4.60s)


training:  73%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé  | 87264/120000 [26:46<09:37, 56.68it/s]

itr: 87250 lr: 1.816e-05 train loss: 0.000000 (dt=4.60s)


training:  73%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé  | 87514/120000 [26:51<09:32, 56.70it/s]

itr: 87500 lr: 1.792e-05 train loss: 0.000000 (dt=4.60s)


training:  73%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé  | 87764/120000 [26:55<09:28, 56.69it/s]

itr: 87750 lr: 1.767e-05 train loss: 0.000000 (dt=4.60s)


training:  73%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé  | 88014/120000 [27:00<09:24, 56.70it/s]

itr: 88000 lr: 1.743e-05 train loss: 0.000000 (dt=4.60s)


training:  74%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé  | 88264/120000 [27:04<09:19, 56.72it/s]

itr: 88250 lr: 1.719e-05 train loss: 0.000000 (dt=4.60s)


training:  74%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç  | 88514/120000 [27:09<09:15, 56.68it/s]

itr: 88500 lr: 1.695e-05 train loss: 0.000000 (dt=4.60s)


training:  74%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç  | 88764/120000 [27:14<09:10, 56.72it/s]

itr: 88750 lr: 1.671e-05 train loss: 0.000000 (dt=4.60s)


training:  74%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç  | 89014/120000 [27:18<09:06, 56.65it/s]

itr: 89000 lr: 1.648e-05 train loss: 0.000000 (dt=4.60s)


training:  74%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç  | 89264/120000 [27:23<09:01, 56.73it/s]

itr: 89250 lr: 1.624e-05 train loss: 0.000000 (dt=4.60s)


training:  75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç  | 89514/120000 [27:27<08:57, 56.69it/s]

itr: 89500 lr: 1.601e-05 train loss: 0.000000 (dt=4.60s)


training:  75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç  | 89764/120000 [27:32<08:53, 56.67it/s]

itr: 89750 lr: 1.577e-05 train loss: 0.000000 (dt=4.60s)


training:  75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 90014/120000 [27:37<08:48, 56.69it/s]

itr: 90000 lr: 1.554e-05 train loss: 0.000000 (dt=4.60s)


training:  75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 90264/120000 [27:41<08:44, 56.66it/s]

itr: 90250 lr: 1.532e-05 train loss: 0.000000 (dt=4.60s)


training:  75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 90514/120000 [27:46<08:40, 56.68it/s]

itr: 90500 lr: 1.509e-05 train loss: 0.000000 (dt=4.60s)


training:  76%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 90764/120000 [27:50<08:35, 56.69it/s]

itr: 90750 lr: 1.486e-05 train loss: 0.000000 (dt=4.60s)


training:  76%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 91014/120000 [27:55<08:31, 56.68it/s]

itr: 91000 lr: 1.464e-05 train loss: 0.000000 (dt=4.60s)


training:  76%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 91264/120000 [28:00<08:26, 56.69it/s]

itr: 91250 lr: 1.441e-05 train loss: 0.000000 (dt=4.60s)


training:  76%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã  | 91514/120000 [28:04<08:22, 56.68it/s]

itr: 91500 lr: 1.419e-05 train loss: 0.000000 (dt=4.60s)


training:  76%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã  | 91764/120000 [28:09<08:18, 56.67it/s]

itr: 91750 lr: 1.397e-05 train loss: 0.000000 (dt=4.60s)


training:  77%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã  | 92014/120000 [28:13<08:13, 56.68it/s]

itr: 92000 lr: 1.375e-05 train loss: 0.000000 (dt=4.60s)


training:  77%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã  | 92264/120000 [28:18<08:09, 56.68it/s]

itr: 92250 lr: 1.354e-05 train loss: 0.000000 (dt=4.60s)


training:  77%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã  | 92514/120000 [28:23<08:04, 56.69it/s]

itr: 92500 lr: 1.332e-05 train loss: 0.000000 (dt=4.60s)


training:  77%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã  | 92765/120000 [28:27<08:00, 56.67it/s]

itr: 92750 lr: 1.311e-05 train loss: 0.000000 (dt=4.60s)


training:  78%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 93014/120000 [28:32<07:56, 56.69it/s]

itr: 93000 lr: 1.290e-05 train loss: 0.000000 (dt=4.60s)


training:  78%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 93265/120000 [28:37<07:51, 56.68it/s]

itr: 93250 lr: 1.269e-05 train loss: 0.000000 (dt=4.60s)


training:  78%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 93514/120000 [28:41<07:47, 56.69it/s]

itr: 93500 lr: 1.248e-05 train loss: 0.000000 (dt=4.60s)


training:  78%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 93764/120000 [28:46<07:42, 56.75it/s]

itr: 93750 lr: 1.227e-05 train loss: 0.000000 (dt=4.60s)


training:  78%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 94014/120000 [28:50<07:38, 56.71it/s]

itr: 94000 lr: 1.207e-05 train loss: 0.000000 (dt=4.60s)


training:  79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 94264/120000 [28:55<07:33, 56.74it/s]

itr: 94250 lr: 1.186e-05 train loss: 0.000000 (dt=4.60s)


training:  79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 94514/120000 [29:00<07:29, 56.67it/s]

itr: 94500 lr: 1.166e-05 train loss: 0.000000 (dt=4.60s)


training:  79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 94764/120000 [29:04<07:25, 56.68it/s]

itr: 94750 lr: 1.146e-05 train loss: 0.000000 (dt=4.60s)


training:  79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 95014/120000 [29:09<07:20, 56.70it/s]

itr: 95000 lr: 1.126e-05 train loss: 0.000000 (dt=4.60s)


training:  79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 95264/120000 [29:13<07:15, 56.77it/s]

itr: 95250 lr: 1.106e-05 train loss: 0.000000 (dt=4.60s)


training:  80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 95514/120000 [29:18<07:11, 56.69it/s]

itr: 95500 lr: 1.087e-05 train loss: 0.000000 (dt=4.60s)


training:  80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 95764/120000 [29:23<07:07, 56.69it/s]

itr: 95750 lr: 1.068e-05 train loss: 0.000000 (dt=4.60s)


training:  80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 96015/120000 [29:27<07:02, 56.80it/s]

itr: 96000 lr: 1.048e-05 train loss: 0.000000 (dt=4.60s)


training:  80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 96264/120000 [29:32<06:58, 56.68it/s]

itr: 96250 lr: 1.029e-05 train loss: 0.000000 (dt=4.60s)


training:  80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 96514/120000 [29:36<06:54, 56.70it/s]

itr: 96500 lr: 1.011e-05 train loss: 0.000000 (dt=4.60s)


training:  81%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 96764/120000 [29:41<06:49, 56.69it/s]

itr: 96750 lr: 9.919e-06 train loss: 0.000000 (dt=4.60s)


training:  81%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 97014/120000 [29:46<06:45, 56.74it/s]

itr: 97000 lr: 9.734e-06 train loss: 0.000000 (dt=4.60s)


training:  81%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 97264/120000 [29:50<06:41, 56.70it/s]

itr: 97250 lr: 9.551e-06 train loss: 0.000000 (dt=4.60s)


training:  81%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè | 97514/120000 [29:55<06:36, 56.68it/s]

itr: 97500 lr: 9.369e-06 train loss: 0.000000 (dt=4.60s)


training:  81%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè | 97764/120000 [29:59<06:32, 56.68it/s]

itr: 97750 lr: 9.190e-06 train loss: 0.000000 (dt=4.60s)


training:  82%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè | 98014/120000 [30:04<06:28, 56.66it/s]

itr: 98000 lr: 9.012e-06 train loss: 0.000000 (dt=4.60s)


training:  82%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè | 98264/120000 [30:09<06:23, 56.65it/s]

üü® plateau detected @ itr=98250 (slope=0.1475, Œîlog10(loss)=0.0049); will stop after logging itr=98500
itr: 98250 lr: 8.836e-06 train loss: 0.000000 (dt=4.60s)


training:  82%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè | 98500/120000 [30:13<06:35, 54.31it/s]

itr: 98500 lr: 8.661e-06 train loss: 0.000000 (dt=4.60s)
saved final model: ./saved_models_grid_bs8192_20260103_075004/Final_N64_L1_dup0_iters98501.pt





0,1
iter,‚ñÅ‚ñÅ‚ñÇ‚ñÇ‚ñÇ‚ñÉ‚ñÉ‚ñÉ‚ñÉ‚ñÑ‚ñÑ‚ñÑ‚ñÑ‚ñÖ‚ñÖ‚ñÖ‚ñÖ‚ñÖ‚ñÖ‚ñÖ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñà‚ñà‚ñà‚ñà‚ñà
ll/iter,‚ñÅ‚ñÑ‚ñÖ‚ñÖ‚ñÖ‚ñÖ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà
ll/lr,‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñÜ‚ñÜ‚ñÜ‚ñÖ‚ñÖ‚ñÖ‚ñÖ‚ñÑ‚ñÑ‚ñÉ‚ñÉ‚ñÉ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÅ
ll/train_loss,‚ñà‚ñÑ‚ñÑ‚ñÉ‚ñÉ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÅ‚ñÅ‚ñÅ‚ñÇ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÉ‚ñÅ‚ñÅ‚ñÇ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ
lr,‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÖ‚ñÖ‚ñÖ‚ñÑ‚ñÑ‚ñÑ‚ñÑ‚ñÑ‚ñÉ‚ñÉ‚ñÉ‚ñÉ‚ñÉ‚ñÇ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ
plateau/delta_log10_loss_window,‚ñà‚ñÜ‚ñá‚ñá‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñà‚ñÖ‚ñÜ‚ñÜ‚ñÜ‚ñÅ‚ñÖ‚ñÅ‚ñÖ‚ñÖ‚ñÖ‚ñÖ‚ñÖ‚ñÖ‚ñÖ‚ñÖ‚ñÖ‚ñÖ‚ñÉ‚ñÖ‚ñÖ‚ñá‚ñÖ‚ñÖ‚ñÖ‚ñÖ‚ñÑ‚ñÖ‚ñÖ‚ñÖ‚ñÖ
plateau/hits,‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñà
plateau/loglog_slope,‚ñÇ‚ñÉ‚ñÉ‚ñÇ‚ñÅ‚ñÅ‚ñÉ‚ñÇ‚ñÉ‚ñÇ‚ñÅ‚ñÇ‚ñÉ‚ñÑ‚ñÜ‚ñÉ‚ñÇ‚ñÖ‚ñÖ‚ñÖ‚ñÖ‚ñÑ‚ñÖ‚ñÑ‚ñà‚ñÖ‚ñÖ‚ñÑ‚ñÑ‚ñÜ‚ñÜ‚ñÑ‚ñÖ‚ñá‚ñÜ‚ñÖ‚ñÖ‚ñÖ‚ñÜ‚ñÖ
plateau/now,‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñà
plateau/reached,‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ

0,1
iter,98501
iters_done,98501
ll/iter,4.99344
ll/lr,-5.06242
ll/train_loss,-7.63988
lr,1e-05
plateau/delta_log10_loss_window,0.00493
plateau/hits,2
plateau/loglog_slope,0.14753
plateau/now,0


using device: cuda


training:   0%|          | 6/120000 [00:00<46:14, 43.24it/s]

itr: 0 lr: 4.975e-07 train loss: 3.514297 (dt=0.05s)


training:   0%|          | 257/120000 [00:11<1:22:43, 24.12it/s]

itr: 250 lr: 1.000e-04 train loss: 1.762327 (dt=11.05s)


training:   0%|          | 508/120000 [00:22<1:24:14, 23.64it/s]

itr: 500 lr: 1.000e-04 train loss: 0.732594 (dt=11.03s)


training:   1%|          | 757/120000 [00:33<1:21:26, 24.40it/s]

itr: 750 lr: 9.999e-05 train loss: 0.209282 (dt=11.03s)


training:   1%|          | 1008/120000 [00:44<1:23:55, 23.63it/s]

itr: 1000 lr: 9.999e-05 train loss: 0.036007 (dt=11.04s)


training:   1%|          | 1257/120000 [00:55<1:21:04, 24.41it/s]

itr: 1250 lr: 9.998e-05 train loss: 0.006665 (dt=11.04s)


training:   1%|‚ñè         | 1508/120000 [01:06<1:23:38, 23.61it/s]

itr: 1500 lr: 9.997e-05 train loss: 0.001183 (dt=11.04s)


training:   1%|‚ñè         | 1757/120000 [01:17<1:20:50, 24.38it/s]

itr: 1750 lr: 9.996e-05 train loss: 0.000200 (dt=11.04s)


training:   2%|‚ñè         | 2007/120000 [01:28<1:22:59, 23.70it/s]

itr: 2000 lr: 9.994e-05 train loss: 0.000032 (dt=11.04s)


training:   2%|‚ñè         | 2258/120000 [01:39<1:23:04, 23.62it/s]

itr: 2250 lr: 9.993e-05 train loss: 0.000005 (dt=11.04s)


training:   2%|‚ñè         | 2507/120000 [01:50<1:20:16, 24.39it/s]

itr: 2500 lr: 9.991e-05 train loss: 0.000001 (dt=11.04s)


training:   2%|‚ñè         | 2758/120000 [02:01<1:22:45, 23.61it/s]

itr: 2750 lr: 9.989e-05 train loss: 0.000000 (dt=11.04s)


training:   3%|‚ñé         | 3007/120000 [02:12<1:19:58, 24.38it/s]

itr: 3000 lr: 9.987e-05 train loss: 0.000000 (dt=11.04s)


training:   3%|‚ñé         | 3258/120000 [02:23<1:22:22, 23.62it/s]

itr: 3250 lr: 9.984e-05 train loss: 0.000000 (dt=11.04s)


training:   3%|‚ñé         | 3507/120000 [02:34<1:19:32, 24.41it/s]

itr: 3500 lr: 9.981e-05 train loss: 0.000000 (dt=11.04s)


training:   3%|‚ñé         | 3758/120000 [02:45<1:22:03, 23.61it/s]

itr: 3750 lr: 9.979e-05 train loss: 0.000000 (dt=11.04s)


training:   3%|‚ñé         | 4007/120000 [02:56<1:19:14, 24.40it/s]

itr: 4000 lr: 9.975e-05 train loss: 0.000000 (dt=11.04s)


training:   4%|‚ñé         | 4258/120000 [03:07<1:21:43, 23.60it/s]

itr: 4250 lr: 9.972e-05 train loss: 0.000000 (dt=11.04s)


training:   4%|‚ñç         | 4507/120000 [03:18<1:18:51, 24.41it/s]

itr: 4500 lr: 9.969e-05 train loss: 0.000000 (dt=11.04s)


training:   4%|‚ñç         | 4758/120000 [03:29<1:21:20, 23.61it/s]

itr: 4750 lr: 9.965e-05 train loss: 0.000000 (dt=11.04s)


training:   4%|‚ñç         | 5007/120000 [03:40<1:18:34, 24.39it/s]

itr: 5000 lr: 9.961e-05 train loss: 0.000000 (dt=11.04s)


training:   4%|‚ñç         | 5258/120000 [03:51<1:21:00, 23.61it/s]

itr: 5250 lr: 9.957e-05 train loss: 0.000000 (dt=11.04s)


training:   5%|‚ñç         | 5507/120000 [04:02<1:18:13, 24.39it/s]

itr: 5500 lr: 9.952e-05 train loss: 0.000000 (dt=11.04s)


training:   5%|‚ñç         | 5758/120000 [04:14<1:20:36, 23.62it/s]

itr: 5750 lr: 9.948e-05 train loss: 0.000000 (dt=11.04s)


training:   5%|‚ñå         | 6007/120000 [04:25<1:17:51, 24.40it/s]

itr: 6000 lr: 9.943e-05 train loss: 0.000000 (dt=11.04s)


training:   5%|‚ñå         | 6258/120000 [04:36<1:20:17, 23.61it/s]

itr: 6250 lr: 9.938e-05 train loss: 0.000000 (dt=11.04s)


training:   5%|‚ñå         | 6507/120000 [04:47<1:17:31, 24.40it/s]

itr: 6500 lr: 9.933e-05 train loss: 0.000000 (dt=11.04s)


training:   6%|‚ñå         | 6758/120000 [04:58<1:19:57, 23.61it/s]

itr: 6750 lr: 9.927e-05 train loss: 0.000000 (dt=11.04s)


training:   6%|‚ñå         | 7007/120000 [05:09<1:17:08, 24.41it/s]

itr: 7000 lr: 9.922e-05 train loss: 0.000000 (dt=11.04s)


training:   6%|‚ñå         | 7258/120000 [05:20<1:19:34, 23.61it/s]

itr: 7250 lr: 9.916e-05 train loss: 0.000000 (dt=11.04s)


training:   6%|‚ñã         | 7507/120000 [05:31<1:16:49, 24.40it/s]

itr: 7500 lr: 9.910e-05 train loss: 0.000000 (dt=11.04s)


training:   6%|‚ñã         | 7758/120000 [05:42<1:19:13, 23.61it/s]

itr: 7750 lr: 9.903e-05 train loss: 0.000000 (dt=11.04s)


training:   7%|‚ñã         | 8007/120000 [05:53<1:16:27, 24.41it/s]

itr: 8000 lr: 9.897e-05 train loss: 0.000000 (dt=11.04s)


training:   7%|‚ñã         | 8258/120000 [06:04<1:18:52, 23.61it/s]

itr: 8250 lr: 9.890e-05 train loss: 0.000000 (dt=11.04s)


training:   7%|‚ñã         | 8507/120000 [06:15<1:16:11, 24.39it/s]

itr: 8500 lr: 9.883e-05 train loss: 0.000000 (dt=11.04s)


training:   7%|‚ñã         | 8758/120000 [06:26<1:18:32, 23.61it/s]

itr: 8750 lr: 9.876e-05 train loss: 0.000000 (dt=11.04s)


training:   8%|‚ñä         | 9007/120000 [06:37<1:15:46, 24.41it/s]

itr: 9000 lr: 9.869e-05 train loss: 0.000000 (dt=11.04s)


training:   8%|‚ñä         | 9258/120000 [06:48<1:18:11, 23.61it/s]

itr: 9250 lr: 9.861e-05 train loss: 0.000000 (dt=11.04s)


training:   8%|‚ñä         | 9507/120000 [06:59<1:15:26, 24.41it/s]

itr: 9500 lr: 9.854e-05 train loss: 0.000000 (dt=11.04s)


training:   8%|‚ñä         | 9758/120000 [07:10<1:17:48, 23.62it/s]

itr: 9750 lr: 9.846e-05 train loss: 0.000000 (dt=11.04s)


training:   8%|‚ñä         | 10007/120000 [07:21<1:15:10, 24.39it/s]

itr: 10000 lr: 9.837e-05 train loss: 0.000000 (dt=11.04s)


training:   9%|‚ñä         | 10258/120000 [07:32<1:17:27, 23.61it/s]

itr: 10250 lr: 9.829e-05 train loss: 0.000000 (dt=11.04s)


training:   9%|‚ñâ         | 10507/120000 [07:43<1:14:50, 24.38it/s]

itr: 10500 lr: 9.821e-05 train loss: 0.000000 (dt=11.04s)


training:   9%|‚ñâ         | 10758/120000 [07:54<1:17:05, 23.62it/s]

itr: 10750 lr: 9.812e-05 train loss: 0.000000 (dt=11.04s)


training:   9%|‚ñâ         | 11007/120000 [08:05<1:14:27, 24.40it/s]

itr: 11000 lr: 9.803e-05 train loss: 0.000000 (dt=11.04s)


training:   9%|‚ñâ         | 11258/120000 [08:16<1:16:45, 23.61it/s]

itr: 11250 lr: 9.794e-05 train loss: 0.000000 (dt=11.04s)


training:  10%|‚ñâ         | 11507/120000 [08:27<1:14:05, 24.41it/s]

itr: 11500 lr: 9.784e-05 train loss: 0.000000 (dt=11.04s)


training:  10%|‚ñâ         | 11757/120000 [08:38<1:16:10, 23.68it/s]

itr: 11750 lr: 9.775e-05 train loss: 0.000000 (dt=11.04s)


training:  10%|‚ñà         | 12008/120000 [08:49<1:16:13, 23.61it/s]

itr: 12000 lr: 9.765e-05 train loss: 0.000000 (dt=11.04s)


training:  10%|‚ñà         | 12257/120000 [09:00<1:13:30, 24.43it/s]

itr: 12250 lr: 9.755e-05 train loss: 0.000000 (dt=11.04s)


training:  10%|‚ñà         | 12508/120000 [09:12<1:15:52, 23.61it/s]

itr: 12500 lr: 9.745e-05 train loss: 0.000000 (dt=11.04s)


training:  11%|‚ñà         | 12757/120000 [09:23<1:13:11, 24.42it/s]

itr: 12750 lr: 9.734e-05 train loss: 0.000000 (dt=11.04s)


training:  11%|‚ñà         | 13008/120000 [09:34<1:15:32, 23.61it/s]

itr: 13000 lr: 9.724e-05 train loss: 0.000000 (dt=11.04s)


training:  11%|‚ñà         | 13257/120000 [09:45<1:12:51, 24.42it/s]

itr: 13250 lr: 9.713e-05 train loss: 0.000000 (dt=11.04s)


training:  11%|‚ñà‚ñè        | 13508/120000 [09:56<1:15:10, 23.61it/s]

itr: 13500 lr: 9.702e-05 train loss: 0.000000 (dt=11.04s)


training:  11%|‚ñà‚ñè        | 13757/120000 [10:07<1:12:33, 24.41it/s]

itr: 13750 lr: 9.691e-05 train loss: 0.000000 (dt=11.04s)


training:  12%|‚ñà‚ñè        | 14008/120000 [10:18<1:14:48, 23.61it/s]

itr: 14000 lr: 9.679e-05 train loss: 0.000000 (dt=11.04s)


training:  12%|‚ñà‚ñè        | 14257/120000 [10:29<1:12:13, 24.40it/s]

itr: 14250 lr: 9.668e-05 train loss: 0.000000 (dt=11.04s)


training:  12%|‚ñà‚ñè        | 14508/120000 [10:40<1:14:28, 23.61it/s]

itr: 14500 lr: 9.656e-05 train loss: 0.000000 (dt=11.04s)


training:  12%|‚ñà‚ñè        | 14757/120000 [10:51<1:11:48, 24.43it/s]

itr: 14750 lr: 9.644e-05 train loss: 0.000000 (dt=11.04s)


training:  13%|‚ñà‚ñé        | 15008/120000 [11:02<1:14:07, 23.61it/s]

itr: 15000 lr: 9.632e-05 train loss: 0.000000 (dt=11.04s)


training:  13%|‚ñà‚ñé        | 15257/120000 [11:13<1:11:35, 24.39it/s]

itr: 15250 lr: 9.619e-05 train loss: 0.000000 (dt=11.04s)


training:  13%|‚ñà‚ñé        | 15508/120000 [11:24<1:13:47, 23.60it/s]

itr: 15500 lr: 9.607e-05 train loss: 0.000000 (dt=11.04s)


training:  13%|‚ñà‚ñé        | 15757/120000 [11:35<1:11:10, 24.41it/s]

itr: 15750 lr: 9.594e-05 train loss: 0.000000 (dt=11.04s)


training:  13%|‚ñà‚ñé        | 16008/120000 [11:46<1:13:24, 23.61it/s]

itr: 16000 lr: 9.581e-05 train loss: 0.000000 (dt=11.04s)


training:  14%|‚ñà‚ñé        | 16257/120000 [11:57<1:10:49, 24.41it/s]

itr: 16250 lr: 9.568e-05 train loss: 0.000000 (dt=11.04s)


training:  14%|‚ñà‚ñç        | 16508/120000 [12:08<1:13:03, 23.61it/s]

itr: 16500 lr: 9.555e-05 train loss: 0.000000 (dt=11.04s)


training:  14%|‚ñà‚ñç        | 16757/120000 [12:19<1:10:33, 24.38it/s]

itr: 16750 lr: 9.541e-05 train loss: 0.000000 (dt=11.04s)


training:  14%|‚ñà‚ñç        | 17008/120000 [12:30<1:12:41, 23.61it/s]

itr: 17000 lr: 9.527e-05 train loss: 0.000000 (dt=11.04s)


training:  14%|‚ñà‚ñç        | 17257/120000 [12:41<1:10:12, 24.39it/s]

itr: 17250 lr: 9.513e-05 train loss: 0.000000 (dt=11.04s)


training:  15%|‚ñà‚ñç        | 17508/120000 [12:52<1:12:20, 23.61it/s]

itr: 17500 lr: 9.499e-05 train loss: 0.000000 (dt=11.04s)


training:  15%|‚ñà‚ñç        | 17757/120000 [13:03<1:09:47, 24.41it/s]

itr: 17750 lr: 9.485e-05 train loss: 0.000000 (dt=11.04s)


training:  15%|‚ñà‚ñå        | 18007/120000 [13:14<1:11:46, 23.68it/s]

itr: 18000 lr: 9.470e-05 train loss: 0.000000 (dt=11.04s)


training:  15%|‚ñà‚ñå        | 18258/120000 [13:25<1:11:49, 23.61it/s]

itr: 18250 lr: 9.456e-05 train loss: 0.000000 (dt=11.04s)


training:  15%|‚ñà‚ñå        | 18507/120000 [13:36<1:09:20, 24.39it/s]

itr: 18500 lr: 9.441e-05 train loss: 0.000000 (dt=11.04s)


training:  16%|‚ñà‚ñå        | 18757/120000 [13:47<1:11:13, 23.69it/s]

itr: 18750 lr: 9.426e-05 train loss: 0.000000 (dt=11.04s)


training:  16%|‚ñà‚ñå        | 19008/120000 [13:59<1:11:17, 23.61it/s]

itr: 19000 lr: 9.411e-05 train loss: 0.000000 (dt=11.04s)


training:  16%|‚ñà‚ñå        | 19257/120000 [14:10<1:08:47, 24.41it/s]

itr: 19250 lr: 9.395e-05 train loss: 0.000000 (dt=11.04s)


training:  16%|‚ñà‚ñã        | 19508/120000 [14:21<1:10:55, 23.61it/s]

itr: 19500 lr: 9.379e-05 train loss: 0.000000 (dt=11.04s)


training:  16%|‚ñà‚ñã        | 19757/120000 [14:32<1:08:28, 24.40it/s]

itr: 19750 lr: 9.364e-05 train loss: 0.000000 (dt=11.04s)


training:  17%|‚ñà‚ñã        | 20008/120000 [14:43<1:12:06, 23.11it/s]

itr: 20000 lr: 9.348e-05 train loss: 0.000000 (dt=11.04s)
saved checkpoint: ./saved_models_grid_bs8192_20260103_075004/Checkpoint_N32_L3_dup0_iters20001.pt


training:  17%|‚ñà‚ñã        | 20257/120000 [14:54<1:08:09, 24.39it/s]

itr: 20250 lr: 9.331e-05 train loss: 0.000000 (dt=11.05s)


training:  17%|‚ñà‚ñã        | 20508/120000 [15:05<1:10:14, 23.61it/s]

itr: 20500 lr: 9.315e-05 train loss: 0.000000 (dt=11.04s)


training:  17%|‚ñà‚ñã        | 20757/120000 [15:16<1:07:51, 24.37it/s]

itr: 20750 lr: 9.298e-05 train loss: 0.000000 (dt=11.04s)


training:  18%|‚ñà‚ñä        | 21008/120000 [15:27<1:09:41, 23.67it/s]

itr: 21000 lr: 9.282e-05 train loss: 0.000000 (dt=11.04s)


training:  18%|‚ñà‚ñä        | 21257/120000 [15:38<1:07:30, 24.38it/s]

itr: 21250 lr: 9.265e-05 train loss: 0.000000 (dt=11.04s)


training:  18%|‚ñà‚ñä        | 21508/120000 [15:49<1:09:31, 23.61it/s]

itr: 21500 lr: 9.248e-05 train loss: 0.000000 (dt=11.04s)


training:  18%|‚ñà‚ñä        | 21757/120000 [16:00<1:07:07, 24.39it/s]

itr: 21750 lr: 9.230e-05 train loss: 0.000000 (dt=11.04s)


training:  18%|‚ñà‚ñä        | 22008/120000 [16:11<1:09:10, 23.61it/s]

itr: 22000 lr: 9.213e-05 train loss: 0.000000 (dt=11.04s)


training:  19%|‚ñà‚ñä        | 22257/120000 [16:22<1:06:45, 24.40it/s]

itr: 22250 lr: 9.195e-05 train loss: 0.000000 (dt=11.04s)


training:  19%|‚ñà‚ñâ        | 22508/120000 [16:33<1:08:51, 23.60it/s]

itr: 22500 lr: 9.177e-05 train loss: 0.000000 (dt=11.04s)


training:  19%|‚ñà‚ñâ        | 22757/120000 [16:44<1:06:23, 24.41it/s]

itr: 22750 lr: 9.159e-05 train loss: 0.000000 (dt=11.04s)


training:  19%|‚ñà‚ñâ        | 23008/120000 [16:55<1:08:28, 23.61it/s]

itr: 23000 lr: 9.141e-05 train loss: 0.000000 (dt=11.04s)


training:  19%|‚ñà‚ñâ        | 23257/120000 [17:06<1:06:05, 24.39it/s]

itr: 23250 lr: 9.123e-05 train loss: 0.000000 (dt=11.04s)


training:  20%|‚ñà‚ñâ        | 23508/120000 [17:17<1:08:08, 23.60it/s]

itr: 23500 lr: 9.104e-05 train loss: 0.000000 (dt=11.04s)


training:  20%|‚ñà‚ñâ        | 23757/120000 [17:28<1:05:44, 24.40it/s]

itr: 23750 lr: 9.086e-05 train loss: 0.000000 (dt=11.04s)


training:  20%|‚ñà‚ñà        | 24008/120000 [17:39<1:07:45, 23.61it/s]

itr: 24000 lr: 9.067e-05 train loss: 0.000000 (dt=11.04s)


training:  20%|‚ñà‚ñà        | 24257/120000 [17:50<1:05:23, 24.40it/s]

itr: 24250 lr: 9.048e-05 train loss: 0.000000 (dt=11.04s)


training:  20%|‚ñà‚ñà        | 24508/120000 [18:01<1:07:25, 23.60it/s]

itr: 24500 lr: 9.029e-05 train loss: 0.000000 (dt=11.04s)


training:  21%|‚ñà‚ñà        | 24757/120000 [18:12<1:05:04, 24.39it/s]

itr: 24750 lr: 9.009e-05 train loss: 0.000000 (dt=11.04s)


training:  21%|‚ñà‚ñà        | 25008/120000 [18:23<1:07:02, 23.61it/s]

itr: 25000 lr: 8.990e-05 train loss: 0.000000 (dt=11.04s)


training:  21%|‚ñà‚ñà        | 25257/120000 [18:34<1:04:43, 24.40it/s]

itr: 25250 lr: 8.970e-05 train loss: 0.000000 (dt=11.04s)


training:  21%|‚ñà‚ñà‚ñè       | 25508/120000 [18:46<1:06:41, 23.62it/s]

itr: 25500 lr: 8.950e-05 train loss: 0.000000 (dt=11.04s)


training:  21%|‚ñà‚ñà‚ñè       | 25757/120000 [18:57<1:04:21, 24.40it/s]

itr: 25750 lr: 8.930e-05 train loss: 0.000000 (dt=11.04s)


training:  22%|‚ñà‚ñà‚ñè       | 26008/120000 [19:08<1:06:21, 23.61it/s]

itr: 26000 lr: 8.910e-05 train loss: 0.000000 (dt=11.04s)


training:  22%|‚ñà‚ñà‚ñè       | 26257/120000 [19:19<1:04:06, 24.37it/s]

itr: 26250 lr: 8.889e-05 train loss: 0.000000 (dt=11.04s)


training:  22%|‚ñà‚ñà‚ñè       | 26508/120000 [19:30<1:05:59, 23.61it/s]

itr: 26500 lr: 8.869e-05 train loss: 0.000000 (dt=11.04s)


training:  22%|‚ñà‚ñà‚ñè       | 26757/120000 [19:41<1:03:41, 24.40it/s]

itr: 26750 lr: 8.848e-05 train loss: 0.000000 (dt=11.04s)


training:  23%|‚ñà‚ñà‚ñé       | 27008/120000 [19:52<1:05:39, 23.61it/s]

itr: 27000 lr: 8.827e-05 train loss: 0.000000 (dt=11.04s)


training:  23%|‚ñà‚ñà‚ñé       | 27257/120000 [20:03<1:03:20, 24.40it/s]

itr: 27250 lr: 8.806e-05 train loss: 0.000000 (dt=11.04s)


training:  23%|‚ñà‚ñà‚ñé       | 27508/120000 [20:14<1:05:12, 23.64it/s]

itr: 27500 lr: 8.785e-05 train loss: 0.000002 (dt=11.04s)


training:  23%|‚ñà‚ñà‚ñé       | 27757/120000 [20:25<1:02:59, 24.40it/s]

itr: 27750 lr: 8.763e-05 train loss: 0.000000 (dt=11.04s)


training:  23%|‚ñà‚ñà‚ñé       | 28008/120000 [20:36<1:04:50, 23.65it/s]

itr: 28000 lr: 8.742e-05 train loss: 0.000000 (dt=11.04s)


training:  24%|‚ñà‚ñà‚ñé       | 28257/120000 [20:47<1:02:40, 24.39it/s]

itr: 28250 lr: 8.720e-05 train loss: 0.000000 (dt=11.04s)


training:  24%|‚ñà‚ñà‚ñç       | 28508/120000 [20:58<1:04:35, 23.61it/s]

itr: 28500 lr: 8.698e-05 train loss: 0.000000 (dt=11.04s)


training:  24%|‚ñà‚ñà‚ñç       | 28757/120000 [21:09<1:02:19, 24.40it/s]

itr: 28750 lr: 8.676e-05 train loss: 0.000000 (dt=11.04s)


training:  24%|‚ñà‚ñà‚ñç       | 29008/120000 [21:20<1:04:15, 23.60it/s]

itr: 29000 lr: 8.654e-05 train loss: 0.000000 (dt=11.04s)


training:  24%|‚ñà‚ñà‚ñç       | 29257/120000 [21:31<1:01:56, 24.42it/s]

itr: 29250 lr: 8.632e-05 train loss: 0.000000 (dt=11.04s)


training:  25%|‚ñà‚ñà‚ñç       | 29507/120000 [21:42<1:03:38, 23.70it/s]

itr: 29500 lr: 8.609e-05 train loss: 0.000000 (dt=11.04s)


training:  25%|‚ñà‚ñà‚ñç       | 29758/120000 [21:53<1:03:42, 23.61it/s]

itr: 29750 lr: 8.587e-05 train loss: 0.000000 (dt=11.04s)


training:  25%|‚ñà‚ñà‚ñå       | 30007/120000 [22:04<1:01:29, 24.39it/s]

itr: 30000 lr: 8.564e-05 train loss: 0.000000 (dt=11.04s)


training:  25%|‚ñà‚ñà‚ñå       | 30258/120000 [22:15<1:03:21, 23.61it/s]

itr: 30250 lr: 8.541e-05 train loss: 0.000000 (dt=11.04s)


training:  25%|‚ñà‚ñà‚ñå       | 30507/120000 [22:26<1:01:06, 24.41it/s]

itr: 30500 lr: 8.518e-05 train loss: 0.000000 (dt=11.04s)


training:  26%|‚ñà‚ñà‚ñå       | 30758/120000 [22:37<1:03:00, 23.60it/s]

itr: 30750 lr: 8.495e-05 train loss: 0.000000 (dt=11.04s)


training:  26%|‚ñà‚ñà‚ñå       | 31007/120000 [22:48<1:00:47, 24.40it/s]

itr: 31000 lr: 8.471e-05 train loss: 0.000000 (dt=11.04s)


training:  26%|‚ñà‚ñà‚ñå       | 31258/120000 [22:59<1:02:40, 23.60it/s]

itr: 31250 lr: 8.448e-05 train loss: 0.000000 (dt=11.04s)


training:  26%|‚ñà‚ñà‚ñã       | 31507/120000 [23:10<1:00:27, 24.39it/s]

itr: 31500 lr: 8.424e-05 train loss: 0.000000 (dt=11.04s)


training:  26%|‚ñà‚ñà‚ñã       | 31758/120000 [23:22<1:02:09, 23.66it/s]

itr: 31750 lr: 8.400e-05 train loss: 0.000000 (dt=11.04s)


training:  27%|‚ñà‚ñà‚ñã       | 32007/120000 [23:33<1:00:06, 24.40it/s]

itr: 32000 lr: 8.376e-05 train loss: 0.000000 (dt=11.04s)


training:  27%|‚ñà‚ñà‚ñã       | 32258/120000 [23:44<1:01:55, 23.61it/s]

itr: 32250 lr: 8.352e-05 train loss: 0.000000 (dt=11.04s)


training:  27%|‚ñà‚ñà‚ñã       | 32507/120000 [23:55<59:47, 24.39it/s]  

itr: 32500 lr: 8.328e-05 train loss: 0.000000 (dt=11.04s)


training:  27%|‚ñà‚ñà‚ñã       | 32758/120000 [24:06<1:01:34, 23.61it/s]

itr: 32750 lr: 8.304e-05 train loss: 0.000000 (dt=11.04s)


training:  28%|‚ñà‚ñà‚ñä       | 33007/120000 [24:17<59:24, 24.41it/s]  

itr: 33000 lr: 8.279e-05 train loss: 0.000000 (dt=11.04s)


training:  28%|‚ñà‚ñà‚ñä       | 33258/120000 [24:28<1:01:13, 23.61it/s]

itr: 33250 lr: 8.254e-05 train loss: 0.000000 (dt=11.04s)


training:  28%|‚ñà‚ñà‚ñä       | 33507/120000 [24:39<59:02, 24.42it/s]  

itr: 33500 lr: 8.230e-05 train loss: 0.000000 (dt=11.04s)


training:  28%|‚ñà‚ñà‚ñä       | 33758/120000 [24:50<1:00:54, 23.60it/s]

itr: 33750 lr: 8.205e-05 train loss: 0.000000 (dt=11.04s)


training:  28%|‚ñà‚ñà‚ñä       | 34007/120000 [25:01<58:45, 24.39it/s]  

itr: 34000 lr: 8.180e-05 train loss: 0.000000 (dt=11.04s)


training:  29%|‚ñà‚ñà‚ñä       | 34258/120000 [25:12<1:00:31, 23.61it/s]

itr: 34250 lr: 8.154e-05 train loss: 0.000000 (dt=11.04s)


training:  29%|‚ñà‚ñà‚ñâ       | 34507/120000 [25:23<58:22, 24.41it/s]  

itr: 34500 lr: 8.129e-05 train loss: 0.000000 (dt=11.04s)


training:  29%|‚ñà‚ñà‚ñâ       | 34758/120000 [25:34<1:00:09, 23.62it/s]

itr: 34750 lr: 8.104e-05 train loss: 0.000000 (dt=11.04s)


training:  29%|‚ñà‚ñà‚ñâ       | 35007/120000 [25:45<58:08, 24.36it/s]  

itr: 35000 lr: 8.078e-05 train loss: 0.000000 (dt=11.04s)


training:  29%|‚ñà‚ñà‚ñâ       | 35258/120000 [25:56<59:48, 23.61it/s]  

itr: 35250 lr: 8.052e-05 train loss: 0.000000 (dt=11.04s)


training:  30%|‚ñà‚ñà‚ñâ       | 35507/120000 [26:07<57:41, 24.41it/s]  

itr: 35500 lr: 8.026e-05 train loss: 0.000000 (dt=11.04s)


training:  30%|‚ñà‚ñà‚ñâ       | 35758/120000 [26:18<59:27, 23.61it/s]  

itr: 35750 lr: 8.000e-05 train loss: 0.000005 (dt=11.04s)


training:  30%|‚ñà‚ñà‚ñà       | 36007/120000 [26:29<57:21, 24.41it/s]  

itr: 36000 lr: 7.974e-05 train loss: 0.000000 (dt=11.04s)


training:  30%|‚ñà‚ñà‚ñà       | 36258/120000 [26:40<59:07, 23.61it/s]  

itr: 36250 lr: 7.948e-05 train loss: 0.000000 (dt=11.04s)


training:  30%|‚ñà‚ñà‚ñà       | 36507/120000 [26:51<57:00, 24.41it/s]  

itr: 36500 lr: 7.922e-05 train loss: 0.000000 (dt=11.04s)


training:  31%|‚ñà‚ñà‚ñà       | 36758/120000 [27:02<58:45, 23.61it/s]  

itr: 36750 lr: 7.895e-05 train loss: 0.000000 (dt=11.04s)


training:  31%|‚ñà‚ñà‚ñà       | 37007/120000 [27:13<56:40, 24.41it/s]  

itr: 37000 lr: 7.868e-05 train loss: 0.000000 (dt=11.04s)


training:  31%|‚ñà‚ñà‚ñà       | 37258/120000 [27:24<58:21, 23.63it/s]  

itr: 37250 lr: 7.842e-05 train loss: 0.000000 (dt=11.04s)


training:  31%|‚ñà‚ñà‚ñà‚ñè      | 37507/120000 [27:35<56:22, 24.39it/s]  

itr: 37500 lr: 7.815e-05 train loss: 0.000000 (dt=11.04s)


training:  31%|‚ñà‚ñà‚ñà‚ñè      | 37757/120000 [27:46<57:51, 23.69it/s]  

itr: 37750 lr: 7.788e-05 train loss: 0.000000 (dt=11.04s)


training:  32%|‚ñà‚ñà‚ñà‚ñè      | 38008/120000 [27:57<57:51, 23.62it/s]  

itr: 38000 lr: 7.761e-05 train loss: 0.000000 (dt=11.04s)


training:  32%|‚ñà‚ñà‚ñà‚ñè      | 38257/120000 [28:08<55:52, 24.38it/s]  

itr: 38250 lr: 7.734e-05 train loss: 0.000000 (dt=11.04s)


training:  32%|‚ñà‚ñà‚ñà‚ñè      | 38508/120000 [28:20<57:31, 23.61it/s]  

itr: 38500 lr: 7.706e-05 train loss: 0.000000 (dt=11.04s)


training:  32%|‚ñà‚ñà‚ñà‚ñè      | 38757/120000 [28:31<55:30, 24.39it/s]  

itr: 38750 lr: 7.679e-05 train loss: 0.000000 (dt=11.04s)


training:  33%|‚ñà‚ñà‚ñà‚ñé      | 39008/120000 [28:42<57:11, 23.60it/s]  

itr: 39000 lr: 7.651e-05 train loss: 0.000004 (dt=11.04s)


training:  33%|‚ñà‚ñà‚ñà‚ñé      | 39257/120000 [28:53<55:07, 24.41it/s]  

itr: 39250 lr: 7.624e-05 train loss: 0.000000 (dt=11.04s)


training:  33%|‚ñà‚ñà‚ñà‚ñé      | 39508/120000 [29:04<56:46, 23.63it/s]  

itr: 39500 lr: 7.596e-05 train loss: 0.000000 (dt=11.04s)


training:  33%|‚ñà‚ñà‚ñà‚ñé      | 39757/120000 [29:15<54:45, 24.42it/s]  

itr: 39750 lr: 7.568e-05 train loss: 0.000000 (dt=11.04s)


training:  33%|‚ñà‚ñà‚ñà‚ñé      | 40008/120000 [29:26<57:40, 23.11it/s]  

itr: 40000 lr: 7.540e-05 train loss: 0.000000 (dt=11.04s)
saved checkpoint: ./saved_models_grid_bs8192_20260103_075004/Checkpoint_N32_L3_dup0_iters40001.pt


training:  34%|‚ñà‚ñà‚ñà‚ñé      | 40257/120000 [29:37<54:27, 24.41it/s]  

itr: 40250 lr: 7.512e-05 train loss: 0.000000 (dt=11.05s)


training:  34%|‚ñà‚ñà‚ñà‚ñç      | 40508/120000 [29:48<56:06, 23.62it/s]  

itr: 40500 lr: 7.484e-05 train loss: 0.000004 (dt=11.04s)


training:  34%|‚ñà‚ñà‚ñà‚ñç      | 40757/120000 [29:59<54:08, 24.40it/s]  

itr: 40750 lr: 7.455e-05 train loss: 0.000000 (dt=11.04s)


training:  34%|‚ñà‚ñà‚ñà‚ñç      | 41008/120000 [30:10<55:45, 23.61it/s]  

itr: 41000 lr: 7.427e-05 train loss: 0.000000 (dt=11.04s)


training:  34%|‚ñà‚ñà‚ñà‚ñç      | 41257/120000 [30:21<53:47, 24.40it/s]  

itr: 41250 lr: 7.398e-05 train loss: 0.000000 (dt=11.04s)


training:  35%|‚ñà‚ñà‚ñà‚ñç      | 41508/120000 [30:32<55:24, 23.61it/s]  

itr: 41500 lr: 7.370e-05 train loss: 0.000000 (dt=11.04s)


training:  35%|‚ñà‚ñà‚ñà‚ñç      | 41757/120000 [30:43<53:26, 24.40it/s]  

itr: 41750 lr: 7.341e-05 train loss: 0.000000 (dt=11.04s)


training:  35%|‚ñà‚ñà‚ñà‚ñå      | 42008/120000 [30:54<55:03, 23.61it/s]  

itr: 42000 lr: 7.312e-05 train loss: 0.000000 (dt=11.04s)


training:  35%|‚ñà‚ñà‚ñà‚ñå      | 42257/120000 [31:05<53:03, 24.42it/s]  

itr: 42250 lr: 7.283e-05 train loss: 0.000000 (dt=11.04s)


training:  35%|‚ñà‚ñà‚ñà‚ñå      | 42508/120000 [31:16<54:43, 23.60it/s]  

itr: 42500 lr: 7.254e-05 train loss: 0.000000 (dt=11.04s)


training:  36%|‚ñà‚ñà‚ñà‚ñå      | 42757/120000 [31:27<52:45, 24.40it/s]  

itr: 42750 lr: 7.225e-05 train loss: 0.000000 (dt=11.04s)


training:  36%|‚ñà‚ñà‚ñà‚ñå      | 43008/120000 [31:38<54:20, 23.61it/s]  

itr: 43000 lr: 7.196e-05 train loss: 0.000000 (dt=11.04s)


training:  36%|‚ñà‚ñà‚ñà‚ñå      | 43257/120000 [31:49<52:23, 24.41it/s]  

itr: 43250 lr: 7.167e-05 train loss: 0.000015 (dt=11.04s)


training:  36%|‚ñà‚ñà‚ñà‚ñã      | 43508/120000 [32:00<53:59, 23.61it/s]  

itr: 43500 lr: 7.137e-05 train loss: 0.000000 (dt=11.04s)


training:  36%|‚ñà‚ñà‚ñà‚ñã      | 43757/120000 [32:11<52:06, 24.39it/s]  

itr: 43750 lr: 7.108e-05 train loss: 0.000000 (dt=11.04s)


training:  37%|‚ñà‚ñà‚ñà‚ñã      | 44008/120000 [32:22<53:39, 23.60it/s]  

itr: 44000 lr: 7.078e-05 train loss: 0.000000 (dt=11.04s)


training:  37%|‚ñà‚ñà‚ñà‚ñã      | 44257/120000 [32:33<51:44, 24.40it/s]  

itr: 44250 lr: 7.049e-05 train loss: 0.000000 (dt=11.04s)


training:  37%|‚ñà‚ñà‚ñà‚ñã      | 44508/120000 [32:44<53:17, 23.61it/s]  

itr: 44500 lr: 7.019e-05 train loss: 0.000000 (dt=11.04s)


training:  37%|‚ñà‚ñà‚ñà‚ñã      | 44757/120000 [32:55<51:21, 24.42it/s]  

itr: 44750 lr: 6.989e-05 train loss: 0.000000 (dt=11.04s)


training:  38%|‚ñà‚ñà‚ñà‚ñä      | 45008/120000 [33:07<52:59, 23.59it/s]  

itr: 45000 lr: 6.959e-05 train loss: 0.000000 (dt=11.04s)


training:  38%|‚ñà‚ñà‚ñà‚ñä      | 45257/120000 [33:18<51:02, 24.41it/s]  

itr: 45250 lr: 6.929e-05 train loss: 0.000000 (dt=11.04s)


training:  38%|‚ñà‚ñà‚ñà‚ñä      | 45508/120000 [33:29<52:35, 23.61it/s]  

itr: 45500 lr: 6.899e-05 train loss: 0.000000 (dt=11.04s)


training:  38%|‚ñà‚ñà‚ñà‚ñä      | 45757/120000 [33:40<50:43, 24.39it/s]  

itr: 45750 lr: 6.869e-05 train loss: 0.000000 (dt=11.04s)


training:  38%|‚ñà‚ñà‚ñà‚ñä      | 46008/120000 [33:51<52:11, 23.63it/s]  

itr: 46000 lr: 6.839e-05 train loss: 0.000000 (dt=11.04s)


training:  39%|‚ñà‚ñà‚ñà‚ñä      | 46257/120000 [34:02<50:22, 24.40it/s]  

itr: 46250 lr: 6.809e-05 train loss: 0.000000 (dt=11.04s)


training:  39%|‚ñà‚ñà‚ñà‚ñâ      | 46508/120000 [34:13<51:50, 23.63it/s]  

itr: 46500 lr: 6.778e-05 train loss: 0.000000 (dt=11.04s)


training:  39%|‚ñà‚ñà‚ñà‚ñâ      | 46757/120000 [34:24<50:02, 24.40it/s]  

itr: 46750 lr: 6.748e-05 train loss: 0.000000 (dt=11.04s)


training:  39%|‚ñà‚ñà‚ñà‚ñâ      | 47008/120000 [34:35<51:30, 23.62it/s]  

itr: 47000 lr: 6.717e-05 train loss: 0.000000 (dt=11.04s)


training:  39%|‚ñà‚ñà‚ñà‚ñâ      | 47257/120000 [34:46<49:40, 24.40it/s]  

itr: 47250 lr: 6.687e-05 train loss: 0.000000 (dt=11.04s)


training:  40%|‚ñà‚ñà‚ñà‚ñâ      | 47508/120000 [34:57<51:11, 23.60it/s]  

itr: 47500 lr: 6.656e-05 train loss: 0.000000 (dt=11.04s)


training:  40%|‚ñà‚ñà‚ñà‚ñâ      | 47757/120000 [35:08<49:18, 24.42it/s]  

itr: 47750 lr: 6.625e-05 train loss: 0.000000 (dt=11.04s)


training:  40%|‚ñà‚ñà‚ñà‚ñà      | 48008/120000 [35:19<50:44, 23.65it/s]  

itr: 48000 lr: 6.594e-05 train loss: 0.000000 (dt=11.04s)


training:  40%|‚ñà‚ñà‚ñà‚ñà      | 48257/120000 [35:30<49:01, 24.39it/s]  

itr: 48250 lr: 6.564e-05 train loss: 0.000000 (dt=11.04s)


training:  40%|‚ñà‚ñà‚ñà‚ñà      | 48508/120000 [35:41<50:28, 23.61it/s]  

itr: 48500 lr: 6.533e-05 train loss: 0.000000 (dt=11.04s)


training:  41%|‚ñà‚ñà‚ñà‚ñà      | 48757/120000 [35:52<48:43, 24.37it/s]  

itr: 48750 lr: 6.502e-05 train loss: 0.000000 (dt=11.04s)


training:  41%|‚ñà‚ñà‚ñà‚ñà      | 49008/120000 [36:03<50:02, 23.65it/s]  

itr: 49000 lr: 6.471e-05 train loss: 0.000000 (dt=11.04s)


training:  41%|‚ñà‚ñà‚ñà‚ñà      | 49257/120000 [36:14<48:18, 24.41it/s]  

itr: 49250 lr: 6.439e-05 train loss: 0.000000 (dt=11.04s)


training:  41%|‚ñà‚ñà‚ñà‚ñà‚ñè     | 49508/120000 [36:25<49:45, 23.61it/s]  

itr: 49500 lr: 6.408e-05 train loss: 0.000000 (dt=11.04s)


training:  41%|‚ñà‚ñà‚ñà‚ñà‚ñè     | 49757/120000 [36:36<47:58, 24.40it/s]  

itr: 49750 lr: 6.377e-05 train loss: 0.000000 (dt=11.04s)


training:  42%|‚ñà‚ñà‚ñà‚ñà‚ñè     | 50008/120000 [36:47<49:25, 23.60it/s]  

itr: 50000 lr: 6.346e-05 train loss: 0.000000 (dt=11.04s)


training:  42%|‚ñà‚ñà‚ñà‚ñà‚ñè     | 50257/120000 [36:58<47:37, 24.41it/s]  

itr: 50250 lr: 6.314e-05 train loss: 0.000000 (dt=11.04s)


training:  42%|‚ñà‚ñà‚ñà‚ñà‚ñè     | 50507/120000 [37:09<48:52, 23.70it/s]  

itr: 50500 lr: 6.283e-05 train loss: 0.000000 (dt=11.04s)


training:  42%|‚ñà‚ñà‚ñà‚ñà‚ñè     | 50758/120000 [37:20<48:52, 23.61it/s]  

itr: 50750 lr: 6.252e-05 train loss: 0.000000 (dt=11.04s)


training:  43%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 51007/120000 [37:31<47:07, 24.40it/s]  

itr: 51000 lr: 6.220e-05 train loss: 0.000000 (dt=11.04s)


training:  43%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 51258/120000 [37:43<48:32, 23.60it/s]

itr: 51250 lr: 6.189e-05 train loss: 0.000000 (dt=11.04s)


training:  43%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 51507/120000 [37:54<46:48, 24.39it/s]  

itr: 51500 lr: 6.157e-05 train loss: 0.000000 (dt=11.04s)


training:  43%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 51758/120000 [38:05<48:10, 23.61it/s]

itr: 51750 lr: 6.125e-05 train loss: 0.000000 (dt=11.04s)


training:  43%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 52007/120000 [38:16<46:25, 24.41it/s]  

itr: 52000 lr: 6.094e-05 train loss: 0.000000 (dt=11.04s)


training:  44%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 52258/120000 [38:27<47:49, 23.61it/s]

itr: 52250 lr: 6.062e-05 train loss: 0.000000 (dt=11.04s)


training:  44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 52507/120000 [38:38<46:05, 24.40it/s]  

itr: 52500 lr: 6.030e-05 train loss: 0.000000 (dt=11.04s)


training:  44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 52758/120000 [38:49<47:26, 23.62it/s]

itr: 52750 lr: 5.998e-05 train loss: 0.000000 (dt=11.04s)


training:  44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 53007/120000 [39:00<45:44, 24.41it/s]  

itr: 53000 lr: 5.966e-05 train loss: 0.000000 (dt=11.04s)


training:  44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 53258/120000 [39:11<47:07, 23.60it/s]

itr: 53250 lr: 5.934e-05 train loss: 0.000000 (dt=11.04s)


training:  45%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 53507/120000 [39:22<45:23, 24.41it/s]  

itr: 53500 lr: 5.902e-05 train loss: 0.000000 (dt=11.04s)


training:  45%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 53758/120000 [39:33<46:46, 23.61it/s]

itr: 53750 lr: 5.870e-05 train loss: 0.000000 (dt=11.04s)


training:  45%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 54007/120000 [39:44<45:03, 24.41it/s]  

itr: 54000 lr: 5.838e-05 train loss: 0.000000 (dt=11.04s)


training:  45%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 54258/120000 [39:55<46:24, 23.61it/s]

itr: 54250 lr: 5.806e-05 train loss: 0.000000 (dt=11.04s)


training:  45%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 54507/120000 [40:06<44:43, 24.40it/s]  

itr: 54500 lr: 5.774e-05 train loss: 0.000000 (dt=11.04s)


training:  46%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 54758/120000 [40:17<46:04, 23.60it/s]

itr: 54750 lr: 5.742e-05 train loss: 0.000000 (dt=11.04s)


training:  46%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 55007/120000 [40:28<44:26, 24.38it/s]  

itr: 55000 lr: 5.710e-05 train loss: 0.000000 (dt=11.04s)


training:  46%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 55258/120000 [40:39<45:42, 23.61it/s]

itr: 55250 lr: 5.678e-05 train loss: 0.000000 (dt=11.04s)


training:  46%|‚ñà‚ñà‚ñà‚ñà‚ñã     | 55507/120000 [40:50<44:07, 24.36it/s]  

itr: 55500 lr: 5.646e-05 train loss: 0.000000 (dt=11.04s)


training:  46%|‚ñà‚ñà‚ñà‚ñà‚ñã     | 55758/120000 [41:01<45:21, 23.60it/s]

itr: 55750 lr: 5.613e-05 train loss: 0.000000 (dt=11.04s)


training:  47%|‚ñà‚ñà‚ñà‚ñà‚ñã     | 56007/120000 [41:12<43:43, 24.39it/s]  

itr: 56000 lr: 5.581e-05 train loss: 0.000000 (dt=11.04s)


training:  47%|‚ñà‚ñà‚ñà‚ñà‚ñã     | 56258/120000 [41:23<45:00, 23.60it/s]

itr: 56250 lr: 5.549e-05 train loss: 0.000000 (dt=11.04s)


training:  47%|‚ñà‚ñà‚ñà‚ñà‚ñã     | 56507/120000 [41:34<43:21, 24.41it/s]  

itr: 56500 lr: 5.517e-05 train loss: 0.000000 (dt=11.04s)


training:  47%|‚ñà‚ñà‚ñà‚ñà‚ñã     | 56758/120000 [41:45<44:41, 23.58it/s]

itr: 56750 lr: 5.484e-05 train loss: 0.000000 (dt=11.04s)


training:  48%|‚ñà‚ñà‚ñà‚ñà‚ñä     | 57007/120000 [41:56<43:02, 24.39it/s]  

itr: 57000 lr: 5.452e-05 train loss: 0.000000 (dt=11.04s)


training:  48%|‚ñà‚ñà‚ñà‚ñà‚ñä     | 57258/120000 [42:07<44:17, 23.61it/s]

itr: 57250 lr: 5.420e-05 train loss: 0.000000 (dt=11.04s)


training:  48%|‚ñà‚ñà‚ñà‚ñà‚ñä     | 57507/120000 [42:18<42:42, 24.39it/s]  

itr: 57500 lr: 5.387e-05 train loss: 0.000000 (dt=11.04s)


training:  48%|‚ñà‚ñà‚ñà‚ñà‚ñä     | 57758/120000 [42:30<43:56, 23.61it/s]

itr: 57750 lr: 5.355e-05 train loss: 0.000000 (dt=11.04s)


training:  48%|‚ñà‚ñà‚ñà‚ñà‚ñä     | 58007/120000 [42:41<42:20, 24.40it/s]  

itr: 58000 lr: 5.322e-05 train loss: 0.000000 (dt=11.04s)


training:  49%|‚ñà‚ñà‚ñà‚ñà‚ñä     | 58258/120000 [42:52<43:35, 23.60it/s]

itr: 58250 lr: 5.290e-05 train loss: 0.000051 (dt=11.04s)


training:  49%|‚ñà‚ñà‚ñà‚ñà‚ñâ     | 58507/120000 [43:03<42:01, 24.39it/s]  

itr: 58500 lr: 5.258e-05 train loss: 0.000000 (dt=11.04s)


training:  49%|‚ñà‚ñà‚ñà‚ñà‚ñâ     | 58758/120000 [43:14<43:14, 23.60it/s]

itr: 58750 lr: 5.225e-05 train loss: 0.000000 (dt=11.04s)


training:  49%|‚ñà‚ñà‚ñà‚ñà‚ñâ     | 59007/120000 [43:25<41:38, 24.41it/s]  

itr: 59000 lr: 5.193e-05 train loss: 0.000000 (dt=11.04s)


training:  49%|‚ñà‚ñà‚ñà‚ñà‚ñâ     | 59258/120000 [43:36<42:53, 23.60it/s]

itr: 59250 lr: 5.160e-05 train loss: 0.000000 (dt=11.04s)


training:  50%|‚ñà‚ñà‚ñà‚ñà‚ñâ     | 59507/120000 [43:47<41:19, 24.40it/s]

itr: 59500 lr: 5.128e-05 train loss: 0.000000 (dt=11.04s)


training:  50%|‚ñà‚ñà‚ñà‚ñà‚ñâ     | 59758/120000 [43:58<42:32, 23.60it/s]

itr: 59750 lr: 5.095e-05 train loss: 0.000000 (dt=11.04s)


training:  50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 60007/120000 [44:09<41:45, 23.94it/s]  

itr: 60000 lr: 5.063e-05 train loss: 0.000000 (dt=11.04s)
saved checkpoint: ./saved_models_grid_bs8192_20260103_075004/Checkpoint_N32_L3_dup0_iters60001.pt


training:  50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 60258/120000 [44:20<42:10, 23.61it/s]

itr: 60250 lr: 5.031e-05 train loss: 0.000000 (dt=11.05s)


training:  50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 60507/120000 [44:31<40:37, 24.40it/s]

itr: 60500 lr: 4.998e-05 train loss: 0.000000 (dt=11.04s)


training:  51%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 60758/120000 [44:42<41:49, 23.61it/s]

itr: 60750 lr: 4.966e-05 train loss: 0.000000 (dt=11.04s)


training:  51%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 61007/120000 [44:53<40:18, 24.39it/s]

itr: 61000 lr: 4.933e-05 train loss: 0.000000 (dt=11.04s)


training:  51%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 61258/120000 [45:04<41:29, 23.59it/s]

itr: 61250 lr: 4.901e-05 train loss: 0.000000 (dt=11.04s)


training:  51%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 61507/120000 [45:15<39:57, 24.39it/s]

itr: 61500 lr: 4.868e-05 train loss: 0.000000 (dt=11.04s)


training:  51%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 61758/120000 [45:26<41:05, 23.62it/s]

itr: 61750 lr: 4.836e-05 train loss: 0.000000 (dt=11.04s)


training:  52%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 62007/120000 [45:37<39:38, 24.38it/s]

itr: 62000 lr: 4.803e-05 train loss: 0.000000 (dt=11.04s)


training:  52%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 62257/120000 [45:48<40:36, 23.69it/s]

itr: 62250 lr: 4.771e-05 train loss: 0.000000 (dt=11.04s)


training:  52%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 62508/120000 [45:59<40:36, 23.60it/s]

itr: 62500 lr: 4.739e-05 train loss: 0.000000 (dt=11.04s)


training:  52%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 62757/120000 [46:10<39:04, 24.41it/s]

itr: 62750 lr: 4.706e-05 train loss: 0.000000 (dt=11.04s)


training:  53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 63008/120000 [46:21<40:14, 23.61it/s]

itr: 63000 lr: 4.674e-05 train loss: 0.000000 (dt=11.04s)


training:  53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 63257/120000 [46:32<38:45, 24.40it/s]

itr: 63250 lr: 4.642e-05 train loss: 0.000000 (dt=11.04s)


training:  53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 63507/120000 [46:43<39:44, 23.69it/s]

itr: 63500 lr: 4.609e-05 train loss: 0.000000 (dt=11.04s)


training:  53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 63758/120000 [46:54<39:43, 23.60it/s]

itr: 63750 lr: 4.577e-05 train loss: 0.000000 (dt=11.04s)


training:  53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 64007/120000 [47:05<38:15, 24.40it/s]

itr: 64000 lr: 4.545e-05 train loss: 0.000000 (dt=11.04s)


training:  54%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 64258/120000 [47:17<39:21, 23.61it/s]

itr: 64250 lr: 4.512e-05 train loss: 0.000000 (dt=11.04s)


training:  54%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç    | 64507/120000 [47:28<37:53, 24.41it/s]

itr: 64500 lr: 4.480e-05 train loss: 0.000000 (dt=11.04s)


training:  54%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç    | 64758/120000 [47:39<38:58, 23.63it/s]

itr: 64750 lr: 4.448e-05 train loss: 0.000000 (dt=11.04s)


training:  54%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç    | 65007/120000 [47:50<37:34, 24.40it/s]

itr: 65000 lr: 4.416e-05 train loss: 0.000000 (dt=11.04s)


training:  54%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç    | 65258/120000 [48:01<38:38, 23.61it/s]

itr: 65250 lr: 4.384e-05 train loss: 0.000000 (dt=11.04s)


training:  55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç    | 65507/120000 [48:12<37:12, 24.41it/s]

itr: 65500 lr: 4.351e-05 train loss: 0.000000 (dt=11.04s)


training:  55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç    | 65758/120000 [48:23<38:13, 23.65it/s]

itr: 65750 lr: 4.319e-05 train loss: 0.000001 (dt=11.04s)


training:  55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 66007/120000 [48:34<36:54, 24.38it/s]

itr: 66000 lr: 4.287e-05 train loss: 0.000000 (dt=11.04s)


training:  55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 66258/120000 [48:45<37:56, 23.61it/s]

itr: 66250 lr: 4.255e-05 train loss: 0.000000 (dt=11.04s)


training:  55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 66507/120000 [48:56<36:33, 24.39it/s]

itr: 66500 lr: 4.223e-05 train loss: 0.000000 (dt=11.04s)


training:  56%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 66758/120000 [49:07<37:36, 23.59it/s]

itr: 66750 lr: 4.191e-05 train loss: 0.000000 (dt=11.04s)


training:  56%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 67007/120000 [49:18<36:11, 24.40it/s]

itr: 67000 lr: 4.159e-05 train loss: 0.000000 (dt=11.04s)


training:  56%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 67258/120000 [49:29<37:13, 23.61it/s]

itr: 67250 lr: 4.127e-05 train loss: 0.000000 (dt=11.04s)


training:  56%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã    | 67507/120000 [49:40<35:54, 24.36it/s]

itr: 67500 lr: 4.095e-05 train loss: 0.000000 (dt=11.04s)


training:  56%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã    | 67758/120000 [49:51<36:52, 23.61it/s]

itr: 67750 lr: 4.064e-05 train loss: 0.000000 (dt=11.04s)


training:  57%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã    | 68007/120000 [50:02<35:30, 24.41it/s]

itr: 68000 lr: 4.032e-05 train loss: 0.000000 (dt=11.04s)


training:  57%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã    | 68258/120000 [50:13<36:31, 23.61it/s]

itr: 68250 lr: 4.000e-05 train loss: 0.000000 (dt=11.04s)


training:  57%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã    | 68507/120000 [50:24<35:09, 24.41it/s]

itr: 68500 lr: 3.968e-05 train loss: 0.000000 (dt=11.04s)


training:  57%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã    | 68758/120000 [50:35<36:11, 23.60it/s]

itr: 68750 lr: 3.937e-05 train loss: 0.000000 (dt=11.04s)


training:  58%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä    | 69007/120000 [50:46<34:50, 24.39it/s]

itr: 69000 lr: 3.905e-05 train loss: 0.000000 (dt=11.04s)


training:  58%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä    | 69258/120000 [50:57<35:49, 23.61it/s]

itr: 69250 lr: 3.874e-05 train loss: 0.000000 (dt=11.04s)


training:  58%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä    | 69507/120000 [51:08<34:27, 24.42it/s]

itr: 69500 lr: 3.842e-05 train loss: 0.000000 (dt=11.04s)


training:  58%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä    | 69758/120000 [51:19<35:28, 23.60it/s]

itr: 69750 lr: 3.811e-05 train loss: 0.000000 (dt=11.04s)


training:  58%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä    | 70007/120000 [51:30<34:10, 24.39it/s]

itr: 70000 lr: 3.779e-05 train loss: 0.000000 (dt=11.04s)


training:  59%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä    | 70258/120000 [51:42<35:06, 23.61it/s]

itr: 70250 lr: 3.748e-05 train loss: 0.000000 (dt=11.04s)


training:  59%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ    | 70507/120000 [51:53<33:47, 24.41it/s]

itr: 70500 lr: 3.717e-05 train loss: 0.000000 (dt=11.04s)


training:  59%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ    | 70758/120000 [52:04<34:45, 23.61it/s]

itr: 70750 lr: 3.685e-05 train loss: 0.000000 (dt=11.04s)


training:  59%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ    | 71007/120000 [52:15<33:27, 24.41it/s]

itr: 71000 lr: 3.654e-05 train loss: 0.000000 (dt=11.04s)


training:  59%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ    | 71258/120000 [52:26<34:25, 23.60it/s]

itr: 71250 lr: 3.623e-05 train loss: 0.000000 (dt=11.04s)


training:  60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ    | 71507/120000 [52:37<33:07, 24.40it/s]

itr: 71500 lr: 3.592e-05 train loss: 0.000000 (dt=11.04s)


training:  60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ    | 71758/120000 [52:48<34:03, 23.61it/s]

itr: 71750 lr: 3.561e-05 train loss: 0.000000 (dt=11.04s)


training:  60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 72007/120000 [52:59<32:47, 24.39it/s]

itr: 72000 lr: 3.530e-05 train loss: 0.000000 (dt=11.04s)


training:  60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 72258/120000 [53:10<33:42, 23.61it/s]

itr: 72250 lr: 3.499e-05 train loss: 0.000000 (dt=11.04s)


training:  60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 72507/120000 [53:21<32:27, 24.38it/s]

itr: 72500 lr: 3.469e-05 train loss: 0.000000 (dt=11.04s)


training:  61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 72758/120000 [53:32<33:21, 23.60it/s]

itr: 72750 lr: 3.438e-05 train loss: 0.000000 (dt=11.04s)


training:  61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 73007/120000 [53:43<32:05, 24.40it/s]

itr: 73000 lr: 3.407e-05 train loss: 0.000000 (dt=11.04s)


training:  61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 73258/120000 [53:54<32:59, 23.61it/s]

itr: 73250 lr: 3.377e-05 train loss: 0.000000 (dt=11.04s)


training:  61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 73507/120000 [54:05<31:46, 24.38it/s]

itr: 73500 lr: 3.346e-05 train loss: 0.000000 (dt=11.04s)


training:  61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 73758/120000 [54:16<32:39, 23.60it/s]

itr: 73750 lr: 3.316e-05 train loss: 0.000000 (dt=11.04s)


training:  62%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 74007/120000 [54:27<31:25, 24.40it/s]

itr: 74000 lr: 3.285e-05 train loss: 0.000000 (dt=11.04s)


training:  62%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 74258/120000 [54:38<32:18, 23.60it/s]

itr: 74250 lr: 3.255e-05 train loss: 0.000000 (dt=11.04s)


training:  62%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 74507/120000 [54:49<31:04, 24.40it/s]

itr: 74500 lr: 3.225e-05 train loss: 0.000000 (dt=11.04s)


training:  62%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 74758/120000 [55:00<31:56, 23.61it/s]

itr: 74750 lr: 3.195e-05 train loss: 0.000000 (dt=11.04s)


training:  63%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé   | 75007/120000 [55:11<30:45, 24.38it/s]

itr: 75000 lr: 3.165e-05 train loss: 0.000000 (dt=11.04s)


training:  63%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé   | 75258/120000 [55:22<31:35, 23.60it/s]

itr: 75250 lr: 3.135e-05 train loss: 0.000000 (dt=11.04s)


training:  63%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé   | 75507/120000 [55:33<30:24, 24.39it/s]

itr: 75500 lr: 3.105e-05 train loss: 0.000000 (dt=11.04s)


training:  63%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé   | 75758/120000 [55:44<31:13, 23.61it/s]

itr: 75750 lr: 3.075e-05 train loss: 0.000000 (dt=11.04s)


training:  63%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé   | 76007/120000 [55:55<30:03, 24.40it/s]

itr: 76000 lr: 3.045e-05 train loss: 0.000000 (dt=11.04s)


training:  64%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé   | 76258/120000 [56:06<30:54, 23.59it/s]

itr: 76250 lr: 3.016e-05 train loss: 0.000000 (dt=11.04s)


training:  64%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç   | 76507/120000 [56:17<29:42, 24.40it/s]

itr: 76500 lr: 2.986e-05 train loss: 0.000000 (dt=11.04s)


training:  64%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç   | 76758/120000 [56:29<30:31, 23.61it/s]

itr: 76750 lr: 2.957e-05 train loss: 0.000000 (dt=11.04s)


training:  64%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç   | 77007/120000 [56:40<29:21, 24.41it/s]

itr: 77000 lr: 2.927e-05 train loss: 0.000000 (dt=11.04s)


training:  64%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç   | 77258/120000 [56:51<30:09, 23.63it/s]

itr: 77250 lr: 2.898e-05 train loss: 0.000000 (dt=11.04s)


training:  65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç   | 77507/120000 [57:02<29:01, 24.40it/s]

itr: 77500 lr: 2.869e-05 train loss: 0.000000 (dt=11.04s)


training:  65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç   | 77758/120000 [57:13<29:49, 23.61it/s]

itr: 77750 lr: 2.840e-05 train loss: 0.000000 (dt=11.04s)


training:  65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 78007/120000 [57:24<28:41, 24.40it/s]

itr: 78000 lr: 2.811e-05 train loss: 0.000000 (dt=11.04s)


training:  65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 78258/120000 [57:35<29:27, 23.61it/s]

itr: 78250 lr: 2.782e-05 train loss: 0.000000 (dt=11.04s)


training:  65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 78507/120000 [57:46<28:20, 24.40it/s]

itr: 78500 lr: 2.753e-05 train loss: 0.000000 (dt=11.04s)


training:  66%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 78758/120000 [57:57<29:08, 23.59it/s]

itr: 78750 lr: 2.724e-05 train loss: 0.000000 (dt=11.04s)


training:  66%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 79007/120000 [58:08<27:59, 24.40it/s]

itr: 79000 lr: 2.696e-05 train loss: 0.000000 (dt=11.04s)


training:  66%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 79258/120000 [58:19<28:46, 23.60it/s]

itr: 79250 lr: 2.667e-05 train loss: 0.000000 (dt=11.04s)


training:  66%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã   | 79507/120000 [58:30<27:42, 24.35it/s]

itr: 79500 lr: 2.639e-05 train loss: 0.000000 (dt=11.04s)


training:  66%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã   | 79758/120000 [58:41<28:24, 23.61it/s]

itr: 79750 lr: 2.611e-05 train loss: 0.000000 (dt=11.04s)


training:  67%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã   | 80007/120000 [58:52<27:51, 23.92it/s]

itr: 80000 lr: 2.582e-05 train loss: 0.000000 (dt=11.04s)
saved checkpoint: ./saved_models_grid_bs8192_20260103_075004/Checkpoint_N32_L3_dup0_iters80001.pt


training:  67%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã   | 80258/120000 [59:03<28:03, 23.60it/s]

itr: 80250 lr: 2.554e-05 train loss: 0.000000 (dt=11.06s)


training:  67%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã   | 80507/120000 [59:14<27:00, 24.38it/s]

itr: 80500 lr: 2.526e-05 train loss: 0.000000 (dt=11.04s)


training:  67%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã   | 80758/120000 [59:25<27:42, 23.61it/s]

itr: 80750 lr: 2.499e-05 train loss: 0.000000 (dt=11.04s)


training:  68%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä   | 81007/120000 [59:36<26:37, 24.41it/s]

itr: 81000 lr: 2.471e-05 train loss: 0.000000 (dt=11.04s)


training:  68%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä   | 81258/120000 [59:47<27:21, 23.60it/s]

itr: 81250 lr: 2.443e-05 train loss: 0.000000 (dt=11.04s)


training:  68%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä   | 81507/120000 [59:58<26:18, 24.39it/s]

itr: 81500 lr: 2.416e-05 train loss: 0.000000 (dt=11.04s)


training:  68%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä   | 81758/120000 [1:00:09<27:00, 23.60it/s]

itr: 81750 lr: 2.388e-05 train loss: 0.000000 (dt=11.04s)


training:  68%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä   | 82007/120000 [1:00:20<25:56, 24.41it/s]

itr: 82000 lr: 2.361e-05 train loss: 0.000000 (dt=11.04s)


training:  69%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä   | 82258/120000 [1:00:31<26:39, 23.60it/s]

itr: 82250 lr: 2.334e-05 train loss: 0.000000 (dt=11.04s)


training:  69%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 82507/120000 [1:00:42<25:36, 24.40it/s]

itr: 82500 lr: 2.307e-05 train loss: 0.000000 (dt=11.04s)


training:  69%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 82758/120000 [1:00:53<26:17, 23.61it/s]

itr: 82750 lr: 2.280e-05 train loss: 0.000000 (dt=11.04s)


training:  69%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 83007/120000 [1:01:04<25:15, 24.41it/s]

itr: 83000 lr: 2.253e-05 train loss: 0.000000 (dt=11.04s)


training:  69%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 83258/120000 [1:01:16<25:56, 23.61it/s]

itr: 83250 lr: 2.226e-05 train loss: 0.000000 (dt=11.04s)


training:  70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 83507/120000 [1:01:27<24:55, 24.41it/s]

itr: 83500 lr: 2.200e-05 train loss: 0.000000 (dt=11.04s)


training:  70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 83758/120000 [1:01:38<25:35, 23.60it/s]

itr: 83750 lr: 2.173e-05 train loss: 0.000000 (dt=11.04s)


training:  70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 84007/120000 [1:01:49<24:35, 24.40it/s]

itr: 84000 lr: 2.147e-05 train loss: 0.000000 (dt=11.04s)


training:  70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 84258/120000 [1:02:00<25:13, 23.61it/s]

itr: 84250 lr: 2.121e-05 train loss: 0.000000 (dt=11.04s)


training:  70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 84507/120000 [1:02:11<24:15, 24.38it/s]

itr: 84500 lr: 2.094e-05 train loss: 0.000000 (dt=11.04s)


training:  71%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 84758/120000 [1:02:22<24:53, 23.60it/s]

itr: 84750 lr: 2.068e-05 train loss: 0.000000 (dt=11.04s)


training:  71%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 85007/120000 [1:02:33<23:55, 24.38it/s]

itr: 85000 lr: 2.043e-05 train loss: 0.000000 (dt=11.04s)


training:  71%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 85258/120000 [1:02:44<24:32, 23.60it/s]

itr: 85250 lr: 2.017e-05 train loss: 0.000000 (dt=11.04s)


training:  71%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè  | 85507/120000 [1:02:55<23:34, 24.39it/s]

itr: 85500 lr: 1.991e-05 train loss: 0.000000 (dt=11.04s)


training:  71%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè  | 85758/120000 [1:03:06<24:10, 23.61it/s]

itr: 85750 lr: 1.966e-05 train loss: 0.000000 (dt=11.04s)


training:  72%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè  | 86007/120000 [1:03:17<23:12, 24.40it/s]

itr: 86000 lr: 1.941e-05 train loss: 0.000000 (dt=11.04s)


training:  72%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè  | 86258/120000 [1:03:28<23:50, 23.59it/s]

itr: 86250 lr: 1.915e-05 train loss: 0.000000 (dt=11.04s)


training:  72%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè  | 86507/120000 [1:03:39<22:52, 24.41it/s]

itr: 86500 lr: 1.890e-05 train loss: 0.000000 (dt=11.04s)


training:  72%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè  | 86758/120000 [1:03:50<23:27, 23.61it/s]

itr: 86750 lr: 1.865e-05 train loss: 0.000000 (dt=11.04s)


training:  73%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé  | 87007/120000 [1:04:01<22:32, 24.40it/s]

itr: 87000 lr: 1.841e-05 train loss: 0.000000 (dt=11.04s)


training:  73%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé  | 87257/120000 [1:04:12<23:01, 23.69it/s]

itr: 87250 lr: 1.816e-05 train loss: 0.000000 (dt=11.04s)


training:  73%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé  | 87508/120000 [1:04:23<22:57, 23.59it/s]

itr: 87500 lr: 1.792e-05 train loss: 0.000000 (dt=11.04s)


training:  73%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé  | 87757/120000 [1:04:34<22:01, 24.40it/s]

itr: 87750 lr: 1.767e-05 train loss: 0.000000 (dt=11.04s)


training:  73%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé  | 88008/120000 [1:04:45<22:35, 23.60it/s]

itr: 88000 lr: 1.743e-05 train loss: 0.000000 (dt=11.04s)


training:  74%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé  | 88257/120000 [1:04:56<21:41, 24.39it/s]

itr: 88250 lr: 1.719e-05 train loss: 0.000000 (dt=11.04s)


training:  74%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç  | 88508/120000 [1:05:07<22:14, 23.60it/s]

itr: 88500 lr: 1.695e-05 train loss: 0.000000 (dt=11.04s)


training:  74%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç  | 88757/120000 [1:05:18<21:21, 24.38it/s]

itr: 88750 lr: 1.671e-05 train loss: 0.000000 (dt=11.04s)


training:  74%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç  | 89008/120000 [1:05:29<21:52, 23.61it/s]

itr: 89000 lr: 1.648e-05 train loss: 0.000000 (dt=11.04s)


training:  74%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç  | 89257/120000 [1:05:40<21:00, 24.39it/s]

itr: 89250 lr: 1.624e-05 train loss: 0.000000 (dt=11.04s)


training:  75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç  | 89508/120000 [1:05:52<21:31, 23.60it/s]

itr: 89500 lr: 1.601e-05 train loss: 0.000000 (dt=11.04s)


training:  75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç  | 89757/120000 [1:06:03<20:39, 24.40it/s]

itr: 89750 lr: 1.577e-05 train loss: 0.000000 (dt=11.04s)


training:  75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 90008/120000 [1:06:14<21:11, 23.59it/s]

itr: 90000 lr: 1.554e-05 train loss: 0.000000 (dt=11.04s)


training:  75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 90257/120000 [1:06:25<20:18, 24.40it/s]

itr: 90250 lr: 1.532e-05 train loss: 0.000000 (dt=11.04s)


training:  75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 90508/120000 [1:06:36<20:49, 23.60it/s]

itr: 90500 lr: 1.509e-05 train loss: 0.000000 (dt=11.04s)


training:  76%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 90757/120000 [1:06:47<19:58, 24.39it/s]

itr: 90750 lr: 1.486e-05 train loss: 0.000000 (dt=11.04s)


training:  76%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 91008/120000 [1:06:58<20:28, 23.61it/s]

itr: 91000 lr: 1.464e-05 train loss: 0.000000 (dt=11.04s)


training:  76%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 91257/120000 [1:07:09<19:38, 24.39it/s]

itr: 91250 lr: 1.441e-05 train loss: 0.000000 (dt=11.04s)


training:  76%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã  | 91508/120000 [1:07:20<20:07, 23.59it/s]

itr: 91500 lr: 1.419e-05 train loss: 0.000000 (dt=11.04s)


training:  76%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã  | 91757/120000 [1:07:31<19:17, 24.39it/s]

itr: 91750 lr: 1.397e-05 train loss: 0.000000 (dt=11.04s)


training:  77%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã  | 92008/120000 [1:07:42<19:45, 23.62it/s]

itr: 92000 lr: 1.375e-05 train loss: 0.000000 (dt=11.04s)


training:  77%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã  | 92257/120000 [1:07:53<18:56, 24.41it/s]

itr: 92250 lr: 1.354e-05 train loss: 0.000000 (dt=11.04s)


training:  77%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã  | 92508/120000 [1:08:04<19:24, 23.60it/s]

itr: 92500 lr: 1.332e-05 train loss: 0.000000 (dt=11.04s)


training:  77%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã  | 92757/120000 [1:08:15<18:37, 24.39it/s]

itr: 92750 lr: 1.311e-05 train loss: 0.000000 (dt=11.04s)


training:  78%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 93008/120000 [1:08:26<19:03, 23.60it/s]

itr: 93000 lr: 1.290e-05 train loss: 0.000000 (dt=11.04s)


training:  78%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 93257/120000 [1:08:37<18:15, 24.41it/s]

itr: 93250 lr: 1.269e-05 train loss: 0.000000 (dt=11.04s)


training:  78%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 93508/120000 [1:08:48<18:42, 23.60it/s]

itr: 93500 lr: 1.248e-05 train loss: 0.000000 (dt=11.04s)


training:  78%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 93757/120000 [1:08:59<17:56, 24.39it/s]

itr: 93750 lr: 1.227e-05 train loss: 0.000000 (dt=11.04s)


training:  78%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 94007/120000 [1:09:10<18:17, 23.69it/s]

itr: 94000 lr: 1.207e-05 train loss: 0.000000 (dt=11.04s)


training:  79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 94258/120000 [1:09:21<18:10, 23.60it/s]

itr: 94250 lr: 1.186e-05 train loss: 0.000000 (dt=11.04s)


training:  79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 94507/120000 [1:09:32<17:24, 24.40it/s]

itr: 94500 lr: 1.166e-05 train loss: 0.000000 (dt=11.04s)


training:  79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 94758/120000 [1:09:43<17:49, 23.61it/s]

itr: 94750 lr: 1.146e-05 train loss: 0.000000 (dt=11.04s)


training:  79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 95007/120000 [1:09:54<17:05, 24.38it/s]

itr: 95000 lr: 1.126e-05 train loss: 0.000000 (dt=11.04s)


training:  79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 95258/120000 [1:10:05<17:25, 23.67it/s]

itr: 95250 lr: 1.106e-05 train loss: 0.000000 (dt=11.04s)


training:  80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 95507/120000 [1:10:16<16:44, 24.39it/s]

itr: 95500 lr: 1.087e-05 train loss: 0.000000 (dt=11.04s)


training:  80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 95758/120000 [1:10:28<17:06, 23.61it/s]

itr: 95750 lr: 1.068e-05 train loss: 0.000000 (dt=11.04s)


training:  80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 96007/120000 [1:10:39<16:22, 24.41it/s]

itr: 96000 lr: 1.048e-05 train loss: 0.000000 (dt=11.04s)


training:  80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 96258/120000 [1:10:50<16:46, 23.59it/s]

itr: 96250 lr: 1.029e-05 train loss: 0.000000 (dt=11.04s)


training:  80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 96507/120000 [1:11:01<16:02, 24.40it/s]

itr: 96500 lr: 1.011e-05 train loss: 0.000000 (dt=11.04s)


training:  81%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 96758/120000 [1:11:12<16:24, 23.61it/s]

itr: 96750 lr: 9.919e-06 train loss: 0.000000 (dt=11.04s)


training:  81%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 97007/120000 [1:11:23<15:42, 24.40it/s]

itr: 97000 lr: 9.734e-06 train loss: 0.000000 (dt=11.04s)


training:  81%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 97258/120000 [1:11:34<16:03, 23.60it/s]

itr: 97250 lr: 9.551e-06 train loss: 0.000000 (dt=11.04s)


training:  81%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè | 97507/120000 [1:11:45<15:21, 24.40it/s]

itr: 97500 lr: 9.369e-06 train loss: 0.000000 (dt=11.04s)


training:  81%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè | 97758/120000 [1:11:56<15:42, 23.61it/s]

itr: 97750 lr: 9.190e-06 train loss: 0.000000 (dt=11.04s)


training:  82%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè | 98007/120000 [1:12:07<15:01, 24.40it/s]

itr: 98000 lr: 9.012e-06 train loss: 0.000000 (dt=11.04s)


training:  82%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè | 98258/120000 [1:12:18<15:21, 23.60it/s]

itr: 98250 lr: 8.836e-06 train loss: 0.000000 (dt=11.04s)


training:  82%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè | 98507/120000 [1:12:29<14:40, 24.40it/s]

itr: 98500 lr: 8.661e-06 train loss: 0.000000 (dt=11.04s)


training:  82%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè | 98758/120000 [1:12:40<14:58, 23.63it/s]

itr: 98750 lr: 8.489e-06 train loss: 0.000000 (dt=11.04s)


training:  83%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé | 99007/120000 [1:12:51<14:20, 24.39it/s]

itr: 99000 lr: 8.318e-06 train loss: 0.000000 (dt=11.04s)


training:  83%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé | 99258/120000 [1:13:02<14:38, 23.61it/s]

itr: 99250 lr: 8.149e-06 train loss: 0.000000 (dt=11.04s)


training:  83%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé | 99507/120000 [1:13:13<13:59, 24.41it/s]

itr: 99500 lr: 7.982e-06 train loss: 0.000000 (dt=11.04s)


training:  83%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé | 99758/120000 [1:13:24<14:17, 23.61it/s]

itr: 99750 lr: 7.817e-06 train loss: 0.000000 (dt=11.04s)


training:  83%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé | 100007/120000 [1:13:35<13:55, 23.93it/s]

itr: 100000 lr: 7.653e-06 train loss: 0.000000 (dt=11.04s)
saved checkpoint: ./saved_models_grid_bs8192_20260103_075004/Checkpoint_N32_L3_dup0_iters100001.pt


training:  84%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé | 100257/120000 [1:13:46<13:53, 23.69it/s]

itr: 100250 lr: 7.492e-06 train loss: 0.000000 (dt=11.06s)


training:  84%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç | 100508/120000 [1:13:57<13:45, 23.61it/s]

itr: 100500 lr: 7.332e-06 train loss: 0.000000 (dt=11.04s)


training:  84%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç | 100757/120000 [1:14:08<13:08, 24.40it/s]

itr: 100750 lr: 7.174e-06 train loss: 0.000000 (dt=11.04s)


training:  84%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç | 101008/120000 [1:14:19<13:24, 23.60it/s]

itr: 101000 lr: 7.018e-06 train loss: 0.000000 (dt=11.04s)


training:  84%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç | 101257/120000 [1:14:30<12:48, 24.38it/s]

itr: 101250 lr: 6.864e-06 train loss: 0.000000 (dt=11.04s)


training:  85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç | 101508/120000 [1:14:41<13:03, 23.61it/s]

itr: 101500 lr: 6.712e-06 train loss: 0.000000 (dt=11.04s)


training:  85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç | 101757/120000 [1:14:52<12:28, 24.38it/s]

itr: 101750 lr: 6.561e-06 train loss: 0.000000 (dt=11.04s)


training:  85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 102008/120000 [1:15:04<12:42, 23.60it/s]

itr: 102000 lr: 6.413e-06 train loss: 0.000000 (dt=11.04s)


training:  85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 102257/120000 [1:15:15<12:06, 24.41it/s]

itr: 102250 lr: 6.266e-06 train loss: 0.000000 (dt=11.04s)


training:  85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 102508/120000 [1:15:26<12:20, 23.61it/s]

itr: 102500 lr: 6.122e-06 train loss: 0.000000 (dt=11.04s)


training:  86%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 102757/120000 [1:15:37<11:46, 24.39it/s]

itr: 102750 lr: 5.979e-06 train loss: 0.000000 (dt=11.04s)


training:  86%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 103008/120000 [1:15:48<12:00, 23.60it/s]

itr: 103000 lr: 5.838e-06 train loss: 0.000000 (dt=11.04s)


training:  86%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 103257/120000 [1:15:59<11:25, 24.41it/s]

itr: 103250 lr: 5.699e-06 train loss: 0.000000 (dt=11.04s)


training:  86%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 103508/120000 [1:16:10<11:38, 23.62it/s]

itr: 103500 lr: 5.562e-06 train loss: 0.000000 (dt=11.04s)


training:  86%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 103757/120000 [1:16:21<11:06, 24.38it/s]

itr: 103750 lr: 5.427e-06 train loss: 0.000000 (dt=11.04s)


training:  87%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 104008/120000 [1:16:32<11:17, 23.60it/s]

itr: 104000 lr: 5.294e-06 train loss: 0.000000 (dt=11.04s)


training:  87%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 104257/120000 [1:16:43<10:45, 24.39it/s]

itr: 104250 lr: 5.162e-06 train loss: 0.000000 (dt=11.04s)


training:  87%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 104508/120000 [1:16:54<10:56, 23.61it/s]

itr: 104500 lr: 5.033e-06 train loss: 0.000000 (dt=11.04s)


training:  87%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 104757/120000 [1:17:05<10:25, 24.36it/s]

itr: 104750 lr: 4.906e-06 train loss: 0.000000 (dt=11.04s)


training:  88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 105008/120000 [1:17:16<10:35, 23.60it/s]

itr: 105000 lr: 4.780e-06 train loss: 0.000000 (dt=11.04s)


training:  88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 105257/120000 [1:17:27<10:04, 24.39it/s]

itr: 105250 lr: 4.657e-06 train loss: 0.000000 (dt=11.04s)


training:  88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 105508/120000 [1:17:38<10:13, 23.60it/s]

itr: 105500 lr: 4.536e-06 train loss: 0.000000 (dt=11.04s)


training:  88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 105757/120000 [1:17:49<09:43, 24.41it/s]

itr: 105750 lr: 4.416e-06 train loss: 0.000000 (dt=11.04s)


training:  88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 106008/120000 [1:18:00<09:52, 23.61it/s]

itr: 106000 lr: 4.299e-06 train loss: 0.000000 (dt=11.04s)


training:  89%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 106257/120000 [1:18:11<09:23, 24.39it/s]

itr: 106250 lr: 4.183e-06 train loss: 0.000000 (dt=11.04s)


training:  89%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ | 106508/120000 [1:18:22<09:31, 23.61it/s]

itr: 106500 lr: 4.070e-06 train loss: 0.000000 (dt=11.04s)


training:  89%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ | 106757/120000 [1:18:33<09:02, 24.41it/s]

itr: 106750 lr: 3.958e-06 train loss: 0.000000 (dt=11.04s)


training:  89%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ | 107008/120000 [1:18:44<09:10, 23.61it/s]

itr: 107000 lr: 3.849e-06 train loss: 0.000000 (dt=11.04s)


training:  89%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ | 107257/120000 [1:18:55<08:42, 24.41it/s]

itr: 107250 lr: 3.741e-06 train loss: 0.000000 (dt=11.04s)


training:  90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ | 107508/120000 [1:19:06<08:49, 23.59it/s]

itr: 107500 lr: 3.636e-06 train loss: 0.000000 (dt=11.04s)


training:  90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ | 107757/120000 [1:19:17<08:21, 24.40it/s]

itr: 107750 lr: 3.532e-06 train loss: 0.000000 (dt=11.04s)


training:  90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 108008/120000 [1:19:28<08:27, 23.61it/s]

itr: 108000 lr: 3.431e-06 train loss: 0.000000 (dt=11.04s)


training:  90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 108257/120000 [1:19:39<08:01, 24.39it/s]

itr: 108250 lr: 3.331e-06 train loss: 0.000000 (dt=11.04s)


training:  90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 108508/120000 [1:19:51<08:06, 23.61it/s]

itr: 108500 lr: 3.234e-06 train loss: 0.000000 (dt=11.04s)


training:  91%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 108757/120000 [1:20:02<07:40, 24.40it/s]

itr: 108750 lr: 3.139e-06 train loss: 0.000000 (dt=11.04s)


training:  91%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 109008/120000 [1:20:13<07:45, 23.61it/s]

itr: 109000 lr: 3.045e-06 train loss: 0.000000 (dt=11.04s)


training:  91%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 109257/120000 [1:20:24<07:20, 24.39it/s]

itr: 109250 lr: 2.954e-06 train loss: 0.000000 (dt=11.04s)


training:  91%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè| 109508/120000 [1:20:35<07:24, 23.62it/s]

itr: 109500 lr: 2.865e-06 train loss: 0.000000 (dt=11.04s)


training:  91%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè| 109757/120000 [1:20:46<06:59, 24.40it/s]

itr: 109750 lr: 2.777e-06 train loss: 0.000000 (dt=11.04s)


training:  92%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè| 110008/120000 [1:20:57<07:03, 23.60it/s]

itr: 110000 lr: 2.692e-06 train loss: 0.000000 (dt=11.04s)


training:  92%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè| 110257/120000 [1:21:08<06:39, 24.40it/s]

itr: 110250 lr: 2.609e-06 train loss: 0.000000 (dt=11.04s)


training:  92%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè| 110508/120000 [1:21:19<06:41, 23.65it/s]

itr: 110500 lr: 2.528e-06 train loss: 0.000000 (dt=11.04s)


training:  92%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè| 110757/120000 [1:21:30<06:18, 24.40it/s]

itr: 110750 lr: 2.449e-06 train loss: 0.000000 (dt=11.04s)


training:  93%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé| 111008/120000 [1:21:41<06:20, 23.66it/s]

itr: 111000 lr: 2.372e-06 train loss: 0.000000 (dt=11.04s)


training:  93%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé| 111257/120000 [1:21:52<05:58, 24.40it/s]

itr: 111250 lr: 2.297e-06 train loss: 0.000000 (dt=11.04s)


training:  93%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé| 111508/120000 [1:22:03<05:59, 23.64it/s]

itr: 111500 lr: 2.225e-06 train loss: 0.000000 (dt=11.04s)


training:  93%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé| 111757/120000 [1:22:14<05:37, 24.41it/s]

itr: 111750 lr: 2.154e-06 train loss: 0.000000 (dt=11.04s)


training:  93%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé| 112008/120000 [1:22:25<05:38, 23.63it/s]

itr: 112000 lr: 2.085e-06 train loss: 0.000000 (dt=11.04s)


training:  94%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé| 112257/120000 [1:22:36<05:17, 24.41it/s]

itr: 112250 lr: 2.019e-06 train loss: 0.000000 (dt=11.04s)


training:  94%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç| 112508/120000 [1:22:47<05:17, 23.60it/s]

itr: 112500 lr: 1.954e-06 train loss: 0.000000 (dt=11.04s)


training:  94%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç| 112757/120000 [1:22:58<04:56, 24.40it/s]

itr: 112750 lr: 1.892e-06 train loss: 0.000000 (dt=11.04s)


training:  94%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç| 113008/120000 [1:23:09<04:56, 23.61it/s]

itr: 113000 lr: 1.832e-06 train loss: 0.000000 (dt=11.04s)


training:  94%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç| 113257/120000 [1:23:20<04:36, 24.39it/s]

itr: 113250 lr: 1.773e-06 train loss: 0.000000 (dt=11.04s)


training:  95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç| 113508/120000 [1:23:31<04:35, 23.61it/s]

itr: 113500 lr: 1.717e-06 train loss: 0.000000 (dt=11.04s)


training:  95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç| 113757/120000 [1:23:42<04:15, 24.39it/s]

itr: 113750 lr: 1.663e-06 train loss: 0.000000 (dt=11.04s)


training:  95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 114008/120000 [1:23:53<04:13, 23.61it/s]

itr: 114000 lr: 1.611e-06 train loss: 0.000000 (dt=11.04s)


training:  95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 114257/120000 [1:24:04<03:55, 24.41it/s]

itr: 114250 lr: 1.562e-06 train loss: 0.000000 (dt=11.04s)


training:  95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 114508/120000 [1:24:15<03:52, 23.60it/s]

itr: 114500 lr: 1.514e-06 train loss: 0.000000 (dt=11.04s)


training:  96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 114757/120000 [1:24:26<03:35, 24.37it/s]

itr: 114750 lr: 1.468e-06 train loss: 0.000000 (dt=11.04s)


training:  96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 115008/120000 [1:24:38<03:31, 23.60it/s]

itr: 115000 lr: 1.425e-06 train loss: 0.000000 (dt=11.04s)


training:  96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 115257/120000 [1:24:49<03:14, 24.37it/s]

itr: 115250 lr: 1.384e-06 train loss: 0.000000 (dt=11.04s)


training:  96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã| 115508/120000 [1:25:00<03:10, 23.62it/s]

itr: 115500 lr: 1.344e-06 train loss: 0.000000 (dt=11.04s)


training:  96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã| 115757/120000 [1:25:11<02:53, 24.39it/s]

itr: 115750 lr: 1.307e-06 train loss: 0.000000 (dt=11.04s)


training:  97%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã| 116008/120000 [1:25:22<02:48, 23.63it/s]

itr: 116000 lr: 1.272e-06 train loss: 0.000000 (dt=11.04s)


training:  97%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã| 116257/120000 [1:25:33<02:33, 24.39it/s]

itr: 116250 lr: 1.239e-06 train loss: 0.000000 (dt=11.04s)


training:  97%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã| 116508/120000 [1:25:44<02:27, 23.60it/s]

itr: 116500 lr: 1.208e-06 train loss: 0.000000 (dt=11.04s)


training:  97%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã| 116757/120000 [1:25:55<02:12, 24.39it/s]

itr: 116750 lr: 1.180e-06 train loss: 0.000000 (dt=11.04s)


training:  98%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä| 117008/120000 [1:26:06<02:06, 23.62it/s]

itr: 117000 lr: 1.153e-06 train loss: 0.000000 (dt=11.04s)


training:  98%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä| 117257/120000 [1:26:17<01:52, 24.39it/s]

itr: 117250 lr: 1.129e-06 train loss: 0.000000 (dt=11.04s)


training:  98%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä| 117508/120000 [1:26:28<01:45, 23.60it/s]

itr: 117500 lr: 1.106e-06 train loss: 0.000000 (dt=11.04s)


training:  98%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä| 117757/120000 [1:26:39<01:31, 24.41it/s]

itr: 117750 lr: 1.086e-06 train loss: 0.000000 (dt=11.04s)


training:  98%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä| 118008/120000 [1:26:50<01:24, 23.61it/s]

itr: 118000 lr: 1.068e-06 train loss: 0.000000 (dt=11.04s)


training:  99%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä| 118257/120000 [1:27:01<01:11, 24.39it/s]

itr: 118250 lr: 1.052e-06 train loss: 0.000000 (dt=11.04s)


training:  99%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ| 118508/120000 [1:27:12<01:03, 23.62it/s]

itr: 118500 lr: 1.038e-06 train loss: 0.000000 (dt=11.04s)


training:  99%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ| 118757/120000 [1:27:23<00:50, 24.39it/s]

itr: 118750 lr: 1.027e-06 train loss: 0.000000 (dt=11.04s)


training:  99%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ| 119008/120000 [1:27:34<00:42, 23.60it/s]

itr: 119000 lr: 1.017e-06 train loss: 0.000000 (dt=11.04s)


training:  99%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ| 119257/120000 [1:27:45<00:30, 24.40it/s]

itr: 119250 lr: 1.010e-06 train loss: 0.000000 (dt=11.04s)


training: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ| 119508/120000 [1:27:56<00:20, 23.64it/s]

itr: 119500 lr: 1.004e-06 train loss: 0.000000 (dt=11.04s)


training: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ| 119757/120000 [1:28:07<00:09, 24.39it/s]

itr: 119750 lr: 1.001e-06 train loss: 0.000000 (dt=11.04s)


training: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 120000/120000 [1:28:18<00:00, 22.65it/s]


saved final model: ./saved_models_grid_bs8192_20260103_075004/Final_N32_L3_dup0_iters120000.pt


0,1
iter,‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÇ‚ñÇ‚ñÇ‚ñÉ‚ñÉ‚ñÉ‚ñÉ‚ñÉ‚ñÑ‚ñÑ‚ñÑ‚ñÑ‚ñÑ‚ñÑ‚ñÑ‚ñÖ‚ñÖ‚ñÖ‚ñÖ‚ñÖ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñá‚ñá‚ñá‚ñá‚ñà‚ñà‚ñà
ll/iter,‚ñÅ‚ñÇ‚ñÑ‚ñÑ‚ñÑ‚ñÖ‚ñÖ‚ñÖ‚ñÖ‚ñÖ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà
ll/lr,‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÖ‚ñÖ‚ñÖ‚ñÖ‚ñÖ‚ñÑ‚ñÑ‚ñÇ‚ñÅ‚ñÅ
ll/train_loss,‚ñà‚ñÖ‚ñÑ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÉ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÅ‚ñÇ‚ñÇ‚ñÇ‚ñÅ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ
lr,‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÖ‚ñÖ‚ñÖ‚ñÖ‚ñÑ‚ñÑ‚ñÑ‚ñÉ‚ñÉ‚ñÉ‚ñÇ‚ñÇ‚ñÇ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ
plateau/delta_log10_loss_window,‚ñÉ‚ñÖ‚ñá‚ñÑ‚ñÜ‚ñÑ‚ñÑ‚ñÜ‚ñÜ‚ñÖ‚ñÖ‚ñÜ‚ñÜ‚ñÑ‚ñÇ‚ñÜ‚ñÅ‚ñà‚ñÑ‚ñá‚ñÅ‚ñÅ‚ñÖ‚ñÑ‚ñÑ‚ñÑ‚ñÜ‚ñÇ‚ñÇ‚ñÉ‚ñÉ‚ñÜ‚ñÖ‚ñÉ‚ñÑ‚ñÉ‚ñÇ‚ñÑ‚ñÖ‚ñÖ
plateau/hits,‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñà‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ
plateau/loglog_slope,‚ñÖ‚ñÖ‚ñÖ‚ñÖ‚ñÜ‚ñÖ‚ñÑ‚ñÑ‚ñá‚ñÜ‚ñá‚ñá‚ñÜ‚ñÉ‚ñÇ‚ñÉ‚ñÇ‚ñÉ‚ñÇ‚ñÅ‚ñÖ‚ñÑ‚ñà‚ñá‚ñÇ‚ñÜ‚ñÅ‚ñÉ‚ñà‚ñÖ‚ñÜ‚ñÑ‚ñÜ‚ñá‚ñÖ‚ñÑ‚ñÑ‚ñÑ‚ñá‚ñÉ
plateau/now,‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ
plateau/reached,‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ

0,1
iter,120000
iters_done,120000
ll/iter,5.07918
ll/lr,-6.0
ll/train_loss,-7.52438
lr,0.0
plateau/delta_log10_loss_window,0.01106
plateau/hits,0
plateau/loglog_slope,-0.68246
plateau/now,0


using device: cuda


training:   0%|          | 8/120000 [00:00<33:04, 60.47it/s]

itr: 0 lr: 4.975e-07 train loss: 3.505868 (dt=0.04s)


training:   0%|          | 259/120000 [00:07<58:13, 34.28it/s]  

itr: 250 lr: 1.000e-04 train loss: 1.771851 (dt=7.82s)


training:   0%|          | 510/120000 [00:15<59:03, 33.72it/s]  

itr: 500 lr: 1.000e-04 train loss: 0.739857 (dt=7.80s)


training:   1%|          | 760/120000 [00:23<59:42, 33.28it/s]  

itr: 750 lr: 9.999e-05 train loss: 0.193457 (dt=7.80s)


training:   1%|          | 1010/120000 [00:31<59:33, 33.30it/s]  

itr: 1000 lr: 9.999e-05 train loss: 0.036388 (dt=7.80s)


training:   1%|          | 1260/120000 [00:39<59:29, 33.26it/s]  

itr: 1250 lr: 9.998e-05 train loss: 0.006914 (dt=7.80s)


training:   1%|‚ñè         | 1510/120000 [00:46<59:14, 33.33it/s]  

itr: 1500 lr: 9.997e-05 train loss: 0.001236 (dt=7.80s)


training:   1%|‚ñè         | 1760/120000 [00:54<59:13, 33.27it/s]  

itr: 1750 lr: 9.996e-05 train loss: 0.000211 (dt=7.80s)


training:   2%|‚ñè         | 2010/120000 [01:02<59:03, 33.30it/s]  

itr: 2000 lr: 9.994e-05 train loss: 0.000034 (dt=7.80s)


training:   2%|‚ñè         | 2260/120000 [01:10<58:57, 33.28it/s]  

itr: 2250 lr: 9.993e-05 train loss: 0.000005 (dt=7.80s)


training:   2%|‚ñè         | 2510/120000 [01:18<58:49, 33.29it/s]  

itr: 2500 lr: 9.991e-05 train loss: 0.000001 (dt=7.80s)


training:   2%|‚ñè         | 2760/120000 [01:25<58:42, 33.29it/s]  

itr: 2750 lr: 9.989e-05 train loss: 0.000000 (dt=7.80s)


training:   3%|‚ñé         | 3010/120000 [01:33<58:34, 33.28it/s]  

itr: 3000 lr: 9.987e-05 train loss: 0.000000 (dt=7.80s)


training:   3%|‚ñé         | 3260/120000 [01:41<58:28, 33.28it/s]  

itr: 3250 lr: 9.984e-05 train loss: 0.000000 (dt=7.80s)


training:   3%|‚ñé         | 3510/120000 [01:49<58:20, 33.27it/s]  

itr: 3500 lr: 9.981e-05 train loss: 0.000000 (dt=7.80s)


training:   3%|‚ñé         | 3760/120000 [01:57<58:13, 33.28it/s]  

itr: 3750 lr: 9.979e-05 train loss: 0.000000 (dt=7.80s)


training:   3%|‚ñé         | 4010/120000 [02:04<58:02, 33.31it/s]  

itr: 4000 lr: 9.975e-05 train loss: 0.000000 (dt=7.80s)


training:   4%|‚ñé         | 4260/120000 [02:12<57:57, 33.28it/s]  

itr: 4250 lr: 9.972e-05 train loss: 0.000000 (dt=7.80s)


training:   4%|‚ñç         | 4510/120000 [02:20<57:49, 33.29it/s]  

itr: 4500 lr: 9.969e-05 train loss: 0.000000 (dt=7.80s)


training:   4%|‚ñç         | 4760/120000 [02:28<57:43, 33.27it/s]  

itr: 4750 lr: 9.965e-05 train loss: 0.000000 (dt=7.80s)


training:   4%|‚ñç         | 5010/120000 [02:36<57:34, 33.28it/s]  

itr: 5000 lr: 9.961e-05 train loss: 0.000000 (dt=7.80s)


training:   4%|‚ñç         | 5260/120000 [02:43<57:25, 33.30it/s]  

itr: 5250 lr: 9.957e-05 train loss: 0.000000 (dt=7.80s)


training:   5%|‚ñç         | 5510/120000 [02:51<57:20, 33.27it/s]  

itr: 5500 lr: 9.952e-05 train loss: 0.000000 (dt=7.80s)


training:   5%|‚ñç         | 5760/120000 [02:59<57:12, 33.28it/s]  

itr: 5750 lr: 9.948e-05 train loss: 0.000000 (dt=7.80s)


training:   5%|‚ñå         | 6010/120000 [03:07<57:06, 33.27it/s]  

itr: 6000 lr: 9.943e-05 train loss: 0.000000 (dt=7.80s)


training:   5%|‚ñå         | 6260/120000 [03:15<56:57, 33.28it/s]  

itr: 6250 lr: 9.938e-05 train loss: 0.000000 (dt=7.80s)


training:   5%|‚ñå         | 6510/120000 [03:22<56:50, 33.28it/s]  

itr: 6500 lr: 9.933e-05 train loss: 0.000000 (dt=7.80s)


training:   6%|‚ñå         | 6760/120000 [03:30<56:41, 33.29it/s]  

itr: 6750 lr: 9.927e-05 train loss: 0.000000 (dt=7.80s)


training:   6%|‚ñå         | 7010/120000 [03:38<56:34, 33.29it/s]  

itr: 7000 lr: 9.922e-05 train loss: 0.000000 (dt=7.80s)


training:   6%|‚ñå         | 7260/120000 [03:46<56:19, 33.36it/s]  

itr: 7250 lr: 9.916e-05 train loss: 0.000000 (dt=7.80s)


training:   6%|‚ñã         | 7510/120000 [03:54<56:20, 33.28it/s]  

itr: 7500 lr: 9.910e-05 train loss: 0.000000 (dt=7.80s)


training:   6%|‚ñã         | 7760/120000 [04:01<56:11, 33.29it/s]  

itr: 7750 lr: 9.903e-05 train loss: 0.000000 (dt=7.80s)


training:   7%|‚ñã         | 8010/120000 [04:09<56:02, 33.30it/s]  

itr: 8000 lr: 9.897e-05 train loss: 0.000000 (dt=7.80s)


training:   7%|‚ñã         | 8260/120000 [04:17<55:59, 33.26it/s]  

itr: 8250 lr: 9.890e-05 train loss: 0.000000 (dt=7.80s)


training:   7%|‚ñã         | 8510/120000 [04:25<55:50, 33.28it/s]  

itr: 8500 lr: 9.883e-05 train loss: 0.000000 (dt=7.80s)


training:   7%|‚ñã         | 8760/120000 [04:33<55:42, 33.28it/s]  

itr: 8750 lr: 9.876e-05 train loss: 0.000000 (dt=7.80s)


training:   8%|‚ñä         | 9010/120000 [04:40<55:33, 33.30it/s]  

itr: 9000 lr: 9.869e-05 train loss: 0.000000 (dt=7.80s)


training:   8%|‚ñä         | 9260/120000 [04:48<55:27, 33.28it/s]  

itr: 9250 lr: 9.861e-05 train loss: 0.000000 (dt=7.80s)


training:   8%|‚ñä         | 9510/120000 [04:56<55:18, 33.29it/s]  

itr: 9500 lr: 9.854e-05 train loss: 0.000000 (dt=7.80s)


training:   8%|‚ñä         | 9760/120000 [05:04<55:12, 33.28it/s]  

itr: 9750 lr: 9.846e-05 train loss: 0.000000 (dt=7.80s)


training:   8%|‚ñä         | 10010/120000 [05:12<55:05, 33.27it/s]  

itr: 10000 lr: 9.837e-05 train loss: 0.000000 (dt=7.80s)


training:   9%|‚ñä         | 10260/120000 [05:19<54:56, 33.29it/s]  

itr: 10250 lr: 9.829e-05 train loss: 0.000000 (dt=7.80s)


training:   9%|‚ñâ         | 10510/120000 [05:27<54:50, 33.28it/s]  

itr: 10500 lr: 9.821e-05 train loss: 0.000000 (dt=7.80s)


training:   9%|‚ñâ         | 10760/120000 [05:35<54:42, 33.28it/s]  

itr: 10750 lr: 9.812e-05 train loss: 0.000000 (dt=7.80s)


training:   9%|‚ñâ         | 11010/120000 [05:43<54:34, 33.28it/s]  

itr: 11000 lr: 9.803e-05 train loss: 0.000000 (dt=7.80s)


training:   9%|‚ñâ         | 11260/120000 [05:51<54:26, 33.29it/s]  

itr: 11250 lr: 9.794e-05 train loss: 0.000000 (dt=7.80s)


training:  10%|‚ñâ         | 11510/120000 [05:58<54:19, 33.28it/s]  

itr: 11500 lr: 9.784e-05 train loss: 0.000000 (dt=7.80s)


training:  10%|‚ñâ         | 11760/120000 [06:06<54:12, 33.28it/s]  

itr: 11750 lr: 9.775e-05 train loss: 0.000000 (dt=7.80s)


training:  10%|‚ñà         | 12010/120000 [06:14<54:02, 33.30it/s]  

itr: 12000 lr: 9.765e-05 train loss: 0.000000 (dt=7.80s)


training:  10%|‚ñà         | 12260/120000 [06:22<53:48, 33.37it/s]  

itr: 12250 lr: 9.755e-05 train loss: 0.000000 (dt=7.80s)


training:  10%|‚ñà         | 12510/120000 [06:30<53:48, 33.29it/s]  

itr: 12500 lr: 9.745e-05 train loss: 0.000000 (dt=7.80s)


training:  11%|‚ñà         | 12760/120000 [06:37<53:43, 33.27it/s]  

itr: 12750 lr: 9.734e-05 train loss: 0.000000 (dt=7.80s)


training:  11%|‚ñà         | 13010/120000 [06:45<53:34, 33.29it/s]  

itr: 13000 lr: 9.724e-05 train loss: 0.000000 (dt=7.80s)


training:  11%|‚ñà         | 13260/120000 [06:53<53:27, 33.28it/s]  

itr: 13250 lr: 9.713e-05 train loss: 0.000000 (dt=7.80s)


training:  11%|‚ñà‚ñè        | 13510/120000 [07:01<53:21, 33.26it/s]  

itr: 13500 lr: 9.702e-05 train loss: 0.000000 (dt=7.80s)


training:  11%|‚ñà‚ñè        | 13760/120000 [07:09<53:12, 33.28it/s]  

itr: 13750 lr: 9.691e-05 train loss: 0.000000 (dt=7.80s)


training:  12%|‚ñà‚ñè        | 14010/120000 [07:17<53:05, 33.28it/s]  

itr: 14000 lr: 9.679e-05 train loss: 0.000000 (dt=7.80s)


training:  12%|‚ñà‚ñè        | 14260/120000 [07:24<52:57, 33.28it/s]  

itr: 14250 lr: 9.668e-05 train loss: 0.000000 (dt=7.80s)


training:  12%|‚ñà‚ñè        | 14510/120000 [07:32<52:50, 33.28it/s]  

itr: 14500 lr: 9.656e-05 train loss: 0.000000 (dt=7.80s)


training:  12%|‚ñà‚ñè        | 14760/120000 [07:40<52:42, 33.28it/s]  

itr: 14750 lr: 9.644e-05 train loss: 0.000000 (dt=7.80s)


training:  13%|‚ñà‚ñé        | 15010/120000 [07:48<52:34, 33.28it/s]  

itr: 15000 lr: 9.632e-05 train loss: 0.000000 (dt=7.80s)


training:  13%|‚ñà‚ñé        | 15260/120000 [07:56<52:27, 33.28it/s]  

itr: 15250 lr: 9.619e-05 train loss: 0.000000 (dt=7.80s)


training:  13%|‚ñà‚ñé        | 15510/120000 [08:03<52:18, 33.29it/s]  

itr: 15500 lr: 9.607e-05 train loss: 0.000000 (dt=7.80s)


training:  13%|‚ñà‚ñé        | 15760/120000 [08:11<52:12, 33.27it/s]  

itr: 15750 lr: 9.594e-05 train loss: 0.000000 (dt=7.80s)


training:  13%|‚ñà‚ñé        | 16010/120000 [08:19<52:04, 33.28it/s]  

itr: 16000 lr: 9.581e-05 train loss: 0.000000 (dt=7.80s)


training:  14%|‚ñà‚ñé        | 16260/120000 [08:27<51:58, 33.27it/s]  

itr: 16250 lr: 9.568e-05 train loss: 0.000000 (dt=7.80s)


training:  14%|‚ñà‚ñç        | 16510/120000 [08:35<51:48, 33.30it/s]  

itr: 16500 lr: 9.555e-05 train loss: 0.000000 (dt=7.80s)


training:  14%|‚ñà‚ñç        | 16760/120000 [08:42<51:42, 33.28it/s]  

itr: 16750 lr: 9.541e-05 train loss: 0.000000 (dt=7.80s)


training:  14%|‚ñà‚ñç        | 17010/120000 [08:50<51:35, 33.27it/s]  

itr: 17000 lr: 9.527e-05 train loss: 0.000000 (dt=7.80s)


training:  14%|‚ñà‚ñç        | 17260/120000 [08:58<51:26, 33.29it/s]  

itr: 17250 lr: 9.513e-05 train loss: 0.000000 (dt=7.80s)


training:  15%|‚ñà‚ñç        | 17510/120000 [09:06<51:19, 33.28it/s]  

itr: 17500 lr: 9.499e-05 train loss: 0.000000 (dt=7.80s)


training:  15%|‚ñà‚ñç        | 17760/120000 [09:14<51:12, 33.27it/s]  

itr: 17750 lr: 9.485e-05 train loss: 0.000000 (dt=7.80s)


training:  15%|‚ñà‚ñå        | 18010/120000 [09:21<51:04, 33.28it/s]  

itr: 18000 lr: 9.470e-05 train loss: 0.000000 (dt=7.80s)


training:  15%|‚ñà‚ñå        | 18260/120000 [09:29<50:54, 33.31it/s]  

itr: 18250 lr: 9.456e-05 train loss: 0.000000 (dt=7.80s)


training:  15%|‚ñà‚ñå        | 18510/120000 [09:37<50:49, 33.28it/s]  

itr: 18500 lr: 9.441e-05 train loss: 0.000000 (dt=7.80s)


training:  16%|‚ñà‚ñå        | 18760/120000 [09:45<50:34, 33.36it/s]  

itr: 18750 lr: 9.426e-05 train loss: 0.000000 (dt=7.80s)


training:  16%|‚ñà‚ñå        | 19010/120000 [09:53<50:33, 33.30it/s]  

itr: 19000 lr: 9.411e-05 train loss: 0.000000 (dt=7.80s)


training:  16%|‚ñà‚ñå        | 19260/120000 [10:00<50:27, 33.28it/s]  

itr: 19250 lr: 9.395e-05 train loss: 0.000000 (dt=7.80s)


training:  16%|‚ñà‚ñã        | 19510/120000 [10:08<50:17, 33.30it/s]  

itr: 19500 lr: 9.379e-05 train loss: 0.000000 (dt=7.80s)


training:  16%|‚ñà‚ñã        | 19760/120000 [10:16<50:12, 33.27it/s]  

itr: 19750 lr: 9.364e-05 train loss: 0.000000 (dt=7.80s)


training:  17%|‚ñà‚ñã        | 20010/120000 [10:24<50:56, 32.72it/s]  

itr: 20000 lr: 9.348e-05 train loss: 0.000000 (dt=7.80s)
saved checkpoint: ./saved_models_grid_bs8192_20260103_075004/Checkpoint_N32_L2_dup0_iters20001.pt


training:  17%|‚ñà‚ñã        | 20260/120000 [10:32<49:57, 33.27it/s]  

itr: 20250 lr: 9.331e-05 train loss: 0.000000 (dt=7.81s)


training:  17%|‚ñà‚ñã        | 20510/120000 [10:39<49:50, 33.27it/s]

itr: 20500 lr: 9.315e-05 train loss: 0.000000 (dt=7.80s)


training:  17%|‚ñà‚ñã        | 20760/120000 [10:47<49:43, 33.27it/s]

itr: 20750 lr: 9.298e-05 train loss: 0.000000 (dt=7.80s)


training:  18%|‚ñà‚ñä        | 21010/120000 [10:55<49:34, 33.27it/s]

itr: 21000 lr: 9.282e-05 train loss: 0.000000 (dt=7.80s)


training:  18%|‚ñà‚ñä        | 21260/120000 [11:03<49:26, 33.29it/s]

itr: 21250 lr: 9.265e-05 train loss: 0.000000 (dt=7.80s)


training:  18%|‚ñà‚ñä        | 21510/120000 [11:11<49:19, 33.28it/s]

itr: 21500 lr: 9.248e-05 train loss: 0.000000 (dt=7.80s)


training:  18%|‚ñà‚ñä        | 21760/120000 [11:18<49:13, 33.26it/s]

itr: 21750 lr: 9.230e-05 train loss: 0.000000 (dt=7.80s)


training:  18%|‚ñà‚ñä        | 22010/120000 [11:26<49:03, 33.29it/s]

itr: 22000 lr: 9.213e-05 train loss: 0.000000 (dt=7.80s)


training:  19%|‚ñà‚ñä        | 22260/120000 [11:34<48:57, 33.28it/s]

itr: 22250 lr: 9.195e-05 train loss: 0.000000 (dt=7.80s)


training:  19%|‚ñà‚ñâ        | 22510/120000 [11:42<48:48, 33.29it/s]

itr: 22500 lr: 9.177e-05 train loss: 0.000000 (dt=7.80s)


training:  19%|‚ñà‚ñâ        | 22760/120000 [11:50<48:36, 33.35it/s]

itr: 22750 lr: 9.159e-05 train loss: 0.000000 (dt=7.80s)


training:  19%|‚ñà‚ñâ        | 23010/120000 [11:57<48:35, 33.27it/s]

itr: 23000 lr: 9.141e-05 train loss: 0.000000 (dt=7.80s)


training:  19%|‚ñà‚ñâ        | 23260/120000 [12:05<48:26, 33.29it/s]

itr: 23250 lr: 9.123e-05 train loss: 0.000000 (dt=7.80s)


training:  20%|‚ñà‚ñâ        | 23510/120000 [12:13<48:14, 33.34it/s]

itr: 23500 lr: 9.104e-05 train loss: 0.000000 (dt=7.80s)


training:  20%|‚ñà‚ñâ        | 23760/120000 [12:21<48:10, 33.30it/s]

itr: 23750 lr: 9.086e-05 train loss: 0.000000 (dt=7.80s)


training:  20%|‚ñà‚ñà        | 24010/120000 [12:29<48:04, 33.27it/s]

itr: 24000 lr: 9.067e-05 train loss: 0.000000 (dt=7.80s)


training:  20%|‚ñà‚ñà        | 24260/120000 [12:36<47:55, 33.30it/s]

itr: 24250 lr: 9.048e-05 train loss: 0.000000 (dt=7.80s)


training:  20%|‚ñà‚ñà        | 24510/120000 [12:44<47:45, 33.32it/s]

itr: 24500 lr: 9.029e-05 train loss: 0.000000 (dt=7.80s)


training:  21%|‚ñà‚ñà        | 24760/120000 [12:52<47:41, 33.28it/s]

itr: 24750 lr: 9.009e-05 train loss: 0.000000 (dt=7.80s)


training:  21%|‚ñà‚ñà        | 25010/120000 [13:00<47:30, 33.32it/s]

itr: 25000 lr: 8.990e-05 train loss: 0.000000 (dt=7.80s)


training:  21%|‚ñà‚ñà        | 25260/120000 [13:08<47:25, 33.30it/s]

itr: 25250 lr: 8.970e-05 train loss: 0.000000 (dt=7.80s)


training:  21%|‚ñà‚ñà‚ñè       | 25510/120000 [13:15<47:19, 33.28it/s]

itr: 25500 lr: 8.950e-05 train loss: 0.000000 (dt=7.80s)


training:  21%|‚ñà‚ñà‚ñè       | 25760/120000 [13:23<47:12, 33.27it/s]

itr: 25750 lr: 8.930e-05 train loss: 0.000000 (dt=7.80s)


training:  22%|‚ñà‚ñà‚ñè       | 26010/120000 [13:31<47:03, 33.28it/s]

itr: 26000 lr: 8.910e-05 train loss: 0.000000 (dt=7.80s)


training:  22%|‚ñà‚ñà‚ñè       | 26260/120000 [13:39<46:57, 33.27it/s]

itr: 26250 lr: 8.889e-05 train loss: 0.000000 (dt=7.80s)


training:  22%|‚ñà‚ñà‚ñè       | 26510/120000 [13:47<46:49, 33.27it/s]

itr: 26500 lr: 8.869e-05 train loss: 0.000000 (dt=7.80s)


training:  22%|‚ñà‚ñà‚ñè       | 26760/120000 [13:54<46:41, 33.28it/s]

itr: 26750 lr: 8.848e-05 train loss: 0.000000 (dt=7.80s)


training:  23%|‚ñà‚ñà‚ñé       | 27010/120000 [14:02<46:35, 33.26it/s]

itr: 27000 lr: 8.827e-05 train loss: 0.000000 (dt=7.80s)


training:  23%|‚ñà‚ñà‚ñé       | 27260/120000 [14:10<46:27, 33.27it/s]

itr: 27250 lr: 8.806e-05 train loss: 0.000000 (dt=7.80s)


training:  23%|‚ñà‚ñà‚ñé       | 27510/120000 [14:18<46:17, 33.30it/s]

itr: 27500 lr: 8.785e-05 train loss: 0.000000 (dt=7.80s)


training:  23%|‚ñà‚ñà‚ñé       | 27760/120000 [14:26<46:12, 33.27it/s]

itr: 27750 lr: 8.763e-05 train loss: 0.000000 (dt=7.80s)


training:  23%|‚ñà‚ñà‚ñé       | 28010/120000 [14:33<46:05, 33.27it/s]

itr: 28000 lr: 8.742e-05 train loss: 0.000000 (dt=7.80s)


training:  24%|‚ñà‚ñà‚ñé       | 28260/120000 [14:41<45:57, 33.27it/s]

itr: 28250 lr: 8.720e-05 train loss: 0.000000 (dt=7.80s)


training:  24%|‚ñà‚ñà‚ñç       | 28510/120000 [14:49<45:47, 33.30it/s]

itr: 28500 lr: 8.698e-05 train loss: 0.000000 (dt=7.80s)


training:  24%|‚ñà‚ñà‚ñç       | 28760/120000 [14:57<45:42, 33.27it/s]

itr: 28750 lr: 8.676e-05 train loss: 0.000000 (dt=7.80s)


training:  24%|‚ñà‚ñà‚ñç       | 29010/120000 [15:05<45:34, 33.28it/s]

itr: 29000 lr: 8.654e-05 train loss: 0.000000 (dt=7.80s)


training:  24%|‚ñà‚ñà‚ñç       | 29260/120000 [15:12<45:26, 33.28it/s]

itr: 29250 lr: 8.632e-05 train loss: 0.000000 (dt=7.80s)


training:  25%|‚ñà‚ñà‚ñç       | 29510/120000 [15:20<45:20, 33.26it/s]

itr: 29500 lr: 8.609e-05 train loss: 0.000000 (dt=7.80s)


training:  25%|‚ñà‚ñà‚ñç       | 29760/120000 [15:28<45:02, 33.39it/s]

itr: 29750 lr: 8.587e-05 train loss: 0.000000 (dt=7.80s)


training:  25%|‚ñà‚ñà‚ñå       | 30010/120000 [15:36<45:03, 33.28it/s]

itr: 30000 lr: 8.564e-05 train loss: 0.000000 (dt=7.80s)


training:  25%|‚ñà‚ñà‚ñå       | 30260/120000 [15:44<44:56, 33.29it/s]

itr: 30250 lr: 8.541e-05 train loss: 0.000000 (dt=7.80s)


training:  25%|‚ñà‚ñà‚ñå       | 30510/120000 [15:51<44:45, 33.33it/s]

itr: 30500 lr: 8.518e-05 train loss: 0.000000 (dt=7.80s)


training:  26%|‚ñà‚ñà‚ñå       | 30760/120000 [15:59<44:41, 33.28it/s]

itr: 30750 lr: 8.495e-05 train loss: 0.000000 (dt=7.80s)


training:  26%|‚ñà‚ñà‚ñå       | 31010/120000 [16:07<44:33, 33.29it/s]

itr: 31000 lr: 8.471e-05 train loss: 0.000000 (dt=7.80s)


training:  26%|‚ñà‚ñà‚ñå       | 31260/120000 [16:15<44:24, 33.31it/s]

itr: 31250 lr: 8.448e-05 train loss: 0.000000 (dt=7.80s)


training:  26%|‚ñà‚ñà‚ñã       | 31510/120000 [16:23<44:18, 33.28it/s]

itr: 31500 lr: 8.424e-05 train loss: 0.000000 (dt=7.80s)


training:  26%|‚ñà‚ñà‚ñã       | 31760/120000 [16:30<44:11, 33.28it/s]

itr: 31750 lr: 8.400e-05 train loss: 0.000000 (dt=7.80s)


training:  27%|‚ñà‚ñà‚ñã       | 32010/120000 [16:38<44:04, 33.27it/s]

itr: 32000 lr: 8.376e-05 train loss: 0.000000 (dt=7.80s)


training:  27%|‚ñà‚ñà‚ñã       | 32260/120000 [16:46<43:56, 33.28it/s]

itr: 32250 lr: 8.352e-05 train loss: 0.000000 (dt=7.80s)


training:  27%|‚ñà‚ñà‚ñã       | 32510/120000 [16:54<43:50, 33.26it/s]

itr: 32500 lr: 8.328e-05 train loss: 0.000000 (dt=7.80s)


training:  27%|‚ñà‚ñà‚ñã       | 32760/120000 [17:02<43:40, 33.29it/s]

itr: 32750 lr: 8.304e-05 train loss: 0.000000 (dt=7.80s)


training:  28%|‚ñà‚ñà‚ñä       | 33010/120000 [17:09<43:33, 33.28it/s]

itr: 33000 lr: 8.279e-05 train loss: 0.000000 (dt=7.80s)


training:  28%|‚ñà‚ñà‚ñä       | 33260/120000 [17:17<43:25, 33.29it/s]

itr: 33250 lr: 8.254e-05 train loss: 0.000000 (dt=7.80s)


training:  28%|‚ñà‚ñà‚ñä       | 33510/120000 [17:25<43:16, 33.31it/s]

itr: 33500 lr: 8.230e-05 train loss: 0.000000 (dt=7.80s)


training:  28%|‚ñà‚ñà‚ñä       | 33760/120000 [17:33<43:11, 33.28it/s]

itr: 33750 lr: 8.205e-05 train loss: 0.000000 (dt=7.80s)


training:  28%|‚ñà‚ñà‚ñä       | 34010/120000 [17:41<43:04, 33.27it/s]

itr: 34000 lr: 8.180e-05 train loss: 0.000000 (dt=7.80s)


training:  29%|‚ñà‚ñà‚ñä       | 34260/120000 [17:48<42:57, 33.27it/s]

itr: 34250 lr: 8.154e-05 train loss: 0.000000 (dt=7.80s)


training:  29%|‚ñà‚ñà‚ñâ       | 34510/120000 [17:56<42:49, 33.27it/s]

itr: 34500 lr: 8.129e-05 train loss: 0.000000 (dt=7.80s)


training:  29%|‚ñà‚ñà‚ñâ       | 34760/120000 [18:04<42:41, 33.28it/s]

itr: 34750 lr: 8.104e-05 train loss: 0.000000 (dt=7.80s)


training:  29%|‚ñà‚ñà‚ñâ       | 35010/120000 [18:12<42:34, 33.28it/s]

itr: 35000 lr: 8.078e-05 train loss: 0.000000 (dt=7.80s)


training:  29%|‚ñà‚ñà‚ñâ       | 35260/120000 [18:20<42:25, 33.29it/s]

itr: 35250 lr: 8.052e-05 train loss: 0.000000 (dt=7.80s)


training:  30%|‚ñà‚ñà‚ñâ       | 35510/120000 [18:27<42:19, 33.27it/s]

itr: 35500 lr: 8.026e-05 train loss: 0.000038 (dt=7.80s)


training:  30%|‚ñà‚ñà‚ñâ       | 35760/120000 [18:35<42:10, 33.29it/s]

itr: 35750 lr: 8.000e-05 train loss: 0.000000 (dt=7.80s)


training:  30%|‚ñà‚ñà‚ñà       | 36010/120000 [18:43<42:04, 33.27it/s]

itr: 36000 lr: 7.974e-05 train loss: 0.000000 (dt=7.80s)


training:  30%|‚ñà‚ñà‚ñà       | 36260/120000 [18:51<41:52, 33.33it/s]

itr: 36250 lr: 7.948e-05 train loss: 0.000000 (dt=7.80s)


training:  30%|‚ñà‚ñà‚ñà       | 36510/120000 [18:59<41:48, 33.29it/s]

itr: 36500 lr: 7.922e-05 train loss: 0.000000 (dt=7.80s)


training:  31%|‚ñà‚ñà‚ñà       | 36760/120000 [19:06<41:41, 33.27it/s]

itr: 36750 lr: 7.895e-05 train loss: 0.000001 (dt=7.80s)


training:  31%|‚ñà‚ñà‚ñà       | 37010/120000 [19:14<41:34, 33.26it/s]

itr: 37000 lr: 7.868e-05 train loss: 0.000000 (dt=7.80s)


training:  31%|‚ñà‚ñà‚ñà       | 37260/120000 [19:22<41:27, 33.26it/s]

itr: 37250 lr: 7.842e-05 train loss: 0.000000 (dt=7.80s)


training:  31%|‚ñà‚ñà‚ñà‚ñè      | 37510/120000 [19:30<41:18, 33.28it/s]

itr: 37500 lr: 7.815e-05 train loss: 0.000000 (dt=7.80s)


training:  31%|‚ñà‚ñà‚ñà‚ñè      | 37760/120000 [19:38<41:12, 33.26it/s]

itr: 37750 lr: 7.788e-05 train loss: 0.001178 (dt=7.80s)


training:  32%|‚ñà‚ñà‚ñà‚ñè      | 38010/120000 [19:45<41:03, 33.29it/s]

itr: 38000 lr: 7.761e-05 train loss: 0.000000 (dt=7.80s)


training:  32%|‚ñà‚ñà‚ñà‚ñè      | 38260/120000 [19:53<40:56, 33.28it/s]

itr: 38250 lr: 7.734e-05 train loss: 0.000000 (dt=7.80s)


training:  32%|‚ñà‚ñà‚ñà‚ñè      | 38510/120000 [20:01<40:49, 33.27it/s]

itr: 38500 lr: 7.706e-05 train loss: 0.000000 (dt=7.80s)


training:  32%|‚ñà‚ñà‚ñà‚ñè      | 38760/120000 [20:09<40:41, 33.28it/s]

itr: 38750 lr: 7.679e-05 train loss: 0.000000 (dt=7.80s)


training:  33%|‚ñà‚ñà‚ñà‚ñé      | 39010/120000 [20:17<40:33, 33.28it/s]

itr: 39000 lr: 7.651e-05 train loss: 0.000000 (dt=7.80s)


training:  33%|‚ñà‚ñà‚ñà‚ñé      | 39260/120000 [20:24<40:26, 33.28it/s]

itr: 39250 lr: 7.624e-05 train loss: 0.000000 (dt=7.80s)


training:  33%|‚ñà‚ñà‚ñà‚ñé      | 39510/120000 [20:32<40:18, 33.28it/s]

itr: 39500 lr: 7.596e-05 train loss: 0.000000 (dt=7.80s)


training:  33%|‚ñà‚ñà‚ñà‚ñé      | 39760/120000 [20:40<40:11, 33.28it/s]

itr: 39750 lr: 7.568e-05 train loss: 0.000000 (dt=7.80s)


training:  33%|‚ñà‚ñà‚ñà‚ñé      | 40010/120000 [20:48<40:43, 32.74it/s]

itr: 40000 lr: 7.540e-05 train loss: 0.000000 (dt=7.80s)
saved checkpoint: ./saved_models_grid_bs8192_20260103_075004/Checkpoint_N32_L2_dup0_iters40001.pt


training:  34%|‚ñà‚ñà‚ñà‚ñé      | 40260/120000 [20:56<39:56, 33.28it/s]

itr: 40250 lr: 7.512e-05 train loss: 0.000000 (dt=7.81s)


training:  34%|‚ñà‚ñà‚ñà‚ñç      | 40510/120000 [21:03<39:48, 33.27it/s]

itr: 40500 lr: 7.484e-05 train loss: 0.000000 (dt=7.80s)


training:  34%|‚ñà‚ñà‚ñà‚ñç      | 40760/120000 [21:11<39:41, 33.28it/s]

itr: 40750 lr: 7.455e-05 train loss: 0.000000 (dt=7.80s)


training:  34%|‚ñà‚ñà‚ñà‚ñç      | 41010/120000 [21:19<39:33, 33.28it/s]

itr: 41000 lr: 7.427e-05 train loss: 0.000000 (dt=7.80s)


training:  34%|‚ñà‚ñà‚ñà‚ñç      | 41260/120000 [21:27<39:26, 33.28it/s]

itr: 41250 lr: 7.398e-05 train loss: 0.000089 (dt=7.80s)


training:  35%|‚ñà‚ñà‚ñà‚ñç      | 41510/120000 [21:35<39:19, 33.27it/s]

itr: 41500 lr: 7.370e-05 train loss: 0.000000 (dt=7.80s)


training:  35%|‚ñà‚ñà‚ñà‚ñç      | 41760/120000 [21:42<39:11, 33.28it/s]

itr: 41750 lr: 7.341e-05 train loss: 0.000000 (dt=7.80s)


training:  35%|‚ñà‚ñà‚ñà‚ñå      | 42010/120000 [21:50<39:03, 33.28it/s]

itr: 42000 lr: 7.312e-05 train loss: 0.000000 (dt=7.80s)


training:  35%|‚ñà‚ñà‚ñà‚ñå      | 42260/120000 [21:58<38:57, 33.26it/s]

itr: 42250 lr: 7.283e-05 train loss: 0.000000 (dt=7.80s)


training:  35%|‚ñà‚ñà‚ñà‚ñå      | 42510/120000 [22:06<38:48, 33.28it/s]

itr: 42500 lr: 7.254e-05 train loss: 0.000000 (dt=7.80s)


training:  36%|‚ñà‚ñà‚ñà‚ñå      | 42760/120000 [22:14<38:41, 33.28it/s]

itr: 42750 lr: 7.225e-05 train loss: 0.000000 (dt=7.80s)


training:  36%|‚ñà‚ñà‚ñà‚ñå      | 43010/120000 [22:21<38:35, 33.26it/s]

itr: 43000 lr: 7.196e-05 train loss: 0.000000 (dt=7.80s)


training:  36%|‚ñà‚ñà‚ñà‚ñå      | 43260/120000 [22:29<38:25, 33.29it/s]

itr: 43250 lr: 7.167e-05 train loss: 0.000000 (dt=7.80s)


training:  36%|‚ñà‚ñà‚ñà‚ñã      | 43510/120000 [22:37<38:16, 33.30it/s]

itr: 43500 lr: 7.137e-05 train loss: 0.000000 (dt=7.80s)


training:  36%|‚ñà‚ñà‚ñà‚ñã      | 43760/120000 [22:45<38:11, 33.28it/s]

itr: 43750 lr: 7.108e-05 train loss: 0.000000 (dt=7.80s)


training:  37%|‚ñà‚ñà‚ñà‚ñã      | 44010/120000 [22:53<38:03, 33.28it/s]

itr: 44000 lr: 7.078e-05 train loss: 0.000000 (dt=7.80s)


training:  37%|‚ñà‚ñà‚ñà‚ñã      | 44260/120000 [23:00<37:56, 33.28it/s]

itr: 44250 lr: 7.049e-05 train loss: 0.000000 (dt=7.80s)


training:  37%|‚ñà‚ñà‚ñà‚ñã      | 44510/120000 [23:08<37:47, 33.30it/s]

itr: 44500 lr: 7.019e-05 train loss: 0.000000 (dt=7.80s)


training:  37%|‚ñà‚ñà‚ñà‚ñã      | 44760/120000 [23:16<37:41, 33.27it/s]

itr: 44750 lr: 6.989e-05 train loss: 0.000000 (dt=7.80s)


training:  38%|‚ñà‚ñà‚ñà‚ñä      | 45010/120000 [23:24<37:33, 33.27it/s]

itr: 45000 lr: 6.959e-05 train loss: 0.000000 (dt=7.80s)


training:  38%|‚ñà‚ñà‚ñà‚ñä      | 45260/120000 [23:32<37:24, 33.30it/s]

itr: 45250 lr: 6.929e-05 train loss: 0.000000 (dt=7.80s)


training:  38%|‚ñà‚ñà‚ñà‚ñä      | 45510/120000 [23:39<37:18, 33.28it/s]

itr: 45500 lr: 6.899e-05 train loss: 0.000000 (dt=7.80s)


training:  38%|‚ñà‚ñà‚ñà‚ñä      | 45760/120000 [23:47<37:09, 33.31it/s]

itr: 45750 lr: 6.869e-05 train loss: 0.000000 (dt=7.80s)


training:  38%|‚ñà‚ñà‚ñà‚ñä      | 46010/120000 [23:55<37:02, 33.29it/s]

itr: 46000 lr: 6.839e-05 train loss: 0.000000 (dt=7.80s)


training:  39%|‚ñà‚ñà‚ñà‚ñä      | 46260/120000 [24:03<36:56, 33.27it/s]

itr: 46250 lr: 6.809e-05 train loss: 0.000000 (dt=7.80s)


training:  39%|‚ñà‚ñà‚ñà‚ñâ      | 46510/120000 [24:11<36:49, 33.26it/s]

itr: 46500 lr: 6.778e-05 train loss: 0.000000 (dt=7.80s)


training:  39%|‚ñà‚ñà‚ñà‚ñâ      | 46760/120000 [24:18<36:40, 33.28it/s]

itr: 46750 lr: 6.748e-05 train loss: 0.000000 (dt=7.80s)


training:  39%|‚ñà‚ñà‚ñà‚ñâ      | 47010/120000 [24:26<36:32, 33.29it/s]

itr: 47000 lr: 6.717e-05 train loss: 0.000000 (dt=7.80s)


training:  39%|‚ñà‚ñà‚ñà‚ñâ      | 47260/120000 [24:34<36:25, 33.29it/s]

itr: 47250 lr: 6.687e-05 train loss: 0.000000 (dt=7.80s)


training:  40%|‚ñà‚ñà‚ñà‚ñâ      | 47510/120000 [24:42<36:17, 33.29it/s]

itr: 47500 lr: 6.656e-05 train loss: 0.000000 (dt=7.80s)


training:  40%|‚ñà‚ñà‚ñà‚ñâ      | 47760/120000 [24:50<36:10, 33.28it/s]

itr: 47750 lr: 6.625e-05 train loss: 0.000000 (dt=7.80s)


training:  40%|‚ñà‚ñà‚ñà‚ñà      | 48010/120000 [24:57<36:02, 33.28it/s]

itr: 48000 lr: 6.594e-05 train loss: 0.000000 (dt=7.80s)


training:  40%|‚ñà‚ñà‚ñà‚ñà      | 48260/120000 [25:05<35:55, 33.28it/s]

itr: 48250 lr: 6.564e-05 train loss: 0.000000 (dt=7.80s)


training:  40%|‚ñà‚ñà‚ñà‚ñà      | 48510/120000 [25:13<35:48, 33.28it/s]

itr: 48500 lr: 6.533e-05 train loss: 0.000000 (dt=7.80s)


training:  41%|‚ñà‚ñà‚ñà‚ñà      | 48760/120000 [25:21<35:41, 33.27it/s]

itr: 48750 lr: 6.502e-05 train loss: 0.000000 (dt=7.80s)


training:  41%|‚ñà‚ñà‚ñà‚ñà      | 49010/120000 [25:29<35:33, 33.28it/s]

itr: 49000 lr: 6.471e-05 train loss: 0.000000 (dt=7.80s)


training:  41%|‚ñà‚ñà‚ñà‚ñà      | 49260/120000 [25:36<35:25, 33.28it/s]

itr: 49250 lr: 6.439e-05 train loss: 0.000000 (dt=7.80s)


training:  41%|‚ñà‚ñà‚ñà‚ñà‚ñè     | 49510/120000 [25:44<35:13, 33.36it/s]

itr: 49500 lr: 6.408e-05 train loss: 0.000000 (dt=7.80s)


training:  41%|‚ñà‚ñà‚ñà‚ñà‚ñè     | 49760/120000 [25:52<35:09, 33.29it/s]

itr: 49750 lr: 6.377e-05 train loss: 0.000000 (dt=7.80s)


training:  42%|‚ñà‚ñà‚ñà‚ñà‚ñè     | 50010/120000 [26:00<35:02, 33.28it/s]

itr: 50000 lr: 6.346e-05 train loss: 0.000000 (dt=7.80s)


training:  42%|‚ñà‚ñà‚ñà‚ñà‚ñè     | 50260/120000 [26:08<34:54, 33.30it/s]

itr: 50250 lr: 6.314e-05 train loss: 0.000000 (dt=7.80s)


training:  42%|‚ñà‚ñà‚ñà‚ñà‚ñè     | 50510/120000 [26:15<34:48, 33.28it/s]

itr: 50500 lr: 6.283e-05 train loss: 0.000000 (dt=7.80s)


training:  42%|‚ñà‚ñà‚ñà‚ñà‚ñè     | 50760/120000 [26:23<34:40, 33.28it/s]

itr: 50750 lr: 6.252e-05 train loss: 0.000000 (dt=7.80s)


training:  43%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 51010/120000 [26:31<34:33, 33.27it/s]

itr: 51000 lr: 6.220e-05 train loss: 0.000000 (dt=7.80s)


training:  43%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 51260/120000 [26:39<34:24, 33.29it/s]

itr: 51250 lr: 6.189e-05 train loss: 0.000000 (dt=7.80s)


training:  43%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 51510/120000 [26:47<34:18, 33.28it/s]

itr: 51500 lr: 6.157e-05 train loss: 0.000000 (dt=7.80s)


training:  43%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 51760/120000 [26:54<34:10, 33.28it/s]

itr: 51750 lr: 6.125e-05 train loss: 0.000000 (dt=7.80s)


training:  43%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 52010/120000 [27:02<33:59, 33.33it/s]

itr: 52000 lr: 6.094e-05 train loss: 0.000001 (dt=7.80s)


training:  44%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 52260/120000 [27:10<33:55, 33.27it/s]

itr: 52250 lr: 6.062e-05 train loss: 0.000000 (dt=7.80s)


training:  44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 52510/120000 [27:18<33:48, 33.27it/s]

itr: 52500 lr: 6.030e-05 train loss: 0.000000 (dt=7.80s)


training:  44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 52760/120000 [27:26<33:40, 33.27it/s]

itr: 52750 lr: 5.998e-05 train loss: 0.000000 (dt=7.80s)


training:  44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 53010/120000 [27:33<33:33, 33.27it/s]

itr: 53000 lr: 5.966e-05 train loss: 0.000000 (dt=7.80s)


training:  44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 53260/120000 [27:41<33:24, 33.30it/s]

itr: 53250 lr: 5.934e-05 train loss: 0.000000 (dt=7.80s)


training:  45%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 53510/120000 [27:49<33:17, 33.28it/s]

itr: 53500 lr: 5.902e-05 train loss: 0.000000 (dt=7.80s)


training:  45%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 53760/120000 [27:57<33:11, 33.26it/s]

itr: 53750 lr: 5.870e-05 train loss: 0.000000 (dt=7.80s)


training:  45%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 54010/120000 [28:05<33:03, 33.27it/s]

itr: 54000 lr: 5.838e-05 train loss: 0.000000 (dt=7.80s)


training:  45%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 54260/120000 [28:12<32:55, 33.28it/s]

itr: 54250 lr: 5.806e-05 train loss: 0.000001 (dt=7.80s)


training:  45%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 54510/120000 [28:20<32:47, 33.28it/s]

itr: 54500 lr: 5.774e-05 train loss: 0.000000 (dt=7.80s)


training:  46%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 54760/120000 [28:28<32:37, 33.32it/s]

itr: 54750 lr: 5.742e-05 train loss: 0.000000 (dt=7.80s)


training:  46%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 55010/120000 [28:36<32:32, 33.29it/s]

itr: 55000 lr: 5.710e-05 train loss: 0.000000 (dt=7.80s)


training:  46%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 55260/120000 [28:44<32:25, 33.28it/s]

itr: 55250 lr: 5.678e-05 train loss: 0.000000 (dt=7.80s)


training:  46%|‚ñà‚ñà‚ñà‚ñà‚ñã     | 55510/120000 [28:51<32:17, 33.28it/s]

itr: 55500 lr: 5.646e-05 train loss: 0.000000 (dt=7.80s)


training:  46%|‚ñà‚ñà‚ñà‚ñà‚ñã     | 55760/120000 [28:59<32:10, 33.28it/s]

itr: 55750 lr: 5.613e-05 train loss: 0.000000 (dt=7.80s)


training:  47%|‚ñà‚ñà‚ñà‚ñà‚ñã     | 56010/120000 [29:07<32:03, 33.26it/s]

itr: 56000 lr: 5.581e-05 train loss: 0.000000 (dt=7.80s)


training:  47%|‚ñà‚ñà‚ñà‚ñà‚ñã     | 56260/120000 [29:15<31:55, 33.28it/s]

itr: 56250 lr: 5.549e-05 train loss: 0.000000 (dt=7.80s)


training:  47%|‚ñà‚ñà‚ñà‚ñà‚ñã     | 56510/120000 [29:23<31:47, 33.28it/s]

itr: 56500 lr: 5.517e-05 train loss: 0.000000 (dt=7.80s)


training:  47%|‚ñà‚ñà‚ñà‚ñà‚ñã     | 56760/120000 [29:31<31:40, 33.27it/s]

itr: 56750 lr: 5.484e-05 train loss: 0.000001 (dt=7.80s)


training:  48%|‚ñà‚ñà‚ñà‚ñà‚ñä     | 57010/120000 [29:38<31:30, 33.32it/s]

itr: 57000 lr: 5.452e-05 train loss: 0.000000 (dt=7.80s)


training:  48%|‚ñà‚ñà‚ñà‚ñà‚ñä     | 57260/120000 [29:46<31:22, 33.32it/s]

itr: 57250 lr: 5.420e-05 train loss: 0.000000 (dt=7.80s)


training:  48%|‚ñà‚ñà‚ñà‚ñà‚ñä     | 57510/120000 [29:54<31:18, 33.26it/s]

itr: 57500 lr: 5.387e-05 train loss: 0.000000 (dt=7.80s)


training:  48%|‚ñà‚ñà‚ñà‚ñà‚ñä     | 57760/120000 [30:02<31:10, 33.28it/s]

itr: 57750 lr: 5.355e-05 train loss: 0.000000 (dt=7.80s)


training:  48%|‚ñà‚ñà‚ñà‚ñà‚ñä     | 58010/120000 [30:10<31:02, 33.28it/s]

itr: 58000 lr: 5.322e-05 train loss: 0.000000 (dt=7.80s)


training:  49%|‚ñà‚ñà‚ñà‚ñà‚ñä     | 58260/120000 [30:17<30:55, 33.27it/s]

itr: 58250 lr: 5.290e-05 train loss: 0.000000 (dt=7.80s)


training:  49%|‚ñà‚ñà‚ñà‚ñà‚ñâ     | 58510/120000 [30:25<30:47, 33.28it/s]

itr: 58500 lr: 5.258e-05 train loss: 0.000000 (dt=7.80s)


training:  49%|‚ñà‚ñà‚ñà‚ñà‚ñâ     | 58760/120000 [30:33<30:40, 33.28it/s]

itr: 58750 lr: 5.225e-05 train loss: 0.000000 (dt=7.80s)


training:  49%|‚ñà‚ñà‚ñà‚ñà‚ñâ     | 59010/120000 [30:41<30:32, 33.28it/s]

itr: 59000 lr: 5.193e-05 train loss: 0.000000 (dt=7.80s)


training:  49%|‚ñà‚ñà‚ñà‚ñà‚ñâ     | 59260/120000 [30:49<30:25, 33.27it/s]

itr: 59250 lr: 5.160e-05 train loss: 0.000000 (dt=7.80s)


training:  50%|‚ñà‚ñà‚ñà‚ñà‚ñâ     | 59510/120000 [30:56<30:14, 33.33it/s]

itr: 59500 lr: 5.128e-05 train loss: 0.000000 (dt=7.80s)


training:  50%|‚ñà‚ñà‚ñà‚ñà‚ñâ     | 59760/120000 [31:04<30:07, 33.33it/s]

itr: 59750 lr: 5.095e-05 train loss: 0.000000 (dt=7.80s)


training:  50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 60010/120000 [31:12<30:31, 32.75it/s]

itr: 60000 lr: 5.063e-05 train loss: 0.000000 (dt=7.80s)
saved checkpoint: ./saved_models_grid_bs8192_20260103_075004/Checkpoint_N32_L2_dup0_iters60001.pt


training:  50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 60260/120000 [31:20<29:53, 33.30it/s]

itr: 60250 lr: 5.031e-05 train loss: 0.000000 (dt=7.81s)


training:  50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 60510/120000 [31:28<29:47, 33.27it/s]

itr: 60500 lr: 4.998e-05 train loss: 0.000000 (dt=7.80s)


training:  51%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 60760/120000 [31:35<29:36, 33.35it/s]

itr: 60750 lr: 4.966e-05 train loss: 0.000000 (dt=7.80s)


training:  51%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 61010/120000 [31:43<29:32, 33.28it/s]

itr: 61000 lr: 4.933e-05 train loss: 0.000000 (dt=7.80s)


training:  51%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 61260/120000 [31:51<29:25, 33.27it/s]

itr: 61250 lr: 4.901e-05 train loss: 0.000000 (dt=7.80s)


training:  51%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 61510/120000 [31:59<29:17, 33.29it/s]

itr: 61500 lr: 4.868e-05 train loss: 0.000000 (dt=7.80s)


training:  51%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 61760/120000 [32:07<29:10, 33.27it/s]

itr: 61750 lr: 4.836e-05 train loss: 0.000000 (dt=7.80s)


training:  52%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 62010/120000 [32:14<29:00, 33.33it/s]

itr: 62000 lr: 4.803e-05 train loss: 0.000000 (dt=7.80s)


training:  52%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 62260/120000 [32:22<28:54, 33.28it/s]

itr: 62250 lr: 4.771e-05 train loss: 0.000000 (dt=7.80s)


training:  52%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 62510/120000 [32:30<28:46, 33.29it/s]

itr: 62500 lr: 4.739e-05 train loss: 0.000000 (dt=7.80s)


training:  52%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 62760/120000 [32:38<28:39, 33.29it/s]

itr: 62750 lr: 4.706e-05 train loss: 0.000000 (dt=7.80s)


training:  53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 63010/120000 [32:46<28:32, 33.28it/s]

itr: 63000 lr: 4.674e-05 train loss: 0.000000 (dt=7.80s)


training:  53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 63260/120000 [32:53<28:25, 33.27it/s]

itr: 63250 lr: 4.642e-05 train loss: 0.000000 (dt=7.80s)


training:  53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 63510/120000 [33:01<28:16, 33.30it/s]

itr: 63500 lr: 4.609e-05 train loss: 0.000000 (dt=7.80s)


training:  53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 63760/120000 [33:09<28:06, 33.35it/s]

itr: 63750 lr: 4.577e-05 train loss: 0.000000 (dt=7.80s)


training:  53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 64010/120000 [33:17<28:01, 33.29it/s]

itr: 64000 lr: 4.545e-05 train loss: 0.000000 (dt=7.80s)


training:  54%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 64260/120000 [33:25<27:55, 33.28it/s]

itr: 64250 lr: 4.512e-05 train loss: 0.000000 (dt=7.80s)


training:  54%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç    | 64510/120000 [33:32<27:46, 33.29it/s]

itr: 64500 lr: 4.480e-05 train loss: 0.000000 (dt=7.80s)


training:  54%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç    | 64760/120000 [33:40<27:38, 33.30it/s]

itr: 64750 lr: 4.448e-05 train loss: 0.000000 (dt=7.80s)


training:  54%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç    | 65010/120000 [33:48<27:31, 33.30it/s]

itr: 65000 lr: 4.416e-05 train loss: 0.000000 (dt=7.80s)


training:  54%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç    | 65260/120000 [33:56<27:25, 33.28it/s]

itr: 65250 lr: 4.384e-05 train loss: 0.000000 (dt=7.80s)


training:  55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç    | 65510/120000 [34:04<27:17, 33.27it/s]

itr: 65500 lr: 4.351e-05 train loss: 0.000000 (dt=7.80s)


training:  55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç    | 65760/120000 [34:11<27:09, 33.28it/s]

itr: 65750 lr: 4.319e-05 train loss: 0.000000 (dt=7.80s)


training:  55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 66010/120000 [34:19<27:02, 33.28it/s]

itr: 66000 lr: 4.287e-05 train loss: 0.000000 (dt=7.80s)


training:  55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 66260/120000 [34:27<26:55, 33.27it/s]

itr: 66250 lr: 4.255e-05 train loss: 0.000000 (dt=7.80s)


training:  55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 66510/120000 [34:35<26:47, 33.27it/s]

itr: 66500 lr: 4.223e-05 train loss: 0.000000 (dt=7.80s)


training:  56%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 66760/120000 [34:43<26:40, 33.27it/s]

itr: 66750 lr: 4.191e-05 train loss: 0.000000 (dt=7.80s)


training:  56%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 67010/120000 [34:50<26:30, 33.33it/s]

itr: 67000 lr: 4.159e-05 train loss: 0.000000 (dt=7.80s)


training:  56%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 67260/120000 [34:58<26:24, 33.29it/s]

itr: 67250 lr: 4.127e-05 train loss: 0.000000 (dt=7.80s)


training:  56%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã    | 67510/120000 [35:06<26:17, 33.27it/s]

itr: 67500 lr: 4.095e-05 train loss: 0.000000 (dt=7.80s)


training:  56%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã    | 67760/120000 [35:14<26:09, 33.29it/s]

itr: 67750 lr: 4.064e-05 train loss: 0.000000 (dt=7.80s)


training:  57%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã    | 68010/120000 [35:22<26:02, 33.27it/s]

itr: 68000 lr: 4.032e-05 train loss: 0.000000 (dt=7.80s)


training:  57%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã    | 68260/120000 [35:29<25:54, 33.29it/s]

itr: 68250 lr: 4.000e-05 train loss: 0.000000 (dt=7.80s)


training:  57%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã    | 68510/120000 [35:37<25:47, 33.26it/s]

itr: 68500 lr: 3.968e-05 train loss: 0.000000 (dt=7.80s)


training:  57%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã    | 68760/120000 [35:45<25:39, 33.29it/s]

itr: 68750 lr: 3.937e-05 train loss: 0.000000 (dt=7.80s)


training:  58%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä    | 69010/120000 [35:53<25:32, 33.28it/s]

itr: 69000 lr: 3.905e-05 train loss: 0.000000 (dt=7.80s)


training:  58%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä    | 69260/120000 [36:01<25:25, 33.27it/s]

itr: 69250 lr: 3.874e-05 train loss: 0.000000 (dt=7.80s)


training:  58%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä    | 69510/120000 [36:08<25:17, 33.27it/s]

itr: 69500 lr: 3.842e-05 train loss: 0.000000 (dt=7.80s)


training:  58%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä    | 69760/120000 [36:16<25:10, 33.26it/s]

itr: 69750 lr: 3.811e-05 train loss: 0.000000 (dt=7.80s)


training:  58%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä    | 70010/120000 [36:24<25:02, 33.28it/s]

itr: 70000 lr: 3.779e-05 train loss: 0.000000 (dt=7.80s)


training:  59%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä    | 70260/120000 [36:32<24:54, 33.28it/s]

itr: 70250 lr: 3.748e-05 train loss: 0.000000 (dt=7.80s)


training:  59%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ    | 70510/120000 [36:40<24:47, 33.27it/s]

itr: 70500 lr: 3.717e-05 train loss: 0.000000 (dt=7.80s)


training:  59%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ    | 70760/120000 [36:47<24:39, 33.28it/s]

itr: 70750 lr: 3.685e-05 train loss: 0.000000 (dt=7.80s)


training:  59%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ    | 71010/120000 [36:55<24:32, 33.28it/s]

itr: 71000 lr: 3.654e-05 train loss: 0.000000 (dt=7.80s)


training:  59%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ    | 71260/120000 [37:03<24:23, 33.30it/s]

itr: 71250 lr: 3.623e-05 train loss: 0.000000 (dt=7.80s)


training:  60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ    | 71510/120000 [37:11<24:17, 33.27it/s]

itr: 71500 lr: 3.592e-05 train loss: 0.000000 (dt=7.80s)


training:  60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ    | 71760/120000 [37:19<24:07, 33.32it/s]

itr: 71750 lr: 3.561e-05 train loss: 0.000000 (dt=7.80s)


training:  60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 72010/120000 [37:26<24:02, 33.28it/s]

itr: 72000 lr: 3.530e-05 train loss: 0.000000 (dt=7.80s)


training:  60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 72260/120000 [37:34<23:54, 33.27it/s]

itr: 72250 lr: 3.499e-05 train loss: 0.000000 (dt=7.80s)


training:  60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 72510/120000 [37:42<23:46, 33.28it/s]

itr: 72500 lr: 3.469e-05 train loss: 0.000000 (dt=7.80s)


training:  61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 72760/120000 [37:50<23:36, 33.36it/s]

itr: 72750 lr: 3.438e-05 train loss: 0.000000 (dt=7.80s)


training:  61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 73010/120000 [37:58<23:32, 33.27it/s]

itr: 73000 lr: 3.407e-05 train loss: 0.000000 (dt=7.80s)


training:  61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 73260/120000 [38:05<23:21, 33.35it/s]

itr: 73250 lr: 3.377e-05 train loss: 0.000000 (dt=7.80s)


training:  61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 73510/120000 [38:13<23:17, 33.28it/s]

itr: 73500 lr: 3.346e-05 train loss: 0.000000 (dt=7.80s)


training:  61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 73760/120000 [38:21<23:09, 33.28it/s]

itr: 73750 lr: 3.316e-05 train loss: 0.000000 (dt=7.80s)


training:  62%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 74010/120000 [38:29<23:01, 33.28it/s]

itr: 74000 lr: 3.285e-05 train loss: 0.000000 (dt=7.80s)


training:  62%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 74260/120000 [38:37<22:54, 33.28it/s]

itr: 74250 lr: 3.255e-05 train loss: 0.000000 (dt=7.80s)


training:  62%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 74510/120000 [38:44<22:47, 33.26it/s]

itr: 74500 lr: 3.225e-05 train loss: 0.000000 (dt=7.80s)


training:  62%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 74760/120000 [38:52<22:39, 33.28it/s]

itr: 74750 lr: 3.195e-05 train loss: 0.000000 (dt=7.80s)


training:  63%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé   | 75010/120000 [39:00<22:32, 33.27it/s]

itr: 75000 lr: 3.165e-05 train loss: 0.000000 (dt=7.80s)


training:  63%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé   | 75260/120000 [39:08<22:24, 33.28it/s]

itr: 75250 lr: 3.135e-05 train loss: 0.000000 (dt=7.80s)


training:  63%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé   | 75510/120000 [39:16<22:17, 33.27it/s]

itr: 75500 lr: 3.105e-05 train loss: 0.000000 (dt=7.80s)


training:  63%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé   | 75760/120000 [39:23<22:09, 33.26it/s]

itr: 75750 lr: 3.075e-05 train loss: 0.000000 (dt=7.80s)


training:  63%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé   | 76010/120000 [39:31<22:01, 33.28it/s]

itr: 76000 lr: 3.045e-05 train loss: 0.000000 (dt=7.80s)


training:  64%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé   | 76260/120000 [39:39<21:54, 33.29it/s]

itr: 76250 lr: 3.016e-05 train loss: 0.000000 (dt=7.80s)


training:  64%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç   | 76510/120000 [39:47<21:46, 33.29it/s]

itr: 76500 lr: 2.986e-05 train loss: 0.000000 (dt=7.80s)


training:  64%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç   | 76760/120000 [39:55<21:38, 33.29it/s]

itr: 76750 lr: 2.957e-05 train loss: 0.000000 (dt=7.80s)


training:  64%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç   | 77010/120000 [40:02<21:32, 33.26it/s]

itr: 77000 lr: 2.927e-05 train loss: 0.000000 (dt=7.80s)


training:  64%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç   | 77260/120000 [40:10<21:23, 33.29it/s]

itr: 77250 lr: 2.898e-05 train loss: 0.000000 (dt=7.80s)


training:  65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç   | 77510/120000 [40:18<21:16, 33.27it/s]

itr: 77500 lr: 2.869e-05 train loss: 0.000000 (dt=7.80s)


training:  65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç   | 77760/120000 [40:26<21:09, 33.27it/s]

itr: 77750 lr: 2.840e-05 train loss: 0.000000 (dt=7.80s)


training:  65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 78010/120000 [40:34<21:02, 33.27it/s]

itr: 78000 lr: 2.811e-05 train loss: 0.000000 (dt=7.80s)


training:  65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 78260/120000 [40:41<20:54, 33.28it/s]

itr: 78250 lr: 2.782e-05 train loss: 0.000000 (dt=7.80s)


training:  65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 78510/120000 [40:49<20:46, 33.28it/s]

itr: 78500 lr: 2.753e-05 train loss: 0.000000 (dt=7.80s)


training:  66%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 78760/120000 [40:57<20:39, 33.27it/s]

itr: 78750 lr: 2.724e-05 train loss: 0.000000 (dt=7.80s)


training:  66%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 79010/120000 [41:05<20:31, 33.28it/s]

itr: 79000 lr: 2.696e-05 train loss: 0.000000 (dt=7.80s)


training:  66%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 79260/120000 [41:13<20:22, 33.31it/s]

itr: 79250 lr: 2.667e-05 train loss: 0.000000 (dt=7.80s)


training:  66%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã   | 79510/120000 [41:20<20:16, 33.28it/s]

itr: 79500 lr: 2.639e-05 train loss: 0.000000 (dt=7.80s)


training:  66%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã   | 79760/120000 [41:28<20:09, 33.28it/s]

itr: 79750 lr: 2.611e-05 train loss: 0.000000 (dt=7.80s)


training:  67%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã   | 80010/120000 [41:36<20:21, 32.74it/s]

itr: 80000 lr: 2.582e-05 train loss: 0.000000 (dt=7.80s)
saved checkpoint: ./saved_models_grid_bs8192_20260103_075004/Checkpoint_N32_L2_dup0_iters80001.pt


training:  67%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã   | 80260/120000 [41:44<19:54, 33.28it/s]

itr: 80250 lr: 2.554e-05 train loss: 0.000000 (dt=7.81s)


training:  67%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã   | 80510/120000 [41:52<19:45, 33.31it/s]

itr: 80500 lr: 2.526e-05 train loss: 0.000000 (dt=7.80s)


training:  67%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã   | 80760/120000 [41:59<19:39, 33.26it/s]

itr: 80750 lr: 2.499e-05 train loss: 0.000000 (dt=7.80s)


training:  68%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä   | 81010/120000 [42:07<19:30, 33.31it/s]

itr: 81000 lr: 2.471e-05 train loss: 0.000000 (dt=7.80s)


training:  68%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä   | 81260/120000 [42:15<19:24, 33.27it/s]

itr: 81250 lr: 2.443e-05 train loss: 0.000000 (dt=7.80s)


training:  68%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä   | 81510/120000 [42:23<19:16, 33.27it/s]

itr: 81500 lr: 2.416e-05 train loss: 0.000000 (dt=7.80s)


training:  68%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä   | 81760/120000 [42:31<19:09, 33.28it/s]

itr: 81750 lr: 2.388e-05 train loss: 0.000000 (dt=7.80s)


training:  68%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä   | 82010/120000 [42:38<19:01, 33.28it/s]

itr: 82000 lr: 2.361e-05 train loss: 0.000000 (dt=7.80s)


training:  69%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä   | 82260/120000 [42:46<18:53, 33.30it/s]

itr: 82250 lr: 2.334e-05 train loss: 0.000000 (dt=7.80s)


training:  69%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 82510/120000 [42:54<18:46, 33.27it/s]

itr: 82500 lr: 2.307e-05 train loss: 0.000000 (dt=7.80s)


training:  69%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 82760/120000 [43:02<18:39, 33.27it/s]

itr: 82750 lr: 2.280e-05 train loss: 0.000000 (dt=7.80s)


training:  69%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 83010/120000 [43:10<18:31, 33.27it/s]

itr: 83000 lr: 2.253e-05 train loss: 0.000000 (dt=7.80s)


training:  69%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 83260/120000 [43:17<18:24, 33.27it/s]

itr: 83250 lr: 2.226e-05 train loss: 0.000000 (dt=7.80s)


training:  70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 83510/120000 [43:25<18:16, 33.29it/s]

itr: 83500 lr: 2.200e-05 train loss: 0.000000 (dt=7.80s)


training:  70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 83760/120000 [43:33<18:09, 33.28it/s]

itr: 83750 lr: 2.173e-05 train loss: 0.000000 (dt=7.80s)


training:  70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 84010/120000 [43:41<18:01, 33.28it/s]

itr: 84000 lr: 2.147e-05 train loss: 0.000000 (dt=7.80s)


training:  70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 84260/120000 [43:49<17:54, 33.27it/s]

itr: 84250 lr: 2.121e-05 train loss: 0.000000 (dt=7.80s)


training:  70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 84510/120000 [43:56<17:44, 33.35it/s]

itr: 84500 lr: 2.094e-05 train loss: 0.000000 (dt=7.80s)


training:  71%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 84760/120000 [44:04<17:37, 33.34it/s]

itr: 84750 lr: 2.068e-05 train loss: 0.000000 (dt=7.80s)


training:  71%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 85010/120000 [44:12<17:29, 33.33it/s]

itr: 85000 lr: 2.043e-05 train loss: 0.000000 (dt=7.80s)


training:  71%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 85260/120000 [44:20<17:24, 33.27it/s]

itr: 85250 lr: 2.017e-05 train loss: 0.000000 (dt=7.80s)


training:  71%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè  | 85510/120000 [44:28<17:16, 33.26it/s]

itr: 85500 lr: 1.991e-05 train loss: 0.000000 (dt=7.80s)


training:  71%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè  | 85760/120000 [44:35<17:08, 33.28it/s]

itr: 85750 lr: 1.966e-05 train loss: 0.000000 (dt=7.80s)


training:  72%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè  | 86010/120000 [44:43<17:01, 33.27it/s]

itr: 86000 lr: 1.941e-05 train loss: 0.000000 (dt=7.80s)


training:  72%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè  | 86260/120000 [44:51<16:54, 33.27it/s]

itr: 86250 lr: 1.915e-05 train loss: 0.000000 (dt=7.80s)


training:  72%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè  | 86510/120000 [44:59<16:43, 33.38it/s]

itr: 86500 lr: 1.890e-05 train loss: 0.000000 (dt=7.80s)


training:  72%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè  | 86760/120000 [45:07<16:38, 33.29it/s]

itr: 86750 lr: 1.865e-05 train loss: 0.000000 (dt=7.80s)


training:  73%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé  | 87010/120000 [45:14<16:31, 33.28it/s]

itr: 87000 lr: 1.841e-05 train loss: 0.000000 (dt=7.80s)


training:  73%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé  | 87260/120000 [45:22<16:23, 33.27it/s]

itr: 87250 lr: 1.816e-05 train loss: 0.000000 (dt=7.80s)


training:  73%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé  | 87510/120000 [45:30<16:16, 33.27it/s]

itr: 87500 lr: 1.792e-05 train loss: 0.000000 (dt=7.80s)


training:  73%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé  | 87760/120000 [45:38<16:08, 33.28it/s]

itr: 87750 lr: 1.767e-05 train loss: 0.000000 (dt=7.80s)


training:  73%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé  | 88010/120000 [45:46<16:01, 33.28it/s]

itr: 88000 lr: 1.743e-05 train loss: 0.000000 (dt=7.80s)


training:  74%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé  | 88260/120000 [45:53<15:53, 33.28it/s]

itr: 88250 lr: 1.719e-05 train loss: 0.000000 (dt=7.80s)


training:  74%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç  | 88510/120000 [46:01<15:46, 33.28it/s]

itr: 88500 lr: 1.695e-05 train loss: 0.000000 (dt=7.80s)


training:  74%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç  | 88760/120000 [46:09<15:38, 33.30it/s]

itr: 88750 lr: 1.671e-05 train loss: 0.000000 (dt=7.80s)


training:  74%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç  | 89010/120000 [46:17<15:31, 33.26it/s]

itr: 89000 lr: 1.648e-05 train loss: 0.000000 (dt=7.80s)


training:  74%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç  | 89260/120000 [46:25<15:23, 33.27it/s]

itr: 89250 lr: 1.624e-05 train loss: 0.000000 (dt=7.80s)


training:  75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç  | 89510/120000 [46:32<15:15, 33.29it/s]

itr: 89500 lr: 1.601e-05 train loss: 0.000000 (dt=7.80s)


training:  75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç  | 89760/120000 [46:40<15:08, 33.29it/s]

itr: 89750 lr: 1.577e-05 train loss: 0.000000 (dt=7.80s)


training:  75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 90010/120000 [46:48<15:01, 33.28it/s]

itr: 90000 lr: 1.554e-05 train loss: 0.000000 (dt=7.80s)


training:  75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 90260/120000 [46:56<14:53, 33.27it/s]

itr: 90250 lr: 1.532e-05 train loss: 0.000000 (dt=7.80s)


training:  75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 90510/120000 [47:04<14:45, 33.29it/s]

itr: 90500 lr: 1.509e-05 train loss: 0.000000 (dt=7.80s)


training:  76%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 90760/120000 [47:11<14:39, 33.26it/s]

itr: 90750 lr: 1.486e-05 train loss: 0.000000 (dt=7.80s)


training:  76%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 91010/120000 [47:19<14:30, 33.29it/s]

itr: 91000 lr: 1.464e-05 train loss: 0.000000 (dt=7.80s)


training:  76%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 91260/120000 [47:27<14:23, 33.28it/s]

itr: 91250 lr: 1.441e-05 train loss: 0.000000 (dt=7.80s)


training:  76%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã  | 91510/120000 [47:35<14:16, 33.27it/s]

itr: 91500 lr: 1.419e-05 train loss: 0.000000 (dt=7.80s)


training:  76%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã  | 91760/120000 [47:43<14:08, 33.29it/s]

itr: 91750 lr: 1.397e-05 train loss: 0.000000 (dt=7.80s)


training:  77%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã  | 92010/120000 [47:50<14:01, 33.28it/s]

itr: 92000 lr: 1.375e-05 train loss: 0.000000 (dt=7.80s)


training:  77%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã  | 92260/120000 [47:58<13:53, 33.28it/s]

itr: 92250 lr: 1.354e-05 train loss: 0.000000 (dt=7.80s)


training:  77%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã  | 92510/120000 [48:06<13:46, 33.25it/s]

itr: 92500 lr: 1.332e-05 train loss: 0.000000 (dt=7.80s)


training:  77%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã  | 92760/120000 [48:14<13:38, 33.27it/s]

itr: 92750 lr: 1.311e-05 train loss: 0.000000 (dt=7.80s)


training:  78%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 93010/120000 [48:22<13:31, 33.28it/s]

itr: 93000 lr: 1.290e-05 train loss: 0.000000 (dt=7.80s)


training:  78%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 93260/120000 [48:29<13:23, 33.27it/s]

itr: 93250 lr: 1.269e-05 train loss: 0.000000 (dt=7.80s)


training:  78%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 93510/120000 [48:37<13:15, 33.30it/s]

itr: 93500 lr: 1.248e-05 train loss: 0.000000 (dt=7.80s)


training:  78%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 93760/120000 [48:45<13:08, 33.27it/s]

itr: 93750 lr: 1.227e-05 train loss: 0.000000 (dt=7.80s)


training:  78%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 94010/120000 [48:53<13:00, 33.29it/s]

itr: 94000 lr: 1.207e-05 train loss: 0.000000 (dt=7.80s)


training:  79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 94260/120000 [49:01<12:53, 33.28it/s]

itr: 94250 lr: 1.186e-05 train loss: 0.000000 (dt=7.80s)


training:  79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 94510/120000 [49:09<12:46, 33.28it/s]

itr: 94500 lr: 1.166e-05 train loss: 0.000000 (dt=7.80s)


training:  79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 94760/120000 [49:16<12:36, 33.36it/s]

itr: 94750 lr: 1.146e-05 train loss: 0.000000 (dt=7.80s)


training:  79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 95010/120000 [49:24<12:31, 33.27it/s]

itr: 95000 lr: 1.126e-05 train loss: 0.000000 (dt=7.80s)


training:  79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 95260/120000 [49:32<12:23, 33.28it/s]

itr: 95250 lr: 1.106e-05 train loss: 0.000000 (dt=7.80s)


training:  80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 95510/120000 [49:40<12:15, 33.28it/s]

itr: 95500 lr: 1.087e-05 train loss: 0.000000 (dt=7.80s)


training:  80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 95760/120000 [49:48<12:07, 33.30it/s]

itr: 95750 lr: 1.068e-05 train loss: 0.000000 (dt=7.80s)


training:  80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 96010/120000 [49:55<12:00, 33.28it/s]

itr: 96000 lr: 1.048e-05 train loss: 0.000000 (dt=7.80s)


training:  80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 96260/120000 [50:03<11:53, 33.27it/s]

itr: 96250 lr: 1.029e-05 train loss: 0.000000 (dt=7.80s)


training:  80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 96510/120000 [50:11<11:45, 33.28it/s]

itr: 96500 lr: 1.011e-05 train loss: 0.000000 (dt=7.80s)


training:  81%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 96760/120000 [50:19<11:38, 33.27it/s]

itr: 96750 lr: 9.919e-06 train loss: 0.000000 (dt=7.80s)


training:  81%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 97010/120000 [50:27<11:30, 33.27it/s]

itr: 97000 lr: 9.734e-06 train loss: 0.000000 (dt=7.80s)


training:  81%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 97260/120000 [50:34<11:23, 33.27it/s]

itr: 97250 lr: 9.551e-06 train loss: 0.000000 (dt=7.80s)


training:  81%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè | 97510/120000 [50:42<11:15, 33.27it/s]

itr: 97500 lr: 9.369e-06 train loss: 0.000000 (dt=7.80s)


training:  81%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè | 97760/120000 [50:50<11:08, 33.27it/s]

itr: 97750 lr: 9.190e-06 train loss: 0.000000 (dt=7.80s)


training:  82%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè | 98010/120000 [50:58<11:01, 33.26it/s]

itr: 98000 lr: 9.012e-06 train loss: 0.000000 (dt=7.80s)


training:  82%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè | 98260/120000 [51:06<10:53, 33.28it/s]

itr: 98250 lr: 8.836e-06 train loss: 0.000000 (dt=7.80s)


training:  82%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè | 98510/120000 [51:13<10:45, 33.28it/s]

itr: 98500 lr: 8.661e-06 train loss: 0.000000 (dt=7.80s)


training:  82%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè | 98760/120000 [51:21<10:38, 33.29it/s]

itr: 98750 lr: 8.489e-06 train loss: 0.000000 (dt=7.80s)


training:  83%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé | 99010/120000 [51:29<10:30, 33.27it/s]

itr: 99000 lr: 8.318e-06 train loss: 0.000000 (dt=7.80s)


training:  83%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé | 99260/120000 [51:37<10:23, 33.27it/s]

itr: 99250 lr: 8.149e-06 train loss: 0.000000 (dt=7.80s)


training:  83%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé | 99510/120000 [51:45<10:15, 33.27it/s]

itr: 99500 lr: 7.982e-06 train loss: 0.000000 (dt=7.80s)


training:  83%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé | 99760/120000 [51:52<10:08, 33.26it/s]

itr: 99750 lr: 7.817e-06 train loss: 0.000000 (dt=7.80s)


training:  83%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé | 100010/120000 [52:00<10:10, 32.73it/s]

itr: 100000 lr: 7.653e-06 train loss: 0.000000 (dt=7.80s)
saved checkpoint: ./saved_models_grid_bs8192_20260103_075004/Checkpoint_N32_L2_dup0_iters100001.pt


training:  84%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé | 100260/120000 [52:08<09:53, 33.29it/s]

itr: 100250 lr: 7.492e-06 train loss: 0.000000 (dt=7.81s)


training:  84%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç | 100510/120000 [52:16<09:45, 33.29it/s]

itr: 100500 lr: 7.332e-06 train loss: 0.000000 (dt=7.80s)


training:  84%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç | 100760/120000 [52:24<09:38, 33.28it/s]

itr: 100750 lr: 7.174e-06 train loss: 0.000000 (dt=7.80s)


training:  84%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç | 101010/120000 [52:31<09:30, 33.28it/s]

itr: 101000 lr: 7.018e-06 train loss: 0.000000 (dt=7.80s)


training:  84%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç | 101260/120000 [52:39<09:22, 33.29it/s]

itr: 101250 lr: 6.864e-06 train loss: 0.000000 (dt=7.80s)


training:  85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç | 101510/120000 [52:47<09:15, 33.28it/s]

itr: 101500 lr: 6.712e-06 train loss: 0.000000 (dt=7.80s)


training:  85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç | 101760/120000 [52:55<09:07, 33.30it/s]

itr: 101750 lr: 6.561e-06 train loss: 0.000000 (dt=7.80s)


training:  85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 102010/120000 [53:03<09:00, 33.27it/s]

itr: 102000 lr: 6.413e-06 train loss: 0.000000 (dt=7.80s)


training:  85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 102260/120000 [53:10<08:52, 33.29it/s]

itr: 102250 lr: 6.266e-06 train loss: 0.000000 (dt=7.80s)


training:  85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 102510/120000 [53:18<08:45, 33.28it/s]

itr: 102500 lr: 6.122e-06 train loss: 0.000000 (dt=7.80s)


training:  86%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 102760/120000 [53:26<08:38, 33.28it/s]

itr: 102750 lr: 5.979e-06 train loss: 0.000000 (dt=7.80s)


training:  86%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 103010/120000 [53:34<08:30, 33.27it/s]

itr: 103000 lr: 5.838e-06 train loss: 0.000000 (dt=7.80s)


training:  86%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 103260/120000 [53:42<08:22, 33.31it/s]

itr: 103250 lr: 5.699e-06 train loss: 0.000000 (dt=7.80s)


training:  86%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 103510/120000 [53:49<08:15, 33.28it/s]

itr: 103500 lr: 5.562e-06 train loss: 0.000000 (dt=7.80s)


training:  86%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 103760/120000 [53:57<08:07, 33.28it/s]

itr: 103750 lr: 5.427e-06 train loss: 0.000000 (dt=7.80s)


training:  87%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 104010/120000 [54:05<08:00, 33.28it/s]

itr: 104000 lr: 5.294e-06 train loss: 0.000000 (dt=7.80s)


training:  87%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 104260/120000 [54:13<07:53, 33.28it/s]

itr: 104250 lr: 5.162e-06 train loss: 0.000000 (dt=7.80s)


training:  87%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 104510/120000 [54:21<07:45, 33.30it/s]

itr: 104500 lr: 5.033e-06 train loss: 0.000000 (dt=7.80s)


training:  87%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 104760/120000 [54:28<07:38, 33.27it/s]

itr: 104750 lr: 4.906e-06 train loss: 0.000000 (dt=7.80s)


training:  88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 105010/120000 [54:36<07:30, 33.26it/s]

itr: 105000 lr: 4.780e-06 train loss: 0.000000 (dt=7.80s)


training:  88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 105260/120000 [54:44<07:23, 33.27it/s]

itr: 105250 lr: 4.657e-06 train loss: 0.000000 (dt=7.80s)


training:  88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 105510/120000 [54:52<07:15, 33.27it/s]

itr: 105500 lr: 4.536e-06 train loss: 0.000000 (dt=7.80s)


training:  88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 105760/120000 [55:00<07:07, 33.29it/s]

itr: 105750 lr: 4.416e-06 train loss: 0.000000 (dt=7.80s)


training:  88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 106010/120000 [55:07<07:00, 33.28it/s]

itr: 106000 lr: 4.299e-06 train loss: 0.000000 (dt=7.80s)


training:  89%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 106260/120000 [55:15<06:53, 33.26it/s]

itr: 106250 lr: 4.183e-06 train loss: 0.000000 (dt=7.80s)


training:  89%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ | 106510/120000 [55:23<06:45, 33.30it/s]

itr: 106500 lr: 4.070e-06 train loss: 0.000000 (dt=7.80s)


training:  89%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ | 106760/120000 [55:31<06:37, 33.27it/s]

itr: 106750 lr: 3.958e-06 train loss: 0.000000 (dt=7.80s)


training:  89%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ | 107010/120000 [55:39<06:30, 33.27it/s]

itr: 107000 lr: 3.849e-06 train loss: 0.000000 (dt=7.80s)


training:  89%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ | 107260/120000 [55:46<06:22, 33.29it/s]

itr: 107250 lr: 3.741e-06 train loss: 0.000000 (dt=7.80s)


training:  90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ | 107510/120000 [55:54<06:15, 33.27it/s]

itr: 107500 lr: 3.636e-06 train loss: 0.000000 (dt=7.80s)


training:  90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ | 107760/120000 [56:02<06:07, 33.31it/s]

itr: 107750 lr: 3.532e-06 train loss: 0.000000 (dt=7.80s)


training:  90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 108010/120000 [56:10<06:00, 33.28it/s]

itr: 108000 lr: 3.431e-06 train loss: 0.000000 (dt=7.80s)


training:  90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 108260/120000 [56:18<05:52, 33.28it/s]

itr: 108250 lr: 3.331e-06 train loss: 0.000000 (dt=7.80s)


training:  90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 108510/120000 [56:25<05:45, 33.28it/s]

itr: 108500 lr: 3.234e-06 train loss: 0.000000 (dt=7.80s)


training:  91%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 108760/120000 [56:33<05:37, 33.30it/s]

itr: 108750 lr: 3.139e-06 train loss: 0.000000 (dt=7.80s)


training:  91%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 109010/120000 [56:41<05:30, 33.27it/s]

itr: 109000 lr: 3.045e-06 train loss: 0.000000 (dt=7.80s)


training:  91%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 109260/120000 [56:49<05:22, 33.27it/s]

itr: 109250 lr: 2.954e-06 train loss: 0.000000 (dt=7.80s)


training:  91%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè| 109510/120000 [56:57<05:15, 33.27it/s]

itr: 109500 lr: 2.865e-06 train loss: 0.000000 (dt=7.80s)


training:  91%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè| 109760/120000 [57:04<05:07, 33.28it/s]

itr: 109750 lr: 2.777e-06 train loss: 0.000000 (dt=7.80s)


training:  92%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè| 110010/120000 [57:12<04:59, 33.38it/s]

itr: 110000 lr: 2.692e-06 train loss: 0.000000 (dt=7.80s)


training:  92%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè| 110260/120000 [57:20<04:52, 33.30it/s]

itr: 110250 lr: 2.609e-06 train loss: 0.000000 (dt=7.80s)


training:  92%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè| 110510/120000 [57:28<04:45, 33.27it/s]

itr: 110500 lr: 2.528e-06 train loss: 0.000000 (dt=7.80s)


training:  92%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè| 110760/120000 [57:36<04:37, 33.28it/s]

itr: 110750 lr: 2.449e-06 train loss: 0.000000 (dt=7.80s)


training:  93%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé| 111010/120000 [57:43<04:30, 33.27it/s]

itr: 111000 lr: 2.372e-06 train loss: 0.000000 (dt=7.80s)


training:  93%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé| 111260/120000 [57:51<04:22, 33.28it/s]

itr: 111250 lr: 2.297e-06 train loss: 0.000000 (dt=7.80s)


training:  93%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé| 111510/120000 [57:59<04:15, 33.27it/s]

itr: 111500 lr: 2.225e-06 train loss: 0.000000 (dt=7.80s)


training:  93%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé| 111760/120000 [58:07<04:07, 33.27it/s]

itr: 111750 lr: 2.154e-06 train loss: 0.000000 (dt=7.80s)


training:  93%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé| 112010/120000 [58:15<04:00, 33.28it/s]

itr: 112000 lr: 2.085e-06 train loss: 0.000000 (dt=7.80s)


training:  94%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé| 112260/120000 [58:22<03:52, 33.27it/s]

itr: 112250 lr: 2.019e-06 train loss: 0.000000 (dt=7.80s)


training:  94%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç| 112510/120000 [58:30<03:45, 33.29it/s]

itr: 112500 lr: 1.954e-06 train loss: 0.000000 (dt=7.80s)


training:  94%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç| 112760/120000 [58:38<03:37, 33.28it/s]

itr: 112750 lr: 1.892e-06 train loss: 0.000000 (dt=7.80s)


training:  94%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç| 113010/120000 [58:46<03:30, 33.27it/s]

itr: 113000 lr: 1.832e-06 train loss: 0.000000 (dt=7.80s)


training:  94%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç| 113260/120000 [58:54<03:22, 33.27it/s]

itr: 113250 lr: 1.773e-06 train loss: 0.000000 (dt=7.80s)


training:  95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç| 113510/120000 [59:01<03:14, 33.29it/s]

itr: 113500 lr: 1.717e-06 train loss: 0.000000 (dt=7.80s)


training:  95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç| 113760/120000 [59:09<03:07, 33.28it/s]

itr: 113750 lr: 1.663e-06 train loss: 0.000000 (dt=7.80s)


training:  95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 114010/120000 [59:17<03:00, 33.27it/s]

itr: 114000 lr: 1.611e-06 train loss: 0.000000 (dt=7.80s)


training:  95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 114260/120000 [59:25<02:52, 33.27it/s]

itr: 114250 lr: 1.562e-06 train loss: 0.000000 (dt=7.80s)


training:  95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 114510/120000 [59:33<02:44, 33.29it/s]

itr: 114500 lr: 1.514e-06 train loss: 0.000000 (dt=7.80s)


training:  96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 114760/120000 [59:40<02:37, 33.28it/s]

itr: 114750 lr: 1.468e-06 train loss: 0.000000 (dt=7.80s)


training:  96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 115010/120000 [59:48<02:29, 33.27it/s]

itr: 115000 lr: 1.425e-06 train loss: 0.000000 (dt=7.80s)


training:  96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 115260/120000 [59:56<02:22, 33.28it/s]

itr: 115250 lr: 1.384e-06 train loss: 0.000000 (dt=7.80s)


training:  96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã| 115510/120000 [1:00:04<02:14, 33.27it/s]

itr: 115500 lr: 1.344e-06 train loss: 0.000000 (dt=7.80s)


training:  96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã| 115760/120000 [1:00:12<02:07, 33.29it/s]

itr: 115750 lr: 1.307e-06 train loss: 0.000000 (dt=7.80s)


training:  97%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã| 116010/120000 [1:00:19<01:59, 33.27it/s]

itr: 116000 lr: 1.272e-06 train loss: 0.000000 (dt=7.80s)


training:  97%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã| 116260/120000 [1:00:27<01:52, 33.28it/s]

itr: 116250 lr: 1.239e-06 train loss: 0.000000 (dt=7.80s)


training:  97%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã| 116510/120000 [1:00:35<01:44, 33.27it/s]

itr: 116500 lr: 1.208e-06 train loss: 0.000000 (dt=7.80s)


training:  97%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã| 116760/120000 [1:00:43<01:37, 33.28it/s]

itr: 116750 lr: 1.180e-06 train loss: 0.000000 (dt=7.80s)


training:  98%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä| 117010/120000 [1:00:51<01:29, 33.28it/s]

itr: 117000 lr: 1.153e-06 train loss: 0.000000 (dt=7.80s)


training:  98%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä| 117260/120000 [1:00:58<01:22, 33.31it/s]

itr: 117250 lr: 1.129e-06 train loss: 0.000000 (dt=7.80s)


training:  98%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä| 117510/120000 [1:01:06<01:14, 33.28it/s]

itr: 117500 lr: 1.106e-06 train loss: 0.000000 (dt=7.80s)


training:  98%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä| 117760/120000 [1:01:14<01:07, 33.29it/s]

itr: 117750 lr: 1.086e-06 train loss: 0.000000 (dt=7.80s)


training:  98%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä| 118010/120000 [1:01:22<00:59, 33.28it/s]

itr: 118000 lr: 1.068e-06 train loss: 0.000000 (dt=7.80s)


training:  99%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä| 118260/120000 [1:01:30<00:52, 33.28it/s]

itr: 118250 lr: 1.052e-06 train loss: 0.000000 (dt=7.80s)


training:  99%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ| 118510/120000 [1:01:37<00:44, 33.33it/s]

itr: 118500 lr: 1.038e-06 train loss: 0.000000 (dt=7.80s)


training:  99%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ| 118760/120000 [1:01:45<00:37, 33.27it/s]

itr: 118750 lr: 1.027e-06 train loss: 0.000000 (dt=7.80s)


training:  99%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ| 119010/120000 [1:01:53<00:29, 33.28it/s]

üü® plateau detected @ itr=119000 (slope=2.5271, Œîlog10(loss)=0.0079); will stop after logging itr=119250
itr: 119000 lr: 1.017e-06 train loss: 0.000000 (dt=7.80s)


training:  99%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ| 119250/120000 [1:02:01<00:23, 32.05it/s]

itr: 119250 lr: 1.010e-06 train loss: 0.000000 (dt=7.80s)
saved final model: ./saved_models_grid_bs8192_20260103_075004/Final_N32_L2_dup0_iters119251.pt





0,1
iter,‚ñÅ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÉ‚ñÉ‚ñÉ‚ñÉ‚ñÉ‚ñÉ‚ñÑ‚ñÑ‚ñÑ‚ñÑ‚ñÑ‚ñÑ‚ñÑ‚ñÖ‚ñÖ‚ñÖ‚ñÖ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà
ll/iter,‚ñÅ‚ñÅ‚ñÉ‚ñÑ‚ñÖ‚ñÖ‚ñÖ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà
ll/lr,‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÖ‚ñÖ‚ñÖ‚ñÑ‚ñÉ‚ñÅ
ll/train_loss,‚ñà‚ñá‚ñÖ‚ñÅ‚ñÅ‚ñÅ‚ñÇ‚ñÅ‚ñÅ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÅ‚ñÑ‚ñÅ‚ñÇ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÇ‚ñÅ‚ñÅ‚ñÇ‚ñÅ‚ñÇ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ
lr,‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñá‚ñá‚ñá‚ñá‚ñá‚ñÜ‚ñÜ‚ñÜ‚ñÖ‚ñÖ‚ñÖ‚ñÖ‚ñÑ‚ñÑ‚ñÑ‚ñÑ‚ñÑ‚ñÑ‚ñÉ‚ñÉ‚ñÉ‚ñÉ‚ñÇ‚ñÇ‚ñÇ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ
plateau/delta_log10_loss_window,‚ñÇ‚ñÉ‚ñÇ‚ñÉ‚ñÇ‚ñÇ‚ñÉ‚ñÉ‚ñÇ‚ñÉ‚ñÇ‚ñÇ‚ñÑ‚ñÉ‚ñà‚ñÉ‚ñÉ‚ñà‚ñÇ‚ñÉ‚ñÉ‚ñÅ‚ñÇ‚ñÉ‚ñÇ‚ñÇ‚ñÉ‚ñÉ‚ñÇ‚ñÇ‚ñÉ‚ñÉ‚ñÉ‚ñÉ‚ñÇ‚ñÇ‚ñÉ‚ñÉ‚ñÉ‚ñÉ
plateau/hits,‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ
plateau/loglog_slope,‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÖ‚ñÖ‚ñà‚ñÑ‚ñÇ‚ñÅ‚ñÖ‚ñÑ‚ñÜ‚ñÑ‚ñÖ‚ñÖ‚ñÜ‚ñá‚ñá‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÖ‚ñÜ‚ñÖ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÖ‚ñÑ‚ñÑ‚ñÜ
plateau/now,‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñà
plateau/reached,‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ

0,1
iter,119251
iters_done,119251
ll/iter,5.07646
ll/lr,-5.99586
ll/train_loss,-7.5508
lr,0.0
plateau/delta_log10_loss_window,0.00795
plateau/hits,2
plateau/loglog_slope,2.52707
plateau/now,0


using device: cuda


training:   0%|          | 12/120000 [00:00<19:51, 100.70it/s]

itr: 0 lr: 4.975e-07 train loss: 3.540217 (dt=0.02s)


training:   0%|          | 264/120000 [00:04<34:52, 57.22it/s]

itr: 250 lr: 1.000e-04 train loss: 1.891098 (dt=4.59s)


training:   0%|          | 514/120000 [00:09<34:48, 57.20it/s]

itr: 500 lr: 1.000e-04 train loss: 0.802589 (dt=4.56s)


training:   1%|          | 764/120000 [00:13<34:45, 57.18it/s]

itr: 750 lr: 9.999e-05 train loss: 0.224454 (dt=4.56s)


training:   1%|          | 1014/120000 [00:18<34:40, 57.18it/s]

itr: 1000 lr: 9.999e-05 train loss: 0.042991 (dt=4.56s)


training:   1%|          | 1265/120000 [00:22<34:37, 57.14it/s]

itr: 1250 lr: 9.998e-05 train loss: 0.008303 (dt=4.56s)


training:   1%|‚ñè         | 1514/120000 [00:27<34:31, 57.20it/s]

itr: 1500 lr: 9.997e-05 train loss: 0.001531 (dt=4.56s)


training:   1%|‚ñè         | 1764/120000 [00:32<34:27, 57.19it/s]

itr: 1750 lr: 9.996e-05 train loss: 0.000269 (dt=4.56s)


training:   2%|‚ñè         | 2014/120000 [00:36<34:23, 57.17it/s]

itr: 2000 lr: 9.994e-05 train loss: 0.000045 (dt=4.56s)


training:   2%|‚ñè         | 2264/120000 [00:41<34:19, 57.16it/s]

itr: 2250 lr: 9.993e-05 train loss: 0.000007 (dt=4.56s)


training:   2%|‚ñè         | 2514/120000 [00:45<34:14, 57.19it/s]

itr: 2500 lr: 9.991e-05 train loss: 0.000001 (dt=4.56s)


training:   2%|‚ñè         | 2764/120000 [00:50<34:09, 57.19it/s]

itr: 2750 lr: 9.989e-05 train loss: 0.000000 (dt=4.56s)


training:   3%|‚ñé         | 3014/120000 [00:54<34:05, 57.20it/s]

itr: 3000 lr: 9.987e-05 train loss: 0.000000 (dt=4.56s)


training:   3%|‚ñé         | 3264/120000 [00:59<34:00, 57.22it/s]

itr: 3250 lr: 9.984e-05 train loss: 0.000000 (dt=4.56s)


training:   3%|‚ñé         | 3514/120000 [01:04<33:56, 57.21it/s]

itr: 3500 lr: 9.981e-05 train loss: 0.000000 (dt=4.56s)


training:   3%|‚ñé         | 3764/120000 [01:08<33:52, 57.18it/s]

itr: 3750 lr: 9.979e-05 train loss: 0.000000 (dt=4.56s)


training:   3%|‚ñé         | 4015/120000 [01:13<33:50, 57.13it/s]

itr: 4000 lr: 9.975e-05 train loss: 0.000000 (dt=4.56s)


training:   4%|‚ñé         | 4264/120000 [01:17<33:43, 57.19it/s]

itr: 4250 lr: 9.972e-05 train loss: 0.000000 (dt=4.56s)


training:   4%|‚ñç         | 4514/120000 [01:22<33:39, 57.19it/s]

itr: 4500 lr: 9.969e-05 train loss: 0.000000 (dt=4.56s)


training:   4%|‚ñç         | 4764/120000 [01:26<33:35, 57.19it/s]

itr: 4750 lr: 9.965e-05 train loss: 0.000000 (dt=4.56s)


training:   4%|‚ñç         | 5014/120000 [01:31<33:30, 57.20it/s]

itr: 5000 lr: 9.961e-05 train loss: 0.000000 (dt=4.56s)


training:   4%|‚ñç         | 5264/120000 [01:35<33:28, 57.12it/s]

itr: 5250 lr: 9.957e-05 train loss: 0.000000 (dt=4.56s)


training:   5%|‚ñç         | 5514/120000 [01:40<33:21, 57.19it/s]

itr: 5500 lr: 9.952e-05 train loss: 0.000000 (dt=4.56s)


training:   5%|‚ñç         | 5765/120000 [01:45<33:19, 57.13it/s]

itr: 5750 lr: 9.948e-05 train loss: 0.000000 (dt=4.56s)


training:   5%|‚ñå         | 6014/120000 [01:49<33:12, 57.21it/s]

itr: 6000 lr: 9.943e-05 train loss: 0.000000 (dt=4.56s)


training:   5%|‚ñå         | 6264/120000 [01:54<33:08, 57.20it/s]

itr: 6250 lr: 9.938e-05 train loss: 0.000000 (dt=4.56s)


training:   5%|‚ñå         | 6515/120000 [01:58<33:05, 57.16it/s]

itr: 6500 lr: 9.933e-05 train loss: 0.000000 (dt=4.56s)


training:   6%|‚ñå         | 6764/120000 [02:03<33:00, 57.16it/s]

itr: 6750 lr: 9.927e-05 train loss: 0.000000 (dt=4.56s)


training:   6%|‚ñå         | 7014/120000 [02:07<32:55, 57.20it/s]

itr: 7000 lr: 9.922e-05 train loss: 0.000000 (dt=4.56s)


training:   6%|‚ñå         | 7264/120000 [02:12<32:50, 57.20it/s]

itr: 7250 lr: 9.916e-05 train loss: 0.000000 (dt=4.56s)


training:   6%|‚ñã         | 7514/120000 [02:17<32:47, 57.17it/s]

itr: 7500 lr: 9.910e-05 train loss: 0.000000 (dt=4.56s)


training:   6%|‚ñã         | 7764/120000 [02:21<32:41, 57.22it/s]

itr: 7750 lr: 9.903e-05 train loss: 0.000000 (dt=4.56s)


training:   7%|‚ñã         | 8014/120000 [02:26<32:37, 57.19it/s]

itr: 8000 lr: 9.897e-05 train loss: 0.000000 (dt=4.56s)


training:   7%|‚ñã         | 8264/120000 [02:30<32:35, 57.15it/s]

itr: 8250 lr: 9.890e-05 train loss: 0.000000 (dt=4.56s)


training:   7%|‚ñã         | 8514/120000 [02:35<32:29, 57.19it/s]

itr: 8500 lr: 9.883e-05 train loss: 0.000000 (dt=4.56s)


training:   7%|‚ñã         | 8764/120000 [02:39<32:24, 57.20it/s]

itr: 8750 lr: 9.876e-05 train loss: 0.000000 (dt=4.56s)


training:   8%|‚ñä         | 9015/120000 [02:44<32:22, 57.12it/s]

itr: 9000 lr: 9.869e-05 train loss: 0.000000 (dt=4.56s)


training:   8%|‚ñä         | 9264/120000 [02:48<32:17, 57.16it/s]

itr: 9250 lr: 9.861e-05 train loss: 0.000000 (dt=4.56s)


training:   8%|‚ñä         | 9514/120000 [02:53<32:12, 57.19it/s]

itr: 9500 lr: 9.854e-05 train loss: 0.000000 (dt=4.56s)


training:   8%|‚ñä         | 9764/120000 [02:58<32:07, 57.20it/s]

itr: 9750 lr: 9.846e-05 train loss: 0.000000 (dt=4.56s)


training:   8%|‚ñä         | 10014/120000 [03:02<32:01, 57.23it/s]

itr: 10000 lr: 9.837e-05 train loss: 0.000000 (dt=4.56s)


training:   9%|‚ñä         | 10265/120000 [03:07<32:00, 57.13it/s]

itr: 10250 lr: 9.829e-05 train loss: 0.000000 (dt=4.56s)


training:   9%|‚ñâ         | 10514/120000 [03:11<31:53, 57.21it/s]

itr: 10500 lr: 9.821e-05 train loss: 0.000000 (dt=4.56s)


training:   9%|‚ñâ         | 10764/120000 [03:16<31:50, 57.19it/s]

itr: 10750 lr: 9.812e-05 train loss: 0.000000 (dt=4.56s)


training:   9%|‚ñâ         | 11014/120000 [03:20<31:45, 57.20it/s]

itr: 11000 lr: 9.803e-05 train loss: 0.000000 (dt=4.56s)


training:   9%|‚ñâ         | 11264/120000 [03:25<31:41, 57.18it/s]

itr: 11250 lr: 9.794e-05 train loss: 0.000000 (dt=4.56s)


training:  10%|‚ñâ         | 11514/120000 [03:30<31:36, 57.20it/s]

itr: 11500 lr: 9.784e-05 train loss: 0.000000 (dt=4.56s)


training:  10%|‚ñâ         | 11764/120000 [03:34<31:32, 57.19it/s]

itr: 11750 lr: 9.775e-05 train loss: 0.000000 (dt=4.56s)


training:  10%|‚ñà         | 12014/120000 [03:39<31:28, 57.18it/s]

itr: 12000 lr: 9.765e-05 train loss: 0.000000 (dt=4.56s)


training:  10%|‚ñà         | 12264/120000 [03:43<31:23, 57.19it/s]

itr: 12250 lr: 9.755e-05 train loss: 0.000000 (dt=4.56s)


training:  10%|‚ñà         | 12515/120000 [03:48<31:19, 57.20it/s]

itr: 12500 lr: 9.745e-05 train loss: 0.000000 (dt=4.56s)


training:  11%|‚ñà         | 12764/120000 [03:52<31:14, 57.19it/s]

itr: 12750 lr: 9.734e-05 train loss: 0.000000 (dt=4.56s)


training:  11%|‚ñà         | 13014/120000 [03:57<31:10, 57.21it/s]

itr: 13000 lr: 9.724e-05 train loss: 0.000000 (dt=4.56s)


training:  11%|‚ñà         | 13264/120000 [04:02<31:06, 57.19it/s]

itr: 13250 lr: 9.713e-05 train loss: 0.000000 (dt=4.56s)


training:  11%|‚ñà‚ñè        | 13514/120000 [04:06<31:02, 57.19it/s]

itr: 13500 lr: 9.702e-05 train loss: 0.000000 (dt=4.56s)


training:  11%|‚ñà‚ñè        | 13764/120000 [04:11<30:57, 57.20it/s]

itr: 13750 lr: 9.691e-05 train loss: 0.000000 (dt=4.56s)


training:  12%|‚ñà‚ñè        | 14014/120000 [04:15<30:53, 57.17it/s]

itr: 14000 lr: 9.679e-05 train loss: 0.000000 (dt=4.56s)


training:  12%|‚ñà‚ñè        | 14264/120000 [04:20<30:49, 57.18it/s]

itr: 14250 lr: 9.668e-05 train loss: 0.000000 (dt=4.56s)


training:  12%|‚ñà‚ñè        | 14514/120000 [04:24<30:44, 57.20it/s]

itr: 14500 lr: 9.656e-05 train loss: 0.000000 (dt=4.56s)


training:  12%|‚ñà‚ñè        | 14764/120000 [04:29<30:39, 57.21it/s]

itr: 14750 lr: 9.644e-05 train loss: 0.000000 (dt=4.56s)


training:  13%|‚ñà‚ñé        | 15014/120000 [04:33<30:35, 57.18it/s]

itr: 15000 lr: 9.632e-05 train loss: 0.000000 (dt=4.56s)


training:  13%|‚ñà‚ñé        | 15264/120000 [04:38<30:31, 57.19it/s]

itr: 15250 lr: 9.619e-05 train loss: 0.000000 (dt=4.56s)


training:  13%|‚ñà‚ñé        | 15514/120000 [04:43<30:26, 57.19it/s]

itr: 15500 lr: 9.607e-05 train loss: 0.000000 (dt=4.56s)


training:  13%|‚ñà‚ñé        | 15764/120000 [04:47<30:23, 57.17it/s]

itr: 15750 lr: 9.594e-05 train loss: 0.000000 (dt=4.56s)


training:  13%|‚ñà‚ñé        | 16014/120000 [04:52<30:17, 57.21it/s]

itr: 16000 lr: 9.581e-05 train loss: 0.000000 (dt=4.56s)


training:  14%|‚ñà‚ñé        | 16264/120000 [04:56<30:13, 57.22it/s]

itr: 16250 lr: 9.568e-05 train loss: 0.000000 (dt=4.56s)


training:  14%|‚ñà‚ñç        | 16515/120000 [05:01<30:11, 57.13it/s]

itr: 16500 lr: 9.555e-05 train loss: 0.000000 (dt=4.56s)


training:  14%|‚ñà‚ñç        | 16764/120000 [05:05<30:05, 57.19it/s]

itr: 16750 lr: 9.541e-05 train loss: 0.000000 (dt=4.56s)


training:  14%|‚ñà‚ñç        | 17014/120000 [05:10<30:01, 57.17it/s]

itr: 17000 lr: 9.527e-05 train loss: 0.000000 (dt=4.56s)


training:  14%|‚ñà‚ñç        | 17264/120000 [05:15<29:56, 57.19it/s]

itr: 17250 lr: 9.513e-05 train loss: 0.000000 (dt=4.56s)


training:  15%|‚ñà‚ñç        | 17514/120000 [05:19<29:54, 57.11it/s]

itr: 17500 lr: 9.499e-05 train loss: 0.000000 (dt=4.56s)


training:  15%|‚ñà‚ñç        | 17765/120000 [05:24<29:48, 57.16it/s]

itr: 17750 lr: 9.485e-05 train loss: 0.000000 (dt=4.56s)


training:  15%|‚ñà‚ñå        | 18014/120000 [05:28<29:43, 57.18it/s]

itr: 18000 lr: 9.470e-05 train loss: 0.000000 (dt=4.56s)


training:  15%|‚ñà‚ñå        | 18264/120000 [05:33<29:38, 57.21it/s]

itr: 18250 lr: 9.456e-05 train loss: 0.000000 (dt=4.56s)


training:  15%|‚ñà‚ñå        | 18514/120000 [05:37<29:35, 57.17it/s]

itr: 18500 lr: 9.441e-05 train loss: 0.000000 (dt=4.56s)


training:  16%|‚ñà‚ñå        | 18764/120000 [05:42<29:29, 57.20it/s]

itr: 18750 lr: 9.426e-05 train loss: 0.000000 (dt=4.56s)


training:  16%|‚ñà‚ñå        | 19015/120000 [05:46<29:24, 57.22it/s]

itr: 19000 lr: 9.411e-05 train loss: 0.000000 (dt=4.56s)


training:  16%|‚ñà‚ñå        | 19264/120000 [05:51<29:21, 57.19it/s]

itr: 19250 lr: 9.395e-05 train loss: 0.000000 (dt=4.56s)


training:  16%|‚ñà‚ñã        | 19514/120000 [05:56<29:18, 57.15it/s]

itr: 19500 lr: 9.379e-05 train loss: 0.000000 (dt=4.56s)


training:  16%|‚ñà‚ñã        | 19764/120000 [06:00<29:12, 57.19it/s]

itr: 19750 lr: 9.364e-05 train loss: 0.000000 (dt=4.56s)


training:  17%|‚ñà‚ñã        | 20014/120000 [06:05<29:30, 56.46it/s]

itr: 20000 lr: 9.348e-05 train loss: 0.000000 (dt=4.56s)
saved checkpoint: ./saved_models_grid_bs8192_20260103_075004/Checkpoint_N32_L1_dup0_iters20001.pt


training:  17%|‚ñà‚ñã        | 20264/120000 [06:09<29:04, 57.17it/s]

itr: 20250 lr: 9.331e-05 train loss: 0.000000 (dt=4.57s)


training:  17%|‚ñà‚ñã        | 20514/120000 [06:14<28:59, 57.19it/s]

itr: 20500 lr: 9.315e-05 train loss: 0.000000 (dt=4.56s)


training:  17%|‚ñà‚ñã        | 20764/120000 [06:18<28:55, 57.18it/s]

itr: 20750 lr: 9.298e-05 train loss: 0.000000 (dt=4.56s)


training:  18%|‚ñà‚ñä        | 21014/120000 [06:23<28:51, 57.18it/s]

itr: 21000 lr: 9.282e-05 train loss: 0.000000 (dt=4.56s)


training:  18%|‚ñà‚ñä        | 21264/120000 [06:28<28:46, 57.17it/s]

itr: 21250 lr: 9.265e-05 train loss: 0.000000 (dt=4.56s)


training:  18%|‚ñà‚ñä        | 21514/120000 [06:32<28:42, 57.18it/s]

itr: 21500 lr: 9.248e-05 train loss: 0.000000 (dt=4.56s)


training:  18%|‚ñà‚ñä        | 21764/120000 [06:37<28:37, 57.19it/s]

itr: 21750 lr: 9.230e-05 train loss: 0.000000 (dt=4.56s)


training:  18%|‚ñà‚ñä        | 22014/120000 [06:41<28:33, 57.20it/s]

itr: 22000 lr: 9.213e-05 train loss: 0.000000 (dt=4.56s)


training:  19%|‚ñà‚ñä        | 22264/120000 [06:46<28:28, 57.22it/s]

itr: 22250 lr: 9.195e-05 train loss: 0.000000 (dt=4.56s)


training:  19%|‚ñà‚ñâ        | 22515/120000 [06:50<28:27, 57.09it/s]

itr: 22500 lr: 9.177e-05 train loss: 0.000000 (dt=4.56s)


training:  19%|‚ñà‚ñâ        | 22764/120000 [06:55<28:20, 57.18it/s]

itr: 22750 lr: 9.159e-05 train loss: 0.000000 (dt=4.56s)


training:  19%|‚ñà‚ñâ        | 23014/120000 [06:59<28:15, 57.19it/s]

itr: 23000 lr: 9.141e-05 train loss: 0.000000 (dt=4.56s)


training:  19%|‚ñà‚ñâ        | 23264/120000 [07:04<28:11, 57.18it/s]

itr: 23250 lr: 9.123e-05 train loss: 0.000000 (dt=4.56s)


training:  20%|‚ñà‚ñâ        | 23515/120000 [07:09<28:07, 57.19it/s]

itr: 23500 lr: 9.104e-05 train loss: 0.000000 (dt=4.56s)


training:  20%|‚ñà‚ñâ        | 23764/120000 [07:13<28:02, 57.21it/s]

itr: 23750 lr: 9.086e-05 train loss: 0.000000 (dt=4.56s)


training:  20%|‚ñà‚ñà        | 24014/120000 [07:18<27:58, 57.19it/s]

itr: 24000 lr: 9.067e-05 train loss: 0.000000 (dt=4.56s)


training:  20%|‚ñà‚ñà        | 24264/120000 [07:22<27:54, 57.19it/s]

itr: 24250 lr: 9.048e-05 train loss: 0.000000 (dt=4.56s)


training:  20%|‚ñà‚ñà        | 24514/120000 [07:27<27:49, 57.18it/s]

itr: 24500 lr: 9.029e-05 train loss: 0.000000 (dt=4.56s)


training:  21%|‚ñà‚ñà        | 24764/120000 [07:31<27:44, 57.21it/s]

itr: 24750 lr: 9.009e-05 train loss: 0.000000 (dt=4.56s)


training:  21%|‚ñà‚ñà        | 25014/120000 [07:36<27:41, 57.18it/s]

itr: 25000 lr: 8.990e-05 train loss: 0.000000 (dt=4.56s)


training:  21%|‚ñà‚ñà        | 25264/120000 [07:41<27:36, 57.20it/s]

itr: 25250 lr: 8.970e-05 train loss: 0.000000 (dt=4.56s)


training:  21%|‚ñà‚ñà‚ñè       | 25514/120000 [07:45<27:32, 57.19it/s]

itr: 25500 lr: 8.950e-05 train loss: 0.000000 (dt=4.56s)


training:  21%|‚ñà‚ñà‚ñè       | 25764/120000 [07:50<27:27, 57.22it/s]

itr: 25750 lr: 8.930e-05 train loss: 0.000000 (dt=4.56s)


training:  22%|‚ñà‚ñà‚ñè       | 26014/120000 [07:54<27:24, 57.16it/s]

itr: 26000 lr: 8.910e-05 train loss: 0.000000 (dt=4.56s)


training:  22%|‚ñà‚ñà‚ñè       | 26264/120000 [07:59<27:19, 57.17it/s]

itr: 26250 lr: 8.889e-05 train loss: 0.000000 (dt=4.56s)


training:  22%|‚ñà‚ñà‚ñè       | 26515/120000 [08:03<27:14, 57.20it/s]

itr: 26500 lr: 8.869e-05 train loss: 0.000000 (dt=4.56s)


training:  22%|‚ñà‚ñà‚ñè       | 26765/120000 [08:08<27:11, 57.15it/s]

itr: 26750 lr: 8.848e-05 train loss: 0.000000 (dt=4.56s)


training:  23%|‚ñà‚ñà‚ñé       | 27014/120000 [08:12<27:05, 57.20it/s]

itr: 27000 lr: 8.827e-05 train loss: 0.000000 (dt=4.56s)


training:  23%|‚ñà‚ñà‚ñé       | 27264/120000 [08:17<27:01, 57.19it/s]

itr: 27250 lr: 8.806e-05 train loss: 0.000000 (dt=4.56s)


training:  23%|‚ñà‚ñà‚ñé       | 27515/120000 [08:22<26:55, 57.25it/s]

itr: 27500 lr: 8.785e-05 train loss: 0.000000 (dt=4.56s)


training:  23%|‚ñà‚ñà‚ñé       | 27764/120000 [08:26<26:51, 57.22it/s]

itr: 27750 lr: 8.763e-05 train loss: 0.000000 (dt=4.56s)


training:  23%|‚ñà‚ñà‚ñé       | 28014/120000 [08:31<26:48, 57.19it/s]

itr: 28000 lr: 8.742e-05 train loss: 0.000000 (dt=4.56s)


training:  24%|‚ñà‚ñà‚ñé       | 28265/120000 [08:35<26:46, 57.09it/s]

itr: 28250 lr: 8.720e-05 train loss: 0.000000 (dt=4.56s)


training:  24%|‚ñà‚ñà‚ñç       | 28514/120000 [08:40<26:40, 57.17it/s]

itr: 28500 lr: 8.698e-05 train loss: 0.000000 (dt=4.56s)


training:  24%|‚ñà‚ñà‚ñç       | 28764/120000 [08:44<26:34, 57.20it/s]

itr: 28750 lr: 8.676e-05 train loss: 0.000000 (dt=4.56s)


training:  24%|‚ñà‚ñà‚ñç       | 29014/120000 [08:49<26:30, 57.20it/s]

itr: 29000 lr: 8.654e-05 train loss: 0.000000 (dt=4.56s)


training:  24%|‚ñà‚ñà‚ñç       | 29265/120000 [08:54<26:27, 57.14it/s]

itr: 29250 lr: 8.632e-05 train loss: 0.000000 (dt=4.56s)


training:  25%|‚ñà‚ñà‚ñç       | 29514/120000 [08:58<26:22, 57.18it/s]

itr: 29500 lr: 8.609e-05 train loss: 0.000000 (dt=4.56s)


training:  25%|‚ñà‚ñà‚ñç       | 29764/120000 [09:03<26:16, 57.22it/s]

itr: 29750 lr: 8.587e-05 train loss: 0.000000 (dt=4.56s)


training:  25%|‚ñà‚ñà‚ñå       | 30014/120000 [09:07<26:13, 57.18it/s]

itr: 30000 lr: 8.564e-05 train loss: 0.000000 (dt=4.56s)


training:  25%|‚ñà‚ñà‚ñå       | 30264/120000 [09:12<26:08, 57.20it/s]

itr: 30250 lr: 8.541e-05 train loss: 0.000000 (dt=4.56s)


training:  25%|‚ñà‚ñà‚ñå       | 30514/120000 [09:16<26:04, 57.18it/s]

itr: 30500 lr: 8.518e-05 train loss: 0.000000 (dt=4.56s)


training:  26%|‚ñà‚ñà‚ñå       | 30765/120000 [09:21<26:02, 57.12it/s]

itr: 30750 lr: 8.495e-05 train loss: 0.000000 (dt=4.56s)


training:  26%|‚ñà‚ñà‚ñå       | 31014/120000 [09:26<25:56, 57.18it/s]

itr: 31000 lr: 8.471e-05 train loss: 0.000000 (dt=4.56s)


training:  26%|‚ñà‚ñà‚ñå       | 31264/120000 [09:30<25:51, 57.21it/s]

itr: 31250 lr: 8.448e-05 train loss: 0.000000 (dt=4.56s)


training:  26%|‚ñà‚ñà‚ñã       | 31514/120000 [09:35<25:47, 57.19it/s]

itr: 31500 lr: 8.424e-05 train loss: 0.000000 (dt=4.56s)


training:  26%|‚ñà‚ñà‚ñã       | 31764/120000 [09:39<25:42, 57.20it/s]

itr: 31750 lr: 8.400e-05 train loss: 0.000000 (dt=4.56s)


training:  27%|‚ñà‚ñà‚ñã       | 32015/120000 [09:44<25:37, 57.23it/s]

itr: 32000 lr: 8.376e-05 train loss: 0.000000 (dt=4.56s)


training:  27%|‚ñà‚ñà‚ñã       | 32264/120000 [09:48<25:34, 57.18it/s]

itr: 32250 lr: 8.352e-05 train loss: 0.000000 (dt=4.56s)


training:  27%|‚ñà‚ñà‚ñã       | 32514/120000 [09:53<25:30, 57.16it/s]

itr: 32500 lr: 8.328e-05 train loss: 0.000000 (dt=4.56s)


training:  27%|‚ñà‚ñà‚ñã       | 32764/120000 [09:57<25:25, 57.18it/s]

itr: 32750 lr: 8.304e-05 train loss: 0.000000 (dt=4.56s)


training:  28%|‚ñà‚ñà‚ñä       | 33014/120000 [10:02<25:21, 57.19it/s]

itr: 33000 lr: 8.279e-05 train loss: 0.000000 (dt=4.56s)


training:  28%|‚ñà‚ñà‚ñä       | 33264/120000 [10:07<25:16, 57.20it/s]

itr: 33250 lr: 8.254e-05 train loss: 0.000000 (dt=4.56s)


training:  28%|‚ñà‚ñà‚ñä       | 33514/120000 [10:11<25:11, 57.20it/s]

itr: 33500 lr: 8.230e-05 train loss: 0.000000 (dt=4.56s)


training:  28%|‚ñà‚ñà‚ñä       | 33764/120000 [10:16<25:08, 57.18it/s]

itr: 33750 lr: 8.205e-05 train loss: 0.000000 (dt=4.56s)


training:  28%|‚ñà‚ñà‚ñä       | 34014/120000 [10:20<25:03, 57.19it/s]

itr: 34000 lr: 8.180e-05 train loss: 0.000000 (dt=4.56s)


training:  29%|‚ñà‚ñà‚ñä       | 34264/120000 [10:25<24:59, 57.19it/s]

itr: 34250 lr: 8.154e-05 train loss: 0.000000 (dt=4.56s)


training:  29%|‚ñà‚ñà‚ñâ       | 34515/120000 [10:29<24:56, 57.14it/s]

itr: 34500 lr: 8.129e-05 train loss: 0.000000 (dt=4.56s)


training:  29%|‚ñà‚ñà‚ñâ       | 34764/120000 [10:34<24:50, 57.19it/s]

itr: 34750 lr: 8.104e-05 train loss: 0.000000 (dt=4.56s)


training:  29%|‚ñà‚ñà‚ñâ       | 35014/120000 [10:39<24:45, 57.20it/s]

itr: 35000 lr: 8.078e-05 train loss: 0.000000 (dt=4.56s)


training:  29%|‚ñà‚ñà‚ñâ       | 35264/120000 [10:43<24:41, 57.20it/s]

itr: 35250 lr: 8.052e-05 train loss: 0.000000 (dt=4.56s)


training:  30%|‚ñà‚ñà‚ñâ       | 35514/120000 [10:48<24:37, 57.18it/s]

itr: 35500 lr: 8.026e-05 train loss: 0.000000 (dt=4.56s)


training:  30%|‚ñà‚ñà‚ñâ       | 35764/120000 [10:52<24:33, 57.18it/s]

itr: 35750 lr: 8.000e-05 train loss: 0.000000 (dt=4.56s)


training:  30%|‚ñà‚ñà‚ñà       | 36014/120000 [10:57<24:28, 57.18it/s]

itr: 36000 lr: 7.974e-05 train loss: 0.000000 (dt=4.56s)


training:  30%|‚ñà‚ñà‚ñà       | 36264/120000 [11:01<24:23, 57.21it/s]

itr: 36250 lr: 7.948e-05 train loss: 0.000000 (dt=4.56s)


training:  30%|‚ñà‚ñà‚ñà       | 36515/120000 [11:06<24:21, 57.12it/s]

itr: 36500 lr: 7.922e-05 train loss: 0.000000 (dt=4.56s)


training:  31%|‚ñà‚ñà‚ñà       | 36764/120000 [11:10<24:15, 57.18it/s]

itr: 36750 lr: 7.895e-05 train loss: 0.000000 (dt=4.56s)


training:  31%|‚ñà‚ñà‚ñà       | 37014/120000 [11:15<24:10, 57.20it/s]

itr: 37000 lr: 7.868e-05 train loss: 0.000000 (dt=4.56s)


training:  31%|‚ñà‚ñà‚ñà       | 37265/120000 [11:20<24:07, 57.17it/s]

itr: 37250 lr: 7.842e-05 train loss: 0.000000 (dt=4.56s)


training:  31%|‚ñà‚ñà‚ñà‚ñè      | 37514/120000 [11:24<24:02, 57.17it/s]

itr: 37500 lr: 7.815e-05 train loss: 0.000000 (dt=4.56s)


training:  31%|‚ñà‚ñà‚ñà‚ñè      | 37764/120000 [11:29<23:57, 57.20it/s]

itr: 37750 lr: 7.788e-05 train loss: 0.000000 (dt=4.56s)


training:  32%|‚ñà‚ñà‚ñà‚ñè      | 38015/120000 [11:33<23:54, 57.17it/s]

itr: 38000 lr: 7.761e-05 train loss: 0.000000 (dt=4.56s)


training:  32%|‚ñà‚ñà‚ñà‚ñè      | 38264/120000 [11:38<23:49, 57.19it/s]

itr: 38250 lr: 7.734e-05 train loss: 0.000000 (dt=4.56s)


training:  32%|‚ñà‚ñà‚ñà‚ñè      | 38514/120000 [11:42<23:44, 57.19it/s]

itr: 38500 lr: 7.706e-05 train loss: 0.000000 (dt=4.56s)


training:  32%|‚ñà‚ñà‚ñà‚ñè      | 38764/120000 [11:47<23:40, 57.17it/s]

itr: 38750 lr: 7.679e-05 train loss: 0.000000 (dt=4.56s)


training:  33%|‚ñà‚ñà‚ñà‚ñé      | 39014/120000 [11:52<23:36, 57.18it/s]

itr: 39000 lr: 7.651e-05 train loss: 0.000000 (dt=4.56s)


training:  33%|‚ñà‚ñà‚ñà‚ñé      | 39264/120000 [11:56<23:31, 57.19it/s]

itr: 39250 lr: 7.624e-05 train loss: 0.000000 (dt=4.56s)


training:  33%|‚ñà‚ñà‚ñà‚ñé      | 39514/120000 [12:01<23:26, 57.21it/s]

itr: 39500 lr: 7.596e-05 train loss: 0.000000 (dt=4.56s)


training:  33%|‚ñà‚ñà‚ñà‚ñé      | 39765/120000 [12:05<23:23, 57.19it/s]

itr: 39750 lr: 7.568e-05 train loss: 0.000000 (dt=4.56s)


training:  33%|‚ñà‚ñà‚ñà‚ñé      | 40014/120000 [12:10<23:34, 56.53it/s]

itr: 40000 lr: 7.540e-05 train loss: 0.000000 (dt=4.56s)
saved checkpoint: ./saved_models_grid_bs8192_20260103_075004/Checkpoint_N32_L1_dup0_iters40001.pt


training:  34%|‚ñà‚ñà‚ñà‚ñé      | 40264/120000 [12:14<23:13, 57.20it/s]

itr: 40250 lr: 7.512e-05 train loss: 0.000000 (dt=4.57s)


training:  34%|‚ñà‚ñà‚ñà‚ñç      | 40514/120000 [12:19<23:09, 57.20it/s]

itr: 40500 lr: 7.484e-05 train loss: 0.000000 (dt=4.56s)


training:  34%|‚ñà‚ñà‚ñà‚ñç      | 40764/120000 [12:23<23:05, 57.19it/s]

itr: 40750 lr: 7.455e-05 train loss: 0.000000 (dt=4.56s)


training:  34%|‚ñà‚ñà‚ñà‚ñç      | 41014/120000 [12:28<23:00, 57.20it/s]

itr: 41000 lr: 7.427e-05 train loss: 0.000000 (dt=4.56s)


training:  34%|‚ñà‚ñà‚ñà‚ñç      | 41264/120000 [12:33<22:57, 57.16it/s]

itr: 41250 lr: 7.398e-05 train loss: 0.000000 (dt=4.56s)


training:  35%|‚ñà‚ñà‚ñà‚ñç      | 41514/120000 [12:37<22:51, 57.21it/s]

itr: 41500 lr: 7.370e-05 train loss: 0.000000 (dt=4.56s)


training:  35%|‚ñà‚ñà‚ñà‚ñç      | 41764/120000 [12:42<22:49, 57.13it/s]

itr: 41750 lr: 7.341e-05 train loss: 0.000000 (dt=4.56s)


training:  35%|‚ñà‚ñà‚ñà‚ñå      | 42014/120000 [12:46<22:43, 57.19it/s]

itr: 42000 lr: 7.312e-05 train loss: 0.000000 (dt=4.56s)


training:  35%|‚ñà‚ñà‚ñà‚ñå      | 42264/120000 [12:51<22:39, 57.20it/s]

itr: 42250 lr: 7.283e-05 train loss: 0.000000 (dt=4.56s)


training:  35%|‚ñà‚ñà‚ñà‚ñå      | 42514/120000 [12:55<22:35, 57.14it/s]

itr: 42500 lr: 7.254e-05 train loss: 0.000000 (dt=4.56s)


training:  36%|‚ñà‚ñà‚ñà‚ñå      | 42764/120000 [13:00<22:29, 57.21it/s]

itr: 42750 lr: 7.225e-05 train loss: 0.000000 (dt=4.56s)


training:  36%|‚ñà‚ñà‚ñà‚ñå      | 43014/120000 [13:05<22:26, 57.19it/s]

itr: 43000 lr: 7.196e-05 train loss: 0.000000 (dt=4.56s)


training:  36%|‚ñà‚ñà‚ñà‚ñå      | 43264/120000 [13:09<22:21, 57.20it/s]

itr: 43250 lr: 7.167e-05 train loss: 0.000000 (dt=4.56s)


training:  36%|‚ñà‚ñà‚ñà‚ñã      | 43514/120000 [13:14<22:17, 57.19it/s]

itr: 43500 lr: 7.137e-05 train loss: 0.000000 (dt=4.56s)


training:  36%|‚ñà‚ñà‚ñà‚ñã      | 43764/120000 [13:18<22:12, 57.20it/s]

itr: 43750 lr: 7.108e-05 train loss: 0.000000 (dt=4.56s)


training:  37%|‚ñà‚ñà‚ñà‚ñã      | 44014/120000 [13:23<22:08, 57.19it/s]

itr: 44000 lr: 7.078e-05 train loss: 0.000000 (dt=4.56s)


training:  37%|‚ñà‚ñà‚ñà‚ñã      | 44264/120000 [13:27<22:04, 57.19it/s]

itr: 44250 lr: 7.049e-05 train loss: 0.000000 (dt=4.56s)


training:  37%|‚ñà‚ñà‚ñà‚ñã      | 44515/120000 [13:32<22:00, 57.15it/s]

itr: 44500 lr: 7.019e-05 train loss: 0.000000 (dt=4.56s)


training:  37%|‚ñà‚ñà‚ñà‚ñã      | 44764/120000 [13:36<21:56, 57.16it/s]

itr: 44750 lr: 6.989e-05 train loss: 0.000000 (dt=4.56s)


training:  38%|‚ñà‚ñà‚ñà‚ñä      | 45014/120000 [13:41<21:51, 57.19it/s]

itr: 45000 lr: 6.959e-05 train loss: 0.000000 (dt=4.56s)


training:  38%|‚ñà‚ñà‚ñà‚ñä      | 45264/120000 [13:46<21:46, 57.21it/s]

itr: 45250 lr: 6.929e-05 train loss: 0.000000 (dt=4.56s)


training:  38%|‚ñà‚ñà‚ñà‚ñä      | 45514/120000 [13:50<21:41, 57.21it/s]

itr: 45500 lr: 6.899e-05 train loss: 0.000000 (dt=4.56s)


training:  38%|‚ñà‚ñà‚ñà‚ñä      | 45764/120000 [13:55<21:37, 57.19it/s]

itr: 45750 lr: 6.869e-05 train loss: 0.000000 (dt=4.56s)


training:  38%|‚ñà‚ñà‚ñà‚ñä      | 46015/120000 [13:59<21:35, 57.11it/s]

itr: 46000 lr: 6.839e-05 train loss: 0.000000 (dt=4.56s)


training:  39%|‚ñà‚ñà‚ñà‚ñä      | 46264/120000 [14:04<21:29, 57.19it/s]

itr: 46250 lr: 6.809e-05 train loss: 0.000000 (dt=4.56s)


training:  39%|‚ñà‚ñà‚ñà‚ñâ      | 46514/120000 [14:08<21:24, 57.21it/s]

itr: 46500 lr: 6.778e-05 train loss: 0.000000 (dt=4.56s)


training:  39%|‚ñà‚ñà‚ñà‚ñâ      | 46764/120000 [14:13<21:20, 57.19it/s]

itr: 46750 lr: 6.748e-05 train loss: 0.000000 (dt=4.56s)


training:  39%|‚ñà‚ñà‚ñà‚ñâ      | 47014/120000 [14:18<21:16, 57.18it/s]

itr: 47000 lr: 6.717e-05 train loss: 0.000000 (dt=4.56s)


training:  39%|‚ñà‚ñà‚ñà‚ñâ      | 47264/120000 [14:22<21:12, 57.16it/s]

itr: 47250 lr: 6.687e-05 train loss: 0.000000 (dt=4.56s)


training:  40%|‚ñà‚ñà‚ñà‚ñâ      | 47515/120000 [14:27<21:09, 57.12it/s]

itr: 47500 lr: 6.656e-05 train loss: 0.000000 (dt=4.56s)


training:  40%|‚ñà‚ñà‚ñà‚ñâ      | 47764/120000 [14:31<21:03, 57.16it/s]

itr: 47750 lr: 6.625e-05 train loss: 0.000000 (dt=4.56s)


training:  40%|‚ñà‚ñà‚ñà‚ñà      | 48015/120000 [14:36<21:00, 57.11it/s]

itr: 48000 lr: 6.594e-05 train loss: 0.000000 (dt=4.56s)


training:  40%|‚ñà‚ñà‚ñà‚ñà      | 48264/120000 [14:40<20:54, 57.19it/s]

itr: 48250 lr: 6.564e-05 train loss: 0.000000 (dt=4.56s)


training:  40%|‚ñà‚ñà‚ñà‚ñà      | 48515/120000 [14:45<20:51, 57.12it/s]

itr: 48500 lr: 6.533e-05 train loss: 0.000000 (dt=4.56s)


training:  41%|‚ñà‚ñà‚ñà‚ñà      | 48764/120000 [14:49<20:45, 57.18it/s]

itr: 48750 lr: 6.502e-05 train loss: 0.000000 (dt=4.56s)


training:  41%|‚ñà‚ñà‚ñà‚ñà      | 49014/120000 [14:54<20:41, 57.16it/s]

itr: 49000 lr: 6.471e-05 train loss: 0.000000 (dt=4.56s)


training:  41%|‚ñà‚ñà‚ñà‚ñà      | 49264/120000 [14:59<20:36, 57.19it/s]

itr: 49250 lr: 6.439e-05 train loss: 0.000000 (dt=4.56s)


training:  41%|‚ñà‚ñà‚ñà‚ñà‚ñè     | 49514/120000 [15:03<20:32, 57.17it/s]

itr: 49500 lr: 6.408e-05 train loss: 0.000000 (dt=4.56s)


training:  41%|‚ñà‚ñà‚ñà‚ñà‚ñè     | 49764/120000 [15:08<20:28, 57.15it/s]

itr: 49750 lr: 6.377e-05 train loss: 0.000000 (dt=4.56s)


training:  42%|‚ñà‚ñà‚ñà‚ñà‚ñè     | 50014/120000 [15:12<20:23, 57.18it/s]

itr: 50000 lr: 6.346e-05 train loss: 0.000000 (dt=4.56s)


training:  42%|‚ñà‚ñà‚ñà‚ñà‚ñè     | 50265/120000 [15:17<20:20, 57.12it/s]

itr: 50250 lr: 6.314e-05 train loss: 0.000000 (dt=4.56s)


training:  42%|‚ñà‚ñà‚ñà‚ñà‚ñè     | 50514/120000 [15:21<20:15, 57.17it/s]

itr: 50500 lr: 6.283e-05 train loss: 0.000000 (dt=4.56s)


training:  42%|‚ñà‚ñà‚ñà‚ñà‚ñè     | 50764/120000 [15:26<20:11, 57.15it/s]

itr: 50750 lr: 6.252e-05 train loss: 0.000000 (dt=4.56s)


training:  43%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 51014/120000 [15:31<20:06, 57.19it/s]

itr: 51000 lr: 6.220e-05 train loss: 0.000000 (dt=4.56s)


training:  43%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 51264/120000 [15:35<20:02, 57.17it/s]

itr: 51250 lr: 6.189e-05 train loss: 0.000000 (dt=4.56s)


training:  43%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 51514/120000 [15:40<19:57, 57.17it/s]

itr: 51500 lr: 6.157e-05 train loss: 0.000000 (dt=4.56s)


training:  43%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 51764/120000 [15:44<19:53, 57.18it/s]

itr: 51750 lr: 6.125e-05 train loss: 0.000000 (dt=4.56s)


training:  43%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 52014/120000 [15:49<19:48, 57.19it/s]

itr: 52000 lr: 6.094e-05 train loss: 0.000000 (dt=4.56s)


training:  44%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 52264/120000 [15:53<19:44, 57.18it/s]

itr: 52250 lr: 6.062e-05 train loss: 0.000000 (dt=4.56s)


training:  44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 52514/120000 [15:58<19:39, 57.21it/s]

itr: 52500 lr: 6.030e-05 train loss: 0.000000 (dt=4.56s)


training:  44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 52764/120000 [16:03<19:35, 57.18it/s]

itr: 52750 lr: 5.998e-05 train loss: 0.000000 (dt=4.56s)


training:  44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 53014/120000 [16:07<19:31, 57.18it/s]

itr: 53000 lr: 5.966e-05 train loss: 0.000000 (dt=4.56s)


training:  44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 53264/120000 [16:12<19:26, 57.20it/s]

itr: 53250 lr: 5.934e-05 train loss: 0.000000 (dt=4.56s)


training:  45%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 53514/120000 [16:16<19:22, 57.18it/s]

itr: 53500 lr: 5.902e-05 train loss: 0.000000 (dt=4.56s)


training:  45%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 53764/120000 [16:21<19:17, 57.20it/s]

itr: 53750 lr: 5.870e-05 train loss: 0.000000 (dt=4.56s)


training:  45%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 54014/120000 [16:25<19:13, 57.19it/s]

itr: 54000 lr: 5.838e-05 train loss: 0.000000 (dt=4.56s)


training:  45%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 54264/120000 [16:30<19:09, 57.21it/s]

itr: 54250 lr: 5.806e-05 train loss: 0.000000 (dt=4.56s)


training:  45%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 54514/120000 [16:34<19:05, 57.19it/s]

itr: 54500 lr: 5.774e-05 train loss: 0.000000 (dt=4.56s)


training:  46%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 54764/120000 [16:39<19:00, 57.20it/s]

itr: 54750 lr: 5.742e-05 train loss: 0.000000 (dt=4.56s)


training:  46%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 55014/120000 [16:44<18:56, 57.17it/s]

itr: 55000 lr: 5.710e-05 train loss: 0.000000 (dt=4.56s)


training:  46%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 55264/120000 [16:48<18:51, 57.22it/s]

itr: 55250 lr: 5.678e-05 train loss: 0.000000 (dt=4.56s)


training:  46%|‚ñà‚ñà‚ñà‚ñà‚ñã     | 55514/120000 [16:53<18:47, 57.19it/s]

itr: 55500 lr: 5.646e-05 train loss: 0.000000 (dt=4.56s)


training:  46%|‚ñà‚ñà‚ñà‚ñà‚ñã     | 55764/120000 [16:57<18:43, 57.18it/s]

itr: 55750 lr: 5.613e-05 train loss: 0.000000 (dt=4.56s)


training:  47%|‚ñà‚ñà‚ñà‚ñà‚ñã     | 56014/120000 [17:02<18:37, 57.23it/s]

itr: 56000 lr: 5.581e-05 train loss: 0.000000 (dt=4.56s)


training:  47%|‚ñà‚ñà‚ñà‚ñà‚ñã     | 56264/120000 [17:06<18:34, 57.19it/s]

itr: 56250 lr: 5.549e-05 train loss: 0.000000 (dt=4.56s)


training:  47%|‚ñà‚ñà‚ñà‚ñà‚ñã     | 56514/120000 [17:11<18:30, 57.19it/s]

itr: 56500 lr: 5.517e-05 train loss: 0.000000 (dt=4.56s)


training:  47%|‚ñà‚ñà‚ñà‚ñà‚ñã     | 56764/120000 [17:16<18:25, 57.20it/s]

itr: 56750 lr: 5.484e-05 train loss: 0.000000 (dt=4.56s)


training:  48%|‚ñà‚ñà‚ñà‚ñà‚ñä     | 57015/120000 [17:20<18:22, 57.12it/s]

itr: 57000 lr: 5.452e-05 train loss: 0.000000 (dt=4.56s)


training:  48%|‚ñà‚ñà‚ñà‚ñà‚ñä     | 57264/120000 [17:25<18:17, 57.17it/s]

itr: 57250 lr: 5.420e-05 train loss: 0.000000 (dt=4.56s)


training:  48%|‚ñà‚ñà‚ñà‚ñà‚ñä     | 57514/120000 [17:29<18:12, 57.20it/s]

itr: 57500 lr: 5.387e-05 train loss: 0.000000 (dt=4.56s)


training:  48%|‚ñà‚ñà‚ñà‚ñà‚ñä     | 57765/120000 [17:34<18:09, 57.14it/s]

itr: 57750 lr: 5.355e-05 train loss: 0.000000 (dt=4.56s)


training:  48%|‚ñà‚ñà‚ñà‚ñà‚ñä     | 58014/120000 [17:38<18:03, 57.22it/s]

itr: 58000 lr: 5.322e-05 train loss: 0.000000 (dt=4.56s)


training:  49%|‚ñà‚ñà‚ñà‚ñà‚ñä     | 58264/120000 [17:43<17:59, 57.19it/s]

itr: 58250 lr: 5.290e-05 train loss: 0.000000 (dt=4.56s)


training:  49%|‚ñà‚ñà‚ñà‚ñà‚ñâ     | 58514/120000 [17:47<17:55, 57.18it/s]

itr: 58500 lr: 5.258e-05 train loss: 0.000000 (dt=4.56s)


training:  49%|‚ñà‚ñà‚ñà‚ñà‚ñâ     | 58764/120000 [17:52<17:50, 57.20it/s]

itr: 58750 lr: 5.225e-05 train loss: 0.000000 (dt=4.56s)


training:  49%|‚ñà‚ñà‚ñà‚ñà‚ñâ     | 59014/120000 [17:57<17:46, 57.19it/s]

itr: 59000 lr: 5.193e-05 train loss: 0.000000 (dt=4.56s)


training:  49%|‚ñà‚ñà‚ñà‚ñà‚ñâ     | 59264/120000 [18:01<17:41, 57.19it/s]

itr: 59250 lr: 5.160e-05 train loss: 0.000000 (dt=4.56s)


training:  50%|‚ñà‚ñà‚ñà‚ñà‚ñâ     | 59514/120000 [18:06<17:37, 57.20it/s]

itr: 59500 lr: 5.128e-05 train loss: 0.000000 (dt=4.56s)


training:  50%|‚ñà‚ñà‚ñà‚ñà‚ñâ     | 59764/120000 [18:10<17:33, 57.18it/s]

itr: 59750 lr: 5.095e-05 train loss: 0.000000 (dt=4.56s)


training:  50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 60015/120000 [18:15<17:44, 56.37it/s]

itr: 60000 lr: 5.063e-05 train loss: 0.000000 (dt=4.56s)
saved checkpoint: ./saved_models_grid_bs8192_20260103_075004/Checkpoint_N32_L1_dup0_iters60001.pt


training:  50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 60264/120000 [18:19<17:24, 57.20it/s]

itr: 60250 lr: 5.031e-05 train loss: 0.000000 (dt=4.57s)


training:  50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 60514/120000 [18:24<17:20, 57.17it/s]

itr: 60500 lr: 4.998e-05 train loss: 0.000000 (dt=4.56s)


training:  51%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 60764/120000 [18:29<17:15, 57.18it/s]

itr: 60750 lr: 4.966e-05 train loss: 0.000000 (dt=4.56s)


training:  51%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 61014/120000 [18:33<17:11, 57.19it/s]

itr: 61000 lr: 4.933e-05 train loss: 0.000000 (dt=4.56s)


training:  51%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 61265/120000 [18:38<17:07, 57.14it/s]

itr: 61250 lr: 4.901e-05 train loss: 0.000000 (dt=4.56s)


training:  51%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 61515/120000 [18:42<17:03, 57.13it/s]

itr: 61500 lr: 4.868e-05 train loss: 0.000000 (dt=4.56s)


training:  51%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 61764/120000 [18:47<16:58, 57.16it/s]

itr: 61750 lr: 4.836e-05 train loss: 0.000000 (dt=4.56s)


training:  52%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 62014/120000 [18:51<16:53, 57.20it/s]

itr: 62000 lr: 4.803e-05 train loss: 0.000000 (dt=4.56s)


training:  52%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 62265/120000 [18:56<16:50, 57.16it/s]

itr: 62250 lr: 4.771e-05 train loss: 0.000000 (dt=4.56s)


training:  52%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 62514/120000 [19:00<16:45, 57.18it/s]

itr: 62500 lr: 4.739e-05 train loss: 0.000000 (dt=4.56s)


training:  52%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 62764/120000 [19:05<16:40, 57.20it/s]

itr: 62750 lr: 4.706e-05 train loss: 0.000000 (dt=4.56s)


training:  53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 63015/120000 [19:10<16:36, 57.17it/s]

itr: 63000 lr: 4.674e-05 train loss: 0.000000 (dt=4.56s)


training:  53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 63264/120000 [19:14<16:32, 57.16it/s]

itr: 63250 lr: 4.642e-05 train loss: 0.000000 (dt=4.56s)


training:  53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 63514/120000 [19:19<16:28, 57.17it/s]

itr: 63500 lr: 4.609e-05 train loss: 0.000000 (dt=4.56s)


training:  53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 63764/120000 [19:23<16:23, 57.20it/s]

itr: 63750 lr: 4.577e-05 train loss: 0.000000 (dt=4.56s)


training:  53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 64014/120000 [19:28<16:19, 57.18it/s]

itr: 64000 lr: 4.545e-05 train loss: 0.000000 (dt=4.56s)


training:  54%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 64264/120000 [19:32<16:14, 57.20it/s]

itr: 64250 lr: 4.512e-05 train loss: 0.000000 (dt=4.56s)


training:  54%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç    | 64515/120000 [19:37<16:10, 57.15it/s]

itr: 64500 lr: 4.480e-05 train loss: 0.000000 (dt=4.56s)


training:  54%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç    | 64764/120000 [19:42<16:05, 57.19it/s]

itr: 64750 lr: 4.448e-05 train loss: 0.000000 (dt=4.56s)


training:  54%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç    | 65014/120000 [19:46<16:01, 57.17it/s]

itr: 65000 lr: 4.416e-05 train loss: 0.000000 (dt=4.56s)


training:  54%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç    | 65264/120000 [19:51<15:57, 57.19it/s]

itr: 65250 lr: 4.384e-05 train loss: 0.000000 (dt=4.56s)


training:  55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç    | 65515/120000 [19:55<15:53, 57.15it/s]

itr: 65500 lr: 4.351e-05 train loss: 0.000000 (dt=4.56s)


training:  55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç    | 65764/120000 [20:00<15:48, 57.17it/s]

itr: 65750 lr: 4.319e-05 train loss: 0.000000 (dt=4.56s)


training:  55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 66014/120000 [20:04<15:44, 57.17it/s]

itr: 66000 lr: 4.287e-05 train loss: 0.000000 (dt=4.56s)


training:  55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 66264/120000 [20:09<15:40, 57.12it/s]

itr: 66250 lr: 4.255e-05 train loss: 0.000000 (dt=4.56s)


training:  55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 66514/120000 [20:14<15:35, 57.19it/s]

itr: 66500 lr: 4.223e-05 train loss: 0.000000 (dt=4.56s)


training:  56%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 66764/120000 [20:18<15:30, 57.21it/s]

itr: 66750 lr: 4.191e-05 train loss: 0.000000 (dt=4.56s)


training:  56%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 67014/120000 [20:23<15:26, 57.20it/s]

itr: 67000 lr: 4.159e-05 train loss: 0.000000 (dt=4.56s)


training:  56%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 67264/120000 [20:27<15:22, 57.19it/s]

itr: 67250 lr: 4.127e-05 train loss: 0.000000 (dt=4.56s)


training:  56%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã    | 67514/120000 [20:32<15:17, 57.21it/s]

itr: 67500 lr: 4.095e-05 train loss: 0.000000 (dt=4.56s)


training:  56%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã    | 67764/120000 [20:36<15:13, 57.19it/s]

itr: 67750 lr: 4.064e-05 train loss: 0.000000 (dt=4.56s)


training:  57%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã    | 68014/120000 [20:41<15:08, 57.21it/s]

itr: 68000 lr: 4.032e-05 train loss: 0.000000 (dt=4.56s)


training:  57%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã    | 68265/120000 [20:45<15:05, 57.16it/s]

itr: 68250 lr: 4.000e-05 train loss: 0.000000 (dt=4.56s)


training:  57%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã    | 68514/120000 [20:50<15:00, 57.19it/s]

itr: 68500 lr: 3.968e-05 train loss: 0.000000 (dt=4.56s)


training:  57%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã    | 68765/120000 [20:55<14:56, 57.15it/s]

itr: 68750 lr: 3.937e-05 train loss: 0.000000 (dt=4.56s)


training:  58%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä    | 69014/120000 [20:59<14:51, 57.19it/s]

itr: 69000 lr: 3.905e-05 train loss: 0.000000 (dt=4.56s)


training:  58%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä    | 69265/120000 [21:04<14:48, 57.09it/s]

itr: 69250 lr: 3.874e-05 train loss: 0.000000 (dt=4.56s)


training:  58%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä    | 69514/120000 [21:08<14:42, 57.19it/s]

itr: 69500 lr: 3.842e-05 train loss: 0.000000 (dt=4.56s)


training:  58%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä    | 69764/120000 [21:13<14:38, 57.19it/s]

itr: 69750 lr: 3.811e-05 train loss: 0.000000 (dt=4.56s)


training:  58%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä    | 70014/120000 [21:17<14:34, 57.18it/s]

itr: 70000 lr: 3.779e-05 train loss: 0.000000 (dt=4.56s)


training:  59%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä    | 70264/120000 [21:22<14:29, 57.19it/s]

itr: 70250 lr: 3.748e-05 train loss: 0.000000 (dt=4.56s)


training:  59%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ    | 70514/120000 [21:27<14:25, 57.15it/s]

itr: 70500 lr: 3.717e-05 train loss: 0.000000 (dt=4.56s)


training:  59%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ    | 70764/120000 [21:31<14:20, 57.19it/s]

itr: 70750 lr: 3.685e-05 train loss: 0.000000 (dt=4.56s)


training:  59%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ    | 71014/120000 [21:36<14:16, 57.21it/s]

itr: 71000 lr: 3.654e-05 train loss: 0.000000 (dt=4.56s)


training:  59%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ    | 71264/120000 [21:40<14:12, 57.20it/s]

itr: 71250 lr: 3.623e-05 train loss: 0.000000 (dt=4.56s)


training:  60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ    | 71515/120000 [21:45<14:09, 57.10it/s]

itr: 71500 lr: 3.592e-05 train loss: 0.000000 (dt=4.56s)


training:  60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ    | 71764/120000 [21:49<14:03, 57.19it/s]

itr: 71750 lr: 3.561e-05 train loss: 0.000000 (dt=4.56s)


training:  60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 72015/120000 [21:54<13:59, 57.13it/s]

itr: 72000 lr: 3.530e-05 train loss: 0.000000 (dt=4.56s)


training:  60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 72264/120000 [21:58<13:55, 57.17it/s]

itr: 72250 lr: 3.499e-05 train loss: 0.000000 (dt=4.56s)


training:  60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 72514/120000 [22:03<13:50, 57.18it/s]

itr: 72500 lr: 3.469e-05 train loss: 0.000000 (dt=4.56s)


training:  61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 72764/120000 [22:08<13:45, 57.19it/s]

itr: 72750 lr: 3.438e-05 train loss: 0.000000 (dt=4.56s)


training:  61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 73014/120000 [22:12<13:41, 57.19it/s]

itr: 73000 lr: 3.407e-05 train loss: 0.000000 (dt=4.56s)


training:  61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 73265/120000 [22:17<13:37, 57.19it/s]

itr: 73250 lr: 3.377e-05 train loss: 0.000000 (dt=4.56s)


training:  61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 73514/120000 [22:21<13:32, 57.18it/s]

itr: 73500 lr: 3.346e-05 train loss: 0.000000 (dt=4.56s)


training:  61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 73764/120000 [22:26<13:28, 57.20it/s]

itr: 73750 lr: 3.316e-05 train loss: 0.000000 (dt=4.56s)


training:  62%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 74014/120000 [22:30<13:24, 57.18it/s]

itr: 74000 lr: 3.285e-05 train loss: 0.000000 (dt=4.56s)


training:  62%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 74264/120000 [22:35<13:19, 57.20it/s]

itr: 74250 lr: 3.255e-05 train loss: 0.000000 (dt=4.56s)


training:  62%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 74514/120000 [22:40<13:15, 57.20it/s]

itr: 74500 lr: 3.225e-05 train loss: 0.000000 (dt=4.56s)


training:  62%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 74765/120000 [22:44<13:12, 57.11it/s]

itr: 74750 lr: 3.195e-05 train loss: 0.000000 (dt=4.56s)


training:  63%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé   | 75014/120000 [22:49<13:06, 57.19it/s]

itr: 75000 lr: 3.165e-05 train loss: 0.000000 (dt=4.56s)


training:  63%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé   | 75264/120000 [22:53<13:02, 57.16it/s]

itr: 75250 lr: 3.135e-05 train loss: 0.000000 (dt=4.56s)


training:  63%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé   | 75515/120000 [22:58<12:58, 57.13it/s]

itr: 75500 lr: 3.105e-05 train loss: 0.000000 (dt=4.56s)


training:  63%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé   | 75764/120000 [23:02<12:53, 57.19it/s]

itr: 75750 lr: 3.075e-05 train loss: 0.000000 (dt=4.56s)


training:  63%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé   | 76014/120000 [23:07<12:48, 57.20it/s]

itr: 76000 lr: 3.045e-05 train loss: 0.000000 (dt=4.56s)


training:  64%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé   | 76264/120000 [23:11<12:44, 57.20it/s]

itr: 76250 lr: 3.016e-05 train loss: 0.000000 (dt=4.56s)


training:  64%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç   | 76514/120000 [23:16<12:40, 57.16it/s]

itr: 76500 lr: 2.986e-05 train loss: 0.000000 (dt=4.56s)


training:  64%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç   | 76764/120000 [23:21<12:36, 57.18it/s]

itr: 76750 lr: 2.957e-05 train loss: 0.000000 (dt=4.56s)


training:  64%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç   | 77014/120000 [23:25<12:31, 57.17it/s]

itr: 77000 lr: 2.927e-05 train loss: 0.000000 (dt=4.56s)


training:  64%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç   | 77264/120000 [23:30<12:27, 57.20it/s]

itr: 77250 lr: 2.898e-05 train loss: 0.000000 (dt=4.56s)


training:  65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç   | 77514/120000 [23:34<12:23, 57.18it/s]

itr: 77500 lr: 2.869e-05 train loss: 0.000000 (dt=4.56s)


training:  65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç   | 77764/120000 [23:39<12:18, 57.19it/s]

itr: 77750 lr: 2.840e-05 train loss: 0.000000 (dt=4.56s)


training:  65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 78014/120000 [23:43<12:14, 57.17it/s]

itr: 78000 lr: 2.811e-05 train loss: 0.000000 (dt=4.56s)


training:  65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 78264/120000 [23:48<12:10, 57.17it/s]

itr: 78250 lr: 2.782e-05 train loss: 0.000000 (dt=4.56s)


training:  65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 78514/120000 [23:53<12:05, 57.19it/s]

itr: 78500 lr: 2.753e-05 train loss: 0.000000 (dt=4.56s)


training:  66%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 78764/120000 [23:57<12:01, 57.18it/s]

itr: 78750 lr: 2.724e-05 train loss: 0.000000 (dt=4.56s)


training:  66%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 79014/120000 [24:02<11:56, 57.19it/s]

itr: 79000 lr: 2.696e-05 train loss: 0.000000 (dt=4.56s)


training:  66%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 79264/120000 [24:06<11:52, 57.21it/s]

itr: 79250 lr: 2.667e-05 train loss: 0.000000 (dt=4.56s)


training:  66%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã   | 79515/120000 [24:11<11:48, 57.15it/s]

itr: 79500 lr: 2.639e-05 train loss: 0.000000 (dt=4.56s)


training:  66%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã   | 79764/120000 [24:15<11:43, 57.17it/s]

itr: 79750 lr: 2.611e-05 train loss: 0.000000 (dt=4.56s)


training:  67%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã   | 80014/120000 [24:20<11:48, 56.43it/s]

itr: 80000 lr: 2.582e-05 train loss: 0.000000 (dt=4.56s)
saved checkpoint: ./saved_models_grid_bs8192_20260103_075004/Checkpoint_N32_L1_dup0_iters80001.pt


training:  67%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã   | 80264/120000 [24:24<11:34, 57.19it/s]

itr: 80250 lr: 2.554e-05 train loss: 0.000000 (dt=4.57s)


training:  67%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã   | 80515/120000 [24:29<11:31, 57.13it/s]

itr: 80500 lr: 2.526e-05 train loss: 0.000000 (dt=4.56s)


training:  67%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã   | 80764/120000 [24:34<11:26, 57.18it/s]

itr: 80750 lr: 2.499e-05 train loss: 0.000000 (dt=4.56s)


training:  68%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä   | 81014/120000 [24:38<11:21, 57.19it/s]

itr: 81000 lr: 2.471e-05 train loss: 0.000000 (dt=4.56s)


training:  68%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä   | 81264/120000 [24:43<11:18, 57.12it/s]

itr: 81250 lr: 2.443e-05 train loss: 0.000000 (dt=4.56s)


training:  68%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä   | 81514/120000 [24:47<11:13, 57.18it/s]

itr: 81500 lr: 2.416e-05 train loss: 0.000000 (dt=4.56s)


training:  68%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä   | 81764/120000 [24:52<11:09, 57.10it/s]

itr: 81750 lr: 2.388e-05 train loss: 0.000000 (dt=4.56s)


training:  68%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä   | 82015/120000 [24:56<11:04, 57.12it/s]

itr: 82000 lr: 2.361e-05 train loss: 0.000000 (dt=4.56s)


training:  69%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä   | 82264/120000 [25:01<10:59, 57.19it/s]

itr: 82250 lr: 2.334e-05 train loss: 0.000000 (dt=4.56s)


training:  69%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 82514/120000 [25:06<10:55, 57.21it/s]

itr: 82500 lr: 2.307e-05 train loss: 0.000000 (dt=4.56s)


training:  69%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 82764/120000 [25:10<10:51, 57.17it/s]

itr: 82750 lr: 2.280e-05 train loss: 0.000000 (dt=4.56s)


training:  69%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 83015/120000 [25:15<10:46, 57.16it/s]

itr: 83000 lr: 2.253e-05 train loss: 0.000000 (dt=4.56s)


training:  69%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 83264/120000 [25:19<10:42, 57.17it/s]

itr: 83250 lr: 2.226e-05 train loss: 0.000000 (dt=4.56s)


training:  70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 83514/120000 [25:24<10:37, 57.19it/s]

itr: 83500 lr: 2.200e-05 train loss: 0.000000 (dt=4.56s)


training:  70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 83765/120000 [25:28<10:33, 57.22it/s]

itr: 83750 lr: 2.173e-05 train loss: 0.000000 (dt=4.56s)


training:  70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 84014/120000 [25:33<10:29, 57.21it/s]

itr: 84000 lr: 2.147e-05 train loss: 0.000000 (dt=4.56s)


training:  70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 84264/120000 [25:37<10:25, 57.15it/s]

itr: 84250 lr: 2.121e-05 train loss: 0.000000 (dt=4.56s)


training:  70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 84514/120000 [25:42<10:20, 57.19it/s]

itr: 84500 lr: 2.094e-05 train loss: 0.000000 (dt=4.56s)


training:  71%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 84764/120000 [25:47<10:16, 57.18it/s]

itr: 84750 lr: 2.068e-05 train loss: 0.000000 (dt=4.56s)


training:  71%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 85014/120000 [25:51<10:11, 57.18it/s]

itr: 85000 lr: 2.043e-05 train loss: 0.000000 (dt=4.56s)


training:  71%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 85264/120000 [25:56<10:07, 57.20it/s]

itr: 85250 lr: 2.017e-05 train loss: 0.000000 (dt=4.56s)


training:  71%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè  | 85515/120000 [26:00<10:03, 57.13it/s]

itr: 85500 lr: 1.991e-05 train loss: 0.000000 (dt=4.56s)


training:  71%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè  | 85764/120000 [26:05<09:58, 57.22it/s]

itr: 85750 lr: 1.966e-05 train loss: 0.000000 (dt=4.56s)


training:  72%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè  | 86014/120000 [26:09<09:54, 57.19it/s]

itr: 86000 lr: 1.941e-05 train loss: 0.000000 (dt=4.56s)


training:  72%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè  | 86264/120000 [26:14<09:49, 57.19it/s]

itr: 86250 lr: 1.915e-05 train loss: 0.000000 (dt=4.56s)


training:  72%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè  | 86514/120000 [26:19<09:45, 57.18it/s]

itr: 86500 lr: 1.890e-05 train loss: 0.000000 (dt=4.56s)


training:  72%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè  | 86764/120000 [26:23<09:41, 57.19it/s]

itr: 86750 lr: 1.865e-05 train loss: 0.000000 (dt=4.56s)


training:  73%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé  | 87014/120000 [26:28<09:36, 57.17it/s]

itr: 87000 lr: 1.841e-05 train loss: 0.000000 (dt=4.56s)


training:  73%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé  | 87264/120000 [26:32<09:32, 57.16it/s]

itr: 87250 lr: 1.816e-05 train loss: 0.000000 (dt=4.56s)


training:  73%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé  | 87515/120000 [26:37<09:28, 57.15it/s]

itr: 87500 lr: 1.792e-05 train loss: 0.000000 (dt=4.56s)


training:  73%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé  | 87764/120000 [26:41<09:23, 57.18it/s]

itr: 87750 lr: 1.767e-05 train loss: 0.000000 (dt=4.56s)


training:  73%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé  | 88014/120000 [26:46<09:19, 57.21it/s]

itr: 88000 lr: 1.743e-05 train loss: 0.000000 (dt=4.56s)


training:  74%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé  | 88264/120000 [26:51<09:15, 57.17it/s]

itr: 88250 lr: 1.719e-05 train loss: 0.000000 (dt=4.56s)


training:  74%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç  | 88514/120000 [26:55<09:10, 57.22it/s]

itr: 88500 lr: 1.695e-05 train loss: 0.000000 (dt=4.56s)


training:  74%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç  | 88764/120000 [27:00<09:05, 57.23it/s]

itr: 88750 lr: 1.671e-05 train loss: 0.000000 (dt=4.56s)


training:  74%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç  | 89014/120000 [27:04<09:01, 57.20it/s]

itr: 89000 lr: 1.648e-05 train loss: 0.000000 (dt=4.56s)


training:  74%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç  | 89265/120000 [27:09<08:57, 57.13it/s]

itr: 89250 lr: 1.624e-05 train loss: 0.000000 (dt=4.56s)


training:  75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç  | 89514/120000 [27:13<08:53, 57.18it/s]

itr: 89500 lr: 1.601e-05 train loss: 0.000000 (dt=4.56s)


training:  75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç  | 89764/120000 [27:18<08:48, 57.17it/s]

itr: 89750 lr: 1.577e-05 train loss: 0.000000 (dt=4.56s)


training:  75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 90014/120000 [27:22<08:44, 57.17it/s]

itr: 90000 lr: 1.554e-05 train loss: 0.000000 (dt=4.56s)


training:  75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 90264/120000 [27:27<08:40, 57.17it/s]

itr: 90250 lr: 1.532e-05 train loss: 0.000000 (dt=4.56s)


training:  75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 90515/120000 [27:32<08:36, 57.14it/s]

itr: 90500 lr: 1.509e-05 train loss: 0.000000 (dt=4.56s)


training:  76%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 90764/120000 [27:36<08:31, 57.17it/s]

itr: 90750 lr: 1.486e-05 train loss: 0.000000 (dt=4.56s)


training:  76%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 91014/120000 [27:41<08:27, 57.16it/s]

itr: 91000 lr: 1.464e-05 train loss: 0.000000 (dt=4.56s)


training:  76%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 91264/120000 [27:45<08:22, 57.16it/s]

itr: 91250 lr: 1.441e-05 train loss: 0.000000 (dt=4.56s)


training:  76%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã  | 91515/120000 [27:50<08:18, 57.19it/s]

itr: 91500 lr: 1.419e-05 train loss: 0.000000 (dt=4.56s)


training:  76%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã  | 91764/120000 [27:54<08:13, 57.20it/s]

itr: 91750 lr: 1.397e-05 train loss: 0.000000 (dt=4.56s)


training:  77%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã  | 92014/120000 [27:59<08:09, 57.17it/s]

itr: 92000 lr: 1.375e-05 train loss: 0.000000 (dt=4.56s)


training:  77%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã  | 92264/120000 [28:04<08:04, 57.20it/s]

itr: 92250 lr: 1.354e-05 train loss: 0.000000 (dt=4.56s)


training:  77%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã  | 92515/120000 [28:08<08:00, 57.16it/s]

itr: 92500 lr: 1.332e-05 train loss: 0.000000 (dt=4.56s)


training:  77%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã  | 92765/120000 [28:13<07:55, 57.27it/s]

itr: 92750 lr: 1.311e-05 train loss: 0.000000 (dt=4.56s)


training:  78%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 93015/120000 [28:17<07:57, 56.57it/s]

itr: 93000 lr: 1.290e-05 train loss: 0.000000 (dt=4.56s)


training:  78%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 93264/120000 [28:22<07:47, 57.16it/s]

itr: 93250 lr: 1.269e-05 train loss: 0.000000 (dt=4.56s)


training:  78%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 93514/120000 [28:26<07:43, 57.19it/s]

itr: 93500 lr: 1.248e-05 train loss: 0.000000 (dt=4.56s)


training:  78%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 93764/120000 [28:31<07:38, 57.17it/s]

itr: 93750 lr: 1.227e-05 train loss: 0.000000 (dt=4.56s)


training:  78%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 94014/120000 [28:35<07:34, 57.19it/s]

itr: 94000 lr: 1.207e-05 train loss: 0.000000 (dt=4.56s)


training:  79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 94264/120000 [28:40<07:29, 57.20it/s]

itr: 94250 lr: 1.186e-05 train loss: 0.000000 (dt=4.56s)


training:  79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 94514/120000 [28:45<07:25, 57.17it/s]

itr: 94500 lr: 1.166e-05 train loss: 0.000000 (dt=4.56s)


training:  79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 94764/120000 [28:49<07:21, 57.20it/s]

itr: 94750 lr: 1.146e-05 train loss: 0.000000 (dt=4.56s)


training:  79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 95014/120000 [28:54<07:16, 57.18it/s]

itr: 95000 lr: 1.126e-05 train loss: 0.000000 (dt=4.56s)


training:  79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 95264/120000 [28:58<07:12, 57.18it/s]

itr: 95250 lr: 1.106e-05 train loss: 0.000000 (dt=4.56s)


training:  80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 95514/120000 [29:03<07:08, 57.19it/s]

itr: 95500 lr: 1.087e-05 train loss: 0.000000 (dt=4.56s)


training:  80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 95765/120000 [29:07<07:04, 57.15it/s]

itr: 95750 lr: 1.068e-05 train loss: 0.000000 (dt=4.56s)


training:  80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 96014/120000 [29:12<06:59, 57.18it/s]

itr: 96000 lr: 1.048e-05 train loss: 0.000000 (dt=4.56s)


training:  80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 96264/120000 [29:17<06:55, 57.18it/s]

itr: 96250 lr: 1.029e-05 train loss: 0.000000 (dt=4.56s)


training:  80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 96514/120000 [29:21<06:50, 57.20it/s]

itr: 96500 lr: 1.011e-05 train loss: 0.000000 (dt=4.56s)


training:  81%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 96765/120000 [29:26<06:46, 57.18it/s]

itr: 96750 lr: 9.919e-06 train loss: 0.000000 (dt=4.56s)


training:  81%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 97014/120000 [29:30<06:41, 57.20it/s]

itr: 97000 lr: 9.734e-06 train loss: 0.000000 (dt=4.56s)


training:  81%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 97265/120000 [29:35<06:38, 57.11it/s]

itr: 97250 lr: 9.551e-06 train loss: 0.000000 (dt=4.56s)


training:  81%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè | 97515/120000 [29:39<06:33, 57.14it/s]

itr: 97500 lr: 9.369e-06 train loss: 0.000000 (dt=4.56s)


training:  81%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè | 97764/120000 [29:44<06:28, 57.19it/s]

itr: 97750 lr: 9.190e-06 train loss: 0.000000 (dt=4.56s)


training:  82%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè | 98014/120000 [29:48<06:24, 57.21it/s]

itr: 98000 lr: 9.012e-06 train loss: 0.000000 (dt=4.56s)


training:  82%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè | 98264/120000 [29:53<06:20, 57.19it/s]

itr: 98250 lr: 8.836e-06 train loss: 0.000000 (dt=4.56s)


training:  82%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè | 98514/120000 [29:58<06:15, 57.18it/s]

itr: 98500 lr: 8.661e-06 train loss: 0.000000 (dt=4.56s)


training:  82%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè | 98764/120000 [30:02<06:11, 57.18it/s]

itr: 98750 lr: 8.489e-06 train loss: 0.000000 (dt=4.56s)


training:  83%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé | 99014/120000 [30:07<06:06, 57.20it/s]

itr: 99000 lr: 8.318e-06 train loss: 0.000000 (dt=4.56s)


training:  83%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé | 99264/120000 [30:11<06:02, 57.16it/s]

itr: 99250 lr: 8.149e-06 train loss: 0.000000 (dt=4.56s)


training:  83%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé | 99514/120000 [30:16<05:58, 57.20it/s]

itr: 99500 lr: 7.982e-06 train loss: 0.000000 (dt=4.56s)


training:  83%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé | 99764/120000 [30:20<05:53, 57.19it/s]

itr: 99750 lr: 7.817e-06 train loss: 0.000000 (dt=4.56s)


training:  83%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé | 100014/120000 [30:25<05:53, 56.53it/s]

itr: 100000 lr: 7.653e-06 train loss: 0.000000 (dt=4.56s)
saved checkpoint: ./saved_models_grid_bs8192_20260103_075004/Checkpoint_N32_L1_dup0_iters100001.pt


training:  84%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé | 100264/120000 [30:30<05:45, 57.18it/s]

itr: 100250 lr: 7.492e-06 train loss: 0.000000 (dt=4.57s)


training:  84%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç | 100514/120000 [30:34<05:40, 57.20it/s]

itr: 100500 lr: 7.332e-06 train loss: 0.000000 (dt=4.56s)


training:  84%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç | 100764/120000 [30:39<05:36, 57.21it/s]

itr: 100750 lr: 7.174e-06 train loss: 0.000000 (dt=4.56s)


training:  84%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç | 101014/120000 [30:43<05:32, 57.17it/s]

itr: 101000 lr: 7.018e-06 train loss: 0.000000 (dt=4.56s)


training:  84%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç | 101264/120000 [30:48<05:27, 57.18it/s]

itr: 101250 lr: 6.864e-06 train loss: 0.000000 (dt=4.56s)


training:  85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç | 101515/120000 [30:52<05:23, 57.13it/s]

itr: 101500 lr: 6.712e-06 train loss: 0.000000 (dt=4.56s)


training:  85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç | 101764/120000 [30:57<05:18, 57.19it/s]

itr: 101750 lr: 6.561e-06 train loss: 0.000000 (dt=4.56s)


training:  85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 102014/120000 [31:01<05:14, 57.17it/s]

itr: 102000 lr: 6.413e-06 train loss: 0.000000 (dt=4.56s)


training:  85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 102265/120000 [31:06<05:10, 57.10it/s]

itr: 102250 lr: 6.266e-06 train loss: 0.000000 (dt=4.56s)


training:  85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 102514/120000 [31:11<05:05, 57.21it/s]

itr: 102500 lr: 6.122e-06 train loss: 0.000000 (dt=4.56s)


training:  86%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 102764/120000 [31:15<05:01, 57.18it/s]

itr: 102750 lr: 5.979e-06 train loss: 0.000000 (dt=4.56s)


training:  86%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 103014/120000 [31:20<04:56, 57.19it/s]

itr: 103000 lr: 5.838e-06 train loss: 0.000000 (dt=4.56s)


training:  86%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 103264/120000 [31:24<04:52, 57.21it/s]

itr: 103250 lr: 5.699e-06 train loss: 0.000000 (dt=4.56s)


training:  86%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 103515/120000 [31:29<04:48, 57.10it/s]

itr: 103500 lr: 5.562e-06 train loss: 0.000000 (dt=4.56s)


training:  86%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 103764/120000 [31:33<04:43, 57.18it/s]

itr: 103750 lr: 5.427e-06 train loss: 0.000000 (dt=4.56s)


training:  87%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 104014/120000 [31:38<04:39, 57.17it/s]

itr: 104000 lr: 5.294e-06 train loss: 0.000000 (dt=4.56s)


training:  87%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 104264/120000 [31:43<04:35, 57.19it/s]

itr: 104250 lr: 5.162e-06 train loss: 0.000000 (dt=4.56s)


training:  87%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 104514/120000 [31:47<04:30, 57.19it/s]

itr: 104500 lr: 5.033e-06 train loss: 0.000000 (dt=4.56s)


training:  87%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 104764/120000 [31:52<04:26, 57.21it/s]

itr: 104750 lr: 4.906e-06 train loss: 0.000000 (dt=4.56s)


training:  88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 105015/120000 [31:56<04:22, 57.09it/s]

itr: 105000 lr: 4.780e-06 train loss: 0.000000 (dt=4.56s)


training:  88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 105264/120000 [32:01<04:18, 57.11it/s]

itr: 105250 lr: 4.657e-06 train loss: 0.000000 (dt=4.56s)


training:  88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 105514/120000 [32:05<04:13, 57.19it/s]

itr: 105500 lr: 4.536e-06 train loss: 0.000000 (dt=4.56s)


training:  88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 105764/120000 [32:10<04:08, 57.21it/s]

itr: 105750 lr: 4.416e-06 train loss: 0.000000 (dt=4.56s)


training:  88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 106014/120000 [32:14<04:04, 57.16it/s]

itr: 106000 lr: 4.299e-06 train loss: 0.000000 (dt=4.56s)


training:  89%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 106264/120000 [32:19<04:00, 57.20it/s]

itr: 106250 lr: 4.183e-06 train loss: 0.000000 (dt=4.56s)


training:  89%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ | 106514/120000 [32:24<03:55, 57.18it/s]

itr: 106500 lr: 4.070e-06 train loss: 0.000000 (dt=4.56s)


training:  89%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ | 106764/120000 [32:28<03:51, 57.21it/s]

itr: 106750 lr: 3.958e-06 train loss: 0.000000 (dt=4.56s)


training:  89%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ | 107014/120000 [32:33<03:46, 57.21it/s]

itr: 107000 lr: 3.849e-06 train loss: 0.000000 (dt=4.56s)


training:  89%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ | 107264/120000 [32:37<03:42, 57.21it/s]

itr: 107250 lr: 3.741e-06 train loss: 0.000000 (dt=4.56s)


training:  90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ | 107515/120000 [32:42<03:38, 57.23it/s]

itr: 107500 lr: 3.636e-06 train loss: 0.000000 (dt=4.56s)


training:  90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ | 107764/120000 [32:46<03:34, 57.17it/s]

itr: 107750 lr: 3.532e-06 train loss: 0.000000 (dt=4.56s)


training:  90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 108014/120000 [32:51<03:29, 57.18it/s]

itr: 108000 lr: 3.431e-06 train loss: 0.000000 (dt=4.56s)


training:  90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 108264/120000 [32:56<03:25, 57.19it/s]

itr: 108250 lr: 3.331e-06 train loss: 0.000000 (dt=4.56s)


training:  90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 108514/120000 [33:00<03:20, 57.18it/s]

itr: 108500 lr: 3.234e-06 train loss: 0.000000 (dt=4.56s)


training:  91%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 108764/120000 [33:05<03:16, 57.21it/s]

itr: 108750 lr: 3.139e-06 train loss: 0.000000 (dt=4.56s)


training:  91%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 109014/120000 [33:09<03:12, 57.19it/s]

itr: 109000 lr: 3.045e-06 train loss: 0.000000 (dt=4.56s)


training:  91%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 109264/120000 [33:14<03:07, 57.20it/s]

itr: 109250 lr: 2.954e-06 train loss: 0.000000 (dt=4.56s)


training:  91%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè| 109514/120000 [33:18<03:03, 57.19it/s]

itr: 109500 lr: 2.865e-06 train loss: 0.000000 (dt=4.56s)


training:  91%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè| 109764/120000 [33:23<02:58, 57.20it/s]

itr: 109750 lr: 2.777e-06 train loss: 0.000000 (dt=4.56s)


training:  92%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè| 110014/120000 [33:28<02:54, 57.21it/s]

itr: 110000 lr: 2.692e-06 train loss: 0.000000 (dt=4.56s)


training:  92%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè| 110265/120000 [33:32<02:50, 57.12it/s]

itr: 110250 lr: 2.609e-06 train loss: 0.000000 (dt=4.56s)


training:  92%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè| 110514/120000 [33:37<02:45, 57.20it/s]

itr: 110500 lr: 2.528e-06 train loss: 0.000000 (dt=4.56s)


training:  92%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè| 110764/120000 [33:41<02:41, 57.18it/s]

itr: 110750 lr: 2.449e-06 train loss: 0.000000 (dt=4.56s)


training:  93%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé| 111015/120000 [33:46<02:37, 57.19it/s]

itr: 111000 lr: 2.372e-06 train loss: 0.000000 (dt=4.56s)


training:  93%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé| 111264/120000 [33:50<02:32, 57.15it/s]

itr: 111250 lr: 2.297e-06 train loss: 0.000000 (dt=4.56s)


training:  93%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé| 111514/120000 [33:55<02:28, 57.18it/s]

itr: 111500 lr: 2.225e-06 train loss: 0.000000 (dt=4.56s)


training:  93%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé| 111764/120000 [33:59<02:23, 57.19it/s]

itr: 111750 lr: 2.154e-06 train loss: 0.000000 (dt=4.56s)


training:  93%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé| 112014/120000 [34:04<02:19, 57.19it/s]

itr: 112000 lr: 2.085e-06 train loss: 0.000000 (dt=4.56s)


training:  94%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé| 112264/120000 [34:09<02:15, 57.19it/s]

itr: 112250 lr: 2.019e-06 train loss: 0.000000 (dt=4.56s)


training:  94%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç| 112514/120000 [34:13<02:10, 57.18it/s]

itr: 112500 lr: 1.954e-06 train loss: 0.000000 (dt=4.56s)


training:  94%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç| 112764/120000 [34:18<02:06, 57.21it/s]

itr: 112750 lr: 1.892e-06 train loss: 0.000000 (dt=4.56s)


training:  94%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç| 113014/120000 [34:22<02:02, 57.19it/s]

itr: 113000 lr: 1.832e-06 train loss: 0.000000 (dt=4.56s)


training:  94%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç| 113264/120000 [34:27<01:57, 57.19it/s]

itr: 113250 lr: 1.773e-06 train loss: 0.000000 (dt=4.56s)


training:  95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç| 113514/120000 [34:31<01:53, 57.18it/s]

itr: 113500 lr: 1.717e-06 train loss: 0.000000 (dt=4.56s)


training:  95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç| 113764/120000 [34:36<01:49, 57.20it/s]

itr: 113750 lr: 1.663e-06 train loss: 0.000000 (dt=4.56s)


training:  95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 114014/120000 [34:41<01:44, 57.21it/s]

itr: 114000 lr: 1.611e-06 train loss: 0.000000 (dt=4.56s)


training:  95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 114264/120000 [34:45<01:40, 57.16it/s]

itr: 114250 lr: 1.562e-06 train loss: 0.000000 (dt=4.56s)


training:  95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 114514/120000 [34:50<01:36, 57.14it/s]

itr: 114500 lr: 1.514e-06 train loss: 0.000000 (dt=4.56s)


training:  96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 114764/120000 [34:54<01:31, 57.20it/s]

itr: 114750 lr: 1.468e-06 train loss: 0.000000 (dt=4.56s)


training:  96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 115014/120000 [34:59<01:27, 57.21it/s]

itr: 115000 lr: 1.425e-06 train loss: 0.000000 (dt=4.56s)


training:  96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 115264/120000 [35:03<01:22, 57.17it/s]

itr: 115250 lr: 1.384e-06 train loss: 0.000000 (dt=4.56s)


training:  96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã| 115514/120000 [35:08<01:18, 57.19it/s]

itr: 115500 lr: 1.344e-06 train loss: 0.000000 (dt=4.56s)


training:  96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã| 115765/120000 [35:12<01:14, 57.16it/s]

itr: 115750 lr: 1.307e-06 train loss: 0.000000 (dt=4.56s)


training:  97%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã| 116014/120000 [35:17<01:09, 57.18it/s]

itr: 116000 lr: 1.272e-06 train loss: 0.000000 (dt=4.56s)


training:  97%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã| 116264/120000 [35:22<01:05, 57.20it/s]

itr: 116250 lr: 1.239e-06 train loss: 0.000000 (dt=4.56s)


training:  97%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã| 116514/120000 [35:26<01:00, 57.19it/s]

itr: 116500 lr: 1.208e-06 train loss: 0.000000 (dt=4.56s)


training:  97%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã| 116765/120000 [35:31<00:56, 57.00it/s]

itr: 116750 lr: 1.180e-06 train loss: 0.000000 (dt=4.56s)


training:  98%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä| 117015/120000 [35:35<00:52, 57.10it/s]

itr: 117000 lr: 1.153e-06 train loss: 0.000000 (dt=4.56s)


training:  98%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä| 117264/120000 [35:40<00:47, 57.17it/s]

itr: 117250 lr: 1.129e-06 train loss: 0.000000 (dt=4.56s)


training:  98%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä| 117514/120000 [35:44<00:43, 57.15it/s]

itr: 117500 lr: 1.106e-06 train loss: 0.000000 (dt=4.56s)


training:  98%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä| 117764/120000 [35:49<00:39, 57.19it/s]

itr: 117750 lr: 1.086e-06 train loss: 0.000000 (dt=4.56s)


training:  98%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä| 118015/120000 [35:54<00:34, 57.20it/s]

itr: 118000 lr: 1.068e-06 train loss: 0.000000 (dt=4.56s)


training:  99%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä| 118265/120000 [35:58<00:30, 57.21it/s]

itr: 118250 lr: 1.052e-06 train loss: 0.000000 (dt=4.56s)


training:  99%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ| 118515/120000 [36:03<00:25, 57.17it/s]

itr: 118500 lr: 1.038e-06 train loss: 0.000000 (dt=4.56s)


training:  99%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ| 118764/120000 [36:07<00:21, 57.20it/s]

itr: 118750 lr: 1.027e-06 train loss: 0.000000 (dt=4.56s)


training:  99%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ| 119015/120000 [36:12<00:17, 57.16it/s]

itr: 119000 lr: 1.017e-06 train loss: 0.000000 (dt=4.56s)


training:  99%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ| 119265/120000 [36:16<00:12, 57.20it/s]

itr: 119250 lr: 1.010e-06 train loss: 0.000000 (dt=4.56s)


training: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ| 119514/120000 [36:21<00:08, 57.19it/s]

itr: 119500 lr: 1.004e-06 train loss: 0.000000 (dt=4.56s)


training: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ| 119764/120000 [36:25<00:04, 57.16it/s]

itr: 119750 lr: 1.001e-06 train loss: 0.000000 (dt=4.56s)


training: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 120000/120000 [36:30<00:00, 54.79it/s]


saved final model: ./saved_models_grid_bs8192_20260103_075004/Final_N32_L1_dup0_iters120000.pt


0,1
iter,‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÇ‚ñÇ‚ñÇ‚ñÉ‚ñÉ‚ñÉ‚ñÑ‚ñÑ‚ñÑ‚ñÑ‚ñÑ‚ñÑ‚ñÑ‚ñÑ‚ñÑ‚ñÑ‚ñÖ‚ñÖ‚ñÖ‚ñÖ‚ñÖ‚ñÖ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñá‚ñá‚ñá‚ñá‚ñà‚ñà
ll/iter,‚ñÅ‚ñÇ‚ñÉ‚ñÉ‚ñÑ‚ñÖ‚ñÖ‚ñÖ‚ñÖ‚ñÖ‚ñÖ‚ñÖ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà
ll/lr,‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÖ‚ñÖ‚ñÖ‚ñÖ‚ñÖ‚ñÑ‚ñÑ‚ñÑ‚ñÉ‚ñÉ‚ñÉ‚ñÅ
ll/train_loss,‚ñà‚ñÑ‚ñÉ‚ñÉ‚ñÉ‚ñÉ‚ñÉ‚ñÉ‚ñÉ‚ñÉ‚ñÉ‚ñÉ‚ñÉ‚ñÉ‚ñÉ‚ñÉ‚ñÉ‚ñÉ‚ñÉ‚ñÉ‚ñÉ‚ñÉ‚ñÉ‚ñÉ‚ñÉ‚ñÉ‚ñÉ‚ñÉ‚ñÇ‚ñÉ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ
lr,‚ñà‚ñà‚ñà‚ñà‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñÜ‚ñÜ‚ñÜ‚ñÜ‚ñÖ‚ñÖ‚ñÖ‚ñÖ‚ñÑ‚ñÑ‚ñÉ‚ñÉ‚ñÉ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ
plateau/delta_log10_loss_window,‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÉ‚ñÇ‚ñÇ‚ñÇ‚ñÇ‚ñÉ‚ñÅ‚ñÇ‚ñÇ‚ñÉ‚ñÉ‚ñÇ‚ñÇ‚ñÜ‚ñÇ‚ñÖ‚ñá‚ñá‚ñá‚ñà‚ñÖ‚ñá‚ñÉ‚ñÉ‚ñÑ‚ñÉ‚ñÇ‚ñÉ‚ñÇ‚ñÇ‚ñÇ‚ñÇ
plateau/hits,‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñà‚ñÅ
plateau/loglog_slope,‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñá‚ñà‚ñá‚ñá‚ñà‚ñà‚ñà‚ñà‚ñá‚ñá‚ñá‚ñá‚ñá‚ñà‚ñà‚ñà‚ñá‚ñà‚ñá‚ñÅ‚ñÇ‚ñÉ‚ñá‚ñÜ‚ñá‚ñá‚ñà‚ñà
plateau/now,‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ
plateau/reached,‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ‚ñÅ

0,1
iter,120000
iters_done,120000
ll/iter,5.07918
ll/lr,-6.0
ll/train_loss,-9.32714
lr,0.0
plateau/delta_log10_loss_window,-0.13773
plateau/hits,0
plateau/loglog_slope,1.50731
plateau/now,0
