In [1]:
import torch
import numpy as np
import torch.nn as nn
import math


'''MLP AND LINEARS'''

def init_relu(module):
    if type(module) in (nn.Linear, nn.Conv2d, nn.Conv1d, nn.Conv3d):
        nn.init.orthogonal_(module.weight, gain=1.41421)

        if module.bias is not None:
            nn.init.zeros_(module.bias)

def init_orth(module):
    if type(module) in (nn.Linear, nn.Conv2d, nn.Conv1d, nn.Conv3d):
        nn.init.orthogonal_(module.weight, gain=1)

        if module.bias is not None:
            nn.init.zeros_(module.bias)

def init_xavier(module):
    if type(module) in (nn.Linear, nn.Conv2d, nn.Conv1d, nn.Conv3d):
        nn.init.xavier_uniform_(module.weight, gain=1)

        if module.bias is not None:
            nn.init.zeros_(module.bias)
            
def init_xavier_normal(module):
    if type(module) in (nn.Linear, nn.Conv2d, nn.Conv1d, nn.Conv3d):
        nn.init.xavier_normal_(module.weight, gain=1)

        if module.bias is not None:
            nn.init.zeros_(module.bias)

def init_zeros(module):
    if type(module) in (nn.Linear, nn.Conv2d, nn.Conv1d, nn.Conv3d):
        nn.init.zeros_(module.weight)

        if module.bias is not None:
            nn.init.zeros_(module.bias)


def init_sigmoid(module):
    #print(f"The init sigmoid was only tested by the package's author at the CfC.")
    if type(module) in (nn.Linear, nn.Conv2d, nn.Conv1d, nn.Conv3d):
        nn.init.xavier_normal_(module.weight, gain=1)
        if module.bias is not None:
            nn.init.zeros_(module.bias)

def init_lecun(module):
    if type(module) in (nn.Linear, nn.Conv2d, nn.Conv1d, nn.Conv3d):
        nn.init.normal_(module.weight, mean=0.0, std=1.0 / (module.weight.shape[1])**0.5)
        if module.bias is not None:
            nn.init.zeros_(module.bias)

def init_tanh(module):
    #print(f"The init tanh was only tested by the package's author at the CfC.")
    if type(module) in (nn.Linear, nn.Conv2d, nn.Conv1d, nn.Conv3d):
        nn.init.xavier_normal_(module.weight, gain=1.6667)
        if module.bias is not None:
            nn.init.zeros_(module.bias)

def init_deep_lstm(module):
    # Ref: Sequence to Sequence Learning with Neural Networks
    if type(module) in (nn.Linear, nn.Conv2d, nn.Conv1d, nn.Conv3d):
        nn.init.uniform_(module.weight, -0.08, 0.08)
        if module.bias is not None:
            nn.init.zeros_(module.bias)

def init_alphastar_special(module):
    # Ref: Alphastar
    if isinstance(module, nn.Linear):
        torch.nn.init.normal_(module.weight, mean=0.0, std=0.005)
        if module.bias is not None:
            torch.nn.init.zeros_(module.bias)

def init_emb(module):
    if type(module) == nn.Linear:
        torch.nn.init.normal_(module.weight, std=math.sqrt(1/module.weight.shape[0]))
        if module.bias is not None:
            torch.nn.init.zeros_(module.bias) 
            
    if type(module) == nn.Embedding:
        torch.nn.init.normal_(module.weight, std=math.sqrt(1/module.weight.shape[1]))

def init_saving_variance(module, num_blks):
    
    torch.nn.init.xavier_uniform_(module.weight, gain=torch.tensor(4*num_blks).pow(-1/4))
    if hasattr(module, 'bias'):
        if module.bias is not None:
            torch.nn.init.zeros_(module.bias)
            

def init_gpt(module):
    #print(f"From init_gpt.\nGpt proj linears should have a special weight initialization not implemented here.")
    if isinstance(module, nn.Linear):
        torch.nn.init.normal_(module.weight, mean=0.0, std=0.02)
        #torch.nn.init.xavier_normal_(module.weight)
        if module.bias is not None:
            torch.nn.init.zeros_(module.bias)
    elif isinstance(module, nn.Embedding):
        torch.nn.init.normal_(module.weight, mean=0.0, std=0.02)
        #torch.nn.init.xavier_normal_(module.weight)
    elif isinstance(module, nn.LayerNorm):
        nn.init.constant_(module.bias, 0)
        nn.init.constant_(module.weight, 1.0)
        

def init_proj(module):
    assert not isinstance(module, nn.Conv1d) and not isinstance(module, nn.Conv2d) and not isinstance(module, nn.Conv3d)
    if isinstance(module, nn.Linear):
        nn.init.eye_(module.weight)
        if module.bias is not None:
            torch.nn.init.zeros_(module.bias)




        
'''CNN'''

def init_cnn(module):
    if type(module) == nn.Linear or type(module) == nn.Conv2d or type(module) == nn.Conv1d or type(module) == nn.Conv3d:
        #nn.init.kaiming_uniform_(module.weight, a=0, mode='fan_in', nonlinearity='SiLU')
        nn.init.orthogonal_(module.weight, 1)
        #nn.init.orthogonal_(module.weight, 1.41421)
        #nn.init.xavier_uniform_(module.weight, 1)
        #nn.init.xavier_uniform_(module.weight, 1.41421)


        if module.bias is not None:
            nn.init.zeros_(module.bias)

def init_partial_dirac(module):
    if type(module) in (nn.Conv2d, nn.Conv1d, nn.Conv3d):
        w = module.weight.data
        
        nn.init.dirac_(module.weight[:w.shape[1]])
        nn.init.xavier_uniform_(module.weight[w.shape[1]:], gain=1)

        if module.bias is not None:
            nn.init.zeros_(module.bias)
    if type(module) == nn.Linear:
        print(f"ERROR: ONLY CONVOLUTIONS ARE SUPPORTED BY THE DIRAC INITIALIZATION.")

def init_dreamer_normal(module):
    if type(module) == nn.Linear or type(module) == nn.Conv2d or type(module) == nn.Conv1d or type(module) == nn.Conv3d:

        if type(module)==nn.Linear():
            space = module.weight.shape[1] * module.weight.shape[0]
            in_num = space * module.weight.shape[1]
            out_num = space * module.weight.shape[1]
        else:
            space = module.kernel_size[0] * module.kernel_size[1]
            in_num = space * module.in_channels
            out_num = space * module.out_channels
        
        std = np.sqrt((1/np.mean(np.array([in_num, out_num])))) / 0.87962566103423978
        nn.init.trunc_normal_(module.weight.data, mean=0.0, std=std, a=-2.0 * std, b=2.0 * std)
        

        if module.bias is not None:
            nn.init.zeros_(module.bias)
        

def init_dreamer_uniform(m):
    # Same as xavier uniform
    '''
    if type(m) == nn.Linear or type(m) == nn.Conv2d:
        torch.nn.init.xavier_uniform_(m.weight)
        #nn.init.orthogonal_(m.weight, 1.41421)
    '''
    if isinstance(m, nn.Linear):
        in_num = m.in_features
        out_num = m.out_features
        denoms = (in_num + out_num) / 2.0
        scale = 1.0 / denoms
        limit = np.sqrt(3 * scale)
        nn.init.uniform_(m.weight.data, a=-limit, b=limit)
        if hasattr(m.bias, "data"):
            m.bias.data.fill_(0.0)
    

    
def init_proj2d(module):
    if type(module) in (nn.Linear, nn.Conv2d, nn.Conv1d, nn.Conv3d):
        torch.nn.init.dirac_(module.weight, groups=1)
        
        if module.bias is not None:
            nn.init.zeros_(module.bias)


'''WHITENED LAYERS'''

def get_patches(x, patch_shape):
    c, (h, w) = x.shape[1], patch_shape
    
    return x.unfold(2,h,1).unfold(3,w,1).transpose(1,3).reshape(-1,c,h,w).float()

def get_whitening_parameters(patches):
    n,c,h,w = patches.shape
    patches_flat = patches.view(n, -1)
    est_patch_covariance = (patches_flat.T @ patches_flat) / n
    
    eigenvalues, eigenvectors = torch.linalg.eigh(est_patch_covariance, UPLO='U')
    
    return eigenvalues.flip(0).view(-1, 1, 1, 1), eigenvectors.T.reshape(c*h*w,c,h,w).flip(0)

def init_whitening_conv(layer, train_set, eps=5e-4):
    patches = get_patches(train_set, patch_shape=layer.weight.data.shape[2:])
    
    eigenvalues, eigenvectors = get_whitening_parameters(patches)
    
    eigenvectors_scaled = eigenvectors / torch.sqrt(eigenvalues + eps)
    
    layer.weight.data[:] = torch.cat((eigenvectors_scaled, -eigenvectors_scaled))
    layer.weight.requires_grad=False

In [2]:
# REFERENCES
# https://github.com/karpathy/nanoGPT
# https://github.com/JegZheng/truncated-diffusion-probabilistic-models
# https://github.com/facebookresearch/DiT/blob/main/models.py

import torch
from torch import nn
import torch.nn.functional as F
import math



@torch.jit.script # JIT decorator
def fused_gelu(x):
    return x * 0.5 * (1.0 + torch.erf(x / 1.41421))
from torch import nn
import inspect
def network_ema(target_network, new_network, alpha=0.5):
    for (param_name, param_target), param_new  in zip(target_network.cuda().named_parameters(), new_network.parameters()):
        if 'ln' in param_name: #layer norm
            param_target.data = param_new.data.clone()
        else:
            param_target.data = alpha * param_target.data + (1 - alpha) * param_new.data.clone()
import torch
import torch.nn.functional as F
import numpy as np

import random
import os


def params_count(model, name='Model'):
    params_to_count = [p for p in model.parameters() if p.requires_grad]
    print(f'{name} Parameters: {sum(p.numel() for p in params_to_count)/1e6:.2f}M')


def params_and_grad_norm(model):
    param_norm, grad_norm = 0, 0
    for n, param in model.named_parameters():
        if not n.endswith('.bias'):
            param_norm += torch.norm(param.data)
            if param.grad is not None:
                grad_norm += torch.norm(param.grad)
    return param_norm, grad_norm


# From STORM Atari-100k
def seed_np_torch(seed=20001118):
    random.seed(seed)
    os.environ['PYTHONHASHSEED'] = str(seed)
    np.random.seed(seed)
    torch.manual_seed(seed)
    torch.cuda.manual_seed(seed)
    torch.cuda.manual_seed_all(seed)
    # some cudnn methods can be random even after fixing the seed unless you tell it to be deterministic
    torch.backends.cudnn.deterministic = True
    torch.backends.cudnn.benchmark = False
    
    

def statistical_difference(p1, p2, n):
    # order invariant
    
    d=torch.tensor(p1-p2).abs()
    std = 1.65 * math.sqrt((p1*(1-p1) + p2*(1-p2))/n)
    difference = torch.tensor([d-std, d+std])
        
    difference = difference.sort()[0]
    
    return difference

def renormalize(tensor):
    shape = tensor.shape
    tensor = tensor.view(shape[0], -1)
    max_value,_ = torch.max(tensor, -1, keepdim=True)
    min_value,_ = torch.min(tensor, -1, keepdim=True)
    return ((tensor - min_value) / (max_value - min_value + 1e-5)).view(shape)

# Hyper Parameters
# automatically saves all arguments of the inherited class __init__
class Hypers: # Sorcery
    def __init__(self, max_depth=3, **kwargs):
        super().__init__(**kwargs)
        self.save_hypers(max_depth)
    
    def save_hypers(self, max_depth, ignore=[]):
      """Save function arguments into class attributes."""

      #f_back: frame caller
      #frame: table of local variablies to the frame's function
      seen_init=False
      frame = inspect.currentframe()
      for d in range(max_depth):
          
          frame = frame.f_back
          
          if frame.f_back and frame.f_back.f_code.co_name == "__init__":
              seen_init=True
              
          if seen_init and frame.f_back.f_code.co_name != "__init__":
              break
            
      _, _, _, local_vars = inspect.getargvalues(frame)
      #takes the arguments of the function which called this save_hypers function
      #it can backtrack functions according to the depth argument

      self.hparams = {k:v for k, v in local_vars.items()
          if k not in set(ignore+['self']) and not k.startswith('_')}
      for k, v in self.hparams.items():
          setattr(self, k, v)


# ALLWAYS PUT HYPERS TO THE LEFT
class nsd_Module(Hypers, nn.Module):
    def __init__(self):
        super().__init__(max_depth=3)
class FusedGELU(nn.Module):
    def forward(self, x):
        return fused_gelu(x)


class LayerNormNoBias(nn.Module):
    """ LayerNormNoBias but with an optional bias. PyTorch doesn't support simply bias=False """

    def __init__(self, d_model, bias=False):
        super().__init__()
        self.weight = nn.Parameter(torch.ones(d_model))
        self.bias = nn.Parameter(torch.zeros(d_model)) if bias else None

    def forward(self, input):
        return F.layer_norm(input, self.weight.shape, self.weight, self.bias, 1e-5)


    
class Attention(nsd_Module):
    def __init__(self, d_model=512, nhead=8, bias=False, dropout=0.1, seq_len=8):
        super().__init__()
        # key, query, value projections for all heads, but in a batch
        self.W_q = nn.Linear(d_model, d_model, bias=bias)
        self.W_k = nn.Linear(d_model, d_model, bias=bias)
        self.W_v = nn.Linear(d_model, d_model, bias=bias)
        # output projection
        self.proj = nn.Linear(d_model, d_model, bias=bias)
        # regularization
        self.attn_dropout = nn.Dropout(dropout)
        self.resid_dropout = nn.Dropout(dropout)

        self.seq_len = seq_len
        self.k_pre = None
        self.k_post = None

    def forward(self, q, k, v, is_causal):
        B, T, C = q.size()
        
        q = self.W_k(q)
        k = self.W_k(k)
        v = self.W_v(v)
        
        q = q.view(B, T, self.nhead, C // self.nhead).transpose(1, 2) # (B, nh, T, hs)
        k = k.view(B, -1, self.nhead, C // self.nhead).transpose(1, 2) # (B, nh, T, hs)
        v = v.view(B, -1, self.nhead, C // self.nhead).transpose(1, 2) # (B, nh, T, hs)

        # causal self-attention; Self-attend: (B, nh, T, hs) x (B, nh, hs, T) -> (B, nh, T, T)
        
        # efficient attention using Flash Attention CUDA kernels
        
        with torch.backends.cuda.sdp_kernel():
            y = torch.nn.functional.scaled_dot_product_attention(q, k, v, attn_mask=None, dropout_p=self.dropout if self.training else 0, is_causal=is_causal)
        
        y = y.transpose(1, 2).contiguous().view(B, T, C) # re-assemble all head outputs side by side

        # output projection
        y = self.resid_dropout(self.proj(y))
        return y

    def forward_xl(self, q, k, v, is_causal):
        B, T, C = q.size()

        q = self.W_k(q)
        k = self.W_k(k)
        v = self.W_v(v)

        self.k_pre = k.detach()
        self.v_pre = v.detach()
        if self.k_post!=None:
            k = torch.cat((self.post,k),-2)
            v = torch.cat((self.post,v),-2)
        
        self.k_post = self.k_pre
        self.v_post = self.v_pre

        q = q.view(B, T, self.nhead, C // self.nhead).transpose(1, 2) # (B, nh, T, hs)
        k = k.view(B, -1, self.nhead, C // self.nhead).transpose(1, 2) # (B, nh, T, hs)
        v = v.view(B, -1, self.nhead, C // self.nhead).transpose(1, 2) # (B, nh, T, hs)

        # causal self-attention; Self-attend: (B, nh, T, hs) x (B, nh, hs, T) -> (B, nh, T, T)
        
        # efficient attention using Flash Attention CUDA kernels
        
        with torch.backends.cuda.sdp_kernel():
            y = torch.nn.functional.scaled_dot_product_attention(q, k, v, attn_mask=None, dropout_p=self.dropout if self.training else 0, is_causal=is_causal)
        
        y = y.transpose(1, 2).contiguous().view(B, T, C) # re-assemble all head outputs side by side

        # output projection
        y = self.resid_dropout(self.proj(y))
        return y
    
    def forward_xl_windowed(self, q, k, v, is_causal):
        B, T, C = q.size()
        
        q = self.W_k(q)
        k = self.W_k(k)
        v = self.W_v(v)

        if self.k_pre == None:
            self.k_pre = k.detach()
            self.v_pre = v.detach()
        elif self.k_pre.shape[-2] < self.seq_len:
            self.k_pre = k.detach()
            self.v_pre = v.detach()
        else:
            self.k_pre = k[...,1:,:].detach()
            self.v_pre = v[...,1:,:].detach()


        if self.k_post!=None:
            k = torch.cat((self.k_post,k),-2)
            v = torch.cat((self.v_post,v),-2)
        

        self.k_post = self.k_pre
        self.v_post = self.v_pre



        q = q.view(B, T, self.nhead, C // self.nhead).transpose(1, 2) # (B, nh, T, hs)
        k = k.view(B, -1, self.nhead, C // self.nhead).transpose(1, 2) # (B, nh, T, hs)
        v = v.view(B, -1, self.nhead, C // self.nhead).transpose(1, 2) # (B, nh, T, hs)

        # causal self-attention; Self-attend: (B, nh, T, hs) x (B, nh, hs, T) -> (B, nh, T, T)
        
        # efficient attention using Flash Attention CUDA kernels
        
        with torch.backends.cuda.sdp_kernel():
            y = torch.nn.functional.scaled_dot_product_attention(q, k, v, attn_mask=None, dropout_p=self.dropout if self.training else 0, is_causal=is_causal)
        
        y = y.transpose(1, 2).contiguous().view(B, T, C) # re-assemble all head outputs side by side

        # output projection
        y = self.resid_dropout(self.proj(y))
        return y

    
class Attention_XL(nsd_Module):
    def __init__(self, d_model=512, nhead=8, bias=False, dropout=0.1):
        super().__init__()
        # key, query, value projections for all heads, but in a batch
        self.W_q = nn.Linear(d_model, d_model, bias=bias)
        self.W_k = nn.Linear(d_model, d_model, bias=bias)
        self.W_v = nn.Linear(d_model, d_model, bias=bias)
        # output projection
        self.proj = nn.Linear(d_model, d_model, bias=bias)
        # regularization
        self.attn_dropout = nn.Dropout(dropout)
        self.resid_dropout = nn.Dropout(dropout)

    def forward(self, q, k, v, is_causal):
        B, T, C = q.size()

        q = self.W_k(q)
        k = self.W_k(k)
        v = self.W_v(v)

        self.k_pre = k.detach()
        self.v_pre = v.detach()
        if self.k_post!=None:
            k = torch.cat((self.post,k),-2)
            v = torch.cat((self.post,v),-2)
        
        self.k_post = self.k_pre
        self.v_post = self.v_pre

        q = q.view(B, T, self.nhead, C // self.nhead).transpose(1, 2) # (B, nh, T, hs)
        k = k.view(B, -1, self.nhead, C // self.nhead).transpose(1, 2) # (B, nh, T, hs)
        v = v.view(B, -1, self.nhead, C // self.nhead).transpose(1, 2) # (B, nh, T, hs)

        # causal self-attention; Self-attend: (B, nh, T, hs) x (B, nh, hs, T) -> (B, nh, T, T)
        
        # efficient attention using Flash Attention CUDA kernels
        
        with torch.backends.cuda.sdp_kernel():
            y = torch.nn.functional.scaled_dot_product_attention(q, k, v, attn_mask=None, dropout_p=self.dropout if self.training else 0, is_causal=is_causal)
        
        y = y.transpose(1, 2).contiguous().view(B, T, C) # re-assemble all head outputs side by side

        # output projection
        y = self.resid_dropout(self.proj(y))
        return y

    
class Attention_XL_window(nsd_Module):
    def __init__(self, d_model=512, nhead=8, bias=False, dropout=0.1, seq_len=8):
        super().__init__()
        # key, query, value projections for all heads, but in a batch
        self.W_q = nn.Linear(d_model, d_model, bias=bias)
        self.W_k = nn.Linear(d_model, d_model, bias=bias)
        self.W_v = nn.Linear(d_model, d_model, bias=bias)
        # output projection
        self.proj = nn.Linear(d_model, d_model, bias=bias)
        # regularization
        self.attn_dropout = nn.Dropout(dropout)
        self.resid_dropout = nn.Dropout(dropout)
        self.seq_len = seq_len

    def forward(self, q, k, v, is_causal):
        B, T, C = q.size()
        
        q = self.W_k(q)
        k = self.W_k(k)
        v = self.W_v(v)

        if self.k_pre == None:
            self.k_pre = k.detach()
            self.v_pre = v.detach()
        elif self.k_pre.shape[-2] < self.seq_len:
            self.k_pre = k.detach()
            self.v_pre = v.detach()
        else:
            self.k_pre = k[...,1:,:].detach()
            self.v_pre = v[...,1:,:].detach()


        if self.k_post!=None:
            k = torch.cat((self.post,k),-2)
            v = torch.cat((self.post,v),-2)
        

        self.k_post = self.k_pre
        self.v_post = self.v_pre



        q = q.view(B, T, self.nhead, C // self.nhead).transpose(1, 2) # (B, nh, T, hs)
        k = k.view(B, -1, self.nhead, C // self.nhead).transpose(1, 2) # (B, nh, T, hs)
        v = v.view(B, -1, self.nhead, C // self.nhead).transpose(1, 2) # (B, nh, T, hs)

        # causal self-attention; Self-attend: (B, nh, T, hs) x (B, nh, hs, T) -> (B, nh, T, T)
        
        # efficient attention using Flash Attention CUDA kernels
        
        with torch.backends.cuda.sdp_kernel():
            y = torch.nn.functional.scaled_dot_product_attention(q, k, v, attn_mask=None, dropout_p=self.dropout if self.training else 0, is_causal=is_causal)
        
        y = y.transpose(1, 2).contiguous().view(B, T, C) # re-assemble all head outputs side by side

        # output projection
        y = self.resid_dropout(self.proj(y))
        return y



class MemoryAttention(nsd_Module):
    def __init__(self, d_model=512, nhead=8, bias=False, dropout=0.1):
        super().__init__()
        # key, query, value projections for all heads, but in a batch
        self.W_kv = nn.Linear(d_model, 2 * d_model, bias=bias)
        # output projection
        self.proj = nn.Linear(d_model, d_model, bias=bias)
        # regularization
        self.attn_dropout = nn.Dropout(dropout)
        self.resid_dropout = nn.Dropout(dropout)

    def forward(self, x, q):
        B, T, C = x.size() # batch size, sequence length, embedding dimensionality (n_embd)

        # calculate query, key, values for all heads in batch and move head forward to be the batch dim
        k, v  = self.W_kv(x).split(self.n_embd, dim=2)
        
        
        # FoT LongLlama contrastive style (data pipeline constrastive for self attention enrichment)
        
        shifted_k=[]
        shifted_v=[]
        for i in range(7): # 7 is d-1 for d=8
            shifted_k.append(torch.roll(k[:,:T//2],i,0))
            shifted_v.append(torch.roll(v[:,:T//2],i,0))
        shifted_k=torch.stack(shifted_k).view(B,-1,C)
        shifted_v=torch.stack(shifted_v).view(B,-1,C)
        
        k=torch.concat((shifted_k,k),1)
        v=torch.concat((shifted_v,v),1)
        
        
        
        q = q.view(B, T, self.nhead, C // self.nhead).transpose(1, 2) # (B, nh, T, hs)
        k = k.view(B, -1, self.nhead, C // self.nhead).transpose(1, 2) # (B, nh, T, hs)
        v = v.view(B, -1, self.nhead, C // self.nhead).transpose(1, 2) # (B, nh, T, hs)
        
        
        
        L = q.shape[2]
        S = k.shape[2]
        attn_mask = torch.ones(L, S, dtype=torch.bool, device='cuda').tril(diagonal=S-L)
        attn_mask[:T//2,:S-L]=False
        
        
        
        # causal self-attention; Self-attend: (B, nh, T, hs) x (B, nh, hs, T) -> (B, nh, T, T)
        
        # efficient attention using Flash Attention CUDA kernels
        with torch.backends.cuda.sdp_kernel():
            y = torch.nn.functional.scaled_dot_product_attention(q, k, v, attn_mask=None, dropout_p=self.dropout if self.training else 0, is_causal=False)
            #y = torch.nn.functional.scaled_dot_product_attention(q, k, v, attn_mask=attn_mask, dropout_p=self.dropout if self.training else 0)
        
        y = y.transpose(1, 2).contiguous().view(B, T, C) # re-assemble all head outputs side by side

        # output projection
        y = self.resid_dropout(self.proj(y))
        return y

    def forward_memory(self, x, q, k_read, v_read):
        B, T, C = x.size() # batch size, sequence length, embedding dimensionality (n_embd)

        # calculate query, key, values for all heads in batch and move head forward to be the batch dim
        
        k, v = self.W_kv(x).split(self.n_embd, dim=2)
        write_k, write_v = k.detach(), v.detach()
        
        k=torch.cat((k_read, k), 1)
        v=torch.cat((v_read, v), 1)
        
        #shifted_k=[]
        #shifted_v=[]
        #for i in range(7): # 7 is d-1 for d=8
        #    shifted_k.append(torch.roll(k[:,:T//2],i,0))
        #    shifted_v.append(torch.roll(v[:,:T//2],i,0))
        #shifted_k=torch.stack(shifted_k).view(B,-1,C)
        #shifted_v=torch.stack(shifted_v).view(B,-1,C)
        
        #k=torch.cat((shifted_k, k), 1)
        #v=torch.cat((shifted_v, v), 1)
        
        q = q.view(B, T, self.nhead, C // self.nhead).transpose(1, 2) # (B, nh, T, hs)
        k = k.view(B, -1, self.nhead, C // self.nhead).transpose(1, 2) # (B, nh, T, hs)
        v = v.view(B, -1, self.nhead, C // self.nhead).transpose(1, 2) # (B, nh, T, hs)
        k_read = k_read.view(B, -1, self.nhead, C // self.nhead).transpose(1, 2)
        v_read = v_read.view(B, -1, self.nhead, C // self.nhead).transpose(1, 2)
          
        
        # Causal Mask
        L = q.shape[2]
        S = k.shape[2]-q.shape[2]
        causal_mask = torch.ones(L, L, dtype=torch.bool, device='cuda').tril(diagonal=0)
        eye_mask=torch.eye(L, dtype=torch.bool, device='cuda')
        read_attnmask=torch.ones(L, L*3, dtype=torch.bool, device='cuda')
        aux=torch.arange(L).repeat_interleave(3)
        
        #new_attnmask=causal_mask[:,aux]
        read_attnmask=eye_mask[:,aux]
        
        attn_mask=torch.cat((read_attnmask,causal_mask),1)
        
        #shift_mask = torch.ones(L, int(L*3.5), dtype=torch.bool, device='cuda')
        #shift_mask[:T//2,:]=False
        #attn_mask=torch.cat((shift_mask,attn_mask),1)
        
        
        # Memory Mask
        memory_mask = torch.ones(L*3, L, dtype=torch.bool, device='cuda')
        memory_mask=torch.concat((torch.eye(L*3, dtype=torch.bool, device='cuda'), memory_mask),1)
        #memory_mask=torch.concat((~torch.ones(L*3, int(L*3.5), dtype=torch.bool, device='cuda'), memory_mask),1)
        
        # Associative Learning
        std=0.5
        noise=torch.randn_like(k_read)*std
        k_read=F.normalize(k_read)
        k_read=k_read+noise
        
        
        with torch.backends.cuda.sdp_kernel():
            y = F.scaled_dot_product_attention(q,k,v,attn_mask=attn_mask,
                                                dropout_p=self.dropout)
            v_read = F.scaled_dot_product_attention(k_read,k,v, attn_mask=memory_mask,
                                                    dropout_p=0)
            k_read = F.scaled_dot_product_attention(k_read,k,k, attn_mask=memory_mask,
                                                    dropout_p=0)
        
        y = y.transpose(1, 2).contiguous().view(B, T, C) # re-assemble all head outputs side by side
        k_read = k_read.transpose(1, 2).contiguous().view(B, T, -1)
        v_read = v_read.transpose(1, 2).contiguous().view(B, T, -1)
        
        # output projection
        y = self.resid_dropout(self.proj(y))
        return y, write_k, write_v, k_read, v_read
        #return y, write_k, write_v, None,None

    
class FFN(nn.Module):
    def __init__(self, d_model=512, dropout=0.1, bias=False, ffn_mult=4):
        super().__init__()
        self.fc    = nn.Linear(d_model, ffn_mult * d_model, bias=bias)
        self.gelu  = nn.GELU()
        self.proj  = nn.Linear(ffn_mult * d_model, d_model, bias=bias)
        self.dropout = nn.Dropout(dropout)

    def forward(self, x):
        x = self.fc(x)
        x = self.gelu(x)
        x = self.proj(x)
        x = self.dropout(x)
        return x
    

class GPT_Block(nn.Module):
    def __init__(self, d_model, nhead, dropout=0.0, bias=False, ffn_mult=4, seq_len=8):
        super().__init__()
        self.ln_1 = LayerNormNoBias(d_model, bias=bias)
        self.attn = Attention(d_model, nhead, bias, dropout, seq_len)
        self.ln_2 = LayerNormNoBias(d_model, bias=bias)
        self.mlp = FFN(d_model, dropout, bias, ffn_mult)

    def forward(self, x, is_causal=True):
        x_ln = self.ln_1(x)
        x = x + self.attn(x_ln, x_ln, x_ln, is_causal=is_causal)
        
        x = x + self.mlp(self.ln_2(x))
        
        return x

    def forward_xl_windowed(self, x, is_causal=True):
        x_ln = self.ln_1(x)
        x = x + self.attn.forward_xl_windowed(x_ln, x_ln, x_ln, is_causal=is_causal)
        
        x = x + self.mlp(self.ln_2(x))
        
        return x    
    


class GPT_Transformer(nsd_Module):
    def __init__(self, d_model, num_blks, nhead, seq_len,
                 dropout = 0.1, bias=False, report_params_count=True,
                 ffn_mult=4):
        super().__init__()

        #self.pos_encoding = nn.Sequential(nn.Linear(seq_len, d_model, bias=False),
        #                                  LayerNormNoBias(d_model)) #Stable Embedding Layer # Requires One Hot
        self.pos_encoding = nn.Embedding(seq_len, d_model)
        
        self.final_ln = LayerNormNoBias(d_model)
        self.start_dropout = nn.Dropout(dropout)

        self.blks = nn.Sequential()
        for i in range(num_blks):
            self.blks.add_module("block"+str(i), GPT_Block(
                                d_model, nhead, dropout, bias=False, ffn_mult=ffn_mult, seq_len=seq_len))
            
        
        #nn.init.xavier_uniform_(self.pos_encoding[0].weight)
        
        self.apply(self._init_weights)
        # apply special scaled init to the residual projections, per GPT-2 paper
        for pn, p in self.named_parameters():
            if pn.endswith('proj.weight'):
                torch.nn.init.normal_(p, mean=0.0, std=0.02/math.sqrt(2 * num_blks))
        
        if report_params_count:
            params_to_count = [p for p in self.parameters() if p.requires_grad]
            print(f'GPT Transformer Parameters: {sum(p.numel() for p in params_to_count)/1e6:.2f}M')
        
    def _init_weights(self, module):
        if isinstance(module, nn.Linear):
            torch.nn.init.normal_(module.weight, mean=0.0, std=0.02)
            if module.bias is not None:
                torch.nn.init.zeros_(module.bias)
                
        elif isinstance(module, nn.Embedding):
            torch.nn.init.normal_(module.weight, mean=0.0, std=0.02)
    
        elif isinstance(module, nn.LayerNorm):
            nn.init.constant_(module.bias, 0)
            nn.init.constant_(module.weight, 1.0)

        
    def forward(self, X, is_causal=True):

        pos = torch.arange(0, self.seq_len, dtype=torch.long, device='cuda')
        pos_emb = self.pos_encoding(pos)[:X.shape[1]]
        X = self.start_dropout(X+pos_emb)

        for i, blk in enumerate(self.blks):
            X = blk(X, is_causal)
            
        return self.final_ln(X)

    def forward_xl_windowed(self, X, is_causal=True):

        pos = torch.arange(0, self.seq_len, dtype=torch.long, device='cuda')
        pos_emb = self.pos_encoding(pos)[:X.shape[1]]
        X = self.start_dropout(X+pos_emb)

        for i, blk in enumerate(self.blks):
            X = blk.forward_xl_windowed(X, is_causal)
            
        return self.final_ln(X)    


class GPT_NLP(nsd_Module):
    def __init__(self, hiddens, num_blks, nhead, seq_len, vocab_size=50257,
                 temperature=1.0, k=20, p=0.9, sampling='gpt', report_params_count=True, tied_weights=True):
        super().__init__()
        
        
        self.emb_vocab = nn.Embedding(vocab_size, hiddens)
        self.gpt = GPT_Transformer(hiddens, nhead=nhead, num_blks=num_blks)
        
        self.cls = nn.Linear(hiddens, vocab_size, bias=False)
        
        if tied_weights:
            self.emb_vocab.weight = self.cls.weight

        
        if report_params_count:
            params_to_count = [p for p in self.parameters() if p.requires_grad]
            print(f'GPT NLP Parameters: {sum(p.numel() for p in params_to_count)/1e6:.2f}M')

    def forward(self, X, is_causal=True):
        batch_size, seq_len = X.shape
        
        mask = X>self.vocab_size
        X[mask] = self.vocab_size-1
        
        X = self.emb_vocab(X)
        #cls = torch.autograd.Variable(torch.zeros(batch_size, 2, self.hiddens)).to('cuda')
        
        #X = torch.cat((X, cls), dim=1)
        X = self.gpt(X, is_causal=is_causal)

        return self.cls(X)










class GPT_Block_XL(nn.Module):
    def __init__(self, d_model, nhead, dropout=0.0, bias=False, ffn_mult=4, seq_len=8, windowed=False):
        super().__init__()
        self.ln_1 = LayerNormNoBias(d_model, bias=bias)
        if windowed:
            self.attn = Attention_XL_window(d_model, nhead, bias, dropout, seq_len=seq_len)
        else:
            self.attn = Attention_XL(d_model, nhead, bias, dropout)
        self.ln_2 = LayerNormNoBias(d_model, bias=bias)
        self.mlp = FFN(d_model, dropout, bias, ffn_mult)

    def forward(self, x, is_causal=True):
        x_ln = self.ln_1(x)
        x = x + self.attn(x_ln, x_ln, x_ln, is_causal=is_causal)
        
        x = x + self.mlp(self.ln_2(x))
        
        return x
    


class GPT_Transformer_XL(nsd_Module):
    def __init__(self, d_model, num_blks, nhead, seq_len,
                 dropout = 0.1, bias=False, report_params_count=True,
                 ffn_mult=4, windowed=False):
        super().__init__()

        #self.pos_encoding = nn.Sequential(nn.Linear(seq_len, d_model, bias=False),
        #                                  LayerNormNoBias(d_model)) #Stable Embedding Layer # Requires One Hot
        self.pos_encoding = nn.Embedding(seq_len, d_model)
        
        self.final_ln = LayerNormNoBias(d_model)
        self.start_dropout = nn.Dropout(dropout)

        self.blks = nn.Sequential()
        for i in range(num_blks):
            self.blks.add_module("block"+str(i), GPT_Block_XL(
                                d_model, nhead, dropout, bias=False, ffn_mult=ffn_mult, seq_len=seq_len, windowed=windowed))
            
        
        #nn.init.xavier_uniform_(self.pos_encoding[0].weight)
        
        self.apply(self._init_weights)
        # apply special scaled init to the residual projections, per GPT-2 paper
        for pn, p in self.named_parameters():
            if pn.endswith('proj.weight'):
                torch.nn.init.normal_(p, mean=0.0, std=0.02/math.sqrt(2 * num_blks))
        
        if report_params_count:
            params_to_count = [p for p in self.parameters() if p.requires_grad]
            print(f'GPT Transformer Parameters: {sum(p.numel() for p in params_to_count)/1e6:.2f}M')
        
    def _init_weights(self, module):
        if isinstance(module, nn.Linear):
            torch.nn.init.normal_(module.weight, mean=0.0, std=0.02)
            if module.bias is not None:
                torch.nn.init.zeros_(module.bias)
                
        elif isinstance(module, nn.Embedding):
            torch.nn.init.normal_(module.weight, mean=0.0, std=0.02)
    
        elif isinstance(module, nn.LayerNorm):
            nn.init.constant_(module.bias, 0)
            nn.init.constant_(module.weight, 1.0)

        
    def forward(self, X, is_causal=True):

        pos = torch.arange(0, self.seq_len, dtype=torch.long, device='cuda')
        pos_emb = self.pos_encoding(pos)[:X.shape[1]]
        X = self.start_dropout(X+pos_emb)

        for i, blk in enumerate(self.blks):
            X = blk(X, is_causal)
            
        return self.final_ln(X)

















class Transformer_Block_NoLN(nsd_Module):
    def __init__(self, d_model, nhead, dropout=0.0, bias=False, ffn_mult=4, stochastic_depth=1):
        super().__init__()
        self.ln_1 = LayerNormNoBias(d_model, bias=bias)
        self.attn = Attention(d_model, nhead, bias, dropout)
        self.ln_2 = LayerNormNoBias(d_model, bias=bias)
        self.mlp = FFN(d_model, dropout, bias, ffn_mult)

    def forward(self, x, is_causal=True):
        #x = renormalize(x)
        keep_path = torch.ones(x.shape[0],device='cuda')*(self.stochastic_depth if self.training else 1)
        keep_path = torch.bernoulli(keep_path)[:,None,None]

        x_ln = self.ln_1(x)
        x = x + self.attn(x_ln, x_ln, x_ln, is_causal=is_causal)*keep_path
        
        x = x + self.mlp(self.ln_2(x))*keep_path
        
        return x


class Transformer_NoDATA(nn.Module):
    def __init__(self, d_model, num_blks, nhead, seq_len,
                 dropout = 0.1, bias=False, report_params_count=True,
                 ffn_mult=4, stochastic_depth=1.0, scale_init=1):
        super().__init__()
        self.num_hiddens = d_model
        self.scale_init=scale_init
        if scale_init==1:
            self.scale_init=num_blks


        self.pos_encoding = nn.Embedding(seq_len, d_model)

        self.final_ln = LayerNormNoBias(d_model)
        self.start_dropout = nn.Dropout(dropout)
        self.seq_len = seq_len
        self.num_blks=num_blks

        self.blks = nn.Sequential()
        for i in range(num_blks):
            self.blks.add_module("block"+str(i), Transformer_Block_NoLN(
                                d_model, nhead, dropout, bias=False, ffn_mult=ffn_mult,
                                stochastic_depth=1-((1-stochastic_depth)*i/num_blks) ))


        # https://proceedings.mlr.press/v119/huang20f/huang20f.pdf

        self.apply(init_gpt)
        for pn, p in self.named_parameters():
            if pn.endswith('proj.weight'):
                torch.nn.init.normal_(p, mean=0.0, std=0.02/math.sqrt(2 * num_blks))

    def _init_weights(self, module):
        if isinstance(module, nn.Embedding):
            #torch.nn.init.normal_(module.weight, mean=0.0, std=1/math.sqrt(self.num_hiddens))
            torch.nn.init.xavier_uniform_(module.weight, gain=(torch.tensor(4*self.scale_init,dtype=torch.float)).pow(-1/4))
        
        

    def forward(self, X, is_causal=True):

        pos = torch.arange(0, self.seq_len, dtype=torch.long, device='cuda')
        pos_emb = self.pos_encoding(pos)[:X.shape[1]]
        X = self.start_dropout(X+pos_emb)
        

        for i, blk in enumerate(self.blks):
            X = blk(X, is_causal)
            
        X = self.final_ln(X)
        
        return X
    
    def no_pos(self, X, is_causal=True):
        X = self.start_dropout(X)
        
        
        for i, blk in enumerate(self.blks):
            X = blk(X, is_causal)

        X = self.final_ln(X)
        
        return X
    
    def masked(self, X, mask, is_causal=True):

        pos = torch.arange(0, self.seq_len, dtype=torch.long, device='cuda')
        pos_emb = self.pos_encoding(pos)[:X.shape[1]]
        X = self.start_dropout(X+pos_emb)
        X = X.gather(1, mask)
        
        
        for i, blk in enumerate(self.blks):
            X = blk(X, is_causal)

        X = self.final_ln(X)
        
        return X




    
def modulate(x, shift, scale):
    # x (B, T, D)
    # shift (B, D)
    # scale (B, D)
    
    return x * (1 + scale[:,None]) + shift[:,None]


class DiT_Block(nn.Module):
    def __init__(self, d_model, nhead, dropout=0.0, bias=False, ffn_mult=4):
        super().__init__()
        self.ln_1 = LayerNormNoBias(d_model, bias=bias)
        self.attn = Attention(d_model, nhead, bias, dropout)
        self.ln_2 = LayerNormNoBias(d_model, bias=bias)
        self.mlp = FFN(d_model, dropout, bias, ffn_mult)
        
        self.adaLN_modulation = nn.Sequential(
            nn.SiLU(),
            nn.Linear(d_model, 6 * d_model, bias=True)
        )

        self.ln_1.apply(init_gpt)
        self.attn.apply(init_gpt)
        self.ln_2.apply(init_gpt)
        self.mlp.apply(init_gpt)
        self.adaLN_modulation.apply(init_zeros)
        
    def forward(self, x, c):
        shift_msa, scale_msa, gate_msa, shift_mlp, scale_mlp, gate_mlp = self.adaLN_modulation(c).chunk(6, dim=1)
        
        x_ln = modulate(self.ln_1(x), shift_msa, scale_msa)
        
        x = x + (1+gate_msa[:,None]) * self.attn(x_ln, x_ln, x_ln, is_causal=False)
        x = x + (1+gate_mlp[:,None]) * self.mlp(modulate(self.ln_2(x), shift_mlp, scale_mlp))
        
        return x

    def forward_no_dit(self, x):
        x_ln = self.ln_1(x)
        x = x + self.attn(x_ln, x_ln, x_ln, is_causal=False)
        return x + self.mlp(self.ln_2(x))
    
    
class DiT_Transformer(nsd_Module):
    def __init__(self, d_model, num_blks, nhead, seq_len,
                 dropout = 0.1, bias=False, report_params_count=True,
                 ffn_mult=4, scale_init=1):
        super().__init__()
        if scale_init==1:
            scale_init=num_blks

        self.pos_encoding = nn.Embedding(seq_len, d_model)
        
        self.final_ln = LayerNormNoBias(d_model)
        self.start_dropout = nn.Dropout(dropout)
        

        self.blks = nn.Sequential()
        for i in range(num_blks):
            self.blks.add_module("block"+str(i), DiT_Block(
                                d_model, nhead, dropout, bias=False, ffn_mult=ffn_mult))
            
        
        #nn.init.xavier_uniform_(self.pos_encoding[0].weight)
        
        self.apply(init_gpt)
        self.init_weights()
        
        for pn, p in self.named_parameters():
            if pn.endswith('proj.weight'):
                torch.nn.init.normal_(p, mean=0.0, std=0.02/math.sqrt(2 * num_blks))

        if report_params_count:
            params_to_count = [p for p in self.parameters() if p.requires_grad]
            print(f'GPT Transformer Parameters: {sum(p.numel() for p in params_to_count)/1e6:.2f}M')
    
    def init_weights(self):
        
        # Zero-out adaLN modulation layers in DiT blocks:
        for block in self.blks:
            block.adaLN_modulation[-1].apply(init_zeros)
    
        
    def forward(self, X, c):
        # Input:
        # X e (B, T, D)
        # c e (B, D)
        
        pos = torch.arange(0, self.seq_len, dtype=torch.long, device='cuda')
        pos_emb = self.pos_encoding(pos)
        
        X = self.start_dropout(X+pos_emb)

        for i, blk in enumerate(self.blks):
            X = blk(X, c)
            
        return self.final_ln(X)
    

    def forward_no_dit(self, X):
        # Input:
        # X e (B, T, D)
        # c e (B, D)
        
        pos = torch.arange(0, self.seq_len, dtype=torch.long, device='cuda')
        pos_emb = self.pos_encoding(pos)
        
        X = self.start_dropout(X+pos_emb)

        for i, blk in enumerate(self.blks):
            X = blk.forward_no_dit(X)
            
        return self.final_ln(X)
    
     
    

class CrossAttention_Block(nn.Module):
    def __init__(self, d_model, nhead, dropout=0.0, bias=False):
        super().__init__()
        self.ln_1 = LayerNormNoBias(d_model, bias=bias)
        self.attn = Attention(d_model, nhead, bias, dropout)
        self.ln_2 = LayerNormNoBias(d_model, bias=bias)
        self.mlp = FFN(d_model, dropout, bias)

    def forward(self, q, k, v, is_causal=False):
        q = q + self.attn(self.ln_1(q),self.ln_1(k),self.ln_1(v), is_causal=is_causal)
        q = q + self.mlp(self.ln_2(q))
        return q
    


class CrossAttention_Transformer(nn.Module):
    def __init__(self, d_model, num_blks, nhead, seq_len, dim_feedforward=2048,  
                 dropout = 0.1, vocab_size = 0, bias=False):
        super().__init__()

        self.pos_encoding = nn.Embedding(seq_len, d_model)
        
        self.out_ln = LayerNormNoBias(d_model)
        self.start_dropout = nn.Dropout(dropout)
        self.seq_len = seq_len

        self.blks = nn.Sequential()
        for i in range(num_blks):
            self.blks.add_module("block"+str(i), CrossAttention_Block(
                                d_model, nhead, dropout, bias=False))
            
        
        nn.init.xavier_uniform_(self.pos_encoding[0].weight)


        
        # apply special scaled init to the residual projections, per GPT-2 paper
        for pn, p in self.named_parameters():
            if pn.endswith('proj.weight'):
                torch.nn.init.normal_(p, mean=0.0, std=0.02/math.sqrt(2 * num_blks))
        self.apply(self._init_weights)
        
        
    def _init_weights(self, module):
        if isinstance(module, nn.Linear):
            torch.nn.init.normal_(module.weight, mean=0.0, std=0.02)
            #torch.nn.init.xavier_normal_(module.weight)
            if module.bias is not None:
                torch.nn.init.zeros_(module.bias)
        elif isinstance(module, nn.Embedding):
            torch.nn.init.normal_(module.weight, mean=0.0, std=0.02)
            #torch.nn.init.xavier_normal_(module.weight)
    
    def forward(self, q, k, v, is_causal=False):

        pos = torch.arange(0, self.seq_len, dtype=torch.long, device='cuda')
        pos_emb = self.pos_encoding(pos)
        q = self.start_dropout(q+pos_emb)
        k = self.start_dropout(k+pos_emb)
        v = self.start_dropout(v+pos_emb)

        for i, blk in enumerate(self.blks):
            q = blk.forward(q,k,v, is_causal)
        q = self.out_ln(q)
        return q


    
    







class SpatialNorm(nn.Module):
    """
    Spatially conditioned normalization as defined in https://arxiv.org/abs/2209.09002.

    Args:
        f_channels (`int`):
            The number of channels for input to group normalization layer, and output of the spatial norm layer.
        zq_channels (`int`):
            The number of channels for the quantized vector as described in the paper.
    """

    def __init__(
        self,
        f_channels: int,
        zq_channels: int,
    ):
        super().__init__()
        self.norm_layer = nn.GroupNorm(num_channels=f_channels, num_groups=32, eps=1e-6, affine=True)
        self.conv_y = nn.Conv2d(zq_channels, f_channels, kernel_size=1, stride=1, padding=0)
        self.conv_b = nn.Conv2d(zq_channels, f_channels, kernel_size=1, stride=1, padding=0)

    def forward(self, f: torch.FloatTensor, zq: torch.FloatTensor) -> torch.FloatTensor:
        f_size = f.shape[-2:]
        zq = F.interpolate(zq, size=f_size, mode="nearest")
        norm_f = self.norm_layer(f)
        new_f = norm_f * self.conv_y(zq) + self.conv_b(zq)
        return new_f
    
    
    
class ConvAttnBlock(nn.Module):
    def __init__(self, in_channels, t_emb_dim=512, dropout=0, nhead=8):
        super().__init__()
        self.in_channels = in_channels
        self.dropout = dropout
        self.nhead = in_channels//nhead
        
        self.norm = nn.GroupNorm(32, in_channels)
        
        #self.norm = SpatialNorm(in_channels, t_emb_dim)

        self.q = torch.nn.Linear(in_channels,
                                 in_channels)
        self.k = torch.nn.Linear(in_channels,
                                 in_channels)
        self.v = torch.nn.Linear(in_channels,
                                 in_channels)
        self.proj_out = torch.nn.Linear(in_channels,
                                        in_channels)
        self.q.apply(init_cnn)
        self.k.apply(init_cnn)
        self.v.apply(init_cnn)
        self.proj_out.apply(init_cnn)


    def forward(self, x, t_emb=None):
        b, c, h, w = x.shape

        h_ = x
        h_ = self.norm(h_).view(b, c, h*w).transpose(1,2)
        
        #h_ = self.norm(h_, t_emb)
        q = self.q(h_)
        k = self.k(h_)
        v = self.v(h_)
        q = q.contiguous().view(b, h*w, self.nhead, c//self.nhead).transpose(1, 2)
        k = k.contiguous().view(b, h*w, self.nhead, c//self.nhead).transpose(1, 2)
        v = k.contiguous().view(b, h*w, self.nhead, c//self.nhead).transpose(1, 2)

        # compute attention

        with torch.backends.cuda.sdp_kernel():
            h_ = torch.nn.functional.scaled_dot_product_attention(q, k, v, attn_mask=None, dropout_p=self.dropout if self.training else 0, is_causal=False)

        h_ = h_.transpose(1, 2).view(b, h*w, c)
        h_ = self.proj_out(h_).transpose(1,2)

        h_ = h_.reshape(b, c, h, w)

        return x+h_

    """
    def forward(self, x, t_emb=None):
        h_ = x
        h_ = self.norm(h_)
        print(f"{h_.shape}")
        #h_ = self.norm(h_, t_emb)
        q = self.q(h_)
        k = self.k(h_)
        v = self.v(h_)

        # compute attention
        b, c, h, w = q.shape
        q = q.view(b, c, h*w).transpose(1,2)
        k = k.view(b, c, h*w).transpose(1,2)
        v = v.view(b, c, h*w).transpose(1,2)
        '''
        w_ = torch.bmm(q, k)     # b,hw,hw    w[b,i,j]=sum_c q[b,i,c]k[b,c,j]
        w_ = w_ * (int(c)**(-0.5))
        w_ = torch.nn.functional.softmax(w_, dim=2)

        w_ = w_.permute(0, 2, 1)   # b,hw,hw (first hw of k, second of q)
        # b, c,hw (hw of q) h_[b,c,j] = sum_i v[b,c,i] w_[b,i,j]
        h_ = torch.bmm(v, w_)
        '''
        with torch.backends.cuda.sdp_kernel():
            h_ = torch.nn.functional.scaled_dot_product_attention(q, k, v, attn_mask=None, dropout_p=self.dropout if self.training else 0, is_causal=False)

        h_ = h_.transpose(1, 2)
        h_ = h_.reshape(b, c, h, w)

        h_ = self.proj_out(h_)

        return x+h_
    """

In [3]:
import torch
import torch.nn as nn
import torch.nn.functional as F

import math




class MLP(nn.Module):
    def __init__(self, in_hiddens=512, med_hiddens=512, out_hiddens=512, layers=1,
                 init=init_relu, in_act=nn.SiLU(), out_act=nn.Identity(),
                 ln_eps=1e-3, last_init=init_xavier, bias=True):
        super().__init__()
        # Special MLP with custom options for non last layer and last layer Linears.

        modules=[]
        self.init=init
        self.last_init=last_init
        
        hiddens=in_hiddens
        _out_hiddens = med_hiddens
        act = in_act
        for l in range(layers):
            last_layer = l==(layers-1)
            if last_layer:
                _out_hiddens = out_hiddens
                act = out_act
            modules.append(nn.Linear(hiddens, _out_hiddens, bias=bias))
            
            modules.append(act)
            hiddens=med_hiddens
        self.mlp=nn.Sequential(*modules)
        #print(self.mlp)

        
        self.init_weights()

    def turn_off_grads(self):
        for layer in self.mlp:
            if hasattr(layer, 'weight'):
                layer.weight.requires_grad=False
            if hasattr(layer, 'bias'):
                layer.bias.requires_grad=False
    def init_weights(self):
        self.mlp.apply(self.init)
        self.mlp[-2].apply(self.last_init)
        
        
    def forward(self,X):
        return self.mlp(X)


In [4]:
import torch
import torch.nn as nn
import torch.nn.functional as F


import numpy as np
import random




    
    
    
class ViT(nsd_Module):
    def __init__(self, d_model, num_blks, nhead, patches=(16,16), img_size=(96,72), first_channel=3,
                 dropout=0, bias=True, report_params_count=True,
                 ffn_mult=4, stochastic_depth=1.0):
        super().__init__()

        self.patches = np.prod(patches)
        self.N = int(np.prod(img_size) / self.patches)

        self.in_proj = MLP(first_channel * self.patches, out_hiddens=d_model, last_init=init_gpt)

        # Classe "token" de pooling
        self.cls_token = nn.Parameter(torch.zeros(1, 1, d_model))
        self.transformer = Transformer_NoDATA(
            d_model, num_blks, nhead, seq_len=self.N + 1,
            dropout=dropout, bias=bias, report_params_count=False,
            ffn_mult=ffn_mult, stochastic_depth=stochastic_depth
        )

        # Inicializar pesos do CLS token
        nn.init.normal_(self.cls_token, std=0.02)

        if report_params_count:
            params_count(self, 'ViT')

    def patchify(self, X):
        # Dividir a imagem em patches e reformatar
        X = X.view(-1, self.patches * self.first_channel, self.N).transpose(-2, -1)
        return X

    def proj(self, X):
        X = self.patchify(X)
        return self.in_proj(X)
    
    def transformers(self, X):
        
        X = self.transformer(X, is_causal=False).view(-1, self.stacked_frames*self.N, self.d_model)
        X = self.temporal_aggr(X, is_causal=False)
        
        return X[:,-self.N:]

    def masked(self, X, mask):
        
        X = self.transformer.masked(X, mask, is_causal=False).view(-1, self.stacked_frames*mask.shape[1], self.d_model)
        X = self.temporal_aggr(X, is_causal=False)
        
        return X[:,-mask.shape[1]:]
    
    def forward(self, X):
        # Criar patches e projetar
        X = self.patchify(X)
        X = self.in_proj(X)

        # Adicionar o token de classe
        batch_size = X.size(0)
        cls_tokens = self.cls_token.expand(batch_size, -1, -1)
        X = torch.cat((cls_tokens, X), dim=1)

        # Passar pelo transformer
        X = self.transformer(X, is_causal=False)

        # Retornar apenas o token de classe
        return X[:, 0]  # Forma: [batch_size, d_model]




class ViT_IWM(nsd_Module):
    def __init__(self, encoder,
                 d_predictor, num_blks_predictor, nhead_predictor,
                 stacked_frames=4,
                 mask_samples=4,
                 masked_tokens=4,
                 num_augmentations=3,
                 first_channel=3,
                 dropout = 0, bias=True, report_params_count=True,
                 ffn_mult=4, stochastic_depth=1.0):
        super().__init__()
        
        self.d_encoder = encoder.d_model
        
        
        self.first_channel = encoder.first_channel*stacked_frames
        self.img_size = encoder.img_size
        self.patches = encoder.patches
        self.N = encoder.N
        self.masked_tokens=self.N//masked_tokens

        # Mask
        self.mask = MLP(1, out_hiddens=d_predictor, last_init=init_xavier)
        self.mask_pos_encoding = nn.Embedding(self.N, d_predictor)
        self.mask_mlp = MLP(d_predictor+num_augmentations, d_predictor, d_predictor, layers=4, in_act=nn.ReLU(), out_act=nn.ReLU(),
                            init=init_relu, last_init=init_gpt)
        self.mask_pos_encoding.apply(init_gpt)

        # Encoder
        self.encoder = encoder

        # Predictor
        self.predictor_proj = MLP(self.d_encoder, out_hiddens=d_predictor, last_init=init_gpt) \
                              if d_predictor!=self.d_encoder else nn.Identity()

        self.predictor = Transformer_NoDATA(d_predictor, num_blks_predictor, nhead_predictor, seq_len=self.N+1,
                 dropout = dropout, bias=bias, report_params_count=False,
                 ffn_mult=ffn_mult, scale_init=num_blks_predictor, stochastic_depth=stochastic_depth)


        self.predictor_out_proj = MLP(d_predictor, out_hiddens=self.d_encoder, last_init=init_gpt) \
                              if d_predictor!=self.d_encoder else nn.Identity()

        if report_params_count:
            params_count(self, 'IWM')

    def hard_reset(self, new_network, alpha):
        network_ema(self.encoder, new_network.encoder, alpha)

        network_ema(self.predictor_proj, new_network.predictor_proj, alpha)
        network_ema(self.predictor, new_network.predictor, alpha)

        network_ema(self.mask, new_network.mask, alpha)
        network_ema(self.mask_pos_encoding, new_network.mask_pos_encoding, alpha)
        network_ema(self.mask_mlp, new_network.mask_mlp, alpha)

    def get_random_mask(self, X, augmentations):
        B, T, D = X.shape
        B = B//self.stacked_frames
        m_rand = self.mask_samples*random.randint(0,int(self.masked_tokens*2//self.mask_samples)-1)
        
        
        # Get non-overlapping mask
        mask_pos = torch.arange(T, device='cuda')[None,:].repeat_interleave(B,0).float()
        mask_pos = torch.multinomial(mask_pos, num_samples=self.masked_tokens+m_rand, replacement=False)
        
        mask_pos_repeat = mask_pos.repeat_interleave(self.stacked_frames,0)

        # Get the mask complement
        full_range = torch.arange(T,device='cuda')[None,:].repeat_interleave(B,0)

        complement = torch.zeros_like(full_range, dtype=torch.bool)
        complement.scatter_(1, mask_pos, 1)

        complement = full_range[~complement].view(mask_pos.shape[0], -1)
        

        # Mask mlp for geometric + augmentation informations
        mask = self.mask(torch.ones(B*self.stacked_frames,self.masked_tokens+m_rand,1, device='cuda'))

        mask = mask + self.mask_pos_encoding(mask_pos_repeat)

        augmentations = augmentations.repeat_interleave(self.stacked_frames,0)[:,None].expand(-1,mask.shape[1],-1)

        mask = self.mask_mlp(torch.cat((mask,augmentations),-1))

        # Expand to allow gather
        mask_pos = mask_pos[:,:,None].expand(-1,-1,X.shape[-1])
        complement = complement[:,:,None].expand(-1,-1,X.shape[-1])

        return X, mask_pos, complement, mask
        
    def patchify(self, X):
        X = X.view(-1, self.patches*self.first_channel, self.N).transpose(-2,-1)
        return X
    def get_block_mask(self, batch_size):
        
        all_wins = torch.zeros(self.first_channel,*self.img_size).long()
        
        b_mask, b_complement = [], []
        min_c_len = 999 # for trunked collate
        #min_m=999
        
        for b in range(batch_size):
            wins, complements = [], []
            for m in range(self.mask_samples):
                w,h = self.img_size


                min_ar, max_ar = (0.75, 1.5)
                aspect_ratio = min_ar + random.random() * (max_ar - min_ar)

                h_sample_size = int( (h*(torch.tensor(random.random())*0.05+0.15)) * aspect_ratio)

                w_wins, h_wins = torch.randint(0,h-h_sample_size,(2,)).split(1,0)
                win=all_wins.clone()


                for w_win, h_win in zip(w_wins, h_wins):
                    win[...,w_win:w_win+h_sample_size, h_win:h_win+h_sample_size]=1

                
                win = self.patchify(win.float()).mean(-1)
                
                values, idx = win.sort(descending=True)

                idx = idx[:,:self.N//4]
                
                #min_m = min(min_m, len(values[0].nonzero()))
                wins.append(idx)


            wins = torch.stack(wins).squeeze()


            full_range = torch.arange(win.shape[1])

            complement = torch.zeros_like(full_range, dtype=torch.bool)
            complement.scatter_(0, wins.view(-1).unique(), 1)

            complement = full_range[~complement]
            min_c_len = min(min_c_len, len(complement))
            
            
            b_mask.append(wins)
            b_complement.append(complement)
            
            
        for i in range(len(b_complement)):
            b_complement[i] = b_complement[i][:min_c_len]
        
        b_mask = torch.stack(b_mask).cuda()
        b_complement = torch.stack(b_complement).cuda()
        #print(min_m)
        
        return b_mask, b_complement
    
    def get_mask(self, X, augmentations):
        B = X.shape[0]//self.stacked_frames

        
        mask_pos, complement = self.get_block_mask(B)
        mask_pos = mask_pos.view(B*self.mask_samples,-1)
        
        
        
        mask = self.mask(torch.ones(B*self.mask_samples,1,1, device='cuda'))
        
        mask = mask + self.mask_pos_encoding(mask_pos)
        #augmentations = augmentations.repeat_interleave(self.stacked_frames*self.mask_samples,0)[:,None].expand(-1,mask.shape[1],-1)
        #mask = self.mask_mlp(torch.cat((mask,augmentations),-1))


        mask_pos = mask_pos[...,None].expand(-1,-1,self.d_encoder)
        complement = complement[...,None].expand(-1,-1,self.d_encoder).repeat_interleave(self.stacked_frames,0)
        
        return mask_pos, mask, complement
    
    def encode(self, X):
        return self.encoder(X)


    def forward(self, X, y, augmentations):
        X = self.encoder.proj(X)
        
        mask_pos, mask, complement = self.get_mask(X, augmentations)
        
        X = self.encoder.masked(X, complement)
        X = self.predictor_proj(X)

        X = torch.cat((X.repeat_interleave(4,0),mask),1)
        
        X = self.predictor.no_pos(X)[:,-mask.shape[1]:]
        X = self.predictor_out_proj(X)
        
        return X, y.repeat_interleave(4,0).gather(1,mask_pos)

In [5]:
def salvar_checkpoint_vit(modelo, classifier, otimizador, epoca, caminho):
    checkpoint = {
        'modelo': modelo.state_dict(),
        'classifier': classifier.state_dict(),
        'otimizador': otimizador.state_dict(),
        'epoca': epoca
    }
    torch.save(checkpoint, caminho)
    print(f"Checkpoint salvo: {caminho}")


# Função para carregar checkpoints
def carregar_checkpoint_vit(modelo, classifier, otimizador, caminho):
    if os.path.exists(caminho):
        checkpoint = torch.load(caminho)
        modelo.load_state_dict(checkpoint['modelo'])
        classifier.load_state_dict(checkpoint['classifier'])
        otimizador.load_state_dict(checkpoint['otimizador'])
        epoca_inicial = checkpoint['epoca']
        print(f"Checkpoint carregado: {caminho} (Época {epoca_inicial})")
        return epoca_inicial
    else:
        print(f"Nenhum checkpoint encontrado em: {caminho}. Começando do zero.")
        return 0


In [6]:
import os
import time
import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import DataLoader
from torchvision import datasets, transforms
from tqdm import tqdm

# Configuração do dispositivo
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
print(f"Usando o dispositivo: {device}")

# Configurações gerais
numero_de_epocas = 300
bs = 64
image_size = (96, 72)  # Atualizado para corresponder ao modelo customizado
patches = (16, 16)  # Tamanho do patch do ViT
num_classes = 7  # Atualize de acordo com seu dataset
checkpoint_dir = '../checkpoints/'

# Criar diretório de checkpoints se não existir
os.makedirs(checkpoint_dir, exist_ok=True)

# Transformações para as imagens
transformacoes_de_imagens = {
    'treino': transforms.Compose([
        transforms.Resize(size=image_size),
        transforms.RandomHorizontalFlip(p=0.5),
        transforms.RandomVerticalFlip(p=0.2),
        transforms.RandomRotation(degrees=30),
        transforms.ColorJitter(brightness=0.2, contrast=0.2, saturation=0.2, hue=0.1),
        transforms.ToTensor(),
    ]),

    'validacao': transforms.Compose([
        transforms.Resize(size=image_size),
        transforms.ToTensor(),
    ])
}

# Carregar datasets
dataset = '../data/Fer-2013/'
pasta_treino = os.path.join(dataset, 'treino')
pasta_validacao = os.path.join(dataset, 'validacao')

data = {
    'treino': datasets.ImageFolder(root=pasta_treino, transform=transformacoes_de_imagens['treino']),
    'validacao': datasets.ImageFolder(root=pasta_validacao, transform=transformacoes_de_imagens['validacao'])
}

# Criar DataLoaders
data_loader_treino = DataLoader(data['treino'], batch_size=bs, shuffle=True, num_workers=4)
data_loader_validacao = DataLoader(data['validacao'], batch_size=bs, shuffle=False, num_workers=4)

# Definir o modelo ViT customizado
 

vit_model = ViT(
    d_model=512,  # Dimensão do modelo
    num_blks=12,  # Número de blocos do transformer
    nhead=8,  # Número de cabeças de atenção
    patches=patches,
    img_size=image_size,
    first_channel=3,  # Número de canais de entrada
    dropout=0.1,
    report_params_count=True
)

# Classificador para ajustar a saída do ViT
classifier = nn.Sequential(
    nn.Linear(512, 512),
    nn.ReLU(),
    nn.Dropout(0.3),
    nn.Linear(512, num_classes)
)

vit_model.to(device)
classifier.to(device)

# Definir a função de erro e o otimizador
funcao_erro = nn.CrossEntropyLoss()  # Negative Log Likelihood Loss
otimizador = optim.AdamW(
    list(vit_model.parameters()) + list(classifier.parameters()), 
    lr=0.0001
)

checkpoint_path = os.path.join(checkpoint_dir, 'ultimo_checkpoint_nosavedata01.pth')
epoca_inicial = carregar_checkpoint_vit(vit_model, classifier, otimizador, checkpoint_path)

# Atualizar a função `treinar_e_validar` para salvar sempre no mesmo arquivo o último checkpoint
def treinar_e_validar(modelo, classifier, metrica_erro, otimizador_sgd, epocas=25, iniciar_epoca=0, melhor_acuracia=0.0):
    scaler = torch.cuda.amp.GradScaler()  # Inicializar GradScaler para Mixed Precision
    historico = []

    for epoca in range(iniciar_epoca, epocas):
        inicio_epoca = time.time()
        print(f"\nÉpoca {epoca + 1}/{epocas}")

        # Modo de treinamento
        modelo.train()
        classifier.train()
        erro_treino = 0.0
        acuracia_treino = 0.0

        for entradas, labels in tqdm(data_loader_treino, desc="Treinando"):
            entradas, labels = entradas.to(device), labels.to(device)
            otimizador_sgd.zero_grad()

            # Forward pass
            with torch.cuda.amp.autocast():  # Mixed Precision
                features = modelo(entradas)  # Extrair features do ViT
                saidas = classifier(features)  # Passar pelo classificador
                erro = metrica_erro(saidas, labels)  # Calcular perda

            # Backward pass
            scaler.scale(erro).backward()
            scaler.step(otimizador_sgd)
            scaler.update()

            erro_treino += erro.item() * entradas.size(0)
            _, preds = torch.max(saidas, 1)
            acuracia_treino += torch.sum(preds == labels.data)

        # Modo de avaliação
        modelo.eval()
        classifier.eval()
        erro_validacao = 0.0
        acuracia_validacao = 0.0

        # Inicializar variáveis para calcular a acurácia por classe
        total_por_classe = torch.zeros(num_classes, device=device)
        corretos_por_classe = torch.zeros(num_classes, device=device)

        with torch.no_grad():
            for entradas, labels in tqdm(data_loader_validacao, desc="Validando"):
                entradas, labels = entradas.to(device), labels.to(device)
                with torch.cuda.amp.autocast():
                    features = modelo(entradas)
                    saidas = classifier(features)
                    erro = metrica_erro(saidas, labels)

                erro_validacao += erro.item() * entradas.size(0)
                _, preds = torch.max(saidas, 1)
                acuracia_validacao += torch.sum(preds == labels.data)

                # Atualizar contadores por classe
                for classe in range(num_classes):
                    total_por_classe[classe] += torch.sum(labels == classe)
                    corretos_por_classe[classe] += torch.sum((preds == classe) & (labels == classe))

        # Calcular métricas
        erro_medio_treino = erro_treino / len(data['treino'])
        acuracia_medio_treino = acuracia_treino.double() / len(data['treino'])
        erro_medio_validacao = erro_validacao / len(data['validacao'])
        acuracia_medio_validacao = acuracia_validacao.double() / len(data['validacao'])

        historico.append([erro_medio_treino, erro_medio_validacao, acuracia_medio_treino, acuracia_medio_validacao])

        print(f"Treino - Erro: {erro_medio_treino:.4f}, Acurácia: {acuracia_medio_treino:.4f}")
        print(f"Validação - Erro: {erro_medio_validacao:.4f}, Acurácia: {acuracia_medio_validacao:.4f}")

        # Mostrar acurácia por classe
        print("Acurácia por classe na validação:")
        for classe in range(num_classes):
            taxa_acerto = (corretos_por_classe[classe] / total_por_classe[classe]).item() if total_por_classe[classe] > 0 else 0.0
            print(f"Classe {classe}: {taxa_acerto * 100:.2f}%")

        # Salvar checkpoints
        salvar_checkpoint_vit(modelo, classifier, otimizador_sgd, epoca + 1, checkpoint_path)

        # Atualizar o melhor modelo
        if acuracia_medio_validacao > melhor_acuracia:
            melhor_acuracia = acuracia_medio_validacao
            torch.save(modelo.state_dict(), 'melhor_modelo_nosavedata01.pth')
            torch.save(classifier.state_dict(), 'melhor_classifier_nosavedata01.pth')
            print("Melhor modelo salvo!")

    return historico


# Treinar o modelo
historico = treinar_e_validar(vit_model, classifier, funcao_erro, otimizador, numero_de_epocas, iniciar_epoca=epoca_inicial)

Usando o dispositivo: cuda:0
ViT Parameters: 38.17M


  checkpoint = torch.load(caminho)
  scaler = torch.cuda.amp.GradScaler()  # Inicializar GradScaler para Mixed Precision


Checkpoint carregado: ../checkpoints/ultimo_checkpoint_nosavedata01.pth (Época 193)

Época 194/300


  with torch.cuda.amp.autocast():  # Mixed Precision
  self.gen = func(*args, **kwds)
  y = torch.nn.functional.scaled_dot_product_attention(q, k, v, attn_mask=None, dropout_p=self.dropout if self.training else 0, is_causal=is_causal)
Treinando: 100%|██████████| 449/449 [07:16<00:00,  1.03it/s]
  with torch.cuda.amp.autocast():
Validando: 100%|██████████| 57/57 [00:32<00:00,  1.76it/s]


Treino - Erro: 0.9456, Acurácia: 0.6469
Validação - Erro: 1.8062, Acurácia: 0.4558
Acurácia por classe na validação:
Classe 0: 27.62%
Classe 1: 30.36%
Classe 2: 32.66%
Classe 3: 58.77%
Classe 4: 41.35%
Classe 5: 43.64%
Classe 6: 64.10%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth
Melhor modelo salvo!

Época 195/300


Treinando: 100%|██████████| 449/449 [07:14<00:00,  1.03it/s]
Validando: 100%|██████████| 57/57 [00:31<00:00,  1.82it/s]


Treino - Erro: 0.9462, Acurácia: 0.6466
Validação - Erro: 1.8685, Acurácia: 0.4575
Acurácia por classe na validação:
Classe 0: 30.84%
Classe 1: 39.29%
Classe 2: 26.21%
Classe 3: 65.14%
Classe 4: 36.90%
Classe 5: 41.65%
Classe 6: 64.34%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth
Melhor modelo salvo!

Época 196/300


Treinando: 100%|██████████| 449/449 [07:13<00:00,  1.04it/s]
Validando: 100%|██████████| 57/57 [00:31<00:00,  1.81it/s]


Treino - Erro: 0.9559, Acurácia: 0.6447
Validação - Erro: 1.7853, Acurácia: 0.4631
Acurácia por classe na validação:
Classe 0: 28.48%
Classe 1: 35.71%
Classe 2: 39.92%
Classe 3: 61.01%
Classe 4: 39.21%
Classe 5: 40.89%
Classe 6: 62.65%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth
Melhor modelo salvo!

Época 197/300


Treinando: 100%|██████████| 449/449 [07:13<00:00,  1.03it/s]
Validando: 100%|██████████| 57/57 [00:31<00:00,  1.82it/s]


Treino - Erro: 0.9384, Acurácia: 0.6456
Validação - Erro: 1.7846, Acurácia: 0.4575
Acurácia por classe na validação:
Classe 0: 40.90%
Classe 1: 39.29%
Classe 2: 28.63%
Classe 3: 58.99%
Classe 4: 37.89%
Classe 5: 38.13%
Classe 6: 67.47%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 198/300


Treinando: 100%|██████████| 449/449 [07:13<00:00,  1.03it/s]
Validando: 100%|██████████| 57/57 [00:31<00:00,  1.81it/s]


Treino - Erro: 0.9380, Acurácia: 0.6510
Validação - Erro: 1.8308, Acurácia: 0.4464
Acurácia por classe na validação:
Classe 0: 37.47%
Classe 1: 41.07%
Classe 2: 33.87%
Classe 3: 57.77%
Classe 4: 41.02%
Classe 5: 31.55%
Classe 6: 63.61%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 199/300


Treinando: 100%|██████████| 449/449 [07:13<00:00,  1.04it/s]
Validando: 100%|██████████| 57/57 [00:31<00:00,  1.81it/s]


Treino - Erro: 0.9391, Acurácia: 0.6483
Validação - Erro: 1.7830, Acurácia: 0.4692
Acurácia por classe na validação:
Classe 0: 29.12%
Classe 1: 32.14%
Classe 2: 32.46%
Classe 3: 69.39%
Classe 4: 41.52%
Classe 5: 33.84%
Classe 6: 66.27%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth
Melhor modelo salvo!

Época 200/300


Treinando: 100%|██████████| 449/449 [07:13<00:00,  1.04it/s]
Validando: 100%|██████████| 57/57 [00:31<00:00,  1.81it/s]


Treino - Erro: 0.9281, Acurácia: 0.6515
Validação - Erro: 1.8076, Acurácia: 0.4703
Acurácia por classe na validação:
Classe 0: 31.48%
Classe 1: 41.07%
Classe 2: 33.27%
Classe 3: 65.92%
Classe 4: 41.19%
Classe 5: 35.22%
Classe 6: 68.19%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth
Melhor modelo salvo!

Época 201/300


Treinando: 100%|██████████| 449/449 [07:13<00:00,  1.04it/s]
Validando: 100%|██████████| 57/57 [00:31<00:00,  1.81it/s]


Treino - Erro: 0.9250, Acurácia: 0.6543
Validação - Erro: 1.8163, Acurácia: 0.4595
Acurácia por classe na validação:
Classe 0: 30.62%
Classe 1: 33.93%
Classe 2: 29.03%
Classe 3: 65.59%
Classe 4: 37.89%
Classe 5: 37.67%
Classe 6: 67.47%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 202/300


Treinando: 100%|██████████| 449/449 [07:13<00:00,  1.04it/s]
Validando: 100%|██████████| 57/57 [00:31<00:00,  1.81it/s]


Treino - Erro: 0.9215, Acurácia: 0.6559
Validação - Erro: 1.9164, Acurácia: 0.4648
Acurácia por classe na validação:
Classe 0: 27.19%
Classe 1: 37.50%
Classe 2: 39.31%
Classe 3: 61.79%
Classe 4: 42.67%
Classe 5: 34.30%
Classe 6: 69.64%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 203/300


Treinando: 100%|██████████| 449/449 [07:13<00:00,  1.04it/s]
Validando: 100%|██████████| 57/57 [00:31<00:00,  1.81it/s]


Treino - Erro: 0.9211, Acurácia: 0.6565
Validação - Erro: 1.8430, Acurácia: 0.4700
Acurácia por classe na validação:
Classe 0: 34.48%
Classe 1: 41.07%
Classe 2: 35.28%
Classe 3: 63.91%
Classe 4: 40.53%
Classe 5: 34.92%
Classe 6: 67.95%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 204/300


Treinando: 100%|██████████| 449/449 [07:13<00:00,  1.04it/s]
Validando: 100%|██████████| 57/57 [00:31<00:00,  1.82it/s]


Treino - Erro: 0.9092, Acurácia: 0.6611
Validação - Erro: 1.8578, Acurácia: 0.4536
Acurácia por classe na validação:
Classe 0: 34.90%
Classe 1: 39.29%
Classe 2: 32.26%
Classe 3: 60.22%
Classe 4: 33.77%
Classe 5: 38.90%
Classe 6: 68.67%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 205/300


Treinando: 100%|██████████| 449/449 [07:13<00:00,  1.04it/s]
Validando: 100%|██████████| 57/57 [00:31<00:00,  1.81it/s]


Treino - Erro: 0.9144, Acurácia: 0.6556
Validação - Erro: 1.8412, Acurácia: 0.4717
Acurácia por classe na validação:
Classe 0: 32.33%
Classe 1: 37.50%
Classe 2: 30.44%
Classe 3: 64.25%
Classe 4: 42.83%
Classe 5: 37.83%
Classe 6: 69.40%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth
Melhor modelo salvo!

Época 206/300


Treinando: 100%|██████████| 449/449 [07:13<00:00,  1.04it/s]
Validando: 100%|██████████| 57/57 [00:31<00:00,  1.81it/s]


Treino - Erro: 0.9142, Acurácia: 0.6590
Validação - Erro: 1.9136, Acurácia: 0.4597
Acurácia por classe na validação:
Classe 0: 33.83%
Classe 1: 25.00%
Classe 2: 32.66%
Classe 3: 67.37%
Classe 4: 40.86%
Classe 5: 31.70%
Classe 6: 62.17%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 207/300


Treinando: 100%|██████████| 449/449 [07:13<00:00,  1.04it/s]
Validando: 100%|██████████| 57/57 [00:31<00:00,  1.81it/s]


Treino - Erro: 0.9091, Acurácia: 0.6602
Validação - Erro: 1.9018, Acurácia: 0.4642
Acurácia por classe na validação:
Classe 0: 34.90%
Classe 1: 39.29%
Classe 2: 29.44%
Classe 3: 67.49%
Classe 4: 43.00%
Classe 5: 33.08%
Classe 6: 61.20%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 208/300


Treinando: 100%|██████████| 449/449 [07:13<00:00,  1.04it/s]
Validando: 100%|██████████| 57/57 [00:31<00:00,  1.82it/s]


Treino - Erro: 0.9016, Acurácia: 0.6625
Validação - Erro: 1.8905, Acurácia: 0.4617
Acurácia por classe na validação:
Classe 0: 32.33%
Classe 1: 32.14%
Classe 2: 34.07%
Classe 3: 70.73%
Classe 4: 36.74%
Classe 5: 31.70%
Classe 6: 61.69%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 209/300


Treinando: 100%|██████████| 449/449 [07:13<00:00,  1.04it/s]
Validando: 100%|██████████| 57/57 [00:33<00:00,  1.68it/s]


Treino - Erro: 0.8940, Acurácia: 0.6634
Validação - Erro: 1.8535, Acurácia: 0.4648
Acurácia por classe na validação:
Classe 0: 26.55%
Classe 1: 28.57%
Classe 2: 39.72%
Classe 3: 66.59%
Classe 4: 40.36%
Classe 5: 36.91%
Classe 6: 60.00%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 210/300


Treinando: 100%|██████████| 449/449 [07:13<00:00,  1.04it/s]
Validando: 100%|██████████| 57/57 [00:31<00:00,  1.82it/s]


Treino - Erro: 0.8871, Acurácia: 0.6684
Validação - Erro: 1.9428, Acurácia: 0.4592
Acurácia por classe na validação:
Classe 0: 30.41%
Classe 1: 28.57%
Classe 2: 28.83%
Classe 3: 69.05%
Classe 4: 37.07%
Classe 5: 30.63%
Classe 6: 73.25%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 211/300


Treinando: 100%|██████████| 449/449 [07:13<00:00,  1.04it/s]
Validando: 100%|██████████| 57/57 [00:31<00:00,  1.80it/s]


Treino - Erro: 0.8967, Acurácia: 0.6664
Validação - Erro: 1.8436, Acurácia: 0.4544
Acurácia por classe na validação:
Classe 0: 37.47%
Classe 1: 48.21%
Classe 2: 32.46%
Classe 3: 65.70%
Classe 4: 36.74%
Classe 5: 30.02%
Classe 6: 62.89%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 212/300


Treinando: 100%|██████████| 449/449 [07:13<00:00,  1.04it/s]
Validando: 100%|██████████| 57/57 [00:31<00:00,  1.80it/s]


Treino - Erro: 0.8833, Acurácia: 0.6700
Validação - Erro: 1.8945, Acurácia: 0.4611
Acurácia por classe na validação:
Classe 0: 32.76%
Classe 1: 35.71%
Classe 2: 29.03%
Classe 3: 62.79%
Classe 4: 42.17%
Classe 5: 34.00%
Classe 6: 71.81%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 213/300


Treinando: 100%|██████████| 449/449 [07:13<00:00,  1.04it/s]
Validando: 100%|██████████| 57/57 [00:31<00:00,  1.82it/s]


Treino - Erro: 0.8785, Acurácia: 0.6756
Validação - Erro: 1.9227, Acurácia: 0.4636
Acurácia por classe na validação:
Classe 0: 30.62%
Classe 1: 33.93%
Classe 2: 32.06%
Classe 3: 65.14%
Classe 4: 43.66%
Classe 5: 33.23%
Classe 6: 66.99%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 214/300


Treinando: 100%|██████████| 449/449 [07:12<00:00,  1.04it/s]
Validando: 100%|██████████| 57/57 [00:31<00:00,  1.82it/s]


Treino - Erro: 0.8713, Acurácia: 0.6741
Validação - Erro: 1.8869, Acurácia: 0.4667
Acurácia por classe na validação:
Classe 0: 34.05%
Classe 1: 35.71%
Classe 2: 27.42%
Classe 3: 65.03%
Classe 4: 41.85%
Classe 5: 35.07%
Classe 6: 71.08%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 215/300


Treinando: 100%|██████████| 449/449 [07:12<00:00,  1.04it/s]
Validando: 100%|██████████| 57/57 [00:31<00:00,  1.83it/s]


Treino - Erro: 0.8664, Acurácia: 0.6770
Validação - Erro: 1.9225, Acurácia: 0.4645
Acurácia por classe na validação:
Classe 0: 34.26%
Classe 1: 33.93%
Classe 2: 24.40%
Classe 3: 59.55%
Classe 4: 51.40%
Classe 5: 39.20%
Classe 6: 64.10%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 216/300


Treinando: 100%|██████████| 449/449 [07:12<00:00,  1.04it/s]
Validando: 100%|██████████| 57/57 [00:31<00:00,  1.83it/s]


Treino - Erro: 0.8723, Acurácia: 0.6764
Validação - Erro: 1.8810, Acurácia: 0.4631
Acurácia por classe na validação:
Classe 0: 40.26%
Classe 1: 41.07%
Classe 2: 33.47%
Classe 3: 61.12%
Classe 4: 37.56%
Classe 5: 34.30%
Classe 6: 68.92%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 217/300


Treinando: 100%|██████████| 449/449 [07:12<00:00,  1.04it/s]
Validando: 100%|██████████| 57/57 [00:31<00:00,  1.82it/s]


Treino - Erro: 0.8586, Acurácia: 0.6822
Validação - Erro: 1.9174, Acurácia: 0.4614
Acurácia por classe na validação:
Classe 0: 32.76%
Classe 1: 35.71%
Classe 2: 32.06%
Classe 3: 64.36%
Classe 4: 36.74%
Classe 5: 39.36%
Classe 6: 64.58%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 218/300


Treinando: 100%|██████████| 449/449 [07:12<00:00,  1.04it/s]
Validando: 100%|██████████| 57/57 [00:31<00:00,  1.82it/s]


Treino - Erro: 0.8566, Acurácia: 0.6805
Validação - Erro: 2.0087, Acurácia: 0.4550
Acurácia por classe na validação:
Classe 0: 29.55%
Classe 1: 41.07%
Classe 2: 35.69%
Classe 3: 59.22%
Classe 4: 41.52%
Classe 5: 38.74%
Classe 6: 62.65%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 219/300


Treinando: 100%|██████████| 449/449 [07:12<00:00,  1.04it/s]
Validando: 100%|██████████| 57/57 [00:31<00:00,  1.83it/s]


Treino - Erro: 0.8562, Acurácia: 0.6807
Validação - Erro: 2.0527, Acurácia: 0.4583
Acurácia por classe na validação:
Classe 0: 35.55%
Classe 1: 33.93%
Classe 2: 35.28%
Classe 3: 64.47%
Classe 4: 40.53%
Classe 5: 29.56%
Classe 6: 64.82%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 220/300


Treinando: 100%|██████████| 449/449 [07:11<00:00,  1.04it/s]
Validando: 100%|██████████| 57/57 [00:31<00:00,  1.82it/s]


Treino - Erro: 0.8545, Acurácia: 0.6788
Validação - Erro: 1.8623, Acurácia: 0.4723
Acurácia por classe na validação:
Classe 0: 33.40%
Classe 1: 41.07%
Classe 2: 33.06%
Classe 3: 65.70%
Classe 4: 43.49%
Classe 5: 35.99%
Classe 6: 63.86%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth
Melhor modelo salvo!

Época 221/300


Treinando: 100%|██████████| 449/449 [07:12<00:00,  1.04it/s]
Validando: 100%|██████████| 57/57 [00:31<00:00,  1.82it/s]


Treino - Erro: 0.8349, Acurácia: 0.6883
Validação - Erro: 2.0311, Acurácia: 0.4606
Acurácia por classe na validação:
Classe 0: 35.55%
Classe 1: 39.29%
Classe 2: 37.30%
Classe 3: 56.42%
Classe 4: 44.32%
Classe 5: 37.98%
Classe 6: 62.17%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 222/300


Treinando: 100%|██████████| 449/449 [07:13<00:00,  1.04it/s]
Validando: 100%|██████████| 57/57 [00:31<00:00,  1.80it/s]


Treino - Erro: 0.8318, Acurácia: 0.6920
Validação - Erro: 1.9444, Acurácia: 0.4664
Acurácia por classe na validação:
Classe 0: 34.26%
Classe 1: 42.86%
Classe 2: 31.25%
Classe 3: 64.47%
Classe 4: 35.58%
Classe 5: 40.12%
Classe 6: 67.47%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 223/300


Treinando: 100%|██████████| 449/449 [07:12<00:00,  1.04it/s]
Validando: 100%|██████████| 57/57 [00:31<00:00,  1.83it/s]


Treino - Erro: 0.8444, Acurácia: 0.6852
Validação - Erro: 1.9770, Acurácia: 0.4656
Acurácia por classe na validação:
Classe 0: 30.84%
Classe 1: 41.07%
Classe 2: 31.05%
Classe 3: 69.05%
Classe 4: 41.35%
Classe 5: 27.87%
Classe 6: 72.05%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 224/300


Treinando: 100%|██████████| 449/449 [07:10<00:00,  1.04it/s]
Validando: 100%|██████████| 57/57 [00:31<00:00,  1.79it/s]


Treino - Erro: 0.8406, Acurácia: 0.6872
Validação - Erro: 1.9151, Acurácia: 0.4717
Acurácia por classe na validação:
Classe 0: 32.55%
Classe 1: 44.64%
Classe 2: 35.08%
Classe 3: 64.25%
Classe 4: 40.53%
Classe 5: 37.37%
Classe 6: 66.75%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 225/300


Treinando: 100%|██████████| 449/449 [07:10<00:00,  1.04it/s]
Validando: 100%|██████████| 57/57 [00:31<00:00,  1.81it/s]


Treino - Erro: 0.8337, Acurácia: 0.6919
Validação - Erro: 1.9476, Acurácia: 0.4622
Acurácia por classe na validação:
Classe 0: 31.05%
Classe 1: 32.14%
Classe 2: 27.62%
Classe 3: 68.16%
Classe 4: 36.08%
Classe 5: 36.91%
Classe 6: 69.64%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 226/300


Treinando: 100%|██████████| 449/449 [07:11<00:00,  1.04it/s]
Validando: 100%|██████████| 57/57 [00:31<00:00,  1.83it/s]


Treino - Erro: 0.8274, Acurácia: 0.6938
Validação - Erro: 1.9677, Acurácia: 0.4611
Acurácia por classe na validação:
Classe 0: 33.83%
Classe 1: 33.93%
Classe 2: 38.10%
Classe 3: 65.36%
Classe 4: 43.00%
Classe 5: 30.47%
Classe 6: 58.80%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 227/300


Treinando: 100%|██████████| 449/449 [07:11<00:00,  1.04it/s]
Validando: 100%|██████████| 57/57 [00:31<00:00,  1.83it/s]


Treino - Erro: 0.8138, Acurácia: 0.6970
Validação - Erro: 2.1277, Acurácia: 0.4628
Acurácia por classe na validação:
Classe 0: 32.55%
Classe 1: 41.07%
Classe 2: 33.27%
Classe 3: 63.24%
Classe 4: 41.68%
Classe 5: 34.15%
Classe 6: 67.23%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 228/300


Treinando: 100%|██████████| 449/449 [07:10<00:00,  1.04it/s]
Validando: 100%|██████████| 57/57 [00:31<00:00,  1.82it/s]


Treino - Erro: 0.8234, Acurácia: 0.6959
Validação - Erro: 2.0007, Acurácia: 0.4689
Acurácia por classe na validação:
Classe 0: 38.12%
Classe 1: 41.07%
Classe 2: 32.46%
Classe 3: 66.70%
Classe 4: 39.04%
Classe 5: 32.47%
Classe 6: 66.27%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 229/300


Treinando: 100%|██████████| 449/449 [07:10<00:00,  1.04it/s]
Validando: 100%|██████████| 57/57 [00:31<00:00,  1.81it/s]


Treino - Erro: 0.8182, Acurácia: 0.6983
Validação - Erro: 2.0923, Acurácia: 0.4617
Acurácia por classe na validação:
Classe 0: 35.33%
Classe 1: 25.00%
Classe 2: 29.84%
Classe 3: 66.70%
Classe 4: 39.70%
Classe 5: 33.38%
Classe 6: 66.02%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 230/300


Treinando: 100%|██████████| 449/449 [07:10<00:00,  1.04it/s]
Validando: 100%|██████████| 57/57 [00:31<00:00,  1.83it/s]


Treino - Erro: 0.8124, Acurácia: 0.6984
Validação - Erro: 2.0025, Acurácia: 0.4673
Acurácia por classe na validação:
Classe 0: 32.33%
Classe 1: 41.07%
Classe 2: 36.49%
Classe 3: 65.47%
Classe 4: 38.55%
Classe 5: 32.62%
Classe 6: 69.64%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 231/300


Treinando: 100%|██████████| 449/449 [07:10<00:00,  1.04it/s]
Validando: 100%|██████████| 57/57 [00:31<00:00,  1.80it/s]


Treino - Erro: 0.8086, Acurácia: 0.7011
Validação - Erro: 2.0266, Acurácia: 0.4650
Acurácia por classe na validação:
Classe 0: 35.33%
Classe 1: 37.50%
Classe 2: 39.31%
Classe 3: 65.25%
Classe 4: 38.06%
Classe 5: 34.15%
Classe 6: 60.24%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 232/300


Treinando: 100%|██████████| 449/449 [07:10<00:00,  1.04it/s]
Validando: 100%|██████████| 57/57 [00:31<00:00,  1.80it/s]


Treino - Erro: 0.8117, Acurácia: 0.6979
Validação - Erro: 2.0131, Acurácia: 0.4759
Acurácia por classe na validação:
Classe 0: 35.97%
Classe 1: 42.86%
Classe 2: 32.86%
Classe 3: 68.83%
Classe 4: 40.36%
Classe 5: 34.92%
Classe 6: 63.61%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth
Melhor modelo salvo!

Época 233/300


Treinando: 100%|██████████| 449/449 [07:10<00:00,  1.04it/s]
Validando: 100%|██████████| 57/57 [00:31<00:00,  1.82it/s]


Treino - Erro: 0.7994, Acurácia: 0.7038
Validação - Erro: 2.0655, Acurácia: 0.4622
Acurácia por classe na validação:
Classe 0: 36.19%
Classe 1: 42.86%
Classe 2: 27.42%
Classe 3: 61.68%
Classe 4: 39.21%
Classe 5: 39.51%
Classe 6: 67.95%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 234/300


Treinando: 100%|██████████| 449/449 [07:10<00:00,  1.04it/s]
Validando: 100%|██████████| 57/57 [00:31<00:00,  1.82it/s]


Treino - Erro: 0.8057, Acurácia: 0.7023
Validação - Erro: 2.1233, Acurácia: 0.4681
Acurácia por classe na validação:
Classe 0: 35.97%
Classe 1: 39.29%
Classe 2: 30.24%
Classe 3: 65.14%
Classe 4: 36.57%
Classe 5: 41.81%
Classe 6: 63.13%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 235/300


Treinando: 100%|██████████| 449/449 [07:10<00:00,  1.04it/s]
Validando: 100%|██████████| 57/57 [00:31<00:00,  1.80it/s]


Treino - Erro: 0.7869, Acurácia: 0.7078
Validação - Erro: 2.1222, Acurácia: 0.4664
Acurácia por classe na validação:
Classe 0: 29.76%
Classe 1: 39.29%
Classe 2: 41.94%
Classe 3: 64.02%
Classe 4: 40.86%
Classe 5: 32.92%
Classe 6: 64.82%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 236/300


Treinando: 100%|██████████| 449/449 [07:10<00:00,  1.04it/s]
Validando: 100%|██████████| 57/57 [00:31<00:00,  1.80it/s]


Treino - Erro: 0.7953, Acurácia: 0.7054
Validação - Erro: 1.9668, Acurácia: 0.4717
Acurácia por classe na validação:
Classe 0: 36.62%
Classe 1: 51.79%
Classe 2: 32.06%
Classe 3: 63.91%
Classe 4: 38.55%
Classe 5: 37.67%
Classe 6: 67.95%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 237/300


Treinando: 100%|██████████| 449/449 [07:10<00:00,  1.04it/s]
Validando: 100%|██████████| 57/57 [00:31<00:00,  1.80it/s]


Treino - Erro: 0.7839, Acurácia: 0.7123
Validação - Erro: 2.0413, Acurácia: 0.4731
Acurácia por classe na validação:
Classe 0: 37.26%
Classe 1: 44.64%
Classe 2: 36.90%
Classe 3: 64.92%
Classe 4: 38.71%
Classe 5: 36.75%
Classe 6: 62.65%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 238/300


Treinando: 100%|██████████| 449/449 [07:10<00:00,  1.04it/s]
Validando: 100%|██████████| 57/57 [00:31<00:00,  1.81it/s]


Treino - Erro: 0.7833, Acurácia: 0.7097
Validação - Erro: 2.0984, Acurácia: 0.4823
Acurácia por classe na validação:
Classe 0: 33.19%
Classe 1: 44.64%
Classe 2: 32.46%
Classe 3: 67.93%
Classe 4: 42.34%
Classe 5: 36.60%
Classe 6: 68.92%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth
Melhor modelo salvo!

Época 239/300


Treinando: 100%|██████████| 449/449 [07:10<00:00,  1.04it/s]
Validando: 100%|██████████| 57/57 [00:31<00:00,  1.82it/s]


Treino - Erro: 0.7821, Acurácia: 0.7117
Validação - Erro: 2.1367, Acurácia: 0.4703
Acurácia por classe na validação:
Classe 0: 41.76%
Classe 1: 48.21%
Classe 2: 30.44%
Classe 3: 65.25%
Classe 4: 37.89%
Classe 5: 35.83%
Classe 6: 64.34%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 240/300


Treinando: 100%|██████████| 449/449 [07:10<00:00,  1.04it/s]
Validando: 100%|██████████| 57/57 [00:31<00:00,  1.81it/s]


Treino - Erro: 0.7757, Acurácia: 0.7157
Validação - Erro: 2.0896, Acurácia: 0.4706
Acurácia por classe na validação:
Classe 0: 36.62%
Classe 1: 41.07%
Classe 2: 31.45%
Classe 3: 67.60%
Classe 4: 42.34%
Classe 5: 34.00%
Classe 6: 61.45%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 241/300


Treinando: 100%|██████████| 449/449 [07:10<00:00,  1.04it/s]
Validando: 100%|██████████| 57/57 [00:31<00:00,  1.82it/s]


Treino - Erro: 0.7675, Acurácia: 0.7159
Validação - Erro: 2.0417, Acurácia: 0.4767
Acurácia por classe na validação:
Classe 0: 37.69%
Classe 1: 37.50%
Classe 2: 30.65%
Classe 3: 68.94%
Classe 4: 37.23%
Classe 5: 36.29%
Classe 6: 67.95%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 242/300


Treinando: 100%|██████████| 449/449 [07:10<00:00,  1.04it/s]
Validando: 100%|██████████| 57/57 [00:31<00:00,  1.82it/s]


Treino - Erro: 0.7851, Acurácia: 0.7096
Validação - Erro: 2.1185, Acurácia: 0.4695
Acurácia por classe na validação:
Classe 0: 39.61%
Classe 1: 44.64%
Classe 2: 35.89%
Classe 3: 66.15%
Classe 4: 36.57%
Classe 5: 34.15%
Classe 6: 62.65%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 243/300


Treinando: 100%|██████████| 449/449 [07:10<00:00,  1.04it/s]
Validando: 100%|██████████| 57/57 [00:31<00:00,  1.82it/s]


Treino - Erro: 0.7688, Acurácia: 0.7136
Validação - Erro: 2.0283, Acurácia: 0.4656
Acurácia por classe na validação:
Classe 0: 34.90%
Classe 1: 39.29%
Classe 2: 37.50%
Classe 3: 60.22%
Classe 4: 41.35%
Classe 5: 35.83%
Classe 6: 66.51%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 244/300


Treinando: 100%|██████████| 449/449 [07:10<00:00,  1.04it/s]
Validando: 100%|██████████| 57/57 [00:31<00:00,  1.81it/s]


Treino - Erro: 0.7667, Acurácia: 0.7169
Validação - Erro: 2.0773, Acurácia: 0.4728
Acurácia por classe na validação:
Classe 0: 36.19%
Classe 1: 44.64%
Classe 2: 36.09%
Classe 3: 61.01%
Classe 4: 43.66%
Classe 5: 38.28%
Classe 6: 63.37%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 245/300


Treinando: 100%|██████████| 449/449 [07:10<00:00,  1.04it/s]
Validando: 100%|██████████| 57/57 [00:31<00:00,  1.82it/s]


Treino - Erro: 0.7491, Acurácia: 0.7259
Validação - Erro: 2.2110, Acurácia: 0.4656
Acurácia por classe na validação:
Classe 0: 35.12%
Classe 1: 42.86%
Classe 2: 32.86%
Classe 3: 68.04%
Classe 4: 31.63%
Classe 5: 32.92%
Classe 6: 73.25%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 246/300


Treinando: 100%|██████████| 449/449 [07:10<00:00,  1.04it/s]
Validando: 100%|██████████| 57/57 [00:31<00:00,  1.81it/s]


Treino - Erro: 0.7535, Acurácia: 0.7215
Validação - Erro: 2.1311, Acurácia: 0.4801
Acurácia por classe na validação:
Classe 0: 32.33%
Classe 1: 42.86%
Classe 2: 32.66%
Classe 3: 68.16%
Classe 4: 43.33%
Classe 5: 35.53%
Classe 6: 67.71%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 247/300


Treinando: 100%|██████████| 449/449 [07:11<00:00,  1.04it/s]
Validando: 100%|██████████| 57/57 [00:31<00:00,  1.82it/s]


Treino - Erro: 0.7541, Acurácia: 0.7217
Validação - Erro: 2.1026, Acurácia: 0.4689
Acurácia por classe na validação:
Classe 0: 35.55%
Classe 1: 46.43%
Classe 2: 34.48%
Classe 3: 63.91%
Classe 4: 37.40%
Classe 5: 37.37%
Classe 6: 66.75%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 248/300


Treinando: 100%|██████████| 449/449 [07:09<00:00,  1.05it/s]
Validando: 100%|██████████| 57/57 [00:31<00:00,  1.81it/s]


Treino - Erro: 0.7592, Acurácia: 0.7212
Validação - Erro: 2.1234, Acurácia: 0.4714
Acurácia por classe na validação:
Classe 0: 34.90%
Classe 1: 39.29%
Classe 2: 30.65%
Classe 3: 63.46%
Classe 4: 43.00%
Classe 5: 38.44%
Classe 6: 66.27%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 249/300


Treinando: 100%|██████████| 449/449 [07:30<00:00,  1.00s/it]
Validando: 100%|██████████| 57/57 [00:33<00:00,  1.70it/s]


Treino - Erro: 0.7483, Acurácia: 0.7236
Validação - Erro: 2.0804, Acurácia: 0.4675
Acurácia por classe na validação:
Classe 0: 31.91%
Classe 1: 53.57%
Classe 2: 38.71%
Classe 3: 65.14%
Classe 4: 34.93%
Classe 5: 37.83%
Classe 6: 63.86%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 250/300


Treinando: 100%|██████████| 449/449 [07:51<00:00,  1.05s/it]
Validando: 100%|██████████| 57/57 [00:31<00:00,  1.80it/s]


Treino - Erro: 0.7508, Acurácia: 0.7228
Validação - Erro: 2.1048, Acurácia: 0.4692
Acurácia por classe na validação:
Classe 0: 38.12%
Classe 1: 39.29%
Classe 2: 34.27%
Classe 3: 63.69%
Classe 4: 36.74%
Classe 5: 39.66%
Classe 6: 63.13%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 251/300


Treinando: 100%|██████████| 449/449 [07:27<00:00,  1.00it/s]
Validando: 100%|██████████| 57/57 [00:32<00:00,  1.74it/s]


Treino - Erro: 0.7375, Acurácia: 0.7278
Validação - Erro: 2.1337, Acurácia: 0.4723
Acurácia por classe na validação:
Classe 0: 35.55%
Classe 1: 39.29%
Classe 2: 32.86%
Classe 3: 64.58%
Classe 4: 43.82%
Classe 5: 34.00%
Classe 6: 66.99%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 252/300


Treinando: 100%|██████████| 449/449 [07:32<00:00,  1.01s/it]
Validando: 100%|██████████| 57/57 [00:32<00:00,  1.75it/s]


Treino - Erro: 0.7297, Acurácia: 0.7288
Validação - Erro: 2.2223, Acurácia: 0.4728
Acurácia por classe na validação:
Classe 0: 34.90%
Classe 1: 46.43%
Classe 2: 33.67%
Classe 3: 64.58%
Classe 4: 37.07%
Classe 5: 42.11%
Classe 6: 63.37%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 253/300


Treinando: 100%|██████████| 449/449 [07:33<00:00,  1.01s/it]
Validando: 100%|██████████| 57/57 [00:33<00:00,  1.72it/s]


Treino - Erro: 0.7408, Acurácia: 0.7279
Validação - Erro: 2.1723, Acurácia: 0.4592
Acurácia por classe na validação:
Classe 0: 34.48%
Classe 1: 46.43%
Classe 2: 35.89%
Classe 3: 59.55%
Classe 4: 41.52%
Classe 5: 32.62%
Classe 6: 68.67%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 254/300


Treinando: 100%|██████████| 449/449 [07:30<00:00,  1.00s/it]
Validando: 100%|██████████| 57/57 [00:32<00:00,  1.76it/s]


Treino - Erro: 0.7322, Acurácia: 0.7284
Validação - Erro: 2.1856, Acurácia: 0.4620
Acurácia por classe na validação:
Classe 0: 32.33%
Classe 1: 44.64%
Classe 2: 35.69%
Classe 3: 63.24%
Classe 4: 41.19%
Classe 5: 32.47%
Classe 6: 66.75%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 255/300


Treinando: 100%|██████████| 449/449 [07:05<00:00,  1.06it/s]
Validando: 100%|██████████| 57/57 [00:30<00:00,  1.88it/s]


Treino - Erro: 0.7261, Acurácia: 0.7304
Validação - Erro: 2.2446, Acurácia: 0.4731
Acurácia por classe na validação:
Classe 0: 36.62%
Classe 1: 46.43%
Classe 2: 31.65%
Classe 3: 64.25%
Classe 4: 45.47%
Classe 5: 33.69%
Classe 6: 65.78%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 256/300


Treinando: 100%|██████████| 449/449 [06:55<00:00,  1.08it/s]
Validando: 100%|██████████| 57/57 [00:32<00:00,  1.76it/s]


Treino - Erro: 0.7245, Acurácia: 0.7315
Validação - Erro: 2.1258, Acurácia: 0.4700
Acurácia por classe na validação:
Classe 0: 35.12%
Classe 1: 42.86%
Classe 2: 37.30%
Classe 3: 61.34%
Classe 4: 38.55%
Classe 5: 41.65%
Classe 6: 62.41%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 257/300


Treinando: 100%|██████████| 449/449 [07:21<00:00,  1.02it/s]
Validando: 100%|██████████| 57/57 [00:32<00:00,  1.78it/s]


Treino - Erro: 0.7112, Acurácia: 0.7367
Validação - Erro: 2.1758, Acurácia: 0.4700
Acurácia por classe na validação:
Classe 0: 31.69%
Classe 1: 46.43%
Classe 2: 40.93%
Classe 3: 59.11%
Classe 4: 41.02%
Classe 5: 38.44%
Classe 6: 67.71%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 258/300


Treinando: 100%|██████████| 449/449 [07:18<00:00,  1.02it/s]
Validando: 100%|██████████| 57/57 [00:32<00:00,  1.77it/s]


Treino - Erro: 0.7106, Acurácia: 0.7375
Validação - Erro: 2.2066, Acurácia: 0.4544
Acurácia por classe na validação:
Classe 0: 32.76%
Classe 1: 41.07%
Classe 2: 34.27%
Classe 3: 59.66%
Classe 4: 40.03%
Classe 5: 33.08%
Classe 6: 70.36%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 259/300


Treinando: 100%|██████████| 449/449 [06:59<00:00,  1.07it/s]
Validando: 100%|██████████| 57/57 [00:31<00:00,  1.83it/s]


Treino - Erro: 0.7125, Acurácia: 0.7382
Validação - Erro: 2.2698, Acurácia: 0.4642
Acurácia por classe na validação:
Classe 0: 29.34%
Classe 1: 51.79%
Classe 2: 36.49%
Classe 3: 65.81%
Classe 4: 36.08%
Classe 5: 34.92%
Classe 6: 68.19%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 260/300


Treinando: 100%|██████████| 449/449 [06:58<00:00,  1.07it/s]
Validando: 100%|██████████| 57/57 [00:31<00:00,  1.84it/s]


Treino - Erro: 0.7042, Acurácia: 0.7402
Validação - Erro: 2.1883, Acurácia: 0.4709
Acurácia por classe na validação:
Classe 0: 37.69%
Classe 1: 46.43%
Classe 2: 37.30%
Classe 3: 61.90%
Classe 4: 40.69%
Classe 5: 38.44%
Classe 6: 60.48%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 261/300


Treinando: 100%|██████████| 449/449 [07:17<00:00,  1.03it/s]
Validando: 100%|██████████| 57/57 [00:32<00:00,  1.74it/s]


Treino - Erro: 0.6986, Acurácia: 0.7421
Validação - Erro: 2.2681, Acurácia: 0.4661
Acurácia por classe na validação:
Classe 0: 39.19%
Classe 1: 50.00%
Classe 2: 37.70%
Classe 3: 55.53%
Classe 4: 37.07%
Classe 5: 40.12%
Classe 6: 70.12%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 262/300


Treinando: 100%|██████████| 449/449 [07:20<00:00,  1.02it/s]
Validando: 100%|██████████| 57/57 [00:32<00:00,  1.76it/s]


Treino - Erro: 0.7005, Acurácia: 0.7434
Validação - Erro: 2.2833, Acurácia: 0.4653
Acurácia por classe na validação:
Classe 0: 29.34%
Classe 1: 33.93%
Classe 2: 33.67%
Classe 3: 63.35%
Classe 4: 41.52%
Classe 5: 40.12%
Classe 6: 64.10%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 263/300


Treinando: 100%|██████████| 449/449 [07:23<00:00,  1.01it/s]
Validando: 100%|██████████| 57/57 [00:31<00:00,  1.80it/s]


Treino - Erro: 0.6919, Acurácia: 0.7450
Validação - Erro: 2.2305, Acurácia: 0.4773
Acurácia por classe na validação:
Classe 0: 36.62%
Classe 1: 48.21%
Classe 2: 34.07%
Classe 3: 67.71%
Classe 4: 43.00%
Classe 5: 30.63%
Classe 6: 67.23%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 264/300


Treinando: 100%|██████████| 449/449 [06:57<00:00,  1.07it/s]
Validando: 100%|██████████| 57/57 [00:31<00:00,  1.84it/s]


Treino - Erro: 0.6913, Acurácia: 0.7476
Validação - Erro: 2.3125, Acurácia: 0.4684
Acurácia por classe na validação:
Classe 0: 37.26%
Classe 1: 42.86%
Classe 2: 37.10%
Classe 3: 63.80%
Classe 4: 36.74%
Classe 5: 37.06%
Classe 6: 63.37%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 265/300


Treinando: 100%|██████████| 449/449 [06:58<00:00,  1.07it/s]
Validando: 100%|██████████| 57/57 [00:30<00:00,  1.89it/s]


Treino - Erro: 0.6802, Acurácia: 0.7482
Validação - Erro: 2.3245, Acurácia: 0.4606
Acurácia por classe na validação:
Classe 0: 35.55%
Classe 1: 50.00%
Classe 2: 32.26%
Classe 3: 61.90%
Classe 4: 37.73%
Classe 5: 35.83%
Classe 6: 67.95%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 266/300


Treinando: 100%|██████████| 449/449 [06:50<00:00,  1.09it/s]
Validando: 100%|██████████| 57/57 [00:31<00:00,  1.82it/s]


Treino - Erro: 0.6807, Acurácia: 0.7489
Validação - Erro: 2.3535, Acurácia: 0.4636
Acurácia por classe na validação:
Classe 0: 33.83%
Classe 1: 48.21%
Classe 2: 30.65%
Classe 3: 62.91%
Classe 4: 37.89%
Classe 5: 43.34%
Classe 6: 60.48%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 267/300


Treinando: 100%|██████████| 449/449 [06:48<00:00,  1.10it/s]
Validando: 100%|██████████| 57/57 [00:30<00:00,  1.89it/s]


Treino - Erro: 0.6850, Acurácia: 0.7478
Validação - Erro: 2.2386, Acurácia: 0.4831
Acurácia por classe na validação:
Classe 0: 32.76%
Classe 1: 50.00%
Classe 2: 37.10%
Classe 3: 67.49%
Classe 4: 43.49%
Classe 5: 36.14%
Classe 6: 63.86%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth
Melhor modelo salvo!

Época 268/300


Treinando: 100%|██████████| 449/449 [06:46<00:00,  1.11it/s]
Validando: 100%|██████████| 57/57 [00:30<00:00,  1.89it/s]


Treino - Erro: 0.6716, Acurácia: 0.7528
Validação - Erro: 2.2088, Acurácia: 0.4650
Acurácia por classe na validação:
Classe 0: 37.04%
Classe 1: 41.07%
Classe 2: 32.86%
Classe 3: 57.09%
Classe 4: 42.67%
Classe 5: 38.90%
Classe 6: 68.92%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 269/300


Treinando: 100%|██████████| 449/449 [06:42<00:00,  1.12it/s]
Validando: 100%|██████████| 57/57 [00:31<00:00,  1.82it/s]


Treino - Erro: 0.6761, Acurácia: 0.7530
Validação - Erro: 2.2070, Acurácia: 0.4628
Acurácia por classe na validação:
Classe 0: 37.90%
Classe 1: 44.64%
Classe 2: 33.27%
Classe 3: 59.44%
Classe 4: 39.21%
Classe 5: 41.04%
Classe 6: 61.69%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 270/300


Treinando: 100%|██████████| 449/449 [06:45<00:00,  1.11it/s]
Validando: 100%|██████████| 57/57 [00:30<00:00,  1.90it/s]


Treino - Erro: 0.6724, Acurácia: 0.7504
Validação - Erro: 2.2334, Acurácia: 0.4661
Acurácia por classe na validação:
Classe 0: 33.83%
Classe 1: 42.86%
Classe 2: 33.06%
Classe 3: 63.02%
Classe 4: 41.68%
Classe 5: 33.69%
Classe 6: 69.88%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 271/300


Treinando: 100%|██████████| 449/449 [06:46<00:00,  1.11it/s]
Validando: 100%|██████████| 57/57 [00:30<00:00,  1.86it/s]


Treino - Erro: 0.6747, Acurácia: 0.7501
Validação - Erro: 2.2801, Acurácia: 0.4634
Acurácia por classe na validação:
Classe 0: 36.40%
Classe 1: 42.86%
Classe 2: 35.69%
Classe 3: 62.79%
Classe 4: 39.54%
Classe 5: 37.83%
Classe 6: 58.55%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 272/300


Treinando: 100%|██████████| 449/449 [06:42<00:00,  1.12it/s]
Validando: 100%|██████████| 57/57 [00:29<00:00,  1.93it/s]


Treino - Erro: 0.6713, Acurácia: 0.7549
Validação - Erro: 2.3352, Acurácia: 0.4792
Acurácia por classe na validação:
Classe 0: 36.19%
Classe 1: 41.07%
Classe 2: 37.30%
Classe 3: 65.25%
Classe 4: 36.57%
Classe 5: 40.12%
Classe 6: 66.27%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 273/300


Treinando: 100%|██████████| 449/449 [07:02<00:00,  1.06it/s]
Validando: 100%|██████████| 57/57 [00:29<00:00,  1.90it/s]


Treino - Erro: 0.6632, Acurácia: 0.7571
Validação - Erro: 2.4422, Acurácia: 0.4734
Acurácia por classe na validação:
Classe 0: 33.62%
Classe 1: 48.21%
Classe 2: 42.94%
Classe 3: 62.68%
Classe 4: 41.02%
Classe 5: 33.69%
Classe 6: 65.54%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 274/300


Treinando: 100%|██████████| 449/449 [06:43<00:00,  1.11it/s]
Validando: 100%|██████████| 57/57 [00:30<00:00,  1.87it/s]


Treino - Erro: 0.6608, Acurácia: 0.7586
Validação - Erro: 2.3375, Acurácia: 0.4673
Acurácia por classe na validação:
Classe 0: 43.47%
Classe 1: 48.21%
Classe 2: 42.74%
Classe 3: 60.45%
Classe 4: 34.10%
Classe 5: 32.92%
Classe 6: 65.54%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 275/300


Treinando: 100%|██████████| 449/449 [06:42<00:00,  1.11it/s]
Validando: 100%|██████████| 57/57 [00:29<00:00,  1.90it/s]


Treino - Erro: 0.6573, Acurácia: 0.7606
Validação - Erro: 2.4667, Acurácia: 0.4739
Acurácia por classe na validação:
Classe 0: 38.12%
Classe 1: 44.64%
Classe 2: 36.69%
Classe 3: 67.93%
Classe 4: 41.19%
Classe 5: 28.33%
Classe 6: 65.78%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 276/300


Treinando: 100%|██████████| 449/449 [06:41<00:00,  1.12it/s]
Validando: 100%|██████████| 57/57 [00:30<00:00,  1.89it/s]


Treino - Erro: 0.6535, Acurácia: 0.7612
Validação - Erro: 2.3026, Acurácia: 0.4776
Acurácia por classe na validação:
Classe 0: 41.76%
Classe 1: 37.50%
Classe 2: 38.51%
Classe 3: 61.68%
Classe 4: 42.01%
Classe 5: 35.99%
Classe 6: 63.86%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 277/300


Treinando: 100%|██████████| 449/449 [06:42<00:00,  1.12it/s]
Validando: 100%|██████████| 57/57 [00:30<00:00,  1.85it/s]


Treino - Erro: 0.6602, Acurácia: 0.7576
Validação - Erro: 2.3197, Acurácia: 0.4767
Acurácia por classe na validação:
Classe 0: 36.83%
Classe 1: 42.86%
Classe 2: 34.88%
Classe 3: 70.06%
Classe 4: 34.10%
Classe 5: 36.75%
Classe 6: 64.58%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 278/300


Treinando: 100%|██████████| 449/449 [06:38<00:00,  1.13it/s]
Validando: 100%|██████████| 57/57 [00:29<00:00,  1.92it/s]


Treino - Erro: 0.6422, Acurácia: 0.7669
Validação - Erro: 2.4204, Acurácia: 0.4622
Acurácia por classe na validação:
Classe 0: 34.90%
Classe 1: 42.86%
Classe 2: 42.94%
Classe 3: 62.12%
Classe 4: 33.11%
Classe 5: 34.30%
Classe 6: 66.99%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 279/300


Treinando: 100%|██████████| 449/449 [06:38<00:00,  1.13it/s]
Validando: 100%|██████████| 57/57 [00:29<00:00,  1.93it/s]


Treino - Erro: 0.6394, Acurácia: 0.7632
Validação - Erro: 2.3324, Acurácia: 0.4809
Acurácia por classe na validação:
Classe 0: 33.19%
Classe 1: 44.64%
Classe 2: 34.48%
Classe 3: 64.25%
Classe 4: 42.34%
Classe 5: 44.26%
Classe 6: 61.20%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 280/300


Treinando: 100%|██████████| 449/449 [06:36<00:00,  1.13it/s]
Validando: 100%|██████████| 57/57 [00:29<00:00,  1.93it/s]


Treino - Erro: 0.6433, Acurácia: 0.7648
Validação - Erro: 2.3643, Acurácia: 0.4656
Acurácia por classe na validação:
Classe 0: 34.26%
Classe 1: 46.43%
Classe 2: 34.88%
Classe 3: 62.91%
Classe 4: 40.20%
Classe 5: 34.15%
Classe 6: 67.95%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 281/300


Treinando: 100%|██████████| 449/449 [06:39<00:00,  1.13it/s]
Validando: 100%|██████████| 57/57 [00:30<00:00,  1.87it/s]


Treino - Erro: 0.6432, Acurácia: 0.7663
Validação - Erro: 2.3293, Acurácia: 0.4748
Acurácia por classe na validação:
Classe 0: 36.19%
Classe 1: 46.43%
Classe 2: 32.66%
Classe 3: 63.69%
Classe 4: 40.03%
Classe 5: 39.51%
Classe 6: 66.51%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 282/300


Treinando: 100%|██████████| 449/449 [06:49<00:00,  1.10it/s]
Validando: 100%|██████████| 57/57 [00:29<00:00,  1.93it/s]


Treino - Erro: 0.6409, Acurácia: 0.7667
Validação - Erro: 2.3736, Acurácia: 0.4737
Acurácia por classe na validação:
Classe 0: 37.04%
Classe 1: 44.64%
Classe 2: 36.49%
Classe 3: 63.91%
Classe 4: 40.03%
Classe 5: 37.98%
Classe 6: 62.17%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 283/300


Treinando: 100%|██████████| 449/449 [06:38<00:00,  1.13it/s]
Validando: 100%|██████████| 57/57 [00:29<00:00,  1.92it/s]


Treino - Erro: 0.6497, Acurácia: 0.7642
Validação - Erro: 2.3507, Acurácia: 0.4765
Acurácia por classe na validação:
Classe 0: 34.48%
Classe 1: 51.79%
Classe 2: 38.91%
Classe 3: 66.59%
Classe 4: 37.40%
Classe 5: 33.08%
Classe 6: 69.40%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 284/300


Treinando: 100%|██████████| 449/449 [06:45<00:00,  1.11it/s]
Validando: 100%|██████████| 57/57 [00:29<00:00,  1.93it/s]


Treino - Erro: 0.6271, Acurácia: 0.7688
Validação - Erro: 2.3987, Acurácia: 0.4767
Acurácia por classe na validação:
Classe 0: 35.12%
Classe 1: 46.43%
Classe 2: 32.46%
Classe 3: 62.79%
Classe 4: 45.63%
Classe 5: 35.99%
Classe 6: 68.92%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 285/300


Treinando: 100%|██████████| 449/449 [06:40<00:00,  1.12it/s]
Validando: 100%|██████████| 57/57 [00:29<00:00,  1.90it/s]


Treino - Erro: 0.6256, Acurácia: 0.7700
Validação - Erro: 2.3352, Acurácia: 0.4790
Acurácia por classe na validação:
Classe 0: 38.54%
Classe 1: 46.43%
Classe 2: 35.69%
Classe 3: 64.02%
Classe 4: 43.66%
Classe 5: 34.92%
Classe 6: 65.06%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 286/300


Treinando: 100%|██████████| 449/449 [06:45<00:00,  1.11it/s]
Validando: 100%|██████████| 57/57 [00:29<00:00,  1.95it/s]


Treino - Erro: 0.6274, Acurácia: 0.7705
Validação - Erro: 2.4411, Acurácia: 0.4611
Acurácia por classe na validação:
Classe 0: 37.47%
Classe 1: 46.43%
Classe 2: 35.89%
Classe 3: 57.65%
Classe 4: 36.74%
Classe 5: 39.36%
Classe 6: 67.47%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 287/300


Treinando: 100%|██████████| 449/449 [06:39<00:00,  1.12it/s]
Validando: 100%|██████████| 57/57 [00:29<00:00,  1.94it/s]


Treino - Erro: 0.6214, Acurácia: 0.7738
Validação - Erro: 2.3138, Acurácia: 0.4778
Acurácia por classe na validação:
Classe 0: 37.90%
Classe 1: 44.64%
Classe 2: 35.48%
Classe 3: 64.92%
Classe 4: 40.20%
Classe 5: 38.90%
Classe 6: 62.17%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 288/300


Treinando: 100%|██████████| 449/449 [06:41<00:00,  1.12it/s]
Validando: 100%|██████████| 57/57 [00:29<00:00,  1.90it/s]


Treino - Erro: 0.6110, Acurácia: 0.7766
Validação - Erro: 2.3666, Acurácia: 0.4762
Acurácia por classe na validação:
Classe 0: 41.11%
Classe 1: 46.43%
Classe 2: 36.49%
Classe 3: 64.02%
Classe 4: 35.42%
Classe 5: 40.28%
Classe 6: 62.41%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 289/300


Treinando: 100%|██████████| 449/449 [06:46<00:00,  1.10it/s]
Validando: 100%|██████████| 57/57 [00:30<00:00,  1.87it/s]


Treino - Erro: 0.6199, Acurácia: 0.7742
Validação - Erro: 2.3845, Acurácia: 0.4687
Acurácia por classe na validação:
Classe 0: 35.76%
Classe 1: 37.50%
Classe 2: 35.48%
Classe 3: 64.58%
Classe 4: 42.17%
Classe 5: 32.01%
Classe 6: 66.27%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 290/300


Treinando: 100%|██████████| 449/449 [06:48<00:00,  1.10it/s]
Validando: 100%|██████████| 57/57 [00:30<00:00,  1.87it/s]


Treino - Erro: 0.6145, Acurácia: 0.7756
Validação - Erro: 2.4284, Acurácia: 0.4734
Acurácia por classe na validação:
Classe 0: 38.12%
Classe 1: 42.86%
Classe 2: 40.12%
Classe 3: 61.68%
Classe 4: 39.54%
Classe 5: 37.06%
Classe 6: 63.61%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 291/300


Treinando: 100%|██████████| 449/449 [07:06<00:00,  1.05it/s]
Validando: 100%|██████████| 57/57 [00:31<00:00,  1.82it/s]


Treino - Erro: 0.6100, Acurácia: 0.7772
Validação - Erro: 2.4555, Acurácia: 0.4684
Acurácia por classe na validação:
Classe 0: 38.54%
Classe 1: 37.50%
Classe 2: 33.67%
Classe 3: 63.69%
Classe 4: 41.85%
Classe 5: 34.61%
Classe 6: 63.37%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 292/300


Treinando: 100%|██████████| 449/449 [06:57<00:00,  1.08it/s]
Validando: 100%|██████████| 57/57 [00:30<00:00,  1.86it/s]


Treino - Erro: 0.6090, Acurácia: 0.7771
Validação - Erro: 2.5013, Acurácia: 0.4670
Acurácia por classe na validação:
Classe 0: 36.19%
Classe 1: 41.07%
Classe 2: 36.90%
Classe 3: 60.56%
Classe 4: 39.37%
Classe 5: 40.43%
Classe 6: 61.69%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 293/300


Treinando: 100%|██████████| 449/449 [07:03<00:00,  1.06it/s]
Validando: 100%|██████████| 57/57 [00:30<00:00,  1.85it/s]


Treino - Erro: 0.6063, Acurácia: 0.7786
Validação - Erro: 2.4926, Acurácia: 0.4726
Acurácia por classe na validação:
Classe 0: 35.76%
Classe 1: 42.86%
Classe 2: 39.11%
Classe 3: 61.12%
Classe 4: 43.16%
Classe 5: 33.54%
Classe 6: 68.19%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 294/300


Treinando: 100%|██████████| 449/449 [06:47<00:00,  1.10it/s]
Validando: 100%|██████████| 57/57 [00:30<00:00,  1.90it/s]


Treino - Erro: 0.6056, Acurácia: 0.7792
Validação - Erro: 2.3003, Acurácia: 0.4592
Acurácia por classe na validação:
Classe 0: 37.69%
Classe 1: 50.00%
Classe 2: 39.31%
Classe 3: 60.89%
Classe 4: 29.98%
Classe 5: 40.28%
Classe 6: 62.41%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 295/300


Treinando: 100%|██████████| 449/449 [06:45<00:00,  1.11it/s]
Validando: 100%|██████████| 57/57 [00:30<00:00,  1.89it/s]


Treino - Erro: 0.5917, Acurácia: 0.7834
Validação - Erro: 2.5286, Acurácia: 0.4717
Acurácia por classe na validação:
Classe 0: 36.19%
Classe 1: 46.43%
Classe 2: 42.54%
Classe 3: 60.89%
Classe 4: 41.68%
Classe 5: 34.30%
Classe 6: 63.86%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 296/300


Treinando: 100%|██████████| 449/449 [06:45<00:00,  1.11it/s]
Validando: 100%|██████████| 57/57 [00:32<00:00,  1.74it/s]


Treino - Erro: 0.5948, Acurácia: 0.7832
Validação - Erro: 2.4964, Acurácia: 0.4809
Acurácia por classe na validação:
Classe 0: 35.55%
Classe 1: 44.64%
Classe 2: 34.68%
Classe 3: 65.14%
Classe 4: 39.70%
Classe 5: 39.82%
Classe 6: 67.23%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 297/300


Treinando: 100%|██████████| 449/449 [07:18<00:00,  1.03it/s]
Validando: 100%|██████████| 57/57 [00:32<00:00,  1.78it/s]


Treino - Erro: 0.5967, Acurácia: 0.7836
Validação - Erro: 2.4857, Acurácia: 0.4661
Acurácia por classe na validação:
Classe 0: 41.11%
Classe 1: 41.07%
Classe 2: 37.70%
Classe 3: 59.55%
Classe 4: 38.06%
Classe 5: 37.98%
Classe 6: 62.41%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 298/300


Treinando: 100%|██████████| 449/449 [06:59<00:00,  1.07it/s]
Validando: 100%|██████████| 57/57 [00:30<00:00,  1.85it/s]


Treino - Erro: 0.5903, Acurácia: 0.7842
Validação - Erro: 2.4369, Acurácia: 0.4745
Acurácia por classe na validação:
Classe 0: 37.47%
Classe 1: 50.00%
Classe 2: 35.48%
Classe 3: 64.47%
Classe 4: 46.46%
Classe 5: 28.33%
Classe 6: 67.47%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 299/300


Treinando: 100%|██████████| 449/449 [07:00<00:00,  1.07it/s]
Validando: 100%|██████████| 57/57 [00:30<00:00,  1.84it/s]


Treino - Erro: 0.5886, Acurácia: 0.7819
Validação - Erro: 2.4249, Acurácia: 0.4689
Acurácia por classe na validação:
Classe 0: 33.40%
Classe 1: 41.07%
Classe 2: 37.30%
Classe 3: 61.56%
Classe 4: 40.03%
Classe 5: 38.59%
Classe 6: 65.78%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth

Época 300/300


Treinando: 100%|██████████| 449/449 [06:54<00:00,  1.08it/s]
Validando: 100%|██████████| 57/57 [00:30<00:00,  1.86it/s]


Treino - Erro: 0.5937, Acurácia: 0.7840
Validação - Erro: 2.5008, Acurácia: 0.4717
Acurácia por classe na validação:
Classe 0: 35.33%
Classe 1: 44.64%
Classe 2: 37.10%
Classe 3: 59.66%
Classe 4: 39.37%
Classe 5: 40.12%
Classe 6: 68.43%
Checkpoint salvo: ../checkpoints/ultimo_checkpoint_nosavedata01.pth


In [7]:
import matplotlib.pyplot as plt
import numpy as np

# Separar os dados do histórico
historico = np.array(historico)
erro_treino = historico[:, 0]
erro_validacao = historico[:, 1]
acuracia_treino = historico[:, 2]
acuracia_validacao = historico[:, 3]

# Configurar as épocas
epocas = range(1, len(erro_treino) + 1)

# Plotar gráfico de erro
plt.figure(figsize=(10, 5))
plt.plot(epocas, erro_treino, label='Erro - Treino')
plt.plot(epocas, erro_validacao, label='Erro - Validação')
plt.title('Erro por Época')
plt.xlabel('Época')
plt.ylabel('Erro')
plt.legend()
plt.grid()
plt.show()

# Plotar gráfico de acurácia
plt.figure(figsize=(10, 5))
plt.plot(epocas, acuracia_treino, label='Acurácia - Treino')
plt.plot(epocas, acuracia_validacao, label='Acurácia - Validação')
plt.title('Acurácia por Época')
plt.xlabel('Época')
plt.ylabel('Acurácia')
plt.legend()
plt.grid()
plt.show()


TypeError: can't convert cuda:0 device type tensor to numpy. Use Tensor.cpu() to copy the tensor to host memory first.