# Estatísticas dos parâmetros de um modelo

1. Faça uma função que receba como entrada uma rede neural e retorne um dicionário no qual cada chave é o nome de um parâmetro do modelo e os respectivos valores são:
    * O maior e menor valor do parâmetro;
    * O maior e menor valor do gradiente do parâmetro;
2. Faça uma função que receba o dicionário de 1 e retorne o menor e maior valor dentre todos os parâmetros e todos os gradientes (4 valores no total);
2. Modifique o script de treinamento visto nas aulas para plotar além da loss e da acurácia, os menores e maiores valores retornados em 2. Crie um terceiro gráfico (além do gráfico da loss e acurácia), para mostrar os valores. Os valores devem ser plotados **durante o treinamento da rede**
    

Exemplo

In [1]:
import torch
from torch import nn
from torchvision import models

# Imagem aleatória para ilustração
img = torch.rand(1, 3, 224, 224)
model = models.resnet18(weights=models.ResNet18_Weights.DEFAULT)

In [2]:
def max_grad(model):
    """Máximo valor de gradiente de cada parâmetro."""

    stats = {}
    # model.named_parameters() retorna os nomes e respectivos parâmetros do
    # modelo
    for param_name, param in model.named_parameters():
        grad = param.grad
        g_max = grad.max()
        stats[param_name] = {'g_max':g_max.item()}

    return stats

# Aplica o modelo
scores = model(img)
# Calcula os gradientes (em um treinamento real seria loss.backward())
scores.sum().backward()

max_grad(model)

{'conv1.weight': {'g_max': 0.0005001913523301482},
 'bn1.weight': {'g_max': 0.000433371722465381},
 'bn1.bias': {'g_max': 0.00012906186748296022},
 'layer1.0.conv1.weight': {'g_max': 0.00019580205844249576},
 'layer1.0.bn1.weight': {'g_max': 0.000267088005784899},
 'layer1.0.bn1.bias': {'g_max': 0.00019527360564097762},
 'layer1.0.conv2.weight': {'g_max': 0.00014336680760607123},
 'layer1.0.bn2.weight': {'g_max': 0.00037415677797980607},
 'layer1.0.bn2.bias': {'g_max': 0.00013171850878279656},
 'layer1.1.conv1.weight': {'g_max': 9.317815420217812e-05},
 'layer1.1.bn1.weight': {'g_max': 0.00034404624602757394},
 'layer1.1.bn1.bias': {'g_max': 0.0002596129197627306},
 'layer1.1.conv2.weight': {'g_max': 0.00012835809320677072},
 'layer1.1.bn2.weight': {'g_max': 0.0002495239896234125},
 'layer1.1.bn2.bias': {'g_max': 0.0001670464116614312},
 'layer2.0.conv1.weight': {'g_max': 0.0001410093391314149},
 'layer2.0.bn1.weight': {'g_max': 0.0002989053900819272},
 'layer2.0.bn1.bias': {'g_max': 0

# 1. Criação da função requerida

In [3]:
def get_model_stats(model):
    """Retorna estatísticas dos parâmetros de um modelo neural.
    
    Para cada parâmetro, retorna o maior e menor valor do parâmetro
    e o maior e menor valor do gradiente do parâmetro.
    """
    stats = {}
    for param_name, param in model.named_parameters():
        # Valores do parâmetro
        param_max = param.max().item()
        param_min = param.min().item()
        
        # Valores do gradiente
        if param.grad is not None:
            grad_max = param.grad.max().item()
            grad_min = param.grad.min().item()
        else:
            grad_max = None
            grad_min = None
        
        stats[param_name] = {
            'param_max': param_max,
            'param_min': param_min,
            'grad_max': grad_max,
            'grad_min': grad_min
        }
    
    return stats


# 1.1. Utilização da função criada




In [4]:
# Criação de um modelo e cálculo dos gradientes como no notebook original
img = torch.rand(1, 3, 224, 224)
model = models.resnet18(weights=models.ResNet18_Weights.DEFAULT)

# Passa a imagem pelo modelo para calcular os scores
scores = model(img)
# Calcula os gradientes (em um treinamento real seria loss.backward())
scores.sum().backward()

# Obtém as estatísticas dos parâmetros
stats = get_model_stats(model)

# Exibe as estatísticas
for param, stat in stats.items():
    print(f"{param}: {stat}")

conv1.weight: {'param_max': 1.0164732933044434, 'param_min': -0.8433799147605896, 'grad_max': 0.0006796913221478462, 'grad_min': -0.000676402822136879}
bn1.weight: {'param_max': 0.5258306860923767, 'param_min': -5.1095959463509644e-08, 'grad_max': 0.0006511830142699182, 'grad_min': -0.0007925162208266556}
bn1.bias: {'param_max': 0.6759758591651917, 'param_min': -0.66438889503479, 'grad_max': 0.0001852967543527484, 'grad_min': -0.00013161968672648072}
layer1.0.conv1.weight: {'param_max': 0.6196322441101074, 'param_min': -0.7993080019950867, 'grad_max': 0.00023766855883877724, 'grad_min': -0.00021207411191426218}
layer1.0.bn1.weight: {'param_max': 0.6440200805664062, 'param_min': 0.16826024651527405, 'grad_max': 0.0003832306247204542, 'grad_min': -0.0003787090245168656}
layer1.0.bn1.bias: {'param_max': 0.3294556438922882, 'param_min': -0.5315352082252502, 'grad_max': 0.0002694310969673097, 'grad_min': -0.00018593407003208995}
layer1.0.conv2.weight: {'param_max': 0.285553902387619, 'param