# Estatísticas dos parâmetros de um modelo

1. Faça uma função que receba como entrada uma rede neural e retorne um dicionário no qual cada chave é o nome de um parâmetro do modelo e os respectivos valores são:
    * O maior e menor valor do parâmetro;
    * O maior e menor valor do gradiente do parâmetro;
2. Faça uma função que receba o dicionário de 1 e retorne o menor e maior valor dentre todos os parâmetros e todos os gradientes (4 valores no total);
2. Modifique o script de treinamento visto nas aulas para plotar além da loss e da acurácia, os menores e maiores valores retornados em 2. Crie um terceiro gráfico (além do gráfico da loss e acurácia), para mostrar os valores. Os valores devem ser plotados **durante o treinamento da rede**
    

Exemplo

In [2]:
import torch
from torch import nn
from torchvision import models

# Imagem aleatória para ilustração
img = torch.rand(1, 3, 224, 224)
model = models.resnet18(weights=models.ResNet18_Weights.DEFAULT)

In [3]:
def max_grad(model):
    """Máximo valor de gradiente de cada parâmetro."""

    stats = {}
    # model.named_parameters() retorna os nomes e respectivos parâmetros do
    # modelo
    for param_name, param in model.named_parameters():
        grad = param.grad
        g_max = grad.max()
        stats[param_name] = {'g_max':g_max.item()}

    return stats

# Aplica o modelo
scores = model(img)
# Calcula os gradientes (em um treinamento real seria loss.backward())
scores.sum().backward()

max_grad(model)

{'conv1.weight': {'g_max': 0.0007043874356895685},
 'bn1.weight': {'g_max': 0.0005361541989259422},
 'bn1.bias': {'g_max': 0.000165543970069848},
 'layer1.0.conv1.weight': {'g_max': 0.00023924604465719312},
 'layer1.0.bn1.weight': {'g_max': 0.00037440608139149845},
 'layer1.0.bn1.bias': {'g_max': 0.0002040908148046583},
 'layer1.0.conv2.weight': {'g_max': 0.0001575059723109007},
 'layer1.0.bn2.weight': {'g_max': 0.00031683119595982134},
 'layer1.0.bn2.bias': {'g_max': 0.00010972823656629771},
 'layer1.1.conv1.weight': {'g_max': 9.965588833438233e-05},
 'layer1.1.bn1.weight': {'g_max': 0.00026483822148293257},
 'layer1.1.bn1.bias': {'g_max': 0.000235203726333566},
 'layer1.1.conv2.weight': {'g_max': 0.00011730960250133649},
 'layer1.1.bn2.weight': {'g_max': 0.00022955102031119168},
 'layer1.1.bn2.bias': {'g_max': 0.00010360664600739256},
 'layer2.0.conv1.weight': {'g_max': 0.00014293601270765066},
 'layer2.0.bn1.weight': {'g_max': 0.0002846604911610484},
 'layer2.0.bn1.bias': {'g_max': 

# 1. Criação da função requerida

In [4]:
def get_model_stats(model):
    """Retorna estatísticas dos parâmetros de um modelo neural.
    
    Para cada parâmetro, retorna o maior e menor valor do parâmetro
    e o maior e menor valor do gradiente do parâmetro.
    """
    stats = {}
    for param_name, param in model.named_parameters():
        # Valores do parâmetro
        param_max = param.max().item()
        param_min = param.min().item()
        
        # Valores do gradiente
        if param.grad is not None:
            grad_max = param.grad.max().item()
            grad_min = param.grad.min().item()
        else:
            grad_max = None
            grad_min = None
        
        stats[param_name] = {
            'param_max': param_max,
            'param_min': param_min,
            'grad_max': grad_max,
            'grad_min': grad_min
        }
    
    return stats


# 1.1. Utilização da função criada




In [5]:
# Criação de um modelo e cálculo dos gradientes como no notebook original
img = torch.rand(1, 3, 224, 224)
model = models.resnet18(weights=models.ResNet18_Weights.DEFAULT)

# Passa a imagem pelo modelo para calcular os scores
scores = model(img)
# Calcula os gradientes (em um treinamento real seria loss.backward())
scores.sum().backward()

# Obtém as estatísticas dos parâmetros
stats = get_model_stats(model)

# Exibe as estatísticas
for param, stat in stats.items():
    print(f"{param}: {stat}")

conv1.weight: {'param_max': 1.0164732933044434, 'param_min': -0.8433799147605896, 'grad_max': 0.0006350863841362298, 'grad_min': -0.0006628821138292551}
bn1.weight: {'param_max': 0.5258306860923767, 'param_min': -5.1095959463509644e-08, 'grad_max': 0.000737704976927489, 'grad_min': -0.0006366384332068264}
bn1.bias: {'param_max': 0.6759758591651917, 'param_min': -0.66438889503479, 'grad_max': 0.00016774519463069737, 'grad_min': -0.00013671210035681725}
layer1.0.conv1.weight: {'param_max': 0.6196322441101074, 'param_min': -0.7993080019950867, 'grad_max': 0.00025192645261995494, 'grad_min': -0.00020796777971554548}
layer1.0.bn1.weight: {'param_max': 0.6440200805664062, 'param_min': 0.16826024651527405, 'grad_max': 0.0002331061114091426, 'grad_min': -0.00024264569219667464}
layer1.0.bn1.bias: {'param_max': 0.3294556438922882, 'param_min': -0.5315352082252502, 'grad_max': 0.0003507450455799699, 'grad_min': -0.0002748849510680884}
layer1.0.conv2.weight: {'param_max': 0.285553902387619, 'para