# Entrenamiento de un SAE sobre las salidad y activaciones de la MLP intermedia de llama3.2 1B

## Costo de entrenamiento

Generalmente, el costo computacional de un LLM está dominado por la evaluación
de sus MLPs (referencia a el seminario en una universidad de un ex empleado
de anthropic)

Una aprocimación simple del costo de entrenamiento de un modelo es

$$
  6ND 
$$
esto en términos de FLOPs (operaciones de punto flotante).
(citar a chinchilla scaling laws)

donde $N$ es el número de parámetros y $D$ la cantidad de muestras en el
conjunto de entrenamiento.

Esto se debe a que, generalmente, cada parámetro actua en una multiplicaciónl
y en una suma de punto flotante, dandonos un costo de $2ND$ tan solo en el
forward pass. Tipicamente, el costo de el backward pass es el doble del forward
pass, haciendo que su costo sea $4ND$. Sumando tenemos el resultado previamente
mencionado.

Sea $N_l$ el número de parámetros de llama.
Como nosotros vamos a entrenar un autoencoder sobre un MLP a la mitad de llama,
solo necesitamos evaluar esa primera mitad. Además, no correremos el backward
pass sobre los parámetros de llama, pues no buscamos modificarlos, es decir, los
mantendrémos fijos. Por esto, tenemos que el FLOPs realizados por tal mitad del
modelo llama es

$$
  N_l D
$$

En cuanto al SAE, solo considerando el costo de aplicar sus matrices, tenemos

$$
  6 (2d_\text{in}d_\text{sae})D
$$

En el caso de gemmascope, entre todos los SAEs que entrenaron, los más pequeños
entrenados en las salidas de las MLPs, se entrenaron en 4 mil millones de
vectores de activaciones, con la dimencion de los vectores en el stream
recidual (y por lo tanto, de la salida de las capas MLP), es 2048, con
$d_\text{sae} = 2028 * 8$.

Deseamos encontrar hiperparámetros para entrenar SAEs, para esto:
- Usamos una primera aproximación razonable modificando los hiperparámetros para
  los autoencoders más pequeños entrenados en salidas de las MLPs de gemma 2
  2 B
- Ajustamos una power law en base a 2 entrenamientos de SAEs más pequeñas,
  usando el mismo learning rate.
- Ajustamos una power law para el learning rate con los hiperparámetos optimos
  que estimó el paso anterior.

Si ignoramos la relación posicional de los tokens y asumimos una distribución
uniforme, tenemos que la entropía por token es

$$
  \log_2 (\text{tamaño del vocabulario})
$$
ya que el vocabulario de gemma2 2B es 256000 y el de llama es 128000, obtenemos
que el número de tokens equivalente sería 4.2 mil millones. Ya que nuestro
modelo es la mitad de tamaño de gemma2 2B, una primera cantidad de datos
razonable para entrenar nuesto sae más grande es $2.1B$

En el caso de llama3.2 1B, eso resultaría en

$$
  N_l D = (2.1 \times 10^9)(1.2 \times 10^9) \approx 2.5 \times 10^{18}
$$
Una RTX 4090 puede realisar cada segundo un máximo de $165 \times 10^{12}$
operaciones con tensores de 16 bits y acumulador de 32 bits (referencia
al reporte técnico v1.0.1), luego, estimamos 4.2 horas de entrenamiento
tan solo considerando la computación en el modelo llama.

Ahora, para estimar las horas-RTX4090 para el autoencoder, en el caso de
entrenarlo en la salida de la MLP intermedia, tendríamos

$$
    6(2.1 \times 10^9)(2048^2)(8)(2) = 8.5 \times 10^{17}
$$

# El modelo

In [1]:
import torch
from torch import nn
import jaxtyping
import dataclasses
from tqdm import tqdm
from torch.nn import functional as F
from torch.linalg import vector_norm

In [2]:
class Step(torch.autograd.Function):
    @staticmethod
    def forward(ctx, x, threshold):
        ctx.save_for_backward(x, threshold)
        return (x > threshold).to(x.dtype)

    @staticmethod
    def backward(ctx, grad_output):
        bandwidth = 0.001
        x, threshold = ctx.saved_tensors

        grad_threshold = torch.where(
            abs(F.relu(x) - threshold) < bandwidth/2,
            -1.0/bandwidth, 0)
        
        return torch.zeros_like(x), grad_threshold * grad_output

In [None]:
class Sae(nn.Module):
    def __init__(self, d_in, d_sae, use_pre_enc_bias=True, **kwargs):
        super().__init__(**kwargs)
        self.enc = nn.Linear(d_in, d_sae, dtype=torch.float16)
        self.dec = nn.Linear(d_sae, d_in, dtype=torch.float16)
        with torch.no_grad():
            # normalize each of the d_sae dictonary vectors
            self.dec.weight /= vector_norm(self.dec.weight, dim=0, keepdim=True)
            self.enc.weight.copy_(self.dec.weight.clone().t())
            self.enc.bias.copy_(torch.zeros_like(self.enc.bias))
            self.dec.bias.copy_(torch.zeros_like(self.dec.bias))
        self.log_threshold = nn.Parameter(
            torch.log(torch.full((d_sae,), 0.001, dtype=torch.float16)))
        self.use_pre_enc_bias = use_pre_enc_bias
        def project_out_parallel_grad(dim, tensor):
            @torch.no_grad
            def hook(grad_in):
                # norm along dim=dim of the tensor is assumed to be 1 as we
                # are going to normalize it after every grad update
                dot = (tensor * grad_in).sum(dim=dim, keepdim=True)
                return grad_in - dot * tensor
            return hook

        self.dec.weight.register_hook(
            project_out_parallel_grad(0, self.dec.weight))
                

    def forward(self,
        x,
        return_mask=False,
        return_l0=True,
        return_reconstruction_loss=True,
    ):
        "We compute this much here so that compile() can do its magic"
        # as per train_gpt2.py on karpathy's llm.c repo, there are performance
        # reasons not to return stuff
        d = {}
        original_input = x
        if self.use_pre_enc_bias:
            x = x - self.dec.bias
        
        x = self.enc(x)
        threshold = torch.exp(self.log_threshold)
        s = Step.apply(x, threshold)
        if return_mask:
            d['mask'] = s
        if return_l0:
            d['l0'] = s.float().mean(0).sum(-1)
        if not return_reconstruction_loss:
            return d
        x = x*s
        x = self.dec(x)
        # print(((((x - original_input).float())**2) == 0).sum().to(int))
        # d['reconstruction'] = ((x - original_input)**2).mean(0, dtype=torch.float32).sum()
        d['reconstruction'] = (torch.linalg.vector_norm(x - original_input, dim=1, dtype=torch.float32)**2).mean()

        return d

In [57]:
d_in = 1024
d_sae = d_in*8
sae = Sae(d_in, d_sae)

In [58]:
b = 512
x = torch.randn(b, d_in)
# x /= x.norm(dim=1, keepdim=True).mean(dim=1, keepdim=True)
x /= torch.linalg.vector_norm(x, dim=1, keepdim=True).mean(dim=1, keepdim=True)
x = x.to(torch.float16)
d = sae(x)
d['reconstruction'].detach().numpy()


tensor(18)


array(13.011992, dtype=float32)

In [17]:
# collection = []
# for i in range(20):
#     if not (i % 10):
#         print(i)
#     x = torch.randn(b, d_in)
#     # x /= x.norm(dim=1, keepdim=True).mean(dim=1, keepdim=True)
#     x /= torch.linalg.vector_norm(x, dim=1, keepdim=True).mean(dim=1, keepdim=True)
#     x = x.half()
#     sae = Sae(d_in, d_sae)
#     if not sae.enc.weight.detach().isfinite().all():
#         print("enc blew up")
#     if not sae.dec.weight.detach().isfinite().all():
#         print("dec blew up")
#     d = sae(x)
#     l0, reconstruction = d['l0'].detach(), d['reconstruction'].detach()
#     if not l0.isfinite().all():
#         print("l0 blew up")
#     if not reconstruction.isfinite().all():
#         print("reconstruction blew up")
#     collection.append((l0, reconstruction))

In [7]:
def cosine_schedule_with_warmup(
    current_step: int,
    warmup_steps: int,
    total_steps: int
    ):
    if current_step < warmup_steps:
        return (1 + current_step) / warmup_steps
    progress = (current_step - warmup_steps) / (total_steps - warmup_steps)
    return 0.5 * (1 + math.cos(math.pi * progress))

In [9]:
def sparsity_schedule(step, warmup_steps, max_sparsity_coeff):
    if step >= warmup_steps:
        return max_sparsity
    return step / warmup_steps

In [10]:
def fake_train_loader(batch, d_in, total_steps):
    for _ in range(total_steps):
        x = torch.randn(batch, d_in)
        x = torch.randn(b, d_in)
        x /= vector_norm(x, dim=1, keepdim=True)
        yield x

In [None]:
steps = 2**16
max_lr = 7e-5
d_in = 2048
d_sae = 2048*8
model = Sae(d_in, d_sae)
warmup_steps=1000
total_steps=2000 #for now
batch = 1024
optimizer = torch.optim.Adam(model.parameters(), lr=max_lr)
max_sparsity_coeff = 1000

scheduler = torch.optim.lr_scheduler.LambdaLR(
    optimizer,
    lr_lambda=lambda step: cosine_schedule_with_warmup(step, warmup_steps, total_steps)
)
train_loader = fake_train_loader(batch, d_in, total_steps)
for step, x in enumerate(tqdm(train_loader)):
    optimizer.zero_grad()
    d = model(x.to(torch.float16))
    reconstruction_loss, l0 = d['reconstruction'], d['l0']
    sparsity_coefficient = sparsity_schedule(step, warmup_steps, max_sparsity_coeff)
    loss = reconstruction_loss + sparsity_coefficient * l0
    # log losses, compute stats, etc
    loss.backward()
    optimizer.step()
    # TODO: sparsity_coefficient scheduler
    scheduler.step()

    # normalize
    with torch.no_grad():
        model.dec.weight /= vector_norm(model.dec.weight, dim=0, keepdim=True)



0it [00:00, ?it/s]