In [9]:
try:
    import google.colab

    IN_COLAB = True
    !pip install einops
    !pip install https://github.com/neelnanda-io/TransformerLens@no-position-experiment
except:
    IN_COLAB = False

from transformer_lens import HookedTransformer, HookedTransformerConfig
import torch
import numpy as np
import plotly.express as px
import plotly.io as pio

pio.renderers.default = "colab"
import tqdm.auto as tqdm
import einops
from transformer_lens.utils import to_numpy

device = "cuda" if torch.cuda.is_available() else "cpu"
torch.set_default_device(device)

In [10]:
def line(tensor, line_labels=None, yaxis="", xaxis="", **kwargs):
    tensor = to_numpy(tensor)
    labels = {"y": yaxis, "x": xaxis}
    fig = px.line(tensor, labels=labels, **kwargs)
    if line_labels:
        for c, label in enumerate(line_labels):
            fig.data[c].name = label
    fig.show()


def imshow(tensor, yaxis="", xaxis="", **kwargs):
    tensor = to_numpy(tensor)
    plot_kwargs = {
        "color_continuous_scale": "RdBu",
        "color_continuous_midpoint": 0.0,
        "labels": {"x": xaxis, "y": yaxis},
    }
    plot_kwargs.update(kwargs)
    px.imshow(tensor, **plot_kwargs).show()

In [11]:
cfg = HookedTransformerConfig(
    n_layers=2,
    d_model=64,
    d_head=64,
    n_heads=1,
    d_mlp=256,
    d_vocab=300,
    n_ctx=50,
    act_fn="relu",
    normalization_type="LN",
)
model = HookedTransformer(cfg)

In [12]:
def deactivate_position(model):
    model.pos_embed.W_pos.data[:] = 0.0
    model.pos_embed.W_pos.requires_grad = False


deactivate_position(model)

In [13]:
print(model)


HookedTransformer(
  (embed): Embed()
  (hook_embed): HookPoint()
  (pos_embed): PosEmbed()
  (hook_pos_embed): HookPoint()
  (blocks): ModuleList(
    (0-1): 2 x TransformerBlock(
      (ln1): LayerNorm(
        (hook_scale): HookPoint()
        (hook_normalized): HookPoint()
      )
      (ln2): LayerNorm(
        (hook_scale): HookPoint()
        (hook_normalized): HookPoint()
      )
      (attn): Attention(
        (hook_k): HookPoint()
        (hook_q): HookPoint()
        (hook_v): HookPoint()
        (hook_z): HookPoint()
        (hook_attn_scores): HookPoint()
        (hook_pattern): HookPoint()
        (hook_result): HookPoint()
      )
      (mlp): MLP(
        (hook_pre): HookPoint()
        (hook_post): HookPoint()
      )
      (hook_attn_in): HookPoint()
      (hook_q_input): HookPoint()
      (hook_k_input): HookPoint()
      (hook_v_input): HookPoint()
      (hook_mlp_in): HookPoint()
      (hook_attn_out): HookPoint()
      (hook_mlp_out): HookPoint()
      (hook_resi

In [14]:
def make_data_generator(cfg, batch_size, seed=123, incl_bos_token=True):
    torch.manual_seed(seed)
    while True:
        x = torch.randint(1, cfg.d_vocab, (batch_size, cfg.n_ctx))
        if incl_bos_token:
            x[:, 0] = 0
        yield x


data_generator = make_data_generator(cfg, 2)
print(next(data_generator))

tensor([[  0,  93,  34, 155, 274, 116, 114, 248,  68,   3, 298,  83, 194,  20,
           8, 133,  32,  66,  62,  73, 210, 273,  46, 243, 104, 232, 161, 125,
         123, 251,   7,   4, 115, 127,  21,   1,  89, 142,   6,  15, 298, 251,
          88, 229, 108, 114,  23,  88,   3, 265],
        [  0, 118,  46, 274, 105, 268, 131,  35,  19,  58, 226, 278,  27,  25,
         276, 180, 164,   4,  95,  27,  74, 201, 105,  65,  80, 185,  44, 258,
         105,  60,  58,  47, 126,  60, 294, 253, 258, 136,  29, 101, 258,  77,
          80, 180, 159, 169, 122, 117,  27, 194]])


In [15]:
def loss_fn(logits, tokens, per_token=False):
    # logit shape: [batch, pos, vocab]
    # token shape: [batch, pos]
    logits = logits[:, 1:]
    tokens = tokens[:, :-1]
    log_probs = logits.log_softmax(-1)
    correct_log_probs = log_probs.gather(-1, tokens[..., None])[..., 0]
    if per_token:
        return -correct_log_probs
    else:
        return -correct_log_probs.mean()

In [16]:
# Test the loss function works
test_tokens = torch.arange(5)[None, :]
test_logits = torch.randn(1, 5, 10)
test_logits[:, 1, 0] = 10.0
test_logits[:, 2, 1] = 10.0
test_logits[:, 3, 2] = 10.0
test_logits[:, 4, 3] = 10.0
print(loss_fn(test_logits, test_tokens, per_token=True))
print(loss_fn(test_logits, test_tokens, per_token=False))

tensor([[0.0004, 0.0003, 0.0031, 0.0005]])
tensor(0.0011)


In [17]:
batch_size = 256
num_epochs = 4000
lr = 1e-4
betas = (0.9, 0.95)
max_grad_norm = 1.0
wd = 0.1
optimizer = torch.optim.AdamW(model.parameters(), lr=lr, betas=betas, weight_decay=wd)
scheduler = torch.optim.lr_scheduler.LambdaLR(optimizer, lambda i: min(i / 100, 1.0))

data_loader = make_data_generator(cfg, batch_size)

In [20]:
losses = []
for epoch in tqdm.tqdm(range(num_epochs)):
    tokens = next(data_loader)
    tokens = tokens.cuda()
    logits = model(tokens)
    loss = loss_fn(logits, tokens)
    loss.backward()
    if max_grad_norm is not None:
        torch.nn.utils.clip_grad_norm_(model.parameters(), max_grad_norm)
    optimizer.step()
    optimizer.zero_grad()
    scheduler.step()
    losses.append(loss.item())
    if epoch % 100 == 0:
        print(f"Epoch {epoch}: {loss.item()}")
px.line(losses, labels={"x": "Epoch", "y": "Loss"})

  0%|▏                                                                                                                                                                                                                     | 4/4000 [00:01<25:44,  2.59it/s]

Epoch 0: 6.043600082397461


  3%|█████▌                                                                                                                                                                                                              | 106/4000 [00:05<02:27, 26.44it/s]

Epoch 100: 5.762970447540283


  5%|██████████▊                                                                                                                                                                                                         | 205/4000 [00:09<02:20, 27.03it/s]

Epoch 200: 5.5566182136535645


  8%|████████████████                                                                                                                                                                                                    | 304/4000 [00:13<02:26, 25.22it/s]

Epoch 300: 5.424401760101318


 10%|█████████████████████▌                                                                                                                                                                                              | 406/4000 [00:17<02:16, 26.30it/s]

Epoch 400: 5.2856340408325195


 13%|██████████████████████████▊                                                                                                                                                                                         | 505/4000 [00:21<02:18, 25.23it/s]

Epoch 500: 5.122270107269287


 15%|████████████████████████████████                                                                                                                                                                                    | 604/4000 [00:25<02:10, 25.94it/s]

Epoch 600: 4.887668609619141


 18%|█████████████████████████████████████▎                                                                                                                                                                              | 703/4000 [00:29<02:01, 27.08it/s]

Epoch 700: 4.592804431915283


 20%|██████████████████████████████████████████▋                                                                                                                                                                         | 805/4000 [00:32<02:00, 26.41it/s]

Epoch 800: 4.23142147064209


 23%|███████████████████████████████████████████████▉                                                                                                                                                                    | 904/4000 [00:36<02:08, 24.12it/s]

Epoch 900: 3.8446669578552246


 25%|█████████████████████████████████████████████████████                                                                                                                                                              | 1006/4000 [00:40<01:48, 27.70it/s]

Epoch 1000: 3.3915724754333496


 28%|██████████████████████████████████████████████████████████▎                                                                                                                                                        | 1105/4000 [00:44<02:11, 22.04it/s]

Epoch 1100: 2.969514846801758


 30%|███████████████████████████████████████████████████████████████▌                                                                                                                                                   | 1204/4000 [00:48<01:48, 25.83it/s]

Epoch 1200: 2.543158769607544


 33%|████████████████████████████████████████████████████████████████████▉                                                                                                                                              | 1306/4000 [00:52<01:46, 25.30it/s]

Epoch 1300: 2.181365966796875


 35%|██████████████████████████████████████████████████████████████████████████                                                                                                                                         | 1405/4000 [00:56<01:43, 25.02it/s]

Epoch 1400: 1.8228474855422974


 38%|███████████████████████████████████████████████████████████████████████████████▎                                                                                                                                   | 1504/4000 [01:00<01:49, 22.87it/s]

Epoch 1500: 1.5068308115005493


 40%|████████████████████████████████████████████████████████████████████████████████████▋                                                                                                                              | 1606/4000 [01:04<01:39, 23.98it/s]

Epoch 1600: 1.2198866605758667


 43%|█████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                                         | 1705/4000 [01:08<01:41, 22.51it/s]

Epoch 1700: 0.9789947271347046


 45%|███████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                                   | 1804/4000 [01:12<01:32, 23.72it/s]

Epoch 1800: 0.7692645192146301


 48%|████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                              | 1906/4000 [01:16<01:19, 26.29it/s]

Epoch 1900: 0.5951241254806519


 50%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                         | 2005/4000 [01:20<01:15, 26.43it/s]

Epoch 2000: 0.46517881751060486


 53%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                    | 2104/4000 [01:24<01:11, 26.68it/s]

Epoch 2100: 0.34836500883102417


 55%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                              | 2203/4000 [01:28<01:12, 24.63it/s]

Epoch 2200: 0.25679466128349304


 58%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                         | 2305/4000 [01:31<01:01, 27.77it/s]

Epoch 2300: 0.19487392902374268


 60%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                    | 2404/4000 [01:35<00:58, 27.19it/s]

Epoch 2400: 0.13896116614341736


 63%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                               | 2503/4000 [01:39<00:59, 25.27it/s]

Epoch 2500: 0.10757597535848618


 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                         | 2605/4000 [01:43<00:51, 27.28it/s]

Epoch 2600: 0.08292744308710098


 68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                    | 2704/4000 [01:47<00:47, 27.34it/s]

Epoch 2700: 0.06113012880086899


 70%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                               | 2806/4000 [01:51<00:43, 27.65it/s]

Epoch 2800: 0.04492567107081413


 73%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                         | 2905/4000 [01:55<00:42, 25.53it/s]

Epoch 2900: 0.034356363117694855


 75%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                    | 3004/4000 [01:59<00:38, 25.76it/s]

Epoch 3000: 0.026605995371937752


 78%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                               | 3103/4000 [02:03<00:33, 26.42it/s]

Epoch 3100: 0.019921177998185158


 80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                          | 3202/4000 [02:07<00:28, 27.55it/s]

Epoch 3200: 0.015431825071573257


 83%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                    | 3304/4000 [02:11<00:26, 26.53it/s]

Epoch 3300: 0.013775965198874474


 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                               | 3406/4000 [02:15<00:25, 23.72it/s]

Epoch 3400: 0.010258864611387253


 88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                          | 3505/4000 [02:19<00:19, 25.86it/s]

Epoch 3500: 0.008568882010877132


 90%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                     | 3604/4000 [02:23<00:14, 26.45it/s]

Epoch 3600: 0.008179700933396816


 93%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍               | 3706/4000 [02:27<00:10, 27.30it/s]

Epoch 3700: 0.00609032204374671


 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋          | 3805/4000 [02:31<00:07, 25.27it/s]

Epoch 3800: 0.006044168025255203


 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉     | 3904/4000 [02:35<00:04, 23.06it/s]

Epoch 3900: 0.0055661736987531185


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4000/4000 [02:39<00:00, 25.07it/s]


In [23]:
torch.save(model.state_dict(), "no_pos_experiment_state_dict_v0.pth")

# model interpretability

In [21]:
model.pos_embed.W_pos.norm()

tensor(0., device='cuda:0')