In [1]:
%load_ext autoreload
%autoreload 2

from functools import partial

import torch
from transformer_lens import HookedTransformer

from graph import Graph
from attribute import attribute
from dataset import HFEAPDataset
from metrics import get_metric
from evaluate_graph import evaluate_graph, evaluate_baseline, evaluate_area_under_curve


A module that was compiled using NumPy 1.x cannot be run in
NumPy 2.0.2 as it may crash. To support both 1.x and 2.x
versions of NumPy, modules must be compiled with NumPy 2.0.
Some module may need to rebuild instead e.g. with 'pybind11>=2.12'.

If you are a user of the module, the easiest solution will be to
downgrade to 'numpy<2' or try to upgrade the affected module.
We expect that some modules will need time to support NumPy 2.

Traceback (most recent call last):  File "/opt/anaconda3/envs/mib/lib/python3.9/runpy.py", line 197, in _run_module_as_main
    return _run_code(code, main_globals, None,
  File "/opt/anaconda3/envs/mib/lib/python3.9/runpy.py", line 87, in _run_code
    exec(code, run_globals)
  File "/opt/anaconda3/envs/mib/lib/python3.9/site-packages/ipykernel_launcher.py", line 18, in <module>
    app.launch_new_instance()
  File "/opt/anaconda3/envs/mib/lib/python3.9/site-packages/traitlets/config/application.py", line 1075, in launch_instance
    app.start()
  File "/

In [2]:
model_name = "gpt2-small"
model = HookedTransformer.from_pretrained(model_name, device="cpu")
model.cfg.use_split_qkv_input = True
model.cfg.use_attn_result = True
model.cfg.use_hook_mlp_in = True
model.cfg.ungroup_grouped_query_attention = True

Loaded pretrained model gpt2-small into HookedTransformer


In [3]:
model.cfg

HookedTransformerConfig:
{'NTK_by_parts_factor': 8.0,
 'NTK_by_parts_high_freq_factor': 4.0,
 'NTK_by_parts_low_freq_factor': 1.0,
 'act_fn': 'gelu_new',
 'attention_dir': 'causal',
 'attn_only': False,
 'attn_scale': np.float64(8.0),
 'attn_scores_soft_cap': -1.0,
 'attn_types': None,
 'checkpoint_index': None,
 'checkpoint_label_type': None,
 'checkpoint_value': None,
 'd_head': 64,
 'd_mlp': 3072,
 'd_model': 768,
 'd_vocab': 50257,
 'd_vocab_out': 50257,
 'decoder_start_token_id': None,
 'default_prepend_bos': True,
 'device': 'cpu',
 'dtype': torch.float32,
 'eps': 1e-05,
 'experts_per_token': None,
 'final_rms': False,
 'from_checkpoint': False,
 'gated_mlp': False,
 'init_mode': 'gpt2',
 'init_weights': False,
 'initializer_range': np.float64(0.02886751345948129),
 'load_in_4bit': False,
 'model_name': 'gpt2',
 'n_ctx': 1024,
 'n_devices': 1,
 'n_heads': 12,
 'n_key_value_heads': None,
 'n_layers': 12,
 'n_params': 84934656,
 'normalization_type': 'LNPre',
 'num_experts': None,


In [4]:
dataset = HFEAPDataset("danaarad/ioi_dataset", model.tokenizer, task="ioi", num_examples=100)
dataloader = dataset.to_dataloader(20)
metric_fn = get_metric("logit_diff", "ioi", model.tokenizer, model)

huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)


In [13]:
g = Graph.from_model(model)
attribute(model, g, dataloader, partial(metric_fn, loss=True, mean=True), 'EAP')


00%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5/5 [03:50<00:00, 46.20s/it]

In [14]:
g.apply_topn(300, True)
baseline = evaluate_baseline(model, dataloader, partial(metric_fn, loss=False, mean=False)).mean().item()
results = evaluate_graph(model, g, dataloader, partial(metric_fn, loss=False, mean=False)).mean().item()

print(f"Faithfulness: {results / baseline}. Original {baseline}, new {results}")


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5/5 [02:24<00:00, 28.98s/it]

Faithfulness: 0.02751500607807244. Original 3.7398085594177246, new 0.10290085524320602








In [15]:
results = evaluate_area_under_curve(model, g, dataloader, partial(metric_fn, loss=False, mean=False))



00%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5/5 [01:11<00:00, 14.22s/it]

Computing results for 0.1% of edges (N=32)



00%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5/5 [01:39<00:00, 19.81s/it]

Computing results for 0.2% of edges (N=64)



00%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5/5 [01:45<00:00, 21.04s/it]

Computing results for 0.5% of edges (N=162)



00%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5/5 [02:03<00:00, 24.78s/it]

Computing results for 1.0% of edges (N=324)



00%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5/5 [01:42<00:00, 20.59s/it]

Computing results for 2.0% of edges (N=649)



00%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5/5 [01:56<00:00, 23.20s/it]

Computing results for 5.0% of edges (N=1624)



00%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5/5 [02:52<00:00, 34.44s/it]

Computing results for 10.0% of edges (N=3249)



00%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5/5 [01:33<00:00, 18.60s/it]

Computing results for 20.0% of edges (N=6498)



00%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5/5 [01:24<00:00, 16.96s/it]

Computing results for 50.0% of edges (N=16245)



00%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5/5 [01:45<00:00, 21.04s/it]

Computing results for 100% of edges (N=32491)



00%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5/5 [01:55<00:00, 23.16s/it]

100%|██████████| 10/10 [00:03<00:00,  2.55it/s]


In [16]:
results

([14.0, 38.0, 131.0, 278.0, 574.0, 1535.0, 3180.0, 6498.0, 16245.0, 32491.0],
 0.9624891600436312,
 0.03651083995636873,
 0.6318046996236665,
 [0.002448019100870069,
  0.021915097319206503,
  0.26626954898314953,
  0.44793003221242383,
  0.7513044415022033,
  0.9588903074751852,
  0.9326516335960353,
  0.9498309383293693,
  0.9868069777182217,
  1.0])