In [1]:
import torch
import numpy as np
from torch import einsum
from tqdm.auto import tqdm
import seaborn as sns
from transformer_lens import HookedTransformer, ActivationCache, utils, patching
from datasets import load_dataset
from einops import einsum
import pandas as pd
from transformer_lens import utils
from rich.table import Table, Column
from rich import print as rprint
from jaxtyping import Float, Int, Bool
from typing import List, Tuple
from torch import Tensor
import einops
import functools
from transformer_lens.hook_points import HookPoint
# import circuitsvis
from IPython.display import HTML
from plotly.express import line
import plotly.express as px
from tqdm.auto import tqdm
import json
import gc
import plotly.graph_objects as go

import sklearn
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from plotly.subplots import make_subplots
# Plotly needs a different renderer for VSCode/Notebooks vs Colab argh
import plotly.io as pio
pio.renderers.default = "notebook_connected"
device = "cuda" if torch.cuda.is_available() else "cpu"
torch.autograd.set_grad_enabled(False)
torch.set_grad_enabled(False)

from haystack_utils import load_txt_data, get_mlp_activations, line
import haystack_utils

%reload_ext autoreload
%autoreload 2

In [2]:
news_data = haystack_utils.load_txt_data("german_news.csv")
print(len(news_data))

german_news.csv: Loaded 9246 examples with 0 to 22124 characters each.
9246


In [8]:
german_news_data = []
for example in tqdm(news_data[:-1]):
    index = example.index(";")
    example = example[index+1:]
    if len(example) > 500:
        german_news_data.append(example[:min(len(example), 2000)])

print(len(german_news_data))

  0%|          | 0/9245 [00:00<?, ?it/s]

8979


In [9]:
model = HookedTransformer.from_pretrained("EleutherAI/pythia-70m",
    center_unembed=True,
    center_writing_weights=True,
    fold_ln=True,
    device=device)

german_data = haystack_utils.load_json_data("data/german_europarl.json")
english_data = haystack_utils.load_json_data("data/english_europarl.json")


english_activations = {}
german_activations = {}
for layer in range(3, 6):
    english_activations[layer] = get_mlp_activations(english_data[:200], layer, model, mean=False)
    german_activations[layer] = get_mlp_activations(german_data[:200], layer, model, mean=False)


LOG_PROB_THRESHOLD = -7
LAYER_TO_ABLATE = 3
NEURONS_TO_ABLATE = [669]
MEAN_ACTIVATION_ACTIVE = german_activations[LAYER_TO_ABLATE][:, NEURONS_TO_ABLATE].mean()
MEAN_ACTIVATION_INACTIVE = english_activations[LAYER_TO_ABLATE][:, NEURONS_TO_ABLATE].mean()

def deactivate_neurons_hook(value, hook):
    value[:, :, NEURONS_TO_ABLATE] = MEAN_ACTIVATION_INACTIVE
    return value
deactivate_neurons_fwd_hooks=[(f'blocks.{LAYER_TO_ABLATE}.mlp.hook_post', deactivate_neurons_hook)]

def activate_neurons_hook(value, hook):
    value[:, :, NEURONS_TO_ABLATE] = MEAN_ACTIVATION_ACTIVE
    return value
activate_neurons_fwd_hooks=[(f'blocks.{LAYER_TO_ABLATE}.mlp.hook_post', activate_neurons_hook)]

all_ignore, not_ignore = haystack_utils.get_weird_tokens(model, plot_norms=False)

Downloading (…)lve/main/config.json:   0%|          | 0.00/567 [00:00<?, ?B/s]

Downloading model.safetensors:   0%|          | 0.00/166M [00:00<?, ?B/s]

Downloading (…)okenizer_config.json:   0%|          | 0.00/396 [00:00<?, ?B/s]

Downloading (…)/main/tokenizer.json:   0%|          | 0.00/2.11M [00:00<?, ?B/s]

Downloading (…)cial_tokens_map.json:   0%|          | 0.00/99.0 [00:00<?, ?B/s]

Using pad_token, but it is not set yet.


Loaded pretrained model EleutherAI/pythia-70m into HookedTransformer
data/german_europarl.json: Loaded 2000 examples with 152 to 2000 characters each.
data/english_europarl.json: Loaded 2000 examples with 165 to 2000 characters each.


  0%|          | 0/200 [00:00<?, ?it/s]

  0%|          | 0/200 [00:00<?, ?it/s]

  0%|          | 0/200 [00:00<?, ?it/s]

  0%|          | 0/200 [00:00<?, ?it/s]

  0%|          | 0/200 [00:00<?, ?it/s]

  0%|          | 0/200 [00:00<?, ?it/s]

In [15]:
german_data = german_news_data

# Direct MLP5 effects

In [16]:
german_losses = []
for prompt in tqdm(german_data[:2000]):
    original_loss, ablated_loss, context_and_activated_loss, only_activated_loss = haystack_utils.get_direct_effect(prompt, model, pos=None, context_ablation_hooks=deactivate_neurons_fwd_hooks, context_activation_hooks=activate_neurons_fwd_hooks)
    german_losses.append((original_loss, ablated_loss, context_and_activated_loss, only_activated_loss))

  0%|          | 0/2000 [00:00<?, ?it/s]

In [42]:
def interest_measure(original_loss, ablated_loss, context_and_activated_loss, only_activated_loss):
    loss_diff = (ablated_loss - original_loss) # High ablation loss increase
    mlp_5_power = (only_activated_loss - original_loss) # Low loss increase from MLP5
    mlp_5_power[mlp_5_power < 0] = 0
    combined = 0.5*loss_diff - mlp_5_power
    combined[original_loss > 6] = 0
    combined[original_loss > ablated_loss] = 0
    return combined

In [43]:
def get_mlp5_decrease_measure(losses: list[tuple[Float[Tensor, "pos"], Float[Tensor, "pos"], Float[Tensor, "pos"], Float[Tensor, "pos"]]]):
    measure = []
    for original_loss, ablated_loss, context_and_activated_loss, only_activated_loss in losses:
        combined = interest_measure(original_loss, ablated_loss, context_and_activated_loss, only_activated_loss)
        measure.append(combined.max().item())
    return measure

measure = get_mlp5_decrease_measure(german_losses)
index = [i for i in range(len(measure))]

sorted_measure = list(zip(index, measure))
sorted_measure.sort(key=lambda x: x[1], reverse=True)

In [44]:
def print_prompt(prompt: str):
    str_token_prompt = model.to_str_tokens(model.to_tokens(prompt))
    original_loss, ablated_loss, context_and_activated_loss, only_activated_loss = haystack_utils.get_direct_effect(prompt, model, pos=None, context_ablation_hooks=deactivate_neurons_fwd_hooks, context_activation_hooks=activate_neurons_fwd_hooks)

    pos_wise_diff = interest_measure(original_loss, ablated_loss, context_and_activated_loss, only_activated_loss).flatten().cpu().tolist()

    loss_list = [loss.flatten().cpu().tolist() for loss in [original_loss, ablated_loss, context_and_activated_loss, only_activated_loss]]
    loss_names = ["original_loss", "ablated_loss", "context_and_activated_loss", "only_activated_loss"]
    haystack_utils.clean_print_strings_as_html(str_token_prompt[1:], pos_wise_diff, max_value=5, additional_measures=loss_list, additional_measure_names=loss_names)

In [134]:
def average_loss_plot(prompts: list[str], model: HookedTransformer, token=""):

    original_losses, ablated_losses, context_and_activated_losses, only_activated_losses = [], [], [], []
    names = ["Original", "Ablated", "Context + MLP5 active", "MLP5 active"]
    for prompt in prompts:
        original_loss, ablated_loss, context_and_activated_loss, only_activated_loss = haystack_utils.get_direct_effect(prompt, model, pos=-1, context_ablation_hooks=deactivate_neurons_fwd_hooks, context_activation_hooks=activate_neurons_fwd_hooks)
        original_losses.append(original_loss)
        ablated_losses.append(ablated_loss)
        context_and_activated_losses.append(context_and_activated_loss)
        only_activated_losses.append(only_activated_loss)

    haystack_utils.plot_barplot([original_losses, ablated_losses, context_and_activated_losses, only_activated_losses], names, ylabel="Loss", title=f"Average loss '{token}'")

## Looking for ngrams

In [46]:
for i, measure in sorted_measure[:20]:
    print_prompt(german_data[i])

In [68]:
# Ansicht
# Verteidig
# Minderheit

In [72]:
prompts = [
    "Der Handwerker wird einen maßgeschneiderten Schrank fertigen.",
    "Sie fertigt kunstvolle Keramikobjekte in ihrer Werkstatt.",
    "Der Architekt plant das Haus und der Bauunternehmer fertigt es.",
    "Das Unternehmen fertigt hochwertige Elektronikprodukte.",
    "Er hat eine Skulptur aus Metall fertiggestellt.",
    "Der Bäcker wird morgen früh das Brot fertigbacken.",
    "Die Designerin fertigt einzigartige Kleider für ihre Kunden.",
    "Der Ingenieur fertigt einen detaillierten Bauplan für das Projekt.",
    "Die Fabrik fertigt täglich tausende von Autos.",
    "Die Schneiderei fertigt individuelle Kleidungsstücke nach Maß."
]


for prompt in prompts:
    print_prompt(prompt)

## häufig

In [74]:
prompts = [
    "In der Sommerzeit kommt es häufig",
    "Der Zug hat häufig",
    "Eine gesunde Ernährung ist häufig",
    "Bei stressigen Situationen treten häufig",
    "Im Winter erkranken Menschen häufig",
    "In vielen Unternehmen werden häufig",
    "Eine gute Kommunikation ist häufig",
    "Um Verkehrsstaus zu vermeiden, fahren viele Pendler häufig"
]

for prompt in prompts:
    print_prompt(prompt)

In [76]:
average_loss_plot(prompts, model, token="hä-u-fig")

## Schließt

In [63]:
prompts = [
    "Bob, nachdem er alle Optionen gründlich erwogen hat, schließt",
    "Der Ausschuss hat die Angelegenheit gründlich erwogen und schließt",
    "Die Kommission hat eine wichtige Entscheidung getroffen und schließt",
    "Zusammen haben sie die Angelegenheit gründlich erwogen und schließt",
    "Die Polizei schließt"
]

for prompt in prompts:
    print_prompt(prompt)


In [77]:
average_loss_plot(prompts, model, token="sch-lie-ß-t")

## Beweglich

In [60]:
prompts = [
    "Zum Glück hat sich Klaus gut von seinem Unfall erholt und blieb geistig äußerst beweglich",
    "Das neue Design des Roboteres macht die Gliedmaßen besonders weit beweglich",
    "Die Roboterarme sind flexibel und beweglich",
    "Der Künstler hat eine Skulptur geschaffen, die optisch sehr beweglich",
    "Die Yoga-Übungen machen den Körper geschmeidig und beweglich",
    "Die Schubladen des Schranks sind dank der Rollen besonders beweglich",
    "Das neue Mobiltelefon ist leicht und beweglich",
    "Die Puppen sind sehr beweglich",
    "Die Beine vom Tisch sind beweglich",
    "Die Schmetterlinge fliegen anmutig und beweglich"
]



for prompt in prompts:
    print_prompt(prompt)

In [78]:
average_loss_plot(prompts, model, token="be-we-glich")

## Ansicht (not a good example)

In [55]:
prompts = [
    "Ich finde ihre Ansicht",
    "Ich teile seine Ansicht",
    "Ich teile deine Ansicht",
    "Die politische Ansicht",
    "Sie teilt die Ansicht",
    "Ich stimme mit deiner Ansicht"
]

for prompt in prompts:
    print_prompt(prompt)

In [79]:
average_loss_plot(prompts, model, token="Ans-icht")

## Voschlägen

In [152]:
# nächster
prompts = ["Ich habe noch einige Fragen zu Ihren Vorschlägen",
    "Ich stimme den Vorschlägen",
    "Kannst du bitte mit deinen Vorschlägen",
    "Laut den Vorschlägen",
    "Die Diskussion wurde mit vielen interessanten Vorschlägen",
    "Sie schrieb einen Brief mit ihren Vorschlägen",
    "Wir werden nach deinen Vorschlägen",
    "Sind Sie mit diesen Vorschlägen",
    "Gemäß den Vorschlägen",
    "Der Kunde war nicht einverstanden mit unseren Vorschlägen",
    "Sie zeigte uns ein Dokument mit ihren Vorschlägen",
    "Das Team arbeitet an den Vorschlägen",
    "Meinen Vorschlägen",
    "Der Ausschuss wird nach den Vorschlägen",
    "Sie war unzufrieden mit den Vorschlägen",
    "Unsere Agentur kam mit neuen Vorschlägen",
    "Haben Sie Änderungen zu den Vorschlägen",
    "Gemäß Ihren Vorschlägen",
    "Ich schrieb einen Bericht mit meinen Vorschlägen",
    "Nach den Vorschlägen",
    "Ich werde gemäß Ihren Vorschlägen",
    "Der Manager war unzufrieden mit den Vorschlägen",
    "Mit diesen Vorschlägen",
    "Der Ausschuss stimmte den Vorschlägen",
    "Der Leiter war sehr zufrieden mit den Vorschlägen",
    "Nach den aktuellen Vorschlägen",
    "Mit ihren innovativen Vorschlägen",
    "Mit einigen Verbesserungen zu Ihren Vorschlägen",
    "Das Team kam mit neuen Vorschlägen",
    "Sie kam mit großartigen Vorschlägen",
    "Ich werde mit meinen Vorschlägen",
    "Sie zeigte sich zufrieden mit den Vorschlägen",
    "Der Direktor war beeindruckt von den Vorschlägen",
    "Die Organisation hat nach Ihren Vorschlägen",
    "Wir haben ein Dokument mit den Vorschlägen",
    "Mit einigen Vorschlägen",
    "Der Lehrer war sehr zufrieden mit den Vorschlägen",
    "Nach Ihren Vorschlägen",
    "In Übereinstimmung mit den Vorschlägen",
    "Sie stimmte den Vorschlägen",
    "Mit diesen neuen Vorschlägen",
    "Ich bin sehr beeindruckt von Ihren Vorschlägen",
    "Das Unternehmen hat nach unseren Vorschlägen",
    "Die Jury war beeindruckt von den Vorschlägen",
    "Die Verwaltung hat nach Ihren Vorschlägen",
    "Das Publikum war sehr zufrieden mit den Vorschlägen",
]


for prompt in prompts[:5]:
    print_prompt(prompt)

In [153]:
average_loss_plot(prompts, model, token="V-orsch-lä-gen")

## Check previous tokens actually matter

### Generate some likely tokens from german data

In [None]:
token_counts = torch.zeros(model.cfg.d_vocab)
for example in tqdm(german_data):
    tokens = model.to_tokens(example)
    for token in tokens[0]:
        token_counts[token.item()] += 1

In [102]:
token_counts[all_ignore] = 0

punctuation = [".", ",", "!", "?", ";", ":", "-", "(", ")", "[", "]", "{", "}", "<", ">", "/", "\\", "\"", "'"]
leading_space_punctuation = [" " + char for char in punctuation]
punctuation_tokens = model.to_tokens(punctuation + leading_space_punctuation + [' –', " ", '  ', "<|endoftext|>"])[:, 1].flatten()
token_counts[punctuation_tokens] = 0

top_counts, top_tokens = torch.topk(token_counts, 100)
print(model.to_str_tokens(top_tokens[:100]))

['en', ' der', ' die', ' und', ' in', 'te', 'ung', 'ä', ' den', 't', 'z', 'st', 'ü', 'ch', ' er', ' von', 're', ' auf', ' mit', ' zu', 'ge', 'f', ' das', ' ein', ' K', ' im', 'ten', ' für', ' z', 'ig', 'e', ' W', ' sich', ' Die', 'it', 'er', 'hen', 'ö', 'ren', ' ist', ' an', ' ver', ' dem', 'k', 'in', ' nicht', ' des', ' w', 'i', 'w', 'ien', 'n', ' aus', 'l', 'h', ' Z', 'ß', ' eine', ' se', 'le', ' es', 'ischen', ' am', 'ag', ' G', 'et', 'ie', 's', 'ür', 'b', ' B', 'ht', 'es', ' auch', ' als', 'g', 'gen', 'we', 'men', ' D', ' d', 'hr', 'il', 'icht', ' F', ' sch', ' g', 'lich', ' nach', ' M', 'ungen', ' ge', ' um', ' über', ' be', 'ert', ' Ver', ' vor', ' we', ' Der']


In [117]:
def replace_token(prompts, replace_index, token="", num_replacements=20):
    new_prompts = []
    for prompt in prompts:
        tokens = model.to_tokens(prompt)
        for i in range(num_replacements):
            if tokens[0, replace_index].item() != top_tokens[i].item():
                new_tokens = tokens.clone()
                new_tokens[0, replace_index] = top_tokens[i]
                new_prompts.append(new_tokens)
            else:
                print("skipping")
    average_loss_plot(new_prompts, model, token=token)

In [162]:
prompts = ["Ich habe noch einige Fragen zu Ihren Vorschlägen",
    "Ich stimme den Vorschlägen",
    "Kannst du bitte mit deinen Vorschlägen",
    "Laut den Vorschlägen",
    "Die Diskussion wurde mit vielen interessanten Vorschlägen",
    "Sie schrieb einen Brief mit ihren Vorschlägen",
    "Wir werden nach deinen Vorschlägen",
    "Sind Sie mit diesen Vorschlägen",
    "Gemäß den Vorschlägen",
    "Der Kunde war nicht einverstanden mit unseren Vorschlägen",
    "Sie zeigte uns ein Dokument mit ihren Vorschlägen",
    "Das Team arbeitet an den Vorschlägen",
    "Meinen Vorschlägen",
    "Der Ausschuss wird nach den Vorschlägen",
    "Sie war unzufrieden mit den Vorschlägen",
    "Unsere Agentur kam mit neuen Vorschlägen",
    "Haben Sie Änderungen zu den Vorschlägen",
    "Gemäß Ihren Vorschlägen",
    "Ich schrieb einen Bericht mit meinen Vorschlägen",
    "Nach den Vorschlägen",
    "Ich werde gemäß Ihren Vorschlägen",
    "Der Manager war unzufrieden mit den Vorschlägen",
    "Mit diesen Vorschlägen",
    "Der Ausschuss stimmte den Vorschlägen",
    "Der Leiter war sehr zufrieden mit den Vorschlägen",
    "Nach den aktuellen Vorschlägen",
    "Mit ihren innovativen Vorschlägen",
    "Mit einigen Verbesserungen zu Ihren Vorschlägen",
    "Das Team kam mit neuen Vorschlägen",
    "Sie kam mit großartigen Vorschlägen",
    "Ich werde mit meinen Vorschlägen",
    "Sie zeigte sich zufrieden mit den Vorschlägen",
    "Der Direktor war beeindruckt von den Vorschlägen",
    "Die Organisation hat nach Ihren Vorschlägen",
    "Wir haben ein Dokument mit den Vorschlägen",
    "Mit einigen Vorschlägen",
    "Der Lehrer war sehr zufrieden mit den Vorschlägen",
    "Nach Ihren Vorschlägen",
    "In Übereinstimmung mit den Vorschlägen",
    "Sie stimmte den Vorschlägen",
    "Mit diesen neuen Vorschlägen",
    "Ich bin sehr beeindruckt von Ihren Vorschlägen",
    "Das Unternehmen hat nach unseren Vorschlägen",
    "Die Jury war beeindruckt von den Vorschlägen",
    "Die Verwaltung hat nach Ihren Vorschlägen",
    "Das Publikum war sehr zufrieden mit den Vorschlägen",
]

In [149]:
average_loss_plot(prompts, model, token="V-orsch-lä-gen")

In [144]:
# Replace second to last token
replace_token(prompts, -2, token="V-orsch-X-gen")

In [163]:
# Replace third to last token
replace_token(prompts, -3, token="V-X-lä-gen")

In [164]:
# Replace V token
replace_token(prompts, -4, token="X-orsch-lä-gen")

In [147]:
# Replace first token
replace_token(prompts, 1, token="V-orsch-X-gen")

In [150]:
new_prompts = ["en habe noch einige Fragen zu Ihren Vorschlägen"]

average_loss_plot(new_prompts, model, token="V-orsch-lä-gen")

In [151]:
new_prompts = ["Ich habe noch einige Fragen zu Ihren Vorschlägen"]

average_loss_plot(new_prompts, model, token="V-orsch-lä-gen")

## Weird behavior? Why is the loss so low...

In [129]:
prompt = "Kannst du bitte mit deinen Vorschlägen"
loss = model(prompt, return_type="loss", loss_per_token=True).flatten()[-1]
print(loss)
tokens = model.to_tokens(prompt)
loss = model(tokens, return_type="loss", loss_per_token=True).flatten()[-1]
print(loss)

tensor(3.2218, device='cuda:0')
tensor(3.2218, device='cuda:0')


In [133]:
tokens = torch.LongTensor([[    0,    44,  1136,   296,  3443,  2372,   442,  4784,   372, 14899,
           257, 34267, 42824,  1541]])
loss = model(tokens, return_type="loss", loss_per_token=True).flatten()[-1]
print(loss)
prompt = "Kannst du bitte mit deinenenorschlägen"
loss = model(prompt, return_type="loss", loss_per_token=True).flatten()[-1]
print(loss)
tokens = model.to_tokens(prompt)
loss = model(tokens, return_type="loss", loss_per_token=True).flatten()[-1]
print(loss)

tensor(0.4795, device='cuda:0')
tensor(0.4795, device='cuda:0')
tensor(0.4795, device='cuda:0')


In [160]:
prompt = "Kannst du bitte mit deinen Vorschlägen"
loss = model(prompt, return_type="loss", loss_per_token=True).flatten()[-1]
print_prompt(prompt)
print(loss)
prompt = " derannst du bitte mit deinen Vorschlägen"
loss = model(prompt, return_type="loss", loss_per_token=True).flatten()[-1]
print_prompt(prompt)
print(loss)

tensor(3.2218, device='cuda:0')


tensor(2.2444, device='cuda:0')
