In [2]:
import os
import pandas as pd
from dotenv import load_dotenv
from dialz import Dataset, SteeringModel, SteeringVector, get_activation_score, visualize_activation

load_dotenv()
hf_token = os.getenv("HF_TOKEN")

  from .autonotebook import tqdm as notebook_tqdm


### Layer Visualization

In [2]:
model_name = "meta-llama/Llama-3.1-8B-Instruct"
dataset = Dataset.load_dataset(model_name, 'hallucination')
## Initialize a steering model that activates on layers 10 to 19
model = SteeringModel(model_name, layer_ids=list(range(10,20)), token=hf_token)

## Train the steering vector using the above model and dataset
vector = SteeringVector.train(model, dataset)

Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]

100%|██████████| 19/19 [00:27<00:00,  1.45s/it]
100%|██████████| 31/31 [00:01<00:00, 15.67it/s]


In [None]:

examples = [
    ["The Statue of Liberty is in New York City.", "The Statue of Liberty is in Cardiff, Wales.", 1],
    ["The Eiffel Tower is in Paris.", "The Eiffel Tower is in Rome.", 3],
    ["Plants need light and water to grow.", "Plants need chocolate and wine to grow.", 2],
    ["Shakespeare wrote Hamlet.", "Shakespeare wrote The Hunger Games.", 3],
    ["Penguins live in the Southern Hemisphere.", "Penguins live in the Sahara Desert.", 1],
]

for example in examples:
    left = visualize_activation(example[0], model, vector, layer_index=18)
    right = visualize_activation(example[1], model, vector, layer_index=18)
    tabs = '\t' * example[2]
    print(f"{left} {tabs} {right}")


[48;2;255;154;154m[38;2;0;0;0mThe[0m[48;2;255;251;251m[38;2;0;0;0m Statue[0m[48;2;255;179;179m[38;2;0;0;0m of[0m[48;2;255;130;130m[38;2;0;0;0m Liberty[0m[48;2;236;252;250m[38;2;0;0;0m is[0m[48;2;255;171;171m[38;2;0;0;0m in[0m[48;2;255;174;174m[38;2;0;0;0m New[0m[48;2;255;209;209m[38;2;0;0;0m York[0m[48;2;255;102;102m[38;2;0;0;0m City[0m[48;2;255;255;255m[38;2;0;0;0m.[0m 	 [48;2;255;163;163m[38;2;0;0;0mThe[0m[48;2;255;252;252m[38;2;0;0;0m Statue[0m[48;2;255;186;186m[38;2;0;0;0m of[0m[48;2;255;141;141m[38;2;0;0;0m Liberty[0m[48;2;238;252;250m[38;2;0;0;0m is[0m[48;2;255;141;141m[38;2;0;0;0m in[0m[48;2;200;246;241m[38;2;0;0;0m Cardiff[0m[48;2;255;239;239m[38;2;0;0;0m,[0m[48;2;64;224;208m[38;2;0;0;0m Wales[0m[48;2;255;255;255m[38;2;0;0;0m.[0m
[48;2;255;190;190m[38;2;0;0;0mThe[0m[48;2;255;177;177m[38;2;0;0;0m E[0m[48;2;255;102;102m[38;2;0;0;0miff[0m[48;2;255;123;123m[38;2;0;0;0mel[0m[48;2;255;119;119m[38;2;0;0;0m Tower

: 

In [27]:
for layer in range(1,32):
    print(f"Layer {layer}: \t" + (visualize_activation(examples[-1][0], model, vector, layer_index=layer) + " "
        + visualize_activation(examples[-1][1], model, vector, layer_index=layer)))

Layer 1: 	[48;2;255;213;213m[38;2;0;0;0mP[0m[48;2;255;227;227m[38;2;0;0;0menguins[0m[48;2;241;252;251m[38;2;0;0;0m live[0m[48;2;230;251;248m[38;2;0;0;0m in[0m[48;2;255;102;102m[38;2;0;0;0m the[0m[48;2;255;218;218m[38;2;0;0;0m Southern[0m[48;2;255;180;180m[38;2;0;0;0m Hemisphere[0m[48;2;255;255;255m[38;2;0;0;0m.[0m [48;2;255;170;170m[38;2;0;0;0mP[0m[48;2;255;199;199m[38;2;0;0;0menguins[0m[48;2;228;250;248m[38;2;0;0;0m live[0m[48;2;205;246;242m[38;2;0;0;0m in[0m[48;2;255;102;102m[38;2;0;0;0m the[0m[48;2;255;205;205m[38;2;0;0;0m Sahara[0m[48;2;255;112;112m[38;2;0;0;0m Desert[0m[48;2;255;255;255m[38;2;0;0;0m.[0m
Layer 2: 	[48;2;64;224;208m[38;2;0;0;0mP[0m[48;2;164;240;232m[38;2;0;0;0menguins[0m[48;2;203;246;242m[38;2;0;0;0m live[0m[48;2;129;234;224m[38;2;0;0;0m in[0m[48;2;151;238;229m[38;2;0;0;0m the[0m[48;2;170;241;234m[38;2;0;0;0m Southern[0m[48;2;236;251;250m[38;2;0;0;0m Hemisphere[0m[48;2;255;255;255m[38;2;0;0;0m.[