# Unlearning Harry Potter with LAT

This notebook uses LAT to improve over the "Who's Harry Potter" method for unlearning Harry Potter knowledge.

## Imports

In [1]:
%load_ext autoreload
%autoreload 2
    
import os
import sys
import torch
import datasets
from dotenv import load_dotenv
from torch.utils.data import DataLoader
from transformers import AutoModelForCausalLM, AutoTokenizer
os.chdir("../")
cwd = os.getcwd()
if cwd not in sys.path:
    sys.path.insert(0, cwd)
from latent_at import *

load_dotenv()
hf_access_token = os.getenv("HUGGINGFACE_API_KEY")

[2024-07-22 05:43:39,506] [INFO] [real_accelerator.py:203:get_accelerator] Setting ds_accelerator to cuda (auto detect)




/usr/bin/ld: cannot find -laio: No such file or directory
collect2: error: ld returned 1 exit status


## Model

In [2]:
model = AutoModelForCausalLM.from_pretrained("meta-llama/Llama-2-7b-chat-hf", token=hf_access_token, torch_dtype=torch.bfloat16).cuda()
tokenizer = AutoTokenizer.from_pretrained("meta-llama/Llama-2-7b-chat-hf", token=hf_access_token)
tokenizer.pad_token_id = tokenizer.unk_token_id
tokenizer.padding_side = "left"
device="cuda"

prompt = "Harry Potter is"
input_ids = tokenizer.encode(prompt, return_tensors='pt')
outputs = model.generate(
    input_ids.to("cuda"),
    max_length=200,
)

print("***OFF-THE-SHELF MODEL PERFORMANCE***\n")
print("Prompt:\n" + prompt + "\n")
prompt_response = tokenizer.decode(outputs[0]).replace('\n', '')
print("Completion:\n" + prompt_response[len(prompt):])

config.json:   0%|          | 0.00/614 [00:00<?, ?B/s]

model.safetensors.index.json:   0%|          | 0.00/26.8k [00:00<?, ?B/s]

Downloading shards:   0%|          | 0/2 [00:00<?, ?it/s]

model-00001-of-00002.safetensors:   0%|          | 0.00/9.98G [00:00<?, ?B/s]

model-00002-of-00002.safetensors:   0%|          | 0.00/3.50G [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/188 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/1.62k [00:00<?, ?B/s]

tokenizer.model:   0%|          | 0.00/500k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.84M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/414 [00:00<?, ?B/s]

***OFF-THE-SHELF MODEL PERFORMANCE***

Prompt:
Harry Potter is

Completion:
r is a British-American film series based on the novels of the same name by J.K. Rowling. The series follows the adventures of a young wizard, Harry Potter, and his friends Ron Weasley and Hermione Granger, as they attend Hogwarts School of Witchcraft and Wizardry. The films are directed by Chris Columbus, Alfonso Cuarón, Mike Newell, and David Yates, and star Daniel Radcliffe, Rupert Grint, and Emma Watson as the main characters.The series consists of eight films, released between 2001 and 2011. The films are:1. Harry Potter and the Philosopher's Stone (2001)2. Harry Potter and the Chamber of Secrets (2002)3. Harry Potter and the Prisoner of Azkaban (20


## Data

In [3]:
def add_label_indices(example):
    # don't want the first since the first isn't a label for any part of sentence
    example['labels'] = example['labels'][1:]
    example['label_indices'] = list(range(len(example['tokens']) - 1))
    return example

hp_generic_dataset = datasets.load_dataset("PhillipGuo/WHP_Generic_Predictions", split='train')
hp_generic_dataset = hp_generic_dataset.map(add_label_indices)
hp_generic_dataset = process_pretokenized_dataset(
    tokenizer=tokenizer, 
    dataset=hp_generic_dataset, 
    prompt_column="tokens", 
    adv_labels_column=None, # adversary steers towards the prompt tokens
    def_labels_column="labels", # unlearned model steers towards generic labels
    def_labels_indices_column="label_indices", # indices of the generic labels, since labels of 
)
hp_dataloader = DataLoader(
    hp_generic_dataset,
    batch_size=16,
    shuffle=False,
    collate_fn=PretokenizedLatentAdversarialTrainingDataCollator(
        tokenizer.pad_token_id,
        truncate_length=2048
    )
)

# Interleaving supervised finetuning with LAT stabilizes training
sft_dataset = process_generic_sft_dataset(
    tokenizer,
    dataset="wikitext",
    text_column="text",
    split="train",
    config="wikitext-103-v1",
    num_examples=100000,
)
sft_dataloader = DataLoader(
    sft_dataset,
    batch_size=16,
    shuffle=True,
    collate_fn=LatentAdversarialTrainingDataCollator(
        tokenizer.pad_token_id,
        truncate_length=2048
    )
)

Downloading readme:   0%|          | 0.00/575 [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/20.8M [00:00<?, ?B/s]

Generating train split:   0%|          | 0/4628 [00:00<?, ? examples/s]

Map:   0%|          | 0/4628 [00:00<?, ? examples/s]

Map:   0%|          | 0/4628 [00:00<?, ? examples/s]

Map:   0%|          | 0/4628 [00:00<?, ? examples/s]

Completed adding/renaming columns, performing checks


Map:   0%|          | 0/4628 [00:00<?, ? examples/s]

Downloading readme:   0%|          | 0.00/10.5k [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/722k [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/156M [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/156M [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/655k [00:00<?, ?B/s]

Generating test split:   0%|          | 0/4358 [00:00<?, ? examples/s]

Generating train split:   0%|          | 0/1801350 [00:00<?, ? examples/s]

Generating validation split:   0%|          | 0/3760 [00:00<?, ? examples/s]

Filter:   0%|          | 0/100000 [00:00<?, ? examples/s]

Map:   0%|          | 0/64723 [00:00<?, ? examples/s]

## Trainer

In [4]:
pgd_trainer = ProjectedGradLAT(
    model=model,  # model
    dataloader=hp_dataloader,  # dataloader for lat
    sft_dataloader=sft_dataloader,  # dataloader for supervised finetuning
    def_loss_coefs={"toward": 1, "away": 1, "sft": 1,},  # model's loss coefs
    pgd_layers=[12],  # what layers to attack
    model_layers=[13, 14, 15],  # what layers to train
    epsilon=1.5,  # attack l2 constraint
    outer_learning_rate=5e-5,  # model lr
    inner_learning_rate=5e-2,  # attacker lr
    pgd_iterations_per_step=16,  # how many steps of projected gradient descent to do
    model_iterations_per_step=4,  # how many times to train on each step
    num_steps=100,  # number of epochs
    max_batch_per_acc=2,  # max size of a minibatch
    model_layers_module="model.layers",  # where the model layers are
)

## Run!

In [5]:
pgd_trainer.train(project_name="unlearning_whp_test")
# pgd_trainer.model.save_pretrained("unlearning_whp_test_save")

[34m[1mwandb[0m: Currently logged in as: [33mthestephencasper[0m ([33mscasper_team[0m). Use [1m`wandb login --relogin`[0m to force relogin




[34m[1mwandb[0m: wandb version 0.17.5 is available!  To upgrade, please run:
[34m[1mwandb[0m:  $ pip install wandb --upgrade


[34m[1mwandb[0m: Tracking run with wandb version 0.17.4


[34m[1mwandb[0m: Run data is saved locally in [35m[1m/raid/aag/scasper/latent-adversarial-training/wandb/run-20240722_055720-q5jqp8m0[0m
[34m[1mwandb[0m: Run [1m`wandb offline`[0m to turn off syncing.


[34m[1mwandb[0m: Syncing run [33mdainty-vortex-4[0m


[34m[1mwandb[0m: ⭐️ View project at [34m[4mhttps://wandb.ai/scasper_team/unlearning_whp_test[0m


[34m[1mwandb[0m: 🚀 View run at [34m[4mhttps://wandb.ai/scasper_team/unlearning_whp_test/runs/q5jqp8m0[0m


  0%|                                                                                                                                      | 0/100 [00:00<?, ?it/s]

We detected that you are passing `past_key_values` as a tuple and this is deprecated and will be removed in v4.43. Please use an appropriate `Cache` class (https://huggingface.co/docs/transformers/v4.41.3/en/internal/generation_utils#transformers.Cache)


  1%|█▏                                                                                                                          | 1/100 [00:41<1:08:17, 41.39s/it]

  2%|██▍                                                                                                                         | 2/100 [01:23<1:08:39, 42.03s/it]

  3%|███▋                                                                                                                        | 3/100 [02:04<1:07:06, 41.51s/it]

  4%|████▉                                                                                                                       | 4/100 [02:45<1:06:08, 41.34s/it]

  5%|██████▏                                                                                                                     | 5/100 [03:27<1:05:43, 41.51s/it]

  6%|███████▍                                                                                                                    | 6/100 [04:08<1:04:50, 41.38s/it]

  7%|████████▋                                                                                                                   | 7/100 [04:49<1:04:02, 41.32s/it]

  8%|█████████▉                                                                                                                  | 8/100 [05:31<1:03:32, 41.44s/it]

  9%|███████████▏                                                                                                                | 9/100 [06:14<1:03:36, 41.94s/it]

 10%|████████████▎                                                                                                              | 10/100 [06:55<1:02:34, 41.72s/it]

 11%|█████████████▌                                                                                                             | 11/100 [07:37<1:01:53, 41.72s/it]

 12%|██████████████▊                                                                                                            | 12/100 [08:18<1:00:58, 41.57s/it]

 13%|███████████████▉                                                                                                           | 13/100 [09:01<1:00:32, 41.76s/it]

 14%|█████████████████▏                                                                                                         | 14/100 [09:43<1:00:04, 41.92s/it]

 15%|██████████████████▊                                                                                                          | 15/100 [10:26<59:52, 42.26s/it]

 16%|████████████████████                                                                                                         | 16/100 [11:07<58:44, 41.95s/it]

 17%|█████████████████████▎                                                                                                       | 17/100 [11:48<57:45, 41.75s/it]

 18%|██████████████████████▌                                                                                                      | 18/100 [12:31<57:15, 41.89s/it]

 19%|███████████████████████▊                                                                                                     | 19/100 [13:12<56:11, 41.63s/it]

 20%|█████████████████████████                                                                                                    | 20/100 [13:52<55:08, 41.36s/it]

 21%|██████████████████████████▎                                                                                                  | 21/100 [14:33<54:15, 41.21s/it]

 22%|███████████████████████████▌                                                                                                 | 22/100 [15:16<54:02, 41.57s/it]

 23%|████████████████████████████▊                                                                                                | 23/100 [15:58<53:27, 41.66s/it]

 24%|██████████████████████████████                                                                                               | 24/100 [16:39<52:50, 41.72s/it]

 25%|███████████████████████████████▎                                                                                             | 25/100 [17:21<51:58, 41.58s/it]

 26%|████████████████████████████████▌                                                                                            | 26/100 [18:03<51:37, 41.85s/it]

 27%|█████████████████████████████████▊                                                                                           | 27/100 [18:45<51:04, 41.98s/it]

 28%|███████████████████████████████████                                                                                          | 28/100 [19:27<50:20, 41.95s/it]

 29%|████████████████████████████████████▎                                                                                        | 29/100 [20:09<49:35, 41.91s/it]

 30%|█████████████████████████████████████▌                                                                                       | 30/100 [20:50<48:40, 41.72s/it]

 31%|██████████████████████████████████████▊                                                                                      | 31/100 [21:32<48:02, 41.77s/it]

 32%|████████████████████████████████████████                                                                                     | 32/100 [22:14<47:21, 41.79s/it]

 33%|█████████████████████████████████████████▎                                                                                   | 33/100 [22:57<46:54, 42.00s/it]

 34%|██████████████████████████████████████████▌                                                                                  | 34/100 [23:38<45:56, 41.76s/it]

 35%|███████████████████████████████████████████▊                                                                                 | 35/100 [24:19<45:03, 41.60s/it]

 36%|█████████████████████████████████████████████                                                                                | 36/100 [25:01<44:36, 41.82s/it]

 37%|██████████████████████████████████████████████▎                                                                              | 37/100 [25:43<43:43, 41.64s/it]

 38%|███████████████████████████████████████████████▌                                                                             | 38/100 [26:24<42:48, 41.43s/it]

 39%|████████████████████████████████████████████████▊                                                                            | 39/100 [27:05<42:14, 41.55s/it]

 40%|██████████████████████████████████████████████████                                                                           | 40/100 [27:47<41:39, 41.65s/it]

 41%|███████████████████████████████████████████████████▎                                                                         | 41/100 [28:30<41:22, 42.07s/it]

 42%|████████████████████████████████████████████████████▌                                                                        | 42/100 [29:12<40:35, 42.00s/it]

 43%|█████████████████████████████████████████████████████▊                                                                       | 43/100 [29:55<40:01, 42.14s/it]

 44%|███████████████████████████████████████████████████████                                                                      | 44/100 [30:36<39:13, 42.03s/it]

 45%|████████████████████████████████████████████████████████▎                                                                    | 45/100 [31:18<38:28, 41.97s/it]

 46%|█████████████████████████████████████████████████████████▌                                                                   | 46/100 [32:00<37:44, 41.94s/it]

 47%|██████████████████████████████████████████████████████████▊                                                                  | 47/100 [32:41<36:50, 41.71s/it]

 48%|████████████████████████████████████████████████████████████                                                                 | 48/100 [33:23<36:09, 41.72s/it]

 49%|█████████████████████████████████████████████████████████████▎                                                               | 49/100 [34:05<35:36, 41.90s/it]

 50%|██████████████████████████████████████████████████████████████▌                                                              | 50/100 [34:46<34:41, 41.63s/it]

 51%|███████████████████████████████████████████████████████████████▊                                                             | 51/100 [35:28<33:54, 41.53s/it]

 52%|█████████████████████████████████████████████████████████████████                                                            | 52/100 [36:08<32:56, 41.17s/it]

 53%|██████████████████████████████████████████████████████████████████▎                                                          | 53/100 [36:49<32:12, 41.12s/it]

 54%|███████████████████████████████████████████████████████████████████▌                                                         | 54/100 [37:30<31:37, 41.24s/it]

 55%|████████████████████████████████████████████████████████████████████▊                                                        | 55/100 [38:13<31:09, 41.54s/it]

 56%|██████████████████████████████████████████████████████████████████████                                                       | 56/100 [38:54<30:24, 41.46s/it]

 57%|███████████████████████████████████████████████████████████████████████▎                                                     | 57/100 [39:36<29:51, 41.65s/it]

 58%|████████████████████████████████████████████████████████████████████████▌                                                    | 58/100 [40:18<29:09, 41.65s/it]

 59%|█████████████████████████████████████████████████████████████████████████▊                                                   | 59/100 [40:59<28:20, 41.49s/it]

 60%|███████████████████████████████████████████████████████████████████████████                                                  | 60/100 [41:40<27:33, 41.33s/it]

 61%|████████████████████████████████████████████████████████████████████████████▎                                                | 61/100 [42:21<26:48, 41.25s/it]

 62%|█████████████████████████████████████████████████████████████████████████████▌                                               | 62/100 [43:02<26:02, 41.11s/it]

 63%|██████████████████████████████████████████████████████████████████████████████▊                                              | 63/100 [43:42<25:17, 41.02s/it]

 64%|████████████████████████████████████████████████████████████████████████████████                                             | 64/100 [44:23<24:36, 41.01s/it]

 65%|█████████████████████████████████████████████████████████████████████████████████▎                                           | 65/100 [45:04<23:52, 40.94s/it]

 66%|██████████████████████████████████████████████████████████████████████████████████▌                                          | 66/100 [45:46<23:19, 41.16s/it]

 67%|███████████████████████████████████████████████████████████████████████████████████▊                                         | 67/100 [46:28<22:44, 41.34s/it]

 68%|█████████████████████████████████████████████████████████████████████████████████████                                        | 68/100 [47:09<22:00, 41.27s/it]

 69%|██████████████████████████████████████████████████████████████████████████████████████▎                                      | 69/100 [47:51<21:28, 41.56s/it]

 70%|███████████████████████████████████████████████████████████████████████████████████████▌                                     | 70/100 [48:34<20:59, 42.00s/it]

 71%|████████████████████████████████████████████████████████████████████████████████████████▊                                    | 71/100 [49:17<20:27, 42.32s/it]

 72%|██████████████████████████████████████████████████████████████████████████████████████████                                   | 72/100 [50:00<19:46, 42.38s/it]

 73%|███████████████████████████████████████████████████████████████████████████████████████████▎                                 | 73/100 [50:43<19:08, 42.55s/it]

 74%|████████████████████████████████████████████████████████████████████████████████████████████▌                                | 74/100 [51:24<18:14, 42.08s/it]

 75%|█████████████████████████████████████████████████████████████████████████████████████████████▊                               | 75/100 [52:05<17:29, 41.96s/it]

 76%|███████████████████████████████████████████████████████████████████████████████████████████████                              | 76/100 [52:46<16:40, 41.67s/it]

 77%|████████████████████████████████████████████████████████████████████████████████████████████████▎                            | 77/100 [53:30<16:09, 42.17s/it]

 78%|█████████████████████████████████████████████████████████████████████████████████████████████████▌                           | 78/100 [54:11<15:24, 42.01s/it]

 79%|██████████████████████████████████████████████████████████████████████████████████████████████████▊                          | 79/100 [54:52<14:36, 41.72s/it]

 80%|████████████████████████████████████████████████████████████████████████████████████████████████████                         | 80/100 [55:33<13:48, 41.45s/it]

 81%|█████████████████████████████████████████████████████████████████████████████████████████████████████▎                       | 81/100 [56:14<13:04, 41.31s/it]

 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████▌                      | 82/100 [56:55<12:21, 41.22s/it]

 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊                     | 83/100 [57:36<11:39, 41.14s/it]

 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████                    | 84/100 [58:19<11:09, 41.85s/it]

 85%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▎                  | 85/100 [59:02<10:28, 41.93s/it]

 86%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▌                 | 86/100 [59:43<09:43, 41.68s/it]

 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████                | 87/100 [1:00:23<08:58, 41.40s/it]

 88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▏              | 88/100 [1:01:04<08:14, 41.21s/it]

 89%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▍             | 89/100 [1:01:48<07:41, 41.99s/it]

 90%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▋            | 90/100 [1:02:29<06:57, 41.73s/it]

 91%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▉           | 91/100 [1:03:10<06:13, 41.51s/it]

 92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏         | 92/100 [1:03:51<05:30, 41.34s/it]

 93%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍        | 93/100 [1:04:32<04:48, 41.25s/it]

 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌       | 94/100 [1:05:13<04:07, 41.22s/it]

 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊      | 95/100 [1:05:55<03:26, 41.37s/it]

 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████     | 96/100 [1:06:39<02:48, 42.05s/it]

 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎   | 97/100 [1:07:20<02:05, 41.72s/it]

 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 98/100 [1:08:01<01:22, 41.49s/it]

 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 99/100 [1:08:41<00:41, 41.31s/it]

100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 100/100 [1:09:24<00:00, 41.57s/it]

100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 100/100 [1:09:24<00:00, 41.64s/it]




[34m[1mwandb[0m: - 0.027 MB of 0.027 MB uploaded

[34m[1mwandb[0m: \ 0.027 MB of 0.027 MB uploaded

[34m[1mwandb[0m: | 0.034 MB of 0.034 MB uploaded

[34m[1mwandb[0m:                                                                                


[34m[1mwandb[0m: 🚀 View run [33mdainty-vortex-4[0m at: [34m[4mhttps://wandb.ai/scasper_team/unlearning_whp_test/runs/q5jqp8m0[0m
[34m[1mwandb[0m: ⭐️ View project at: [34m[4mhttps://wandb.ai/scasper_team/unlearning_whp_test[0m
[34m[1mwandb[0m: Synced 5 W&B file(s), 0 media file(s), 0 artifact file(s) and 0 other file(s)


[34m[1mwandb[0m: Find logs at: [35m[1m./wandb/run-20240722_055720-q5jqp8m0/logs[0m




In [6]:
prompt = "Harry Potter is"
input_ids = tokenizer.encode(prompt, return_tensors='pt')
outputs = model.generate(
    input_ids.to("cuda"),
    max_length=200,
)

print("***POST-LAT MODEL PERFORMANCE***\n")
print("Prompt:\n" + prompt + "\n")
prompt_response = tokenizer.decode(outputs[0]).replace('\n', '')
print("Completion:\n" + prompt_response[len(prompt):])

***POST-LAT MODEL PERFORMANCE***

Prompt:
Harry Potter is

Completion:
r is a 20th-century fantasy hero in a world of magic. He is the son of a wizard and his wife, and the only son of a sorceress. He is a young man with a strong sense of duty and honor. He is also a skilled fighter, a master of magic, and a great leader.Jane is a 19th-century woman who lives in a world where magic is forbidden. She is a strong and independent woman who has been raised in a world of magic. She is also a skilled warrior, a master of magic, and a great leader.John is a 21st-century man who lives in a world where magic is forbidden. He is a skilled warrior, a master of magic, and a great leader. He is also a strong and independent man, and a great leader.Mary is a 19
