# Transformers: special tokens (structured notes)

Bachelor-nivå notater om **special tokens**, hvorfor de finnes, og hvorfor de er sikkerhetsrelevante (backdoors/prompting).


## 1) Hva er special tokens?

**Special tokens** er reserverte tokens som gir modellen **struktur, kontekst og instruksjoner**.

De hjelper modellen å:

- forstå start/slutt og segmenter
- håndtere batching (padding)
- håndtere oppgaveformat (QA, klassifisering)

Uten disse blir input ofte mindre stabil og vanskeligere å tolke.


## 2) Viktigste tokens (praktisk)

### `[CLS]` — classification token

- Ligger ofte først (BERT)
- Embedding til `[CLS]` brukes ofte som “setnings-representasjon” inn i klassifikasjonshead

### `[SEP]` — separator token

- Skiller segmenter (spørsmål vs kontekst)
- Marker slutt på sekvens

### `[PAD]` — padding token

- Gjør sekvenser like lange i en batch
- Må ignoreres av attention (via `attention_mask`)

### `[MASK]` — masked token

- Brukes i BERT-pretraining (MLM)
- Kan også brukes i testing/ablation

Andre varianter:

- RoBERTa: `<s>`, `</s>`
- GPT-varianter: ofte `<bos>`, `<eos>` (navn varierer)


## 3) Sikkerhetsrelevans (backdoors)

Hvorfor dette er relevant for bachelorprosjektet ditt:

- triggere kan være **token-spesifikke**
- triggere kan plasseres nær `[CLS]`/`[SEP]` for maksimal effekt
- **truncation** kan fjerne kontekst men beholde trigger (eller motsatt)
- feil tokenizer kan endre triggeren (svakere/sterkere)

### Praktisk regel

Evaluer ASR/CACC under:

- ulike `max_length`
- med/uten truncation
- med/uten canonicalization/normalisering


In [None]:
# Sjekk special tokens i en tokenizer (krever transformers)

# from transformers import AutoTokenizer
# tok = AutoTokenizer.from_pretrained("bert-base-uncased")
# print(tok.special_tokens_map)
# print("pad_token:", tok.pad_token, tok.pad_token_id)
# print("cls_token:", tok.cls_token, tok.cls_token_id)
# print("sep_token:", tok.sep_token, tok.sep_token_id)
