# Finjustere spr친kmodeller p친 Nav.no

I denne notatboken skal vi illustrere hvordan man kan komme i gang med
finjustering av spr친kmodeller. Vi skal g친 gjennom stegene for 친 gj칮re klart et
datasett basert p친 data p친 [datamarkedsplassen](https://data.ansatt.nav.no/).
Hvordan teste ytelsen p친 en embeddingmodell p친 dette datasettet. Og tilslutt,
skal vi se hvordan vi kan forbedre ytelsen med finjustering.

## Prosjektoppsett

Vi anbefaler at man bruker [`uv`](https://docs.astral.sh/uv/) for 친 opprette
prosjekt og styre avhengigheter.

La oss starte med 친 lage et prosjekt:

```bash
uv init --app --python 3.12 navno_finetune
```

Inne i prosjektet kan vi fjerne `main.py` (eller `hello.py` avhengig av din
versjon av `uv`). Hvis du 칮nsker 친 f칮lge denne veiledningen kan man enkelt
opprettet en Jupyter Notebook fil og klippe og lime kode fra veiledningen.
Alternativt kan man strukturere kode etter eget 칮nske og bruke veiledningen til
inspirasjon.

::: {.callout-tip collapse="true"}
## Tilgang til _denne_ notatboken

Du kan laste ned notatboken denne datafortellingen er basert p친, [p친
Github](https://github.com/navikt/navno_finetune/blob/main/index.ipynb).
:::

::: {.callout-note collapse="true"}
## Valgfrie avhengigheter

For 친 gj칮re livet litt mer fargerikt installerer vi `rich`, dette er ikke
n칮dvendig, men vil gi penere utskrift.

```bash
uv add rich
```
:::

In [None]:
# Pr칮v 친 bruke `rich.print` som standard hvis tilgjengelig
try:
    from rich import print
except ModuleNotFoundError:
    pass


## Datasett

F칮r vi kan starte 친 finjustere trenger vi et datasett vi kan teste p친 og som vi
kan bruke til trening. Vi kommer til 친 benytte [innholdet p친
Nav.no](https://data.ansatt.nav.no/dataproduct/6c7327e2-5894-4423-b6b2-52affa3f5b29/Innhold%20p%C3%A5%20Nav.no/7993897c-9fd4-46ee-86dd-5001621a2695)
som utgangspunkt.

### Laste ned r친data

La oss starte med 친 laste ned r친data fra BigQuery. For 친 gj칮re dette kommer vi
til 친 bruke `google-cloud-bigquery` og [Polars](https://docs.pola.rs/).

::: {.callout-note}
## N칮dvendige avhengigheter

For 친 installere avhengigheter kj칮rer vi f칮lgende `uv` kommandoer:

```bash
uv add google-cloud-bigquery
uv add polars --extra pyarrow
```
:::

Vi starter med 친 hente all r친data og opprette en Polars `DataFrame`.

In [None]:
import polars as pl
from google.cloud import bigquery

client = bigquery.Client()

# Bygg opp sp칮rring og hent all data for gitt tidspunkt
QUERY = (
    "SELECT * FROM `nks-aiautomatisering-prod-194a.navno_crawl.navno` "
    "WHERE DATE(crawl_date) = DATE(2025, 02, 25)"
)
query_job = client.query(QUERY)
rows = query_job.result()  # Vent p친 nedlasting

df = pl.from_arrow(rows.to_arrow())  # Opprett dataframe med r친data

La oss inspisere dataene, f칮r vi konverterer det til et mer passende format for
spr친kmodeller.

In [None]:
# | column: page
df.head()

### Strukturere data for spr친kmodeller

For 친 finjustere en embeddingmodell er det i hovedsak _fire_ ulike m친ter 친
strukturere et datasett:

- **Positive pair**: Et par setninger som er relatert (f.eks `(sp칮rsm친l,
svar)`).
- **Triplets**: Likt som _positive pair_, men med et anti-relatert element.
    - Fordi vi kan bruke treningsfunksjoner (_loss_-funksjon) som kan gjennbruke
    data i _positiv pair_ datasettet er ikke dette formatet like mye brukt.
- **Pair with Similarity Score**: Et par setninger og en verdi som representerer
hvor like disse setningene er.
- **Text with Classes**: En setning med tilh칮rende klasse. Kan konverteres til
andre formater over.

::: {.column-margin}
Hentet fra [SBERT.net - Dataset
Overview](https://sbert.net/docs/sentence_transformer/dataset_overview.html).
:::

Basert p친 dataene over s친 er det naturlig 친 velge _Positiv Pair_. Dette er fordi
vi kan koble flere kolonner sammen for 친 lage disse parene. Vi kan for eksempel
koble tittel og innhold sammen, noe som burde forsterke koblingen mellom tittel
og relevant innhold for spr친kmodellen.

::: {.callout-caution appearance="minimal"}
Vi legger ogs친 ved `path` slik at rader kan kobles sammen mot samme sti, dette
kommer vi til 친 bruke for 친 markere relevante dokumenter.
:::

La oss starte med det 친penbare `(tittel, innhold)` paret

In [None]:
df_all_titles_content = df.select(
    pl.col("path"),
    (pl.col("display_name") + "\n" + pl.col("headers").list.join(separator="\n")).alias(
        "anchor"
    ),
    pl.col("content").alias("positive"),
)
df_all_titles_content.head()

En annen 친penbar kobling er `(tittel, ingress)`

In [None]:
df_title_ingres = (
    df.filter(pl.col("ingress").str.len_bytes() > 0)
    .select(
        pl.col("path"),
        pl.col("display_name").alias("anchor"),
        pl.col("ingress").alias("positive"),
    )
    .unique()
)
df_title_ingres.head()

La oss koble alle disse tabellene sammen og for 친 lage et endelig datasett.

In [None]:
df_train = pl.concat([df_title_ingres, df_all_titles_content])
df_train.describe()

### Rense datasett

F칮r vi sier oss forn칮yd skal vi vaske dataene v친re litt. I tabellene over har du
kanskje lagt merke til at flere av kolonnene inneholder HTML elementer. Det er
ikke i utgangspunktet noe galt 친 bruke dette for trening, men siden vi her
fokuserer p친 en embeddingmodell 칮nsker vi at den fokuserer p친 semantikken og
ikke formatet. Vi skal derfor pr칮ve 친 renske bort alle HTML tag-er^[Vi gj칮r det
enkelt med en `regex` inspirert av
[StackOverflow](https://stackoverflow.com/a/12982689).].

In [None]:
df_train = df_train.with_columns(
    pl.col("anchor").str.replace_all("<.*?>", " ").str.strip_chars(),
    pl.col("positive").str.replace_all("<.*?>", " ").str.strip_chars(),
)
df_train.head()

### Lagre til fil

La oss avslutte med 친 lagre data til en fil slik at vi enkelt kan gjenskape
treningen og samtidig dele data med andre p친 en enkel m친te. Et format som kan
v칝re praktisk er [Parquet](https://en.wikipedia.org/wiki/Apache_Parquet) som
b친de er effektivt for 친 lagre dataframe data og samtidig er godt st칮ttet i de
fleste verkt칮y vi bruker i Nav.

In [None]:
df_train.write_parquet("dataset.parquet")

::: {.callout-tip}
## Overgang til `datasets`

Avhengig av dine preferanser s친 er dette et naturlig tidspunkt 친 g친 over til
`datasets`. `datasets` er et bibliotek for datasett som er veldig mye brukt med
spr친kmodeller og 游뱅 Hugging Face. Vi kommer til 친 laste inn `datasets` litt
senere da treningsmetoden vi skal benytte bruker dette biblioteket.

I denne datafortellingen kommer vi til 친 holde oss til Polars s친 lenge som mulig
p친 grunn av tidligere kjennskap til dette biblioteket samt at vi fortsatt
trenger noen operasjoner som vil v칝re raskere i Polars enn i `datasets`.
:::

## Trening og test

N친 som vi har laget et fullstendig treningssett kan vi begynne 친 tenke p친 친 dele
opp i en trenings del og en test del. Dette gj칮r vi for 친 ha en del som modellen
f친r lov til 친 se p친, trenings delen, og en del som er helt ny for modellen, test
delen. Ved 친 skille slik f친r vi mulighet til 친 evaluere hvor godt modellen
fungerer p친 ting den ikke har sett f칮r.

Vi starter med 친 legge til en `ID` kolonne p친 datasettet v친rt slik at vi kan
unikt identifisere rader, dette kommer vi til 친 trenge senere.

In [None]:
dataset = df_train.with_row_index("id")

Deretter deler vi datasettet i en del for trening, meste parten, og en del for
testing.

In [None]:
# Litt komplisert 친 lage trening/test split i Polars
#
# Vi starter med 친 randomisere hele datasettet
dataset = dataset.sample(fraction=1, shuffle=True, seed=12345)
# Beregne antall rader vi skal bruke
num_test = int(0.2 * len(dataset))
# Deretter ta de f칮rste `num_test` radene til test
test_dataset = dataset.head(num_test)
# Tilslutt tar vi alle utenom de f칮rste `num_test` radene til trening
train_dataset = dataset.tail(-num_test)

For 친 kunne reprodusere eksperimentene p친 andre maskiner lagrer vi ogs친 trening
og test data som egne filer.

In [None]:
test_dataset.write_parquet("test_dataset.parquet")
train_dataset.write_parquet("train_dataset.parquet")

Vi legger her til innlesning p친 nytt slik at vi alltid kan starte friskt her
uten 친 m친tte kj칮re alle celler over.

In [None]:
import polars as pl

# Les inn datasett
test_dataset = pl.read_parquet("test_dataset.parquet")
train_dataset = pl.read_parquet("train_dataset.parquet")
# Kombiner for 친 kunne arbeide med hele datasettet
dataset = pl.concat([test_dataset, train_dataset])
# Skriv ut raske tall
print(f"Antall elementer [bold magenta]totalt[/]:\t{len(dataset)}")
print(f"Antall elementer i [bold green]trening[/]:\t{len(train_dataset)}")
print(f"Antall elementer i [bold blue]test[/]:\t{len(test_dataset)}")

### Corpus

N친 som vi har opprettet et datasett kan vi bruke dette for 친 lage oss et corpus
친 trene p친/med.

Vi starter med 친 lage oss et sett med alt innhold, "corpus", og et sett med
"queries" (de elementene som vi 칮nsker 친 teste mot innholdet).

In [None]:
# Merk at vi bruker `dataset` for 친 bruke _alt_ innhold
corpus = dict(dataset.select(["id", "positive"]).rows())
# For "queries" bruker vi det vi har plukket ut i test
queries = dict(test_dataset.select(["id", "anchor"]).rows())

Vi trenger s친 친 lage oss en mapping mellom "queries" og relevant innhold. I v친rt
tilfellet s친 vil det v칝re overlapp for alle deler som kommer fra samme sti p친
Nav.no. Sagt p친 en annen m친te, vi 칮nsker 친 vekte elementer fra samme sti h칮yere
under evaluering slik at et element fra `/dagpenger` er viktigere eller bedre
enn et element fra `/sykepenger` hvis s칮ket handler om Dagpenger.

In [None]:
relevant_docs = {}
for qid in queries.keys():
    navno_path = (
        dataset.filter(pl.col("id") == qid).unique("path").item(row=0, column="path")
    )
    relevant_docs[qid] = set(
        dataset.filter(pl.col("path") == navno_path).get_column("id")
    )

## Spr친kmodell

N친 som vi har ordnet oss med litt data er det endelig p친 tide 친 velge en
spr친kmodell. Vi kommer til 친 bruke
[`sentence-transformers`](https://sbert.net/index.html) for modellen og trening
s친 la oss f칮rst ordne n칮dvendige pakker.

:::: {.callout-note}
## N칮dvendige avhengigheter

Vi trenger et par pakker for `sentence-transformers` og de avhenger av riktig
oppsett for effektiv trening.

::: {.panel-tabset}
## Uten CUDA (Linux, Mac og Windows uten GPU)
For maskiner uten dedikert Nvidia GPU kan man enkelt installere som f칮lger:

```bash
uv add transformers --extra torch
uv add sentence-transformers --extra train
```

## CUDA

Hvis du har et dedikert grafikkort kan du tjene mye p친 친 installere PyTorch med
CUDA st칮tte.

Her anbefaler vi 친 f칮lge oppskriften p친 [PyTorch sin
hjemmeside](https://pytorch.org/get-started/locally/) for 친 f친 riktig oppsett
for akkurat din maskin.

Deretter trenger du:
```bash
uv add transformers
uv add sentence-transformers --extra train
```
:::

::::

---

N친r det kommer til valg av spr친kmodell s친 er det vanskelig 친 gi noen konkrete
anbefalinger, nettopp fordi man kan tilpasse modellene til egne data slik vi
gj칮r her. En god oversikt over hvordan 친 velge spr친kmodell finnes i [Nav sin
tekniske
veileder](https://data.ansatt.nav.no/quarto/b9ec1385-d596-47e2-a3d2-8cbc85c577a3/_book/llm/lokale.html).

Vi kommer til 친 g친 videre med
[`Alibaba-NLP/gte-modernbert-base`](https://huggingface.co/Alibaba-NLP/gte-modernbert-base).
Denne har vi valgt av f칮lgende grunner:

- Den gj칮r det godt i sammenligninger mot embeddingmodeller av tilsvarende st칮rrelse
- Det er en relativt liten, $149$ millioner parametere, modell som burde passe
fint p친 en laptop
- Den har et stort kontekstvindu p친 $8192$ token
    - Noe som betyr at den kan jobbe med st칮rre sammenhengende tekster
- Den er lisensiert p친 en m친te som gj칮r at vi enkelt kan ta den i bruk i Nav
(`Apache 2.0`)

In [None]:
import torch
from sentence_transformers import SentenceTransformer

model = SentenceTransformer(
    "Alibaba-NLP/gte-modernbert-base",
    # NOTE: Vi velger `device` spesifikt tilpasset Mac, her burde man bruke
    # "cuda" hvis tilgjengelig, eller annet tilpasset din maskin
    device="mps" if torch.backends.mps.is_available() else "cpu",
    # NOTE: Vi setter `padding` til `max_length` for 친 pr칮ve 친 unng친 en
    # minnelekasje p친 Mac som f칮rer til at trening og evaluering bruker for mye
    # minne. For annen maskinvare kan dette valget fjernes!
    tokenizer_kwargs=dict(padding="max_length"),
)

### Evaluere spr친kmodell

La oss n친 se litt p친 hvordan modellen v친r gj칮r det p친 datasettet v친rt.

Vi m친 starte med 친 definere en m친te 친 evaluere modellen v친r, her har ogs친
[`sentence-transformers` god
st칮tte](https://sbert.net/docs/sentence_transformer/training_overview.html#evaluator)
s친 vi benytter det som er innebygget der.

In [None]:
from sentence_transformers.evaluation import InformationRetrievalEvaluator
from sentence_transformers.util import cos_sim

evaluator = InformationRetrievalEvaluator(
    queries=queries,
    corpus=corpus,
    relevant_docs=relevant_docs,
    name="modernbert",
    score_functions={"cosine": cos_sim},
    batch_size=4,  # Skru denne ned eller opp avhengig av tilgjengelig minne, h칮yere gir raskere evaluering
    show_progress_bar=True,
)

Deretter kan vi benytte `evaluator` til 친 vurdere modellene v친r.

In [None]:
# | eval: false
base_eval = evaluator(model)

Fra evalueringen over er det kanskje mest interessant 친 se p친
[NDCG@10](https://en.wikipedia.org/wiki/Discounted_cumulative_gain) som sier oss
noe om kvaliteten p친 rangering av treff.

In [None]:
print(f"Rangeringskvalitet (NDCG@10): {base_eval['modernbert_cosine_ndcg@10']}")

## Finjustering

Etter at vi n친 har valgt og testet en embeddingmodell er det n친 p친 tide 친 se om
vi kan forbedre ytelsen til modellen ved 친 finjustere.

Vi kommer til 친 holde oss i `sentence-transformers` verden og benytte loss
funksjon og treningsmetoder derfra.

::: {.callout-note collapse="true"}
## Valgfrie avhengigheter

For 친 칮ke hastighet p친 treningen kan det v칝re lurt 친 installere `flash-attn` som
er en optimalisert versjon av Flash Attention. Dette vil gj칮re finjusteringen
raskere p친 st칮ttet maskinvare (for det meste GPU-er).

```bash
uv add flash-attn
```
:::

### Treningsmetode (loss function)

F칮r vi kan finjustere spr친kmodellen v친r m친 vi definere en treningsmetode som
forteller systemet hvor bra, eller d친rlig, modellen v친r gj칮r det n친r vi
presenterer den for eksempler.

::: {.column-margin}
![Illustrasjon av hvordan `MultipleNegativeRankingLoss` optimaliserer ved 친
knytte "n친v칝rende" treningseksempel tettere og samtidig "skyve bort" alle andre
eksempler](./assets/MultipleNegativeRankingLoss.png)
:::

For datasett av typen _Positiv Pair_ er
[`MultipleNegativesRankingLoss`](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss)
veldig passende fordi den kan gjenbruke "alle andre" eksempler i treningssettet
som negative eksempler.

In [None]:
from sentence_transformers.losses import MultipleNegativesRankingLoss

train_loss = MultipleNegativesRankingLoss(model=model)

### Treningsoppsett

Etter at vi har definert en treningsmetode s친 m친 vi gj칮re litt husarbeid for 친
definere hvordan trening skal foreg친.

::: {.callout-note}
## N칮dvendige avhengigheter

Siden `sentence-transformers` bruker `datasets` for 친 strukturere
treningseksempler trenger vi ogs친 dette biblioteket.

```bash
uv add datasets
```
:::

In [None]:
from sentence_transformers import SentenceTransformerTrainingArguments
from sentence_transformers.training_args import BatchSamplers

# Definer hvordan trening skal foreg친
train_args = SentenceTransformerTrainingArguments(
    output_dir="gte-modernbert-navno",
    num_train_epochs=4,  # Antall epoker 친 trene, flere er bedre
    per_device_train_batch_size=4,  # Bestemt av maskinvare, h칮yere trener raskere
    per_device_eval_batch_size=4,
    warmup_ratio=0.1,
    learning_rate=2e-5,
    lr_scheduler_type="cosine",
    tf32=None,  # Kjekt 친 sette til `True` hvis maskinvare st칮tter (krever nyere Nvidia GPU)
    fp16=False,  # Sett til `True` hvis man ikke kan bruke `bf16`
    bf16=True,  # Kjekt 친 sette p친 hvis maskinvare st칮tter (st칮ttes av Mac og Nvidia GPU-er)
    batch_sampler=BatchSamplers.NO_DUPLICATES,  # Veldig praktisk 친 fjerne duplikater n친r man har Positiv Pair
    eval_strategy="steps",  # Evaluer etter hver X steg
    save_strategy="steps",  # Lagre modell etter X steg
    save_steps=50,
    logging_steps=50,
    save_total_limit=3,  # Bare spar p친 de 3 siste modellene
    load_best_model_at_end=True,
)

Vi konverterer s친 treningsdataene v친re til et `datasets` slik at det er
kompatibelt med `sentence-transformers`.

In [None]:
from datasets import Dataset

train_ds = Dataset.from_polars(train_dataset.select(["anchor", "positive"]))
train_ds

Ogs친 kan vi sette opp treningsregimet v친rt.

In [None]:
from sentence_transformers import SentenceTransformerTrainer

trainer = SentenceTransformerTrainer(
    model=model,
    args=train_args,
    train_dataset=train_ds,
    loss=train_loss,
    evaluator=evaluator,
)

### Utf칮re finjustering

Med det unnagjort kan vi bare kj칮re treningsregimet v친rt for 친 f친 en finjustert
modell.

In [None]:
# | eval: false

# Utf칮r trening
trainer.train()

# Pass p친 at vi lagrer modellen
trainer.save_model()

### Evaluer finjustert modell

N친 som vi har finjustert modellen gjenst친r det bare 친 evaluere om finjusteringen
hadde noe for seg.

Vi kan gjenbruke evalueringen vi brukte tidligere, men det er lurt 친 laste
modellen p친 nytt slik at vi er sikker p친 at vi evaluerer riktig modell.

In [None]:
import torch
from sentence_transformers import SentenceTransformer

model = SentenceTransformer(
    train_args.output_dir,  # NOTE: Vi bytter ut modellnavn her med mappen hvor vi lagret finjustert modell
    # Merk at her velger vi `device` spesifikt tilpasset Mac, her burde man
    # bruke "cuda" hvis tilgjengelig, eller annet tilpasset din maskin
    device="mps" if torch.backends.mps.is_available() else "cpu",
)

In [None]:
# | eval: false
final_eval = evaluator(model)

La oss s친 se hvordan det gikk med finjustert modell.

In [None]:
print(f"Ikke finjustert (NDCG@10):\t{base_eval['modernbert_cosine_ndcg@10']}")
print(f"Finjustert (NDCG@10):\t{final_eval['modernbert_cosine_ndcg@10']}")