# Finjustere språkmodeller på Nav.no

I denne notatboken skal vi illustrere hvordan man kan komme i gang med
finjustering av språkmodeller. Vi skal gå gjennom stegene for å gjøre klart et
datasett basert på data på [datamarkedsplassen](https://data.ansatt.nav.no/).
Hvordan teste ytelsen på en embeddingmodell på dette datasettet. Og tilslutt,
skal vi se hvordan vi kan forbedre ytelsen med finjustering.

## Prosjektoppsett

Vi anbefaler at man bruker [`uv`](https://docs.astral.sh/uv/) for å opprette
prosjekt og styre avhengigheter.

La oss starte med å lage et prosjekt:

```bash
uv init --app --python 3.12 navno_finetune
```

Inne i prosjektet kan vi fjerne `main.py` (eller `hello.py` avhengig av din
versjon av `uv`). Hvis du ønsker å følge denne veiledningen kan man enkelt
opprettet en Jupyter Notebook fil og klippe og lime kode fra veiledningen.
Alternativt kan man strukturere kode etter eget ønske og bruke veiledningen til
inspirasjon.

::: {.callout-tip collapse="true"}
## Tilgang til _denne_ notatboken

Du kan laste ned notatboken denne datafortellingen er basert på, [på
Github](https://github.com/navikt/navno_finetune/blob/main/index.ipynb).
:::

::: {.callout-note collapse="true"}
## Valgfrie avhengigheter

For å gjøre livet litt mer fargerikt installerer vi `rich`, dette er ikke
nødvendig, men vil gi penere utskrift.

```bash
uv add rich
```
:::

In [None]:
# Prøv å bruke `rich.print` som standard hvis tilgjengelig
try:
    from rich import print
except ModuleNotFoundError:
    pass


## Datasett

Før vi kan starte å finjustere trenger vi et datasett vi kan teste på og som vi
kan bruke til trening. Vi kommer til å benytte [innholdet på
Nav.no](https://data.ansatt.nav.no/dataproduct/6c7327e2-5894-4423-b6b2-52affa3f5b29/Innhold%20p%C3%A5%20Nav.no/7993897c-9fd4-46ee-86dd-5001621a2695)
som utgangspunkt.

### Laste ned rådata

La oss starte med å laste ned rådata fra BigQuery. For å gjøre dette kommer vi
til å bruke `google-cloud-bigquery` og [Polars](https://docs.pola.rs/).

::: {.callout-note}
## Nødvendige avhengigheter

For å installere avhengigheter kjører vi følgende `uv` kommandoer:

```bash
uv add google-cloud-bigquery
uv add polars --extra pyarrow
```
:::

Vi starter med å hente all rådata og opprette en Polars `DataFrame`.

In [None]:
import polars as pl
from google.cloud import bigquery

client = bigquery.Client()

# Bygg opp spørring og hent all data for gitt tidspunkt
QUERY = (
    "SELECT * FROM `nks-aiautomatisering-prod-194a.navno_crawl.navno` "
    "WHERE DATE(crawl_date) = DATE(2025, 02, 25)"
)
query_job = client.query(QUERY)
rows = query_job.result()  # Vent på nedlasting

df = pl.from_arrow(rows.to_arrow())  # Opprett dataframe med rådata

La oss inspisere dataene, før vi konverterer det til et mer passende format for
språkmodeller.

In [None]:
# | column: page
df.head()

### Strukturere data for språkmodeller

For å finjustere en embeddingmodell er det i hovedsak _fire_ ulike måter å
strukturere et datasett:

- **Positive pair**: Et par setninger som er relatert (f.eks `(spørsmål,
svar)`).
- **Triplets**: Likt som _positive pair_, men med et anti-relatert element.
    - Fordi vi kan bruke treningsfunksjoner (_loss_-funksjon) som kan gjennbruke
    data i _positiv pair_ datasettet er ikke dette formatet like mye brukt.
- **Pair with Similarity Score**: Et par setninger og en verdi som representerer
hvor like disse setningene er.
- **Text with Classes**: En setning med tilhørende klasse. Kan konverteres til
andre formater over.

::: {.column-margin}
Hentet fra [SBERT.net - Dataset
Overview](https://sbert.net/docs/sentence_transformer/dataset_overview.html).
:::

Basert på dataene over så er det naturlig å velge _Positiv Pair_. Dette er fordi
vi kan koble flere kolonner sammen for å lage disse parene. Vi kan for eksempel
koble tittel og innhold sammen, noe som burde forsterke koblingen mellom tittel
og relevant innhold for språkmodellen.

::: {.callout-caution appearance="minimal"}
Vi legger også ved `path` slik at rader kan kobles sammen mot samme sti, dette
kommer vi til å bruke for å markere relevante dokumenter.
:::

La oss starte med det åpenbare `(tittel, innhold)` paret

In [None]:
df_all_titles_content = df.select(
    pl.col("path"),
    (pl.col("display_name") + "\n" + pl.col("headers").list.join(separator="\n")).alias(
        "anchor"
    ),
    pl.col("content").alias("positive"),
)
df_all_titles_content.head()

En annen åpenbar kobling er `(tittel, ingress)`

In [None]:
df_title_ingres = (
    df.filter(pl.col("ingress").str.len_bytes() > 0)
    .select(
        pl.col("path"),
        pl.col("display_name").alias("anchor"),
        pl.col("ingress").alias("positive"),
    )
    .unique()
)
df_title_ingres.head()

La oss koble alle disse tabellene sammen og for å lage et endelig datasett.

In [None]:
df_train = pl.concat([df_title_ingres, df_all_titles_content])
df_train.describe()

### Rense datasett

Før vi sier oss fornøyd skal vi vaske dataene våre litt. I tabellene over har du
kanskje lagt merke til at flere av kolonnene inneholder HTML elementer. Det er
ikke i utgangspunktet noe galt å bruke dette for trening, men siden vi her
fokuserer på en embeddingmodell ønsker vi at den fokuserer på semantikken og
ikke formatet. Vi skal derfor prøve å renske bort alle HTML tag-er^[Vi gjør det
enkelt med en `regex` inspirert av
[StackOverflow](https://stackoverflow.com/a/12982689).].

In [None]:
df_train = df_train.with_columns(
    pl.col("anchor").str.replace_all("<.*?>", " ").str.strip_chars(),
    pl.col("positive").str.replace_all("<.*?>", " ").str.strip_chars(),
)
df_train.head()

### Lagre til fil

La oss avslutte med å lagre data til en fil slik at vi enkelt kan gjenskape
treningen og samtidig dele data med andre på en enkel måte. Et format som kan
være praktisk er [Parquet](https://en.wikipedia.org/wiki/Apache_Parquet) som
både er effektivt for å lagre dataframe data og samtidig er godt støttet i de
fleste verktøy vi bruker i Nav.

In [None]:
df_train.write_parquet("dataset.parquet")

::: {.callout-tip}
## Overgang til `datasets`

Avhengig av dine preferanser så er dette et naturlig tidspunkt å gå over til
`datasets`. `datasets` er et bibliotek for datasett som er veldig mye brukt med
språkmodeller og 🤗 Hugging Face. Vi kommer til å laste inn `datasets` litt
senere da treningsmetoden vi skal benytte bruker dette biblioteket.

I denne datafortellingen kommer vi til å holde oss til Polars så lenge som mulig
på grunn av tidligere kjennskap til dette biblioteket samt at vi fortsatt
trenger noen operasjoner som vil være raskere i Polars enn i `datasets`.
:::

## Trening og test

Nå som vi har laget et fullstendig treningssett kan vi begynne å tenke på å dele
opp i en trenings del og en test del. Dette gjør vi for å ha en del som modellen
får lov til å se på, trenings delen, og en del som er helt ny for modellen, test
delen. Ved å skille slik får vi mulighet til å evaluere hvor godt modellen
fungerer på ting den ikke har sett før.

Vi starter med å legge til en `ID` kolonne på datasettet vårt slik at vi kan
unikt identifisere rader, dette kommer vi til å trenge senere.

In [None]:
dataset = df_train.with_row_index("id")

Deretter deler vi datasettet i en del for trening, meste parten, og en del for
testing.

In [None]:
# Litt komplisert å lage trening/test split i Polars
#
# Vi starter med å randomisere hele datasettet
dataset = dataset.sample(fraction=1, shuffle=True, seed=12345)
# Beregne antall rader vi skal bruke
num_test = int(0.2 * len(dataset))
# Deretter ta de første `num_test` radene til test
test_dataset = dataset.head(num_test)
# Tilslutt tar vi alle utenom de første `num_test` radene til trening
train_dataset = dataset.tail(-num_test)

For å kunne reprodusere eksperimentene på andre maskiner lagrer vi også trening
og test data som egne filer.

In [None]:
test_dataset.write_parquet("test_dataset.parquet")
train_dataset.write_parquet("train_dataset.parquet")

Vi legger her til innlesning på nytt slik at vi alltid kan starte friskt her
uten å måtte kjøre alle celler over.

In [None]:
import polars as pl

# Les inn datasett
test_dataset = pl.read_parquet("test_dataset.parquet")
train_dataset = pl.read_parquet("train_dataset.parquet")
# Kombiner for å kunne arbeide med hele datasettet
dataset = pl.concat([test_dataset, train_dataset])
# Skriv ut raske tall
print(f"Antall elementer [bold magenta]totalt[/]:\t{len(dataset)}")
print(f"Antall elementer i [bold green]trening[/]:\t{len(train_dataset)}")
print(f"Antall elementer i [bold blue]test[/]:\t{len(test_dataset)}")

### Corpus

Nå som vi har opprettet et datasett kan vi bruke dette for å lage oss et corpus
å trene på/med.

Vi starter med å lage oss et sett med alt innhold, "corpus", og et sett med
"queries" (de elementene som vi ønsker å teste mot innholdet).

In [None]:
# Merk at vi bruker `dataset` for å bruke _alt_ innhold
corpus = dict(dataset.select(["id", "positive"]).rows())
# For "queries" bruker vi det vi har plukket ut i test
queries = dict(test_dataset.select(["id", "anchor"]).rows())

Vi trenger så å lage oss en mapping mellom "queries" og relevant innhold. I vårt
tilfellet så vil det være overlapp for alle deler som kommer fra samme sti på
Nav.no. Sagt på en annen måte, vi ønsker å vekte elementer fra samme sti høyere
under evaluering slik at et element fra `/dagpenger` er viktigere eller bedre
enn et element fra `/sykepenger` hvis søket handler om Dagpenger.

In [None]:
relevant_docs = {}
for qid in queries.keys():
    navno_path = (
        dataset.filter(pl.col("id") == qid).unique("path").item(row=0, column="path")
    )
    relevant_docs[qid] = set(
        dataset.filter(pl.col("path") == navno_path).get_column("id")
    )

## Språkmodell

Nå som vi har ordnet oss med litt data er det endelig på tide å velge en
språkmodell. Vi kommer til å bruke
[`sentence-transformers`](https://sbert.net/index.html) for modellen og trening
så la oss først ordne nødvendige pakker.

:::: {.callout-note}
## Nødvendige avhengigheter

Vi trenger et par pakker for `sentence-transformers` og de avhenger av riktig
oppsett for effektiv trening.

::: {.panel-tabset}
## Uten CUDA (Linux, Mac og Windows uten GPU)
For maskiner uten dedikert Nvidia GPU kan man enkelt installere som følger:

```bash
uv add transformers --extra torch
uv add sentence-transformers --extra train
```

## CUDA

Hvis du har et dedikert grafikkort kan du tjene mye på å installere PyTorch med
CUDA støtte.

Her anbefaler vi å følge oppskriften på [PyTorch sin
hjemmeside](https://pytorch.org/get-started/locally/) for å få riktig oppsett
for akkurat din maskin.

Deretter trenger du:
```bash
uv add transformers
uv add sentence-transformers --extra train
```
:::

::::

---

Når det kommer til valg av språkmodell så er det vanskelig å gi noen konkrete
anbefalinger, nettopp fordi man kan tilpasse modellene til egne data slik vi
gjør her. En god oversikt over hvordan å velge språkmodell finnes i [Nav sin
tekniske
veileder](https://data.ansatt.nav.no/quarto/b9ec1385-d596-47e2-a3d2-8cbc85c577a3/_book/llm/lokale.html).

Vi kommer til å gå videre med
[`Alibaba-NLP/gte-modernbert-base`](https://huggingface.co/Alibaba-NLP/gte-modernbert-base).
Denne har vi valgt av følgende grunner:

- Den gjør det godt i sammenligninger mot embeddingmodeller av tilsvarende størrelse
- Det er en relativt liten, $149$ millioner parametere, modell som burde passe
fint på en laptop
- Den har et stort kontekstvindu på $8192$ token
    - Noe som betyr at den kan jobbe med større sammenhengende tekster
- Den er lisensiert på en måte som gjør at vi enkelt kan ta den i bruk i Nav
(`Apache 2.0`)

In [None]:
import torch
from sentence_transformers import SentenceTransformer

model = SentenceTransformer(
    "Alibaba-NLP/gte-modernbert-base",
    # NOTE: Vi velger `device` spesifikt tilpasset Mac, her burde man bruke
    # "cuda" hvis tilgjengelig, eller annet tilpasset din maskin
    device="mps" if torch.backends.mps.is_available() else "cpu",
    # NOTE: Vi setter `padding` til `max_length` for å prøve å unngå en
    # minnelekasje på Mac som fører til at trening og evaluering bruker for mye
    # minne. For annen maskinvare kan dette valget fjernes!
    tokenizer_kwargs=dict(padding="max_length"),
)

### Evaluere språkmodell

La oss nå se litt på hvordan modellen vår gjør det på datasettet vårt.

Vi må starte med å definere en måte å evaluere modellen vår, her har også
[`sentence-transformers` god
støtte](https://sbert.net/docs/sentence_transformer/training_overview.html#evaluator)
så vi benytter det som er innebygget der.

In [None]:
from sentence_transformers.evaluation import InformationRetrievalEvaluator
from sentence_transformers.util import cos_sim

evaluator = InformationRetrievalEvaluator(
    queries=queries,
    corpus=corpus,
    relevant_docs=relevant_docs,
    name="modernbert",
    score_functions={"cosine": cos_sim},
    batch_size=4,  # Skru denne ned eller opp avhengig av tilgjengelig minne, høyere gir raskere evaluering
    show_progress_bar=True,
)

Deretter kan vi benytte `evaluator` til å vurdere modellene vår.

In [None]:
# | eval: false
base_eval = evaluator(model)

Fra evalueringen over er det kanskje mest interessant å se på
[NDCG@10](https://en.wikipedia.org/wiki/Discounted_cumulative_gain) som sier oss
noe om kvaliteten på rangering av treff.

In [None]:
print(f"Rangeringskvalitet (NDCG@10): {base_eval['modernbert_cosine_ndcg@10']}")

## Finjustering

Etter at vi nå har valgt og testet en embeddingmodell er det nå på tide å se om
vi kan forbedre ytelsen til modellen ved å finjustere.

Vi kommer til å holde oss i `sentence-transformers` verden og benytte loss
funksjon og treningsmetoder derfra.

::: {.callout-note collapse="true"}
## Valgfrie avhengigheter

For å øke hastighet på treningen kan det være lurt å installere `flash-attn` som
er en optimalisert versjon av Flash Attention. Dette vil gjøre finjusteringen
raskere på støttet maskinvare (for det meste GPU-er).

```bash
uv add flash-attn
```
:::

### Treningsmetode (loss function)

Før vi kan finjustere språkmodellen vår må vi definere en treningsmetode som
forteller systemet hvor bra, eller dårlig, modellen vår gjør det når vi
presenterer den for eksempler.

::: {.column-margin}
![Illustrasjon av hvordan `MultipleNegativeRankingLoss` optimaliserer ved å
knytte "nåværende" treningseksempel tettere og samtidig "skyve bort" alle andre
eksempler](./assets/MultipleNegativeRankingLoss.png)
:::

For datasett av typen _Positiv Pair_ er
[`MultipleNegativesRankingLoss`](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss)
veldig passende fordi den kan gjenbruke "alle andre" eksempler i treningssettet
som negative eksempler.

In [None]:
from sentence_transformers.losses import MultipleNegativesRankingLoss

train_loss = MultipleNegativesRankingLoss(model=model)

### Treningsoppsett

Etter at vi har definert en treningsmetode så må vi gjøre litt husarbeid for å
definere hvordan trening skal foregå.

::: {.callout-note}
## Nødvendige avhengigheter

Siden `sentence-transformers` bruker `datasets` for å strukturere
treningseksempler trenger vi også dette biblioteket.

```bash
uv add datasets
```
:::

In [None]:
from sentence_transformers import SentenceTransformerTrainingArguments
from sentence_transformers.training_args import BatchSamplers

# Definer hvordan trening skal foregå
train_args = SentenceTransformerTrainingArguments(
    output_dir="gte-modernbert-navno",
    num_train_epochs=4,  # Antall epoker å trene, flere er bedre
    per_device_train_batch_size=4,  # Bestemt av maskinvare, høyere trener raskere
    per_device_eval_batch_size=4,
    warmup_ratio=0.1,
    learning_rate=2e-5,
    lr_scheduler_type="cosine",
    tf32=None,  # Kjekt å sette til `True` hvis maskinvare støtter (krever nyere Nvidia GPU)
    fp16=False,  # Sett til `True` hvis man ikke kan bruke `bf16`
    bf16=True,  # Kjekt å sette på hvis maskinvare støtter (støttes av Mac og Nvidia GPU-er)
    batch_sampler=BatchSamplers.NO_DUPLICATES,  # Veldig praktisk å fjerne duplikater når man har Positiv Pair
    eval_strategy="steps",  # Evaluer etter hver X steg
    save_strategy="steps",  # Lagre modell etter X steg
    save_steps=50,
    logging_steps=50,
    save_total_limit=3,  # Bare spar på de 3 siste modellene
    load_best_model_at_end=True,
)

Vi konverterer så treningsdataene våre til et `datasets` slik at det er
kompatibelt med `sentence-transformers`.

In [None]:
from datasets import Dataset

train_ds = Dataset.from_polars(train_dataset.select(["anchor", "positive"]))
train_ds

Også kan vi sette opp treningsregimet vårt.

In [None]:
from sentence_transformers import SentenceTransformerTrainer

trainer = SentenceTransformerTrainer(
    model=model,
    args=train_args,
    train_dataset=train_ds,
    loss=train_loss,
    evaluator=evaluator,
)

### Utføre finjustering

Med det unnagjort kan vi bare kjøre treningsregimet vårt for å få en finjustert
modell.

In [None]:
# | eval: false

# Utfør trening
trainer.train()

# Pass på at vi lagrer modellen
trainer.save_model()

### Evaluer finjustert modell

Nå som vi har finjustert modellen gjenstår det bare å evaluere om finjusteringen
hadde noe for seg.

Vi kan gjenbruke evalueringen vi brukte tidligere, men det er lurt å laste
modellen på nytt slik at vi er sikker på at vi evaluerer riktig modell.

In [None]:
import torch
from sentence_transformers import SentenceTransformer

model = SentenceTransformer(
    train_args.output_dir,  # NOTE: Vi bytter ut modellnavn her med mappen hvor vi lagret finjustert modell
    # Merk at her velger vi `device` spesifikt tilpasset Mac, her burde man
    # bruke "cuda" hvis tilgjengelig, eller annet tilpasset din maskin
    device="mps" if torch.backends.mps.is_available() else "cpu",
)

In [None]:
# | eval: false
final_eval = evaluator(model)

La oss så se hvordan det gikk med finjustert modell.

In [None]:
print(f"Ikke finjustert (NDCG@10):\t{base_eval['modernbert_cosine_ndcg@10']}")
print(f"Finjustert (NDCG@10):\t{final_eval['modernbert_cosine_ndcg@10']}")