*NB: Denne notebooken er i utvikling, og ment som et eksempel på hvordan brukere kan jobbe programmatisk med nettavis-korpuset. Har du spørsmål eller tilbakemeldinger, kontakt [nettarkivet@nb.no](mailto:nettarkivet@nb.no)*

## Importer `dhlab` for python

In [None]:
# !pip install -U dhlab (fjern `#` for å installere siste versjon av python-pakka for dhlab
import dhlab as dh
import dhlab.nbtext as nb
from dhlab import Corpus, totals, Collocations, Ngram

# Korpusanalyse

Et korpus betyr en samling av tekster. I denne sammenhengen bygger vi korpus med tekster fra norske nettaviser mellom 2019-2022, angitt med `doctype="nettavis"`.

I `dhlab` brukes Python-klassen `Corpus` til å representere en liste med metadata om hvert dokument. Her finner du blant annet metadata som publikasjonstittel, språk, dato for innhøsting, domenenavn, osv. Tekstene i korpuset har også en unik `dhlabid`, som er DHlabs persistente URN.

For en liste over de ulike attributene som eksponeres gjennom APIet, se denne artikkelen om [Korpus med nettaviser](https://www.nb.no/samlingen/nettarkivet/forskning/korpus-med-nettaviser/#hvilke-skjema-attributter-kan-jeg-benytte-mot-apiet?)

## 1. Bygge korpus

La oss bygge et korpus!

Kodecellen under bygger et korpus med tekster fra NRK som inneholder ord som begynner på "vindmølle*".

In [None]:
corpus = dh.Corpus(doctype="nettavis", title="NRK", fulltext="vindmølle*", limit=100000)
corpus

### Eksportere korpus

Hvis du vil lagre resultatene kan du eksportere dem i Excel og/eller JSONL format. Husk å endre filnavnet og ev. filsti!

In [None]:
# Eksporter korpus til Excel (endre filnavn og filsti)
corpus.frame.to_excel('./korpus-vindmølle.xlsx', index=False)

# Eksportere korpus til JSONL (endre filnavn og filsti)
corpus.frame.to_json('./korpus-vindmølle.jsonl', orient='records', lines=True)

## 2. Konkordanser

Når du har bygget korpuset kan du hente ut ulike informasjon om korpuset.

Kodecellen under henter ut konkordanser, det vil si et tekstvindu med inntil 12 ord før/etter et søkeord. Søkeordet fremheves i fet skrift.

La oss be om konkordanser for ordet "vindmølle".

In [None]:
conc_windmill = corpus.conc(words="vindmølle*")
conc_windmill.show()

### Eksportere konkordanser

Hvis du vil lagre resultatene kan du eksportere dem i Excel og/eller JSONL format. Husk å endre filnavnet og ev. filsti!

In [None]:
# Eksportere konkordanser til Excel
conc_windmill.frame.to_excel('./konkordanser-vindmølle.xlsx', index=False)

# Eksportere konkordanser til JSONL
conc_windmill.frame.to_json('./konkordanser-vindmølle.jsonl', orient='records', lines=True)

## 3. Kollokasjoner og ordfrekvenser
Kollokasjoner er ordpar som forekommer sammen. Ved å telle kollokasjoner for et gitt ord kan vi si noe om frekvensen for hvor hyppig/sjelden ulike ord forekommer sammen med hverandre.

En del ord alltid vil forekomme hyppig i alle tekster, slik som `og`, `han` og `hun`. For å finne ord som er signifikante innen en gitt kontekst kan vi beregne en relativfrekvens, der vi sammenlikner frekvensen i vårt eget korpus med et allment referansekorpus.

Cellen under lister ordene med høyest relativfrekvens, gitt et nøkkelord i korpuset.

In [None]:
tot = totals(50000) # Henter referansekorpus for å sammenlikne relativfrekvens
coll = corpus.coll("vindmøller").frame.sort_values(by="counts", ascending=False) # Teller kollokasjoner for nøkkelord i korpuset
(coll.counts / tot.freq).sort_values(ascending = False).head(20) # Finner relativfrekvens i korpuset, sammenliknet med referansekorpuset