# Undersøk korpus med metadata og konkordans

Konkordanser gir oppslagt for nøkkelord i en kontekst, også kjent under akronymet [KWIC](https://en.wikipedia.org/wiki/Key_Word_in_Context). Kommandoene som benyttes er get_konk (eller nb.get_konk), og ligger klar i modulen nbtext.

Gjør API-et aktivt ved å kjøre cellen under.

In [1]:
import nbtext as nb
from nbtext import get_konk, get_urnkonk, urn_from_text
%matplotlib inline

## Konkordanser

Det minste som må spesifiseres for kommandoen *get_konk()* er et ord.

In [3]:
get_konk('arbeid')

0,1,2,3
",Feite forestillinger,2003",klubber spares dere for masse,arbeid,( se i Verktøykassa på
",Feite forestillinger,2003",ansvarlighet for andres tid og,arbeid,. å opptre aktsomt og
",Feite forestillinger,2003","studenter , skiftarbeidere eller uten",arbeid,"i det hele tatt ,"
",Feite forestillinger,2003",■ Publikumsrettet,arbeid,som bygger varig tillit og
"Belsvik, Rune,Dustefjerten,2009",Grøftegraving var eit passeleg strevsamt,arbeid,. Det gjorde ein både
"Belsvik, Rune,Dustefjerten,2009",- Eg har,arbeid,å gjera . Den som
"Belsvik, Rune,Dustefjerten,2009",. Det er eit skummelt,arbeid,. Men nokon må gjera
"Belsvik, Rune,Dustefjerten,2009",av dagen . Eg har,arbeid,av tusen slag som må
"Ohlsson, Anders,Motor,2010",og tryggleik i samband med,arbeid,på køyretøy velje og bruke
"Ohlsson, Anders,Motor,2010",Frå varme til mekanisk,arbeid,


Kommandoen *get_konk()* tar parametre for å begrense søket - noen er satt opp med defaultverdier. Parametrene er en måte spesifisere et korpus på, men se nedenfor for andre måter å gjøre akkurat det på.

In [None]:
get_konk('arbeid', {'size':10, 'corpus':'bok', 'before':8, 'after':8, 'author':'hamsun%'})

### Samme konk mot aviser  (kan ta litt tid)

Bøker og aviser deler litt på egenskaper. Foruten årstall vil for eksempel 'title' gjøre begrensing på boktitler for bøker, og avisnavn for aviser. Årstall begrenser utgivelsesår.

In [None]:
get_konk('arbeid', {'size':5, 'title':'aftenposten','corpus':'avis', 'yearfrom':1950, 'yearto':1955})

## Bygge korpus med bøker

Får å bygge et korpus av bøker (korpus med aviser er i kjømda) brukes kommandoen *get_urn()* med nesten de samme parametrene som for *get_konk()*.

Man kan også finne URN-er i bokhylla, eller lage en liste med URN-er i en tekstfil og bruke kommandoen *urn_from_text()*. Se nedenfor.

#### get_urn()

Kommandoen *get_urn()* gir et tilfeldig utvalg bøker innenfor spesifikasjonene.
Aktiver cellen under et par ganger for å se effekten.

In [None]:
nb.get_urn()

### Med kriterier

Vanligvis vil vi begrense korpuset til et helt spesifikt sett av bøker. Kriteriene er de vanlige som forfatter, tittel og år, i tillegg kommer kjønn (gender), tema (subject) og Dewey (ddk).

Her settes dataene opp på formen

    navn = definisjon
    navn

Første linje definerer navnet, andre viser innholdet. Husk å endre *navn* når cellene kopieres!

In [None]:
krig = nb.get_urn({'gender':'f', 'subject':'krig', 'ddk':'9%', 'year':1950, 'next':50, 'limit':30})
krig

In [None]:
finnmark = nb.get_urn({'gender':'%', 'subject':'finnmark', 'lang':'nob', 'year':1950, 'next':50,'limit':5})
finnmark

In [None]:
trønder = nb.get_urn({'gender':'f', 'subject':'trondheim', 'ddk':'9%', 'year':1950, 'next':50,'limit':30})
trønder

## Konkordanser med URNer

Kommandoen er *get_urnkonk()* som bruker URNer i stedet for metadata.

In [None]:
get_urnkonk('soldater', {'urns':krig, 'before':8, 'after':8, 'size':14}, html=True)