# Undersøk korpus med metadata og konkordans

Konkordanser gir oppslagt for nøkkelord i en kontekst, også kjent under akronymet [KWIC](https://en.wikipedia.org/wiki/Key_Word_in_Context). Kommandoene som benyttes er get_konk (eller nb.get_konk), og ligger klar i modulen nbtext.

Gjør API-et aktivt ved å kjøre cellen under.

In [None]:
import module_update

In [1]:
import nbtext as nb
from nbtext import get_konk, get_urnkonk, urn_from_text
%matplotlib inline

## Konkordanser

Det minste som må spesifiseres for kommandoen *get_konk()* er et ord.

In [7]:
get_konk('arbeid')

0,1,2,3
"Johnsen, John G.,Norsk hermetikkmuseum,1995",mer enn 100 personer i,arbeid,i fabrikken . Navnet til
"Johnsen, John G.,Norsk hermetikkmuseum,1995",framstillingsmåte med hovedsaklig bare manuelt,arbeid,. Både varer og emballasje
"Johnsen, John G.,Norsk hermetikkmuseum,1995",vært så intens at annet,arbeid,i samme rom ville vært
"Johnsen, John G.,Norsk hermetikkmuseum,1995",kvinnene ble ofte innkalt til,arbeid,på kort varsel . Dette
"Du Maurier, Daphne,Uten hensyn,1980",utsultede dyr gjør ikke godt,arbeid,", sa han dristig ."
"Du Maurier, Daphne,Uten hensyn,1980",det var vanskehgere a finne,arbeid,enn han hadde trodd .
"Du Maurier, Daphne,Uten hensyn,1980",. Han gjorde tre manns,arbeid,", og han hadde provisjon"
"Du Maurier, Daphne,Uten hensyn,1980",det blir dobbelt så mye,arbeid,. Med alle de pengene
"Marryat, Frederick,Peter Simple,1968",enn å utføre hele mitt,arbeid,"som en gentleman , men"
"Marryat, Frederick,Peter Simple,1968",hatt noen annen utdannelse eller,arbeid,", har jeg spist sammen"


Kommandoen *get_konk()* tar parametre for å begrense søket - noen er satt opp med defaultverdier. Parametrene er en måte spesifisere et korpus på, men se nedenfor for andre måter å gjøre akkurat det på.

In [8]:
get_konk('arbeid', {'size':10, 'corpus':'bok', 'before':8, 'after':8, 'author':'hamsun%'})

0,1,2,3
"Hamsun, Knut,Samlede verker,2008",å skaffe forlegger til boken han hadde under,arbeid,.
"Hamsun, Knut,Markens grøde,1939",. . Og jeg som har et stort,arbeid,liggende som skulle være et varsku til mitt
"Hamsun, Knut,Markens grøde,1939","Disse sårtomtene , har han fått dem i",arbeid,eller i strid ? Han er kanskje kom
"Hamsun, Knut,Markens grøde,1939",men hans . Nå ble dagene opptatt av,arbeid,. Han begynte straks å løype never i
"Hamsun, Knut,Markens grøde,1939","— verden ble igjen den samme , daglig",arbeid,", mange små og store gleder , Gullhorn"
"Hamsun, Knut,Markens grøde,1939",. Han var også dyk * tig til,arbeid,"som han engang hadde lært , og så"
"Hamsun, Knut,Markens grøde,1939",tilbud eller frata ham hans mark og hans,arbeid,. — Heyerdahl skrev : Mannen ansøker ærbødigst
"Hamsun, Knut,Markens grøde,1939",", men som han har nedlagt et betydelig",arbeid,"på , for 50 — femti — spesiedaler"
"Hamsun, Knut,Markens grøde,1939","følger , det er mat , søvn og",arbeid,", det er søndager med ansikts * vask"
"Hamsun, Knut,Markens grøde,1939",års favnved . Hans liv gikk fra ett,arbeid,"til et annet etter årstidene , fra jorda"


### Samme konk mot aviser  (kan ta litt tid)

Bøker og aviser deler litt på egenskaper. Foruten årstall vil for eksempel 'title' gjøre begrensing på boktitler for bøker, og avisnavn for aviser. Årstall begrenser utgivelsesår.

In [9]:
get_konk('arbeid', {'size':5, 'title':'aftenposten','corpus':'avis', 'yearfrom':1950, 'yearto':1955})

0,1,2,3
aftenposten-19550506,"lJ-49 "" . Efter dagens",arbeid,", gå til S og"
aftenposten-19550506,"form . still , som",arbeid,", formann på verk- sted"
aftenposten-19550506,"nelse , erfaring i sosialt",arbeid,og interesse for og innsikt
aftenposten-19550506,regne med å få varig,arbeid,. Lonn etler regulativet for
aftenposten-19550506,avdelingen . Kjennskap til lonnings-,arbeid,"ønskelig . I , onn"
aftenposten-19520103,VI har 1000 flere 1,arbeid,i ftr . Men det
aftenposten-19520103,At redningsmannskapet utforte et førsteklasses,arbeid,", kan det ikke være"
aftenposten-19520103,kjærlighet for Hode Kors ',arbeid,i Norge er vel kjent
aftenposten-19520103,. Den skildrer det mangesidige,arbeid,ombord på skipet i storm
aftenposten-19520103,populære romaner — 48 timers,arbeid,", 20.000 franc firtjsneste for"


## Bygg et korpus av bøker

Får å bygge et korpus av bøker (aviser er i kjømda) brukes kommandoen *get_urn()* med nesten de samme parametrene som for *get_konk()*.

Man kan også finne URN-er i bokhylla, eller lage en liste med URN-er i en tekstfil og bruke kommandoen *urn_from_text()*. Se nedenfor.

#### get_urn()

Kommandoen *get_urn()* gir et tilfeldig utvalg bøker innenfor spesifikasjonene.
Aktiver cellen under et par ganger for å se effekten.

In [None]:
nb.get_urn()

### Med kriterier

Vanligvis vil vi begrense korpuset til et helt spesifikt sett av bøker. Kriteriene er de vanlige som forfatter, tittel og år, i tillegg kommer kjønn (gender), tema (subject) og Dewey (ddk).

Her settes dataene opp på formen

    navn = definisjon
    navn

Første linje definerer navnet, andre viser innholdet. Husk å endre *navn* når cellene kopieres!

In [None]:
krig = nb.get_urn({'gender':'f', 'subject':'krig', 'ddk':'9%', 'year':1950, 'next':50, 'limit':30})
krig

In [None]:
finnmark = nb.get_urn({'gender':'%', 'subject':'finnmark', 'lang':'nob', 'year':1950, 'next':50,'limit':5})
finnmark

In [None]:
trønder = nb.get_urn({'gender':'f', 'subject':'trondheim', 'ddk':'9%', 'year':1950, 'next':50,'limit':30})
trønder

## Konkordanser med URNer

Kommandoen er *get_urnkonk()* som bruker URNer i stedet for metadata.

In [None]:
get_urnkonk('soldater', {'urns':krig, 'before':8, 'after':8, 'size':14}, html=True)

## URNer fra Bokhylla

Gåt til http://nb.no/search og søk etter bøker. I søkefeltet legger du til ordet 'debugon' - da kommer resultatene med URN-er. Kopier hele siden (f.eks. med ctrl-a) og lim det inn i cellen under mellom de triple hermetegnene.

Etter at teksten (det blir gjerne en hel del) er limt inn og cellen er aktivert, vil URNene ligge i variabelen bokhylla_urn, som så kan brukes sammen med *get_urnkonk()*. 

Har du noen URNer liggende i en Word-fil eller lignende, kan det også limes inn.

In [None]:
bokhylla_urn = """  """
bokhylla_urn = urn_from_text(bokhylla_urn)
bokhylla_urn

In [None]:
get_urnkonk('Ask',{
    'urns':bokhylla_urn
})