# Undersøk korpus med metadata og konkordans

Konkordanser gir oppslagt for nøkkelord i en kontekst, også kjent under akronymet [KWIC](https://en.wikipedia.org/wiki/Key_Word_in_Context). Kommandoene som benyttes er get_konk (eller nb.get_konk), og ligger klar i modulen nbtext.

Gjør API-et aktivt ved å kjøre cellen under.

In [1]:
import nbtext as nb
from nbtext import get_urn, get_konk, get_urnkonk, urn_from_text
%matplotlib inline

## Konkordanser

Det minste som må spesifiseres for kommandoen *get_konk()* er et ord.

In [16]:
urns = {lang: get_urn({'year':1200, 'next':650, 'limit':6000, 'lang':lang}) for lang in ['nob','dan','lat']}

In [18]:
{lang:len(urns[lang]) for lang in urns}

{'nob': 1751, 'dan': 1713, 'lat': 395}

In [19]:
urns[
    'nob'
][0][3]

1813

In [20]:
titles = {lang:[x[2] for x in urns[lang]] for lang in urns}

In [10]:
from collections import Counter

In [29]:
tot = dict()
for lang in urns:
    tot[lang] = Counter()
    for t in titles[lang]:
        tot[lang].update(t.split())

In [35]:
tot['nob'].most_common(20)

[('og', 640),
 ('i', 577),
 ('til', 435),
 ('af', 400),
 ('for', 320),
 ('den', 310),
 ('over', 175),
 ('om', 164),
 ('de', 158),
 ('paa', 156),
 ('Norges', 149),
 ('en', 138),
 ('eller', 124),
 ('ved', 121),
 ('det', 117),
 ('med', 108),
 ('som', 95),
 ('Norge', 87),
 ('norske', 83),
 ('Om', 77)]

In [32]:
tot['dan'].most_common(20)

[('og', 846),
 ('i', 476),
 ('til', 343),
 ('af', 294),
 ('den', 276),
 ('de', 208),
 ('eller', 183),
 ('oc', 183),
 ('over', 165),
 ('for', 165),
 ('som', 148),
 ('om', 129),
 ('paa', 115),
 ('det', 110),
 ('ved', 101),
 ('Norge', 96),
 ('en', 86),
 ('fra', 84),
 ('Holbergs', 84),
 ('danske', 81)]

In [33]:
tot['lat'].most_common(20)

[('in', 104),
 ('&amp;', 92),
 ('et', 74),
 ('De', 71),
 ('de', 66),
 ('ad', 47),
 ('...', 30),
 ('sive', 29),
 ('libri', 28),
 ('ac', 24),
 ('ex', 19),
 (';', 18),
 ('Daniae', 17),
 ('Ludovici', 17),
 ('Holbergii', 16),
 ('rerum', 15),
 ('historiae', 14),
 ('Dissertatio', 13),
 ('cum', 13),
 ('Johannis', 13)]

In [34]:
get_konk('arbeid')

0,1,2,3
",Spenningens landskap,1993",grunneiere på Elstad satt igang,arbeid,med å grave en kanal
",Spenningens landskap,1993",det ble forbud mot videre,arbeid,.
",Spenningens landskap,1993","med det , mye ekstra",arbeid,senere ?
",Spenningens landskap,1993",fylkesverket har satt igang forberedende,arbeid,ved Namsvatna uten at de
"Grøtvedt, Paul,Moderniteten og post-modernismen,1987",og bekrefte kunstens karakter av,arbeid,. » 23
"Slettebø, Åshild,Sykepleie og etikk,2002",respekt for kollegers og andres,arbeid,og være til støtte i
"Slettebø, Åshild,Sykepleie og etikk,2002",karakter om pasientene gjennom sitt,arbeid,. Det er grunnleggende for
"Slettebø, Åshild,Sykepleie og etikk,2002","helsehjelp , skal i sitt",arbeid,være oppmerksom på forhold som
"Slettebø, Åshild,Sykepleie og etikk,2002",følger av hans tjeneste eller,arbeid,for statlig eller kommunalt organ
"Braadland, Birger,Fra krig til fred,1945",fått igjen « retten til,arbeid,» . ( Det er


Kommandoen *get_konk()* tar parametre for å begrense søket - noen er satt opp med defaultverdier. Parametrene er en måte spesifisere et korpus på, men se nedenfor for andre måter å gjøre akkurat det på.

In [None]:
get_konk('arbeid', {'size':10, 'corpus':'bok', 'before':8, 'after':8, 'author':'hamsun%'})

### Samme konk mot aviser  (kan ta litt tid)

Bøker og aviser deler litt på egenskaper. Foruten årstall vil for eksempel 'title' gjøre begrensing på boktitler for bøker, og avisnavn for aviser. Årstall begrenser utgivelsesår.

In [None]:
get_konk('arbeid', {'size':5, 'title':'aftenposten','corpus':'avis', 'yearfrom':1950, 'yearto':1955})

## Bygg et korpus av bøker

Får å bygge et korpus av bøker (aviser er i kjømda) brukes kommandoen *get_urn()* med nesten de samme parametrene som for *get_konk()*.

Man kan også finne URN-er i bokhylla, eller lage en liste med URN-er i en tekstfil og bruke kommandoen *urn_from_text()*. Se nedenfor.

#### get_urn()

Kommandoen *get_urn()* gir et tilfeldig utvalg bøker innenfor spesifikasjonene.
Aktiver cellen under et par ganger for å se effekten.

In [None]:
nb.get_urn()

### Med kriterier

Vanligvis vil vi begrense korpuset til et helt spesifikt sett av bøker. Kriteriene er de vanlige som forfatter, tittel og år, i tillegg kommer kjønn (gender), tema (subject) og Dewey (ddk).

Her settes dataene opp på formen

    navn = definisjon
    navn

Første linje definerer navnet, andre viser innholdet. Husk å endre *navn* når cellene kopieres!

In [None]:
krig = nb.get_urn({'gender':'f', 'subject':'krig', 'ddk':'9%', 'year':1950, 'next':50, 'limit':30})
krig

In [None]:
finnmark = nb.get_urn({'gender':'%', 'subject':'finnmark', 'lang':'nob', 'year':1950, 'next':50,'limit':5})
finnmark

In [None]:
trønder = nb.get_urn({'gender':'f', 'subject':'trondheim', 'ddk':'9%', 'year':1950, 'next':50,'limit':30})
trønder

## Konkordanser med URNer

Kommandoen er *get_urnkonk()* som bruker URNer i stedet for metadata.

In [None]:
get_urnkonk('soldater', {'urns':krig, 'before':8, 'after':8, 'size':14}, html=True)

## URNer fra Bokhylla

Gåt til http://nb.no/search og søk etter bøker. I søkefeltet legger du til ordet 'debugon' - da kommer resultatene med URN-er. Kopier hele siden (f.eks. med ctrl-a) og lim det inn i cellen under mellom de triple hermetegnene.

Etter at teksten (det blir gjerne en hel del) er limt inn og cellen er aktivert, vil URNene ligge i variabelen bokhylla_urn, som så kan brukes sammen med *get_urnkonk()*. 

Har du noen URNer liggende i en Word-fil eller lignende, kan det også limes inn.

In [None]:
bokhylla_urn = """  """
bokhylla_urn = urn_from_text(bokhylla_urn)
bokhylla_urn

In [None]:
get_urnkonk('Ask',{
    'urns':bokhylla_urn
})