# Undersøk korpus med metadata og konkordans

Konkordanser gir oppslagt for nøkkelord i en kontekst, også kjent under akronymet [KWIC](https://en.wikipedia.org/wiki/Key_Word_in_Context). Kommandoene som benyttes er get_konk (eller nb.get_konk), og ligger klar i modulen nbtext.

Gjør API-et aktivt ved å kjøre cellen under.

In [3]:
import nbtext as nb
from nbtext import get_konk, get_urnkonk, urn_from_text
%matplotlib inline

## Konkordanser

Det minste som må spesifiseres for kommandoen *get_konk()* er et ord.

In [4]:
get_konk('arbeid')

0,1,2,3
",Lov av 29. juni 1990 nr 50 om produksjon, omforming, overføring, omsetning og fordeling av energi m.m. (energiloven),1993",ved Norges vassdrags- og energiverks,arbeid,med kraftforsyningsberedskap. Utgiftene utlignes på
"Spoerri, Theophil,Frigjerande tru,1936",rutinen og døyver seg med,arbeid,. Atter andre byrjar eit
"Spoerri, Theophil,Frigjerande tru,1936",ordningar . I mitt vitskaplege,arbeid,og fann eg ei ny
"Weng, Jon Gunnar,Nye arbeidsplasser i bygda?,1984",. Det er mangelen på,arbeid,som driver dem bort .
"Weng, Jon Gunnar,Nye arbeidsplasser i bygda?,1984",for familien . Annet inntektsgivende,arbeid,må utføres utenfor garden .
"Weng, Jon Gunnar,Nye arbeidsplasser i bygda?,1984",skritt . essant,arbeid,foran dere .
"Weng, Jon Gunnar,Nye arbeidsplasser i bygda?,1984",idéer med Kartlagt behov .,arbeid,for kvinner demøte . personer
",Språksjekken,2000",ut hva språkforenklingen krever av,arbeid,", er å kartlegge hvilke"
",Språksjekken,2000","utgave , ny utgave under",arbeid,) . Gratis .


Kommandoen *get_konk()* tar parametre for å begrense søket - noen er satt opp med defaultverdier. Parametrene er en måte spesifisere et korpus på, men se nedenfor for andre måter å gjøre akkurat det på.

In [5]:
get_konk('arbeid', {'size':10, 'corpus':'bok', 'before':8, 'after':8, 'author':'hamsun%'})

0,1,2,3
"Hamsun, Knut,Samlede verker,1963","dumme og meningsløse taushet , han kunde ikke",arbeid,"i sit atelier , hans sjæl gik i"
"Hamsun, Marie,Barnebilleder,1925","Det gjør det , hans møisomme",arbeid,er endt — nu Hgger her ogsaa minsandten
"Hamsun, Knut,Knut Hamsuns brev,1995",3. Flere av Hamsuns brev viser hans,arbeid,"med å skaffe forlegger til forfatterkolleger, f ."
"Hamsun, Knut,Knut Hamsuns brev,1995",han ikke kommer ordentlig i gang med sitt,arbeid,.
"Hamsun, Knut,Knut Hamsuns brev,1995",") , norsk prest , kjent for sitt",arbeid,på folkehøyskolen Vonheim i Gausdal og for sin
"Hamsun, Knut,Knut Hamsuns brev,1995",", norsk biblioteksmann , særlig kjent for sitt",arbeid,for folkebibliotekene .
"Hamsun, Marie,Regnbuen,1965","kunstverk , et vel utført åndens eller håndens",arbeid,— et vakkert stoppet hull . Hun var
"Hamsun, Marie,Regnbuen,1965",om resten . Det var det eneste egentlige,arbeid,jeg hadde . Men det var ikke kjedelig
"Hamsun, Marie,Regnbuen,1965",^ lan var en ung alvolBmann i sitt,arbeid,", og tole vare ria < let nan"
"Hamsun, Marie,Regnbuen,1965",. For et var et naturlig og velsignet,arbeid,"for meg , det i fjøset . Et"


### Samme konk mot aviser  (kan ta litt tid)

Bøker og aviser deler litt på egenskaper. Foruten årstall vil for eksempel 'title' gjøre begrensing på boktitler for bøker, og avisnavn for aviser. Årstall begrenser utgivelsesår.

In [6]:
get_konk('arbeid', {'size':5, 'title':'aftenposten','corpus':'avis', 'yearfrom':1950, 'yearto':1955})

0,1,2,3
aftenposten-19550506,"lJ-49 "" . Efter dagens",arbeid,", gå til S og"
aftenposten-19550506,"form . still , som",arbeid,", formann på verk- sted"
aftenposten-19550506,"nelse , erfaring i sosialt",arbeid,og interesse for og innsikt
aftenposten-19550506,regne med å få varig,arbeid,. Lonn etler regulativet for
aftenposten-19550506,avdelingen . Kjennskap til lonnings-,arbeid,"ønskelig . I , onn"
aftenposten-19520103,VI har 1000 flere 1,arbeid,i ftr . Men det
aftenposten-19520103,At redningsmannskapet utforte et førsteklasses,arbeid,", kan det ikke være"
aftenposten-19520103,kjærlighet for Hode Kors ',arbeid,i Norge er vel kjent
aftenposten-19520103,. Den skildrer det mangesidige,arbeid,ombord på skipet i storm
aftenposten-19520103,populære romaner — 48 timers,arbeid,", 20.000 franc firtjsneste for"


## Bygg et korpus av bøker

Får å bygge et korpus av bøker (aviser er i kjømda) brukes kommandoen *get_urn()* med nesten de samme parametrene som for *get_konk()*.

Man kan også finne URN-er i bokhylla, eller lage en liste med URN-er i en tekstfil og bruke kommandoen *urn_from_text()*. Se nedenfor.

#### get_urn()

Kommandoen *get_urn()* gir et tilfeldig utvalg bøker innenfor spesifikasjonene.
Aktiver cellen under et par ganger for å se effekten.

In [7]:
nb.get_urn()

[[2007043004092, 'Grimm, Laura', "Definition in Platon's Meno", 1962],
 [2012101609128, '', 'Arbeidsforhold i fiskeindustien', 1974],
 [2014021906440, 'Micaelsen, Frank Stubb', 'Tante Ingas kaffekos', 1976],
 [2009032500042, 'Siamon, Sharon', 'Grøss ved leirbålet', 1999],
 [2012082938025, '', 'Italia', 1996],
 [2012021608191, 'Breilid, Magnus', 'Agder i segn og soge', 1971],
 [2011081108105, '', 'Høyres helsepolitikk', 1997],
 [2013121708168, 'Dybdahl, Petter', 'Norman-boken om tilgangskontroll', 1996],
 [2012072408028,
  'Johnsen, Geir Helge',
  'Vurdering av konsekvensar for fiskebestandane i Aurlandselvi ved utfylling i Skinnarviki',
  1998],
 [2010111008039,
  'Mellem, Jan Thore',
  'Teknologivalg og psykososialt arbeidsmiljø',
  1990]]

### Med kriterier

Vanligvis vil vi begrense korpuset til et helt spesifikt sett av bøker. Kriteriene er de vanlige som forfatter, tittel og år, i tillegg kommer kjønn (gender), tema (subject) og Dewey (ddk).

Her settes dataene opp på formen

    navn = definisjon
    navn

Første linje definerer navnet, andre viser innholdet. Husk å endre *navn* når cellene kopieres!

In [8]:
krig = nb.get_urn({'gender':'f', 'subject':'krig', 'ddk':'9%', 'year':1950, 'next':50, 'limit':30})
krig

[[2013081305016, 'Gaarder, Inger Margrethe', 'Hvem kan glemme dette?', 1984],
 [2016021507555, 'Nøkleby, Berit', 'Barn under krigen', 2000],
 [2014110708053, 'Thorsen, Laila', 'Finnmark brenner!', 1985],
 [2012070306034, 'Thorsen, Laila', 'Finnmark brenner', 1981],
 [2012041108004, 'Thowsen, Elsa', 'Glemmen bygdebok', 1962],
 [2008070800055, 'Knudsen, Anne Merete', 'Flyktninger i eget land', 1995],
 [2010111008048, 'Suhrke, Astri', 'Det andre Afghanistan', 1990],
 [2013121105013, 'Eliassen, Ingeborg', 'Mor Eritrea', 1988],
 [2010042806014, 'Lund, Maria Konow', 'Inger Gulbrandsen', 1998],
 [2007070301040, 'Anderson, Gidske', 'Krigene etter krigen', 1980],
 [2007083001012, 'Bratteli, Randi', 'Vi som aldri kan glemme', 1990],
 [2007091204021, 'Kvanmo, Hanna', 'Dommen', 1990],
 [2008030700053, 'Senje, Cathrine', 'Fem år og fire uker', 1995]]

In [26]:
brev = nb.get_urn({'gender':'%', 'subject':'brev', 'ddk':'8%', 'year':1800, 'next':50, 'limit':30})
brev

[]

In [10]:
finnmark = nb.get_urn({'gender':'%', 'subject':'finnmark', 'lang':'nob', 'year':1950, 'next':50,'limit':5})
finnmark

[[2007022801076, 'Vorren, Ørnulv', 'Samiske offerplasser i Varanger', 1993],
 [2007041601029, 'Prebensen, Nina Katrine', 'Finnmark - tur-retur', 1991],
 [2012110807141, 'Eriksen, Hans Kr.', 'Barnet og krigen', 1983],
 [2007081404014, 'Minde, Henry', 'Stein og brød', 1983],
 [2015090906176, 'Hanssen, Einar Richter', 'Repvåg kraftlag 40 år', 1988]]

In [11]:
trønder = nb.get_urn({'gender':'f', 'subject':'trondheim', 'ddk':'9%', 'year':1950, 'next':50,'limit':30})
trønder

[[2007090304014, 'Sellevold, Berit J.', 'Skjelettene i biblioteket', 1990],
 [2007022101007, 'Blom, Grethe Authén', 'St. Olavs by', 1956],
 [2008102300007,
  'Hufthammer, Anne Karin',
  'Utgravningene i Erkebispegården i Trondheim',
  1999],
 [2008102700036,
  'Kollandsrud, Mari',
  'Pilegrimenes vandring til Nidaros',
  2000],
 [2015061508009, 'Bull, Ida', 'Håndverk i omdanning', 1979],
 [2009010804086,
  'Daverdin, Rita Hartvigsen',
  'Utgravningene i Erkebispegården i Trondheim',
  1997],
 [2013062105079, 'Bull, Ida', 'Bakklandet lever!', 1985],
 [2008071704052, 'Kollandsrud, Mari', 'Pilegrimsleden til Nidaros', 1997],
 [2010061808042, 'Nordhaug, Liv', 'Slik var det', 1997],
 [2010030810005, 'Blom, Grethe Authén', 'Hellig Olavs by', 1997]]

## Konkordanser med URNer

Kommandoen er *get_urnkonk()* som bruker URNer i stedet for metadata.

In [12]:
get_urnkonk('soldater', {'urns':krig, 'before':8, 'after':8, 'size':14}, html=True)

0,1,2,3
"Barn under krigen, Nøkleby, Berit, 2000",", var politimann og kunne fortelle at tyske",soldater,var gått i land i byen og hadde
"Barn under krigen, Nøkleby, Berit, 2000",skremmende . En mor forteller om hvordan tyske,soldater,drev med « selvbetjening » i en butikk
"Barn under krigen, Nøkleby, Berit, 2000",De fleste andre steder så man ingen tyske,soldater,"denne første dagen , men flyaktiviteten var ofte"
"Barn under krigen, Nøkleby, Berit, 2000","stå med hendene i været , mens to",soldater,holdt geværene rettet mot henne . Moren hørte
"Barn under krigen, Nøkleby, Berit, 2000",Tyske,soldater,marsjerer utenfor jernbanestasjonen i Trondheim . De sang
"Barn under krigen, Nøkleby, Berit, 2000",Franske,soldater,"som deltok i kampene om Narvik , her"
"Barn under krigen, Nøkleby, Berit, 2000",og forpakterboligen rykket det inn omkring tyve tyske,soldater,", mens offiserene deres slo seg til på"
"Barn under krigen, Nøkleby, Berit, 2000",år gamle Berge ( Furre ) så tyske,soldater,"marsjere med full oppakning , kunne han ikke"
"Barn under krigen, Nøkleby, Berit, 2000",ble mer normale. Plutselig var landet fullt av,soldater,"i fremmed uniform , og mange var de"
"Barn under krigen, Nøkleby, Berit, 2000",... plutselig hadde noen sett de første tyske,soldater,på Skotterud og Magnor . Disse ble livaktig


## URNer fra Bokhylla

Gåt til http://nb.no/search og søk etter bøker. I søkefeltet legger du til ordet 'debugon' - da kommer resultatene med URN-er. Kopier hele siden (f.eks. med ctrl-a) og lim det inn i cellen under mellom de triple hermetegnene.

Etter at teksten (det blir gjerne en hel del) er limt inn og cellen er aktivert, vil URNene ligge i variabelen bokhylla_urn, som så kan brukes sammen med *get_urnkonk()*. 

Har du noen URNer liggende i en Word-fil eller lignende, kan det også limes inn.

In [13]:
bokhylla_urn = """  """
bokhylla_urn = urn_from_text(bokhylla_urn)
bokhylla_urn

[]

In [14]:
get_urnkonk('Ask',{
    'urns':bokhylla_urn
})

Parameter urns missing
