![resources/images/dhlab-logo-nb.png](../resources/images/dhlab-logo-nb.png)

# Korpus

I `dhlab` brukes Python-klassen `Corpus` for å representere et korpus. Et korpus er en samling av tekster, og kan være en bok, en avis, en samling av bøker, en samling av aviser, eller en samling av alt som er tilgjengelig. 

Ved hjelp av denne klassen kan man velge ut hvilke objekter fra NBs digital samling man vil jobbe med, se metadata som forfatter, år, osv. Man kan så hente ut informasjon om teksten som frekvenslister, konkordanser, og kollokasjoner. Man kan også lese teksten via nb.no.


In [21]:
# Importer bibliotekene
import dhlab as dh # dhlab inneholder Corpus og andre nyttige funksjoner
import dhlab.nbtext as nb # Tekstverktøy

Her viser vi ulike måter man kan bygge korpus fra NBs samling. Et korpus kan enten være et utvalg bøker, eller et utvalg aviser. Avgrensningen kan være metadata eller innhold i selve teksten.

Den lettetste måten å definere et korpus er å bruke søk i metadata. `Corpus` har flere parametre som kan brukes til å avgrense korpuset.

### `Corpus`-klassens parametre:

- **doctype**: 
  - Type objekt man vil søke i. Har man velge mellom `"digibok"`(bøker), `"digavis"`(aviser), `"digitidsskrift"`(tidsskrift), `"digistorting"`(stortingsdokumenter), `"digimanus"`(brev og manuskripter) eller `"kudos"`(kunnskapsdokumenter fra offentlig sektor). Standardverdien er `"digibok"`.
  
- **author**: 
  - Navnet på en forfatter.
  
- **freetext**: 
  - Fritt søk i metadata. Kan kombinere flere av parametrene med nøkkelordene `"AND"`, `"OR"` og `"NOT"`. For eksempel: `"digibok AND Ibsen"`.
  
- **fulltext**: 
  - Ord innenfor publikasjonen. Bruk nøkkelordene `"AND"`, `"OR"` og `"NOT"` for å kombinere ord. For eksempel: `"Ibsen AND teater"`.
  
- **from_year**: 
  - Startår for ønsket tidsperiode.
  
- **to_year**: 
  - Sluttår for ønsket tidsperiode.
  
- **from_timestamp**: 
  - Startdato for ønsket tidsperiode. Formatet er `YYYYMMDD`, mens bøker har `YYYY0101` som format.
  
- **to_timestamp**: 
  - Sluttdato for ønsket tidsperiode. Formatet er som for `from_timestamp`.
  
- **title**: 
  - Tittelen på dokumentet eller publikasjonen.
  
- **ddk**: 
  - Deweys desimalklassifikasjon.
  
- **subject**: 
  - Emnet eller temaet for dokumentet.
  
- **lang**: 
  - Språket dokumentet er skrevet på. 3 bokstav ISO-kode.
  
- **limit**: 
  - Grense for antall resultater som returneres. Standardverdien er 10.
  
- **order_by**: 
  - Hvordan resultatene skal sorteres. For eksempel kan det være "random" for tilfeldig sortering.


## Eksempler

#### Bygg et korpus der forfatteren er Vigdis Hjorth

In [22]:
dh.Corpus(author='Vigdis Hjorth', limit=3)

Unnamed: 0,dhlabid,urn,title,authors,oaiid,sesamid,isbn10,city,timestamp,year,publisher,langs,subjects,ddc,genres,literaryform,doctype,ocr_creator,ocr_timestamp
0,100130215,URN:NBN:no-nb_digibok_2009051404036,Et dikt til mormor,"Hjorth , Vigdis",oai:nb.bibsys.no:999010191434702202,5b562b27337f1b10334c57facd18056c,8202128862.0,[Oslo],19900101,1990,Cappelen,nob,skjønnlitteratur/voksen / barnebok / ungdom / ...,839.823,fiction,Skjønnlitteratur,digibok,nb,20060101
1,100141720,URN:NBN:no-nb_digibok_2013040906028,"Takk, ganske bra : en norsk roman i tre deler","Hjorth , Vigdis",oai:nb.bibsys.no:990925817304702202,7f00bdfee0f5254b9d2e1a1b40a25889,,[Oslo],20090101,2009,Cappelen Damm,nob,,839.823,novel,Skjønnlitteratur,digibok,nb,20060101
2,100403751,URN:NBN:no-nb_digibok_2020050848559,Ubehaget i kulturen,"Hjorth , Vigdis / Linneberg , Arild",oai:nb.bibsys.no:999919961100402202,d7756cabad7c041cce220672a99e0f03,,,20180101,2018,Cappelen Damm,nob,Kunstnermiljøer / Kunstnarmiljø,839.8238,novel / text,Skjønnlitteratur,digibok,nb,20060101


#### Bygg et korpus fra Dewey 900 (trunkert), som et definert med emneord fiske i katalogdata

Korpuset defineres med metadata som dewey, emneord, navn , år, etc. Her kan [Webdewey](http://deweysearchno.pansoft.de/webdeweysearch/index.html) være til god hjelp.

In [23]:
dh.Corpus(ddk='9%', subject='fiske', limit=3)

Unnamed: 0,dhlabid,urn,title,authors,oaiid,sesamid,isbn10,city,timestamp,year,publisher,langs,subjects,ddc,genres,literaryform,doctype,ocr_creator,ocr_timestamp
0,100472259,URN:NBN:no-nb_digibok_2010032307024,Mandal bys historie. B. 1-2 B. 1 : Den førindu...,"Eliassen , Finn-Einar",oai:nb.bibsys.no:999600462324702202,28bf58d467b6ccc3f178c9108d3cbacf,8299025613.0,,19950101,1995,Mandal kommune,nob,Norge / Byhistorie / Historie / Lokalhistorie ...,948.3222 / 948.3222,,Faglitteratur,digibok,nb,20060101
1,100145058,URN:NBN:no-nb_digibok_2013040807102,Rovdrift : en russisk trålerskipper beretter,"Lysenko , Vladil / Lund , Odd Tufte",oai:nb.bibsys.no:998020631524702202,92c157282b57e52f4e2af093165f13ac,8205119902.0,,19790101,1979,Gyldendal,nob,Fiskerier / Fiskerier / fiskeri / sovjet / fis...,639.2 / 920,,Faglitteratur,digibok,nb,20060101
2,100281890,URN:NBN:no-nb_digibok_2009080504024,Jernaldernaust på Vestvågøy i Lofoten,"Nilsen , Gørill",oai:nb.bibsys.no:999804227954702202,70720140157808e4d566b8009cba9813,,,19980101,1998,"Institutt for arkeologi, Det samfunnsvitenskap...",nob,Naust / Jernalder / Funn / Båter / Fiske / nor...,948.4454 / 725.34,,Faglitteratur,digibok,nb,20060101


#### Korpus med bøker fra 1990 til 2000 som inneholder ordet demokrati

In [24]:
dh.Corpus(doctype='digibok', fulltext='demokrati', from_year=1990, to_year=2000, limit=3)

Unnamed: 0,dhlabid,urn,title,authors,oaiid,sesamid,isbn10,city,timestamp,year,publisher,langs,subjects,ddc,genres,literaryform,doctype
55,100048977,URN:NBN:no-nb_digibok_2007081601089,Russland er et annet sted : en kulturhistorisk...,"Waage , Peter Normann",oai:nb.bibsys.no:999008744064702202,2a460127096ec268eca6b0e35868299e,8258807080 / 8273502252,,19900101,1990,Aventura,nob,History / Culture / Communism / Politics / geo...,947.0,,Faglitteratur,digibok
30,100460918,URN:NBN:no-nb_digibok_2010021700090,Kartlegging av hindringer for å oppnå en mer b...,"Aall , Carlo / Lafferty , William M. / Bjørnæs...",oai:nb.bibsys.no:990108141754702202,607c1280b4fd9cd914b540a1b3b6deec,8242801584,Sogndal,19980101,1998,Vestlandsforsking,nob,,,,Uklassifisert,digibok
69,100552130,URN:NBN:no-nb_digibok_2011080908071,Metafysikk og materialisme : en innføring,"Hiorth , Finngeir",oai:nb.bibsys.no:999703405674702202,90ac3f3c086c2c8c3d539a0f75fb099b,8299323924,[Oslo],19970101,1997,Philosophia forlag,nob,Metafysikk / Materialisme,,,Uklassifisert,digibok


#### Korpus med flere søkeord

In [25]:
dh.Corpus(doctype='digibok', fulltext='her OR kan OR du OR legge OR inn OR flere OR søkeord', from_year=1960, to_year=1980, limit=3)

Unnamed: 0,dhlabid,urn,title,authors,oaiid,sesamid,isbn10,city,timestamp,year,publisher,langs,subjects,ddc,genres,literaryform,doctype
74,100355201,URN:NBN:no-nb_digibok_2017111748033,Det begynte en dag i slåtten i veirenna : Eids...,,oai:nb.bibsys.no:998521398024702202,149fbdc786364b4e56c1f654cd1867c5,,,19790101,1979,Idrettslaget,nob,,796.0,festschrift,Faglitteratur,digibok
72,100347417,URN:NBN:no-nb_digibok_2017092648188,Adèles hemmelighet,"Ståhl , Selma / Floer , Lisbeth",oai:nb.bibsys.no:998120023774702202,2acc47b1fba3236a986d0d63d5703e56,8204008015.0,[Oslo],19790101,1979,Fredhøi,nob / swe,,839.73,fiction,Skjønnlitteratur,digibok
84,100335108,URN:NBN:no-nb_digibok_2017052907045,Et liv i seier,An Unknown Christian / An Unknown Christian / ...,oai:nb.bibsys.no:999919860704802202,e188d0179ffe98dfe671a12040348ca9,8251003725.0,Stabekk,19770101,1977,Norsk litteraturselskap A/S,nob,,269.2092,tekst,Faglitteratur,digibok


#### Aviskorpus

In [26]:
dh.Corpus(doctype='digavis', from_timestamp=20060101, to_timestamp=20070101, limit=3)

Unnamed: 0,dhlabid,urn,title,authors,oaiid,sesamid,isbn10,city,timestamp,year,publisher,langs,subjects,ddc,genres,literaryform,doctype,ocr_creator,ocr_timestamp
0,200150878,URN:NBN:no-nb_digavis_auraavis_null_null_20060...,auraavis,,,,,Sunndal,20060720,2006,,,,,,,digavis,nb,20060101
1,203809615,URN:NBN:no-nb_digavis_samningen_null_null_2006...,samningen,,,,,,20060921,2006,,,,,,,digavis,nb,20060101
2,201741574,URN:NBN:no-nb_digavis_tonsbergsblad_null_null_...,tonsbergsblad,,,,,Tønsberg,20061207,2006,,,,,,,digavis,nb,20060101


### Legg korpuset i en variabel

Variabelen brukes til å referere til korpuset senere

In [27]:
korpus = dh.Corpus(ddk="9%", subject="reindrift", from_year=1960, to_year=2020, limit=5)
korpus

Unnamed: 0,dhlabid,urn,title,authors,oaiid,sesamid,isbn10,city,timestamp,year,publisher,langs,subjects,ddc,genres,literaryform,doctype,ocr_creator,ocr_timestamp
0,100394510,URN:NBN:no-nb_digibok_2019072907112,Levangerhistorier,"Brendalsmo , Jan / Stylegar , Frans-Arne",oai:nb.bibsys.no:991334499984702202,3ee1caf1854cece47e45e1fdb5de8652,,,20130101,2013,Novus,mul / nob / nno / swe,byer / byhistorie / markedsplasser / samer / g...,948.4213 / 948.4213 / 948.4213,biography,Faglitteratur,digibok,nb,20060101
1,100291537,URN:NBN:no-nb_digibok_2016042648022,"Forollhogna, Skarvan og Roltdalen","Nyaas , Arne / Sandvik , Jostein / Stabell , Erik",oai:nb.bibsys.no:990925872404702202,03c370cb82e94a2b65d928df4ae546e9,,,20090101,2009,Gyldendal,nob,Nasjonalparker / Forollhogna nasjonalpark / Sk...,914.81 / 948.24,,Uklassifisert,digibok,nb,20060101
2,100417939,URN:NBN:no-nb_digibok_2020040107019,Rondane : fjellfolk og villrein,"Jordhøy , Per",oai:nb.bibsys.no:991322662614702202,44acad31ad546e5bd297feab47a5852b,,,20130101,2013,Snøhetta forl.,nno,fjell / reindrift / reindriftslandskap / Norge...,599.65 / 948.25,,Faglitteratur,digibok,nb,20060101
3,100472261,URN:NBN:no-nb_digibok_2010032307035,"I villreinens rike : Setesdal Vesthei, Ryfylke...","Frøstrup , Johan Christian / Bang-Andersen , S...",oai:nb.bibsys.no:990001151004702202,d6e1d58a454d2c15b44d9a225d948c1d,8291495149.0,,19990101,1999,Friluftsforl.,nob,Rein / Jakt / Landskap / Lokalhistorie / Reind...,948.3 / 799.2765,,Faglitteratur,digibok,nb,20060101
4,100391168,URN:NBN:no-nb_digibok_2018090607007,"Iellemvuoge : boatsojæládus, varresvuohta ja d...","Andreassen , Lars Magne / Skarvik , Line Meret...",oai:nb.bibsys.no:991302805424702202,bca392a9fb639d273924d4aa7f622e82,,,20120101,2012,Árran julevsáme guovdásj,mul / nob / smj / swe,Reindrift / Forskning og etikk / Helse / Histo...,636.2 / 948,,Faglitteratur,digibok,nb,20060101


## 2. Bruk av `Corpus`

`Corpus` tilbyr en rekke metoder for å gjøre korpus lettere å jobbe med:

- **from_identifiers**: 
  - Konstruerer et Corpus fra en liste med identifikatorer.
  
- **from_df**: 
  - Typecaster en Pandas DataFrame til Corpus-klassen. DataFrame må inneholde en URN-kolonne.
  
- **from_csv**: 
  - Importerer et korpus fra csv.
  
- **extend_from_identifiers**: 
  - Utvide korpuset med en liste med identifikatorer.
  
- **evaluate_words**: 
    - Evaluerer en liste med ord mot korpuset.  

- **add**: 
  - Verktøy for å legge til et Corpus eller en DataFrame til det eksisterende korpuset.
  
- **sample**: 
  - Oppretter et tilfeldig subkorpus med et gitt antall.
  
- **conc**: 
  - Henter kollokasjoner av gitte ord i korpuset.
  
- **coll**: 
  - Henter kollokasjoner av gitte ord i korpuset.
  
- **freq**: 
  - Henter ordfrekvenser for korpuset.

### Ta vare på eller rediger korpuset i excel

In [28]:
# Korpus-variabel + .corpus + .to_csv(filnavn)
korpus.frame.to_csv('korpus.csv', index=None)

In [29]:
# Korpus-variabel + .corpus + .csv(filnavn)
korpus.frame.to_excel('korpus.xlsx', index=None)

Importer korpus fra excel-dokument

In [30]:
korpus = nb.restore_metadata_from_excel('korpus.xlsx')
korpus

Unnamed: 0,dhlabid,urn,title,authors,oaiid,sesamid,isbn10,city,timestamp,year,publisher,langs,subjects,ddc,genres,literaryform,doctype,ocr_creator,ocr_timestamp
0,100394510,URN:NBN:no-nb_digibok_2019072907112,Levangerhistorier,"Brendalsmo , Jan / Stylegar , Frans-Arne",oai:nb.bibsys.no:991334499984702202,3ee1caf1854cece47e45e1fdb5de8652,,,20130101,2013,Novus,mul / nob / nno / swe,byer / byhistorie / markedsplasser / samer / g...,948.4213 / 948.4213 / 948.4213,biography,Faglitteratur,digibok,nb,20060101
1,100291537,URN:NBN:no-nb_digibok_2016042648022,"Forollhogna, Skarvan og Roltdalen","Nyaas , Arne / Sandvik , Jostein / Stabell , Erik",oai:nb.bibsys.no:990925872404702202,03c370cb82e94a2b65d928df4ae546e9,,,20090101,2009,Gyldendal,nob,Nasjonalparker / Forollhogna nasjonalpark / Sk...,914.81 / 948.24,,Uklassifisert,digibok,nb,20060101
2,100417939,URN:NBN:no-nb_digibok_2020040107019,Rondane : fjellfolk og villrein,"Jordhøy , Per",oai:nb.bibsys.no:991322662614702202,44acad31ad546e5bd297feab47a5852b,,,20130101,2013,Snøhetta forl.,nno,fjell / reindrift / reindriftslandskap / Norge...,599.65 / 948.25,,Faglitteratur,digibok,nb,20060101
3,100472261,URN:NBN:no-nb_digibok_2010032307035,"I villreinens rike : Setesdal Vesthei, Ryfylke...","Frøstrup , Johan Christian / Bang-Andersen , S...",oai:nb.bibsys.no:990001151004702202,d6e1d58a454d2c15b44d9a225d948c1d,8291495000.0,,19990101,1999,Friluftsforl.,nob,Rein / Jakt / Landskap / Lokalhistorie / Reind...,948.3 / 799.2765,,Faglitteratur,digibok,nb,20060101
4,100391168,URN:NBN:no-nb_digibok_2018090607007,"Iellemvuoge : boatsojæládus, varresvuohta ja d...","Andreassen , Lars Magne / Skarvik , Line Meret...",oai:nb.bibsys.no:991302805424702202,bca392a9fb639d273924d4aa7f622e82,,,20120101,2012,Árran julevsáme guovdásj,mul / nob / smj / swe,Reindrift / Forskning og etikk / Helse / Histo...,636.2 / 948,,Faglitteratur,digibok,nb,20060101



### Bygg korpus fra boksøk på nb.no

Søk etter bøker på [nb.no](https://www.nb.no/search?q=), legg til *debugon* sammen med søkekriteriet. Kopier hele siden (ctrl-A) og lim inn resultatet mellom """ ... """ nedenfor. Kommandoen som brukes er `pure_urn(<tekst>)` som prøver å finne URN-er i alt mulig av tekst.

In [33]:
urns = nb.pure_urn("""

--- lim inn teksten her, så trekkes urn (bokas identifikator) ut i en liste:
Vigdis Hjorth : et forfatterportrett
Jenssen, Ruth | Biblioteksentralen
1994
(api)
id: 7f0b021f40bf6804bca32e5b79e8d66a
urn: URN:NBN:no-nb_digibok_2015090158054
isDigital: true
viewability: ALL
allowedFrom: NORWAY
contentClasses:
legaldeposit
bokhylla
jp2
Som om ingenting : bare om Vigdis Hjorth
Linneberg, Arild | Hjorth, Vigdis | Solstad, Dag
2009
(api)
id: 847bd73c3318f6874a66d0f969ba495a
urn: URN:NBN:no-nb_digibok_2011051820014
isDigital: true
viewability: ALL
allowedFrom: NB
contentClasses:
restricted
legaldeposit
jp2
Leve posthornet! : Vigdis Hjorth
Horn, Ellen | Riksteatret
2014
(api)
id: e6d86eeb4ac8509533d647c9793f01dc
urn: URN:NBN:no-nb_digibok_2014091948002
isDigital: true
viewability: ALL
allowedFrom: EVERYWHERE
contentClasses:
public
legaldeposit
jp2
Fryd og fare : essay om diktning og eksistens
Hjorth, Vigdis
2013
(api)
id: 5ecd6c199ff74aa7c57c2292b61df17d
urn: URN:NBN:no-nb_digibok_2018031548382
--- teksten er kuttet her
""")



In [None]:
# Legger til URN-prefix for hver URN
urns = ["URN:NBN:no-nb_digibok_" + x for x in urns]

In [38]:
c = dh.Corpus() # Tomt korpus objekt
c.extend_from_identifiers(identifiers=urns) # Legger til kodene vi hentet fra teksten over
c # Viser korpuset

Unnamed: 0,urn,dhlabid,title,authors,oaiid,sesamid,isbn10,city,timestamp,year,publisher,langs,subjects,ddc,genres,literaryform,doctype,ocr_creator,ocr_timestamp
0,URN:NBN:no-nb_digibok_2011051820014,100579548.0,Som om ingenting : bare om Vigdis Hjorth,"Linneberg , Arild / Hjorth , Vigdis / Solstad ...",oai:nb.bibsys.no:990925957234702202,847bd73c3318f6874a66d0f969ba495a,,[Oslo],20090101.0,2009.0,Cappelen Damm,nob,Norsk litteratur,839.828 / 839.828,festschrift,Faglitteratur,digibok,nb,20060101.0
1,URN:NBN:no-nb_digibok_2014091948002,100496097.0,Leve posthornet! : Vigdis Hjorth,"Horn , Ellen",oai:nb.bibsys.no:991429153194702202,e6d86eeb4ac8509533d647c9793f01dc,,[Oslo],20140101.0,2014.0,Riksteatret,nob,,,,Uklassifisert,digibok,nb,20060101.0
2,URN:NBN:no-nb_digibok_2015090158054,100267417.0,Vigdis Hjorth : et forfatterportrett,"Jenssen , Ruth",oai:nb.bibsys.no:999409908064702202,7f0b021f40bf6804bca32e5b79e8d66a,,[Oslo],19940101.0,1994.0,Biblioteksentralen,nob,,,,Uklassifisert,digibok,nb,20060101.0
3,URN:NBN:no-nb_digibok_2018031548382,100367884.0,Fryd og fare : essay om diktning og eksistens,"Hjorth , Vigdis",oai:nb.bibsys.no:991334240574702202,5ecd6c199ff74aa7c57c2292b61df17d,,[Oslo],20130101.0,2013.0,Cappelen Damm,nob,Historisk framstilling / Norsk litteratur / Li...,809 / 839.824 / 809 / 839.824,,Faglitteratur,digibok,nb,20060101.0


Tilbake til [DHLAB ved Nasjonalbiblioteket](https://nbviewer.jupyter.org/github/DH-LAB-NB/DHLAB/blob/master/DHLAB_ved_Nasjonalbiblioteket.ipynb)