## Preamble

Run these if notebook is in a new environment, otherwise just skip to `Import modules`

#### Boot cell

Skip if `module_update.py` is in same folder as notebook, next cell downloads this file which in turn will download other files.

In [1]:
!curl -s "https://raw.githubusercontent.com/Yoonsen/Modules/master/module_update.py" > "module_update.py"

#### Get essentials

Import text and graph modules for analysis, and css for display

In [2]:
from module_update import update, css

In [3]:
css()

# Import modules

Aktiver cellen nedenfor for å få alt til å virke.

In [4]:
update('nbtext', overwrite=True)
import nbtext as nb
from IPython.display import HTML
import requests
from bs4 import BeautifulSoup


def mods_digibok(urn, kind='marcxml'):
    """find information about serial number urn (or full urn) for books using NB API. 
    Parameter 'kind' is one of mods, marcxml or dublincore """
    
    if not str(urn).startswith('URN'):
        urnstr = "URN:NBN:no-nb_digibok_{urn}".format(urn=urn)
    r = requests.get("https://api.nb.no:443/catalog/v1/metadata/{ident}/{kind}".format(ident=urnstr, kind=kind))
    return r.text

def translator(urn):
    """Finds the translator for a book"""
    item = BeautifulSoup(mods_digibok(urn, kind='mods'), 'lxml')
    trans = []
    navn = item.find_all('name', {'type':'personal'})
    for i in navn:

        try:
            if i.roleterm.text == 'trl':
                trans.append(i.namepart.text)
        except:
            'nn'
    return ';'.join(trans)
    

Updated file `C:\Users\larsj\Documents\GitHub\Oversettelse\nbtext.py`

## Build corpus

A corpus definition is a set of URNs. Those can be obtained in various ways and stored as text or in MS-Word file.


### Define using metadata 

Using author name, titles, year, dewey, subject and gender. Check out [Webdewey](http://deweysearchno.pansoft.de/webdeweysearch/index.html) for more descriptions.

In [5]:
korpus = nb.get_urn({
                     'year':1950, 
                     'next':5,
                     'trans':'eng',
                     'limit':3000})
len(korpus)

1199

# Hent oversetterne

Her defineres korpuset som en liste over bøker, med informasjon om oversettere. Er korpuset stort (flere hundre) vil det ta noen minutter å hente alle oversetterne, så det kan være lurt å kutte ned størrelsen litt. Inntil vi får på plass en rask måte å gjøre det på, får det her duge. Det er bare å smøre seg med tålmodighet.

In [6]:
rammen = nb.frame(nb.metadata(korpus), ['urn', 'forfatter','år','tittel','språk','forlag', 'original' ]).sort_values(by='tittel')
rammen = rammen.set_index('urn')
rammen.index = rammen.index.astype(str)

print('Korpus er definert, henter oversettere. Det kan ta litt tid, noen minutter pr. hundre bøker.')
print('Når prosessen er ferdig ser du de første linjene med informasjon om korpuset.')

# hent oversetterne fra NBs API

trans = {str(urn): translator(str(urn)) for urn in rammen.index} 
trans = nb.frame(trans, ['oversetter'])

print('Oversettere klar - henter bokstørrelser')

book_counts = nb.frame(nb.book_count([x[0] for x in korpus]), ['antall_ord'])
book_counts.index = book_counts.index.astype(str)
book_counts.antall_ord = book_counts.antall_ord.astype(int)

print('Telling ferdig')

# sammenslåing

rammen = rammen.join(trans)
rammen = rammen.join(book_counts)
rammen = rammen[['forfatter', 'oversetter', 'år', 'tittel', 'antall_ord', 'original']]
rammen.head()

Korpus er definert, henter oversettere. Det kan ta litt tid, noen minutter pr. hundre bøker.
Når prosessen er ferdig ser du de første linjene med informasjon om korpuset.


KeyboardInterrupt: 

## Se på hele korpuset under ett som HTML

Oversetterne ligger i en egen kolonne `oversetter`. Fyll in feltet bak `by` med et kolonnenavn for å sortere på verdiene i den kolonnen.

In [39]:
HTML(rammen.sort_values(by = 'forfatter').to_html())

Unnamed: 0_level_0,forfatter,oversetter,år,tittel,antall_ord,original
urn,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2011031720018,,,1950,"""Gud er sanndru""",106232.0,eng
2008042800003,,,1950,Verdenserklæringen om menneskerettigheter,10158.0,eng
2011062923008,,,1950,Robin Hood,66450.0,eng
2007012601050,,"Frende, Liv Nøvik",1950,Mormons bok,399614.0,eng
2014121608148,,"Buraas, Anders",1952,ILO's vei til varig fred,33919.0,eng
2007021301096,,"Width, Trygve;Solheim, John",1950,Guden som sviktet,115705.0,eng
2011110708036,,"Prøysen, Alf",1951,De tre bjørnene,811.0,eng
2014060528002,,,1951,Alle barns rim og regler,5899.0,eng
2012020108013,,"Anda, Torleiv;Larsen, Asbjørn",1952,Økonomiske og sosiale utvikling verden over 19...,61623.0,eng
2011022312006,,,1950,Alle barns eventyr,16015.0,eng


## Search corpus for concordances

In [41]:
from random import sample

In [42]:
nb.get_urnkonk('gråtende', {'urns':sample(korpus, 50)})

0,1,2,3
"Høyt spill, Bourne, Peter, 1952",hadde aldri snakket med en,gråtende,kvinne siden han ble voksen
"tapte illusjon, Utley, Freda, 1950",min amerikanske venninne Milly Mitchell,gråtende,på sitt hotellværelse . Det
"Sorrell og sønn, Deeping, Warwick, 1950",Somme tider fant Sorrell ham,gråtende,.
"Sorrell og sønn, Deeping, Warwick, 1950",én gang fant Sorrell ham,gråtende,oppe på gangen i en
"Vår kjæreste Emma, Prole, Lozania, 1950",vært ulydig . Hun løp,gråtende,ut av rommet og håpet
"Vår kjæreste Emma, Prole, Lozania, 1950",for å hilse på den,gråtende,dronningen . Han kysset henne
"Vår kjæreste Emma, Prole, Lozania, 1950","så meget , sa hun",gråtende,", og før lord Nelson"
"blanke klinge, Schoonover, Lawrence, 1951",presset dyrene ut gjennom den,gråtende,og urolige menneskemassen .
"blanke klinge, Schoonover, Lawrence, 1951",", knelte ned og ba",gråtende,ved siden av henne .
"Opp fra avgrunnen, Hall, Clarence W., 1950","av kullrøyk , støv ,",gråtende,"barn , lite velsmakende mat"
