# Søk i tidsskrift

In [1]:
import json
import sqlite3
import requests
import pandas as pd
import dask
import pandas as pd
import dhlab.module_update as mu
mu.update('mods_meta')
import mods_meta as mm
import dhlab.nbtext as nb
from dhlab.nbtokenizer import tokenize
import re
from IPython.display import Markdown

Updated file `C:\Users\larsj\Documents\GitHub\bokhylla_api_medietyper\mods_meta.py`

### fjern ellipser i pandarammer

In [2]:
pd.set_option('display.max_colwidth', None)

### Hjelpefunksjoner

In [3]:
def nb_search(
    term = '', 
    creator = None, 
    number = 50, 
    page = 0, 
    title = None,
    mediatype = None, 
    lang = None,
    period = None,
    random = False
):
    """Søk etter term og få ut json"""
    
    number = min(number, 50)
    
    filters = []
    aq = []
    

    params = {
        'page':page, 
        'size':number,
        'random': random
    }
    
    if lang != None:
        aq.append('languages:{lang}'.format(lang = lang ))
    
    if title != None:
        filters.append('title:{title}'.format(title = title))
        
    if creator != None:
        filters.append('creator:{c}'.format(c=creator))
    
    if mediatype != None:
        filters.append('mediatype:{mediatype}'.format(mediatype=mediatype))
    
    if period != None:
        filters.append('date:[{date_from} TO {date_to}]'.format(date_from = period[0], date_to = period[1]))
    
    if filters != []:
        params['filter'] = filters
    
    if aq != []:
        params['aq'] = aq
        
    if term != None:
        params['q'] = term
    
    r = requests.get("https://api.nb.no:443/catalog/v1/items", params = params)
    return r.json()

def find_urns_sesam(term = None, creator = None, number=50, page=0, lang = None, title = None, mediatype = None, 
                    period = None, random = False):
    """generates urls from super_search for pictures"""
    x = nb_search(
        term = term, creator = creator, title = title,
        number = number, page = page, mediatype=mediatype, period = period, 
        lang = lang,
        random = random
    )
    try:
        sesamid =[
            f['id']
            for f in x['_embedded']['items'] 
            if 'thumbnail_custom' in f['_links']
        ]
    except:
        sesamid = []
    return sesamid

def fetch_keys(m, path, delimiter = "/", res = [], start_list = '#'):
    """path /-delimited string, return res if fails, array indices indicaed with start_list"""
    
    # get the sequence of path elements
    path = path.split(delimiter)
    
    x = m
    try:
        for i in range(0, len(path)):
            if path[i].startswith(start_list):
                # then the item is an array selector
                index = int(path[i].split(start_list)[-1])
                x = x[index]
            else:
                x = x[path[i]]
    except KeyError:
        x = res
    return x
        
def find_item(data, item):
    res = []
    if isinstance(data, list):
        print('list', data)
        for subdata in data:
            res += find_item(subdata, item)
    elif isinstance(data, dict):
        for key in data:
            if item in data[key]:
                print('dictvalue',key, data[key])
                res.append(data[key][item])
            else:
                res += find_item(data[key], item)
    return res

def metadata(id):
    r = requests.get("https://api.nb.no:443/catalog/v1/items/" + str(id))

    d = r.json()
    res = {
        'title': fetch_keys(d, 'metadata/title'),
        'contr':[(fetch_keys(x, 'name'), fetch_keys(x, 'roles/#0/name')) for x in fetch_keys(d, 'metadata/people')],
        'pages': fetch_keys(d, 'metadata/physicalDescription/extent'),
        'urn': fetch_keys(d, 'metadata/identifiers/urn'),
        'year': fetch_keys(d, 'metadata/originInfo/issued'),
        'topics':fetch_keys(d, 'metadata/subject/topics'),
        'genres': fetch_keys(d, 'metadata/genres'),
        'target_group':fetch_keys(d, 'metadata/targetAudienceNotes')
                            
    }

    return res

def get_konks(urn, phrase, window=1000, n = 1000):
    import requests
    querystring = '"'+ phrase +'"' 
    query = {
        'q':querystring,
        'fragments': n,
        'fragSize':window
       
    }
    r = requests.get("https://api.nb.no/catalog/v1/items/{urn}/contentfragments".format(urn=urn), params = query)
    res = r.json()
    results = []
    try:
        for x in res['contentFragments']:
            pid = x['pageid']
            hit = x['text']
            splits = hit.split('<em>')
            s2 = splits[1].split('</em>')
            before = splits[0]
            word = s2[0]
            after = s2[1]
            results.append({'urn': urn, 'before': before, 'word':word, 'after':after})
    except:
        True
    return results

def get_konkordanser(word = '', urns = None):
    konks = []
    for u in urns:
        konks += get_konks(u, word, window = 1000, n = 1000 )
    return konks

# Søk i tidsskrift

In [4]:
rand = find_urns_sesam('homse',  number = 5, random=True, mediatype='tidsskrift', title='vinduet')
rand

['98e6739cae97dc19784ed262f55aa5c8',
 'd6945314edd0c70d403b20332d111019',
 '246f83510be1d73bcd7fec632819d621',
 '691e0ead6a19d2aac2fb37cab31afc51']

In [5]:
rand = find_urns_sesam('homse', mediatype = 'tidsskrift', number = 5, random=True)

In [6]:
pd.DataFrame(get_konkordanser('homse', urns = rand ))

Unnamed: 0,urn,before,word,after
0,59effa36040cbe1e96350e8f7b03b1de,sann idrett kan ha plass til konstruert. det sorn la-eves når en skal erkjenne at en er,homse,"eller lesbe, sier hun. - Jeg kan til en viss grad forstå at For selv om hun tror"
1,59effa36040cbe1e96350e8f7b03b1de,"forhold si for hvor mye det krever av den til svømmingen. - Jeg sov, gikk på enkelte unge",homse,"eller lesbe å skolen, gjorde lekser i et par timer erkjenne og godta at man forelsker og trente"
2,59effa36040cbe1e96350e8f7b03b1de,"det kunne jeg tenke avklart forhold til det at man er meg å gjøre en gang, forteller hun.",homse,eller lesbe. Da burde det Hun kan ikke huske at det var så ikke koste så mye å være
3,59effa36040cbe1e96350e8f7b03b1de,"har gått SidøFI Raballder-Håndball. -Janå er keme, med de nederlandske våre spillere som ikke har spilt",homse-,og lesbeparene. OslOS håndballfrelste v * er ’ s æ r t0 ’ men * ste<^et rullestolbrukeme
4,59effa36040cbe1e96350e8f7b03b1de,nasjonale mesteren fra Nederland vant. -1 herreklassen gikk seieren til en nederlender som ikke var,"homse,",forteller vår norske squashspiller i Amsterdam. Et utrolig entusiastisk publikum laget en kjempe- stemning inne
5,59effa36040cbe1e96350e8f7b03b1de,"fatt opp og programmet vil ha et fast panel av 6 ungdommer, hvorav ei lesbe og en",homse.,Hver tirsdag til samme tid i 15 uker. Tirsdag 1/9: Tirsdagskafé i LLH-Nordlands lokaler i Bodø
6,59effa36040cbe1e96350e8f7b03b1de,"Musikalen, som går på Gods- numre. Musikalen vil ha et stort Av ARNE WALDERHAUG er ikke",homse-,og lesbemiljøet som Premiere i Halden ‘ i r?:?:.'’’» :| | i i i x i :.'' .
7,d2b66d567220a2f4ba3fc9388fa0b7a5,Her er noe oppgjør med Maggie Thatce S YND som ligner på spanske folketo- °9 hennes,anti-homse-lov,"Ge- Heart (A I The Way , på mo derne hip- ° r 9 e og rapper Mc L Dog"
8,33e020795506a1a5138d2fe7645990ca,blitt mishandlet og drept i strøket. Den hverdagslige volden er overalt. Her om dagen ble en,homse,slått ihjel av en gjeng med baseballkøller. Han ble drept fordi han tilfeldigvis var soper. -
9,d8b84b5711986b749d2bfd1b3f13a5f9,"44 139 430 1591,37 80 188 212 2 746,13 28 93 615 1 700,90 Bilag nr. 3.",Homse»!,80 St. prp nr. 10. i904-i905 Ang. indkoinstskat til statskassen i budgetterminen fra Iste april


In [None]:
def coll