# Fetch concordances and analyze them

### Initial code

In [18]:
import json
import pandas as pd
import requests
import spacy

def search_nb(word = 'demokrati', window=20, limit = 300):
    parameters = {
        'query': word,
        'window':window,
        'limit':limit
    }
    r = requests.get("https://api.nb.no/ngram/db1/konk", params = parameters)
    return pd.DataFrame(json.loads(r.text), columns = 'doc-id concordance'.split())

In [22]:
pd.set_option('max_colwidth', None)

# Concordances

A random collection of newspapers, periodicals and/or books are created on each query

In [36]:
df = search_nb("NEAR (eller og, 5)", limit = 2000)
df.style

Unnamed: 0,doc-id,concordance
0,100260049,"... I 1980 utgjorde derfor nasjonale og europeiske organisasjoner eller føderasjoner innenfor landbruk , næringsliv , handel og finans den største andelen . Omkring..."
1,100260049,"... sektorer , enkeltfirmaer og profesjonelle lobbyister ( inkludert regnskapsf irmaer og juridiske rådgivere ) eller representanter for selskaper , land , fylker og byer . Organisasjo-"
2,100260049,"... regler som styrer interesseartikulasjon ( den korporativ tradisjon ) , eller samspillet mellom parlamentarisk og korporativ innflytelse ( korporativ pluralisme ) ( Rokkan 1966 , Dahl 1967..."
3,100260049,... Tilgang for lobbyister i slike tilfeller er avhengig av spesielle politiske og / eller personlige kontakter på høyt nivå . Generelt er...
4,100260049,"Flere viktige politikkområder går på tvers av økonomiske sektorer , for eksempel forbruker- og miljøbeskyttelse eller sikkerhet i arbeidslivet . Disse politikkområdene..."
5,100240008,Blant de økonomiske faktorene kan det skilles mellom generelle markedsmessige faktorer på den ene siden og bruks- eller distriktsspesif ikke...
6,100240008,... Dette har i tillegg skjedd etter et relativt fast mønster og vært knyttet til de rettigheter eller den rangordning som...
7,100240008,... Brukerne som har de minste ekspansjonsmulighetene og / eller de høyest kostnader er mest utsatt . For disse vil inntektssvikten ofte føre...
8,100240008,"... sammen med andre i felles aktiviteter hemmes , eller fordi inntektsgapet mellom landbruket og andre næringer ikke gir rom for det..."
9,100240008,... I tillegg til de sykliske prosessene vil vi ha kumulative prosesser og prosesser som går rykkvis eller uten å følge...


# Parse using Spacy

### Imports and a definiton of `parse`

In [24]:
import spacy

nlp = spacy.load("nb_core_news_sm")

In [27]:
def parse(string):
    cols = "token.text, token.lemma_, token.pos_, token.tag_, token.dep_, token.shape_, token.is_alpha, token.is_stop".split(', ')
    doc = nlp(string)
    rows = [(token.text, token.lemma_, token.pos_, token.tag_, token.dep_,
            token.shape_, token.is_alpha, token.is_stop) for token in doc]
    return pd.DataFrame(rows, columns = cols), doc

## Collect all the concordances 

These are all contained in the variable `df`

The function parse returns the parse as a data frame or as a spacy doc

In [29]:
res = pd.concat([parse(s)[0] for s in df['concordance']])

In [30]:
res

Unnamed: 0,token.text,token.lemma_,token.pos_,token.tag_,token.dep_,token.shape_,token.is_alpha,token.is_stop
0,...,...,PUNCT,PUNCT,ROOT,...,False,False
1,Per,Per,PROPN,PROPN,nsubj,Xxx,True,False
2,ville,ville,AUX,AUX,aux,xxxx,True,True
3,helst,helst,ADV,ADV,advmod,xxxx,True,False
4,glemme,glemme,VERB,VERB,ROOT,xxxx,True,False
...,...,...,...,...,...,...,...,...
3,b,b,ADP,ADP,case,x,True,False
4,>,>,ADJ,ADJ,dep,>,False,False
5,løp,løpe,VERB,VERB,ROOT,xxx,True,False
6,hjem</b,hjem</b,ADJ,ADJ,punct,xxxx</x,False,False


# Se på et tre

In [33]:
from spacy import displacy

In [31]:
docs = [parse(s)[1] for s in df['concordance']]

In [35]:
displacy.render(docs[0])