## Språkrådet mars 2019

#### Boot cell

Skip if `module_update.py` is in same folder as notebook, next cell downloads this file which in turn will download other files.

In [None]:
! curl -s "https://raw.githubusercontent.com/Yoonsen/Modules/master/module_update.py" > "module_update.py"

#### Get essentials

Import text and graph modules for analysis, and css for display

In [None]:
from module_update import update, css, code_toggle, printmd

In [None]:
css()

### Start med å importere modulene

In [None]:
update('graph_networkx_louvain', overwrite=True)
update('nbtext', overwrite=True)
import nbtext as nb
import graph_networkx_louvain as gnl
import networkx as nx
from graph_networkx_louvain import cutdown, make_collocation_graph
from collections import Counter
import matplotlib.pyplot as plt
import pandas as pd
% matplotlib inline

In [None]:
unigrams = lambda x, yearfrom=1960, yearto=1990, lang=None : pd.concat(list(map(lambda y: nb.frame(nb.unigram(y, period=(yearfrom, yearto), lang=lang), y), x)),axis='columns', sort=False)

# Korpus og konkordanser

In [None]:
korpus = nb.get_urn({'ddk':"839%", 'limit': 15})

In [None]:
korpus

In [None]:
nb.frame(korpus, ['urn', 'forf', 'tittel', 'år'])

Konkordanser

In [None]:
nb.get_urnkonk('kjærlighet', {'urns': korpus, 'before':12, 'after': 12})

## Åpent søk i hele materialet

In [None]:
nb.get_konk('proteinen', {'corpus':'bok', 'yearfrom':1950, 'limit':20})

In [None]:
nb.get_konk('proteinet', {'corpus':'bok', 'yearfrom':1950, 'limit':20})

# Aggregerte data, trendlinjer og ordmodeller fra ngram




N-gramtjenesten er tilgjengelig

In [None]:
pron = nb.nb_ngram("protein, proteinen, proteinet", years=(1950, 2020))

vi kan se litt på dataene (kan også overføres til excel)

In [None]:
pron.head(10)

dataene kan plottes, og figuren lagres

In [None]:
# plot
pron.plot(figsize=(10,5), lw = 3, title="Protein");

# lagring
plt.savefig('protein.jpg', dpi=300)

### Trendlinjer for dewey, menn og kvinner

Kommandoen er `unigram` og tar ett argument


In [None]:
nb.unigram('arbeid',period = (1930, 2014)).plot(figsize=(10,5), lw=4, title='Plot')

Dataene

In [None]:
nb.unigram('arbeid',period = (1930, 2014)).head(5)

Gi navn til tabellen - bruk `nb.frame(data, 'navn' )`

In [None]:
nb.frame(
    nb.unigram('arbeid', (1950, 2010)), 
    'arbeid'
).head(5)

In [None]:
uni0 = nb.frame(nb.unigram('arbeid', (1930, 2010), 'arbeid'))

In [None]:
uni0.head(3)

In [None]:
uni0.plot(figsize=(10,5), lw=5)

Relativiser på en eller annen måte: 

1. høyfrekvent token som punktum eller og
2. hent sum av total.

In [None]:
tot = nb.book_counts(period=(1930, 2010))
og = nb.unigram('og', period = (1930, 2010))

Så kan første datasett divideres på andre, først relativt til totalen:

In [None]:
(uni0/tot).plot(figsize=(10,5), lw=5)

så relativt til høyfrekvent

In [None]:
(uni0/og).plot(figsize=(10,5), lw=5)

Grunnen til at de er like er at kurven for *og* reflekterer antallet ord:

In [None]:
og.plot(figsize=(10,5), lw=5)

In [None]:
tot.plot(figsize=(10,5), lw=5)

Kombinere plot

In [None]:
uni_varianter = nb.word_paradigm('arbeid')
uni_varianter

Hver variant har en egen kolonne

In [None]:
varianter = unigrams( ['arbeid',
   'arbeida',
   'arbeidd',
   'arbeidde',
   'arbeide',
   'arbeider',
   'arbeides',
   'arbeidet'])

In [None]:
varianter.plot(figsize = (10, 5), lw=4, alpha = 0.9, title='Varianter av arbeid');

In [None]:
nb.unigram('Karasjok', lang='sme').plot(figsize=(10,5),lw=3)

### Ordmodeller

Enkeltord - kapitaliseringssensitiv

In [None]:
G = nb.make_graph('is', cutoff = 10)

In [None]:
gnl.show_graph(G, spread = 1.9)

In [None]:
gnl.show_communities(G)

## Kollokasjoner

Definer et korpus - hent data fra dewey for eksempel

In [None]:
korpus = nb.get_urn({'emne':'vinter', 'limit':100, 'year':1990, 'next':30})

In [None]:
coll = nb.urn_coll('snø', urns= korpus, before=4, after=4)

In [None]:
coll.sort_values(by=0, ascending=False).head(20)

Sammenling korpuset med en referanse, her tar vi hele bokhylla

In [None]:
totalen = nb.frame(nb.totals(30000))
totalen.head()



## Ordskyer

In [None]:
diff = (coll**1.01/totalen).sort_values(by=0, ascending = False)

In [None]:
nb.cloud(diff[:100])

# Dokument-term-matriser

### Analyse - viktigste ord

Bygg et korpus

In [None]:
URNer = nb.get_urn({'ddk':"641%", 'year':1960, 'next':60})

In [None]:
# hent term-matrisen med kommandoen nb.get_corpus_text( ... liste av urner ...)
dtm = nb.get_corpus_text([x[0] for x in URNer])

In [None]:
nb.heatmap(dtm.sort_values(by = dtm.columns[1], ascending = False)[:50])

## Bruk Corpus-klassen

### Eksempel 1

Bygg korpus med kommandoen `nb.Corpus(... metadata ...)`.

In [None]:
korpus = nb.Corpus(ddk='641%', period = (1990, 2010))

Det lages implisitt et referansekorpus fra samme periode som det sammenlignes med

In [None]:
korpus.difference(doc_exp = 1.1, freq_exp = 1.1)

Lag en ordsky:

In [None]:
nb.cloud(korpus.difference(doc_exp=1.1, freq_exp=1.1, aslist=False)[:100])

In [None]:
korpus1 = nb.Corpus(ddk='700%', period = (1990, 2010))

In [None]:
korpus1.difference(doc_exp = 1.1, freq_exp = 1.1)

In [None]:
nb.cloud(korpus1.difference(doc_exp=1.1, freq_exp=1.1, aslist=False)[:100])

### Eksempel 2

In [None]:
korpus2 = nb.Corpus(ddk='230%', period = (1990, 2010))

In [None]:
korpus2.difference(doc_exp = 1.1, freq_exp = 1.1)

In [None]:
nb.cloud(korpus2.difference(doc_exp=1.1, freq_exp=1.1, aslist=False)[:100])

In [None]:
korpus3 = nb.Corpus(ddk='004%', period = (1990, 2010))

In [None]:
nb.cloud(korpus3.difference(doc_exp=1.1, freq_exp=1.1, aslist=False)[:100])