# En notebook for å lage clustre fra kollokasjoner

Ord danner clustre via en kollokasjonsanalyse. Her litt engelsk forklaring:

The term collocation has traditionally been restricted to words that are juxtaposed together as phrases like “strong coffee”, “strict regime” or “eat dinner”. Here we take collocations to be realized as skipgrams, or as word pairs that simply cooccur within a context which in itself is a contiguous sequence of words, typically a paragraph or a window of n words around a given word. Juxtaposed collocates will also be part of the result set. 

The collocates for a word are those words that are associated with it based on a particular measure of association. Collocations can be viewed as discourse markers for a given word, in the sense that the collocates are deemed to have a special meaning when uttered (written or spoken) together with it, so that the word with its collocates constitute a complex sign. 



Start med å importere de kommandoene som trengs fra nbtext og graph_networkx_louvain. Den siste har funksjonalitet for å lage grafer fra clustre.

In [None]:
from module_update import update

In [None]:
update('graph_networkx_louvain')

In [None]:
import nbtext as nb
from nbtext import cloud, get_urn, Cluster, Corpus
import graph_networkx_louvain as gnl
%matplotlib inline

In [None]:
import imp
imp.reload(gnl)

### Definer et cluster for et ord over en gitt periode fra bøker eller aviser

In [None]:
mcluster = Cluster(
    'rifle', 
    period=(1970, 1980), 
    before=5, 
    after=5, 
    corpus='bok',
    reference=150, 
    word_samples=500)

# Inspiser clustre

Hvilke ord er knyttet til clustringsordet, er det variasjon i kontekst, trengs det mer data. Er resultatet tolkbart?

In [None]:
mcluster.cluster_set(top=50, exponent=1.001, aslist=False)

In [None]:
mcluster.search_words('Herre Kristus Pilatus bønn katekisme . , ; : og i på',exponent=1.01)

# Tegn en ordsky


kommandoen for å tegne en ordsky er *cloud()*. Argumentet kan være mange ting, så lenge det kobler et ord til et tall. Datarammer som består av en kolonne fungerer fint.

In [None]:
nb.cloud(mcluster.cluster_set(aslist=False)[:150], background='black')

### Informasjon om Dewey-systemet
Sjekk ut [Webdewey](http://deweysearchno.pansoft.de/webdeweysearch/index.html), for å se klassifikasjonssystemet.

*cutdown()* brukes for å begrense grafer.

In [None]:
cutdown = lambda x: x.subgraph([n[0] for n in x.degree() if n[1]>1])

In [None]:
korpus = nb.get_urn({'ddk':'799%', 'limit':30})

In [None]:
korpus

## Lag et nettverk basert på kaskade av kollokasjoner

Vi starter med et ord, og finner alle kollokasjonene for det. For hvert ord i blandt de beste kollokasjonsordene, lages en ny kollokasjon basert på samme korpus.

Kommandoen `make_collocation()` tar parametret `urns`, som typisk vil være resultatet av en `get_urn()`, der `cutoff`sier hvor høy frekvens ord i korpuset skal ha for å telle med, noe som gjør at en unngår spesielle ord (OCR-feil og annet). Parametret `top` forteller hvor mange ord fra hver kollokasjon som skal være med.

In [None]:
data = gnl.make_collocation_graph('rifle', urns=korpus, cutoff=30, top=30)

In [None]:
data_cut = cutdown(data)

## Graf uten løvnoder (bruk cutdown)

Grafen tegnes med en fargelegging av nodene. Noder med samme farge tilhører samme louvain-cluster. Ellers vil grupperingen passe til klikk-strukturen.

In [None]:
gnl.show_graph(data_cut)

In [None]:
gnl.show_cliques(data)

In [None]:
gnl.show_community(data_cut)

In [None]:
gnl.show_community(data)

## Grafen uten kutt - alle løvnodene er med

In [None]:
gnl.show_graph(data, deltax=0, deltay=0, spread=0.09)

In [None]:
nb.central_betweenness_characters(data_cut, n=20)

In [None]:
nb.central_characters(data_cut, n=50)

In [None]:
nb.cloud(nb.frame(dict(nb.central_betweenness_characters(data_cut, n=50)),'f'))