# En notebook for å lage clustre fra kollokasjoner

Ord danner clustre via en kollokasjonsanalyse. Her litt engelsk forklaring:

The term collocation has traditionally been restricted to words that are juxtaposed together as phrases like “strong coffee”, “strict regime” or “eat dinner”. Here we take collocations to be realized as skipgrams, or as word pairs that simply cooccur within a context which in itself is a contiguous sequence of words, typically a paragraph or a window of n words around a given word. Juxtaposed collocates will also be part of the result set. 

The collocates for a word are those words that are associated with it based on a particular measure of association. Collocations can be viewed as discourse markers for a given word, in the sense that the collocates are deemed to have a special meaning when uttered (written or spoken) together with it, so that the word with its collocates constitute a complex sign. 



Start med å importere de kommandoene som trengs fra nbtext og graph_networkx_louvain. Den siste har funksjonalitet for å lage grafer fra clustre.

In [None]:
from module_update import update

In [None]:
update('graph_networkx_louvain')

In [None]:
import nbtext as nb
from nbtext import cloud, get_urn, Cluster, Corpus
import networkx as nx
import graph_networkx_louvain as gnl
%matplotlib inline

In [None]:
import imp
imp.reload(gnl)

In [None]:
cutdown = lambda x: x.subgraph([n[0] for n in x.degree() if n[1]>1])

### Definer et cluster for et ord over en gitt periode fra bøker eller aviser

In [None]:
mcluster = Cluster(
    'Jesus', 
    period=(1970, 1980), 
    before=5, 
    after=5, 
    corpus='bok',
    reference=150, 
    word_samples=500)

# Inspiser clustre

Hvilke ord er knyttet til clustringsordet, er det variasjon i kontekst, trengs det mer data. Er resultatet tolkbart?

In [None]:
mcluster.cluster_set(top=50, exponent=1.01, aslist=False)

In [None]:
mcluster.search_words('Herre Kristus Pilatus bønn katekisme . , ; : og i på',exponent=1.01)

# Tegn en ordsky


kommandoen for å tegne en ordsky er *cloud()*. Argumentet kan være mange ting, så lenge det kobler et ord til et tall. Datarammer som består av en kolonne fungerer fint.

In [None]:
nb.cloud(mcluster.cluster_set(aslist=False)[:150], background='black')

In [None]:
korpus = nb.get_urn({'ddk':'230%'})

# Kollokasjonsgraf

Kollokasjoner på kollokasjoner. Kan vi få mer informasjon ut av grafene med det?

In [None]:
jesus = gnl.make_collocation_graph('Jesus', urns=korpus, cutoff=30, top=30)

In [None]:
gnl.show_cliques(jesus)

In [None]:
gnl.show_community(jesus)

In [None]:
gnl.show_graph(jesus, deltax=0, deltay=0, spread=0.09)

## Ta en titt på delgraf fra en node

For å få ut delgrafen bruker vi noen kommandoer fra networkx. `G.edges(node)` og `nx.Graph(list of nodes)`. De bygges sammen og gis til `show_graph()`.

In [None]:
jesus.edges('Jesus')

In [None]:
gnl.show_graph(nx.Graph(jesus.edges('Pilatus')), deltax=0, deltay=0, spread=0.09)

## Analyserer egenskaper ved grafene

Sentralitetsbegreper for å hente ut ordlister

In [None]:
nb.central_betweenness_characters(jesus)

In [None]:
nb.central_characters(jesus)

## En forenkling av grafen

Begrens grafen ved å ta bort løvnoder. Noder som bare knytter seg til en eneste annen node.

In [None]:
sub = jesus.subgraph([n[0] for n in jesus.degree() if n[1]>1])

## ... og analyserer den

In [None]:
gnl.show_cliques(sub)

In [None]:
gnl.show_community(sub)

In [None]:
gnl.show_graph(sub)

## Repeter øvelsen

Nå med ordet 'kvinner' i religiøse tekster

In [None]:
kvinne = gnl.make_collocation_graph('kvinner', urns=korpus, top=30, cutoff=30)

In [None]:
kvinnec = cutdown(kvinne)

In [None]:
gnl.show_cliques(kvinnec)

In [None]:
gnl.show_cliques(kvinne)

In [None]:
gnl.show_community(kvinnec)

In [None]:
gnl.show_community(kvinne)

In [None]:
gnl.show_graph(kvinnec)

In [None]:
nb.central_betweenness_characters(kvinnec,n=20)

In [None]:
nb.central_betweenness_characters(kvinne,n=20)