## Oppstart

In [15]:
import warnings
warnings.filterwarnings('ignore')

In [16]:
import dhlab.nbtext as nb
import dhlab.token_map as tm
from dhlab.nbtext import get_urn, make_graph, get_urn, relaterte_ord, navn, totals
import dhlab.graph_networkx_louvain as gnl
import pandas as pd
import networkx as nx

%matplotlib inline

plot = lambda x,  lw=3, alpha= 0.7: x.plot(figsize=(15,6), lw=lw, alpha=alpha)


In [17]:
from dhlab.module_update import update, css
css()

# Hjelpekommandoer

I den her notebooken er det satt opp kode for å telle opp navn i et korpus. Både listen med navn og korpuset må foreligge som excelfiler. Noen av kommandoene vil bli lagt til `token_map`-modulen 

* `tell_navn` teller opp navnene på tvers av korpuset 
* `korpus_oppføring` finner data i korpuset
* `vis_bok` viser navn i en spesifikk bok (benytter oppførings-kommandoen)
* `aggregate_pr_col` aggregerer navnedata over kolonner.

In [18]:
import pandas as pd
from nbtext import metadata

def alle_korpusnavn(korpus):
    urner = nb.pure_urn(korpus)
    alle_navn = tm.combine_names(tm.corpus_names(urner))
    return alle_navn

def tell_navn(korpus, token_map):
    res = dict()
    for urn in nb.pure_urn(korpus['urn']):
        try:
            res[urn] = tm.count_name_strings(str(urn), token_map)
            res[urn].columns = [str(urn)]
        except:
            print("Problemer med å telle fra: ", urn)
    return pd.concat([res[u] for u in res], axis=1)

def korpus_oppføring(df, text, column='tittel'):
    return nb.pure_urn(df[df[column].str.contains(text)]['urn'])

def add_metadata(korpus, how='inner'):
    f = nb.frame([(z[0], '_'.join([str(x) for x in z[2:4]])) for z in nb.metadata(korpus['urn'])], 'urn metadata'.split())
    f = f.astype({'urn':'str'})
    return korpus.merge(f, on = 'urn', how = how)
    
vis_bok = lambda x, column = 'tittel': nb.frame_sort(nb.frame(opptelling[korpus_oppføring(korpus, x, column)[0]].dropna(), nb.metadata(korpus_oppføring(korpus, x, column)[0])[0][3]))

    

def bygg_allgraf(korpus):
    graphs = dict()
    for u in korpus.urn:
        graphs[u] = tm.character_network(u, redigerte_navn)
    df_graphs = [nx.to_pandas_adjacency(graphs[x]) for x in graphs]
    g = df_graphs[0]
    for z in df_graphs[1:]:
        g = g.add(z, fill_value=0).fillna(0)

    total_graph = nx.from_pandas_adjacency(g)
    return total_graph

## Navn i bøker


Vi søker etter navn i en bok, og en serie av bøker.

Kommandoene er:
1. `names` henter et sett med forslag til navn, fra nbtext
1. `show_names` gir en oversikt over funnene, fra token_map
1. `names_to_token_map_file` lagrer navneforslagene til en excelfil (eller csv) for redigering (token_map)
1. `read_token_map_file` henter redigert fil tilbake for analyse (token_map)
1. `character_network` lager graf for navnene (token_map)
1. `show_graph`  tegner grafen (fra graph_networkx_louvain)
1. `show_communities` viser clustre i grafen (graph_networkx_louvain)


In [19]:
korpus = nb.restore_metadata_from_excel('Fiksjon_Hamsunkorpus-kronologisk.xls')
korpus

Unnamed: 0,urn,forf,år,tittel,undertittel,forlag,sjanger,sesamid,Unnamed: 8,Unnamed: 9
0,2008112113001,"Hamsun, Knut",1877,Den Gaadefulde,en Kjærlighedshistorie fra Nordland,Urdal,unknown,05b5fb8e2ffab70be305373f9857ee85,,
1,2009061013011,"Hamsun, Knut",1878,Bjørger,fortælling,[K. Hamsund];Alb.Fr. Knudsen,unknown,709614fcb48740925154af4130d7a26c,,
2,2009061013012,"Hamsun, Knut",1878,Et gjensyn,,[s.n.];Alb. Fr. Knudsen,unknown,233ad96c3f3bedf1739ceb29a81534d4,,
3,2015051929001,"Hamsun, Knut",1890,Sult,,Philipsen,novel,b4a0a4c7765fa29eb4a1ba910405806e,,
4,2008123012002,"Hamsun, Knut",1892,Mysterier,Roman,Philipsen,unknown,9f41e621267dd5475db9b7e45cd00367,,
5,2008123012003,"Hamsun, Knut",1893,Redaktør Lynge,Roman,Philipsen,fiction,e09ea1ee062affda9ab9fdfde810517c,,
6,2008123010002,"Hamsun, Knut",1893,Ny Jord,Roman,Philipsen,unknown,aca8b7840508f729920970a51fea6c05,,
7,2008082710002,"Hamsun, Knut",1894,Pan,af Løjtnant Thomas Glahns Papirer,Philipsen,unknown,8dab706553bacde19fa1a30c06896464,,
8,2008123010003,"Hamsun, Knut",1895,Ved Rigets Port,Forspil,Philipsen,unknown,c8af50e6f92caeaa7742b651358e2b14,,
9,2009010210001,"Hamsun, Knut",1896,Livets Spil,,Det Nordiske Forlag,unknown,8637d081c40a6df2c59789f422b08c11,,


## Konkordanssøk

 

In [20]:
nb.urn_concordance(word = 'gammel', urns = korpus) 

0,1,2,3
"Gaadefulde, Hamsun, Knut, 1877",^ Ronnaug blot 15 Aar,gammel,. Ja Du kan tro
"Gaadefulde, Hamsun, Knut, 1877",sagt var blot 15 Aar,gammel,saa var der dog en
"Gaadefulde, Hamsun, Knut, 1877",. Han var ifort en,gammel,Bukse og en do .
"Bjørger, Hamsun, Knut, 1878",maatte gjøre rede for hvor,gammel,han var og fuldt navn
"Bjørger, Hamsun, Knut, 1878",", og prat med en",gammel,"kjending . """
"Bjørger, Hamsun, Knut, 1878",; det maatte være af,gammel,vane . En hob drog
"Bjørger, Hamsun, Knut, 1878",om f . eks. hvor,gammel,den og den var i
"Sult, Hamsun, Knut, 1890","op , begyndte jeg af",gammel,"Vane at tænke efter ,"
"Sult, Hamsun, Knut, 1890",havde jeg stadig havt en,gammel,", halt Mand foran mig"
"Sult, Hamsun, Knut, 1890",det med at huske en,gammel,"Gæld , han stod foran"


### Hent redigert fil

Husk at verdien på orient må være lik mellom lagring og lesing av excelfil. Typisk for den her type redigering er radorientering. Excel har en begrensning på 256 kolonner, som blir for smått for de fleste anvendelser. Det er tilnærmet ubegrenset kapasitet på antall rader.

In [21]:
redigerte_navn = tm.read_token_map_file('samledestedsnavn_Hamsunkorpus.xls', orient = "row")

## Tell opp navn med hensyn til det som står i `redigerte_navn`

Bruker hjelpekommando `tell_navn`. Det kan ta litt tid å telle opp, et par minutter.

In [22]:
opptelling = tell_navn(korpus, redigerte_navn)

Sånn ser opptellingen ut, en kolonne pr. bok. 

In [23]:
opptelling.head()

Unnamed: 0,2008112113001,2009061013011,2009061013012,2015051929001,2008123012002,2008123012003,2008123010002,2008082710002,2008123010003,2009010210001,...,2009051413002,2014021807090,2014120206051,2008091603021,2008091603020,2009061010002,2009061013010,2014080408001,2012041208040,2008042201022
Aabakken,20.0,,,,,,,,,,...,,,,,,,,,,
Aas,6.0,,,,,,,,,,...,,,,,,,,,,
Afrika,,,,,1.0,,,1.0,,,...,,,,,,1.0,1.0,6.0,2.0,
Amerika,,,,,2.0,9.0,5.0,,,,...,,2.0,49.0,69.0,47.0,1.0,,3.0,10.0,7.0
Ananur,,,,,,,,,,,...,,,,,,,,,,


Opptelling totalt for korpuset, summering over alle bøkene.

In [24]:
nb.frame_sort(nb.frame(opptelling.sum(axis=1)))

Unnamed: 0,0
Byen,1419.0
Verden,908.0
Jorden,600.0
Skogen,564.0
Gaarden,553.0
Polden,523.0
Gaden,443.0
Segelfoss,418.0
Marken,387.0
Amerika,270.0


In [25]:
steder = nb.frame_sort(nb.frame(opptelling.sum(axis=1)))
steder.to_dict()[0]

{'Aabakken': 20.0,
 'Aas': 10.0,
 'Afrika': 16.0,
 'Amerika': 270.0,
 'Ananur': 7.0,
 'Argentina': 19.0,
 'Armenia': 7.0,
 'Asien': 2.0,
 'Atlanterhavet': 7.0,
 'Aurdal': 1.0,
 'Australien': 26.0,
 'Baku': 34.0,
 'Batum': 5.0,
 'Belgien': 1.0,
 'Bergen': 126.0,
 'Berlin': 18.0,
 'Bjærget': 38.0,
 'Bodø': 39.0,
 'Bokhara': 15.0,
 'Bolivia': 9.0,
 'Boston': 1.0,
 'Breidablik': 48.0,
 'Brevik': 1.0,
 'Bryne': 2.0,
 'Byen': 1419.0,
 'California': 1.0,
 'Chicago': 8.0,
 'Christiania': 155.0,
 'Cordilleras': 4.0,
 'Dakota': 3.0,
 'Danmark': 5.0,
 'Doppen': 209.0,
 'Drammen': 10.0,
 'Egypten': 3.0,
 'Elverum': 2.0,
 'England': 97.0,
 'Equador': 1.0,
 'Europa': 40.0,
 'Finland': 35.0,
 'Finmarken': 31.0,
 'Florø': 4.0,
 'Fosenlandet': 38.0,
 'Frankrike': 20.0,
 'Fuglværø': 14.0,
 'Gaarden': 553.0,
 'Gaden': 443.0,
 'Ganges': 2.0,
 'Garmo': 1.0,
 'Gaustad': 3.0,
 'Gjøvik': 1.0,
 'Grand_Hotel': 67.0,
 'Grekenland': 13.0,
 'Grimstad': 14.0,
 'Grønland': 2.0,
 'Gudbrandsdalen': 3.0,
 'Guinea': 3.0

## Kommando `vis_bok`

Bruk kommandoen å finne data om en bok. Skriv en tittelen, eller deler av den. 

In [26]:
vis_bok('Ringen')

Unnamed: 0,Ringen sluttet
Byen,47.0
Verden,21.0
Gaden,13.0
Natal,13.0
Kentucky,10.0
Afrika,6.0
Jorden,6.0
Kanada,5.0
Gaarden,4.0
Amerika,3.0


# Lag en graf for en enkelt bok

Grafene kan legges sammen i etterkant om det ønskes en graf for hele korpuset.

In [27]:
# fyll inn et navn fra ovenstående. Flere grafer kan slås sammen i ettertid. Bare lag så mange du orker 

G = tm.character_network(korpus_oppføring(korpus, 'Benoni'), redigerte_navn)
gnl.show_graph(G)

JSONDecodeError: Expecting value: line 1 column 1 (char 0)

# Bygger grafer for alle bøkene

Benytt hjelpekommandoen `bygg_allgraf` for å samle grafene i en stor total graf.

In [None]:
korpusgraf = bygg_allgraf(korpus)

Visualiser og analyser på vanlig måte.

In [None]:
gnl.show_graph(korpusgraf, spread=2.3)

Forslag til clustre basert på grafen. Clusteralgoritmen for Louvain kan synes å være litt random, så resultatene kan varierere mellom kjøringer. Men det ser skapelig ut, og gir mening.

In [None]:
gnl.show_communities(korpusgraf)