## Oppstart

In [1]:
import warnings
warnings.filterwarnings('ignore')

In [2]:
import dhlab.nbtext as nb
import dhlab.token_map as tm
from dhlab.nbtext import get_urn, make_graph, get_urn, relaterte_ord, navn, totals
import dhlab.graph_networkx_louvain as gnl
import pandas as pd
import networkx as nx

%matplotlib inline

plot = lambda x,  lw=3, alpha= 0.7: x.plot(figsize=(15,6), lw=lw, alpha=alpha)


In [3]:
from dhlab.module_update import update, css
css()

# Hjelpekommandoer

I den her notebooken er det satt opp kode for å telle opp navn i et korpus. Både listen med navn og korpuset må foreligge som excelfiler. Noen av kommandoene vil bli lagt til `token_map`-modulen 

* `tell_navn` teller opp navnene på tvers av korpuset 
* `korpus_oppføring` finner data i korpuset
* `vis_bok` viser navn i en spesifikk bok (benytter oppførings-kommandoen)
* `aggregate_pr_col` aggregerer navnedata over kolonner.

In [4]:
import pandas as pd
from nbtext import metadata

def alle_korpusnavn(korpus):
    urner = nb.pure_urn(korpus)
    alle_navn = tm.combine_names(tm.corpus_names(urner))
    return alle_navn

def tell_navn(korpus, token_map):
    res = dict()
    for urn in nb.pure_urn(korpus['urn']):
        try:
            res[urn] = tm.count_name_strings(str(urn), token_map)
            res[urn].columns = [str(urn)]
        except:
            print("Problemer med å telle fra: ", urn)
    return pd.concat([res[u] for u in res], axis=1)

def korpus_oppføring(df, text, column='tittel'):
    return nb.pure_urn(df[df[column].str.contains(text)]['urn'])

def add_metadata(korpus, how='inner'):
    f = nb.frame([(z[0], '_'.join([str(x) for x in z[2:4]])) for z in nb.metadata(korpus['urn'])], 'urn metadata'.split())
    f = f.astype({'urn':'str'})
    return korpus.merge(f, on = 'urn', how = how)
    
vis_bok = lambda x, column = 'tittel': nb.frame_sort(nb.frame(opptelling[korpus_oppføring(korpus, x, column)[0]].dropna(), nb.metadata(korpus_oppføring(korpus, x, column)[0])[0][3]))

    

def bygg_allgraf(korpus):
    graphs = dict()
    for u in korpus.urn:
        graphs[u] = tm.character_network(u, redigerte_navn)
    df_graphs = [nx.to_pandas_adjacency(graphs[x]) for x in graphs]
    g = df_graphs[0]
    for z in df_graphs[1:]:
        g = g.add(z, fill_value=0).fillna(0)

    total_graph = nx.from_pandas_adjacency(g)
    return total_graph

## Navn i bøker


Vi søker etter navn i en bok, og en serie av bøker.

Kommandoene er:
1. `names` henter et sett med forslag til navn, fra nbtext
1. `show_names` gir en oversikt over funnene, fra token_map
1. `names_to_token_map_file` lagrer navneforslagene til en excelfil (eller csv) for redigering (token_map)
1. `read_token_map_file` henter redigert fil tilbake for analyse (token_map)
1. `character_network` lager graf for navnene (token_map)
1. `show_graph`  tegner grafen (fra graph_networkx_louvain)
1. `show_communities` viser clustre i grafen (graph_networkx_louvain)



## Korpus

Hent korpus fra excelfil. Det er korpuset det skal telles opp fra. Korpuset som genererer navn kan godt være forskjellig fra der det telles.

In [5]:
korpus = nb.restore_metadata_from_excel('Sakprosa_Hamsunkorpus.xlsx')
korpus

Unnamed: 0,urn,forf,år,tittel,undertittel,forlag,sjanger,sesamid
0,2015090706177,"Hamsun, Knut",2009,26,1,"Gyldendal;[Oslo] : Gyldendal, 2007-2009",Artiler,8ef05f138ad5c6e53b221d9b537be8ef
1,2014090308131,"Hamsun, Knut",2009,27,2,"Gyldendal;[Oslo] : Gyldendal, 2007-2009",Artiler,41f5ddbb1a756b9f602e417058db88f8
2,2009061012004,"Hamsun, Knut",1889,Fra det moderne Amerikas Aandsliv,,Philipsen,unknown,949c8474bef0068c4d97f02c2f646284
3,2009042313001,"Hamsun, Knut",1889,Lars Oftedal,Udkast,Litleré,unknown,9b6cc05c90fa5a5ccc27f018e2c27281


## Sjekk innholdet

Gjør noen søk for å se at alt er ok. Konkordanser er fine til det. 

In [6]:
nb.urn_concordance(word = 'Polen', urns = korpus) 

0,1,2,3
"Samlede verker, Hamsun, Knut, 2009",også i Rumenien og i,Polen,"har man familieliv , barn"
"Samlede verker, Hamsun, Knut, 2009",° 9 - 5 Leve,Polen,! 54
"Samlede verker, Hamsun, Knut, 2009",Leve,Polen,!
"Samlede verker, Hamsun, Knut, 2009",er gode nok - i,Polen,. Det er ikke det
"Samlede verker, Hamsun, Knut, 2009",» ( « Tyskland og,Polen,"» , red. Henryk Sienkiewicz),"


### Hent redigert fil

Husk at verdien på orient må være lik mellom lagring og lesing av excelfil. Typisk for den her type redigering er radorientering. Excel har en begrensning på 256 kolonner, som blir for smått for de fleste anvendelser. Det er tilnærmet ubegrenset kapasitet på antall rader.

In [7]:
redigerte_navn = tm.read_token_map_file('samledestedsnavn_Hamsunkorpus.xls', orient = "row")

## Tell opp navn med hensyn til det som står i `redigerte_navn`

Bruker hjelpekommando `tell_navn`. Det kan ta litt tid å telle opp, et par minutter.

In [8]:
opptelling = tell_navn(korpus, redigerte_navn)

Sånn ser opptellingen ut, en kolonne pr. bok. 

In [9]:
opptelling.head()

Unnamed: 0,2015090706177,2014090308131,2009061012004,2009042313001
Afrika,2.0,2.0,3.0,
Amerika,121.0,61.0,307.0,4.0
Asien,9.0,2.0,4.0,
Atlanta,,,2.0,
Atlanterhavet,5.0,2.0,2.0,


Opptelling totalt for korpuset, summering over alle bøkene.

In [10]:
nb.frame_sort(nb.frame(opptelling.sum(axis=1)))

Unnamed: 0,0
Amerika,493.0
Norge,276.0
England,206.0
Tyskland,173.0
Europa,123.0
Verden,98.0
Danmark,76.0
Christiania,62.0
Byen,52.0
København,50.0


# Bygger grafer for alle bøkene

Benytt hjelpekommandoen `bygg_allgraf` for å samle grafene i en stor total graf.

In [11]:
korpusgraf = bygg_allgraf(korpus)

JSONDecodeError: Expecting value: line 1 column 1 (char 0)

Visualiser og analyser på vanlig måte.

In [None]:
gnl.show_graph(korpusgraf, spread=1.7)

Forslag til clustre basert på grafen. Clusteralgoritmen for Louvain kan synes å være litt random, så resultatene kan varierere mellom kjøringer. Men det ser skapelig ut, og gir mening.

In [None]:
gnl.show_communities(korpusgraf)