# Statistikk fra Bokhylla på _jøde_

Bare hopp over den første biten til dere kommer til en neste hovedoverskrift. Deretter kan narrative følges.

Kollokasjoner for Øvre Richter Frich

##### Get essentials

Import text and graph modules for analysis, and css for display

In [4]:
from dhlab.module_update import update, css, code_toggle

In [5]:
css()

In [66]:
code_toggle()

##### Module imports

In [6]:
import re
import dhlab.nbtext as nb
import dhlab.graph_networkx_louvain as gnl
import networkx as nx
from graph_networkx_louvain import cutdown, make_collocation_graph
import pandas as pd
from IPython.display import Markdown as md
import matplotlib.pyplot as plt
%matplotlib inline

# Bygger korpus

Korpus for Øvre Richter Frich, alle ord med 'jød' i.

In [7]:
words = """Hebræer Hebræeren Hebræere Hebræerne
hebræer hebræeren hebræere hebræerne
Hebreer Hebreeren Hebreere Hebreerne
hebreer hebreeren hebreere hebreerne
Israelit Israeliten Israeliter Israeliterne Israelitene
israelit israeliten israeliter israeliterne israelitene
Israelitt Israelitten Israelitter Israelitterne Israelittene
israelitt israelitten israelitter israelitterne israelittene​
Mosait Mosaiten Mosaiter Mosaiterne Mosaitene
mosait mosaiten mosaiter mosaiterne mosaitene
Mosaitt Mosaitten Mosaitter Mosaitterne Mosaittene
mosaitt mosaitten mosaitter mosaitterne mosaittene
Jødebolsjevik Jødebolsjeviken Jødebolsjeviker Jødebolsjevikerne Jødebolsjevikene
jødebolsjevik jødebolsjeviken jødebolsjeviker jødebolsjevikerne jødebolsjevikene""".split()
words = words + [x.capitalize() for x in words]
words

['Hebræer',
 'Hebræeren',
 'Hebræere',
 'Hebræerne',
 'hebræer',
 'hebræeren',
 'hebræere',
 'hebræerne',
 'Hebreer',
 'Hebreeren',
 'Hebreere',
 'Hebreerne',
 'hebreer',
 'hebreeren',
 'hebreere',
 'hebreerne',
 'Israelit',
 'Israeliten',
 'Israeliter',
 'Israeliterne',
 'Israelitene',
 'israelit',
 'israeliten',
 'israeliter',
 'israeliterne',
 'israelitene',
 'Israelitt',
 'Israelitten',
 'Israelitter',
 'Israelitterne',
 'Israelittene',
 'israelitt',
 'israelitten',
 'israelitter',
 'israelitterne',
 'israelittene\u200b',
 'Mosait',
 'Mosaiten',
 'Mosaiter',
 'Mosaiterne',
 'Mosaitene',
 'mosait',
 'mosaiten',
 'mosaiter',
 'mosaiterne',
 'mosaitene',
 'Mosaitt',
 'Mosaitten',
 'Mosaitter',
 'Mosaitterne',
 'Mosaittene',
 'mosaitt',
 'mosaitten',
 'mosaitter',
 'mosaitterne',
 'mosaittene',
 'Jødebolsjevik',
 'Jødebolsjeviken',
 'Jødebolsjeviker',
 'Jødebolsjevikerne',
 'Jødebolsjevikene',
 'jødebolsjevik',
 'jødebolsjeviken',
 'jødebolsjeviker',
 'jødebolsjevikerne',
 'jødebolsjev

Først defineres korpuset som alle bøker forfattet av Øver Richter Frich

In [8]:
Richterkorpus_def = nb.get_urn({'author':'frich%richter%', 'limit':200})

In [9]:
Richterkorpus_def

[[2014021807072, 'Frich, Øvre Richter', 'De sorte gribber', 1987],
 [2011072720002, 'Frich, Øvre Richter', 'De sorte gribbe', 1914],
 [2007051501008, 'Frich, Øvre Richter', 'Men Rocambole var ikke død- !', 1968],
 [2007060500019, 'Frich, Øvre Richter', 'Havets øyne', 1965],
 [2013071208198, 'Frich, Øvre Richter', 'gyldne pest', 1913],
 [2011121906000, 'Frich, Øvre Richter', 'Pans fløite', 1922],
 [2007042001030, 'Frich, Øvre Richter', 'Jorden som dreper', 1966],
 [2012011208025, 'Frich, Øvre Richter', 'Det ytterste hav', 1972],
 [2014111108202, 'Frich, Øvre Richter', 'Nordlysets datter', 1934],
 [2012092706010, 'Frich, Øvre Richter', 'De knyttede never', 1985],
 [2012100907160, 'Frich, Øvre Richter', 'flyvende koffert', 1930],
 [2015011608019, 'Frich, Øvre Richter', 'Menneskejegerne', 1935],
 [2012062706150, 'Frich, Øvre Richter', 'Jacques Delmas forbandelse', 1926],
 [2009042000107, 'Frich, Øvre Richter', 'De knyttede næver', 1997],
 [2007073001051, 'Frich, Øvre Richter', 'Rottene', 1

Dernest lager vi to objekt, først et korpus, så en aggregert versjon

In [10]:
corpus = nb.get_corpus_text([x[0] for x in Richterkorpus_def], top=0, cutoff=0)

In [11]:
aggs = nb.frame(corpus.sum(axis=1), 0)

Korpuset representeres som en dokument-term-matrise, der hver bok er en kolonne, med frekvensinfo for ordene. Her en liten bit.

In [12]:
corpus.sort_values(by=corpus.columns[0], ascending=False)[:10]

Unnamed: 0,2014021807072,2011072720002,2007051501008,2007060500019,2013071208198,2011121906000,2007042001030,2012011208025,2014111108202,2012092706010,...,2007080701044,2007072501028,2013012108092,2015110307522,2007081712003,2013081508144,2013110808042,2015110507025,2012101908038,2015021108041
.,2243.0,3405.0,3598.0,3133.0,3327.0,3819.0,2651.0,2510.0,2630.0,1960.0,...,3599.0,3368.0,4400.0,3400.0,2739.0,2322.0,3115.0,2895.0,3625.0,3347.0
",",1159.0,1699.0,2289.0,1185.0,1911.0,2813.0,2041.0,1820.0,1426.0,1155.0,...,2568.0,2540.0,2294.0,1749.0,2224.0,1165.0,2334.0,1052.0,1334.0,1731.0
og,811.0,818.0,1014.0,347.0,899.0,1419.0,1022.0,1045.0,1195.0,798.0,...,1430.0,1609.0,1123.0,1389.0,1038.0,810.0,1240.0,1045.0,1178.0,833.0
i,624.0,611.0,1158.0,920.0,690.0,1061.0,885.0,758.0,915.0,552.0,...,1180.0,1104.0,1024.0,1019.0,742.0,633.0,1075.0,827.0,1012.0,656.0
en,581.0,588.0,1359.0,767.0,734.0,1077.0,852.0,813.0,866.0,520.0,...,1174.0,995.0,1050.0,874.0,813.0,582.0,1068.0,766.0,880.0,626.0
som,473.0,432.0,521.0,432.0,510.0,862.0,462.0,806.0,694.0,399.0,...,1100.0,865.0,699.0,963.0,699.0,474.0,889.0,668.0,814.0,408.0
den,452.0,450.0,640.0,468.0,492.0,728.0,469.0,623.0,753.0,374.0,...,902.0,663.0,764.0,740.0,625.0,452.0,785.0,636.0,697.0,451.0
det,408.0,374.0,797.0,545.0,451.0,641.0,581.0,644.0,721.0,353.0,...,1057.0,824.0,702.0,765.0,552.0,408.0,849.0,569.0,772.0,373.0
med,382.0,382.0,498.0,306.0,391.0,524.0,351.0,491.0,510.0,312.0,...,612.0,611.0,608.0,525.0,486.0,381.0,551.0,400.0,444.0,299.0
er,369.0,377.0,661.0,407.0,448.0,504.0,358.0,339.0,443.0,336.0,...,730.0,545.0,616.0,473.0,333.0,369.0,523.0,484.0,524.0,364.0


## Listen

Fra ordene i korpuseet konstrueres en  liste over alle ord som matcher en av ordene i listen. Ikke alle vil være relevant, men det er en kort liste som gås gjennom manuelt, se neste bolk.

## Frekvenser for jødeord 


Hvor ofte forekommer ordene i listen over i Frichs forfatterskap? For helt nøyaktige tall må kanskje korpuset bearbeides litt med hensyn til duplikater. Noen tekster kan opptre flere ganger.

In [14]:
aggs.transpose()[[w for w in words if w in aggs.index]].transpose()[:20]

Unnamed: 0,0
hebræer,7.0
hebreer,3.0
hebreerne,1.0
israelit,2.0
israeliter,4.0
israelitt,5.0


In [15]:
new_words = list(aggs.transpose()[[w for w in words if w in aggs.index]].transpose()[:20].index)

# Ord og bøker

Kobling til bøker

In [17]:
corpus_dict = corpus.transpose().fillna(0)
books = dict()
for w in new_words:
    books[w] = nb.frame(nb.metadata(list(corpus_dict[w][corpus_dict[w] > 0].index)),'urn f år tittel forlag språk ov'.split())

## Koblinger mellom jødeord og frekvenser

In [19]:
print(corpus_dict[new_words].sum(axis=0))

hebræer       7.0
hebreer       3.0
hebreerne     1.0
israelit      2.0
israeliter    4.0
israelitt     5.0
dtype: float64


# Frekvenser fra dokument-term-matrisen

Matrisen viser hvilke ord som forekommer i hvilke bøker, tallet viser til frekvensen.

In [20]:
for i in corpus_dict.index:
    corpus_dict.rename(index= {i:  str(i) + '_' + nb.metadata(i)[0][3]}, inplace=True)

In [22]:
nb.heatmap(corpus_dict[new_words])

Unnamed: 0,hebræer,hebreer,hebreerne,israelit,israeliter,israelitt
2014021807072_De sorte gribber,0,0,0,0,0,0
2011072720002_De sorte gribbe,0,0,0,0,0,0
2007051501008_Men Rocambole var ikke død- !,0,0,0,0,0,0
2007060500019_Havets øyne,0,0,0,0,0,0
2013071208198_gyldne pest,0,0,0,0,0,0
2011121906000_Pans fløite,0,0,0,1,0,0
2007042001030_Jorden som dreper,0,0,0,0,0,0
2012011208025_Det ytterste hav,0,0,0,0,0,0
2014111108202_Nordlysets datter,1,0,0,0,0,0
2012092706010_De knyttede never,0,0,0,0,0,0
