# Forskjeller

Her ser vi på utvalgte ord og tegnsetting som en forskjell mellom skjønnlitteratur og sakprosa

In [62]:
import dhlab.nbtext as nb
import dhlab.module_update as mu
import pandas as pd

In [63]:
mu.css()

Lager grupper av tegn og ord som skal sammenlignes

In [64]:
punktuering = """. , ! " ' ? : ; -""".split()

In [100]:
pronomen = "vi oss de dem han ham hans hun henne hennes du deg jeg meg den det denne dette disse her der".split()

In [66]:
interjeksjoner = "ja nei jo vel aha åh javel".split()

In [67]:
tro = "tror vet antar mener".split()

## Testkorpus

Sampler noen verk fra tiårene 1970 til 2000. 300 fra dewey 839 og så litt fra andre dewey kategorier.

In [86]:
romaner = nb.book_corpus(ddk = "839%", period = (1970, 2000), limit = 300)

In [85]:
sakprosa = pd.concat([nb.book_corpus(ddk = str(x) + '%', limit = 50, period = (1970, 2000)) for x in range(0,9,1) if not x in [8,2]])

Vi teller opp ordene i begge korpus

In [87]:
sagprosa_agg = nb.aggregate_urns(list(sakprosa.urn))

In [88]:
romaner_agg = nb.aggregate_urns(list(romaner.urn))

og legger dem i en dataramme

In [89]:
combo = pd.concat([nb.frame(romaner_agg, 'skjønnlitt'), nb.frame(sagprosa_agg, 'sakprosa')], axis = 1, sort=False).dropna()

datarammen kan vi så sette opp for å sjekke forholdet mellom bruk av tegn og ord

In [106]:
combo.sort_values(by='sakprosa', ascending=False).head()

Unnamed: 0,skjønnlitt,sakprosa,ratio
.,5.842566,5.250549,1.112753
",",4.786803,4.908524,0.975202
og,2.630543,2.008937,1.30942
-,0.866456,1.994072,0.434516
i,1.862383,1.972751,0.944054


Normaliserer for å se forholdstallene tydelig, så de ikke påvirkes av størrelsen på korpuset. Gjør om til prosent i samme rennet

In [91]:
nb.normalize_corpus_dataframe(combo)

True

In [92]:
combo = combo*100

In [93]:
combo['ratio'] = combo['skjønnlitt']/combo['sakprosa']

Så ser vi på fordelingen i kolonnen _ratio_

Først pronomen

In [102]:
combo.loc[pronomen].style.background_gradient()

Unnamed: 0,skjønnlitt,sakprosa,ratio
vi,0.250673,0.237349,1.05614
oss,0.1003,0.0596977,1.68013
de,0.646743,0.511548,1.26429
dem,0.176003,0.0648382,2.7145
han,1.1569,0.180365,6.41422
ham,0.28901,0.0321058,9.00182
hans,0.157778,0.0375949,4.19678
hun,0.558935,0.0492989,11.3377
henne,0.214791,0.0148608,14.4535
hennes,0.0856306,0.00919259,9.31518


Så punktuering

In [103]:
combo.loc[punktuering].style.background_gradient()

Unnamed: 0,skjønnlitt,sakprosa,ratio
.,5.84257,5.25055,1.11275
",",4.7868,4.90852,0.975202
!,0.44129,0.0905124,4.87547
"""",0.103641,0.25352,0.40881
',0.180953,0.541821,0.333972
?,1.40739,0.337341,4.172
:,0.309343,0.858129,0.360486
;,0.206742,0.961349,0.215054
-,0.866456,1.99407,0.434516


interjeksjoner

In [110]:
combo.loc[interjeksjoner].style.background_gradient()

Unnamed: 0,skjønnlitt,sakprosa,ratio
ja,0.0411931,0.0126934,3.24524
nei,0.0213591,0.00357621,5.97257
jo,0.104244,0.019337,5.39095
vel,0.0945251,0.0218059,4.33484
aha,6.23928e-05,0.000103658,0.601909
åh,0.000256504,7.0676e-05,3.62929
javel,0.000291166,3.29821e-05,8.828


verb

In [109]:
combo.loc[tro].style.background_gradient()

Unnamed: 0,skjønnlitt,sakprosa,ratio
tror,0.037193,0.0106579,3.4897
vet,0.0736027,0.0177444,4.14794
antar,0.000741781,0.00197893,0.37484
mener,0.0196953,0.0125898,1.56439


Sjekker litt med tanke på OCR-feil

In [98]:
nb.urn_concordance(urns = list(sakprosa.urn), word = '?')

0,1,2,3
"Regine Normann, Jensen, Hans Henrik, 1995",&,?,n / é7w fi /
"Regine Normann, Jensen, Hans Henrik, 1995",t.t . For Norske Sjømænd,?,> o . \ \
"Regine Normann, Jensen, Hans Henrik, 1995",en Fare for vort Folk,?,Literære Vidnesbyrd . » [
"Regine Normann, Jensen, Hans Henrik, 1995",med Boken iaar,?,» Sign . : Regine
"Regine Normann, Jensen, Hans Henrik, 1995",7 M,?,ns Tegn ( Barnetidende s
"Innblikk i amerikansk informasjonspolitikk ; Prising av online bibliografisk informasjon i USA, Engelstad, Kirsten, 1982",in it pay for it,?,"therefore , government action that"
"Innblikk i amerikansk informasjonspolitikk ; Prising av online bibliografisk informasjon i USA, Engelstad, Kirsten, 1982",Boon or Bane for Librarians,?,""" Philadelphia 1979. 28 p."
"Innblikk i amerikansk informasjonspolitikk ; Prising av online bibliografisk informasjon i USA, Engelstad, Kirsten, 1982",6.2 Prising,?,
"digitale revolusjon, Haraldsen, Arild, 1996",NBR f,?,r - ' PCTB !
"digitale revolusjon, Haraldsen, Arild, 1996",Porter eller Pavlov,?,40


In [111]:
nb.urn_concordance(urns = list(sakprosa.urn), word = 'aha')

0,1,2,3
"Journalistikk, Østlyngen, Trine, 1999",. Da skjønte jeg -,aha,! Her har jeg funnet
"Aschehoug og Gyldendals store norske leksikon, , 1996",* f • E ter,aha,virket som journalist og utgitt
"Aschehoug og Gyldendals store norske leksikon, , 1996",store jernmassen . Den synes,aha,gatt over i cantUS f
"Aschehoug og Gyldendals store norske leksikon, , 1996",lå samtidig i telse synes,aha,vært bestemmende i Danmark og
"Aschehoug og Gyldendals store norske leksikon, , 1996",strende romersk koloni . Etter,aha,blitt ødelagt . en Constellation
"Aschehoug og Gyldendals store norske leksikon, , 1996",) ; den såkalte sectio,aha,kan utføres i lokalanestesi .
"Kallets menn, Grotdal, Ivar, 1975",hjalplos at sitt misstånksamma sinnes,aha,
"Listamålet, Vere, Njål, 1995","bramseil , røyl , ei",aha,på sjøyte å jagte ;
"Listamålet, Vere, Njål, 1995","et trisnippa seil , ei",aha,"; fiskesjøyta , fragtesjøyta ;"
"Norsk uttaleordbok =, Vanvik, Arne, 1985",i hen ( d ),aha,: var iherdig i hærdi


In [99]:
nb.urn_concordance(urns = list(romaner.urn), word = '?')

0,1,2,3
"Visdom i livet, Lorch-Falch, Emil, 1978",% -,?,"8 æ , , ."
"Visdom i livet, Lorch-Falch, Emil, 1978",", og samlingen er Myk",?,i Off settrykkerret Arve Kvaernum
"Visdom i livet, Lorch-Falch, Emil, 1978",se - hva slags brand,?,"Se , om den nærer"
"Visdom i livet, Lorch-Falch, Emil, 1978",se - hva slags mann,?,
"Visdom i livet, Lorch-Falch, Emil, 1978",se - hva slags ved,?,"Se , hvilken kraft som"
"Røverboka, Øien, Jan-Kåre, 1987",røvere / J - oppskwftsrøvere,?,
"Røverboka, Øien, Jan-Kåre, 1987",FiSKCSUPPe / / - Fiskesuppe,?,- £ r det moe
"Røverboka, Øien, Jan-Kåre, 1987",r det moe godt ete,?,- Dette w » >
"Røverboka, Øien, Jan-Kåre, 1987",- fiske,?,
"Fortuna, Kielland, Alexander L., 1993",det som gjæret i ham,?,blandt de mennesker han satte
