# Forskjeller

Her ser vi på utvalgte ord og tegnsetting som en forskjell mellom skjønnlitteratur og sakprosa

In [6]:
import dhlab.nbtext as nb
import dhlab.module_update as mu
import pandas as pd

In [3]:
mu.css()

## Testkorpus

Sampler noen verk fra tiårene 1970 til 2000. 300 fra dewey 839 og så litt fra andre dewey kategorier.

In [30]:
romaner = nb.book_corpus(ddk = "839%", period = (1970, 2000), limit = 300)

In [31]:
sakprosa = pd.concat([nb.book_corpus(ddk = str(x) + '%', limit = 30, period = (1970, 2000)) for x in range(0,9,1) if x != 8 ])

Vi teller opp ordene i begge korpus

In [32]:
sagprosa_agg = nb.aggregate_urns(list(sakprosa.urn))

In [33]:
romaner_agg = nb.aggregate_urns(list(romaner.urn))

og legger dem i en dataramme

In [34]:
combo = pd.concat([nb.frame(romaner_agg, 'skjønnlitt'), nb.frame(sagprosa_agg, 'sakprosa')], axis = 1, sort=False).dropna()

datarammen kan vi så sette opp for å sjekke forholdet mellom bruk av tegn og ord

In [35]:
combo

Unnamed: 0,skjønnlitt,sakprosa
!,51752.0,13440.0
"""",5551.0,44269.0
#,121.0,748.0
$,74.0,2487.0
%,291.0,8035.0
...,...,...
►,21.0,2080.0
▼,1.0,11.0
★,6.0,368.0
♦,17.0,847.0


In [36]:
combo['ratio'] = combo['skjønnlitt']/combo['sakprosa']

Lager grupper av tegn og ord

In [37]:
punktuering = """. , ! " ' ? : ; -""".split()

In [38]:
pronomen = "vi oss de dem han ham hans hun henne hennes du deg jeg meg".split()

In [39]:
interjeksjoner = "ja nei jo vel aha åh javel".split()

Så ser vi på fordelingen i kolonnen _ratio_

Først pronomen

In [40]:
combo.loc[pronomen]

Unnamed: 0,skjønnlitt,sakprosa,ratio
vi,33458.0,33910.0,0.986671
oss,14397.0,10511.0,1.369708
de,56533.0,83871.0,0.674047
dem,18752.0,14287.0,1.312522
han,117796.0,37385.0,3.150889
ham,24426.0,9241.0,2.64322
hans,16305.0,9001.0,1.811465
hun,50628.0,6726.0,7.527208
henne,21661.0,2058.0,10.525267
hennes,8019.0,1546.0,5.186934


Så punktuering

In [41]:
combo.loc[punktuering]

Unnamed: 0,skjønnlitt,sakprosa,ratio
.,664861.0,782108.0,0.850088
",",535189.0,746233.0,0.717188
!,51752.0,13440.0,3.850595
"""",5551.0,44269.0,0.125392
',18326.0,64638.0,0.283517
?,77657.0,99617.0,0.779556
:,54050.0,101827.0,0.530802
;,12526.0,48751.0,0.256938
-,91894.0,129155.0,0.711502


Og til slutt interjeksjoner

In [42]:
combo.loc[interjeksjoner]

Unnamed: 0,skjønnlitt,sakprosa,ratio
ja,4944.0,2427.0,2.037083
nei,2979.0,450.0,6.62
jo,9995.0,2976.0,3.358535
vel,10332.0,2817.0,3.667732
aha,15.0,5.0,3.0
åh,29.0,2.0,14.5
javel,49.0,9.0,5.444444


Sjekker litt med tanke på OCR-feil

In [43]:
nb.urn_concordance(urns = list(sakprosa.urn), word = '?')

0,1,2,3
"Samling i et kvart sekel, , 1991",- Hjelpe med bøkene våre,?,Trenger vi noen hjelp ?
"Samling i et kvart sekel, , 1991",? Trenger vi noen hjelp,?,år .
"Samling i et kvart sekel, , 1991",hjelp er det tale om,?,Han tar vel ikke Bibliotekaren
"Samling i et kvart sekel, , 1991",katalogisere ved bøkene fra oss,?,"Pedagogisk forskningsinstitutt , som den"
"Samling i et kvart sekel, , 1991",besøk på UB på Drammensveien,?,
"Samordning av museumstjenester, Jensen, Inger, 2000",Samlet eller delt museumstj eneste,?,
"Forskningsvilkår, Thagaard, Tove, 1989",U Nasjonalbiblioteket,?,Depotbiblioteket
"Forskningsvilkår, Thagaard, Tove, 1989",- MELLOM BYRÅKRATI OG MARKED,?,
"Forskningsvilkår, Thagaard, Tove, 1989",- ET SÆRPREG VED UNIVERSITETSFORSKNINGEN,?,
"Forskningsvilkår, Thagaard, Tove, 1989",Bekrefter våre resultater andre undersøkelser,?,7.2 : Diskusjon av undersøkelsens


In [43]:
nb.urn_concordance(urns = list(sakprosa.urn), word = '?')

0,1,2,3
"Samling i et kvart sekel, , 1991",- Hjelpe med bøkene våre,?,Trenger vi noen hjelp ?
"Samling i et kvart sekel, , 1991",? Trenger vi noen hjelp,?,år .
"Samling i et kvart sekel, , 1991",hjelp er det tale om,?,Han tar vel ikke Bibliotekaren
"Samling i et kvart sekel, , 1991",katalogisere ved bøkene fra oss,?,"Pedagogisk forskningsinstitutt , som den"
"Samling i et kvart sekel, , 1991",besøk på UB på Drammensveien,?,
"Samordning av museumstjenester, Jensen, Inger, 2000",Samlet eller delt museumstj eneste,?,
"Forskningsvilkår, Thagaard, Tove, 1989",U Nasjonalbiblioteket,?,Depotbiblioteket
"Forskningsvilkår, Thagaard, Tove, 1989",- MELLOM BYRÅKRATI OG MARKED,?,
"Forskningsvilkår, Thagaard, Tove, 1989",- ET SÆRPREG VED UNIVERSITETSFORSKNINGEN,?,
"Forskningsvilkår, Thagaard, Tove, 1989",Bekrefter våre resultater andre undersøkelser,?,7.2 : Diskusjon av undersøkelsens
