# Forskjeller

Her ser vi på utvalgte ord og tegnsetting som en forskjell mellom skjønnlitteratur og sakprosa

In [112]:
import dhlab.nbtext as nb
import dhlab.module_update as mu
import pandas as pd

In [113]:
mu.css()

Lager grupper av tegn og ord som skal sammenlignes

In [114]:
punktuering = """. , ! " ' ? : ; -""".split()

In [115]:
pronomen = "vi oss de dem han ham hans hun henne hennes du deg jeg meg den det denne dette disse her der".split()

In [116]:
interjeksjoner = "ja nei jo vel aha åh javel".split()

In [117]:
tro = "tror vet antar mener".split()

## Testkorpus

Sampler noen verk fra tiårene 1970 til 2000. 300 fra dewey 839 og så litt fra andre dewey kategorier.

In [118]:
romaner = nb.book_corpus(ddk = "839%", period = (1970, 2000), limit = 300)

In [119]:
sakprosa = pd.concat([nb.book_corpus(ddk = str(x) + '%', limit = 50, period = (1970, 2000)) for x in range(0,9,1) if not x in [8,2]])

Vi teller opp ordene i begge korpus

In [120]:
sagprosa_agg = nb.aggregate_urns(list(sakprosa.urn))

In [121]:
romaner_agg = nb.aggregate_urns(list(romaner.urn))

og legger dem i en dataramme

In [122]:
combo = pd.concat([nb.frame(romaner_agg, 'skjønnlitt'), nb.frame(sagprosa_agg, 'sakprosa')], axis = 1, sort=False).dropna()

datarammen kan vi så sette opp for å sjekke forholdet mellom bruk av tegn og ord

In [123]:
combo.sort_values(by='sakprosa', ascending=False).head()

Unnamed: 0,skjønnlitt,sakprosa
.,817079.0,861715.0
",",652947.0,773443.0
og,363096.0,356592.0
i,238286.0,339023.0
er,128934.0,223122.0


Normaliserer for å se forholdstallene tydelig, så de ikke påvirkes av størrelsen på korpuset. Gjør om til prosent i samme rennet

In [124]:
nb.normalize_corpus_dataframe(combo)

True

In [125]:
combo = combo*100

In [126]:
combo['ratio'] = combo['skjønnlitt']/combo['sakprosa']

Så ser vi på fordelingen i kolonnen _ratio_

Først pronomen

In [127]:
combo.loc[pronomen].style.background_gradient()

Unnamed: 0,skjønnlitt,sakprosa,ratio
vi,0.268584,0.289545,0.927608
oss,0.103584,0.0704308,1.47072
de,0.601625,0.576434,1.0437
dem,0.1612,0.0876226,1.83971
han,1.11575,0.250902,4.44696
ham,0.25581,0.0435179,5.87826
hans,0.142072,0.0537713,2.64216
hun,0.539278,0.0691483,7.79886
henne,0.206297,0.0226905,9.09176
hennes,0.0851622,0.0143668,5.9277


Så punktuering

In [128]:
combo.loc[punktuering].style.background_gradient()

Unnamed: 0,skjønnlitt,sakprosa,ratio
.,6.13618,5.21268,1.17716
",",4.90356,4.67871,1.04806
!,0.432217,0.149246,2.89601
"""",0.157385,0.418205,0.376334
',0.258213,0.386646,0.667827
?,0.828529,0.886183,0.934942
:,0.353431,0.714386,0.494734
;,0.158143,0.235247,0.672244
-,0.958353,1.00181,0.956624


interjeksjoner

In [129]:
combo.loc[interjeksjoner].style.background_gradient()

Unnamed: 0,skjønnlitt,sakprosa,ratio
ja,0.0427088,0.0128545,3.32247
nei,0.0197135,0.00401062,4.91533
jo,0.105244,0.0207366,5.07525
vel,0.0905919,0.0249771,3.62699
aha,1.50198e-05,4.23444e-05,0.354706
åh,0.000165218,0.000133082,1.24147
javel,0.000322926,3.62952e-05,8.89721


verb

In [130]:
combo.loc[tro].style.background_gradient()

Unnamed: 0,skjønnlitt,sakprosa,ratio
tror,0.037174,0.0138829,2.67768
vet,0.0657341,0.0245658,2.67584
antar,0.00102886,0.00232289,0.442921
mener,0.0205846,0.0170527,1.20712


Sjekker litt med tanke på OCR-feil

In [131]:
nb.urn_concordance(urns = list(sakprosa.urn), word = '?')

0,1,2,3
"Gudesjokket, Däniken, Erich von, 1993",lyn og torden • Kulturformidlere,?,■ Enda lenger tilbake i
"Gudesjokket, Däniken, Erich von, 1993",haveri,?,■ Også i Tibet og
"Gudesjokket, Däniken, Erich von, 1993",er det egentlig som fantaserer,?,• Templer som etterligninger av
"Gudesjokket, Däniken, Erich von, 1993",Virkelighet eller virkelighetstap,?,173
"Gudesjokket, Däniken, Erich von, 1993",er det egentlig man lyver,?,• En smule teori •
"Bibliografier, Thee, Maya, 1974",Hr 1 Sc Writinp ;,?,on Kodern I-orphology and Iv
"Bibliografier, Thee, Maya, 1974",har : 1 ( I9,?,6 ) -
"Bibliografier, Thee, Maya, 1974",", 1966. xvi , 43",?,PP-
"Bibliografier, Thee, Maya, 1974",Re f e rene Z-IS,?,— J - } f
"Bibliografier, Thee, Maya, 1974","11. ROBINSON ,",?,red C . Old English


In [132]:
nb.urn_concordance(urns = list(sakprosa.urn), word = 'aha')

0,1,2,3
"Aschehoug og Gyldendals store norske leksikon, , 1997",1948 hovedimsk separatistbevegelse som antas,aha,kostet over gerne er sufi
"Regionplanens økonomiske del, Moen, Knut Olav, 1975",offentlig virksomhet i regionen antas,aha,behov for . Deute vil
"Rett på sak, , 1982",fornufts navn ( triumferende ),aha,"! , tenkte jeg det"
"Dialoger i norsk, Spinnvåg, Øystein, 1981",All,aha,"ismarladik , gfile gille adres"
"Dialoger i norsk, Spinnvåg, Øystein, 1981","kat , daire oyun s",aha,si uzun zaman
"Dialoger i norsk, Spinnvåg, Øystein, 1981",All,aha,"isrnarladik , gtile gille"
"dialektgeographische Stellung des Krimgotischen und die krimgotische cantilena, Grønvik, Ottar, 1983","Nkg . vermehren , ohne",aha,: die Struktur des Phonemsystems


In [133]:
nb.urn_concordance(urns = list(romaner.urn), word = '?')

0,1,2,3
"Margrete, Ingulstad, Frid, 2000",gjerne kunne være en kvinne,?,
"Margrete, Ingulstad, Frid, 2000",fru Mæreta Ulvsdotter i Dalsland,?,spurte han og virket oppriktig
"Margrete, Ingulstad, Frid, 2000",- Nå skjemter I vel,?,
"Margrete, Ingulstad, Frid, 2000","noe galt , fru Margrete",?,
"Margrete, Ingulstad, Frid, 2000",han ikke lyst på henne,?,Fant han henne frastøtende ?
"Bolla, Gripe, Camilla, 1976",du der ute i kulda,?,sa mamma som dukket opp
"Bolla, Gripe, Camilla, 1976",kjøpe noen bløtkaker i stedet,?,Vi må jo ha noe
"Bolla, Gripe, Camilla, 1976","av et selskap , hva",?,flirte han .
"Bolla, Gripe, Camilla, 1976",Hva skulle hun gjøre nå,?,
"Bolla, Gripe, Camilla, 1976",jeg få snakke med Tuffa,?,spurte Bolla . - Det
