# En analyse av ngrammer

Det her er en oppstartsnotebook som skal gjøre deg kjent med funksjonaliteten, hvordan celler endres og hvordan en hypotese kan undersøkes med kvantitative data.  Temaet er kjønn og Beauvoirs tese om at kvinnen er sekundær, etter mannen, i vestlig kultur, og at kvinnen er knyttet mer til passive egenskaper, mens mannen er en agens. 

Måten vi undersøker hypotesen med tallmateriale er å se hva som sies om menn og kvinner, og et sted å starte er å telle pronomener. Metodikken er knyttet til relativ forekomst av ord og uttrykk sammen med de norske kjønnede pronomene *han* og *hun*.

In [None]:
import nbtext as nb
from nbtext import difference
%matplotlib inline

### Lag ngram for et sett pronomen

Bruk kommandoen nb_ngram() for hente ngrammer, de samme som ligger på web.

In [None]:
pron = nb.nb_ngram('han,hun, henne, ham, hans, hennes', years=(1980,2000), smooth=1)

## Resultatet er en dataramme

Datarammer brukes flittig i alt fra ngrammer til tekstanalyse. Matrisene er en måte å representere kvantitative språklige data.

Når en navn er knyttet til data, er det bare å skrive navnet i en celle for å se verdien.

In [None]:
pron

## Matrisen kan begrenses til mindre biter

Matrisene kan deles opp i mindre biter

In [None]:
pron[['han', 'hun']]

## Plotting gir et kjapt visuelt overblikk

Matriser med tall kan plottes over indeksene ved å legget plot() til navnet.

In [None]:
pron.plot();

Størrelsen på plottet kan endres

In [None]:
pron.plot(figsize=(10,5));

# Men hva med analyse? 

## Ordene kan divideres ved å refere til matrisen og kolonnene

Poenget med datarammer/matriser er at fra dataene kan vi beregne nye data, for eksemple forholdstallet mellom 'han' og 'hun' fordelt over år.

In [None]:
pron['han']

In [None]:
pron['han']/pron['hun']

### Lag ramme fra noe som ligner, men som ikke er det
Bruk kommandoen frame() for å lage en ny ramme av ratioen, den tar to argument, det første er det som skal bli en ramme, og det andre er navnet på rammen. Navn er viktig når rammer skal kombineres, som i neste celle.


In [None]:
nb.frame(pron['han']/pron['hun'], 'han/hun')

### Forholdstallene kan kombineres og plottes på nytt


Uttrykket under kan se litt formidabelt ut, men vi skal gå gjennom og ta det fra hverandre.

In [None]:
nb.frame(pron['han']/pron['hun'], 'han/hun').join(
nb.frame(pron['ham']/pron['henne'], 'ham/henne'). join(
nb.frame(pron['hans']/pron['hennes'], 'hans/hennes'))).plot()

## Hva med "ham" vs "han" som objekt?

Hvordan kan vi finne ut om pronomenet 'han' også brukes som objekt, og hvor ofte? I norsk har det vært frivillig å bruke 'han' som objekt. Forekomsten kan sjekkes ved å se på trigram som presser frem en objektstolkning av 'han'. Her skal vi teste mot trigrammer av typen "preposisjon han .", som skulle sikre oss at 'han' er objekt for preposisjonen.

In [None]:
obj = nb.nb_ngram("med ham ., med han ., til han ., til ham ., ved han ., ved ham .", years=(1980, 2000), smooth=1)

In [None]:
obj.plot(figsize=(10,5))

In [None]:
nb.frame(obj['med ham .']/obj['med han .'], 'med').join(
nb.frame(obj['til ham .']/obj['til han .'], 'til'). join(
nb.frame(obj['ved ham .']/obj['ved han .'], 'ved'))).plot();

Variasjonen ligger mellom 5 og 10, så omtrent hvert 7nde

In [None]:
nb.frame(obj['med ham .']/obj['med han .'], 'med').join(
nb.frame(obj['til ham .']/obj['til han .'], 'til'). join(
nb.frame(obj['ved ham .']/obj['ved han .'], 'ved'))).mean()

In [None]:
obj2 = nb.nb_ngram('til ham, til han', years=(1980, 2000),smooth=1)

In [None]:
obj2.plot()

In [None]:
nb.frame((pron['han'] - pron['ham']*0.15)/pron['hun'], 'han/hun').join(
nb.frame((pron['ham'] + pron['ham']*0.15)/pron['henne'], 'ham/henne'). join(
nb.frame(pron['hans']/pron['hennes'], 'hans/hennes'))).plot(title='justert for hver 7nde');
nb.frame(pron['han']/pron['hun'], 'han/hun').join(
nb.frame(pron['ham']/pron['henne'], 'ham/henne'). join(
nb.frame(pron['hans']/pron['hennes'], 'hans/hennes'))).plot(title='uten justering');

# Hva med verb og kjønn?

Her nøyer vi oss med å se på plottene.

In [None]:
nb.nb_ngram("hun fniser, han fniser", years=(1980, 2000), smooth=1).plot(figsize=(10,5));

In [None]:
nb.nb_ngram("hun hevder, han hevder", years=(1980, 2000), smooth=1).plot(figsize=(10,5));

In [None]:
nb.nb_ngram("hun gråter, han gråter", years=(1980, 2000), smooth=1).plot(figsize=(10,5));

In [None]:
nb.nb_ngram("hun skjøt, han skjøt", years=(1980, 2000), smooth=1).plot(figsize=(10,5));

Når blå ligger høyere, er det lurt å sjekke om verbene trekker mot det mannlige eller det kvinnelige

In [None]:
nb.nb_ngram("hun føler, han føler", years=(1980, 2000), smooth=1).plot(figsize=(10,5));

In [None]:
føler = nb.nb_ngram("hun føler, han føler", years=(1980, 2000), smooth=1)

In [None]:
nb.frame(føler['han føler']/føler['hun føler'], 'føler').plot()

In [None]:
nb.frame((pron['han'] - pron['ham']*0.15)/pron['hun'], 'han/hun').join(
    nb.frame(føler['han føler']/føler['hun føler'], 'føler')).plot()

In [None]:
skjøt = nb.nb_ngram("hun skjøt, han skjøt", years=(1980, 2000), smooth=1)


In [None]:
nb.frame((pron['han'] - pron['ham']*0.15)/pron['hun'], 'han/hun').join(
    nb.frame(skjøt['han skjøt']/skjøt['hun skjøt'], 'skjøt')).plot()

# Oppgave

Repeter øvelsen med avisdata

In [None]:
nb.nb_ngram('han, hun', corpus='avis', years=(1980,2000),smooth=1).plot()