## Analyse av aviser

In [42]:
import dhlab.nbtext as nb
from dhlab.nbtokenizer import tokenize
import pandas as pd
import dhlab.module_update as mu

mu.css()

### Hent data

Les inn en av vaksinefilene. Her analyserer vi dem en for en. For eksempel, den med ordet vaksine heter `vaksine__2020-01-01_2021-01-27_aviser.csv`

Om notebooken ligger i samme mappe som den filen skal koden under fungere som den står.

Konkordansene lastes inn som en dataramme i pandas.


In [72]:
df = pd.read_csv('vaksine__2020-01-01_2021-01-27_aviser.csv')

For å se dataene, settes kolonnebredden til 1000. Det er ca. 500 tegn, så det skulle holde.

In [73]:
pd.set_option('display.max_colwidth', 1000)

Fikser litt på overskriftene også

In [123]:
df.columns

Index(['sesamid', 'match', 'annotations', 'before', 'after', 'timestamp',
       'city', 'publisher', 'urn', 'languages', 'pageCount', 'creators',
       'title', 'konk'],
      dtype='object')

In [74]:
a = ['sesamid']
a.extend(list(df.columns[1:]))
df.columns = a

Se litt på datarammen

In [76]:
df[['sesamid', 'before', 'match', 'after']].head(20)

Unnamed: 0,sesamid,before,match,after
0,0000b4c7da3fe1b5947bfe76cdecca86,17.10 Med hjartet på rette staden (r) 18.00 Dagsnytt 18 19.00 Matredderne (r) dokumentarse- 00.40,Vaksinemotstand,og konspirasjoner (r) 01.30 Tilbake til 70-tallet (r) 02.00 NRK Nyheter 02.03 Romarriket (r) 02.45Oddasat
1,000df01c9ff3608b3c365db329aca95b,inspirasjon når søknadsskjemaene snart skal fylles ut. FOTO: GORM KALLESTAD/NTBSCANPIX undersøke muligheter for,vaksine.,"For å beregne utviklingen av pandemien, er det behov for kompetanse innenfor matematikk og statistikk"
2,001c535ca6576f9bdf37c0839f631fd2,"Kina 24/7 er likevel ikke verdt det, sier han. – VI får bare håpe at det kommer en",vaksine,og at det blir lettelser. For jeg vil jo helst få fortsette. Det jeg er med på er
3,001c535ca6576f9bdf37c0839f631fd2,"å fullføre det, men ikke for enhver pris, legger han til og fortsetter: – Vi får tro",vaksinen,"kommer, som gjør det bedre for alle mann. For jeg ønsker som sagt å fullføre eventyret"
4,00219dc6a95ef1c4d145007d0cb13c9d,jubelscenene. Pfizer er truleg ein del av den djupe statens komplott ettersom dei heldt tilbake,vaksinen,som skulle sikra at Trump runda koronahjørnet og vann. USA ER I UNNTAKSTILSTAND. Mykje merkeleg kan
5,00233b1dff387428eec16880f30bc341,premiesalget er i gang igjen for fullt? - Premier er ikke på normalen igjen før det kommer en,vaksine.,Vi selger en stor del til store festivaler og fotballcuper med over 5000 deltakere. Jeg tror
6,002cb2cad16afcbd02ea30b91ef49b55,å få,vaksine,"Årets influensasesong er på tur. Kommunelege i Sel, Therese Renaa, sier Sel har bestilt rekordmange vaksiner i år og at det fortsatt er mulig å vaksinere seg. Solrun"
7,002cb2cad16afcbd02ea30b91ef49b55,"å få vaksine Årets influensasesong er på tur. Kommunelege i Sel, Therese Renaa, sier Sel har bestilt rekordmange",vaksiner,i år og at det fortsatt er mulig å vaksinere seg. Solrun
8,002cb2cad16afcbd02ea30b91ef49b55,"å få vaksine Årets influensasesong er på tur. Kommunelege i Sel, Therese Renaa, sier Sel har bestilt rekordmange vaksiner i år og at det fortsatt er mulig å",vaksinere,seg. Solrun
9,002cb2cad16afcbd02ea30b91ef49b55,tar,vaksine,"14 dager før utbrudd, vil du ha god effekt av en vaksine, sier Renaa. rekord Kommunelegen opplyser at Sel kommune i år har satt i rekord i hvor mange som har vaksinert seg."


In [147]:
df['konk'] = df['before'] + '<b>' + df['match'] + '</b>' + df['after']

In [143]:
df['url'] = "<a target = '_' href= 'https://www.nb.no/items/" + df['sesamid'] + "'>" + df['sesamid'] + "</a>"


### Analyse
Nå skal vi tokenisere og analysere. Alle setningene blir gjort om til en liste av tokens. Punktum og komma skilles ut og sånne ting.

Deretter telles alt opp.


In [5]:
from collections import Counter

I kollokasjonene tar vi bare med ord i kontekst før og etter

In [78]:
data = df['before'] + df['after']

Legger opptellingen i variabelen `wc` (word count)

In [24]:
wc = Counter()

In [79]:
wc = Counter()
for x in data.values:
    wc.update(tokenize(x))

In [82]:
wcount = nb.frame_sort(nb.frame(wc))

De mest frekvente ordene ser normal ut. Punktum og komma på topp, så `i` og `og`, som forventet for aviser.

In [83]:
wcount.head(20)

Unnamed: 0,0
.,151256
",",90651
i,74491
er,67550
og,59148
å,45612
som,44028
til,43089
at,42864
det,40603


Henter totalen fra nb.no - en distribusjon av ord fra nettbiblioteket.

In [84]:
tot = nb.frame(nb.totals(200000))
nb.normalize_corpus_dataframe(tot)

True

In [85]:
nb.normalize_corpus_dataframe(wd_df)

True

Her lager vi en egen dataramme for å sammenligne. Ord som ikke fins i den ene eller andre, får minimumsverdien til totalen.

In [112]:
comp = pd.concat([wd_df,tot], axis=1).fillna(min(tot[0]))
comp.columns = ['konk', 'tot']

In [120]:
comp.head(5)

Unnamed: 0,konk,tot
17.10,3e-06,2.964553e-07
Med,0.000242,0.0002423783
hjartet,6e-06,1.465256e-06
på,0.012932,0.009083287
rette,5.6e-05,0.000118923


Selve kollokasjonskoblingen, assoisasjonene, beregnes her.

In [114]:
coll = nb.frame(comp['konk']/comp['tot'])

In [115]:
nb.frame_sort(coll).head(50)

Unnamed: 0,0
–,58910.56443
vaksinen,10357.942435
vaksinene,7891.97311
vaksineringen,7796.299345
covid-19,7142.15779
Pfizer,5762.6756
FHI,5032.885022
koronaviruset,4523.366601
Vaksinen,4089.497202
vaksinere,3913.99753


### Nærlesing
Her kan du slå opp i konkordansene for å se mer. Vi lager en hjelpekommando, så er det bare å fylle inn. Se eksempel under definisjonen.


In [None]:
def highlight(x)

In [157]:
search = lambda x: df[df['konk'].str.contains(x)][['url','konk']].style

Så er det bare å bruke kommandoen `search(søkeord)`. Klikk på sesamid for å gå til aktuell avis.

In [158]:
search('hennes')

Unnamed: 0,url,konk
3054,09e61f9c58b5f9dd00edbe767352b85a,"solungen som har fått korona-vaksine. Det forteller ISolør. Jenny Ringnes er barnelegei Seattle, og på hennes arbeidssted ble 5000 personer vaksinert sist helg. I romjula starter vaksineringen mot covid-19 i Norge"
3055,09e61f9c58b5f9dd00edbe767352b85a,"solungen som har fått korona-vaksine. Det forteller ISolør. Jenny Ringnes er barnelegei Seattle, og på hennes arbeidssted ble 5000 personer vaksinert sist helg. I romjula starter vaksineringen mot covid-19 i Norge"
3056,09e61f9c58b5f9dd00edbe767352b85a,"solungen som har fått korona-vaksine. Det forteller ISolør. Jenny Ringnes er barnelegei Seattle, og på hennes arbeidssted ble 5000 personer vaksinert sist helg. I romjula starter vaksineringen mot covid-19 i Norge"
4216,0dd661f1de57bdccdeec81ea44091120,oppstyret rundt vaksineringen hennes. Eikre Larsen har bodd flere år i både Kenya og Tanzania og er vant til å måtte beskytte seg mot sykdommer. – Det er veldig bra at vaksinen er her. Selv
4217,0dd661f1de57bdccdeec81ea44091120,oppstyret rundt vaksineringen hennes. Eikre Larsen har bodd flere år i både Kenya og Tanzania og er vant til å måtte beskytte seg mot sykdommer. – Det er veldig bra at vaksinen er her. Selv
4632,0f371c8bedfa0a73f2111f21d5d4024e,"kom det inn en baby på én uke med meslinger. Dette kunne vært unngått dersom disse var vaksinert. Vaksiner er så utrolig viktig, og redder liv, sier Jansen. Jansen sier at dette er hennes måte å"
4633,0f371c8bedfa0a73f2111f21d5d4024e,"kom det inn en baby på én uke med meslinger. Dette kunne vært unngått dersom disse var vaksinert. Vaksiner er så utrolig viktig, og redder liv, sier Jansen. Jansen sier at dette er hennes måte å"
5662,11e6567397089562c09c2f81fd78a31d,"feire jul med sin mann, to voksne barn og svigermor på 82 år. – Svigermoren min skal vaksineres mot korona om to uker. Vi er bekymret for helsen hennes, så vi sørger for å holde"
5741,11fd32197c030ac3ee8e4ee2a1c92eb6,"oppringt av kommunen og fortalt at det var hennes tur, var det ingen tvil om at denne vaksinen skulle hun ta. Mannen, Carl Otto (94) fikk beskjeden av hjemmehjelpen. Han har fått vaksinasjonstid"
5881,12984fb35b05c350bd28177bc3087684,"og hennes kollegaer på NTNU opp helsesykepleiere og sykepleiere i Gjøvik før befolkningen skal vaksineres. På timeplanen står allergisjokk, såkalt anafylaktisk reaksjon, både i teori og praktisk trening ved Senter"
