# Code for concordance in newspapers

Some startup code, make sure to activate

In [1]:
import dhlab.module_update as mu
mu.update('dhlab_v2', silent = True)
import dhlab_v2 as d2
import pandas as pd

In [2]:
mu.css()

# Functions and variables

These are used in the code below in the construction of corpus, subcorpus and creating concordances.

In [3]:
TITLES_NATIONAL = [x.lower() for x in """Aftenposten
Verdensgang
Dagbladet
Dagsavisen
Dagensnaeringsliv
Morgenbladet
Klassekampen
Finansavisen
Vaartland
Nationen 
Aftenpostenjunior""".split()
]

In [4]:
def sample_concordances(conc, size = 10):
    r = conc.sample(size)
    r['link'] = r['urn'].apply(lambda c: "<a target='_blank' href = 'https://www.nb.no/items/{x}?searchText={q}'>{display}</a>".format(x = c,display = c.split('_')[2], q = search))
    r['date'] = r['urn'].apply(lambda c: "{display}".format( display = c.split('_')[5]))                   
    return r[['link','date','conc']].sort_values(by = 'date')

def make_subcorpus(actual_titles, corpus):
    """Definer subkorpus basert på titlene"""
    subcorpus = pd.concat([corpus[corpus.urn.str.contains(x)] for x in actual_titles])
    return subcorpus

In [23]:
def konk(corpus = None, query = None): 
    conc = d2.concordance(urns = list(corpus.urn), words = query, limit = 10000)
    conc['link'] = conc['urn'].apply(lambda c: "<a target='_blank' href = 'https://www.nb.no/items/{x}?searchText={q}'>{display}</a>".format(x = c, display = c.split('_')[2], q = query))
    conc['date'] = conc['urn'].apply(lambda c: "{display}".format( display = c.split('_')[5]))
    return conc[['link','date','conc']].sort_values(by = 'date')


## Build a corpus as well as subcorpus

The target corpus consists of newspapers published in Norway between 2020 and 2021. A subcorpus can be created by providing a list of newspaper names.

In [5]:
corpus = d2.document_corpus(doctype = 'digavis', from_year = 2020, to_year = 2021, limit = 100000)

Make a subcorpus from national newspapers. The names are collected in the variable TITLES_NATIONAL 

In [6]:
TITLES_NATIONAL

['aftenposten',
 'verdensgang',
 'dagbladet',
 'dagsavisen',
 'dagensnaeringsliv',
 'morgenbladet',
 'klassekampen',
 'finansavisen',
 'vaartland',
 'nationen',
 'aftenpostenjunior']

We create a subcorpus by supplying the titles and a corpus to `make_subcorpus`

In [7]:
national = make_subcorpus(TITLES_NATIONAL, corpus)

# corpus avis

Check how many documents there are in the corpus

In [8]:
print('corpus:', len(corpus), 'national', len(national))

corpus: 43490 national 4180


# Concordances

Since the concordances can be quite large, we split it up into two tasks:
1. collect the concordances
2. show a sample from them 
The sample size is controlled by a parameter

For this command we just supply the corpus (the whole, or a subcorpus)

## Step 1 - create concordance

Fill in the search expression after variable `search` and run the cell

In [25]:
search =  "vaksine mot"
conc = konk(corpus, search)
len(conc)

4297

## Step 2 - study samples 

Just rerun the cell to look at more samples. Note the total amount of concordances is indicated as output from the concordance construction in the cell above

In [33]:
conc.sample(5).style

Unnamed: 0,link,date,conc
2376,klassekampen,20201219,"Hvis vitenskapsfolket – og ikke Madsen – har rett , kan vi altså la være å utsette tre millioner medborgere for ei dårlig utprøvd vaksine . Dette er lett..."
2873,dagbladet,20201116,"NÅ ØNSKER VI EN VAKSINE mot covid-19 , som kanskje kan gi oss et normalt samfunn tilbake . Det er ikke én vaksine , det vil raskt..."
2760,dagbladet,20210209,"... Det er ikke så vanskelig å redesigne vaksine- ne , slik at de matcher forskjelli- ge nye varianter . Spørsmålet er om man da må gå igjennom..."
1713,sandnesposten,20201119,... ikke alt man kan få i helsekostbutikken . – Det er vel riktig å si at vi ikke fører medisin eller vaksine mot korona om noen skul-
347,agderposten,20201109,"finne en vaksine mot koronaviruset og sikker verden trenger vi internasjonalt samarbeid , et utadvendt USA og sterke demokratiske verdier . Biden og Harris er de beste..."


# Ordered concordances

You may select concordances by date order, and go through batches.

In [36]:
conc[2:100][['date','conc']].style

Unnamed: 0,date,conc
2319,20200103,"... For å få det til må flere ta HPV-vaksine , og beskytte både seg selv og partnere mot HPV-virus , skriver innsenderen ."
96,20200104,"Nå er det en vaksine på markedet som gir en viss beskyttelse i opp mot 12 måneder , og blir man først smittet , finnes det nå..."
2420,20200106,"Det finnes vaksine mot meslinger , men ifølge Lind stoppet vaksineprogrammet i Samoa opp . – Det var noen uheldige episoder under vaksineringen av barn for et par..."
3868,20200106,"... For å få det til må flere ta HPV-vaksine , og beskytte både seg selv og partnere mot HPVvirus ."
450,20200107,"... De siste 15 årene før vaksine mot meslinger ble tatt i bruk i Norge , ble det årlig meldt om 20 000 - 30 000 tilfeller av..."
451,20200107,"... De siste 15 årene før vaksine mot meslinger ble tatt i bruk i Norge , ble det årlig meldt om 20 000 - 30 000 tilfeller av..."
1861,20200109,"Jeg har ikke forutsetning for å mene noe om kort-eller langtidsvirkning av for eksempel massevaksinering mot svineinfluensa , men vaksine har reddet ufattelig mange mennesker..."
1724,20200110,"... Dessverre er det ingen vaksine mot noroviruset , og det er veldig smittsomt . Så du må bare vente til det går over og prøve å ikke..."
3574,20200111,"... Dessverre er det ingen vaksine mot noroviruset , og det er veldig smittsomt . Så du må bare vente til det går over og prøve å ikke..."
73,20200115,■ Vaksine mot kikhoste inngår i barnevaksinasjons-programmet .
