In [1]:
import dhlab

# Hackathon

DHLAB intern workshop 25.august 2022

---------------------------------------
*Sluttoppgave:* Bruk pythonpakken `dhlab`ens kjernefunksjoner på et utvalgt case, til å definere og analysere et korpus fra Nasjonalbibliotekets digitale samling. Vis fremgangsmåten i en jupyter notebook. 


## Deloppgaver

1. [Bygg korpus](#bygg-korpus)
2. [Frekvensanalyse](#frekvensanalyse)
3. [Navnegjenkjenning](#navnegjenkjenning)
4. [Tema-modellering](#tema-modellering)
5. [Ordgrupper](#ordgrupper)


Hver oppgave har to koblinger til [dokumentasjonssidene](https://dhlab.readthedocs.io/en/latest/index.html) til `dhlaben`: 
* [Gammel tutorial](https://dhlab.readthedocs.io/en/latest/docs_notebooks.html): Jupyter notebooks med eksempler på fremgangsmåter, med forbehold om at funksjoner har endret navn og parametere siden de ble skrevet. OBS! Ikke alle kodeblokkene fra disse notebookene fungerer lenger. 
* [Kodedokumentasjon](https://dhlab.readthedocs.io/en/latest/package_summary.html): Oversikt over moduler og deres funksjoner, klasser og metoder som er relevante for oppgavene. Dokumentasjonen speiler den nyeste versjonen av kodebasen, med riktige funksjonsnavn og parameterlister.


---



1
## Bygg korpus

Et korpus kan være et utvalg bøker, eller et utvalg aviser.
Avgrensningen kan være metadata eller innhold i selve teksten: 
- Type dokument
- Årsperiode
- Tittel: OBS! Titler på aviser er normaliserte. Bruk små bokstaver, ingen mellomrom, Æ=AE, Ø=O, Å=AA. 
- Språk
- Stikkord
- Fulltekst
- Forfatter

### Oppgave 
Bygg et korpus med `dhlab.Corpus`-klassen og de gitte parameterne over. 

Forslag til korpusdefinisjon: 
- Partipresse: Se listen i eksempel-modulen. 
- Krimforfattere: Jørn Lier Horst, Jo Nesbø, Anne Holt, Unni Lindell 
- Egendefinert korpus 



Referanser:
* [1_Bygg_korpus]( https://dhlab.readthedocs.io/en/latest/notebooks/1_Bygg_korpus.html)  
* [`dhlab.text.corpus`](https://dhlab.readthedocs.io/en/latest/generated/text.corpus.html)



In [2]:
import dhlab as dh
import pandas as pd


def corpus_from_series(s : pd.Series, from_year=1945, to_year=1978):
    
    c = dh.text.corpus.EmptyCorpus()
    
    for avis in s:        
        avis = (avis.lower()
                    .replace(' ', '')
                    .replace('æ', 'ae')
                    .replace('ø', 'o')
                    .replace('å', 'aa')
                    .replace('-', ''))
        
        new_corpus = dh.Corpus(doctype='digavis', title=avis, from_year=from_year, to_year=to_year , limit=100)
 
        c.add(new_corpus)     
        
        
    return c


partipressen = pd.read_csv('data/partipressen_normalized.csv')

def get_parti_liste(parti): 
    return list(partipressen.loc[partipressen["parti"] == parti, 'normalisert'])

høyre_corpus = corpus_from_series(get_parti_liste("Høyre"), from_year=2006, to_year= 2010)
venstre_corpus = corpus_from_series(get_parti_liste("Venstre"), from_year=2006, to_year= 2010)
arbeidercorpus = corpus_from_series(get_parti_liste("Arbeiderpartiet"), from_year=2006, to_year= 2010)
bondecorpus = corpus_from_series(get_parti_liste("Bondepartiet"), from_year=2006, to_year= 2010)
#second_crisis = corpus_from_series(avis_liste, from_year=2016, to_year= 2022) 


#corpus = Corpus(from_year=1900, to_year=2000)  # fyll inn parametere for korpusdefinisjonen du har valgt
corpora = [høyre_corpus, venstre_corpus, arbeidercorpus, bondecorpus]

In [3]:
bondecorpus.corpus

Unnamed: 0,dhlabid,urn,title,authors,oaiid,sesamid,isbn10,city,timestamp,year,publisher,langs,subjects,ddc,genres,literaryform,doctype
0,201146873.0,URN:NBN:no-nb_digavis_nationen_null_null_20060...,nationen,,,,,Oslo,20060603.0,2006.0,,,,,,,digavis
1,201146921.0,URN:NBN:no-nb_digavis_nationen_null_null_20060...,nationen,,,,,Oslo,20060731.0,2006.0,,,,,,,digavis
2,203149423.0,URN:NBN:no-nb_digavis_nationen_null_null_20081...,nationen,,,,,Oslo,20081008.0,2008.0,,,,,,,digavis
3,203149738.0,URN:NBN:no-nb_digavis_nationen_null_null_20091...,nationen,,,,,Oslo,20091022.0,2009.0,,,,,,,digavis
4,201147344.0,URN:NBN:no-nb_digavis_nationen_null_null_20071...,nationen,,,,,Oslo,20071219.0,2007.0,,,,,,,digavis
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
295,203253530.0,URN:NBN:no-nb_digavis_tronderavisa_null_null_2...,tronderavisa,,,,,Steinkjer,20070523.0,2007.0,,,,,,,digavis
296,203253368.0,URN:NBN:no-nb_digavis_tronderavisa_null_null_2...,tronderavisa,,,,,Steinkjer,20061103.0,2006.0,,,,,,,digavis
297,203253556.0,URN:NBN:no-nb_digavis_tronderavisa_null_null_2...,tronderavisa,,,,,Steinkjer,20070623.0,2007.0,,,,,,,digavis
298,203253754.0,URN:NBN:no-nb_digavis_tronderavisa_null_null_2...,tronderavisa,,,,,Steinkjer,20080212.0,2008.0,,,,,,,digavis


2
## Frekvensanalyse

Korpuset består av flere dokumenter, som består av flere setninger, som består av flere ord eller tokener. 
Vi kjører frekvensanalyser på forekomstene av ulike ordformer og kontekster for å se tendenser i språkbruken. 


### Oppgaver
* Ordfrekvens
    - Hvilke ord forekommer oftest i korpuset?  
* Konkordanser
    - Gitt et ord (eller flere) av interesse, hvilke andre ord omslutter ordet i de lokale kontekstene der det forekommer?
* Kollokasjoner
    - Hvilke andre ord forekommer oftest sammen med et gitt ord?  
    - Hvilke dokument-spesifikke ord forekommer oftest?

Referanser: 
* [2_Konkordans](https://dhlab.readthedocs.io/en/latest/notebooks/2_Konkordans.html)
* [3_Kollokasjoner](https://dhlab.readthedocs.io/en/latest/notebooks/3_Kollokasjoner.html) 
* [10_Frekvenslister](https://dhlab.readthedocs.io/en/latest/notebooks/10_Frekvenslister.html) 
* [`dhlab.text.conc_coll`](https://dhlab.readthedocs.io/en/latest/generated/text.conc_coll.html)

In [13]:
from dhlab import Concordance, Collocations, Counts
from dhlab.text.corpus import urnlist
from dhlab.legacy.nbtext import aggregate_urns

In [4]:


#economy_words = "økonomi,inflasjon,rente,økning,krise".split(",")

freqs = []
for corpus in corpora: 
    step = 990
    for i in range(corpus.size, step): 
        try: 
            part_freqs = Counts(corpus[i:i+step])
        except IndexError: 
            part_freqs = Counts(corpus[i:])
        freqs.append(part_freqs)



#concordances = Concordance(corpus, query="fyll inn noe her")

#collocations = Collocations(corpus, words="fyll,inn,noe,her")

TypeError: 'EmptyCorpus' object is not subscriptable

In [14]:
avis_urn = urnlist(bondecorpus)
word_freqs = aggregate_urns(avis_urn)

In [16]:

word_freqs = Counts(bondecorpus)


In [9]:
bondecorpus.corpus.urn

0      URN:NBN:no-nb_digavis_nationen_null_null_20060...
1      URN:NBN:no-nb_digavis_nationen_null_null_20060...
2      URN:NBN:no-nb_digavis_nationen_null_null_20081...
3      URN:NBN:no-nb_digavis_nationen_null_null_20091...
4      URN:NBN:no-nb_digavis_nationen_null_null_20071...
                             ...                        
295    URN:NBN:no-nb_digavis_tronderavisa_null_null_2...
296    URN:NBN:no-nb_digavis_tronderavisa_null_null_2...
297    URN:NBN:no-nb_digavis_tronderavisa_null_null_2...
298    URN:NBN:no-nb_digavis_tronderavisa_null_null_2...
299    URN:NBN:no-nb_digavis_tronderavisa_null_null_2...
Name: urn, Length: 300, dtype: object

In [19]:
word_freqs.counts


Unnamed: 0,URN:NBN:no-nb_digavis_nationen_null_null_20060603_88_125_1,URN:NBN:no-nb_digavis_nationen_null_null_20060731_88_173_1,URN:NBN:no-nb_digavis_nationen_null_null_20071219_90_295_1,URN:NBN:no-nb_digavis_nationen_null_null_20061028_88_250_1,URN:NBN:no-nb_digavis_nationen_null_null_20071207_90_285_1,URN:NBN:no-nb_digavis_nationen_null_null_20061003_88_228_1,URN:NBN:no-nb_digavis_nationen_null_null_20060814_88_185_1,URN:NBN:no-nb_digavis_nationen_null_null_20071103_90_256_1,URN:NBN:no-nb_digavis_nationen_null_null_20071220_90_296_1,URN:NBN:no-nb_digavis_nationen_null_null_20091113_91_264_1,...,URN:NBN:no-nb_digavis_tronderavisa_null_null_20070614_0_134_1,URN:NBN:no-nb_digavis_tronderavisa_null_null_20091118_0_268_1,URN:NBN:no-nb_digavis_tronderavisa_null_null_20070110_0_8_1,URN:NBN:no-nb_digavis_tronderavisa_null_null_20080418_0_89_1,URN:NBN:no-nb_digavis_tronderavisa_null_null_20070410_0_81_1,URN:NBN:no-nb_digavis_tronderavisa_null_null_20070523_0_116_1,URN:NBN:no-nb_digavis_tronderavisa_null_null_20061103_0_255_1,URN:NBN:no-nb_digavis_tronderavisa_null_null_20070623_0_142_1,URN:NBN:no-nb_digavis_tronderavisa_null_null_20080212_0_36_1,URN:NBN:no-nb_digavis_tronderavisa_null_null_20060420_0_90_1
.,1831.0,1354.0,1847.0,1692.0,2696.0,1300.0,1461.0,1657.0,2442.0,1623.0,...,3488.0,2420.0,2782.0,3128.0,2373.0,2671.0,2734.0,4232.0,3220.0,3207.0
-,1284.0,628.0,1932.0,1074.0,1599.0,959.0,783.0,1218.0,2415.0,1717.0,...,1101.0,969.0,1068.0,1085.0,893.0,943.0,770.0,1156.0,1209.0,1039.0
",",1024.0,900.0,949.0,961.0,1629.0,925.0,783.0,993.0,1348.0,848.0,...,2783.0,1477.0,2543.0,2076.0,1941.0,1930.0,1792.0,2917.0,3154.0,2250.0
i,882.0,663.0,861.0,739.0,1192.0,649.0,602.0,817.0,820.0,619.0,...,1294.0,1105.0,1251.0,1255.0,1090.0,1151.0,1100.0,1828.0,1238.0,1279.0
),631.0,773.0,577.0,519.0,674.0,441.0,459.0,485.0,677.0,602.0,...,728.0,733.0,1027.0,538.0,668.0,614.0,523.0,670.0,973.0,493.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
Mmolta,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,4.0
Mølleveg,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,4.0
NORDTUG,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,4.0
Thorsteinsson,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,4.0


3
## Navnegjenkjenning

For å hente ut egennavn fra tekst kan vi bruke statistiske modeller som er trent på annotert tekstdata. `dhlab.text.parse.Models.models` viser hvilke NER-modeller (named entity recognition) som er tilgjengelige, og `dhlab.text.parse.NER` henter ut navn fra et gitt verk (en URN). 

### Oppgave 
Hvilke navn forekommer oftest i korpuset? 

Referanser: 
* [5_Navnegrafer](https://dhlab.readthedocs.io/en/latest/notebooks/5_Navnegrafer.html)
* [text.parse](https://dhlab.readthedocs.io/en/latest/generated/text.parse.html)

In [18]:
from dhlab import NER, Models

# Velg modell 
models = Models()
print(models.models)
model="dhlab"

# velg en URN 
document_urn=bondecorpus.corpus["urn"][0]  # F.eks. den første i korpuset


['nb_core_news_lg', 'da_core_news_lg', 'nb_core_news_sm', 'dhlab']


In [20]:
# Kjør navnegjenkjenning
names = NER(urn=document_urn, model=model)

In [22]:
names.ner

Unnamed: 0,token,ner,frekv
136,.,PROD,12
481,Trondheim,GPE_LOC,11
235,Bakklandet,LOC,10
368,Lade,LOC,8
260,Estland,GPE_LOC,7
...,...,...,...
293,J ' Er tiden inne til,MISC,1
294,"J - r """,MISC,1
295,J 1 ’,MISC,1
296,J > T *,MISC,1


5
## Tema-modellering

- Hvilke temaer forekommer i de ulike avisene i korpuset? 
- Hvilke temaer kjennetegner hver avis, om noen? 

Referanser: 
* Se på eksempelmodulen

In [23]:

import json
import sqlite3
import pandas as pd

import dhlab.nbtext as nb
import matplotlib.pyplot as plt
from dhlab.api.dhlab_api import word_paradigm_many

def declensions(wordbagfamily, pos = None):
    """Set pos to subst, verb or adj for limiting the inflectional forms"""
    if isinstance(pos, list):
        res = {key: list(set([w for infl_set in word_paradigm_many(wordbagfamily[key]) for w in infl_set[2] if infl_set [1] in pos])) for key in wordbagfamily}
    elif isinstance( pos, str):
        res = {key: list(set([w for infl_set in word_paradigm_many(wordbagfamily[key]) for w in infl_set[2] if infl_set [1] == pos])) for key in wordbagfamily}
    else:
        res = {key: list(set([w for infl_set in word_paradigm_many(wordbagfamily[key]) for w in infl_set[2]])) for key in wordbagfamily}
    return res

temaer = {
    "økonomi": "økonomi,inflasjon,rente,økning,krise,stryingsrente,boligkrise,lån,bank,penger,bruttonasjonalprodukt,opsjoner,aksjer,avgift,skatt".split(","), 
    "arbeid": "arbeidsledighet,sysselsetting,ansettelse,trygd,sosialstønad".split(","),
}


#korpus = {yearstart:  for yearstart in range(2006, 2010, 1)}

In [25]:
avis_corpus = dh.EmptyCorpus()
for corp in corpora: 
    avis_corpus.add(corp)


In [26]:
avis_corpus.corpus

Unnamed: 0,dhlabid,urn,title,authors,oaiid,sesamid,isbn10,city,timestamp,year,publisher,langs,subjects,ddc,genres,literaryform,doctype
0,202914810.0,URN:NBN:no-nb_digavis_adresseavisen_null_null_...,adresseavisen,,,,,Trondheim,20080229.0,2008.0,,,,,,,digavis
1,202914554.0,URN:NBN:no-nb_digavis_adresseavisen_null_null_...,adresseavisen,,,,,Trondheim,20070428.0,2007.0,,,,,,,digavis
2,202914979.0,URN:NBN:no-nb_digavis_adresseavisen_null_null_...,adresseavisen,,,,,Trondheim,20080922.0,2008.0,,,,,,,digavis
3,202915077.0,URN:NBN:no-nb_digavis_adresseavisen_null_null_...,adresseavisen,,,,,Trondheim,20090117.0,2009.0,,,,,,,digavis
4,202915055.0,URN:NBN:no-nb_digavis_adresseavisen_null_null_...,adresseavisen,,,,,Trondheim,20081219.0,2008.0,,,,,,,digavis
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4511,203253495.0,URN:NBN:no-nb_digavis_tronderavisa_null_null_2...,tronderavisa,,,,,Steinkjer,20070410.0,2007.0,,,,,,,digavis
4512,203253368.0,URN:NBN:no-nb_digavis_tronderavisa_null_null_2...,tronderavisa,,,,,Steinkjer,20061103.0,2006.0,,,,,,,digavis
4513,203253556.0,URN:NBN:no-nb_digavis_tronderavisa_null_null_2...,tronderavisa,,,,,Steinkjer,20070623.0,2007.0,,,,,,,digavis
4514,203253754.0,URN:NBN:no-nb_digavis_tronderavisa_null_null_2...,tronderavisa,,,,,Steinkjer,20080212.0,2008.0,,,,,,,digavis


In [27]:
fullform_topics = declensions(temaer, pos=['subs','verb'])


In [28]:
from dhlab.api.dhlab_api import evaluate_documents

korpus = avis_corpus.corpus
korpus_eval = evaluate_documents(fullform_topics, list(korpus.urn))

In [32]:
korpus_eval


Unnamed: 0,arbeid,økonomi
200015342,6.0,114.0
200015343,3.0,113.0
200015348,12.0,77.0
200015352,14.0,98.0
200015370,11.0,99.0
...,...,...
204048940,6.0,86.0
204050559,6.0,11.0
204053226,2.0,17.0
204053227,7.0,27.0


In [47]:
korpus.loc[:, "dhlabid"] = korpus.dhlabid.astype(int).astype(str)

korpus[korpus.dhlabid.str.contains(".*200015342.*", regex=True)].urn.values

array(['URN:NBN:no-nb_digavis_adresseavisen_null_null_20060128_240_24_1'],
      dtype=object)

In [40]:
URL_NB= "https://www.nb.no/items/URN:NBN:no-nb_digavis_adresseavisen_null_null_20060128_240_24_1"

0       202914810
1       202914554
2       202914979
3       202915077
4       202915055
          ...    
4511    203253495
4512    203253368
4513    203253556
4514    203253754
4515    203253203
Name: dhlabid, Length: 4516, dtype: object

6
## Ordgrupper 

Galakser, ordskyer, ordklynger: Med dhlaben kan man gruppere ord og visualisere relasjonene mellom dem på ulike måter. 

* Sammenlign forfatterskapenes mest fremtredende grupper av ord 
* Sammenlign partiavisenes mest fremtredende relasjoner mellom temaene 

Modulen `dhlab.graph_networkx_louvain` inneholder funksjoner for å lage grafer av ord og hente ut klikker basert på frekvens og posisjon i teksten. 

Referanser: 
* Eksempel på galakser: [4_N-gram_og_galakser](https://dhlab.readthedocs.io/en/latest/notebooks/4_N-gram_og_galakser.html#4.a.2.-Galakser)
* Ny modul for å lage grafer: [api.nb_ngram_api](https://dhlab.readthedocs.io/en/latest/generated/api.nb_ngram_api.html)


In [None]:
from dhlab.api.nb_ngram_api import make_word_graph
