In [1]:
import dhlab

# Hackathon

DHLAB intern workshop 25.august 2022

---------------------------------------
*Sluttoppgave:* Bruk pythonpakken `dhlab`ens kjernefunksjoner på et utvalgt case, til å definere og analysere et korpus fra Nasjonalbibliotekets digitale samling. Vis fremgangsmåten i en jupyter notebook. 


## Deloppgaver

1. [Bygg korpus](#bygg-korpus)
2. [Frekvensanalyse](#frekvensanalyse)
3. [Navnegjenkjenning](#navnegjenkjenning)
4. [Tema-modellering](#tema-modellering)
5. [Ordgrupper](#ordgrupper)


Hver oppgave har to koblinger til [dokumentasjonssidene](https://dhlab.readthedocs.io/en/latest/index.html) til `dhlaben`: 
* [Gammel tutorial](https://dhlab.readthedocs.io/en/latest/docs_notebooks.html): Jupyter notebooks med eksempler på fremgangsmåter, med forbehold om at funksjoner har endret navn og parametere siden de ble skrevet. OBS! Ikke alle kodeblokkene fra disse notebookene fungerer lenger. 
* [Kodedokumentasjon](https://dhlab.readthedocs.io/en/latest/package_summary.html): Oversikt over moduler og deres funksjoner, klasser og metoder som er relevante for oppgavene. Dokumentasjonen speiler den nyeste versjonen av kodebasen, med riktige funksjonsnavn og parameterlister.


---



1
## Bygg korpus

Et korpus kan være et utvalg bøker, eller et utvalg aviser.
Avgrensningen kan være metadata eller innhold i selve teksten: 
- Type dokument
- Årsperiode
- Tittel: OBS! Titler på aviser er normaliserte. Bruk små bokstaver, ingen mellomrom, Æ=AE, Ø=O, Å=AA. 
- Språk
- Stikkord
- Fulltekst
- Forfatter

### Oppgave 
Bygg et korpus med `dhlab.Corpus`-klassen og de gitte parameterne over. 

Forslag til korpusdefinisjon: 
- Partipresse: Se listen i eksempel-modulen. 
- Krimforfattere: Jørn Lier Horst, Jo Nesbø, Anne Holt, Unni Lindell 
- Egendefinert korpus 



Referanser:
* [1_Bygg_korpus]( https://dhlab.readthedocs.io/en/latest/notebooks/1_Bygg_korpus.html)  
* [`dhlab.text.corpus`](https://dhlab.readthedocs.io/en/latest/generated/text.corpus.html)



In [2]:
import dhlab as dh
import pandas as pd


def corpus_from_series(s : pd.Series, from_year=1945, to_year=1978):
    
    c = dh.text.corpus.EmptyCorpus()
    
    for avis in s:        
        avis = (avis.lower()
                    .replace(' ', '')
                    .replace('æ', 'ae')
                    .replace('ø', 'o')
                    .replace('å', 'aa')
                    .replace('-', ''))
        
        new_corpus = dh.Corpus(doctype='digavis', title=avis, from_year=from_year, to_year=to_year , limit=100)
 
        c.add(new_corpus)     
        
        
    return c


partipressen = pd.read_csv('data/partipressen_normalized.csv')

def get_parti_liste(parti): 
    return list(partipressen.loc[partipressen["parti"] == parti, 'normalisert'])

høyre_corpus = corpus_from_series(get_parti_liste("Høyre"), from_year=2006, to_year= 2010)
venstre_corpus = corpus_from_series(get_parti_liste("Venstre"), from_year=2006, to_year= 2010)
arbeidercorpus = corpus_from_series(get_parti_liste("Arbeiderpartiet"), from_year=2006, to_year= 2010)
bondecorpus = corpus_from_series(get_parti_liste("Bondepartiet"), from_year=2006, to_year= 2010)
#second_crisis = corpus_from_series(avis_liste, from_year=2016, to_year= 2022) 


#corpus = Corpus(from_year=1900, to_year=2000)  # fyll inn parametere for korpusdefinisjonen du har valgt
corpora = [høyre_corpus, venstre_corpus, arbeidercorpus, bondecorpus]

In [3]:
bondecorpus.corpus

Unnamed: 0,dhlabid,urn,title,authors,oaiid,sesamid,isbn10,city,timestamp,year,publisher,langs,subjects,ddc,genres,literaryform,doctype
0,203149682.0,URN:NBN:no-nb_digavis_nationen_null_null_20090...,nationen,,,,,Oslo,20090818.0,2009.0,,,,,,,digavis
1,203149747.0,URN:NBN:no-nb_digavis_nationen_null_null_20091...,nationen,,,,,Oslo,20091102.0,2009.0,,,,,,,digavis
2,201147262.0,URN:NBN:no-nb_digavis_nationen_null_null_20070...,nationen,,,,,Oslo,20070914.0,2007.0,,,,,,,digavis
3,203149785.0,URN:NBN:no-nb_digavis_nationen_null_null_20091...,nationen,,,,,Oslo,20091218.0,2009.0,,,,,,,digavis
4,201146940.0,URN:NBN:no-nb_digavis_nationen_null_null_20060...,nationen,,,,,Oslo,20060822.0,2006.0,,,,,,,digavis
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
295,203253983.0,URN:NBN:no-nb_digavis_tronderavisa_null_null_2...,tronderavisa,,,,,Steinkjer,20081115.0,2008.0,,,,,,,digavis
296,203254218.0,URN:NBN:no-nb_digavis_tronderavisa_null_null_2...,tronderavisa,,,,,Steinkjer,20090828.0,2009.0,,,,,,,digavis
297,203253514.0,URN:NBN:no-nb_digavis_tronderavisa_null_null_2...,tronderavisa,,,,,Steinkjer,20070503.0,2007.0,,,,,,,digavis
298,203253545.0,URN:NBN:no-nb_digavis_tronderavisa_null_null_2...,tronderavisa,,,,,Steinkjer,20070611.0,2007.0,,,,,,,digavis


2
## Frekvensanalyse

Korpuset består av flere dokumenter, som består av flere setninger, som består av flere ord eller tokener. 
Vi kjører frekvensanalyser på forekomstene av ulike ordformer og kontekster for å se tendenser i språkbruken. 


### Oppgaver
* Ordfrekvens
    - Hvilke ord forekommer oftest i korpuset?  
* Konkordanser
    - Gitt et ord (eller flere) av interesse, hvilke andre ord omslutter ordet i de lokale kontekstene der det forekommer?
* Kollokasjoner
    - Hvilke andre ord forekommer oftest sammen med et gitt ord?  
    - Hvilke dokument-spesifikke ord forekommer oftest?

Referanser: 
* [2_Konkordans](https://dhlab.readthedocs.io/en/latest/notebooks/2_Konkordans.html)
* [3_Kollokasjoner](https://dhlab.readthedocs.io/en/latest/notebooks/3_Kollokasjoner.html) 
* [10_Frekvenslister](https://dhlab.readthedocs.io/en/latest/notebooks/10_Frekvenslister.html) 
* [`dhlab.text.conc_coll`](https://dhlab.readthedocs.io/en/latest/generated/text.conc_coll.html)

In [10]:
from dhlab import Concordance, Collocations, Counts
from dhlab.text.corpus import urnlist
from dhlab.legacy.nbtext import aggregate_urns

#economy_words = "økonomi,inflasjon,rente,økning,krise".split(",")

freqs = []
for corpus in corpora: 
    step = 990
    for i in range(corpus.size, step): 
        try: 
            part_freqs = Counts(corpus[i:i+step])
        except IndexError: 
            part_freqs = Counts(corpus[i:])
        freqs.append(part_freqs)

avis_urn = urnlist(bondecorpus)
word_freqs = aggregate_urns(avis_urn)

#concordances = Concordance(corpus, query="fyll inn noe her")

#collocations = Collocations(corpus, words="fyll,inn,noe,her")

TypeError: 'EmptyCorpus' object is not subscriptable

In [5]:

word_freqs = aggregate_urns(avis_urn)


In [6]:
bondecorpus.corpus.urn

0      URN:NBN:no-nb_digavis_nationen_null_null_20090...
1      URN:NBN:no-nb_digavis_nationen_null_null_20091...
2      URN:NBN:no-nb_digavis_nationen_null_null_20070...
3      URN:NBN:no-nb_digavis_nationen_null_null_20091...
4      URN:NBN:no-nb_digavis_nationen_null_null_20060...
                             ...                        
295    URN:NBN:no-nb_digavis_tronderavisa_null_null_2...
296    URN:NBN:no-nb_digavis_tronderavisa_null_null_2...
297    URN:NBN:no-nb_digavis_tronderavisa_null_null_2...
298    URN:NBN:no-nb_digavis_tronderavisa_null_null_2...
299    URN:NBN:no-nb_digavis_tronderavisa_null_null_2...
Name: urn, Length: 300, dtype: object

In [8]:
word_freqs


{}

3
## Navnegjenkjenning

For å hente ut egennavn fra tekst kan vi bruke statistiske modeller som er trent på annotert tekstdata. `dhlab.text.parse.Models.models` viser hvilke NER-modeller (named entity recognition) som er tilgjengelige, og `dhlab.text.parse.NER` henter ut navn fra et gitt verk (en URN). 

### Oppgave 
Hvilke navn forekommer oftest i korpuset? 

Referanser: 
* [5_Navnegrafer](https://dhlab.readthedocs.io/en/latest/notebooks/5_Navnegrafer.html)
* [text.parse](https://dhlab.readthedocs.io/en/latest/generated/text.parse.html)

In [None]:
from dhlab import NER, Models

# Velg modell 
models = Models()
print(models.models)
model="dhlab"

# velg en URN 
document_urn=corpus.corpus["urn"][0]  # F.eks. den første i korpuset


In [None]:
# Kjør navnegjenkjenning
names = NER(urn=document_urn, model=model)

5
## Tema-modellering

- Hvilke temaer forekommer i de ulike avisene i korpuset? 
- Hvilke temaer kjennetegner hver avis, om noen? 

Referanser: 
* Se på eksempelmodulen

In [41]:

import json
import sqlite3
import pandas as pd

import dhlab.nbtext as nb
import matplotlib.pyplot as plt
from dhlab.api.dhlab_api import word_paradigm_many

def declensions(wordbagfamily, pos = None):
    """Set pos to subst, verb or adj for limiting the inflectional forms"""
    if isinstance(pos, list):
        res = {key: list(set([w for infl_set in word_paradigm_many(wordbagfamily[key]) for w in infl_set[2] if infl_set [1] in pos])) for key in wordbagfamily}
    elif isinstance( pos, str):
        res = {key: list(set([w for infl_set in word_paradigm_many(wordbagfamily[key]) for w in infl_set[2] if infl_set [1] == pos])) for key in wordbagfamily}
    else:
        res = {key: list(set([w for infl_set in word_paradigm_many(wordbagfamily[key]) for w in infl_set[2]])) for key in wordbagfamily}
    return res

temaer = {
    "økonomi": "økonomi,inflasjon,rente,økning,krise,stryingsrente,boligkrise,lån,bank,penger,bruttonasjonalprodukt,opsjoner,aksjer,avgift,skatt".split(","), 
    "arbeid": "arbeidsledighet,sysselsetting,ansettelse,trygd,sosialstønad".split(","),
}


#korpus = {yearstart:  for yearstart in range(2006, 2010, 1)}

In [45]:
avis_corpus = dh.EmptyCorpus()
for corp in corpora: 
    avis_corpus.add(corp)


In [47]:
avis_corpus.corpus

Unnamed: 0,dhlabid,urn,title,authors,oaiid,sesamid,isbn10,city,timestamp,year,publisher,langs,subjects,ddc,genres,literaryform,doctype
0,202915100.0,URN:NBN:no-nb_digavis_adresseavisen_null_null_...,adresseavisen,,,,,Trondheim,20090213.0,2009.0,,,,,,,digavis
1,202915361.0,URN:NBN:no-nb_digavis_adresseavisen_null_null_...,adresseavisen,,,,,Trondheim,20091228.0,2009.0,,,,,,,digavis
2,202914948.0,URN:NBN:no-nb_digavis_adresseavisen_null_null_...,adresseavisen,,,,,Trondheim,20080816.0,2008.0,,,,,,,digavis
3,202914903.0,URN:NBN:no-nb_digavis_adresseavisen_null_null_...,adresseavisen,,,,,Trondheim,20080625.0,2008.0,,,,,,,digavis
4,202914657.0,URN:NBN:no-nb_digavis_adresseavisen_null_null_...,adresseavisen,,,,,Trondheim,20070830.0,2007.0,,,,,,,digavis
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4517,203253593.0,URN:NBN:no-nb_digavis_tronderavisa_null_null_2...,tronderavisa,,,,,Steinkjer,20070804.0,2007.0,,,,,,,digavis
4518,203254314.0,URN:NBN:no-nb_digavis_tronderavisa_null_null_2...,tronderavisa,,,,,Steinkjer,20091218.0,2009.0,,,,,,,digavis
4519,203253675.0,URN:NBN:no-nb_digavis_tronderavisa_null_null_2...,tronderavisa,,,,,Steinkjer,20071108.0,2007.0,,,,,,,digavis
4520,203253282.0,URN:NBN:no-nb_digavis_tronderavisa_null_null_2...,tronderavisa,,,,,Steinkjer,20060726.0,2006.0,,,,,,,digavis


In [42]:
fullform_topics = declensions(temaer, pos=['subs','verb'])


In [55]:
from dhlab.api.dhlab_api import evaluate_documents

korpus = avis_corpus.corpus
korpus_eval = evaluate_documents(fullform_topics, list(korpus.urn))

In [61]:
korpus_eval.iloc[0]


arbeid      4.0
økonomi    74.0
Name: 200015341, dtype: float64

In [73]:
korpus[korpus.urn.str.contains(".*200015341.*", regex=True)]

Unnamed: 0,dhlabid,urn,title,authors,oaiid,sesamid,isbn10,city,timestamp,year,publisher,langs,subjects,ddc,genres,literaryform,doctype


6
## Ordgrupper 

Galakser, ordskyer, ordklynger: Med dhlaben kan man gruppere ord og visualisere relasjonene mellom dem på ulike måter. 

* Sammenlign forfatterskapenes mest fremtredende grupper av ord 
* Sammenlign partiavisenes mest fremtredende relasjoner mellom temaene 

Modulen `dhlab.graph_networkx_louvain` inneholder funksjoner for å lage grafer av ord og hente ut klikker basert på frekvens og posisjon i teksten. 

Referanser: 
* Eksempel på galakser: [4_N-gram_og_galakser](https://dhlab.readthedocs.io/en/latest/notebooks/4_N-gram_og_galakser.html#4.a.2.-Galakser)
* Ny modul for å lage grafer: [api.nb_ngram_api](https://dhlab.readthedocs.io/en/latest/generated/api.nb_ngram_api.html)


In [None]:
from dhlab.api.nb_ngram_api import make_word_graph
