In [1]:
import dhlab

# Hackathon

DHLAB intern workshop 25.august 2022

---------------------------------------
*Sluttoppgave:* Bruk pythonpakken `dhlab`ens kjernefunksjoner på et utvalgt case, til å definere og analysere et korpus fra Nasjonalbibliotekets digitale samling. Vis fremgangsmåten i en jupyter notebook. 


## Deloppgaver

1. [Bygg korpus](#bygg-korpus)
2. [Frekvensanalyse](#frekvensanalyse)
3. [Navnegjenkjenning](#navnegjenkjenning)
4. [Tema-modellering](#tema-modellering)
5. [Ordgrupper](#ordgrupper)


Hver oppgave har to koblinger til [dokumentasjonssidene](https://dhlab.readthedocs.io/en/latest/index.html) til `dhlaben`: 
* [Gammel tutorial](https://dhlab.readthedocs.io/en/latest/docs_notebooks.html): Jupyter notebooks med eksempler på fremgangsmåter, med forbehold om at funksjoner har endret navn og parametere siden de ble skrevet. OBS! Ikke alle kodeblokkene fra disse notebookene fungerer lenger. 
* [Kodedokumentasjon](https://dhlab.readthedocs.io/en/latest/package_summary.html): Oversikt over moduler og deres funksjoner, klasser og metoder som er relevante for oppgavene. Dokumentasjonen speiler den nyeste versjonen av kodebasen, med riktige funksjonsnavn og parameterlister.


---



1
## Bygg korpus

Et korpus kan være et utvalg bøker, eller et utvalg aviser.
Avgrensningen kan være metadata eller innhold i selve teksten: 
- Type dokument
- Årsperiode
- Tittel: OBS! Titler på aviser er normaliserte. Bruk små bokstaver, ingen mellomrom, Æ=AE, Ø=O, Å=AA. 
- Språk
- Stikkord
- Fulltekst
- Forfatter

### Oppgave 
Bygg et korpus med `dhlab.Corpus`-klassen og de gitte parameterne over. 

Forslag til korpusdefinisjon: 
- Partipresse: Se listen i eksempel-modulen. 
- Krimforfattere: Jørn Lier Horst, Jo Nesbø, Anne Holt, Unni Lindell 
- Egendefinert korpus 



Referanser:
* [1_Bygg_korpus]( https://dhlab.readthedocs.io/en/latest/notebooks/1_Bygg_korpus.html)  
* [`dhlab.text.corpus`](https://dhlab.readthedocs.io/en/latest/generated/text.corpus.html)



In [2]:
from dhlab.text import Corpus

corpus = Corpus()  # fyll inn parametere


JSONDecodeError: Expecting value: line 1 column 1 (char 0)

2
## Frekvensanalyse

Korpuset består av flere dokumenter, som består av flere setninger, som består av flere ord eller tokener. 
Vi kjører frekvensanalyser på forekomstene av ulike ordformer og kontekster for å se tendenser i språkbruken. 


### Oppgaver
* Ordfrekvens
    - Hvilke ord forekommer oftest i korpuset?  
* Konkordanser
    - Gitt et ord (eller flere) av interesse, hvilke andre ord omslutter ordet i de lokale kontekstene der det forekommer?
* Kollokasjoner
    - Hvilke andre ord forekommer oftest sammen med et gitt ord?  
    - Hvilke dokument-spesifikke ord forekommer oftest?

Referanser: 
* [2_Konkordans](https://dhlab.readthedocs.io/en/latest/notebooks/2_Konkordans.html)
* [3_Kollokasjoner](https://dhlab.readthedocs.io/en/latest/notebooks/3_Kollokasjoner.html) 
* [10_Frekvenslister](https://dhlab.readthedocs.io/en/latest/notebooks/10_Frekvenslister.html) 
* [`dhlab.text.conc_coll`](https://dhlab.readthedocs.io/en/latest/generated/text.conc_coll.html)

In [None]:
from dhlab import Concordance, Collocations, Counts


word_freqs = Counts(corpus)

concordances = Concordance(corpus, query="fyll inn noe her")

collocations = Collocations(corpus, words="fyll,inn,noe,her")

3
## Navnegjenkjenning

Hvilke navn forekommer oftest i korpuset? 

Gammel tutorial | [5_Navnegrafer](https://dhlab.readthedocs.io/en/latest/notebooks/5_Navnegrafer.html)
---|---
Referanse | [text.parse](https://dhlab.readthedocs.io/en/latest/generated/text.parse.html)

In [3]:
from dhlab.text.parse import NER, Models


# Fyll inn parametere for å kjøre navnegjenkjenning på tekstutvalget

models = Models()



In [4]:
print(models.models)

['nb_core_news_lg', 'da_core_news_lg', 'nb_core_news_sm', 'dhlab']


5
## Tema-modellering

- Hvilke temaer forekommer i de ulike avisene i korpuset? 
- Hvilke temaer kjennetegner hver avis, om noen? 

Referanser: 
* Se på eksempelmodulen

6
## Ordgrupper 

Galakser, ordskyer, ordklynger: Med dhlaben kan man gruppere ord og visualisere relasjonene mellom dem på ulike måter. 

* Sammenlign forfatterskapenes mest fremtredende grupper av ord 
* Sammenlign partiavisenes mest fremtredende relasjoner mellom temaene 

Modulen `dhlab.graph_networkx_louvain` inneholder funksjoner for å lage grafer av ord og hente ut klikker basert på frekvens og posisjon i teksten. 

Referanser: 
* Eksempel på galakser: [4_N-gram_og_galakser](https://dhlab.readthedocs.io/en/latest/notebooks/4_N-gram_og_galakser.html#4.a.2.-Galakser)
* Ny modul for å lage grafer: [api.nb_ngram_api](https://dhlab.readthedocs.io/en/latest/generated/api.nb_ngram_api.html)


In [5]:
from dhlab.api.nb_ngram_api import make_word_graph
