In [3]:
import dhlab


DHLAB intern workshop 25.august 2022

---------------------------------------

# Hackathon

*Sluttoppgave:* lage ny tutorial/eksempel-kode notebooks for alle kjernefunksjonene, med et utvalgt case.  

- Korpus 01: Partipresse
- Korpus 02: Krimforfattere: Jørn Lier Horst, Jo Nesbø, Anne Holt, Unni Lindell  

*Deloppgaver:*

1. Bygge korpus
    - Type dokument
    - Årsperiode
    - Tittel
    - Språk
    - Stikkord
    - Fulltekst
    - Forfatter
2. Frekvensanalyse / tf-idf / kollokasjon / konkordans
    - Hvilke sammenhengde fraser/slagord/dokument-spesifikke ord forekommer oftest?
3. Navnegjenkjenning
    - Hvilke navn forekommer oftest i korpuset? 
4. Narrative buer
    *Per verk:* 
    - Hvor i verkene forekommer de ulike navnene hyppigst? 
    - Hvor i verkene forekommer nøkkelord (f.eks. fra TF-IDF), og hva er frekvensen deres? 
    - Hva kan sies om karakterenes utvikling i fortellingen, basert på frekvensen av navnene deres i kombinasjon med nøkkelordene? 
    *Per forfatter:*
    - Hvilke navn forekommer oftest på tvers av verk i forfatterskapet, sett over tid? 
    - Hvilke nøkkelord kjennetegner forfatterskapet over tid?
    *Per avis*
    - Hvilke nøkkelord/temaer er mest fremtredende over tid? 
5. Tema-modellering
    - Hvilke temaer forekommer i de ulike avisene i korpuset? 
    - Hvilke temaer kjennetegner hver avis, om noen? 
6. Galakser/Ordskyer
    - Sammenligne aviser basert på ordskyer 
    - Sammenligne forfatterskap basert på ordskyer


# Deloppgaver
Bruk pythonpakken `dhlab` til å definere og analysere et korpus fra Nasjonalbibliotekets digitale samling.

1. [Bygg korpus](#bygg-korpus)
2. [Frekvensanalyse](#frekvensanalyse)
3. [Navnegjenkjenning](#navnegjenkjenning)
4. [Narrative buer](#narrative-buer)
5. [Tema-modellering](#tema-modellering)
6. [Ordskyer](#ordskyer)


Hver oppgave har to koblinger til [dokumentasjonssidene](https://dhlab.readthedocs.io/en/latest/index.html) til `dhlaben`: 
* "[Gammel tutorial](https://dhlab.readthedocs.io/en/latest/docs_notebooks.html)": Jupyter notebooks med eksempler på fremgangsmåter, med forbehold om at funksjoner har endret navn og parametere siden de ble skrevet. OBS! Ikke alle kodeblokkene fra disse notebookene fungerer lenger. 
* "[Referanse](https://dhlab.readthedocs.io/en/latest/package_summary.html)": Kodedokumentasjon av moduler som er relevante for oppgavene. Dokumentasjonen speiler den nyeste versjonen av kodebasen, med riktige funksjonsnavn og parameterlister.


---



1
## Bygg korpus

Et korpus kan være et utvalg bøker, eller et utvalg aviser.

Avgrensningen kan være metadata eller innhold i selve teksten: 
- Type dokument
- Årsperiode
- Tittel: OBS! Titler på aviser er normaliserte. Bruk små bokstaver, ingen mellomrom, Æ=AE, Ø=O, Å=AA. 
- Språk
- Stikkord
- Fulltekst
- Forfatter

Gammel tutorial | [1_Bygg_korpus]( https://dhlab.readthedocs.io/en/latest/notebooks/1_Bygg_korpus.html)
---|---
Referanse   |[`dhlab.text.corpus`](https://dhlab.readthedocs.io/en/latest/generated/text.corpus.html)



In [None]:
from dhlab.text import Corpus


korpus = Corpus()


2
## Frekvensanalyse 

Type analyse | Oppgave | Gammel tutorial 
---|---|---
Ordfrekvens | Hvilke ord forekommer oftest i korpuset?  | [10_Frekvenslister](https://dhlab.readthedocs.io/en/latest/notebooks/10_Frekvenslister.html) 
konkordans | Gitt et ord (eller flere) av interesse, hvilke andre ord omslutter ordet i de lokale kontekstene der det forekommer? | [2_Konkordans](https://dhlab.readthedocs.io/en/latest/notebooks/2_Konkordans.html)
kollokasjon | Hvilke andre ord forekommer oftest sammen med et gitt ord?  Hvilke dokument-spesifikke ord forekommer oftest?| [3_Kollokasjoner](https://dhlab.readthedocs.io/en/latest/notebooks/3_Kollokasjoner.html) 


Referanse: [`dhlab.text.conc_coll`](https://dhlab.readthedocs.io/en/latest/generated/text.conc_coll.html)

In [2]:
from dhlab.text.conc_coll import Concordance, Collocations, Counts


3
## Navnegjenkjenning

Hvilke navn forekommer oftest i korpuset? 

Gammel tutorial | [5_Navnegrafer](https://dhlab.readthedocs.io/en/latest/notebooks/5_Navnegrafer.html)
---|---
Referanse | [text.parse](https://dhlab.readthedocs.io/en/latest/generated/text.parse.html)

In [22]:
from dhlab.text.parse import NER

# Fyll inn parametere for å kjøre navnegjenkjenning på tekstutvalget
names =  NER()

4
## Narrative buer

Type datautvalg  | Oppgave | Gammel tutorial 
---|---|---
1 verk / 1 bok / 1 dokument | Hvor i verket forekommer de ulike navnene hyppigst? Hvor i verket forekommer gitte nøkkelord, og hva er frekvensen deres? Hva kan sies om karakterenes utvikling i fortellingen, basert på frekvensen av navnene deres i kombinasjon med nøkkelordene? | [5_Navnegrafer](https://dhlab.readthedocs.io/en/latest/notebooks/5_Navnegrafer.html?highlight=narrative#Studer-hvordan-navnene-henger-sammen)
Verker av 1 forfatter | Hvilke navn forekommer oftest på tvers av verk i forfatterskapet, sett over tid? Hvilke nøkkelord kjennetegner forfatterskapet over tid? | [10_Frekvenslister](https://dhlab.readthedocs.io/en/latest/notebooks/10_Frekvenslister.html#10.3.-Frekvens-for-spesifikke-termer)
1 helt korpus, med tidsangivelse | Hvilke nøkkelord/temaer er mest fremtredende over tid? | [4_N-gram_og_galakser](https://dhlab.readthedocs.io/en/latest/notebooks/4_N-gram_og_galakser.html)


Referanser: [N-gram](https://dhlab.readthedocs.io/en/latest/generated/ngram.ngram.html#module-ngram.ngram), [Dispersion](https://dhlab.readthedocs.io/en/latest/generated/text.dispersion.html#module-text.dispersion)


In [20]:
from dhlab.text import Dispersion
from dhlab.ngram import Ngram

# Fyll inn parametere for å instansiere Dispersion-objektet
disp = Dispersion()

# ...


5
## Tema-modellering

- Hvilke temaer forekommer i de ulike avisene i korpuset? 
- Hvilke temaer kjennetegner hver avis, om noen? 



6
## Ordgrupper 

Galakser, ordskyer, ordklynger: Med dhlaben kan man gruppere ord og visualisere relasjonene mellom dem på ulike måter. 

Modulen `dhlab.graph_networkx_louvain` inneholder funksjoner for å lage grafer av ord og hente ut klikker basert på frekvens og posisjon i teksten. 

* Referanse: [api.nb_ngram_api](https://dhlab.readthedocs.io/en/latest/generated/api.nb_ngram_api.html)


In [23]:
from dhlab.api.nb_ngram_api import make_word_graph
