# Collocation Metrics (for Lemmatized Corpora)

In [45]:
import pathlib
import json
from src.corpus import Corpus
from src.metrics import cooccurrence as co


%load_ext autoreload
%autoreload 2

The autoreload extension is already loaded. To reload it, use:
  %reload_ext autoreload


In [46]:
# Put the path to the directory containing the corpus files here
CORPUSDIR = '/home/brunobrocai/Data/MoWiKo/Paper-themKorp/full'

files = pathlib.Path(CORPUSDIR).iterdir()
data = []
for file in files:
    with open(file, 'r') as f:
        doc = json.load(f)
        data.append(doc['lemmas'])
corpus = Corpus(data)

In [47]:
# Treating 'künstlich Intelligenz' as one token
corpus.treat_as_one(['künstlich', 'Intelligenz'], 'künstlich_Intelligenz')

In [49]:
cooccurrences = co.Cooccurrences(window_size=None)
cooccurrences.count_cooccurrences(corpus)

100%|██████████| 4389/4389 [06:50<00:00, 10.69it/s]  


In [50]:
print(cooccurrences.cooccurrence_table['künstlich_Intelligenz'])

{'künstlich_Intelligenz': 122, 'Bundestag': 1, 'lässt': 33, 'Auswirkung': 14, 'von': 122, 'ChatGPT': 47, 'auf': 113, 'Bildung': 2, 'untersuchen': 14, 'der': 122, 'wollen': 88, 'möglich': 31, 'Software': 35, 'und': 122, 'Forschungsbereich': 3, 'lassen': 49, 'wie': 101, 'Parlament': 2, 'mitteilen': 8, 'haben': 114, 'zuständig': 2, 'Ausschuss': 1, 'für': 122, 'Forschung': 22, 'ein': 122, 'Studie': 13, 'dazu': 59, 'in': 122, 'Auftrag': 2, 'geben': 87, 'demnach': 14, 'sollen': 100, 'sich': 117, 'Expertin': 10, 'Experte': 13, 'Institut': 8, 'Technikfolgenabschätzung': 1, 'Systemanalyse': 1, 'an': 113, 'Karlsruhe': 1, 'Technologie': 43, 'KIT': 1, 'kommend': 24, 'Woche': 44, 'mit': 121, 'Thema': 31, 'beschäftigen': 8, 'dabei': 66, 'sie': 94, 'etwa': 69, 'Entwicklungstrends': 1, 'Anwendungsszenarium': 1, 'ähnlich': 44, 'System': 43, 'Auge': 14, 'fassen': 6, 'unterschiedlich': 21, 'Bereich': 42, 'Wissenschaftssystem': 1, 'wir': 84, 'brauchen': 31, 'umfassend': 9, 'Überblick': 6, 'über': 100, 'te

In [51]:
co.calculate_logdice('künstlich_Intelligenz', 'ATPs', cooccurrences)

0.42027158604385484

In [57]:
all_logdice = {
    word: co.calculate_pmi('künstlich_Intelligenz', word, cooccurrences, 0.1)
    for word in cooccurrences.vocab
}


In [58]:
# Sort the words by their logdice score
sorted_logdice = sorted(all_logdice.items(), key=lambda x: x[1], reverse=True)
print(sorted_logdice[:50])

[('künstlich_Intelligenz', 6.566161361042437), ('Websuche', 5.875176449578379), ('Sprachmodell', 5.778646585457679), ('Sundar', 5.687031861313634), ('Suchmaschine', 5.678098021221443), ('OpenAI', 5.651465440260903), ('Bing', 5.63805070778197), ('Microsoft', 5.617759491625642), ('Sprachmodelle', 5.57877897066161), ('KI-System', 5.529921477900903), ('Chatbot', 5.444212419595041), ('Blogeintrag', 5.386268306916054), ('Trainingsdat', 5.349000832772172), ('Pichai', 5.308385648216466), ('Timnit', 5.2851475255882345), ('ausspucken', 5.259473160354122), ('Bender', 5.253482955536019), ('Emily', 5.227700956233121), ('Softwarekonzern', 5.164510260450562), ('KI-Forschung', 5.163804354606075), ('KI', 5.155759732067905), ('Intelligenz', 5.148478192955514), ('Funktionsweis', 5.1438052917742905), ('Start-ups', 5.139853549302143), ('sprachmodelle', 5.134920881413233), ('ChatGPT', 5.133850854553062), ('Konversation', 5.087297657795766), ('KI-Einsatz', 5.08389152614348), ('Word', 5.056616125000194), ('Al