In [None]:
!pip install estnltk==1.4.1.1 --user

Loeb kõik paarid mällu

In [2]:
import pandas as pd
from os import listdir
from os.path import isfile, join
import xml.etree.ElementTree as ET
import ast
from collections import Counter
import time
import json

sample_data = [
    ("Raudam tasak", "biggest"),
    ("Belials jutt3", "smallest")
]

def read_files_from_dir_with_cache(dir):
    answer = Counter()
    for f in listdir(dir):
        if f.endswith(".json"):
            continue
        cache_location = join(dir, f + ".json")
        if isfile(join(dir, f)):
            if isfile(cache_location): 
                cache = open(cache_location, "r")
                answer += Counter(json.load(cache))
                cache.close()
            else:
                from estnltk import Text # 1.6.7 version was used here
                raw_data = Text(formatted_data(join(dir, f))).tag_layer(["words"])
                running_counter = Counter()
                for word in raw_data.words:
                    running_counter[word.text.lower()] += 1
                cache = open(cache_location, "w")
                json.dump(dict(running_counter), cache)
                answer += running_counter
                cache.close()
    return answer

def get_data(root):
    if len(root.getchildren()) == 0:
        if root.text:
            return root.text
        else:
            return ""
    data = ""
    for child in list(root.getchildren()):
        data += f"\n{get_data(child)}"
    return data

def formatted_data(filename):
    data = get_data(ET.parse(filename).getroot())
    return data

texts = [
    (
      name, 
      read_files_from_dir_with_cache(dir)
    ) for name, dir in sample_data
]

In [37]:
from estnltk.wordnet import wn
import re

def get_synonyms(word):
    return {synset for synset in wn.synsets(word)}

def get_hyperonyms(word):
    return {hyperonym for synset in wn.synsets(word) for hyperonym in synset.hypernyms()}

for name, text in texts:
    print(f"\n\n\n\n{name} failis 100 suurimat sõnade gruppi:\n")
    groups = dict()
    words = dict()
    word_reps = dict()
    
    # Generate a graph
    for word, reps in text.most_common(50000):
        if re.match("^[A-Za-z]*$", word):
            try:
                word_links = get_hyperonyms(word) | get_synonyms(word)
                for link in word_links:
                    if not groups.get(link):
                        groups[link] = set()
                    groups[link].add(word)
                words[word] = word_links
                word_reps[word] = reps
            except Exception:
                pass # unstable functions
    
    def traverse(word, groups, words, graph, used_words):
        for link in words[word]:
            for another in groups[link]:
                if another not in used_words:
                    used_words.add(another)
                    graph.add(another)
                    traverse(another, groups, words, graph, used_words)
    
    graphs = []
    used_words = set()
    for word in words.keys():
        if word not in used_words:
            used_words.add(word)
            graph = {word}
            traverse(word, groups, words, graph, used_words)
            graphs.append(graph)
    
    go = 100
    
    for graph in sorted(graphs, key=lambda x: len(x), reverse=True):
        
        if not go:
            break
        go -= 1
        
        
        name_choise = Counter()
        for elem in graph:
            for link in words[elem]:
                name_choise[link] += word_reps[elem]
        
        choise = name_choise.most_common(1)
        if choise:
            name = choise[0][0].lemmas()[0].name
            print(name, "- grupi elemendid: ", ', '.join(graph), "\n")
        else:
            continue






Raudam tasak failis 100 suurimat sõnade gruppi:

inimene - grupi elemendid:  intensiivne, helistaja, koht, laip, kataloog, selge, kommunist, vaene, kaitstus, lett, otstarve, tall, iseasi, umbusaldus, habemega, stsenaarium, pime, virn, president, originaal, aut, haavatu, oda, inimloomus, pihik, hommik, kontakt, minevik, moraalne, perekond, loom, vaatus, terrorist, kisa, hell, juuresolek, vihmasadu, liiklus, pettus, organisatsioon, naiivsus, kampsun, asjad, astronoom, juur, perfektne, august, aken, meistriteos, liige, vaatepilt, edvistaja, beebi, triloogia, krae, armukadedus, eeskuju, poeesia, ainuisikuline, selg, keel, pedofiilia, vastavus, neurasteenik, toime, kangelanna, loomuomane, portfell, eriline, massimeedia, inglane, erak, diplom, usklik, reaalne, vaba, andmed, tilk, hinnatud, haigushoog, ideoloogia, ajastu, pats, vedel, vedelik, kroon, kattumine, hoolitsemine, fantaasia, tapariist, kaheraudne, kirjaoskamatu, parandus, mart, peksmine, kogumine, maapind, peatoimetaja, ametnik

teadmine - grupi elemendid:  elu, pea, keha, aimus, teadmine, maa, maailm 

abstraktsioon - grupi elemendid:  variant, asi, tuli, kogu, vaheldus 

nõnda - grupi elemendid:  nii, nagu, mingi 

inimene - grupi elemendid:  oma, varandus, metsaline 

ometi - grupi elemendid:  ikkagi, veel, ikka 

kõlama - grupi elemendid:  helisema, tegema, looma 

torn - grupi elemendid:  torn, kellatorn 

olend - grupi elemendid:  koletis, hiiglane 

lahti - grupi elemendid:  lahti, valla 

aina - grupi elemendid:  alles, aina 

enam - grupi elemendid:  rohkem, enam 

tegu - grupi elemendid:  peatus, puude 

ilm - grupi elemendid:  tuul, ilm 

igivana - grupi elemendid:  iidne, vana 

suunas - grupi elemendid:  suunas, poole 

jääma - grupi elemendid:  seisma, olema 

tagasi - grupi elemendid:  tagasi, vastu 

ese - grupi elemendid:  kell 

ei - grupi elemendid:  ei 

kus - grupi elemendid:  kui 

kurjus - grupi elemendid:  kurjus 

midagi - grupi elemendid:  midagi 

käesolev - grupi elemendid:  see 

a

Tekkis väga suur grupp suurema teksti puhul ning see ei ütle meile väga midagi hetkel. Väiksema teksti puhul siiski andis see asjaliku vastuse

In [44]:
for name, text in texts:
    print(f"\n\n\n\n{name} failis 100 suurimat sõnade gruppi:\n")
    groups = dict()
    word_reps = dict()
    
    # Generate a graph
    for word, reps in text.most_common(50000):
        if re.match("^[A-Za-z]*$", word):
            try:
                word_links = get_hyperonyms(word) | get_synonyms(word)
                for link in word_links:
                    if not groups.get(link):
                        groups[link] = set()
                    groups[link].add(word)
                word_reps[word] = reps
            except Exception:
                pass # unstable functions
    
    used_words = set()
    sorted_groups = [(k, v) for k, v in sorted(groups.items(), key=lambda item: len(item))]
    disjoint_groups = []
    
    for key, value in sorted_groups:
        new_group = set()
        for word in value:
            if word not in used_words:
                used_words.add(word)
                new_group.add(word)
        disjoint_groups.append((key, new_group))
    
    
    go = 100
    
    for name, elems in sorted(disjoint_groups, key=lambda x: len(x[1]), reverse=True):
        
        if not go:
            break
        go -= 1
        
        if len(elems) > 0:
            res = [f"{x} ({word_reps[x]})" for x in elems]
            print(name.lemmas()[0].name, "- grupi elemendid: ", ', '.join(res), "\n")






Raudam tasak failis 100 suurimat sõnade gruppi:

inimene - grupi elemendid:  kadunuke (1), kana (2), kangelane (11), vaene (1), kaasa (74), persoon (1), allakirjutanu (2), korraldaja (1), masohhist (1), fanaatik (1), kaabakas (1), tuttav (21), mees (113), laureaat (1), kaotaja (1), tegelane (8), meesterahvas (1), kalts (1), haige (31), snoob (1), tuulelipp (3), keegi (220), puupea (1), must (26), oponent (1), armuke (10), hulkur (1), kiilaspea (1), tutvus (2), segavereline (1), kahtlusalune (1), kallim (4), abikaasa (3), naisterahvas (1), mask (4), eurooplane (1), rebane (1), paluja (1), kiindumus (3), figuur (2), tukunui (1), tulevane (4), edvistaja (1), okupant (1), kuulsus (2), blond (5), kubujuss (1), vaenlane (2), pirts (1), kuju (23), omad (8), putukas (2), toss (1), liliput (1), kandidaat (1), intellektuaal (2), aadlik (1), alluv (1), saaja (1), alaealine (1), naine (92), inimene (138), lurjus (3), sugulane (7), olija (1), oraakel (1), erak (1), allikas (1), usklik (1), koda

lahti - grupi elemendid:  lahti (1), valla (4) 

nõnda - grupi elemendid:  nii (3), nagu (1) 

looduslik objekt - grupi elemendid:  maailm (1), keha (1) 

igivana - grupi elemendid:  iidne (2), vana (1) 

teadmine - grupi elemendid:  aimus (1), teadmine (2) 

suunas - grupi elemendid:  suunas (1), poole (1) 

ometi - grupi elemendid:  ikkagi (1), ikka (1) 

tagasi - grupi elemendid:  tagasi (1), vastu (1) 

ese - grupi elemendid:  kell (8) 

ei - grupi elemendid:  ei (8) 

kus - grupi elemendid:  kui (7) 

kurjus - grupi elemendid:  kurjus (6) 

midagi - grupi elemendid:  midagi (6) 

hoone - grupi elemendid:  torn (5) 

torn - grupi elemendid:  kellatorn (1) 

koletis - grupi elemendid:  koletis (5) 

olend - grupi elemendid:  hiiglane (1) 

aina - grupi elemendid:  aina (4) 

aina - grupi elemendid:  alles (1) 

käesolev - grupi elemendid:  see (4) 

nõnda - grupi elemendid:  mingi (2) 

absoluutselt - grupi elemendid:  mitte (3) 

edasi - grupi elemendid:  edasi (3) 

enam - grupi e

### Hinnang

Wordnet andis päris head tulemused. Paar imelikku `hyperonym`'i siiski eksisteeris. Näiteks kana läks inimese gruppi
![image.png](attachment:image.png)

Graafi implementatsioon ei andnud parimaid tulemusi suure andmemahuga.
Aga grupid andsid päris hea ülevaate tekstist ning sisu kokkuvõtte saaks nendest järeldada.

Grupid on kujul: grupi nimi - elemendid: element1 (kordade arv), ...

