#### **Import modules**

In [1]:
from typing import List

from gensim.models import Word2Vec
from nltk.tokenize import sent_tokenize

from utils import GeorgianWord2Vec
# nltk.download('punkt')

#### **Init word2vec model**

In [2]:
texts = [["გამარჯობა", "როგორ", "ხარ?"], ["რავი", "კარგად", "შენ?"]]

model = Word2Vec(sentences=texts, vector_size=100, window=5, min_count=1, workers=4)

model.save("word2vec.model")

## **Convert file into input format**

word2vec model gets list of list of strings as an input

In [3]:
def convert_file_into_input(file_path: str) -> List[List[str]]:
    # sentences_split_regex = "\. |!|\?"
    with open(file_path, 'r') as f:
        data = f.read()

    sentences = sent_tokenize(data)
    print(sentences)
    return [[word.strip() for word in sentence.split(" ")] for sentence in sentences]

In [4]:
data = convert_file_into_input("../data/data2.txt")

['ედუარდ შევარდნაძე \nედუარდ ამბროსის ძე შევარდნაძე (დ.', '25 იანვარი, 1928, სოფელი მამათი, ოზურგეთის მაზრა, საქართველოს სსრ — გ.', '7 ივლისი, 2014, თბილისი, საქართველო) — ქართველი პოლიტიკოსი და სახელმწიფო მოღვაწე.', '1972-1985 წლებში საქართველოს სსრ-ის კომპარტიის ცკ-ს პირველი მდივანი, 1985-1990 წლებში საბჭოთა კავშირის საგარეო საქმეთა მინისტრი, 1995–2003 წლებში საქართველოს პრეზიდენტი.', 'იყო სსრკ-ის IX-XI მოწვევების უმაღლესი საბჭოს დეპუტატი.', 'სოციალისტური შრომის გმირი (1981), სკკპ ცკ-ის პოლიტბიუროს წევრობის კანდიდატი (1978), წევრი 1985 წლის ივლისიდან.', '1964–1965 წლებში იყო საზოგადოებრივი წესრიგის დაცვის მინისტრის მოადგილე.', '1965–1972 წლებში საქართველოს სსრ შინაგან საქმეთა მინისტრი.', '1985 წელს შევარდნაძე სსრკ-ის საგარეო საქმეთა მინისტრად დაინიშნა.', '1990 წელს იგი გადადგა.', '1991 წელს მიხეილ გორბაჩოვის მიწვევით კვლავ დაუბრუნდა მინისტრის პოსტს.', '1992 წელს საქართველოს სახელმწიფო საბჭოს ხელმძღვანელი, 1992–1995 წლებში საქართველოს რესპუბლიკის პარლამენტის თავმჯდომარე.', 'მონაწილეობ

In [5]:
print(data)

[['ედუარდ', 'შევარდნაძე', 'ედუარდ', 'ამბროსის', 'ძე', 'შევარდნაძე', '(დ.'], ['25', 'იანვარი,', '1928,', 'სოფელი', 'მამათი,', 'ოზურგეთის', 'მაზრა,', 'საქართველოს', 'სსრ', '—', 'გ.'], ['7', 'ივლისი,', '2014,', 'თბილისი,', 'საქართველო)', '—', 'ქართველი', 'პოლიტიკოსი', 'და', 'სახელმწიფო', 'მოღვაწე.'], ['1972-1985', 'წლებში', 'საქართველოს', 'სსრ-ის', 'კომპარტიის', 'ცკ-ს', 'პირველი', 'მდივანი,', '1985-1990', 'წლებში', 'საბჭოთა', 'კავშირის', 'საგარეო', 'საქმეთა', 'მინისტრი,', '1995–2003', 'წლებში', 'საქართველოს', 'პრეზიდენტი.'], ['იყო', 'სსრკ-ის', 'IX-XI', 'მოწვევების', 'უმაღლესი', 'საბჭოს', 'დეპუტატი.'], ['სოციალისტური', 'შრომის', 'გმირი', '(1981),', 'სკკპ', 'ცკ-ის', 'პოლიტბიუროს', 'წევრობის', 'კანდიდატი', '(1978),', 'წევრი', '1985', 'წლის', 'ივლისიდან.'], ['1964–1965', 'წლებში', 'იყო', 'საზოგადოებრივი', 'წესრიგის', 'დაცვის', 'მინისტრის', 'მოადგილე.'], ['1965–1972', 'წლებში', 'საქართველოს', 'სსრ', 'შინაგან', 'საქმეთა', 'მინისტრი.'], ['1985', 'წელს', 'შევარდნაძე', 'სსრკ-ის', 'საგარეო', 'საქმე

In [6]:
geo_model = GeorgianWord2Vec()

Initializing data
Model created!


[nltk_data] Downloading package punkt to /home/avto/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [7]:
geo_model.train("../data/data2.txt")

['ედუარდ შევარდნაძე \nედუარდ ამბროსის ძე შევარდნაძე (დ.', '25 იანვარი, 1928, სოფელი მამათი, ოზურგეთის მაზრა, საქართველოს სსრ — გ.', '7 ივლისი, 2014, თბილისი, საქართველო) — ქართველი პოლიტიკოსი და სახელმწიფო მოღვაწე.', '1972-1985 წლებში საქართველოს სსრ-ის კომპარტიის ცკ-ს პირველი მდივანი, 1985-1990 წლებში საბჭოთა კავშირის საგარეო საქმეთა მინისტრი, 1995–2003 წლებში საქართველოს პრეზიდენტი.', 'იყო სსრკ-ის IX-XI მოწვევების უმაღლესი საბჭოს დეპუტატი.', 'სოციალისტური შრომის გმირი (1981), სკკპ ცკ-ის პოლიტბიუროს წევრობის კანდიდატი (1978), წევრი 1985 წლის ივლისიდან.', '1964–1965 წლებში იყო საზოგადოებრივი წესრიგის დაცვის მინისტრის მოადგილე.', '1965–1972 წლებში საქართველოს სსრ შინაგან საქმეთა მინისტრი.', '1985 წელს შევარდნაძე სსრკ-ის საგარეო საქმეთა მინისტრად დაინიშნა.', '1990 წელს იგი გადადგა.', '1991 წელს მიხეილ გორბაჩოვის მიწვევით კვლავ დაუბრუნდა მინისტრის პოსტს.', '1992 წელს საქართველოს სახელმწიფო საბჭოს ხელმძღვანელი, 1992–1995 წლებში საქართველოს რესპუბლიკის პარლამენტის თავმჯდომარე.', 'მონაწილეობ

In [8]:
geo_model.get_vector("ედუარდ")

array([ 8.1643676e-03, -4.4591543e-03, -1.0444396e-03,  1.0534358e-03,
       -1.2913145e-04,  1.0570713e-03,  6.1176503e-03,  6.9754940e-05,
       -3.2528238e-03, -1.5180908e-03,  5.8823801e-03,  1.4880507e-03,
       -7.0861797e-04,  9.4278455e-03, -4.9045859e-03, -7.8512577e-04,
        9.2376564e-03,  6.7075929e-03,  1.4992607e-03, -9.0213958e-03,
        1.1601972e-03, -2.3344939e-03,  9.3982210e-03,  1.1508130e-03,
        1.4581428e-03,  2.4173262e-03, -1.9026871e-03, -5.0768997e-03,
        2.5110913e-04, -2.0282972e-03,  6.6768732e-03,  9.0058623e-03,
       -6.9569418e-04,  2.9990876e-03, -6.1775837e-03,  1.7697901e-03,
       -7.0478679e-03, -8.7611089e-03, -6.0043093e-03, -9.0922192e-03,
        7.2139339e-03, -5.8105234e-03,  8.2578957e-03, -7.2271079e-03,
        3.4944424e-03,  9.6399905e-03, -7.8992425e-03, -9.9751223e-03,
       -4.3424852e-03, -2.5878176e-03, -2.8721674e-04, -8.9532863e-03,
       -8.6896978e-03,  2.8599640e-03, -8.2623195e-03, -9.0581868e-03,
      