In [19]:
from gensim.models.doc2vec import Doc2Vec
import numpy as np
import re

In [3]:
model = Doc2Vec.load('../models/vector_size_256__max_vocab_size_100000__epochs_120.model')

In [42]:
def cosine_similarity(vector1, vector2):
    dot_product = np.dot(vector1, vector2)
    norm_vector1 = np.linalg.norm(vector1)
    norm_vector2 = np.linalg.norm(vector2)
    similarity = dot_product / (norm_vector1 * norm_vector2)
    return similarity

def euclidean_distance(vector1, vector2):
    squared_diff = np.power(vector1 - vector2, 2)
    sum_squared_diff = np.sum(squared_diff)
    distance = np.sqrt(sum_squared_diff)
    return distance

def preprocess_doc(text):
    text = re.sub(r'[^ა-ჰ ]', ' ', text)
    text = re.sub(r' +', ' ', text)
    lst = text.split()
    return lst
    

def get_similarity(news1, news2, model=model, distance='cosine'):
    list_of_list_of_words1 = preprocess_doc(news1)
    list_of_list_of_words2 = preprocess_doc(news2)
    
    vec1 = model.infer_vector(list_of_list_of_words1)
    vec2 = model.infer_vector(list_of_list_of_words2)
    
    if distance == 'euclidean':
        return -euclidean_distance(vec1, vec2)
    if distance == 'cosine':
        return cosine_similarity(vec1, vec2)

In [43]:
news1 = """გუშინ იყო აბსოლუტურად უტიფარი, ყოველგვარ ზღვარს გადასული განცხადებები და შეტევა იმ ადამიანების მიმართ, ვინც ჩათვალა, ხმა მიეცა კანდიდატებისთვის და შესრულებულიყო ევროკომისიის პრინციპული რეკომენდაცია, - ამის შესახებ გიორგი ვოლსკიმ განაცხადა. პარლამენტის პირველ ვიცე-სპიკერს მიაჩნია, რომ იმ ადამიანებზე, ვინც იუსტიციის უმაღლესი საბჭოს არამოსამართლე წევრების არჩევაში მიიღეს მონაწილეობა, ისევე როგორც თავად კანდიდატებზე შეტევა დაუმსახურებელი და უსაფუძვლო იყო.

„ეს ყველაფერი ლუსტრაციას ნიშნავდა, რომ რეკომენდაციის შესრულება არ არის „ნაცმოძრაობის“ „მებრძოლი კოალიციის“ ინტერესში. მათი მიზანია, რეკომენდაციები არ შესრულდეს და არ დაკომპლექტდეს იუსტიციის უმაღლესი საბჭო. ეს იმდენად ნათელი გახდა, რომ არ ვიცი, გუშინდელი სკანდალიდან როგორ შეიძლება გამოვიდნენ. თქვეს, რომ იყო გარიგება, ფული გადაიხადეს, ფული ჯოჯოხეთს ანათებს და ა.შ. სრულიად უნამუსო და უტიფარი განცხადებები გააკეთეს. არ შეიძლება, ასეთი გარიგება შემდგარიყო. ასეთი გარიგება არ ყოფილა, ეს არ არის „ნაცმოძრაობა“, რომელიც აღზევებული და დაკავებული იყო გარიგებებით და ხალხის დაშინებით, ინტრიგებით. მათ სხვა რესურსი არ ჰქონდათ. თუ ადამიანებმა გადაწყვიტეს, რომ საქართველოსთვის ასე უკეთესია, რომ რეკომენდაცია შესრულდეს, რატომ შეიძლება იმ იდეას უპირისპირდებოდეს, რაც აქვთ ხაბეიშვილსა და კეზერაშვილს“, - განაცხადა ვოლსკიმ.

იუსტიციის უმაღლესმა საბჭომ სამი არამოსამართლე წევრი აირჩია. ტრისტან ბენაშვილმა, გიორგი გზობავამ და ზურაბ გურასპაშვილმა 90-ზე მეტი ხმა მიიღეს. პარლამენტის პლენარულ სხდომაზე გამართული კენჭისყრის შედეგად, იუსტიციის უმაღლეს საბჭოში არსებული 5 არამოსამართლე წევრის ვაკანსიიდან მხოლოდ სამი ვაკანსია შეივსო. კენჭისყრაში ხუთმა ოპოზიციონერმა მიიღო მონაწილეობა. აქედან 4 ფრაქცია „ნაციონალური მოძრაობის“ წევრია. სამმა მათგანმა ფრაქცია დატოვა."""

In [44]:
news2 = """პარასკევს, 19 მაისს პარლამენტი განათლებისა და მეცნიერების მინისტრს, გიორგი ამილახვარს და შინაგან საქმეთა მინისტრს, ვახტანგ გომელაურს ინტერპელაციის წესით მოუსმენს. ამის შესახებ პარლამენტის თავმჯდომარემ შალვა პაპუაშვილმა ბიუროს დღევანდელ სხდომაზე განაცხადა.

რაც შეეხება ეკონომიკისა და მდგრადი განვითარების მინისტრს, ლევან დავითაშვილს, მას პარლამენტი ინტერპელაციის წესით, სექტემბრის ბოლოს მოუსმენს.

„ეკონომიკისა და მდგრადი განვითარების მინისტრი ჯანმრთელობის მდგომარეობის გამო, ვერ შეძლებს ინტერპელაციაზე მოსვლას, გუშინ მივიღეთ მისი ინფორმაცია. შესაბამისად, დაგეგმილი 3 ინტერპელაციის ნაცვლად, გვექნება ორი - განათლებისა და მეცნიერების და შინაგან საქმეთა მინისტრების. ეკონომიკისა და მდგრადი განვითარების მინისტრის ინტერპელაციის წესით მოსმენა გადაიწევს სექტემბრის ბოლო სასესიო კვირის პარასკევს“, - განაცხადა შალვა პაპუაშვილმა."""

In [69]:
get_similarity(news1, news2)

0.10194248