In [None]:
import pandas as pd
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

# чтение файла с заголовками новостей
news_titles = pd.read_csv('unique.csv', header=None, names=['title'])

# нормализация заголовков
news_titles['title'] = news_titles['title'].apply(lambda x: x.lower())
news_titles['title'] = news_titles['title'].apply(lambda x: x.replace(r'\W+', ' ').replace(r'\d+', ''))

# создание объекта для вычисления TF-IDF
vectorizer = TfidfVectorizer()

# преобразование заголовков в матрицу TF-IDF
tfidf_matrix = vectorizer.fit_transform(news_titles['title'])

# вычисление косинусной схожести между заголовками
similarity_matrix = cosine_similarity(tfidf_matrix)

# функция для рекомендации похожих новостей
def find_similar_news(title, num_similar=5):
    # нормализация целевого заголовка
    title = title.lower()
    title = title.replace(r'\W+', ' ').replace(r'\d+', '')

    # вычисление TF-IDF для целевого заголовка
    title_tfidf = vectorizer.transform([title])

    # вычисление косинусной схожести с другими заголовками
    similarities = cosine_similarity(title_tfidf, tfidf_matrix)

    # возвращение индексов похожих новостей
    similar_indices = np.argsort(-similarities[0])[:num_similar]

    for i, index in enumerate(similar_indices):
      print(f"{news_titles.iloc[index]['title']} ({similarities[0][index]})")


In [None]:
t1 = 'Макрон объявил о роспуске Нацсобрания и назначил досрочные выборы'

t2 = 'Макрон назвал дату открытия отреставрированного Нотр-Дама'

t3 = 'Сестра Ким Чен Ына предупредила Сеул о риске эскалации «мусорной войны»'

t4 = 'В МИД России вызывали посла Австрии для выяснения претензий Вены'

t5 = 'Гладков предупредил жителей Белгородской области о «сложной опасности»'

In [None]:
similar_news1 = find_similar_news(t1)

пашинян объявил, что армения выйдет из одкб⁠  (0.26702240112421244)
«единая россия» выдвинула беглова на выборы губернатора санкт-петербурга  (0.2561106891259724)
глава республики алтай олег хорохордин объявил об отставке  (0.25090041638994104)
захарова напомнила о конституции сша из-за ситуации со скоттом риттером  (0.0)
на украине объяснили таран велосипедиста машиной эмоциями работников тцк  (0.0)


In [None]:
similar_news2 = find_similar_news(t2)

финляндия рассмотрит вопрос открытия сайменского канала в ближайшее время  (0.28286456179911323)
финляндия рассмотрит вопрос открытия канала в россию в ближайшее время  (0.28286456179911323)
посол ламбсдорфф назвал огромным интерес к россии в германии  (0.1719085588919363)
володин назвал мирный саммит в швейцарии «ангажированной сходкой»  (0.16825843430124796)
президент филиппин назвал главное качество урегулирования на украине  (0.16447198125753978)


In [None]:
similar_news3 = find_similar_news(t3)

шольц оценил угрозу эскалации при ударах по россии немецким оружием  (0.26186515742550004)
зеленский пообещал сделать все ради прекращения войны в секторе газа  (0.22349281888861255)
глава штаба обороны британии отверг неизбежность третьей мировой войны  (0.21926384008682423)
на украине объяснили таран велосипедиста машиной эмоциями работников тцк  (0.0)
миссия россии в оон показала дипломатам «сказку о царе салтане»  (0.0)


In [None]:
similar_news4 = find_similar_news(t4)

в мид россии вызывали посла австрии для выяснения претензий вены  (1.0000000000000002)
посла китая в иране вызвали в мид из-за позиции по спорным островам  (0.17166206859564714)
лавров назвал французских военных на украине законной целью для россии  (0.11904160709038511)
делимханов пообещал даванкову объяснить дресс-код для женщин в россии  (0.11639992167618271)
нидерланды не стали запрещать использование f-16 для ударов всу по россии  (0.10780680472913312)


In [None]:
similar_news5 = find_similar_news(t5)

в белгородской области уничтожили беспилотник  (0.36677277610218584)
в белгородской области объявили опасность атаки дронов  (0.3210046197117859)
губернатор рассказал о последствиях обстрела белгородской области  (0.31228851772248367)
в белгородской области на автобусах установят защиту от дронов  (0.26294864645240057)
в белгородской области погиб водитель атакованного дроном автомобиля  (0.2612318194523571)
