In [1]:
from sklearn.metrics.pairwise import linear_kernel

import string
from nltk.stem.snowball import SnowballStemmer
from sklearn.feature_extraction.text import TfidfVectorizer


stemmer = SnowballStemmer("russian")

import pickle
import pandas as pd
import numpy as np

from sklearn.metrics.pairwise import cosine_similarity

In [29]:
cluster_embedding = pickle.load(open("cluster_embedding.pickle", "rb"))
cluster_embedd_data = pickle.load(open("cluster_embedd_data.pickle", "rb"))
clean_description_data = pickle.load(open("clean_description.pickle", "rb"))
event_type_embedding = pickle.load(open("event_type_embedding.pickle", "rb")) 
raw_embedding = pickle.load(open("raw_embedding.pickle", "rb")) 

In [3]:
russian_stop_words = {
    "words": [
        "а",
        "е",
        "и",
        "ж",
        "м",
        "о",
        "на",
        "не",
        "ни",
        "об",
        "но",
        "он",
        "мне",
        "мои",
        "мож",
        "она",
        "они",
        "оно",
        "мной",
        "много",
        "многочисленное",
        "многочисленная",
        "многочисленные",
        "многочисленный",
        "мною",
        "мой",
        "мог",
        "могут",
        "можно",
        "может",
        "можхо",
        "мор",
        "моя",
        "моё",
        "мочь",
        "над",
        "нее",
        "оба",
        "нам",
        "нем",
        "нами",
        "ними",
        "мимо",
        "немного",
        "одной",
        "одного",
        "менее",
        "однажды",
        "однако",
        "меня",
        "нему",
        "меньше",
        "ней",
        "наверху",
        "него",
        "ниже",
        "мало",
        "надо",
        "один",
        "одиннадцать",
        "одиннадцатый",
        "назад",
        "наиболее",
        "недавно",
        "миллионов",
        "недалеко",
        "между",
        "низко",
        "меля",
        "нельзя",
        "нибудь",
        "непрерывно",
        "наконец",
        "никогда",
        "никуда",
        "нас",
        "наш",
        "нет",
        "нею",
        "неё",
        "них",
        "мира",
        "наша",
        "наше",
        "наши",
        "ничего",
        "начала",
        "нередко",
        "несколько",
        "обычно",
        "опять",
        "около",
        "мы",
        "ну",
        "нх",
        "от",
        "отовсюду",
        "особенно",
        "нужно",
        "очень",
        "отсюда",
        "в",
        "во",
        "вон",
        "вниз",
        "внизу",
        "вокруг",
        "вот",
        "восемнадцать",
        "восемнадцатый",
        "восемь",
        "восьмой",
        "вверх",
        "вам",
        "вами",
        "важное",
        "важная",
        "важные",
        "важный",
        "вдали",
        "везде",
        "ведь",
        "вас",
        "ваш",
        "ваша",
        "ваше",
        "ваши",
        "впрочем",
        "весь",
        "вдруг",
        "вы",
        "все",
        "второй",
        "всем",
        "всеми",
        "времени",
        "время",
        "всему",
        "всего",
        "всегда",
        "всех",
        "всею",
        "всю",
        "вся",
        "всё",
        "всюду",
        "г",
        "год",
        "говорил",
        "говорит",
        "года",
        "году",
        "где",
        "да",
        "ее",
        "за",
        "из",
        "ли",
        "же",
        "им",
        "до",
        "по",
        "ими",
        "под",
        "иногда",
        "довольно",
        "именно",
        "долго",
        "позже",
        "более",
        "должно",
        "пожалуйста",
        "значит",
        "иметь",
        "больше",
        "пока",
        "ему",
        "имя",
        "пор",
        "пора",
        "потом",
        "потому",
        "после",
        "почему",
        "почти",
        "посреди",
        "ей",
        "два",
        "две",
        "двенадцать",
        "двенадцатый",
        "двадцать",
        "двадцатый",
        "двух",
        "его",
        "дел",
        "или",
        "без",
        "день",
        "занят",
        "занята",
        "занято",
        "заняты",
        "действительно",
        "давно",
        "девятнадцать",
        "девятнадцатый",
        "девять",
        "девятый",
        "даже",
        "алло",
        "жизнь",
        "далеко",
        "близко",
        "здесь",
        "дальше",
        "для",
        "лет",
        "зато",
        "даром",
        "первый",
        "перед",
        "затем",
        "зачем",
        "лишь",
        "десять",
        "десятый",
        "ею",
        "её",
        "их",
        "бы",
        "еще",
        "при",
        "был",
        "про",
        "процентов",
        "против",
        "просто",
        "бывает",
        "бывь",
        "если",
        "люди",
        "была",
        "были",
        "было",
        "будем",
        "будет",
        "будете",
        "будешь",
        "прекрасно",
        "буду",
        "будь",
        "будто",
        "будут",
        "ещё",
        "пятнадцать",
        "пятнадцатый",
        "друго",
        "другое",
        "другой",
        "другие",
        "другая",
        "других",
        "есть",
        "пять",
        "быть",
        "лучше",
        "пятый",
        "к",
        "ком",
        "конечно",
        "кому",
        "кого",
        "когда",
        "которой",
        "которого",
        "которая",
        "которые",
        "который",
        "которых",
        "кем",
        "каждое",
        "каждая",
        "каждые",
        "каждый",
        "кажется",
        "как",
        "какой",
        "какая",
        "кто",
        "кроме",
        "куда",
        "кругом",
        "с",
        "т",
        "у",
        "я",
        "та",
        "те",
        "уж",
        "со",
        "то",
        "том",
        "снова",
        "тому",
        "совсем",
        "того",
        "тогда",
        "тоже",
        "собой",
        "тобой",
        "собою",
        "тобою",
        "сначала",
        "только",
        "уметь",
        "тот",
        "тою",
        "хорошо",
        "хотеть",
        "хочешь",
        "хоть",
        "хотя",
        "свое",
        "свои",
        "твой",
        "своей",
        "своего",
        "своих",
        "свою",
        "твоя",
        "твоё",
        "раз",
        "уже",
        "сам",
        "там",
        "тем",
        "чем",
        "сама",
        "сами",
        "теми",
        "само",
        "рано",
        "самом",
        "самому",
        "самой",
        "самого",
        "семнадцать",
        "семнадцатый",
        "самим",
        "самими",
        "самих",
        "саму",
        "семь",
        "чему",
        "раньше",
        "сейчас",
        "чего",
        "сегодня",
        "себе",
        "тебе",
        "сеаой",
        "человек",
        "разве",
        "теперь",
        "себя",
        "тебя",
        "седьмой",
        "спасибо",
        "слишком",
        "так",
        "такое",
        "такой",
        "такие",
        "также",
        "такая",
        "сих",
        "тех",
        "чаще",
        "четвертый",
        "через",
        "часто",
        "шестой",
        "шестнадцать",
        "шестнадцатый",
        "шесть",
        "четыре",
        "четырнадцать",
        "четырнадцатый",
        "сколько",
        "сказал",
        "сказала",
        "сказать",
        "ту",
        "ты",
        "три",
        "эта",
        "эти",
        "что",
        "это",
        "чтоб",
        "этом",
        "этому",
        "этой",
        "этого",
        "чтобы",
        "этот",
        "стал",
        "туда",
        "этим",
        "этими",
        "рядом",
        "тринадцать",
        "тринадцатый",
        "этих",
        "третий",
        "тут",
        "эту",
        "суть",
        "чуть",
        "тысяч",
    ]
}

In [4]:
def tokenize_text(text):
    words = text.split()
    # remove punctuation from each word
    table = str.maketrans('', '', string.punctuation)
    stripped = [w.translate(table).lower() for w in words]
    removed = [word for word in stripped if word not in set(russian_stop_words["words"])]
    stemmed = [stemmer.stem(word) for word in removed]
    return " ".join(stemmed)

In [5]:
def get_direction_set(request):
    cl_embd_arr = np.array([element for element in event_type_embedding["embedd_vector"].values])
    X = np.concatenate((cl_embd_arr, request.reshape(-1, 605)))
    answer = [(idx, val) for idx, val in enumerate(cosine_similarity(X)[-1])]
    answer = sorted(answer, key=lambda x: x[1], reverse=True)
    answer_cluster = [i[0] for i in answer[1:3]]
    idx_in_merged = event_type_embedding.reset_index().iloc[answer_cluster]["index"].values
    directions = np.unique(merged.iloc[idx_in_merged]["Направленность мероприятия"])
    return merged[merged["Направленность мероприятия"].isin(directions)]

In [6]:
path = "../final_data/Мероприятия.csv"
events = pd.read_csv(
    path,
    usecols=[
        "Название мероприятия",
        "Тип мероприятия",
        "Направленность мероприятия",
        "Краткое описание",
        "Округ",
        "Район",
        "Возрастной ценз участников мероприятия",
        "Возрастная категория",
#         "Целевая аудитория",
    ],
)

In [7]:
merged = pd.merge(events, event_type_embedding, on='Направленность мероприятия', suffixes=('', '_y'))

In [8]:
def get_event(embed_vector, request_words, request_age):
    hint_dir = get_direction_set(embed_vector)
    direction = hint_dir.copy()
    direction["low"] = direction["Возрастная категория"].apply(
        lambda x: int(x.split()[1])
    )
    direction["high"] = direction["Возрастная категория"].apply(
        lambda x: int(x.split()[3]) if len(x.split()) == 4 else 999
    )
    l = clean_description_data.iloc[
        direction[
            (direction.high >= request_age) & (direction.low <= request_age)
        ].index
    ].values.tolist()
    tokenized_request = tokenize_text(" ".join(request_words))
    l.append(tokenized_request)
    tfidf = TfidfVectorizer().fit_transform(l)
    cosine_similarities = linear_kernel(tfidf[-1], tfidf).flatten()
    related_docs_indices = cosine_similarities.argsort()[:-100:-1]
    final_recommendation = list(related_docs_indices)
    final_recommendation.remove(len(l) - 1)
    return events.iloc[final_recommendation]

## Рекомендация мероприятия

In [9]:
def compose_embedd_vector(words, age):
    """
    Example:
    
    > words = np.array([[1, 2, 3], [-1, 0, 13], [0, 2, -3]])
    > array([[ 1,  2,  3],
             [-1,  0, 13],
             [ 0,  2, -3]])
           
    > age = np.array([1, 1, 1, 0, 0])
    > array([1, 1, 1, 0, 0])
    
    > compose_embedd_vector(words, age)
    > array([-1,  0, -3,  1,  2, 13,  1,  1,  1,  0,  0])
    """
    min_vec = words.min(axis=0)
    max_vec = words.max(axis=0)
    return np.concatenate((min_vec, max_vec, age))

In [31]:
request_input

array([[-0.03283267,  0.2921151 ,  1.1666206 , ...,  1.2755771 ,
         2.535543  , -0.35102656],
       [-0.46075466, -0.19277503,  1.7994509 , ...,  0.00861075,
         0.87804276,  0.6907732 ],
       [ 2.2398295 , -0.27968976,  2.5665412 , ..., -0.17124453,
        -1.2378899 , -1.0089998 ],
       [ 1.0332222 ,  0.28637198,  1.7357662 , ..., -2.1490061 ,
        -2.652315  , -1.8222717 ]], dtype=float32)

In [10]:
request_input = pickle.load(open("request_input.pickle", "rb"))

embed_vector = compose_embedd_vector(words=request_input, age=[1, 1, 1, 1, 1])
age_request = 19
request_words = ["новый", "рождество"]

In [12]:
result_events = get_event(embed_vector, request_words, 19)

In [28]:
print("Возможно вам также будет интересно посетить данные мероприятия:\n")
i = 1
for _, row in result_events.iterrows():
    descr = row["Краткое описание"]
    title = row["Название мероприятия"]
    discrict = str(row["Район"]) 
    area = str(row["Округ"])
    if descr == "nan":
        descr = ""
    if discrict == "nan":
        discrict = ""
    if area == "nan":
        area = ""
    if title == "nan":
        title = ""
    place = discrict + ", " + area
    age = row["Возрастной ценз участников мероприятия"]
    output = f"{i}) " + '"' + title + '"' + ", " + place + " (" + age + ")"
    output2 = f"Краткое описание: \t {descr}\n"
    i += 1
    print(output)
    print(output2)
    if i == 6:
        break

Возможно вам также будет интересно посетить данные мероприятия:

1) "Летопись блокадного Ленинграда", Щукино, Северо-Западный административный округ (12+)
Краткое описание: 	 27 января 1944 года была прорвана блокада Ленинграда, которая продолжалась 900 долгих дней и ночей. В память об этом событии в литературной гостиной пройдет военно – патриотическая композиция "Летопись блокадного Ленинграда". Гостям будет представлена электронная презентация с отрывками военной хроники о событиях тех дней. Можно будет прослушать симфонию № 7 Шестаковича.

2) "Танцевальная практика", Нагорный, Южный административный округ (18+)
Краткое описание: 	 Танцевальная практика по спортивным бальным танцам.

3) "Клуб "Взрослый хор "Увертюра"", Щукино, Северо-Западный административный округ (16+)
Краткое описание: 	 камерный взрослый хор

4) "В ожидании Рождества", Нагорный, Южный административный округ (18+)
Краткое описание: 	 Костюмированный историко-бытовой бал, посвященный Рождеству.

5) "Три истории, р

In [14]:
result_events.head()

Unnamed: 0,Название мероприятия,Тип мероприятия,Направленность мероприятия,Краткое описание,Округ,Район,Возрастной ценз участников мероприятия,Возрастная категория
2619,Летопись блокадного Ленинграда,"комплексное мероприятие, тематическая программа",патриотическое,27 января 1944 года была прорвана блокада Лени...,Северо-Западный административный округ,Щукино,12+,от 12 до 14
790,Танцевальная практика,"танцевальный вечер, бал",культурно-досуговое,Танцевальная практика по спортивным бальным та...,Южный административный округ,Нагорный,18+,от 18 до 85
3323,"Клуб ""Взрослый хор ""Увертюра""","комплексное мероприятие, тематическая программа",культурно-досуговое,камерный взрослый хор,Северо-Западный административный округ,Щукино,16+,от 17 до 99
514,В ожидании Рождества,"танцевальный вечер, бал",культурно-досуговое,"Костюмированный историко-бытовой бал, посвящен...",Южный административный округ,Нагорный,18+,от 30 до 90
5209,"Три истории, рассказанные на строгом карантине...","литературные чтения, декламация стихов, литера...",культурно-досуговое,Литературно-музыкальная композиция по новеллам...,,,16+,от 16 до 85
