## Install libraries

In [None]:
#!pip install pymorphy2
#!python -m nltk.downloader all
#!pip install sentence_transformers
#!pip install sentence_transformers
#!pip install transformers
#!pip install nltk

## Import libraries

In [23]:
from tqdm import tqdm
import pandas as pd
import numpy as np
import re
import string 
import nltk
import pymorphy2
from nltk import word_tokenize
from nltk.corpus import stopwords
from nltk.stem import SnowballStemmer
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
from nltk import word_tokenize
import pickle
import torch
from transformers import AutoTokenizer, AutoModel
from sentence_transformers import SentenceTransformer
from sklearn.metrics.pairwise import cosine_similarity
#from deep_translator import GoogleTranslator
tqdm.pandas()

In [None]:
import os
import sys 
sys.path.append(os.path.abspath("./milib/"))

from preprocessing import add_punctuation, specific_cleaning, html_cleaning, preprocessing
from models_fit_save_load import tfidf_fit_save, tfidf_load_model, ruBERT_download_save
from models_fit_save_load import ruBERT_load, LaBSE_load, make_embeddings
from recomendations import make_tfidf_recomendation, make_recomendation, make_labse_recomendation

## Download data

In [13]:
#data = pd.read_csv('../data/data_full_translation.csv')
#data_preproc = pd.read_csv('../data/data_full_translation_preprocess.csv')

In [None]:
data_orig = pd.read_csv('../data/data_orig.csv')
del_index = np.load('../data/del_index')
data_orig = data_orig.drop(index=del_index)
del_ind = data_orig[data_orig['description'].apply(lambda x: len(x)<21 if type(x)==str else True)][data_orig['description'].notna()].index
data_orig.loc[del_ind,'description'] = np.nan


## Preprocessing

Removing misleading rows based on preliminary data analysis.

In [None]:
#data = specific_cleaning(dataframe)

Delete most frequent html symbols

In [26]:
data['title'] = data['title'].apply(lambda x: html_cleaning(x) if type(x)==str else x)
data['description'] = data['description'].apply(lambda x: html_cleaning(x) if type(x)==str else x)

Add dot at the end of the text if there are no punctuation marks in it.

In [27]:
data['title'] = add_punctuation(data['title'])
data['description'] = add_punctuation(data['description'])

Translate text with english letters.

In [None]:
def translate(text):
    return GoogleTranslator(source='en', target='ru').translate(GoogleTranslator(source='ru', target='en').translate(seq))

error_list = []
for i in tqdm(np.arange(0,len(data))):
    seq = data.loc[i,'title']
    if type(seq) == str and search_eng(seq):
       try: 
         text = translate(seq)
         data.loc[i,'title'] = text
       except:
         error_list += [i]

In [None]:
def translate(text):
    return GoogleTranslator(source='en', target='ru').translate(GoogleTranslator(source='ru', target='en').translate(seq))


for i in tqdm(np.arange(0,len(data))):
    seq = data.loc[i,'description']
    if type(seq) == str and search_eng(seq):
       try: 
         text = translate(seq)
         data.loc[i,'description'] = text
       except:
         error_list += [i]

Rows witn index in error_list should be translate. 

In [None]:
error_list

Text preprocessing: lowing, lemmatization, stemming

In [None]:
data['title'] = data['title'].progress_apply(lambda x: preprocessing(x) if type(x)==str else x)
data['description'] = data['description'].progress_apply(lambda x: preprocessing(x) if type(x)==str else x)

Combine the title and description together

In [28]:
data['description'] = data['description'].apply(lambda x: x if type(x)==str else '')
data['full_text'] = data['title'] + ' ' + data['description']

## Approaches

### 1. TF-IDF

Creating models and matrices for statistical analysis (tf-idf)

In [None]:
tfidf_fit_save(data['title'], 'title_tfidf_12')
tfidf_fit_save(data['title'], 'title_tfidf_1', (1,1))
tfidf_fit_save(data['title'], 'title_tfidf_2', (2,2))
tfidf_fit_save(data['full_text'], 'full_tfidf_12')
tfidf_fit_save(data['full_text'], 'full_tfidf_1', (1,1))
tfidf_fit_save(data['full_text'], 'full_tfidf_2', (2,2))

In [None]:
tfidf_fit_save(data_preproc['title'], 'title_tfidf_12_preproc')
tfidf_fit_save(data_preproc['title'], 'title_tfidf_1_preproc', (1,1))
tfidf_fit_save(data_preproc['title'], 'title_tfidf_2_preproc', (2,2))
tfidf_fit_save(data_preproc['full_text'], 'full_tfidf_12_preproc')
tfidf_fit_save(data_preproc['full_text'], 'full_tfidf_1_preproc', (1,1))
tfidf_fit_save(data_preproc['full_text'], 'full_tfidf_2_preproc', (2,2))

### 2. Pretrained models

Download and save different types of models and tokenizers

In [None]:
ruBERT_download_save()

#### 2.1 ruBERT

Make embeddings for all types of models

In [None]:
model, tokenizer = ruBERT_load(name='ruBERT_tiny')
model.to('cuda')
all_embeddings = []
for i in tqdm(range(0,len(data))):
    all_embeddings.append(make_embeddings(data.iloc[i,:]['full_text'], model, tokenizer))

np.save('../embeddings/embeddings_ruBERT_tiny', np.array(all_embeddings))

all_embeddings = []
for i in tqdm(range(0,len(data_preproc))):
    all_embeddings.append(make_embeddings(data_preproc.iloc[i,:]['full_text'], model, tokenizer))

np.save('../embeddings/embeddings_ruBERT_tiny_preproc', np.array(all_embeddings))

In [None]:
model, tokenizer = ruBERT_load(name='ruBERT_base')
model.to('cuda')
all_embeddings = []
for i in tqdm(range(0,len(data))):
    all_embeddings.append(make_embeddings(data.iloc[i,:]['full_text'], model, tokenizer))

np.save('../embeddings/embeddings_ruBERT_base', np.array(all_embeddings))

all_embeddings = []
for i in tqdm(range(0,len(data_preproc))):
    all_embeddings.append(make_embeddings(data_preproc.iloc[i,:]['full_text'], model, tokenizer))

np.save('../embeddings/embeddings_ruBERT_base_preproc', np.array(all_embeddings))

In [None]:
model, tokenizer = ruBERT_load(name='ruBERT_threeway')
model.to('cuda')
all_embeddings = []
for i in tqdm(range(0,len(data))):
    all_embeddings.append(make_embeddings(data.iloc[i,:]['full_text'], model, tokenizer))

np.save('../embeddings/embeddings_ruBERT_threeway', np.array(all_embeddings))

all_embeddings = []
for i in tqdm(range(0,len(data_preproc))):
    all_embeddings.append(make_embeddings(data_preproc.iloc[i,:]['full_text'], model, tokenizer))

np.save('../embeddings/embeddings_ruBERT_threeway_preproc', np.array(all_embeddings))

Mounted at /content/drive


In [None]:
model, tokenizer = ruBERT_load(name='ruBERT_tiny_bilingual')
model.to('cuda')
all_embeddings = []
for i in tqdm(range(0,len(data))):
    all_embeddings.append(make_embeddings(data.iloc[i,:]['full_text'], model, tokenizer))

np.save('../embeddings/embeddings_ruBERT_tiny_bilingual', np.array(all_embeddings))

all_embeddings = []
for i in tqdm(range(0,len(data_preproc))):
    all_embeddings.append(make_embeddings(data_preproc.iloc[i,:]['full_text'], model, tokenizer))

np.save('../embeddings/embeddings_ruBERT_tiny_bilingual', np.array(all_embeddings))

#### 2.2 LaBSE (Multilingual Embedding Model)

In [None]:
model = SentenceTransformer('sentence-transformers/LaBSE')
all_embeddings = model.encode(data['full_text'], show_progress_bar=True)

np.save('../embeddings/LaBSE', np.array(all_embeddings))

all_embeddings = model.encode(data['full_text'], show_progress_bar=True)

np.save('../embeddings/LaBSE_preproc', np.array(all_embeddings))

### 3. Experiment

#### 3.1 TF_IDF recomendations

##### 3.1.1 Text without preprocessing

In [31]:
model_title_tfidf_12, matrix_title_tfidf_12 = tfidf_load_model('title_tfidf_12')
model_title_tfidf_1, matrix_title_tfidf_1 = tfidf_load_model('title_tfidf_1')
model_title_tfidf_2, matrix_title_tfidf_2 = tfidf_load_model('title_tfidf_2')
model_full_tfidf_12, matrix_full_tfidf_12 = tfidf_load_model('full_tfidf_12')
model_full_tfidf_1, matrix_full_tfidf_1 = tfidf_load_model('full_tfidf_1')
model_full_tfidf_2, matrix_full_tfidf_2 = tfidf_load_model('full_tfidf_2')

model_title_tfidf_12_preproc, matrix_title_tfidf_12_preproc = tfidf_load_model('title_tfidf_12_preproc')
model_title_tfidf_1_preproc, matrix_title_tfidf_1_preproc = tfidf_load_model('title_tfidf_1_preproc')
model_title_tfidf_2_preproc, matrix_title_tfidf_2_preproc = tfidf_load_model('title_tfidf_2_preproc')
model_full_tfidf_12_preproc, matrix_full_tfidf_12_preproc = tfidf_load_model('full_tfidf_12_preproc')
model_full_tfidf_1_preproc, matrix_full_tfidf_1_preproc = tfidf_load_model('full_tfidf_1_preproc')
model_full_tfidf_2_preproc, matrix_full_tfidf_2_preproc = tfidf_load_model('full_tfidf_2_preproc')

In [48]:
make_tfidf_recomendation(matrix_title_tfidf_12, 'инженерное налогообложение', model_title_tfidf_12, data, data_orig)

Unnamed: 0,title,description
0,Двойное налогообложение в России,Российские компании активно работают на зарубе...
1,инженерное будущее: создание удивительного,"узнайте, какие ключевые навыки и знания, котор..."
2,добыча в целях развития: налогообложение рычаж...,"налоговые доходы, скорее всего, будет основным..."
3,Налоги и налогообложение: специальные налоговы...,
4,"Промышленность, инженерное образование и наука...",<p><br></p>\r\n
5,"Промышленность, инженерное образование и наука...",
6,"Что такое ETF: инвестиции, особенности, разнов...",Разумная диверсификация активов помогает распр...
7,Защита мира: Вводя коррозии и инженерное дело,
8,Открытие ВКС-конференции &quot;Современное инж...,
9,Логистический оператор Alibaba запустил в Кита...,"Беспилотники сами прокладывают маршрут, но пок..."


In [49]:
make_tfidf_recomendation(matrix_full_tfidf_12, 'инженерное налогообложение', model_full_tfidf_12, data, data_orig)

False

In [50]:
make_tfidf_recomendation(matrix_title_tfidf_1, 'инженерное налогообложение', model_title_tfidf_1, data, data_orig)

Unnamed: 0,title,description
0,Двойное налогообложение в России,Российские компании активно работают на зарубе...
1,инженерное будущее: создание удивительного,"узнайте, какие ключевые навыки и знания, котор..."
2,"Промышленность, инженерное образование и наука...",<p><br></p>\r\n
3,"Промышленность, инженерное образование и наука...",
4,добыча в целях развития: налогообложение рычаж...,"налоговые доходы, скорее всего, будет основным..."
5,Налоги и налогообложение: специальные налоговы...,
6,"Что такое ETF: инвестиции, особенности, разнов...",Разумная диверсификация активов помогает распр...
7,Защита мира: Вводя коррозии и инженерное дело,
8,Открытие ВКС-конференции &quot;Современное инж...,
9,Логистический оператор Alibaba запустил в Кита...,"Беспилотники сами прокладывают маршрут, но пок..."


In [51]:
make_tfidf_recomendation(matrix_full_tfidf_1, 'инженерное налогообложение', model_full_tfidf_1, data, data_orig)

Unnamed: 0,title,description
0,"Промышленность, инженерное образование и наука...",
1,"Промышленность, инженерное образование и наука...",<p><br></p>\r\n
2,Налоги и налогообложение: специальные налоговы...,
3,Защита мира: Вводя коррозии и инженерное дело,
4,Открытие ВКС-конференции &quot;Современное инж...,
5,Инженерное образование школьников: когда начин...,Когда нужно начинать инженерное образование де...
6,"Что такое ETF: инвестиции, особенности, разнов...",Разумная диверсификация активов помогает распр...
7,Отсрочка маркировки обуви: как работать до 1 и...,"Правительство дало обувникам квартал на то, чт..."
8,Двойное налогообложение в России,Российские компании активно работают на зарубе...
9,Мехатроника и робототехника,<p>Современное инженерное образование расширяе...


In [52]:
make_tfidf_recomendation(matrix_title_tfidf_2, 'инженерное налогообложение', model_title_tfidf_2, data, data_orig)

False

In [53]:
make_tfidf_recomendation(matrix_full_tfidf_2, 'инженерное налогообложение', model_full_tfidf_2, data, data_orig)

False

##### 3.1.2 Text with preprocessing

In [54]:
make_tfidf_recomendation(matrix_title_tfidf_12_preproc, preprocessing('инженерное налогообложение'), model_title_tfidf_12_preproc, data_preproc, data_orig)

Unnamed: 0,title,description
0,Двойное налогообложение в России,Российские компании активно работают на зарубе...
1,Основы налогообложения бизнеса в России,
2,инженерная механика,вы заинтересованы в улучшении ваших механиков ...
3,Инженерная механика,"В курсе наглядно, в сочетании с математической..."
4,Инженерная механика,"В курсе наглядно, в сочетании с математической..."
5,инженерная механика,"это базовый курс первого уровня, чтобы узнать ..."
6,инженерная математика ii,"этот курс об основной математике, является фун..."
7,инженерная математика - i,"этот курс об основной математике, является фун..."
8,инженерная графика,основной целью данного курса является: студент...
9,Налогообложение I хозяйствующих субъектов: Кор...,


In [55]:
make_tfidf_recomendation(matrix_full_tfidf_12_preproc, preprocessing('инженерное налогообложение'), model_full_tfidf_12_preproc, data_preproc, data_orig)

Unnamed: 0,title,description
0,Основы налогообложения бизнеса в России,
1,Налогообложение I хозяйствующих субъектов: Кор...,
2,Налоги и налогообложение: специальные налоговы...,
3,Налогообложение хозяйствующих субъектов II: Pa...,
4,Упрощенная система налогообложения станет еще ...,Госдумой в первом чтении приняты проекты закон...
5,Налогообложение в Российской Федерации: основа...,
6,Введение в инженерные механик,
7,Применение в инженерной механики,
8,Сэкономить на налогах — советы главного бухгал...,Пригодятся всем компаниям на основной системе ...
9,Двойное налогообложение в России,Российские компании активно работают на зарубе...


In [None]:
make_tfidf_recomendation(matrix_title_tfidf_2_preproc, preprocessing('инженерное налогообложение'), model_title_tfidf_2_preproc, data_preproc, data_orig)

False

In [None]:
make_tfidf_recomendation(matrix_full_tfidf_2_preproc, preprocessing('инженерное налогообложение'), model_full_tfidf_2_preproc, data_preproc, data_orig)

False

In [56]:
make_tfidf_recomendation(matrix_title_tfidf_1_preproc, preprocessing('инженерное налогообложение'), model_title_tfidf_1_preproc, data_preproc, data_orig)

Unnamed: 0,title,description
0,Основы налогообложения бизнеса в России,
1,Двойное налогообложение в России,Российские компании активно работают на зарубе...
2,инженерная математика ii,"этот курс об основной математике, является фун..."
3,инженерная математика - i,"этот курс об основной математике, является фун..."
4,инженерная механика,"это базовый курс первого уровня, чтобы узнать ..."
5,инженерная механика,вы заинтересованы в улучшении ваших механиков ...
6,Инженерная механика,"В курсе наглядно, в сочетании с математической..."
7,Инженерная механика,"В курсе наглядно, в сочетании с математической..."
8,Упрощенная система налогообложения станет еще ...,Госдумой в первом чтении приняты проекты закон...
9,инженерная графика,основной целью данного курса является: студент...


In [57]:
make_tfidf_recomendation(matrix_full_tfidf_1_preproc, preprocessing('инженерное налогообложение'), model_full_tfidf_1_preproc, data_preproc, data_orig)

Unnamed: 0,title,description
0,Основы налогообложения бизнеса в России,
1,Налоги и налогообложение: специальные налоговы...,
2,Упрощенная система налогообложения станет еще ...,Госдумой в первом чтении приняты проекты закон...
3,Налогообложение I хозяйствующих субъектов: Кор...,
4,Управление Основные Инженерные проекты,
5,Налогообложение в Российской Федерации: основа...,
6,Налогообложение хозяйствующих субъектов II: Pa...,
7,Введение в инженерные механик,
8,Сэкономить на налогах — советы главного бухгал...,Пригодятся всем компаниям на основной системе ...
9,Применение в инженерной механики,


In [58]:
model, tokenizer = ruBERT_load('ruBERT_tiny')
all_embeddings = np.load('../embeddings/embeddings_ruBERT_tiny.npy')
make_recomendation(all_embeddings, 'инженерное налогообложение', model, tokenizer, data, data_orig)

Unnamed: 0,title,description
0,Образовательный data engineering,
1,Инновационный менеджмент,
2,Поведенческие Инвестирование,
3,Статистические выводы,
4,Наука Осуществления,
5,Проектное финансирование,
6,Финансовые технологии,
7,Финансовые технологии,<p><br></p>\r\n
8,Развитие Drug,
9,Интеллектуальная обработка,


In [None]:
model, tokenizer = ruBERT_load('ruBERT_tiny')
all_embeddings = np.load('../embeddings/embeddings_ruBERT_tiny_preproc.npy')
make_recomendation(all_embeddings, 'инженерное налогообложение', model, tokenizer, data, data_orig)

In [75]:
model, tokenizer = ruBERT_load('ruBERT_threeway')
all_embeddings = np.load('../embeddings/embeddings_ruBERT_threeway.npy')
make_recomendation(all_embeddings, 'инженерное налогообложение', model, tokenizer, data, data_orig)

Unnamed: 0,title,description
0,Разбор стратегии автомарафона на 1 млн с запу...,
1,Налоговое право (Tax law),
2,"Кейс продвижения горчичного масла ""Горлинка""",
3,Современная комбинаторика (Modern combinatorics),
4,Эконометрика (Econometrics),
5,"Как растить маркетинг, не увеличивая стоимость...",
6,Введение ускорителей частиц (НПББ Mooc),
7,Макроэкономическое планирование и прогнозирова...,
8,Как развиваться в области ux/ui ?,Какие ресурсы есть для развития
9,Строительство R пакеты,


In [83]:
model, tokenizer = ruBERT_load('ruBERT_threeway')
all_embeddings = np.load('../embeddings/embeddings_ruBERT_threeway_preproc.npy')
make_recomendation(all_embeddings, 'инженерное налогообложение', model, tokenizer, data, data_orig)

Unnamed: 0,title,description
0,Финансовый анализ,
1,Финансовый менеджмент,
2,Финансовые технологии,<p><br></p>\r\n
3,Финансовые технологии,
4,Финансовые рынки,
5,Дизайн-мышление в инновационной деятельности,
6,Электронная музыка Производство,
7,Финансовый учет Основа,
8,Финансовый учет: Основы,
9,Тонкости верстки,


In [77]:
model, tokenizer = ruBERT_load('ruBERT_tiny_bilingual')
all_embeddings = np.load('../embeddings/embeddings_ruBERT_tiny_biling.npy')
make_recomendation(all_embeddings, 'инженерное налогообложение', model, tokenizer, data, data_orig)

Unnamed: 0,title,description
0,Электролиз медного купороса,
1,Финансовый анализ,
2,Динамическое Манипулирование: Вводная лекция 2,
3,Слезивый котик и новый питомец)),Больше фотографий котика здесь: https://vk.com...
4,Машинное обучение Алгоритмы: Контролируемая об...,
5,элон маск на страх,
6,Формальный Финансовый учет,
7,Финансовый отчет,
8,байесовская статистика,
9,Налоги и налогообложение: специальные налоговы...,


In [85]:
model, tokenizer = ruBERT_load('ruBERT_tiny_bilingual')
all_embeddings = np.load('../embeddings/embeddings_ruBERT_tiny_biling_preproc.npy')
make_recomendation(all_embeddings, 'инженерное налогообложение', model, tokenizer, data, data_orig)

Unnamed: 0,title,description
0,Финансы для всех: Debt,
1,Байесовская метода машинного обучения,
2,"Карьера, команда, инвестиции. Во что инвестиро...",<p><strong>На митапе обсудим:</strong></p>\r\n...
3,Налоги и налогообложение: специальные налоговы...,
4,fintech - финансовые инновации,"исследовать изменения, вызванные инновациями f..."
5,Почему бесплатный аудит сайта это плохо,
6,Методологические проблемы психологии,
7,Налогообложение в Российской Федерации: основа...,
8,Язык и инструменты финансового анализа,
9,Scholarly связи,


In [87]:
model, tokenizer = ruBERT_load('ruBERT_base')
all_embeddings = np.load('../embeddings/embeddings_ruBERT_base.npy')
make_recomendation(all_embeddings, 'инженерное налогообложение', model, tokenizer, data, data_orig)

Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


Unnamed: 0,title,description
0,Налоговое право (Tax law),
1,Машинное обучение в финансах,
2,Бюджетирование и ценообразование в ДПО,
3,Налоговое право,<p><br></p>\r\n
4,Правовое обеспечение бизнеса в России,
5,Финансовое планирование для молодых взрослых,
6,Создание и управление активами,
7,Международное управление портфелем,
8,Юридическое оформление инвестиционных идей,
9,Машинное обучение в бизнесе,


In [89]:
all_embeddings = np.load('../embeddings/embeddings_ruBERT_base_preproc.npy')
make_recomendation(all_embeddings, 'инженерное налогообложение', model, tokenizer, data, data_orig)

Unnamed: 0,title,description
0,Финансовый менеджмент,
1,Основы менеджмента,
2,Основы менеджмента,
3,Управление маркетингом я,
4,Язык и инструменты финансового анализа,
5,Территориальные механизмы поддержки для технол...,
6,Финансовый анализ,
7,Маркетинг в аналоговом мире,
8,Контент Менеджмент,
9,Анализ для бизнес-систем,


In [91]:
model = LaBSE_load()
model.to('cpu')
all_embeddings = np.load('../embeddings/LaBSE.npy')
make_labse_recomendation(all_embeddings, 'инженерное налогообложение', model, data, data_orig, number=10)

Unnamed: 0,title,description
0,Искусство налогового планирования,
1,Формальный Финансовый учет,
2,Институциональная экономика (Institutional eco...,
3,Математическое моделирование в инженерных науках,
4,Машинное обучение в финансах,
5,Финансовый отчет,
6,Введение в инженерные механик,
7,Программная инженерия,
8,Финансовый анализ,
9,Применение в инженерной механики,


In [93]:
all_embeddings = np.load('../embeddings/LaBSE_preproc.npy')
make_labse_recomendation(all_embeddings, 'инженерное налогообложение', model, data, data_orig, number=10)

Unnamed: 0,title,description
0,Основы бухгалтерского учета,
1,Формальный Финансовый учет,
2,Теория и практика эффективной коммуникации,
3,Финансовые технологии,<p><br></p>\r\n
4,Финансовые технологии,
5,Учет и финансы для ИТ-специалистов,
6,Анализ финансовой отчетности I: Роль бухгалтер...,
7,Финансовый учет: Основы,
8,Финансовый учет Основа,
9,Управление проектами Инжиниринг,


In [94]:
data_save =make_labse_recomendation(all_embeddings, 'инженерное налогообложение', model, data, data_orig, number=10)
data_save.to_csv('LaBSE_preproc.csv')

### Другие примеры запросов

In [64]:
model, tokenizer = ruBERT_load('ruBERT_base')
all_embeddings = np.load('../embeddings/embeddings_ruBERT_base.npy')
make_recomendation(all_embeddings, 'Как заработать денег не напрягаясь', model, tokenizer, data, data_orig)

Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


Unnamed: 0,title,description
0,Как конфликт сделать прибыльным?,
1,Как запустить зарубежные продажи не выходя из ...,
2,Как выделиться на переполненном рынке,
3,Как навести порядок в большом бизнесе с помощь...,
4,Куда идти за инвестициями обычному предпринима...,
5,Как начать свой бизнес,
6,Как выбрать ментора?,
7,Как оборудовать офис и не переплатить за железо,
8,"Как сдать PMP, не выходя из дома",
9,Как сделать сделку с корпорацией и не прогореть,


In [65]:
all_embeddings = np.load('../embeddings/embeddings_ruBERT_base_preproc.npy')
make_recomendation(all_embeddings, 'Как заработать денег не напрягаясь', model, tokenizer, data, data_orig)

Unnamed: 0,title,description
0,Как начать свой бизнес,
1,Как я выбираю акции в свой пенсионный портфель,
2,Как построить бизнес в фармацевтике,
3,Участие и Воспитывает стратегия маркетинга,
4,ГеоДизайн: Изменить Ваш мир,
5,Как вы привлекли своего первого клиента?,
6,Как финансировать ваше предприятие?,
7,Как меняется бизнес в условиях пандемии?,
8,Как потребители воспринимают бренд?,
9,"Как проверить идею до того, как вложиться в ра...",


In [66]:
model, tokenizer = ruBERT_load('ruBERT_threeway')
all_embeddings = np.load('../embeddings/embeddings_ruBERT_threeway.npy')
make_recomendation(all_embeddings, 'Как заработать денег не напрягаясь', model, tokenizer, data, data_orig)

Unnamed: 0,title,description
0,Как организовать работу дома с 2 детьми и не с...,
1,Какой бизнес нужен Иннополису?,Кто может заработать на развитии будущей ИТ-ст...
2,Как запустить зарубежные продажи не выходя из ...,
3,Разбор стратегии автомарафона на 1 млн с запу...,
4,"Как стать участником проекта ""Сколково""",
5,Как повысить удержание на вебинаре до 85-90%,Личный опыт.
6,Как с помощью онлайн-консультанта увеличить за...,
7,"Кейс продвижения горчичного масла ""Горлинка""",
8,"Бизнес-секреты ""Лед тронулся""",
9,«Аренда лофтов в Твери»: можно ли заработать н...,


In [67]:
model, tokenizer = ruBERT_load('ruBERT_base')
all_embeddings = np.load('../embeddings/embeddings_ruBERT_base.npy')
make_recomendation(all_embeddings, 'изучить линейную алгебру', model, tokenizer, data, data_orig)

Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


Unnamed: 0,title,description
0,Линейная алгебра: от идеи к формуле,
1,Последовательность моделей для временных рядов...,
2,Применение производной и интеграла в курсе общ...,
3,введение в дискретной математике,"в этом курсе, посвященном основам математики, ..."
4,Смешанные линейные модели,
5,Как сделать гипотезы связующим звеном для всех...,
6,Практический анализ временных рядов,
7,SQL для науки данных,
8,Обучение на размеченных данных,
9,"Абстракция, проблема декомпозиции, и функции",


In [68]:
all_embeddings = np.load('../embeddings/embeddings_ruBERT_base_preproc.npy')
make_recomendation(all_embeddings, 'изучить линейную алгебру', model, tokenizer, data, data_orig)

Unnamed: 0,title,description
0,Матрица Алгебра для инженеров,
1,Алгоритмы программирования и структуры данных,<p><br></p>\r\n
2,Вектор Исчисление для инженеров,
3,Усовершенствованные алгоритмы и сложность,
4,Сети Иллюстрированные: Принципы без Исчисление,
5,Основы программирования на R,<p><br></p>\r\n
6,Введение в перечислительной комбинаторики,
7,Основы программирования на C. Задачи.,
8,"Моделирование, анализ алгоритма и указатели",
9,Шесть Сигма Расширенный анализ Фазу,


In [69]:
model, tokenizer = ruBERT_load('ruBERT_threeway')
all_embeddings = np.load('../embeddings/embeddings_ruBERT_threeway.npy')
make_recomendation(all_embeddings, 'изучить линейную алгебру', model, tokenizer, data, data_orig)

Unnamed: 0,title,description
0,Оценить дизайн,Уважаемые коллеги!
1,Просто о статистике (с использованием R),
2,Знакомимся с основами HubSpot,
3,Более общее преобразование Лоренца,
4,Подумайте снова я: Как понять аргументы,
5,Добро пожаловать в теории игр,
6,Секреты принятия правильных решений в условиях...,
7,Подумайте еще раз II: Как Причина дедуктивным,
8,Аппроксимация алгоритмы Часть I,
9,Шесть Сигма Расширенный определения и измерени...,


In [70]:
model, tokenizer = ruBERT_load('ruBERT_base')
all_embeddings = np.load('../embeddings/embeddings_ruBERT_base.npy')
make_recomendation(all_embeddings, 'что бы почитать', model, tokenizer, data, data_orig)

Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


Unnamed: 0,title,description
0,"Что посмотреть, почитать и послушать для опера...",
1,Как относиться к жизни,
2,"Что нужно делать, чтобы не выгореть",
3,Как оборудовать офис и не переплатить за железо,
4,Как начать свой бизнес,
5,"Что почитать, когда только собираешься по пути...","Здравствуйте, человеки."
6,Как читать фотографию,
7,Как проверить вашу идею запуска,
8,Просто про страхование,
9,"Как сдать PMP, не выходя из дома",


In [71]:
all_embeddings = np.load('../embeddings/embeddings_ruBERT_base_preproc.npy')
make_recomendation(all_embeddings, 'что бы почитать', model, tokenizer, data, data_orig)

Unnamed: 0,title,description
0,Читали? Что полезного вынесли?,
1,Как читать фотографию,
2,"Хорошо, отдыхай",
3,Подумайте снова я: Как понять аргументы,
4,Где живет интернет? (Фото),
5,Что такое современное искусство?,
6,"Как проверить идею до того, как вложиться в ра...",
7,Как меняется бизнес в условиях пандемии?,
8,Сколько стоит подождать,
9,Серия 3. «Чем делать?»,


In [72]:
model, tokenizer = ruBERT_load('ruBERT_threeway')
all_embeddings = np.load('../embeddings/embeddings_ruBERT_threeway.npy')
make_recomendation(all_embeddings, 'что бы почитать', model, tokenizer, data, data_orig)

Unnamed: 0,title,description
0,Что за подсайт?,
1,Баг с галочкой,Здравствуйте.
2,Введение в С++,
3,Что за зверь?,
4,"Кайботт, ""Паркетчики""","Caillebotte, The Floor Scrapers"
5,"Бизнес-секреты ""Лед тронулся""",
6,Ключи от Доброго Углича,
7,Что нового?,
8,Какой бизнес нужен Иннополису?,Кто может заработать на развитии будущей ИТ-ст...
9,"Кайботт, ""Мужчина в ванной""","Caillebotte, Man at his Bath"
