## Сравнение документов при помощи готовых моделей

In [3]:
import json

path = '../data/documents.json'
file = open(path)
data = json.load(file)

In [4]:
rpds = list(filter(lambda el: el['object_type'] == "rpd", data))
vacancies = list(filter(lambda el: el['object_type'] == "vacancy", data))
projects = list(filter(lambda el: el['object_type'] == "project", data))

print(f'total: {len(data)}')
print(f'rpds: {len(rpds)}')
print(f'vacancies: {len(vacancies)}')
print(f'projects: {len(projects)}')

total: 4733
rpds: 4670
vacancies: 22
projects: 41


In [5]:
# for vacancy in vacancies:
#     print('vacancy id: {}:\n|{}|\n\n'.format(vacancy['id'], vacancy['text']))
print(projects[0].keys())

dict_keys(['id', 'object_type', 'system_id', 'updated_at', 'root_id', 'text', 'is_active', 'created_at'])


In [6]:
import pandas as pd
import pymorphy2
import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords

In [7]:
nltk.download('punkt')
nltk.download('stopwords')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Andrey\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Andrey\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [8]:
def preprocess(text, stop_words, punctuation_marks, morph):
    tokens = word_tokenize(text.lower())
    preprocessed_text = []
    for token in tokens:
        if token not in punctuation_marks:
            lemma = morph.parse(token)[0].normal_form
            if lemma not in stop_words:
                preprocessed_text.append(lemma)
    return preprocessed_text

In [9]:
punctuation_marks = ['!', ',', '(', ')', ':', '-', '?', '.', '..', '...']
stop_words = stopwords.words("russian")
morph = pymorphy2.MorphAnalyzer()

In [10]:
vacancies_df = pd.DataFrame(vacancies)
rpds_df = pd.DataFrame(rpds)
projects_df = pd.DataFrame(projects)


In [11]:
data_df = pd.DataFrame(data)
data_df

Unnamed: 0,id,object_type,system_id,updated_at,root_id,text,is_active,created_at
0,11,rpd,102,2022-12-04 14:52:07.015145,,"Дисциплина посвящена изучению вопросов, связан...",True,2022-12-04 14:52:07.015132
1,12,rpd,101,2022-12-04 14:52:07.036244,,"В рамках дисциплины рассматриваются методы, ср...",True,2022-12-04 14:52:07.036225
2,13,rpd,103,2022-12-04 14:52:07.111377,,В дисциплине изучаются математические методы а...,True,2022-12-04 14:52:07.111363
3,14,rpd,104,2022-12-04 14:52:07.143323,16.0,Дисциплина Теория оптимального управления вклю...,True,2022-12-04 14:52:07.143313
4,15,rpd,105,2022-12-04 14:52:07.168986,,Дисциплина включает изложение основ теории ма...,True,2022-12-04 14:52:07.168972
...,...,...,...,...,...,...,...,...
4728,4739,vacancy,f753f1a9-7843-47c5-9880-e6dec4147034,2022-11-04 16:42:20.317272,,IT-рекрутер_HR-менеджер. Основные задачи: • По...,True,2022-11-02 13:24:50.375527
4729,4740,vacancy,71e63d91-09c6-435c-b1f7-dfd71027eec6,2022-11-04 16:42:19.680058,,Анализ факторов влияющих на посещаемость музея...,True,2022-11-02 13:24:49.792713
4730,4741,vacancy,910674f7-4b3a-4a96-ada6-ee21b2c158ee,2022-11-04 16:42:19.841199,,Senior Middle Java. Мы находимся в поиске Seni...,True,2022-11-02 13:24:49.950152
4731,4742,vacancy,ec6cdc46-5ed4-45d1-b63e-6ac0e3ff7de9,2022-11-04 16:42:20.269543,,Python разработчик. Мы находимся в поисках Pyt...,True,2022-11-02 13:24:50.316030


In [43]:
# data_df['preprocessed_texts'] = data_df.apply(lambda row: preprocess(row['text'], punctuation_marks, stop_words, morph), axis=1)

In [14]:
path = '../data/preprocessed_documents.json'
file = open(path)
data = json.load(file)
data_df_preprocessed = pd.DataFrame(data)

In [15]:
# data_df_preprocessed = data_df.copy()
# data_df_preprocessed = data_df_preprocessed.drop(columns=['text'], axis=1)
# data_df_preprocessed.to_json('../data/preprocessed_documents.json')
data_df_preprocessed

Unnamed: 0,id,object_type,system_id,updated_at,root_id,is_active,created_at,preprocessed_texts
0,11,rpd,102,2022-12-04 14:52:07.015145,,True,2022-12-04 14:52:07.015132,"[дисциплина, посвятить, изучение, вопрос, связ..."
1,12,rpd,101,2022-12-04 14:52:07.036244,,True,2022-12-04 14:52:07.036225,"[рамка, дисциплина, рассматриваться, метод, ср..."
2,13,rpd,103,2022-12-04 14:52:07.111377,,True,2022-12-04 14:52:07.111363,"[дисциплина, изучаться, математический, метод,..."
3,14,rpd,104,2022-12-04 14:52:07.143323,16.0,True,2022-12-04 14:52:07.143313,"[дисциплина, теория, оптимальный, управление, ..."
4,15,rpd,105,2022-12-04 14:52:07.168986,,True,2022-12-04 14:52:07.168972,"[дисциплина, включать, изложение, основа, теор..."
...,...,...,...,...,...,...,...,...
4728,4739,vacancy,f753f1a9-7843-47c5-9880-e6dec4147034,2022-11-04 16:42:20.317272,,True,2022-11-02 13:24:50.375527,"[it-рекрутер_hr-менеджер, основной, задача, •,..."
4729,4740,vacancy,71e63d91-09c6-435c-b1f7-dfd71027eec6,2022-11-04 16:42:19.680058,,True,2022-11-02 13:24:49.792713,"[анализ, фактор, влиять, посещаемость, музей, ..."
4730,4741,vacancy,910674f7-4b3a-4a96-ada6-ee21b2c158ee,2022-11-04 16:42:19.841199,,True,2022-11-02 13:24:49.950152,"[senior, middle, java, находиться, поиск, seni..."
4731,4742,vacancy,ec6cdc46-5ed4-45d1-b63e-6ac0e3ff7de9,2022-11-04 16:42:20.269543,,True,2022-11-02 13:24:50.316030,"[python, разработчик, находиться, поиск, pytho..."


In [16]:
import gensim.models

In [34]:
model = gensim.models.Word2Vec(sentences=data_df_preprocessed['preprocessed_texts'], min_count=5, vector_size=50)

In [35]:
model.wv['математический'] # векторы, полученные на основе обучения на нашем наборе данных

array([ 2.3181715 ,  4.605605  ,  2.5551908 ,  4.173063  , -0.6382585 ,
        4.443018  , -2.1147685 , -0.46268862,  2.3442128 ,  1.4718271 ,
        0.2194953 ,  3.0258842 ,  1.2247052 ,  0.68224597, -0.5159861 ,
       -2.163368  , -2.1668026 ,  1.3064817 , -1.7824103 , -1.5192627 ,
       -2.232511  ,  1.5958865 ,  0.15974459,  3.2888477 , -3.3941154 ,
       -1.6831477 ,  1.8843812 ,  0.18793312,  2.71934   , -1.6002241 ,
        2.5549467 , -3.9854624 , -2.3160799 ,  2.314663  ,  2.234469  ,
        0.41196415, -1.0704663 ,  1.1571988 ,  2.5300674 , -0.75100666,
        2.3408315 , -1.2521267 ,  0.65460664,  1.9548184 , -2.663189  ,
        0.4142887 ,  0.08554906,  0.14147036, -4.5714426 ,  0.01963229],
      dtype=float32)

In [36]:
model.wv.most_similar('senior')

[('gartner', 0.9661681652069092),
 ('intend', 0.9656432867050171),
 ('two', 0.9647153615951538),
 ('prospects', 0.9596914052963257),
 ('loan', 0.9561088681221008),
 ('further', 0.954853892326355),
 ('better', 0.9542441964149475),
 ('firmly', 0.9533686637878418),
 ('association', 0.9530463814735413),
 ('taking', 0.951275110244751)]

In [37]:
model.wv.most_similar('python')

[('php', 0.7783235907554626),
 ('numpy', 0.7726036906242371),
 ('c++', 0.766891360282898),
 ('с++', 0.7637012600898743),
 ('java', 0.760945737361908),
 ('prolog', 0.7583112120628357),
 ('gnu', 0.7560251355171204),
 ('vhdl', 0.7445977926254272),
 ('javascript', 0.7393010854721069),
 ('typescript', 0.7290501594543457)]

- $rpd \rightarrow projects$
- $vacancy \rightarrow projects$

In [79]:
# Сравним 10 rpd с проектами

# for i in range(10, 20):
# #     print(rpds_df['text'][i])
#     for project_text in projects_df['text']:
# #         print(project_text, end='\n\n')


In [38]:
vocab = []
for sub_set in data_df_preprocessed['preprocessed_texts']:
    vocab += sub_set



In [39]:
vocab = list(set(vocab))
print(len(vocab))

40342


In [None]:
import numpy as np
# rpd -> projects
sentences_similarity = np.zeros(projects_df['text'].size)

projects_lst = list(projects_df['text'])
# print(projects_lst)
for i in range(10, 20):
    target_sentence_words = [w for w in rpds_df['text'][i].split() if w in model.wv.index_to_key]
    for idx, sentence in enumerate(projects_lst):
        sentence_words = [w for w in sentence.split() if w in model.wv.index_to_key]
        sim = model.wv.n_similarity(target_sentence_words, sentence_words)
        sentences_similarity[idx] = sim
        
    result = list(zip(sentences_similarity, projects_lst))
    result.sort(key=lambda item:item[0], reverse=True)
    print("Target:\n", rpds_df['text'][i], '\n->\n')
    for res in result:
        print(res)


Target:
 Курс посвящен автоматической обработке и анализу видеоданных и изображений в интеллектуальных видеокомпьютерных медицинских системах. Основное внимание уделяется методам и алгоритмам цифровой обработки медицинских изображений и видеоданных, методам видеоаналитики, машинного обучения и анализа данных для решения задач обнаружения, сегментации, классификации объектов интереса. Изучаются методы глубокого обучения, а также смарт-технологии визуализации и формирования видеоизображений (создание панорамных изображений, визуализация изображений, сформированных в узких спектральных диапазонах, синтез изображений с учетом персональных особенностей пользователей и др). В рамках курса анализируются структуры и принципы функционирования реальных медицинских видеокомпьютерных систем, а также особенности обработки видеоданных в них. . Целью дисциплины является изучение принципов, методов обработки и анализа медицинских изображений и формирование умений и навыков решения задач видеоаналитики

Target:
 Автономные системы, являющиеся объектом изучения этой дисциплины, - это подвижные роботы, решающие сервисные задачи. Инженеры, разрабатывающие таких роботов, предоставляют интерфейс для низкоуровневого управления системами, поэтому программирование движения по нестандартным траекториям лежит на пользователе. В рамках этой дисциплины рассматриваются способы построения физичной траектории движения, особенности алгоритмов управления автономными системами, а также принципы устройства симуляторов.. Сформировать у обучающихся знания, умения и навыки обоснованного и результативного применения алгоритмов управления автономными системами. Обучить применению существующих алгоритмов теории управления, а также освоению новых методов и алгоритмов управления автономными системами. Дать знания о существующих методах и алгоритмах управления автономными системами. Дать умения разрабатывать алгоритмы управления автономными системами и применять методы компьютерного зрения для управления автоном

Target:
 Дисциплина знакомит с основными понятиями системного анализа, принципами системного подхода (конечности цели, единства, модульности построения, иерархии, функциональности, развития, децентрализации, неопределенности), основными методами построения и анализа моделей систем, методами планирования машинных экспериментов, языками моделирования и оптимизации систем.. Изучить основные понятия системного анализа, принципы системного подхода (конечности цели, единства, модульности построения, иерархии, функциональности, развития, децентрализации, неопределенности),. Овладение основными методами построения и анализа моделей систем, методами планирования машинных экспериментов, языками моделирования и оптимизации систем. Изучение основных логических методов и приемов научного исследования и методологической теории и принципов современной науки. Знание методологии построения моделей сложных систем и методов оптимизации и принятия проектных решений. Формирование методологического обоснова

Target:
 Данный курс знакомит слушателей с основами управления беспилотными автомобилями. Рассматриваются основные компоненты таких сиcтем: модели и методы восприятия информации при помощи сенсоров или человеко-машинного интерфейса; методы определения собственного положения на известной и неизвестной карте; методы планирования пути (в том числе на графах и не на графах); фреймворк, подходящий для разработки собственных решений для беспилотных транспортных средств. Данный курс знакомит с уровнями автономности беспилотных средств, с основами машинного обучения, в том числе при помощи нейросетей, операционной системой Robot Operating System, являющейся де-факто стандартным решением для многих роботов, в том числе бепилотных автомобилей. Курс позволяет освоить основные приёмы программирования в ROS, алгоритмов локализации и построения карты (SLAM), алгоритмов машинного зрения . Сформировать у обучающихся знания, умения и навыки обоснованного и результативного применения существующих методо

Target:
 Содержание дисциплины включает в себя изучение: основных моделей представления знаний и методов их обработки: логическая модель, продукционная модель, фреймы, семантические сети; основ организации, по-строения и использования экспертных систем; методов поиска решений в пространстве состояний; методов планирования действий в системах искусственного интеллекта. Лабораторный практикум ориентирован на исследование методов представления знаний и вывода во фрейм-продукционных системах, освоение методов управления выводом в экспертных системах, разработку экспертной системы на основе продукционных знаний, исследо-вание и реализацию поиска в пространстве состояний, моделей планирования действий в системах искусственного интеллекта. Изучение основных моделей представления знаний и методов их обработки, основ организации, построения и использования экспертных систем, методов поиска решений в пространстве состояний, методов планирования действий в системах искусственного интеллекта. Осво

Target:
 Целью дисциплины является формирование у студентов профессиональных знаний и практических навыков по организации и управлению консалтинговыми проектами в области информационных технологий.. Целью дисциплины является формирование у студентов профессиональных знаний и практических навыков по организации и управлению консалтинговыми проектами в области информационных технологий. Задачи дисциплины: 1). Получение знаний об особенностях жизненного цикла консалтингового проекта, стандартах в области консалтинговой деятельности и управления ИТ, о методах организации ИТ-аудита и разработки ИТ-стратегии предприятия, о способах организации ИТ-служб на предприятиях 2). Приобрести умения и навыки выполнять технико-экономическое обоснование эффективности инвестиций в ИТ, разрабатывать ИТ-стратегию предприятия, разрабатывать рекомендации по совершенствованию ИТ-архитектуры предприятия, разрабатывать политики в области создания и эксплуатации компонент ИТ-инфраструктуры, формировать требовани

Target:
 Дисциплина посвящена изучению основных принципов распределённых систем. В теоретической части курса рассматриваются вопросы о взаимодействии и синхронизации процессов, достижении непротиворечивости реплицируемых данных, обеспечении отказоустойчивости в распределенных системах. В процессе освоения дисциплины формируются практические навыки разработки распределенных приложений на объектно-ориентированном языке программирования Java с использованием различных моделей взаимодействия процессов. . Целью дисциплины является изучение принципов распределённых систем и формирование практических навыков разработки распределенных приложений с использованием различных моделей взаимодействия процессов. Получение теоретических знаний в области взаимодействия и синхронизации процессов, достижения непротиворечивости реплицируемых данных, обеспечения отказоустойчивости в распределенных системах. Формирование практических навыков разработки распределенных приложений на объектно-ориентированном я

Target:
 На заре робототехники каждый разработчик робота был вынужден разрабатывать собственные библиотеки для управления роботом. В современном мире существует множество библиотек, упрощающих этот процесс. Существуют библиотеки и фреймворки, ориентированные на общие робототехнические задачи. Кроме того, есть библиотеки, имеющие более узкую цель, например, эффективная передача информации от узла к узлу. В рамках данного курса слушатели познакомятся с некоторыми из популярных библиотек для разработки программного обеспечения для мобильных роботов.. Освоение практических аспектов и получение опыта в работе с инфраструктурой разработки ПО для мобильных роботов. Приобретение студентами и закрепление у них практических навыков работы в исследовательской группе, выполняющей прикладные исследования в конкретной области, включающие в себя постановку задачи, выбор инструментов и методов ее решения, компьютерную реализацию этих методов и содержательную интерпретацию полученных результатов. Дать 

Здесь описано, что надо сделать, чтобы сравнивать предложения. (In [9])
https://notebook.community/ianozsvald/word2vec_sentences_vs_target_sentence_demo/word2vec%20similarity%20example