## Сравнение документов при помощи готовых моделей

In [1]:
import json

path = '../data/documents.json'
file = open(path)
data = json.load(file)

In [2]:
rpds = list(filter(lambda el: el['object_type'] == "rpd", data))
vacancies = list(filter(lambda el: el['object_type'] == "vacancy", data))
projects = list(filter(lambda el: el['object_type'] == "project", data))

print(f'total: {len(data)}')
print(f'rpds: {len(rpds)}')
print(f'vacancies: {len(vacancies)}')
print(f'projects: {len(projects)}')

total: 4733
rpds: 4670
vacancies: 22
projects: 41


In [3]:
# for vacancy in vacancies:
#     print('vacancy id: {}:\n|{}|\n\n'.format(vacancy['id'], vacancy['text']))
print(projects[0].keys())

dict_keys(['id', 'object_type', 'system_id', 'updated_at', 'root_id', 'text', 'is_active', 'created_at'])


In [4]:
import pandas as pd
import pymorphy2
import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords

In [5]:
nltk.download('punkt')
nltk.download('stopwords')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Andrey\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Andrey\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [6]:
def preprocess(text, stop_words, punctuation_marks, morph):
    tokens = word_tokenize(text.lower())
    preprocessed_text = []
    for token in tokens:
        if token not in punctuation_marks:
            lemma = morph.parse(token)[0].normal_form
            if lemma not in stop_words:
                preprocessed_text.append(lemma)
    return preprocessed_text

In [7]:
punctuation_marks = ['!', ',', '(', ')', ':', '-', '?', '.', '..', '...']
stop_words = stopwords.words("russian")
morph = pymorphy2.MorphAnalyzer()

In [8]:
vacancies_df = pd.DataFrame(vacancies)
rpds_df = pd.DataFrame(rpds)
projects_df = pd.DataFrame(projects)


In [9]:
data_df = pd.DataFrame(data)
data_df

Unnamed: 0,id,object_type,system_id,updated_at,root_id,text,is_active,created_at
0,11,rpd,102,2022-12-04 14:52:07.015145,,"Дисциплина посвящена изучению вопросов, связан...",True,2022-12-04 14:52:07.015132
1,12,rpd,101,2022-12-04 14:52:07.036244,,"В рамках дисциплины рассматриваются методы, ср...",True,2022-12-04 14:52:07.036225
2,13,rpd,103,2022-12-04 14:52:07.111377,,В дисциплине изучаются математические методы а...,True,2022-12-04 14:52:07.111363
3,14,rpd,104,2022-12-04 14:52:07.143323,16.0,Дисциплина Теория оптимального управления вклю...,True,2022-12-04 14:52:07.143313
4,15,rpd,105,2022-12-04 14:52:07.168986,,Дисциплина включает изложение основ теории ма...,True,2022-12-04 14:52:07.168972
...,...,...,...,...,...,...,...,...
4728,4739,vacancy,f753f1a9-7843-47c5-9880-e6dec4147034,2022-11-04 16:42:20.317272,,IT-рекрутер_HR-менеджер. Основные задачи: • По...,True,2022-11-02 13:24:50.375527
4729,4740,vacancy,71e63d91-09c6-435c-b1f7-dfd71027eec6,2022-11-04 16:42:19.680058,,Анализ факторов влияющих на посещаемость музея...,True,2022-11-02 13:24:49.792713
4730,4741,vacancy,910674f7-4b3a-4a96-ada6-ee21b2c158ee,2022-11-04 16:42:19.841199,,Senior Middle Java. Мы находимся в поиске Seni...,True,2022-11-02 13:24:49.950152
4731,4742,vacancy,ec6cdc46-5ed4-45d1-b63e-6ac0e3ff7de9,2022-11-04 16:42:20.269543,,Python разработчик. Мы находимся в поисках Pyt...,True,2022-11-02 13:24:50.316030


In [10]:
# data_df['preprocessed_texts'] = data_df.apply(lambda row: preprocess(row['text'], punctuation_marks, stop_words, morph), axis=1)

In [11]:
path = '../data/preprocessed_documents.json'
file = open(path)
data = json.load(file)
data_df_preprocessed = pd.DataFrame(data)

In [12]:
# data_df_preprocessed = data_df.copy()
# data_df_preprocessed = data_df_preprocessed.drop(columns=['text'], axis=1)
# data_df_preprocessed.to_json('../data/preprocessed_documents.json')
data_df_preprocessed

Unnamed: 0,id,object_type,system_id,updated_at,root_id,is_active,created_at,preprocessed_texts
0,11,rpd,102,2022-12-04 14:52:07.015145,,True,2022-12-04 14:52:07.015132,"[дисциплина, посвятить, изучение, вопрос, связ..."
1,12,rpd,101,2022-12-04 14:52:07.036244,,True,2022-12-04 14:52:07.036225,"[рамка, дисциплина, рассматриваться, метод, ср..."
2,13,rpd,103,2022-12-04 14:52:07.111377,,True,2022-12-04 14:52:07.111363,"[дисциплина, изучаться, математический, метод,..."
3,14,rpd,104,2022-12-04 14:52:07.143323,16.0,True,2022-12-04 14:52:07.143313,"[дисциплина, теория, оптимальный, управление, ..."
4,15,rpd,105,2022-12-04 14:52:07.168986,,True,2022-12-04 14:52:07.168972,"[дисциплина, включать, изложение, основа, теор..."
...,...,...,...,...,...,...,...,...
4728,4739,vacancy,f753f1a9-7843-47c5-9880-e6dec4147034,2022-11-04 16:42:20.317272,,True,2022-11-02 13:24:50.375527,"[it-рекрутер_hr-менеджер, основной, задача, •,..."
4729,4740,vacancy,71e63d91-09c6-435c-b1f7-dfd71027eec6,2022-11-04 16:42:19.680058,,True,2022-11-02 13:24:49.792713,"[анализ, фактор, влиять, посещаемость, музей, ..."
4730,4741,vacancy,910674f7-4b3a-4a96-ada6-ee21b2c158ee,2022-11-04 16:42:19.841199,,True,2022-11-02 13:24:49.950152,"[senior, middle, java, находиться, поиск, seni..."
4731,4742,vacancy,ec6cdc46-5ed4-45d1-b63e-6ac0e3ff7de9,2022-11-04 16:42:20.269543,,True,2022-11-02 13:24:50.316030,"[python, разработчик, находиться, поиск, pytho..."


In [13]:
import gensim.models

In [14]:
model = gensim.models.Word2Vec(sentences=data_df_preprocessed['preprocessed_texts'], min_count=5, vector_size=50)

In [15]:
model.wv['математический'] # векторы, полученные на основе обучения на нашем наборе данных

array([-1.08614   ,  6.4287453 ,  4.6644893 ,  3.0454955 ,  1.5057659 ,
        4.5647726 , -0.09525252, -1.5944337 ,  2.3812811 , -0.56838363,
        0.9529741 ,  4.703368  ,  1.350953  , -2.2450383 , -2.340292  ,
        2.7762816 , -0.6686307 ,  1.1355944 ,  0.40249118, -1.0926881 ,
       -3.1490905 ,  2.697412  ,  0.77939856,  2.3015766 , -2.748568  ,
        0.85679835,  0.8359797 ,  1.3969164 ,  1.738777  , -1.2878462 ,
        0.15718567, -2.9590635 , -1.8217542 , -0.16463152,  2.9511247 ,
        0.501405  , -0.86438197,  0.5776906 ,  0.69148093, -0.9016505 ,
        1.3438493 , -3.175386  , -0.1817979 ,  1.3081076 , -3.1117208 ,
        3.5158608 ,  1.0633966 , -2.0835276 , -2.422065  , -0.79730904],
      dtype=float32)

In [16]:
model.wv.most_similar('senior')

[('members', 0.9662529826164246),
 ('gartner', 0.9640131592750549),
 ('situations', 0.9613677263259888),
 ('reflect', 0.9606549739837646),
 ('representatives', 0.9599136114120483),
 ('usually', 0.9586933851242065),
 ('took', 0.9582698345184326),
 ('lent', 0.9582268595695496),
 ('chair', 0.9580063819885254),
 ('dcs', 0.9576093554496765)]

In [17]:
model.wv.most_similar('python')

[('php', 0.8010596632957458),
 ('java', 0.791101336479187),
 ('c++', 0.7894578576087952),
 ('numpy', 0.7661037445068359),
 ('prolog', 0.7542761564254761),
 ('gnu', 0.7402577996253967),
 ('синтаксис', 0.7334066033363342),
 ('с++', 0.7291600704193115),
 ('vhdl', 0.7189502716064453),
 ('labview', 0.7117899656295776)]

- $rpd \rightarrow projects$
- $vacancy \rightarrow projects$

In [18]:
# Сравним 10 rpd с проектами

# for i in range(10, 20):
# #     print(rpds_df['text'][i])
#     for project_text in projects_df['text']:
# #         print(project_text, end='\n\n')


In [52]:
rpds_df['text']

0       Дисциплина посвящена изучению вопросов, связан...
1       В рамках дисциплины рассматриваются методы, ср...
2       В дисциплине изучаются математические методы а...
3       Дисциплина Теория оптимального управления вклю...
4        Дисциплина включает изложение основ теории ма...
                              ...                        
4665    Дисциплина посвящена изучению проектирования к...
4666    Данная дисциплина знакомит с базовыми методами...
4667    Производственная практика бакалавров имеет цел...
4668    Рассматривается задача проверки корректности р...
4669                                                     
Name: text, Length: 4670, dtype: object

In [19]:
import numpy as np
# rpd -> projects
sentences_similarity = np.zeros(projects_df['text'].size)

projects_lst = list(projects_df['text'])
# # print(projects_lst)
for i in range(13, 19):
    target_sentence_words = [w for w in rpds_df['text'][i].split() if w in model.wv.index_to_key]
    for idx, sentence in enumerate(projects_lst):
        sentence_words = [w for w in sentence.split() if w in model.wv.index_to_key]
        sim = model.wv.n_similarity(target_sentence_words, sentence_words)
        sentences_similarity[idx] = sim
        
    result = list(zip(sentences_similarity, projects_lst))
    result.sort(key=lambda item:item[0], reverse=True)
    print("Target:\n", rpds_df['text'][i], '\n->')
    print(result[0], end='\n\n')



Target:
 Данный курс знакомит слушателей с основами управления беспилотными автомобилями. Рассматриваются основные компоненты таких сиcтем: модели и методы восприятия информации при помощи сенсоров или человеко-машинного интерфейса; методы определения собственного положения на известной и неизвестной карте; методы планирования пути (в том числе на графах и не на графах); фреймворк, подходящий для разработки собственных решений для беспилотных транспортных средств. Данный курс знакомит с уровнями автономности беспилотных средств, с основами машинного обучения, в том числе при помощи нейросетей, операционной системой Robot Operating System, являющейся де-факто стандартным решением для многих роботов, в том числе бепилотных автомобилей. Курс позволяет освоить основные приёмы программирования в ROS, алгоритмов локализации и построения карты (SLAM), алгоритмов машинного зрения . Сформировать у обучающихся знания, умения и навыки обоснованного и результативного применения существующих методо

Target:
 Целью дисциплины является формирование у студентов профессиональных знаний и практических навыков по организации и управлению консалтинговыми проектами в области информационных технологий.. Целью дисциплины является формирование у студентов профессиональных знаний и практических навыков по организации и управлению консалтинговыми проектами в области информационных технологий. Задачи дисциплины: 1). Получение знаний об особенностях жизненного цикла консалтингового проекта, стандартах в области консалтинговой деятельности и управления ИТ, о методах организации ИТ-аудита и разработки ИТ-стратегии предприятия, о способах организации ИТ-служб на предприятиях 2). Приобрести умения и навыки выполнять технико-экономическое обоснование эффективности инвестиций в ИТ, разрабатывать ИТ-стратегию предприятия, разрабатывать рекомендации по совершенствованию ИТ-архитектуры предприятия, разрабатывать политики в области создания и эксплуатации компонент ИТ-инфраструктуры, формировать требовани

Target:
 На заре робототехники каждый разработчик робота был вынужден разрабатывать собственные библиотеки для управления роботом. В современном мире существует множество библиотек, упрощающих этот процесс. Существуют библиотеки и фреймворки, ориентированные на общие робототехнические задачи. Кроме того, есть библиотеки, имеющие более узкую цель, например, эффективная передача информации от узла к узлу. В рамках данного курса слушатели познакомятся с некоторыми из популярных библиотек для разработки программного обеспечения для мобильных роботов.. Освоение практических аспектов и получение опыта в работе с инфраструктурой разработки ПО для мобильных роботов. Приобретение студентами и закрепление у них практических навыков работы в исследовательской группе, выполняющей прикладные исследования в конкретной области, включающие в себя постановку задачи, выбор инструментов и методов ее решения, компьютерную реализацию этих методов и содержательную интерпретацию полученных результатов. Дать 

Здесь описано, что надо сделать, чтобы сравнивать предложения. (In [9])
https://notebook.community/ianozsvald/word2vec_sentences_vs_target_sentence_demo/word2vec%20similarity%20example

- False positive - волка не былo, но сказали, что есть;
- True positive - волк пришел, позвали на помощь, но ему никто не поверил и овец съели;
- True negative - волк пришел, не позвали на помощь, и овец съели;
- False negative - волк пришел, пастух вообще заснул, овец съели.

In [20]:
print(len(projects_lst))

41


### Выберем 10 рпд и определим, с какими проектами  рпд будет сопоставляться (матчиться), а с какими нет.

In [21]:
for i in range(10, 16):
    print('{} {}: {}'.format(rpds[i]['id'], rpds[i]['system_id'], rpds[i]['text']), end='\n------------------------------------------------------------------------\n\n')
    
print(rpds[10])

21 1007: Курс посвящен автоматической обработке и анализу видеоданных и изображений в интеллектуальных видеокомпьютерных медицинских системах. Основное внимание уделяется методам и алгоритмам цифровой обработки медицинских изображений и видеоданных, методам видеоаналитики, машинного обучения и анализа данных для решения задач обнаружения, сегментации, классификации объектов интереса. Изучаются методы глубокого обучения, а также смарт-технологии визуализации и формирования видеоизображений (создание панорамных изображений, визуализация изображений, сформированных в узких спектральных диапазонах, синтез изображений с учетом персональных особенностей пользователей и др). В рамках курса анализируются структуры и принципы функционирования реальных медицинских видеокомпьютерных систем, а также особенности обработки видеоданных в них. . Целью дисциплины является изучение принципов, методов обработки и анализа медицинских изображений и формирование умений и навыков решения задач видеоаналитики

21 match: 96, 97, 105, 84?,

21 unmatch: 77, 80, 82, 83, 85,  

In [22]:
for project in projects:
    print('{} {}: {}'.format(project['id'], project['system_id'], project['text']), end='\n------------------------------------------------------------------------\n\n')
#     print('id =', project.id,  project['text'], sep=' ', end='\n\n')


77 10: Наработка опыта по гарантийному обслуживанию серверов на базе российской серверной платформы РИКОР. Разбор прецедентов работы компьютерного оборудования на базе РИКОР (дефекты бэкплейнов, дефекты в работе BIOS, нераспознанные ошибки памяти и несовместимости с гипервизорами и др.), документирование произведенных действий, наработка базы знаний по гарантийному обслуживанию. Обязательно должен: знать:. уметь:. владеть:. Желательно должен: знать:. уметь:. владеть:. В результате получит: знания: Технические характеристики современного компьютерного оборудования, знание ГОСТ. умения: Гарантийного обслуживания и ремонта современного компьютерного оборудования. опыт: Гарантийного обслуживания современных российских серверов, разработки технической документации. 
------------------------------------------------------------------------

80 11: Анализ динамики COVID-19 в России. ·       Web-приложение для отображения динамики различных характеристик распространения COVID-19 в России. ·    

## Работа по плану Корытова П. В.

### 1. Берем предобученную модель.

https://github.com/RaRe-Technologies/gensim-data/issues/3

In [23]:
from gensim.models import Word2Vec
from gensim.models import FastText
from gensim.models import KeyedVectors
from gensim import models
import gensim.downloader as api
import zipfile
import sys
import requests, io

In [24]:
# # wv_from_text = KeyedVectors.load_word2vec_format(datapath('word2vec_pre_kv_c'), binary=False)
# model_url = 'http://vectors.nlpl.eu/repository/20/170.zip'
# r = requests.get(model_url, stream=True)
# z = zipfile.ZipFile(io.BytesIO(r.content))


In [25]:
# z.extractall('./pretrained_word2vec')

In [26]:
# w2v_model = api.load("word2vec-ruscorpora-300")

http://vectors.nlpl.eu/repository/

In [27]:
# w2v_model = gensim.models.Word2Vec.load("http://vectors.nlpl.eu/repository/20/170.zip")

### прогнать модель на новом датасете

In [40]:
path_match = './match.json'
file_match = open(path_match)
data_match = json.load(file_match)

In [41]:
match_df = pd.DataFrame(data_match)

In [42]:
match_df

Unnamed: 0,id_rp,id_proj,name_rp,name_proj,text_rp,text_proj,need_match
0,1000,15,АЛГОРИТМЫ БЕСПИЛОТНОГО ТРАНСПОРТА,Разработка системы движения роя дронов в прост...,Данный курс знакомит слушателей с основами упр...,Разработка системы движения роя дронов в прост...,True
1,1005,40,АНАЛИЗ ДАННЫХ В ИСКУССТВЕННОМ ИНТЕЛЛЕКТЕ,Роботизированная система машинного творчества ...,Освещаемые в курсе теоретические и прикладные ...,Роботизированная система машинного творчества ...,True
2,1009,4,РАЗРАБОТКА ПРИЛОЖЕНИЙ В РАСПРЕДЕЛЕННОЙ СРЕДЕ,Разработка модулей обработки данных для библио...,Дисциплина посвящена изучению основных принцип...,Разработка модулей обработки данных для библио...,True
3,1011,14,Тестирование и сопровождение программного обес...,Тестирование и документирование стенда виртуал...,"Цели дисциплины охватывают ряд направлений, св...",Тестирование и документирование стенда виртуал...,True
4,1016,46,Интеллектуальные системы,Разработка интеллектуальных модулей обработки ...,Рассматриваются основные понятия теории интелл...,Разработка интеллектуальных модулей обработки ...,True
5,105,41,Системы управления манипуляторными роботами,Разработка подводного телеуправляемого робота ...,Дисциплина включает изложение основ теории ман...,Разработка подводного телеуправляемого робота ...,True
6,1040,26,Управление и информатика в технических системах,Программно-аппаратное конфигурирование сети ла...,В рамках данной дисциплины рассматриваются осн...,Программно-аппаратное конфигурирование сети ла...,True
7,1278,9,Тестирование программного обеспечения,Тестирование конфигураций на платформах: Super...,Дисциплина посвящена изучению теоретических ос...,Тестирование конфигураций на платформах: Super...,True
8,991,30,Машинное обучение,Разработка системы детектирования и идентифика...,Данный курс знакомит слушателей с основными ме...,Разработка системы детектирования и идентифика...,True
9,985,8,Основы компьютерного дизайна,"Разработка ИС ""Расписание"" / ""Деканат"".",В курсе рассматриваются свойства зрительного в...,"Разработка ИС ""Расписание"" / ""Деканат"". Информ...",True


In [43]:
match_df['prepr_text_proj'] = match_df.apply(lambda row: preprocess(row['text_proj'], punctuation_marks, stop_words, morph), axis=1)

In [44]:
match_df['prepr_text_rp'] = match_df.apply(lambda row: preprocess(row['text_rp'], punctuation_marks, stop_words, morph), axis=1)

In [64]:
import numpy as np
# rpd -> projects
sentences_similarity = np.zeros(match_df['text_rp'].size)

for i in range(match_df['text_rp'].size):
#     rp_sentence_words = [w for w in match_df['text_rp'][i].split() if w in model.wv.index_to_key]
#     proj_sentence_words = [w for w in match_df['text_proj'][i].split() if w in model.wv.index_to_key]
    rp_sentence_words = [w for w in match_df['prepr_text_rp'][i] if w in model.wv.index_to_key]
    proj_sentence_words = [ w for w in match_df['prepr_text_proj'][i] if w in model.wv.index_to_key]
    
    sim = model.wv.n_similarity(rp_sentence_words, proj_sentence_words)
    print(rp_sentence_words, end='\n->\n')
    print(proj_sentence_words, end=f'\n{sim}\n-----------------------------------\n')
    sentences_similarity[i] = sim

    


['данный', 'курс', 'знакомить', 'слушатель', 'основа', 'управление', 'беспилотный', 'автомобиль', 'рассматриваться', 'основной', 'компонент', 'такой', 'сиcтема', 'модель', 'метод', 'восприятие', 'информация', 'помощь', 'сенсор', 'человеко-машинный', 'интерфейс', ';', 'метод', 'определение', 'собственный', 'положение', 'известный', 'неизвестный', 'карта', ';', 'метод', 'планирование', 'путь', 'число', 'граф', 'граф', ';', 'фреймворк', 'подходящий', 'разработка', 'собственный', 'решение', 'беспилотный', 'транспортный', 'средство', 'данный', 'курс', 'знакомить', 'уровень', 'автономность', 'беспилотный', 'средство', 'основа', 'машинный', 'обучение', 'число', 'помощь', 'нейросеть', 'операционный', 'система', 'robot', 'operating', 'system', 'являться', 'стандартный', 'решение', 'многий', 'робот', 'число', 'автомобиль', 'курс', 'позволять', 'освоить', 'основной', 'приём', 'программирование', 'ros', 'алгоритм', 'локализация', 'построение', 'карта', 'slam', 'алгоритм', 'машинный', 'зрение', 'сф

['дисциплина', 'посвятить', 'изучение', 'теоретический', 'основа', 'метод', 'тестирование', 'программный', 'обеспечение', 'рассматриваться', 'основной', 'понятие', 'процесс', 'тестирование', 'уровень', 'тестирование', 'вид', 'метод', 'тестирование', 'определяться', 'критерий', 'завершение', 'процесс', 'тестирование', 'особый', 'внимание', 'уделяться', 'вопрос', 'документирование', 'процесс', 'тестирование', 'рассматриваться', 'инструментальный', 'средство', 'тестирование', 'изучение', 'основный', 'понятие', 'связанный', 'функциональный', 'нефункциональный', 'тестирование', 'программный', 'обеспечение', 'получение', 'базовый', 'знание', 'дисциплина', ';', '–', 'возможность', 'использование', 'решение', 'практический', 'задача', 'метод', 'тестирование', '«', 'чёрный', 'ящик', '»', 'знание', 'граница', 'применение', 'формирование', 'умение', 'применять', 'базовый', 'метод', 'нефункциональный', 'тестирование', 'изучение', 'основный', 'понятие', 'связанный', 'функциональный', 'нефункциональ

In [65]:
sentences_similarity

array([0.80975276, 0.76704556, 0.73722595, 0.82261056, 0.78785861,
       0.62506324, 0.73226219, 0.77129328, 0.85734862, 0.65078622,
       0.87311518])