## Сравнение документов при помощи готовых моделей

In [1]:
import json

path = '../data/documents.json'
file = open(path)
data = json.load(file)

In [2]:
rpds = list(filter(lambda el: el['object_type'] == "rpd", data))
vacancies = list(filter(lambda el: el['object_type'] == "vacancy", data))
projects = list(filter(lambda el: el['object_type'] == "project", data))

print(f'total: {len(data)}')
print(f'rpds: {len(rpds)}')
print(f'vacancies: {len(vacancies)}')
print(f'projects: {len(projects)}')

total: 4733
rpds: 4670
vacancies: 22
projects: 41


In [3]:
# for vacancy in vacancies:
#     print('vacancy id: {}:\n|{}|\n\n'.format(vacancy['id'], vacancy['text']))
print(projects[0].keys())

dict_keys(['id', 'object_type', 'system_id', 'updated_at', 'root_id', 'text', 'is_active', 'created_at'])


In [4]:
import pandas as pd
import pymorphy2
import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords

In [5]:
nltk.download('punkt')
nltk.download('stopwords')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Andrey\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Andrey\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [6]:
def preprocess(text, stop_words, punctuation_marks, morph):
    tokens = word_tokenize(text.lower())
    preprocessed_text = []
    for token in tokens:
        if token not in punctuation_marks:
            lemma = morph.parse(token)[0].normal_form
            if lemma not in stop_words:
                preprocessed_text.append(lemma)
    return preprocessed_text

In [7]:
punctuation_marks = ['!', ',', '(', ')', ':', '-', '?', '.', '..', '...']
stop_words = stopwords.words("russian")
morph = pymorphy2.MorphAnalyzer()

In [8]:
vacancies_df = pd.DataFrame(vacancies)
rpds_df = pd.DataFrame(rpds)
projects_df = pd.DataFrame(projects)


In [9]:
data_df = pd.DataFrame(data)
data_df

Unnamed: 0,id,object_type,system_id,updated_at,root_id,text,is_active,created_at
0,11,rpd,102,2022-12-04 14:52:07.015145,,"Дисциплина посвящена изучению вопросов, связан...",True,2022-12-04 14:52:07.015132
1,12,rpd,101,2022-12-04 14:52:07.036244,,"В рамках дисциплины рассматриваются методы, ср...",True,2022-12-04 14:52:07.036225
2,13,rpd,103,2022-12-04 14:52:07.111377,,В дисциплине изучаются математические методы а...,True,2022-12-04 14:52:07.111363
3,14,rpd,104,2022-12-04 14:52:07.143323,16.0,Дисциплина Теория оптимального управления вклю...,True,2022-12-04 14:52:07.143313
4,15,rpd,105,2022-12-04 14:52:07.168986,,Дисциплина включает изложение основ теории ма...,True,2022-12-04 14:52:07.168972
...,...,...,...,...,...,...,...,...
4728,4739,vacancy,f753f1a9-7843-47c5-9880-e6dec4147034,2022-11-04 16:42:20.317272,,IT-рекрутер_HR-менеджер. Основные задачи: • По...,True,2022-11-02 13:24:50.375527
4729,4740,vacancy,71e63d91-09c6-435c-b1f7-dfd71027eec6,2022-11-04 16:42:19.680058,,Анализ факторов влияющих на посещаемость музея...,True,2022-11-02 13:24:49.792713
4730,4741,vacancy,910674f7-4b3a-4a96-ada6-ee21b2c158ee,2022-11-04 16:42:19.841199,,Senior Middle Java. Мы находимся в поиске Seni...,True,2022-11-02 13:24:49.950152
4731,4742,vacancy,ec6cdc46-5ed4-45d1-b63e-6ac0e3ff7de9,2022-11-04 16:42:20.269543,,Python разработчик. Мы находимся в поисках Pyt...,True,2022-11-02 13:24:50.316030


In [10]:
# data_df['preprocessed_texts'] = data_df.apply(lambda row: preprocess(row['text'], punctuation_marks, stop_words, morph), axis=1)

In [11]:
path = '../data/preprocessed_documents.json'
file = open(path)
data = json.load(file)
data_df_preprocessed = pd.DataFrame(data)

In [12]:
# data_df_preprocessed = data_df.copy()
# data_df_preprocessed = data_df_preprocessed.drop(columns=['text'], axis=1)
# data_df_preprocessed.to_json('../data/preprocessed_documents.json')
data_df_preprocessed

Unnamed: 0,id,object_type,system_id,updated_at,root_id,is_active,created_at,preprocessed_texts
0,11,rpd,102,2022-12-04 14:52:07.015145,,True,2022-12-04 14:52:07.015132,"[дисциплина, посвятить, изучение, вопрос, связ..."
1,12,rpd,101,2022-12-04 14:52:07.036244,,True,2022-12-04 14:52:07.036225,"[рамка, дисциплина, рассматриваться, метод, ср..."
2,13,rpd,103,2022-12-04 14:52:07.111377,,True,2022-12-04 14:52:07.111363,"[дисциплина, изучаться, математический, метод,..."
3,14,rpd,104,2022-12-04 14:52:07.143323,16.0,True,2022-12-04 14:52:07.143313,"[дисциплина, теория, оптимальный, управление, ..."
4,15,rpd,105,2022-12-04 14:52:07.168986,,True,2022-12-04 14:52:07.168972,"[дисциплина, включать, изложение, основа, теор..."
...,...,...,...,...,...,...,...,...
4728,4739,vacancy,f753f1a9-7843-47c5-9880-e6dec4147034,2022-11-04 16:42:20.317272,,True,2022-11-02 13:24:50.375527,"[it-рекрутер_hr-менеджер, основной, задача, •,..."
4729,4740,vacancy,71e63d91-09c6-435c-b1f7-dfd71027eec6,2022-11-04 16:42:19.680058,,True,2022-11-02 13:24:49.792713,"[анализ, фактор, влиять, посещаемость, музей, ..."
4730,4741,vacancy,910674f7-4b3a-4a96-ada6-ee21b2c158ee,2022-11-04 16:42:19.841199,,True,2022-11-02 13:24:49.950152,"[senior, middle, java, находиться, поиск, seni..."
4731,4742,vacancy,ec6cdc46-5ed4-45d1-b63e-6ac0e3ff7de9,2022-11-04 16:42:20.269543,,True,2022-11-02 13:24:50.316030,"[python, разработчик, находиться, поиск, pytho..."


In [86]:
import gensim.models
data_df_preprocessed['preprocessed_texts'].size

4733

In [113]:
train_part = data_df_preprocessed['preprocessed_texts']

In [114]:
model = gensim.models.Word2Vec(sentences=train_part, min_count=5, vector_size=50)

In [88]:
model.wv['математический'] # векторы, полученные на основе обучения на нашем наборе данных

array([ 2.4623537 ,  1.4300408 , -0.680008  ,  0.83727527,  0.9830264 ,
        2.3433704 , -0.2914513 ,  0.8753014 , -0.03168268,  3.4960208 ,
        1.7436459 , -2.2772021 ,  1.3138137 , -0.19287579, -2.5136135 ,
       -1.3262156 ,  1.0058781 , -1.2379185 , -1.480588  , -3.5167403 ,
        1.5315789 , -0.78471684, -0.07802825, -0.64502186,  1.1393894 ,
        0.16341056,  0.14100589,  3.8801663 , -0.40122178,  1.6227934 ,
        2.3915389 , -2.301975  ,  0.49422148, -2.406377  , -1.1975806 ,
       -1.5202249 ,  1.9890846 ,  2.6031504 , -0.46008748,  3.1050327 ,
        2.562875  ,  1.5871464 , -3.2155063 , -0.51606166,  2.7304502 ,
       -0.2998767 ,  1.3258868 ,  0.47376263,  0.27284822,  4.041276  ],
      dtype=float32)

In [115]:
model.wv.most_similar('senior')

[('found', 0.960681140422821),
 ('two', 0.9509900212287903),
 ('soon', 0.9472825527191162),
 ('prospects', 0.9445124864578247),
 ('memory', 0.9425790309906006),
 ('respond', 0.9418269395828247),
 ('nationality', 0.9416079521179199),
 ('portfolio', 0.9414680600166321),
 ('result', 0.9411369562149048),
 ('innodb', 0.9405909776687622)]

In [116]:
model.wv.most_similar('python')

[('c++', 0.8057485222816467),
 ('php', 0.7705948352813721),
 ('numpy', 0.7694965600967407),
 ('java', 0.7602179646492004),
 ('gnu', 0.7504503130912781),
 ('prolog', 0.7476317882537842),
 ('np', 0.7356088161468506),
 ('octave', 0.7338268756866455),
 ('verilog', 0.7310166358947754),
 ('с++', 0.7307944297790527)]

- $rpd \rightarrow projects$
- $vacancy \rightarrow projects$

In [91]:
# Сравним 10 rpd с проектами

# for i in range(10, 20):
# #     print(rpds_df['text'][i])
#     for project_text in projects_df['text']:
# #         print(project_text, end='\n\n')


In [92]:
rpds_df['text']

0       Дисциплина посвящена изучению вопросов, связан...
1       В рамках дисциплины рассматриваются методы, ср...
2       В дисциплине изучаются математические методы а...
3       Дисциплина Теория оптимального управления вклю...
4        Дисциплина включает изложение основ теории ма...
                              ...                        
4665    Дисциплина посвящена изучению проектирования к...
4666    Данная дисциплина знакомит с базовыми методами...
4667    Производственная практика бакалавров имеет цел...
4668    Рассматривается задача проверки корректности р...
4669                                                     
Name: text, Length: 4670, dtype: object

In [122]:
# import numpy as np
# # rpd -> projects
# sentences_similarity = np.zeros(projects_df['text'].size)

# projects_lst = list(projects_df['text'])
# # # print(projects_lst)
# for i in range(13, 19):
#     target_sentence_words = [w for w in rpds_df['text'][i].split() if w in model.wv.index_to_key]
#     for idx, sentence in enumerate(projects_lst):
#         sentence_words = [w for w in sentence.split() if w in model.wv.index_to_key]
#         sim = model.wv.n_similarity(target_sentence_words, sentence_words)
#         sentences_similarity[idx] = sim
        
#     result = list(zip(sentences_similarity, projects_lst))
#     result.sort(key=lambda item:item[0], reverse=True)
#     print("Target:\n", rpds_df['text'][i], '\n->')
#     print(result[0], end='\n\n')



Здесь описано, что надо сделать, чтобы сравнивать предложения. (In [9])
https://notebook.community/ianozsvald/word2vec_sentences_vs_target_sentence_demo/word2vec%20similarity%20example

- False positive - волка не былo, но сказали, что есть;
- True positive - волк пришел, позвали на помощь, но ему никто не поверил и овец съели;
- True negative - волк пришел, не позвали на помощь, и овец съели;
- False negative - волк пришел, пастух вообще заснул, овец съели.

In [94]:
print(len(projects_lst))

41


### Выберем 10 рпд и определим, с какими проектами  рпд будет сопоставляться (матчиться), а с какими нет.

In [121]:
# for i in range(10, 16):
  #  print('{} {}: {}'.format(rpds[i]['id'], rpds[i]['system_id'], rpds[i]['text']), end='\n------------------------------------------------------------------------\n\n')
    
#print(rpds[10])

21 match: 96, 97, 105, 84?,

21 unmatch: 77, 80, 82, 83, 85,  

In [120]:
# for project in projects:
  #  print('{} {}: {}'.format(project['id'], project['system_id'], project['text']), end='\n------------------------------------------------------------------------\n\n')
#     print('id =', project.id,  project['text'], sep=' ', end='\n\n')


## Работа по плану Корытова П. В.

### 1. Берем предобученную модель.

https://github.com/RaRe-Technologies/gensim-data/issues/3

In [97]:
from gensim.models import Word2Vec
from gensim.models import FastText
from gensim.models import KeyedVectors
from gensim import models
import gensim.downloader as api
import zipfile
import sys
import requests, io

In [98]:
# # wv_from_text = KeyedVectors.load_word2vec_format(datapath('word2vec_pre_kv_c'), binary=False)
# model_url = 'http://vectors.nlpl.eu/repository/20/170.zip'
# r = requests.get(model_url, stream=True)
# z = zipfile.ZipFile(io.BytesIO(r.content))


In [99]:
# z.extractall('./pretrained_word2vec')

In [100]:
# w2v_model = api.load("word2vec-ruscorpora-300")

http://vectors.nlpl.eu/repository/

In [101]:
# w2v_model = gensim.models.Word2Vec.load("http://vectors.nlpl.eu/repository/20/170.zip")

### прогнать модель на новом датасете

In [102]:
path_match = './match.json'
file_match = open(path_match)
data_match = json.load(file_match)

In [103]:
match_df = pd.DataFrame(data_match)

In [104]:
match_df

Unnamed: 0,id_rp,id_proj,name_rp,name_proj,text_rp,text_proj,need_match
0,1000,15,АЛГОРИТМЫ БЕСПИЛОТНОГО ТРАНСПОРТА,Разработка системы движения роя дронов в прост...,Данный курс знакомит слушателей с основами упр...,Разработка системы движения роя дронов в прост...,True
1,1005,40,АНАЛИЗ ДАННЫХ В ИСКУССТВЕННОМ ИНТЕЛЛЕКТЕ,Роботизированная система машинного творчества ...,Освещаемые в курсе теоретические и прикладные ...,Роботизированная система машинного творчества ...,True
2,1009,4,РАЗРАБОТКА ПРИЛОЖЕНИЙ В РАСПРЕДЕЛЕННОЙ СРЕДЕ,Разработка модулей обработки данных для библио...,Дисциплина посвящена изучению основных принцип...,Разработка модулей обработки данных для библио...,True
3,1011,14,Тестирование и сопровождение программного обес...,Тестирование и документирование стенда виртуал...,"Цели дисциплины охватывают ряд направлений, св...",Тестирование и документирование стенда виртуал...,True
4,1016,46,Интеллектуальные системы,Разработка интеллектуальных модулей обработки ...,Рассматриваются основные понятия теории интелл...,Разработка интеллектуальных модулей обработки ...,True
5,105,41,Системы управления манипуляторными роботами,Разработка подводного телеуправляемого робота ...,Дисциплина включает изложение основ теории ман...,Разработка подводного телеуправляемого робота ...,True
6,1040,26,Управление и информатика в технических системах,Программно-аппаратное конфигурирование сети ла...,В рамках данной дисциплины рассматриваются осн...,Программно-аппаратное конфигурирование сети ла...,True
7,1278,9,Тестирование программного обеспечения,Тестирование конфигураций на платформах: Super...,Дисциплина посвящена изучению теоретических ос...,Тестирование конфигураций на платформах: Super...,True
8,991,30,Машинное обучение,Разработка системы детектирования и идентифика...,Данный курс знакомит слушателей с основными ме...,Разработка системы детектирования и идентифика...,True
9,985,8,Основы компьютерного дизайна,"Разработка ИС ""Расписание"" / ""Деканат"".",В курсе рассматриваются свойства зрительного в...,"Разработка ИС ""Расписание"" / ""Деканат"". Информ...",True


In [105]:
match_df['prepr_text_proj'] = match_df.apply(lambda row: preprocess(row['text_proj'], punctuation_marks, stop_words, morph), axis=1)

In [106]:
match_df['prepr_text_rp'] = match_df.apply(lambda row: preprocess(row['text_rp'], punctuation_marks, stop_words, morph), axis=1)

In [125]:
print(data_df_preprocessed['preprocessed_texts'].size)

4733


In [162]:
train_part = data_df_preprocessed['preprocessed_texts']
# train_part = pd.concat([data_df_preprocessed['preprocessed_texts'][:200], data_df_preprocessed['preprocessed_texts'][500:1000]], axis=0)
# train_part

In [163]:
model = gensim.models.Word2Vec(sentences=train_part, min_count=5, vector_size=50)

In [170]:
import numpy as np
# rpd -> projects
sentences_similarity_match = np.zeros(match_df['text_rp'].size)

for i in range(match_df['text_rp'].size):
#     rp_sentence_words = [w for w in match_df['text_rp'][i].split() if w in model.wv.index_to_key]
#     proj_sentence_words = [w for w in match_df['text_proj'][i].split() if w in model.wv.index_to_key]
    rp_sentence_words = [w for w in match_df['prepr_text_rp'][i] if w in model.wv.index_to_key]
    proj_sentence_words = [ w for w in match_df['prepr_text_proj'][i] if w in model.wv.index_to_key]
    
    sim = model.wv.n_similarity(rp_sentence_words, proj_sentence_words)
    print(rp_sentence_words, end='\n->\n')
    print(proj_sentence_words, end=f'\n{sim}\n-----------------------------------\n')
    sentences_similarity_match[i] = sim

    


['данный', 'курс', 'знакомить', 'слушатель', 'основа', 'управление', 'беспилотный', 'автомобиль', 'рассматриваться', 'основной', 'компонент', 'такой', 'сиcтема', 'модель', 'метод', 'восприятие', 'информация', 'помощь', 'сенсор', 'человеко-машинный', 'интерфейс', ';', 'метод', 'определение', 'собственный', 'положение', 'известный', 'неизвестный', 'карта', ';', 'метод', 'планирование', 'путь', 'число', 'граф', 'граф', ';', 'фреймворк', 'подходящий', 'разработка', 'собственный', 'решение', 'беспилотный', 'транспортный', 'средство', 'данный', 'курс', 'знакомить', 'уровень', 'автономность', 'беспилотный', 'средство', 'основа', 'машинный', 'обучение', 'число', 'помощь', 'нейросеть', 'операционный', 'система', 'robot', 'operating', 'system', 'являться', 'стандартный', 'решение', 'многий', 'робот', 'число', 'автомобиль', 'курс', 'позволять', 'освоить', 'основной', 'приём', 'программирование', 'ros', 'алгоритм', 'локализация', 'построение', 'карта', 'slam', 'алгоритм', 'машинный', 'зрение', 'сф

['рамка', 'дать', 'дисциплина', 'рассматриваться', 'основной', 'положение', 'общий', 'теория', 'система', 'технология', 'метод', 'проектирование', 'программный', 'система', 'изучаться', 'особенность', 'современный', 'метод', 'средство', 'проектирование', 'информационный', 'система', 'основать', 'использование', 'история', 'тенденция', 'развитие', 'технология', 'программирование', 'проблема', 'разработка', 'сложный', 'программный', 'система', 'основной', 'понятие', 'общий', 'теория', 'система', 'жизненный', 'цикл', 'этап', 'разработка', 'программный', 'обеспечение', 'оценка', 'качество', 'процесс', 'создание', 'программный', 'обеспечение', 'приём', 'обеспечение', 'технологичность', 'программный', 'продукт', 'определение', 'требование', 'программный', 'обеспечение', 'исходный', 'данные', 'проектирование', 'проектирование', 'программный', 'обеспечение', 'тестирование', 'верификация', 'отладка', 'программный', 'система', 'составление', 'программный', 'документация']
->
['программно-аппарат

In [206]:
sentences_similarity_match

array([0.81036729, 0.76388967, 0.71164727, 0.82980579, 0.77255148,
       0.62003851, 0.72004086, 0.79076713, 0.86660159, 0.64681798,
       0.88290054])

In [207]:
path_unmatch = './unmatch.json'
file_unmatch = open(path_unmatch)
data_unmatch = json.load(file_unmatch)

In [208]:
unmatch_df = pd.DataFrame(data_unmatch)

In [209]:
unmatch_df['prepr_text_proj'] = unmatch_df.apply(lambda row: preprocess(row['text_proj'], punctuation_marks, stop_words, morph), axis=1)
unmatch_df['prepr_text_rp'] = unmatch_df.apply(lambda row: preprocess(row['text_rp'], punctuation_marks, stop_words, morph), axis=1)

In [210]:
import numpy as np
# rpd -> projects
sentences_similarity_unmatch = np.zeros(unmatch_df['text_rp'].size)

for i in range(unmatch_df['text_rp'].size):
#     rp_sentence_words = [w for w in match_df['text_rp'][i].split() if w in model.wv.index_to_key]
#     proj_sentence_words = [w for w in match_df['text_proj'][i].split() if w in model.wv.index_to_key]
    rp_sentence_words = [w for w in unmatch_df['prepr_text_rp'][i] if w in model.wv.index_to_key]
    proj_sentence_words = [ w for w in unmatch_df['prepr_text_proj'][i] if w in model.wv.index_to_key]
    
    sim = model.wv.n_similarity(rp_sentence_words, proj_sentence_words)
#     print(rp_sentence_words, end='\n->\n')
#     print(proj_sentence_words, end=f'\n{sim}\n-----------------------------------\n')
    sentences_similarity_unmatch[i] = sim
    
sentences_similarity_unmatch

array([0.39592803, 0.46157533, 0.34518367, 0.54723549, 0.19471337,
       0.50917399, 0.4277783 , 0.7631042 , 0.75102216, 0.57896596])

### Считаем, что число match = 0.75

1) Когда обучили на всем датасете, получаем следующее:

### F1 Score


In [224]:
def calc_f1_score(sim_match, sim_unmatch, match_threshold):
    (TP, FP, FN, TN) = (0, 0, 0, 0)
    for i in range(sim_match.size):
        # у всех модели из данного списка должен быть sim_match[i] >= match_threshold
        if sim_match[i] >= match_threshold: 
            TP += 1
        else:
            FN += 1
        
    for i in range(sim_unmatch.size):
        if sim_match[i] >= match_threshold: 
            FP += 1
        else:
            TN += 1
    
#     print(TP, FP, FN)
    return round(float(2*TP / (2*TP + FP + FN)), 3)

In [225]:
calc_f1_score(sentences_similarity_match, sentences_similarity_unmatch, 0.70)

0.643