In [1]:
import pandas as pd
df_standards = pd.read_csv('../data/standards/df_standards_full_splitted.csv')
df_standards.head()

Unnamed: 0.1,Unnamed: 0,kod_standard,num_gen_func,kod_gen_func,name_gen_func,gen_func_skill_level,kod_sim_func,name_sim_func,sim_func_skill_level,text,type
0,0,6.001,0,A,Разработка и отладка программного кода,3,A/01.3,Формализация и алгоритмизация поставленных задач,3,Младший программист,posts
1,1,6.001,0,A,Разработка и отладка программного кода,3,A/01.3,Формализация и алгоритмизация поставленных задач,3,Техник-программист,posts
2,2,6.001,1,A,Разработка и отладка программного кода,3,A/02.3,Написание программного кода с использованием я...,3,Младший программист,posts
3,3,6.001,1,A,Разработка и отладка программного кода,3,A/02.3,Написание программного кода с использованием я...,3,Техник-программист,posts
4,4,6.001,2,A,Разработка и отладка программного кода,3,A/03.3,Оформление программного кода в соответствии с ...,3,Младший программист,posts


In [14]:
import codecs
import os
import pymorphy2
from string import ascii_lowercase, digits, whitespace

morph = pymorphy2.MorphAnalyzer()

cyrillic = u"абвгдеёжзийклмнопрстуфхцчшщъыьэюя"

allowed_characters = ascii_lowercase + digits + cyrillic + whitespace

def complex_preprocess(text, additional_allowed_characters = "+#"):
    return ''.join([character if character in set(allowed_characters+additional_allowed_characters) else ' ' for character in text.lower()]).split()

def lemmatize(tokens, filter_pos):
    '''Produce normal forms for russion words using pymorphy2
    '''
    lemmas = []
    tagged_lemmas = []
    for token in tokens:
        parsed_token = morph.parse(token)[0]
        norm = parsed_token.normal_form
        pos = parsed_token.tag.POS        
        if pos is not None:
            if pos not in filter_pos:
                lemmas.append(norm)
                tagged_lemmas.append(norm + "_" + pos)
        else:
            lemmas.append(token)
            tagged_lemmas.append(token+"_")

    return lemmas, tagged_lemmas

def process_text(full_text, filter_pos=("PREP", "NPRO", "CONJ")):
    '''Process a single text and return a processed version
    '''
    single_line_text = full_text.replace('\n',' ')
    preprocessed_text = complex_preprocess(single_line_text)
    lemmatized_text, lemmatized_text_pos_tags = lemmatize(preprocessed_text, filter_pos=filter_pos)

    return { "full_text" : full_text,
    "single_line_text": single_line_text,
    "preprocessed_text": preprocessed_text,
    "lemmatized_text": lemmatized_text,
    "lemmatized_text_pos_tags": lemmatized_text_pos_tags}

def process_text_documents(text_files_directory, filter_pos=("PREP", "NPRO", "CONJ")):
    for file in os.listdir(text_files_directory):
        if os.path.isfile(os.path.join(text_files_directory, file)):
            with codecs.open(os.path.join(text_files_directory, file), encoding='utf-8') as f:
                full_text = f.read()
                doc_dict = process_text(full_text)
                doc_dict["filename"] = file
                yield doc_dict

In [829]:
df_standards_prof = df_standards

In [855]:
df_standards['kod_standard'].unique()

array([6.001, 6.002, 6.003, 6.004, 6.005, 6.006, 6.007, 6.008, 6.01 ,
       6.011, 6.012, 6.013, 6.014, 6.015, 6.016, 6.017, 6.018, 6.019,
       6.02 , 6.021, 6.022, 6.023, 6.024, 6.025, 6.026, 6.027, 6.028,
       6.029, 6.03 , 6.031, 6.032, 6.033, 6.034, 6.035, 6.036, 6.037,
       6.038, 6.039, 6.04 , 6.041])

In [856]:
df_standards_prof['kod_standard'].unique()

array([6.001, 6.002, 6.003, 6.004, 6.005, 6.006, 6.007, 6.008, 6.01 ,
       6.011, 6.012, 6.013, 6.014, 6.015, 6.016, 6.017, 6.018, 6.019,
       6.02 , 6.021, 6.022, 6.023, 6.024, 6.025, 6.026, 6.027, 6.028,
       6.029, 6.03 , 6.031, 6.032, 6.033, 6.034, 6.035, 6.036, 6.037,
       6.038, 6.039, 6.04 , 6.041])

In [830]:
df_standards_prof['text'] = df_standards_prof['name_gen_func'] + ' ' + df_standards_prof['name_sim_func'] + ' ' + df_standards_prof['text']

In [857]:
df_standards_prof

Unnamed: 0.1,Unnamed: 0,kod_standard,num_gen_func,kod_gen_func,name_gen_func,gen_func_skill_level,kod_sim_func,name_sim_func,sim_func_skill_level,text,type
0,0,6.001,0,A,Разработка и отладка программного кода,3,A/01.3,Формализация и алгоритмизация поставленных задач,3,Разработка и отладка программного кода Формали...,posts
1,1,6.001,0,A,Разработка и отладка программного кода,3,A/01.3,Формализация и алгоритмизация поставленных задач,3,Разработка и отладка программного кода Формали...,posts
2,2,6.001,1,A,Разработка и отладка программного кода,3,A/02.3,Написание программного кода с использованием я...,3,Разработка и отладка программного кода Написан...,posts
3,3,6.001,1,A,Разработка и отладка программного кода,3,A/02.3,Написание программного кода с использованием я...,3,Разработка и отладка программного кода Написан...,posts
4,4,6.001,2,A,Разработка и отладка программного кода,3,A/03.3,Оформление программного кода в соответствии с ...,3,Разработка и отладка программного кода Оформле...,posts
5,5,6.001,2,A,Разработка и отладка программного кода,3,A/03.3,Оформление программного кода в соответствии с ...,3,Разработка и отладка программного кода Оформле...,posts
6,6,6.001,3,A,Разработка и отладка программного кода,3,A/04.3,Работа с системой контроля версий,3,Разработка и отладка программного кода Работа ...,posts
7,7,6.001,3,A,Разработка и отладка программного кода,3,A/04.3,Работа с системой контроля версий,3,Разработка и отладка программного кода Работа ...,posts
8,8,6.001,4,A,Разработка и отладка программного кода,3,A/05.3,Проверка и отладка программного кода,3,Разработка и отладка программного кода Проверк...,posts
9,9,6.001,4,A,Разработка и отладка программного кода,3,A/05.3,Проверка и отладка программного кода,3,Разработка и отладка программного кода Проверк...,posts


In [858]:
len(df_vacancies['id'].unique())

2559

In [818]:
df_vacancies

Unnamed: 0,id,name,pred_labels_w2v,pred_labels_tfidf,labels,tag,text,type,processed_text,vectors
1112,22003685,Специалист ИТ,10,10,10,Обязанности:,"Установка, настройка программного обеспечения;",duties,"[установка_NOUN, настройка_NOUN, программный_A...","[-0.019003939, 0.04221317, -0.101231284, 0.014..."
1113,22003685,Специалист ИТ,10,10,10,Обязанности:,Работа с периферийными устройствами (профилакт...,duties,"[работа_NOUN, периферийный_ADJF, устройство_NO...","[-0.0661059, 0.018238252, -0.03897819, -0.0077..."
1114,22003685,Специалист ИТ,10,10,10,Обязанности:,Прокладка компьютерных сетей;,duties,"[прокладка_NOUN, компьютерный_ADJF, сеть_NOUN]","[-0.03756683, -0.060893837, -0.04823627, 0.057..."
1115,22003685,Специалист ИТ,10,10,10,Обязанности:,Администрирование серверной системы;,duties,"[администрирование_NOUN, серверный_ADJF, систе...","[-0.050880454, 0.04614117, -0.05001604, 0.0335..."
1116,22003685,Специалист ИТ,10,10,10,Обязанности:,Диагностика неисправностей ИС.,duties,"[диагностика_NOUN, неисправность_NOUN, иса_NOUN]","[0.02804879, 0.009511768, -0.11330349, 0.05771..."
1117,22003685,Специалист ИТ,10,10,10,Обязанности:,"Регламентные работы (обновление ПО, контроль с...",duties,"[регламентный_ADJF, работа_NOUN, обновление_NO...","[0.0008831404, 0.021263162, -0.02783708, -0.01..."
1118,22003685,Специалист ИТ,10,10,10,Обязанности:,Установка прав доступа и контроль использовани...,duties,"[установка_NOUN, право_NOUN, доступ_NOUN, конт...","[0.00050972577, 0.012392543, -0.06700296, -0.0..."
1119,22003685,Специалист ИТ,10,10,10,Обязанности:,"Обеспечение своевременного копирования, архиви...",duties,"[обеспечение_NOUN, своевременный_ADJF, копиров...","[-0.06068075, 0.013850253, -0.05382271, -0.049..."
1120,22003685,Специалист ИТ,10,10,10,Обязанности:,Обеспечение сетевую защиты от несанкционирован...,duties,"[обеспечение_NOUN, сетевой_ADJF, защита_NOUN, ...","[-0.011581759, -0.013452447, -0.092466764, -0...."
1121,22003685,Специалист ИТ,10,10,10,Обязанности:,"Осуществление антивирусной защиты сервера, сет...",duties,"[осуществление_NOUN, антивирусный_ADJF, защита...","[-0.06558173, -0.0076438016, -0.12731442, 0.04..."


In [12]:
df_vacancies = pd.read_csv('../data/similarity_dataset/df_total_id_name_label_tag_textitem_type_sz245_m20.csv')
df_vacancies = df_vacancies.dropna(subset=['text_item', 'type'])
df_vacancies = df_vacancies.rename(index=str, columns={"text_item": "text"})
df_vacancies.head()

Unnamed: 0,id,name,pred_labels_w2v,pred_labels_tfidf,labels,tag,text,type
1112,22003685,Специалист ИТ,10,10,10,Обязанности:,"Установка, настройка программного обеспечения;",duties
1113,22003685,Специалист ИТ,10,10,10,Обязанности:,Работа с периферийными устройствами (профилакт...,duties
1114,22003685,Специалист ИТ,10,10,10,Обязанности:,Прокладка компьютерных сетей;,duties
1115,22003685,Специалист ИТ,10,10,10,Обязанности:,Администрирование серверной системы;,duties
1116,22003685,Специалист ИТ,10,10,10,Обязанности:,Диагностика неисправностей ИС.,duties


In [6]:
from gensim.models import Word2Vec

word2vec = Word2Vec.load("../data/big_word2vec/big_word2vec_model_CBOW")
word2vec.wv.init_sims()

In [16]:
import logging
import numpy as np
import gensim

def word_averaging(wv, words):
    all_words, mean = set(), []
    
    for word in words:
        if isinstance(word, np.ndarray):
            mean.append(word)
        elif word in wv.vocab:
            mean.append(wv.syn0norm[wv.vocab[word].index])
            all_words.add(wv.vocab[word].index)

    if not mean:
        logging.warning("cannot compute similarity with no input %s", words)
        # FIXME: remove these examples in pre-processing
        return np.zeros(wv.vector_size,)

    mean = gensim.matutils.unitvec(np.array(mean).mean(axis=0)).astype(np.float32)
    return mean

def  word_averaging_list(wv, text_list):
    return np.vstack([word_averaging(wv, review) for review in text_list ])

In [17]:
def get_vectorized_avg_w2v_corpus(corpus, model):
    documents = corpus['processed_text'].tolist()

    document_vectors = [word_averaging(model, document) for document in documents]
    clean_corpus = corpus
    clean_corpus['vectors'] = pd.Series(document_vectors).values
    
    return clean_corpus

In [15]:
df_vacancies['processed_text'] = df_vacancies['text'].apply(lambda text: process_text(text)['lemmatized_text_pos_tags'])

In [18]:
df_vacancies = get_vectorized_avg_w2v_corpus(df_vacancies, word2vec.wv)

  if sys.path[0] == '':


In [866]:
df_standards_prof['processed_text'] = df_standards_prof['text'].apply(lambda text: process_text(str(text))['lemmatized_text_pos_tags'])

In [867]:
df_standards_prof = get_vectorized_avg_w2v_corpus(df_standards_prof, word2vec.wv)

  if sys.path[0] == '':


In [27]:
from sklearn.metrics.pairwise import cosine_similarity

def most_similar(infer_vector, vectorized_corpus, topn = 10):
    df_sim = vectorized_corpus
    df_sim['sc'] = vectorized_corpus['vectors'].apply(lambda v : cosine_similarity([infer_vector], [v.tolist()])[0,0])
    df_sim = df_sim.sort_values(by='sc', ascending=False).head(n = topn)
    return df_sim

In [863]:
infer_vector

array([-1.26922697e-01,  5.66639118e-02,  1.98556259e-02, -1.23124290e-03,
       -4.07107593e-03,  1.25991208e-02, -8.78084525e-02,  1.17859177e-01,
        3.90591472e-02,  6.85739936e-03, -1.93734420e-03,  4.14623087e-03,
        1.74598880e-02, -7.07545877e-03,  1.14522045e-02, -4.50614318e-02,
        2.58564502e-02, -2.98753344e-02, -2.76127700e-02,  2.32239980e-02,
        6.01117574e-02, -5.18627465e-02,  2.01081950e-02, -5.79354092e-02,
       -9.04077366e-02, -7.06516802e-02, -3.40866596e-02,  2.35892739e-02,
       -1.23769874e-04, -9.73588526e-02,  2.55117053e-03, -1.04275690e-02,
        5.28676398e-02,  4.83751111e-02,  3.46088503e-03, -4.90416726e-03,
       -1.03014685e-01, -5.56472801e-02,  5.51495105e-02, -2.61466093e-02,
        4.99861985e-02,  7.27413222e-02, -9.49534308e-03,  1.09859362e-01,
        9.80065763e-02, -4.24664989e-02, -3.93386558e-02, -1.31335899e-01,
       -7.49325007e-02, -4.68054637e-02, -1.69082597e-01, -1.97509248e-02,
        3.43898945e-02,  

In [868]:
df_standards_prof

Unnamed: 0.1,Unnamed: 0,kod_standard,num_gen_func,kod_gen_func,name_gen_func,gen_func_skill_level,kod_sim_func,name_sim_func,sim_func_skill_level,text,type,processed_text,vectors
0,0,6.001,0,A,Разработка и отладка программного кода,3,A/01.3,Формализация и алгоритмизация поставленных задач,3,Разработка и отладка программного кода Формали...,posts,"[разработка_NOUN, отладка_NOUN, программный_AD...","[0.0901265, 0.12782185, -0.052002188, 0.030305..."
1,1,6.001,0,A,Разработка и отладка программного кода,3,A/01.3,Формализация и алгоритмизация поставленных задач,3,Разработка и отладка программного кода Формали...,posts,"[разработка_NOUN, отладка_NOUN, программный_AD...","[0.10559307, 0.12511574, -0.047288097, 0.03003..."
2,2,6.001,1,A,Разработка и отладка программного кода,3,A/02.3,Написание программного кода с использованием я...,3,Разработка и отладка программного кода Написан...,posts,"[разработка_NOUN, отладка_NOUN, программный_AD...","[0.060061567, 0.10636399, -0.09492284, 0.01011..."
3,3,6.001,1,A,Разработка и отладка программного кода,3,A/02.3,Написание программного кода с использованием я...,3,Разработка и отладка программного кода Написан...,posts,"[разработка_NOUN, отладка_NOUN, программный_AD...","[0.068804376, 0.10294106, -0.09104614, 0.00959..."
4,4,6.001,2,A,Разработка и отладка программного кода,3,A/03.3,Оформление программного кода в соответствии с ...,3,Разработка и отладка программного кода Оформле...,posts,"[разработка_NOUN, отладка_NOUN, программный_AD...","[0.043771222, 0.09729308, -0.06833483, 0.01313..."
5,5,6.001,2,A,Разработка и отладка программного кода,3,A/03.3,Оформление программного кода в соответствии с ...,3,Разработка и отладка программного кода Оформле...,posts,"[разработка_NOUN, отладка_NOUN, программный_AD...","[0.054618336, 0.092351995, -0.06308669, 0.0123..."
6,6,6.001,3,A,Разработка и отладка программного кода,3,A/04.3,Работа с системой контроля версий,3,Разработка и отладка программного кода Работа ...,posts,"[разработка_NOUN, отладка_NOUN, программный_AD...","[0.02252946, 0.1440972, -0.071744874, 0.002135..."
7,7,6.001,3,A,Разработка и отладка программного кода,3,A/04.3,Работа с системой контроля версий,3,Разработка и отладка программного кода Работа ...,posts,"[разработка_NOUN, отладка_NOUN, программный_AD...","[0.035438873, 0.13758707, -0.0655029, 0.001383..."
8,8,6.001,4,A,Разработка и отладка программного кода,3,A/05.3,Проверка и отладка программного кода,3,Разработка и отладка программного кода Проверк...,posts,"[разработка_NOUN, отладка_NOUN, программный_AD...","[0.043497037, 0.13748103, -0.100537665, 0.0290..."
9,9,6.001,4,A,Разработка и отладка программного кода,3,A/05.3,Проверка и отладка программного кода,3,Разработка и отладка программного кода Проверк...,posts,"[разработка_NOUN, отладка_NOUN, программный_AD...","[0.055148434, 0.13360244, -0.09599248, 0.02838..."


In [86]:
samples_df = pd.DataFrame()
similar_df = pd.DataFrame()

In [810]:
samples_df

Unnamed: 0,id,name,pred_labels_w2v,pred_labels_tfidf,labels,tag,text,type,processed_text,vectors
16302,24310970,Java-разработчик,,,14,Обязанности:,Построение процесса continuous integration/con...,duties,"[построение_NOUN, процесс_NOUN, continuous_, i...","[0.010700816, -0.0616352, -0.14225195, -0.0374..."
24184,25620283,Программист,14,14,14,Чем нужно будет заниматься:,Разрабатывать/внедрять новые модули на основан...,duties,"[разрабатывать_INFN, внедрять_INFN, новое_NOUN...","[0.105946764, 0.07874665, -0.00044055178, -0.0..."
13619,23880141,Java-разработчик,14,14,14,Требования:,Опыт работы с СУБД (SQL).,requirements,"[опыт_NOUN, работа_NOUN, субд_NOUN, sql_]","[-0.05298915, 0.05067005, -0.047269642, -0.006..."
11843,23572369,Программист С++,1214,1214,14,Требования:,"Знание технологий WinAPI, включая DLL, Windows...",requirements,"[знание_NOUN, технология_NOUN, winapi_, dll_, ...","[0.029645156, 0.08149331, -0.02524044, 0.01786..."
30247,27642679,Программист Delphi (MS SQL),14,114,14,Требования:,опыт разработки многопоточных приложений на De...,requirements,"[опыт_NOUN, разработка_NOUN, многопоточный_ADJ...","[-0.028180975, 0.055643417, 0.01569996, -0.026..."
16473,24333420,Программист PHP ( на коробочную версию Битрикс...,1419,14,14,Обязанности:,Настройка интеграции с различными внутренними ...,duties,"[настройка_NOUN, интеграция_NOUN, различный_AD...","[-7.15132e-06, 0.089014255, -0.060065825, -0.0..."
32297,28025416,Ведущий инженер-программист (бюро ТМС),14,14,14,Требования:,"Знание языков программирования C, С++.",requirements,"[знание_NOUN, язык_NOUN, программирование_NOUN...","[-0.027752476, 0.047111243, -0.01690753, 0.030..."
30148,27597093,Разработчик приложений для Андроид / Android D...,,,14,Обязанности,Участие в разработке и развитии наших продукто...,duties,"[участие_NOUN, разработка_NOUN, развитие_NOUN,...","[-0.05152983, 0.060379624, 0.024882717, -0.009..."
18037,24605056,Программист 1С,,14,14,Требования:,"Умение работать в режиме многозадачности, само...",requirements,"[умение_NOUN, работать_INFN, режим_NOUN, много...","[0.1308815, -0.024629869, 0.034076948, -0.0006..."
13953,23949234,IOS разработчик,14,14,14,Обязанности:,Общение с заказчиком и командой Бекенд-програм...,duties,"[общение_NOUN, заказчик_NOUN, команда_NOUN, бе...","[0.014443447, 0.24413256, -0.029282346, 0.0348..."


In [794]:
samples_df.shape[0]

120

In [793]:
samples_df = samples_df.append(vac_sample)

similar_documents['index_vacancies'] = vac_sample.index[0]
similar_documents['vector_sim'] = 'avg w2v'
similar_df = similar_df.append(similar_documents)

In [873]:
vac_sample = df_vacancies.sample()#[df_vacancies['labels']=='10'].sample()
infer_vector = vac_sample.iloc[0]['vectors']
print(vac_sample.index[0])
print(vac_sample.iloc[0]['name'])
print(vac_sample.iloc[0]['labels'])
print(vac_sample.iloc[0]['type'])
print(vac_sample.iloc[0]['text'])

24955
Администратор баз данных
1
duties
установка, настройка и обновление программного обеспечения СУБД на серверах и рабочих станциях;


In [874]:
ds = df_standards_prof[df_standards_prof['type'].isin(['activities', 'skills','knowledge'])]
similar_documents = most_similar(infer_vector, ds, topn = 5)

for idx, row in similar_documents.iterrows():
    print('kod_standard: ', row['kod_standard'],'type: ', row['type'],'  score = ',row['sc'])
    print(row['text'])
    print('================================')

kod_standard:  6.027 type:  knowledge   score =  0.8701121109099467
Администрирование процесса установки сетевых устройств инфокоммуникационных систем Настройка программного обеспечения сетевых устройств Инструкции по установке администрируемого программного обеспечения
kod_standard:  6.027 type:  activities   score =  0.8630158289571468
Администрирование процесса установки сетевых устройств инфокоммуникационных систем Настройка программного обеспечения сетевых устройств Проверка функционирования сетевых устройств после установки и настройки программного обеспечения
kod_standard:  6.026 type:  activities   score =  0.8626956077977977
Администрирование системного программного обеспечения инфокоммуникационной системы организации Установка системного программного обеспечения Инсталляция файл-сервера
kod_standard:  6.01 type:  knowledge   score =  0.8616392249491774
Установка, настройка и обслуживание программного обеспечения телекоммуникационного оборудования Установка и настройка програм

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  """


In [804]:
samples_df.to_csv('samples_df.csv')

In [875]:
samples_df

Unnamed: 0,id,name,pred_labels_w2v,pred_labels_tfidf,labels,tag,text,type,processed_text,vectors
16302,24310970,Java-разработчик,,,14,Обязанности:,Построение процесса continuous integration/con...,duties,"[построение_NOUN, процесс_NOUN, continuous_, i...","[0.010700816, -0.0616352, -0.14225195, -0.0374..."
24184,25620283,Программист,14,14,14,Чем нужно будет заниматься:,Разрабатывать/внедрять новые модули на основан...,duties,"[разрабатывать_INFN, внедрять_INFN, новое_NOUN...","[0.105946764, 0.07874665, -0.00044055178, -0.0..."
13619,23880141,Java-разработчик,14,14,14,Требования:,Опыт работы с СУБД (SQL).,requirements,"[опыт_NOUN, работа_NOUN, субд_NOUN, sql_]","[-0.05298915, 0.05067005, -0.047269642, -0.006..."
11843,23572369,Программист С++,1214,1214,14,Требования:,"Знание технологий WinAPI, включая DLL, Windows...",requirements,"[знание_NOUN, технология_NOUN, winapi_, dll_, ...","[0.029645156, 0.08149331, -0.02524044, 0.01786..."
30247,27642679,Программист Delphi (MS SQL),14,114,14,Требования:,опыт разработки многопоточных приложений на De...,requirements,"[опыт_NOUN, разработка_NOUN, многопоточный_ADJ...","[-0.028180975, 0.055643417, 0.01569996, -0.026..."
16473,24333420,Программист PHP ( на коробочную версию Битрикс...,1419,14,14,Обязанности:,Настройка интеграции с различными внутренними ...,duties,"[настройка_NOUN, интеграция_NOUN, различный_AD...","[-7.15132e-06, 0.089014255, -0.060065825, -0.0..."
32297,28025416,Ведущий инженер-программист (бюро ТМС),14,14,14,Требования:,"Знание языков программирования C, С++.",requirements,"[знание_NOUN, язык_NOUN, программирование_NOUN...","[-0.027752476, 0.047111243, -0.01690753, 0.030..."
30148,27597093,Разработчик приложений для Андроид / Android D...,,,14,Обязанности,Участие в разработке и развитии наших продукто...,duties,"[участие_NOUN, разработка_NOUN, развитие_NOUN,...","[-0.05152983, 0.060379624, 0.024882717, -0.009..."
18037,24605056,Программист 1С,,14,14,Требования:,"Умение работать в режиме многозадачности, само...",requirements,"[умение_NOUN, работать_INFN, режим_NOUN, много...","[0.1308815, -0.024629869, 0.034076948, -0.0006..."
13953,23949234,IOS разработчик,14,14,14,Обязанности:,Общение с заказчиком и командой Бекенд-програм...,duties,"[общение_NOUN, заказчик_NOUN, команда_NOUN, бе...","[0.014443447, 0.24413256, -0.029282346, 0.0348..."


In [814]:
len(corpus['id'].unique())

98

In [876]:
similar_df

Unnamed: 0.1,Unnamed: 0,kod_standard,num_gen_func,kod_gen_func,name_gen_func,gen_func_skill_level,kod_sim_func,name_sim_func,sim_func_skill_level,text,type,processed_text,vectors,sc,index_vacancies,vector_sim
163,163,6.001,10,C,Интеграция программных модулей и компонент и в...,5,C/01.5,Разработка процедур интеграции программных мод...,5,Интеграция программных модулей и компонент и в...,skills,"[интеграция_NOUN, программный_ADJF, модуль_NOU...","[0.036767356, 0.08411651, -0.08022889, -0.0588...",0.336699,16302,avg w2v
223,223,6.001,10,C,Интеграция программных модулей и компонент и в...,5,C/01.5,Разработка процедур интеграции программных мод...,5,Интеграция программных модулей и компонент и в...,knowledge,"[интеграция_NOUN, программный_ADJF, модуль_NOU...","[0.013816811, 0.094336666, -0.07436288, -0.043...",0.335129,16302,avg w2v
188,188,6.001,1,A,Разработка и отладка программного кода,3,A/02.3,Написание программного кода с использованием я...,3,Разработка и отладка программного кода Написан...,knowledge,"[разработка_NOUN, отладка_NOUN, программный_AD...","[0.07315942, 0.06855275, -0.095341176, -0.0356...",0.331897,16302,avg w2v
240,240,6.001,14,D,Разработка требований и проектирование програм...,6,D/03.6,Проектирование программного обеспечения,6,Разработка требований и проектирование програм...,knowledge,"[разработка_NOUN, требование_NOUN, проектирова...","[0.046736676, 0.03257723, -0.11030507, 0.03645...",0.321065,16302,avg w2v
224,224,6.001,10,C,Интеграция программных модулей и компонент и в...,5,C/01.5,Разработка процедур интеграции программных мод...,5,Интеграция программных модулей и компонент и в...,knowledge,"[интеграция_NOUN, программный_ADJF, модуль_NOU...","[0.036297362, 0.09246174, -0.069227636, -0.064...",0.319950,16302,avg w2v
108,108,6.001,10,C,Интеграция программных модулей и компонент и в...,5,C/01.5,Разработка процедур интеграции программных мод...,5,Интеграция программных модулей и компонент и в...,activities,"[интеграция_NOUN, программный_ADJF, модуль_NOU...","[0.04819109, 0.07044213, -0.042670052, -0.0541...",0.583395,24184,avg w2v
168,168,6.001,11,C,Интеграция программных модулей и компонент и в...,5,C/02.5,Осуществление интеграции программных модулей и...,5,Интеграция программных модулей и компонент и в...,skills,"[интеграция_NOUN, программный_ADJF, модуль_NOU...","[0.019231772, 0.054763332, -0.06364262, -0.039...",0.578499,24184,avg w2v
162,162,6.001,10,C,Интеграция программных модулей и компонент и в...,5,C/01.5,Разработка процедур интеграции программных мод...,5,Интеграция программных модулей и компонент и в...,skills,"[интеграция_NOUN, программный_ADJF, модуль_NOU...","[0.013134247, 0.09158192, -0.06292376, -0.0535...",0.569237,24184,avg w2v
131,131,6.001,0,A,Разработка и отладка программного кода,3,A/01.3,Формализация и алгоритмизация поставленных задач,3,Разработка и отладка программного кода Формали...,skills,"[разработка_NOUN, отладка_NOUN, программный_AD...","[0.13644403, 0.07262039, -0.06907631, -0.01988...",0.568958,24184,avg w2v
222,222,6.001,10,C,Интеграция программных модулей и компонент и в...,5,C/01.5,Разработка процедур интеграции программных мод...,5,Интеграция программных модулей и компонент и в...,knowledge,"[интеграция_NOUN, программный_ADJF, модуль_NOU...","[0.012453459, 0.094319575, -0.05607402, -0.047...",0.567700,24184,avg w2v


In [853]:
vac_sample

Unnamed: 0,id,name,pred_labels_w2v,pred_labels_tfidf,labels,tag,text,type,processed_text,vectors
23543,25467975,Системный администратор,,10,10,Требования:,"Microsoft SQL Server (DBE, AS, RS) 2005-2014.",requirements,"[microsoft_, sql_, server_, dbe_, as_, rs_, 20...","[-0.033666506, -0.020292412, -0.0090865465, -0..."


In [802]:
similar_join_df = similar_df.join(samples_df[['name', 'labels','text']], on=['index_vacancies'],rsuffix='_sample')

In [807]:
similar_join_df.columns

Index(['Unnamed: 0', 'kod_standard', 'num_gen_func', 'kod_gen_func',
       'name_gen_func', 'gen_func_skill_level', 'kod_sim_func',
       'name_sim_func', 'sim_func_skill_level', 'text', 'type',
       'processed_text', 'vectors', 'sc', 'index_vacancies', 'vector_sim',
       'name', 'labels', 'text_sample'],
      dtype='object')

In [808]:
similar_join_df

Unnamed: 0.1,Unnamed: 0,kod_standard,num_gen_func,kod_gen_func,name_gen_func,gen_func_skill_level,kod_sim_func,name_sim_func,sim_func_skill_level,text,type,processed_text,vectors,sc,index_vacancies,vector_sim,name,labels,text_sample
163,163,6.001,10,C,Интеграция программных модулей и компонент и в...,5,C/01.5,Разработка процедур интеграции программных мод...,5,Интеграция программных модулей и компонент и в...,skills,"[интеграция_NOUN, программный_ADJF, модуль_NOU...","[0.036767356, 0.08411651, -0.08022889, -0.0588...",0.336699,16302,avg w2v,Java-разработчик,14,Построение процесса continuous integration/con...
223,223,6.001,10,C,Интеграция программных модулей и компонент и в...,5,C/01.5,Разработка процедур интеграции программных мод...,5,Интеграция программных модулей и компонент и в...,knowledge,"[интеграция_NOUN, программный_ADJF, модуль_NOU...","[0.013816811, 0.094336666, -0.07436288, -0.043...",0.335129,16302,avg w2v,Java-разработчик,14,Построение процесса continuous integration/con...
188,188,6.001,1,A,Разработка и отладка программного кода,3,A/02.3,Написание программного кода с использованием я...,3,Разработка и отладка программного кода Написан...,knowledge,"[разработка_NOUN, отладка_NOUN, программный_AD...","[0.07315942, 0.06855275, -0.095341176, -0.0356...",0.331897,16302,avg w2v,Java-разработчик,14,Построение процесса continuous integration/con...
240,240,6.001,14,D,Разработка требований и проектирование програм...,6,D/03.6,Проектирование программного обеспечения,6,Разработка требований и проектирование програм...,knowledge,"[разработка_NOUN, требование_NOUN, проектирова...","[0.046736676, 0.03257723, -0.11030507, 0.03645...",0.321065,16302,avg w2v,Java-разработчик,14,Построение процесса continuous integration/con...
224,224,6.001,10,C,Интеграция программных модулей и компонент и в...,5,C/01.5,Разработка процедур интеграции программных мод...,5,Интеграция программных модулей и компонент и в...,knowledge,"[интеграция_NOUN, программный_ADJF, модуль_NOU...","[0.036297362, 0.09246174, -0.069227636, -0.064...",0.319950,16302,avg w2v,Java-разработчик,14,Построение процесса continuous integration/con...
108,108,6.001,10,C,Интеграция программных модулей и компонент и в...,5,C/01.5,Разработка процедур интеграции программных мод...,5,Интеграция программных модулей и компонент и в...,activities,"[интеграция_NOUN, программный_ADJF, модуль_NOU...","[0.04819109, 0.07044213, -0.042670052, -0.0541...",0.583395,24184,avg w2v,Программист,14,Разрабатывать/внедрять новые модули на основан...
168,168,6.001,11,C,Интеграция программных модулей и компонент и в...,5,C/02.5,Осуществление интеграции программных модулей и...,5,Интеграция программных модулей и компонент и в...,skills,"[интеграция_NOUN, программный_ADJF, модуль_NOU...","[0.019231772, 0.054763332, -0.06364262, -0.039...",0.578499,24184,avg w2v,Программист,14,Разрабатывать/внедрять новые модули на основан...
162,162,6.001,10,C,Интеграция программных модулей и компонент и в...,5,C/01.5,Разработка процедур интеграции программных мод...,5,Интеграция программных модулей и компонент и в...,skills,"[интеграция_NOUN, программный_ADJF, модуль_NOU...","[0.013134247, 0.09158192, -0.06292376, -0.0535...",0.569237,24184,avg w2v,Программист,14,Разрабатывать/внедрять новые модули на основан...
131,131,6.001,0,A,Разработка и отладка программного кода,3,A/01.3,Формализация и алгоритмизация поставленных задач,3,Разработка и отладка программного кода Формали...,skills,"[разработка_NOUN, отладка_NOUN, программный_AD...","[0.13644403, 0.07262039, -0.06907631, -0.01988...",0.568958,24184,avg w2v,Программист,14,Разрабатывать/внедрять новые модули на основан...
222,222,6.001,10,C,Интеграция программных модулей и компонент и в...,5,C/01.5,Разработка процедур интеграции программных мод...,5,Интеграция программных модулей и компонент и в...,knowledge,"[интеграция_NOUN, программный_ADJF, модуль_NOU...","[0.012453459, 0.094319575, -0.05607402, -0.047...",0.567700,24184,avg w2v,Программист,14,Разрабатывать/внедрять новые модули на основан...


In [809]:
similar_join_df[['Unnamed: 0','index_vacancies','labels','name', 'text_sample',  'text', 'type', 
                 'kod_standard', 'sc',  'vector_sim']].to_csv('similar_join_df.csv')

In [819]:
df_hh_corpus = pd.read_csv('../data/multilabel/hh_corpus_sz245_m20_all_v7.csv')


Unnamed: 0,id,name,created_at,area_id,area_name,employer_id,employer_name,employer_url,employment_id,experience_id,...,m14,m15,m16,m17,m18,m19,m20,m21,pred_labels_w2v,pred_labels_tfidf
0,20001586,Инженер-проектировщик решений по передаче данных,2017-03-21T14:05:18+0300,1,Москва,3095,Инфосистемы Джет,https://api.hh.ru/employers/3095,full,between3And6,...,9.9e-05,0.001431,4.701895e-06,0.002078,2e-06,5.1e-05,0.2791162,0.000466,,1120.0
1,20001746,Архитектор решений,2017-03-21T14:14:06+0300,72,Пермь,60444,SAPRUN,https://api.hh.ru/employers/60444,full,between3And6,...,0.095128,3e-06,3.567902e-07,0.132846,2e-05,0.016381,0.0001753591,0.005167,,
2,20001909,Python-разработчик в Район,2017-03-21T14:22:54+0300,3,Екатеринбург,1740,Яндекс,https://api.hh.ru/employers/1740,full,between3And6,...,0.824592,4.7e-05,0.000667652,0.001941,0.002193,0.020647,0.0008852524,0.000125,14.0,14.0
3,20002793,Системный администратор/Программист Delphi,2017-04-20T15:09:12+0300,1,Москва,82772,Ваш Размер,https://api.hh.ru/employers/82772,full,between1And3,...,0.503355,1e-06,0.000420333,5e-06,7.5e-05,0.000125,3.075517e-07,4.7e-05,14.0,1014.0
4,20004542,IT аналитик (электронные торговые площадки),2017-03-21T16:29:50+0300,2,Санкт-Петербург,900282,Российский аукционный дом,https://api.hh.ru/employers/900282,full,between3And6,...,0.002126,7e-06,1.070819e-05,0.000227,0.003258,0.000245,0.0002313972,3.5e-05,8.0,8.0


In [822]:
df_hh_corpus.columns

Index(['id', 'name', 'created_at', 'area_id', 'area_name', 'employer_id',
       'employer_name', 'employer_url', 'employment_id', 'experience_id',
       'schedule_id', 'description', 'specializations', 'key_skills',
       'salary_f_t_g_c', 'alternate_url', 'duties', 'requirements',
       'all_description', 'has_duties', 'has_requirements', 'standard_mark',
       'proba_true_w2v', 'pred_mark_w2v', 'proba_pred_w2v', 'proba_true_tfidf',
       'pred_mark_tfidf', 'proba_pred_tfidf', 'main_label',
       'additional_labels', 'editor_name', 'comments', 'labels', 'max_wrong',
       'm1', 'm2', 'm3', 'm4', 'm5', 'm6', 'm7', 'm8', 'm9', 'm10', 'm11',
       'm12', 'm14', 'm15', 'm16', 'm17', 'm18', 'm19', 'm20', 'm21',
       'pred_labels_w2v', 'pred_labels_tfidf'],
      dtype='object')

In [823]:
df_hh_corpus['all_description']

0       Инженер-проектировщик решений по передаче данн...
1       Архитектор решений Обязанности:  разработка ар...
2       Python-разработчик в Район Новый сервис Яндекс...
3       Системный администратор/Программист Delphi Обя...
4       IT аналитик (электронные торговые площадки)   ...
5       Системный администратор Обязанности:  Эксплуат...
6       Менеджер IT-проектов Обязанности:  Контроль по...
7       Системный архитектор (Cпециализированные инфор...
8       Технический писатель Обязанности:  Работа в ко...
9       Product manager/менеджер по продукту в стартап...
10      Младший системный разработчик Компания GlowByt...
11      Системный архитектор (.NET) Компания Bright Bo...
12      Системный администратор Требования:    опыт на...
13      Менеджер проектов Обязанности:  Разработка пас...
14      Веб-разработчик Должностные обязанности:  Сопр...
15      Стажер тестировщик Мы предлагаем начинающим сп...
16      Бизнес-аналитик Функции:  Разработка и формали...
17      Инжене

In [824]:
df_hh_corpus['processed_text'] = df_hh_corpus['all_description'].apply(lambda text: process_text(text)['lemmatized_text_pos_tags'])

In [836]:
gen_func.shape

(1108, 11)

In [835]:
gen_func=df_standards_prof.drop_duplicates(subset=['kod_standard', 'kod_gen_func','num_gen_func', 'name_gen_func'])

In [837]:
func=df_standards_prof.drop_duplicates(subset=['kod_standard', 'kod_gen_func','num_gen_func', 'name_sim_func'])

In [838]:
item=df_standards_prof.drop_duplicates(subset=['kod_standard', 'kod_gen_func','num_gen_func', 'text'])

In [None]:
gen_func['text'] = df_standards_prof

In [None]:
kod_standard
kod_gen_func
num_gen_func
name_gen_func
name_sim_func
text

In [842]:
gen_func['text'] = gen_func['name_gen_func'] 

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  """Entry point for launching an IPython kernel.


In [843]:
func['text'] = func['name_sim_func'] 

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  """Entry point for launching an IPython kernel.


In [845]:
concept_df = pd.DataFrame()
concept_df = gen_func[['text']]
concept_df = concept_df.append(func[['text']])
concept_df = concept_df.append(item[['text']])

In [846]:
concept_df.shape

(26578, 1)

In [848]:
concept_df['text'] = concept_df['text'].astype(str)

In [849]:
concept_df['processed_text'] = concept_df['text'].apply(lambda text: process_text(text)['lemmatized_text_pos_tags'])

In [850]:
corpus = concept_df
vocabulary = set()
counter = 0
for text in corpus['processed_text']:
    counter+=len(text)
    for word in text:
        vocabulary.add(word)
print(len(vocabulary))
print(counter)

3680
574381


In [929]:
samples_df.index

Index(['16302', '24184', '13619', '11843', '30247', '16473', '32297', '30148',
       '18037', '13953',
       ...
       '7903', '10024', '6263', '28410', '17950', '2810', '5093', '14950',
       '18374', '23543'],
      dtype='object', length=120)

In [886]:
df_standards_prof

Unnamed: 0.1,Unnamed: 0,kod_standard,num_gen_func,kod_gen_func,name_gen_func,gen_func_skill_level,kod_sim_func,name_sim_func,sim_func_skill_level,text,type,processed_text,vectors
0,0,6.001,0,A,Разработка и отладка программного кода,3,A/01.3,Формализация и алгоритмизация поставленных задач,3,Разработка и отладка программного кода Формали...,posts,"[разработка_NOUN, отладка_NOUN, программный_AD...","[0.0901265, 0.12782185, -0.052002188, 0.030305..."
1,1,6.001,0,A,Разработка и отладка программного кода,3,A/01.3,Формализация и алгоритмизация поставленных задач,3,Разработка и отладка программного кода Формали...,posts,"[разработка_NOUN, отладка_NOUN, программный_AD...","[0.10559307, 0.12511574, -0.047288097, 0.03003..."
2,2,6.001,1,A,Разработка и отладка программного кода,3,A/02.3,Написание программного кода с использованием я...,3,Разработка и отладка программного кода Написан...,posts,"[разработка_NOUN, отладка_NOUN, программный_AD...","[0.060061567, 0.10636399, -0.09492284, 0.01011..."
3,3,6.001,1,A,Разработка и отладка программного кода,3,A/02.3,Написание программного кода с использованием я...,3,Разработка и отладка программного кода Написан...,posts,"[разработка_NOUN, отладка_NOUN, программный_AD...","[0.068804376, 0.10294106, -0.09104614, 0.00959..."
4,4,6.001,2,A,Разработка и отладка программного кода,3,A/03.3,Оформление программного кода в соответствии с ...,3,Разработка и отладка программного кода Оформле...,posts,"[разработка_NOUN, отладка_NOUN, программный_AD...","[0.043771222, 0.09729308, -0.06833483, 0.01313..."
5,5,6.001,2,A,Разработка и отладка программного кода,3,A/03.3,Оформление программного кода в соответствии с ...,3,Разработка и отладка программного кода Оформле...,posts,"[разработка_NOUN, отладка_NOUN, программный_AD...","[0.054618336, 0.092351995, -0.06308669, 0.0123..."
6,6,6.001,3,A,Разработка и отладка программного кода,3,A/04.3,Работа с системой контроля версий,3,Разработка и отладка программного кода Работа ...,posts,"[разработка_NOUN, отладка_NOUN, программный_AD...","[0.02252946, 0.1440972, -0.071744874, 0.002135..."
7,7,6.001,3,A,Разработка и отладка программного кода,3,A/04.3,Работа с системой контроля версий,3,Разработка и отладка программного кода Работа ...,posts,"[разработка_NOUN, отладка_NOUN, программный_AD...","[0.035438873, 0.13758707, -0.0655029, 0.001383..."
8,8,6.001,4,A,Разработка и отладка программного кода,3,A/05.3,Проверка и отладка программного кода,3,Разработка и отладка программного кода Проверк...,posts,"[разработка_NOUN, отладка_NOUN, программный_AD...","[0.043497037, 0.13748103, -0.100537665, 0.0290..."
9,9,6.001,4,A,Разработка и отладка программного кода,3,A/05.3,Проверка и отладка программного кода,3,Разработка и отладка программного кода Проверк...,posts,"[разработка_NOUN, отладка_NOUN, программный_AD...","[0.055148434, 0.13360244, -0.09599248, 0.02838..."


In [930]:
def similarity(vacancies, standards):
    df_result = pd.DataFrame(columns = ['vac_text','prof_text','prof_type','prof_code','sc','vector_sim'])
    for index, sample in vacancies.iterrows():
        similar_docs = most_similar(sample['vectors'],standards, topn=5)[['text','type','kod_standard','sc']]
        similar_docs['vac_text'] = sample['text']
        similar_docs['name'] = sample['name']
        similar_docs['idx_vacancies'] = index
        similar_docs['vector_sim'] = 'Avg W2V'
        similar_docs['labels'] = sample['labels']
        similar_docs = similar_docs.rename(columns={
                 'text' : 'prof_text',
                 'type' : 'prof_type',

                 'kod_standard' : 'prof_code'
                 })   
        similar_docs['prof_name'] = sample['prof_name']
        df_result = pd.concat([df_result,similar_docs])
        print(index)
    return df_result

In [931]:
similar_samples_W2V = similarity(samples_df, df_standards_prof)
#similar_samples_W2V.to_csv('similar_samples_W2V')

of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=True'.




16302
24184
13619
11843
30247
16473
32297
30148
18037
13953
3411
20312
10786
26932
27448
7989
16893
17284
24651
7253
18023
30248
13371
30159
12131
27772
30162
17281
19779
4476
10270
12698
2078
9571
4966
3232
6717
14769
13537
24890
18812
27025
29289
19742
12787
26130
13544
5137
31378
26047
26129
15811
11886
6710
8330
15812
6724
14918
28213
15820
20874
17294
1618
13340
1250
28272
21948
25025
11641
4890
26410
28262
26986
3096
25152
15014
21957
13511
25640
31833
28268
6908
21947
12372
13276
15954
4875
19531
14704
15647
9261
12459
31677
10028
27143
2803
31666
14785
27478
15036
30510
10124
14790
31518
22310
15115
19206
23532
15031
27353
7903
10024
6263
28410
17950
2810
5093
14950
18374
23543


In [941]:
similar_samples_W2V['vac_text'].iloc[34]

'Знание языков программирования C, С++.'

In [942]:
similar_samples_W2V.to_csv('similar_samples_W2V')

In [913]:
samples_df['kod_standard'] = samples_df['labels'].apply(lambda label: 
                                                        '6.011' if label == '1' else
                                                        '6.015' if label == '2' else
                                                        '6.012' if label == '3' else
                                                        '6.014' if label == '4' else
                                                        '6.016' if label == '5' else
                                                        '6.017' if label == '6' else
                                                        '6.019' if label == '7' else
                                                        '6.022' if label == '8' else
                                                        '6.025' if label == '9' else
                                                        '6.026' if label == '10' else
                                                        '6.027' if label == '11' else
                                                        '6.028' if label == '12' else
                                                        '6.029' if label == '13' else
                                                        '6.001' if label == '14' else
                                                        '6.005' if label == '15' else
                                                        '6.013' if label == '16' else
                                                        '6.003' if label == '17' else
                                                        '6.004' if label == '18' else
                                                        '6.035' if label == '19' else
                                                        '6.007' if label == '20' else
                                                        '6.041' if label == '21' else
                                                        'NaN')

In [914]:
samples_df['prof_name'] = samples_df['labels'].apply(lambda label: 
                                                     'Специалист по интеграции прикладных решений' if label == '21' else
                                                     'Инженер-проектировщик в области связи (телекоммуникаций)' if label == '20' else
                                                     'Разработчик Web и мультимедийных приложений' if label == '19' else
                                                     'Специалист по тестированию в области информационных технологий' if label == '18' else
                                                     'Архитектор программного обеспечения' if label == '17' else
                                                     'Специалист по информационным ресурсам' if label == '16' else
                                                     'Инженер-радиоэлектронщик' if label == '15' else
                                                     'Программист' if label == '14' else
                                                     'Менеджер по продажам информационно-коммуникационных систем' if label == '13' else
                                                     'Системный программист' if label == '12' else
                                                     'Специалист по администрированию сетевых устройств информационно-коммуникационных систем' if label == '11' else
                                                     'Системный администратор информационно-коммуникационных систем' if label == '10' else
                                                     'Специалист по дизайну графических и пользовательских интерфейсов' if label == '9' else
                                                     'Системный аналитик' if label == '8' else
                                                     'Технический писатель (специалист по технической документации в области информационных технологий)' if label == '7' else
                                                     'Руководитель разработки программного обеспечения' if label == '6' else
                                                     'Руководитель проектов в области информационных технологий' if label == '5' else
                                                     'Менеджер по информационным технологиям' if label == '4' else
                                                     'Менеджер продуктов в области информационных технологий' if label == '3' else
                                                     'Специалист по информационным системам' if label == '2' else
                                                     'Администратор баз данных' if label == '1' else
                                                     'NaN')

In [926]:
similar_samples_W2V

Unnamed: 0,labels,name,prof_code,prof_name,prof_text,prof_type,sc,vac_text,vector_sim
18785,14,Java-разработчик,6.028,Программист,Разработка операционных систем Разработка архи...,knowledge,0.392228,Построение процесса continuous integration/con...,Avg W2V
18783,14,Java-разработчик,6.028,Программист,Разработка операционных систем Разработка архи...,knowledge,0.384105,Построение процесса continuous integration/con...,Avg W2V
18779,14,Java-разработчик,6.028,Программист,Разработка операционных систем Разработка архи...,knowledge,0.382737,Построение процесса continuous integration/con...,Avg W2V
18782,14,Java-разработчик,6.028,Программист,Разработка операционных систем Разработка архи...,knowledge,0.379561,Построение процесса continuous integration/con...,Avg W2V
18792,14,Java-разработчик,6.028,Программист,Разработка операционных систем Разработка архи...,knowledge,0.377138,Построение процесса continuous integration/con...,Avg W2V
3473,14,Программист,6.011,Программист,Управление развитием БД Разработка регламентов...,skills,0.668219,Разрабатывать/внедрять новые модули на основан...,Avg W2V
16630,14,Программист,6.025,Программист,Проектирование сложных\r\r\nпользовательских\r...,skills,0.620489,Разрабатывать/внедрять новые модули на основан...,Avg W2V
16626,14,Программист,6.025,Программист,Проектирование сложных\r\r\nпользовательских\r...,skills,0.604371,Разрабатывать/внедрять новые модули на основан...,Avg W2V
16623,14,Программист,6.025,Программист,Проектирование сложных\r\r\nпользовательских\r...,skills,0.602214,Разрабатывать/внедрять новые модули на основан...,Avg W2V
16625,14,Программист,6.025,Программист,Проектирование сложных\r\r\nпользовательских\r...,skills,0.600825,Разрабатывать/внедрять новые модули на основан...,Avg W2V


In [902]:
samples_df['labels'].unique()

array(['14', '1', '5', '10'], dtype=object)