In [3]:
import json
import spacy
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

In [4]:
nlp = spacy.load("en_core_web_sm")

In [2]:
file_path = "case_2_data_for_members.json"

with open(file_path, 'r', encoding='utf-8') as file:
    data = json.load(file)

In [5]:
def preprocess_text(text):
    if text is None:
        return ""
    
    doc = nlp(text.lower())
    tokens = [token.text for token in doc if not token.is_stop]
    return " ".join(tokens)


def get_vector_representation(texts):
    vectorizer = TfidfVectorizer()
    vectors = vectorizer.fit_transform(texts)
    return vectors.toarray()


def calculate_cosine_similarity(vector1, vector2):
    return cosine_similarity(vector1, vector2)[0][0]


for vacancy_data in data:
    processed_vacancy_description = preprocess_text(vacancy_data["vacancy"]["description"])
    print(f"Вакансия: {vacancy_data['vacancy']['name']}")

    print('--failed--')
    for i, failed_resume in enumerate(vacancy_data["failed_resumes"]):
        proc_text = [exp["description"] for exp in failed_resume.get("experienceItem", [])]
        resume_descriptions = " ".join([x for x in proc_text if x is not None])
        processed_candidate_experience = preprocess_text(resume_descriptions)
        vectors = get_vector_representation([processed_candidate_experience, processed_vacancy_description])

        vector_candidate = vectors[0].reshape(1, -1)
        vector_vacancy = vectors[1].reshape(1, -1)

        similarity_score = cosine_similarity(vector_vacancy, vector_candidate)
        print(f"Сходство с резюме {i + 1}: {similarity_score[0][0]}")
    
    print('--confirmed--')
    for i, conf_resume in enumerate(vacancy_data["confirmed_resumes"]):
        proc_text = [exp["description"] for exp in conf_resume.get("experienceItem", [])]
        resume_descriptions = " ".join([x for x in proc_text if x is not None])
        processed_candidate_experience = preprocess_text(resume_descriptions)
        vectors = get_vector_representation([processed_candidate_experience, processed_vacancy_description])


        vector_candidate = vectors[0].reshape(1, -1)
        vector_vacancy = vectors[1].reshape(1, -1)


        similarity_score = cosine_similarity(vector_vacancy, vector_candidate)
        print(f"Сходство с резюме {i + 1}: {similarity_score[0][0]}")

Вакансия: Java разработчик команда Инвестиции
--failed--
Сходство с резюме 1: 0.08766770176254826
Сходство с резюме 2: 0.06178989754293901
Сходство с резюме 3: 0.09803953701261581
Сходство с резюме 4: 0.0340140467236547
Сходство с резюме 5: 0.1190069804407072
Сходство с резюме 6: 0.08464411039958676
Сходство с резюме 7: 0.040137770832605876
Сходство с резюме 8: 0.1667436757891681
Сходство с резюме 9: 0.00833425130450796
Сходство с резюме 10: 0.05747439484635801
Сходство с резюме 11: 0.10079366427281525
--confirmed--
Сходство с резюме 1: 0.1361681307750509
Сходство с резюме 2: 0.002822075788670528
Сходство с резюме 3: 0.09573403217592322
Сходство с резюме 4: 0.07171719492697072
Сходство с резюме 5: 0.11561375945254337
Сходство с резюме 6: 0.08018543029328193
Сходство с резюме 7: 0.10885777281824151
Вакансия: Системный аналитик
--failed--
Сходство с резюме 1: 0.07032216946887149
Сходство с резюме 2: 0.0875334582193095
Сходство с резюме 3: 0.13675143460113
Сходство с резюме 4: 0.050952870