In [1]:
%%capture
!pip install sentence-transformers==3.0.1

In [114]:
import json
import pandas as pd

from transformers import AutoTokenizer, AutoModel
import torch
from sentence_transformers import SentenceTransformer

import pandas as pd
import numpy as np

import nltk
from nltk.corpus import stopwords
from nltk import ngrams

from typing import List, Union, Optional
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics import roc_auc_score

import re
from tqdm import tqdm

In [115]:
class EmbeddingModel:
    def __init__(self) -> None:
        pass

    def vectorize(self, form: dict) -> torch.Tensor:
        pass


class TextVectorizer_v2:
    def __init__(self, model_checkpoint: str) -> None:

        self.device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
        self.model = SentenceTransformer(model_checkpoint).to(self.device)

    def __preprocess(self, texts: list[str]) -> list[str]:
        """
        Закрытый метод предобработки текста

        Аргументы:
            texts: list[str]

        Возвращает:
            list[str]
        """
        return [txt.replace("\n", "") for txt in texts]


    def vectorize(self, form: Union[dict, list]) -> torch.Tensor:
        """
        Метод векторизации текста

        Аргументы:
            form: dict

        Возвращает:
            torch.Tensor (N, 1024)
        """

        if isinstance(form, dict):
            sentences = self.__preprocess([form[key] for key in tuple(form.keys())[1:]])

            with torch.no_grad():
                sentence_embeddings = self.model.encode(
                    sentences, 
                    convert_to_tensor=True, 
                    normalize_embeddings=True,
                    show_progress_bar=False
                ).to(self.device).cpu()

            return {key: sentence_embeddings[i] for i, key in enumerate(tuple(form.keys())[1:])}

        elif isinstance(form, list):
            sentences = self.__preprocess(form)
            with torch.no_grad():
                sentence_embeddings = self.model.encode(
                    sentences, 
                    convert_to_tensor=True, 
                    normalize_embeddings=True,
                    show_progress_bar=False
                ).to(self.device).cpu()

            return sentence_embeddings

        return None


def get_distance(vec_1: torch.Tensor, vec_2: torch.Tensor) -> float:
    """
    Метод получения расстояния между двумя векторами

    Аргументы:
        vec_1: torch.Tensor
        vec_2: torch.Tensor

    Возвращает:
        float
    """
    if len(vec_1) != 0 and len(vec_1) != 0:
        scores = (vec_1 @ vec_2.T) * 100
        return scores
    else: 
        return torch.tensor([[]])


In [116]:
model = TextVectorizer_v2("intfloat/multilingual-e5-large-instruct")

In [117]:
form_1 = {
    'name' : 'Денис',
    'about_me': "Люблю AI и ML",
    'about_target': "Ищу NLP DS"
}


form_2 = {
    'name': 'Ярослав',
    'about_me': "Люблю Artificial intelligence и Machine learning",
    'about_target': "Ищу Natural language processing Data Science"
}

form_1_emb = model.vectorize(form_1)
form_2_emb = model.vectorize(form_2)

get_distance(form_1_emb["about_target"], form_2_emb["about_me"])

tensor(88.8692)

# Чтение данных

In [127]:
with open('/kaggle/input/ai-prod-hack/main_resumes.json', 'r', encoding='utf-8') as file:
    main_resumes = json.load(file)

with open('/kaggle/input/ai-prod-hack/razmetka.json', 'r', encoding='utf-8') as file:
    razmetka = json.load(file)

In [128]:
cv_info_list = [
    ' '.join(
        [
            rez['position'],
            rez['age'],
            rez['gender'],
            rez['job_search_status'],
            ' '.join(rez['tags']),
            ' '.join(rez['jobs'])
        ]
    )
    for rez in main_resumes
]
cv_about_list = [rez['about'] for rez in main_resumes]
about_me_list = [rez['about_me'] for rez in main_resumes]
about_target_list = [rez['about_target'] for rez in main_resumes]

In [129]:
full_about_me_vec = torch.mean(
    torch.stack(
        [
            model.vectorize(about_me_list),
            model.vectorize(cv_info_list),
            model.vectorize(cv_about_list),
        ]
    ), 
    dim=0
)

about_target_vec = model.vectorize(about_target_list)

# ROC AUC

In [130]:
roc_auc_list = []
for el in tqdm(razmetka):
    index = el['index']
    about_target = about_target_vec[index]

    target = np.concatenate(
        (np.ones(len(el['pos'])),
        np.zeros(len(el['neg'])))
    )
    pos_dist = get_distance(
        about_target,
        full_about_me_vec[el['pos']]
    )
    neg_dist = get_distance(
        about_target,
        full_about_me_vec[el['neg']]
    )
    proba = torch.cat([pos_dist, neg_dist])
    
    try: 
        roc_auc_list.append(roc_auc_score(target, proba))
    except Exception as e:
        print(e)
        pass

100%|██████████| 200/200 [00:00<00:00, 478.09it/s]

Only one class present in y_true. ROC AUC score is not defined in that case.





In [133]:
print(sum(roc_auc_list)/len(roc_auc_list))

0.7490461005825515


In [134]:
min_indices = [
    i for i, v in enumerate(roc_auc_list)
    if v in sorted(roc_auc_list)[0:10]
]
min_indices

[0, 1, 10, 18, 34, 37, 47, 61, 74, 197]

In [135]:
roc_auc_list[0]

0.552584670231729

# Анализ анкеты с низкой метрикой

In [147]:
el = razmetka[0]
about_target = about_target_vec[index]
print(main_resumes[0]['about_target'])
about_target_vec[index]

target = np.concatenate(
    (np.ones(len(el['pos'])),
    np.zeros(len(el['neg'])))
)

pos_dist = get_distance(
    about_target,
    full_about_me_vec[el['pos']]
)

neg_dist = get_distance(
    about_target,
    full_about_me_vec[el['neg']]
)
proba = torch.cat([pos_dist, neg_dist])

Я ищу человека, обладающего опытом в сфере продаж и аналитики, особенно в области прогнозирования продаж и сбора данных. Он/она свободно владеет английским языком на уровне Intermediate, а также имеет опыт работы с различными системами, в том числе  AReS, TRAX, Sales Works, Power BI и SAP Business Objects. Кроме того, он/она имеет инженерное образование и опыт работы с CAD-программами, такими как AutoCAD, Mathcad, Creo Elements/Pro и SolidWorks.  Мне необходим такой человек для участия в проекте по разработке системы прогнозирования продаж для нашей компании. 



In [153]:
rec_df = pd.DataFrame(
    {
        'target': target,
        'proba': proba,
        'about_me': (
            [main_resumes[idx]['about_me'] for idx in el['pos']]
            + [main_resumes[idx]['about_me'] for idx in el['neg']]
        ),
        'about': (
            [main_resumes[idx]['about'] for idx in el['pos']]
            + [main_resumes[idx]['about'] for idx in el['neg']]
        ),
        'cv_info': (
            [
                ' '.join(
                    [
                        main_resumes[idx]['position'],
                        main_resumes[idx]['age'],
                        main_resumes[idx]['gender'],
                        main_resumes[idx]['job_search_status'],
                        ' '.join(main_resumes[idx]['tags']),
                        ' '.join(main_resumes[idx]['jobs'])
                    ]
                )
                for idx in el['pos']
            ]
            + [
                ' '.join(
                    [
                        main_resumes[idx]['position'],
                        main_resumes[idx]['age'],
                        main_resumes[idx]['gender'],
                        main_resumes[idx]['job_search_status'],
                        ' '.join(main_resumes[idx]['tags']),
                        ' '.join(main_resumes[idx]['jobs'])
                    ]
                )
                for idx in el['neg']
            ]
        )

    }
)

In [155]:
with pd.option_context('display.max_rows', 5,
                       'display.max_columns', 10,
                       'display.max_colwidth', None):
    display(rec_df.sort_values(by='proba', ascending=False).head(5))

Unnamed: 0,target,proba,about_me,about,cv_info
39,0.0,85.245651,"Обожаю копаться в данных, искать закономерности и строить прогнозы - чувствую себя немного детективом. В свободное время увлекаюсь фотографией, особенно люблю ловить интересные ракурсы городской архитектуры. Недавно начал осваивать 3D-моделирование, хочу создавать визуализации для своих проектов. Всегда рад пообщаться с коллегами и узнать что-то новое! \n","Имею успешный опыт в разработке и внедрении цифровых подсказчиков на основе машинного обучения в металлургическое производство. А также поддержка готового приложения. В работе использую язык программирования Python, библиотеки для обработки и визуализации данных Pandas, NumPy, Matplotlib, Plotly, библиотеки машинного обучения scikit-learn, MSSQL, Docker, Git. Визуализация данных и представление информации c помощью графиков, дашбордов. Работала над проектами цифровой трансформации в металлургическом предприятии. Вела проекты от бизнес идеи до релиза(вывода в опытную эксплуатацию). На данный момент успешно получила высшее образование по профилю ""Компьютерное моделирование и информационные технологии"". Владею фундаментальными теоретическими и практическими в области математических вычислений и информационных технологий. Имею сертификаты о подтверждении знаний английского языка на уровне upper-intermediate, а также закончила второе высшее образование по направлению «Переводчик в сфере профессиональной коммуникации» (технический английский).Имею опыт технического перевода научных статей. Увлекаюсь художественной графикой(редактирование и создание изображений, разработка дизайна мобильных приложений и веб интерфейсов). Разрабатывала логотипы и иконки для различных компаний. Свободно владею Adobe Photoshop, Adobe Illustrator. Soft skills: - аналитический склад ума; - работа в команде; - понимание продукта; - коммуникабельность; - самоорганизация; - стрессоустойчивость; - многозадачность; - работа с большим объемом информации.",Data Scientist 26 Женщина Не ищет работу Компьютерное моделирование Проектирование пользовательских интерфейсов Английский язык Работа с большим объемом информации Аналитическое мышление Project management Agile MS SQL Server Python Git Business Planning Бизнес-анализ Data Analysis MySQL Управление проектами Математическая статистика Математический анализ Математическое моделирование Способность обучать других Scrum Adobe Illustrator Web-дизайн Figma UI UX Преподаватель Devops: Обучение студентов ключевым навыкам Devops инженера. Проверка студенческих проектов. Наставничество. Составление лекционного и практического материала. Data scientists: Анализ исторических данных. Тестирование гипотез. Проработка сценариев использования приложений. Разработка моделей прогнозирования. Разработка цифровых помощников на металлургическом предприятии. Решение оптимизационной задачи достижения целевого качества продукта. Ведение технической документации. Коммуникации с бизнесом. Работа в команде.
46,0.0,85.242424,"Я тот самый человек, который обожает находить неочевидные связи в данных. В свободное от моделей и нейросетей время увлекаюсь астрофотографией – пытаюсь поймать в объектив красоту далеких галактик. Пришел сюда, чтобы послушать интересные доклады и, конечно же, пообщаться с единомышленниками. \n","Data Scientist с математическим бэкграундом. Знаю основные алгоритмы классического ML, Python и его библиотеки numpy и pandas, а также знаком с нейронными сетями (библиотеки keras, tensorflow). Занимаюсь лыжными видами спорта, люблю настольные игры.","Data Scientist 28 Мужчина Python Numpy Pandas Tensorflow Keras sklearn Математика Flask Data Science: Проект: Классификации марки, модели, поколения и рестайлинга автомобиля по фотографии. В проекте я отвечал за сбор и очистку данных, исследование различных вариантов структуры и работы главной нейросети, а также за несколько модулей для телеграм-бота."
14,0.0,85.054878,"Обожаю покопаться в данных, найти там что-то интересное и визуализировать так, чтобы даже моя бабушка поняла. В свободное время увлекаюсь скалолазанием – помогает держать мозг в тонусе. А ещё люблю готовить экзотические блюда, экспериментируя с машинным обучением для подбора идеальных сочетаний вкусов. Открыт к новым знакомствам и интересным проектам!",Бывший студент школы программирования 21 Постоянно развиваюсь Основные области: Python разработка и Data Science,"Data Scientist 28 Мужчина Не ищет работу Python C Анализ данных Linux Data Scientist: Анализ пользовательских данных Data Scientist: Разработка моделей машинного обучения с целью выявлений отклонений сотрудников и последующего влияния на них Data Science Intern: Построение моделей машинного обучения, написание кода для вывода в пром, генерация фичей"
4,1.0,84.947281,"В свободное от работы время люблю погонять на велосипеде по лесу – отличный способ разгрузить голову после сложного алгоритма. А еще увлекся 3D-печатью, печатаю всякие полезные мелочи для дома и велосипеда. Интересуюсь новыми технологиями в области машинного обучения, особенно в сфере робототехники. Всегда рад пообщаться с коллегами и узнать что-то новое! \n","Общительный, креативный, легкообучаемый, нахожу общий язык с коллегами и сразу же синергирую. Обладаю системным научным подходом к решению задач. Стрессоустойчив в условиях цейтнота.","Data Scientist 33 Мужчина Не ищет работу Python Data Scientist: - Динамическое ценообразование - Геоаналитика - Скоринговая модель - Парсинг данных - Проектирование и создание микросервисов Аналитик: Анализ состояния операций Анализ временных рядов Руководитель учебного центра: Административное управление филиалом центра федерального значения. Техническое обеспечение и ведение проектной деятельности. Обучение и подготовка углубленного физико-математического класса. Ведение курсов программирования квадрокоптеров и AR. Аналитик: - Системная аналитика - Сбор данных. Прогнозирование времени работы самокатов. Выявление горячих зон для сервисного обслуживания. - Исследовательские инсайды Chief Technology Officer: Ведение технического направления: - Проектирование электронной базы - Создание адаптивных алгоритмов распознавания - Распределенная вычислительная система с интеграцией ROS Freelance - аналитик: - Аналитика B2B моделей - Разработка систем шеринговых самокатов (ООО ""ШЕРИНГ СИСТЕМ РУС"") - Обучение skillbox - Научное консультирование по направлениям (""Системы автоматического регулирования"", ""Разработка программно-аппаратных комплексов"") Системный администратор: - Создание защищенного сегмента сети - Создание терминальных рабочих мест - Обслуживание сети/серверов/клиентских ПК Старший преподаватель: ведение дисциплин: - надежность систем - системы искусственного интеллекта - моделирование цифровых систем - моделирование электронных устройств - защита информации - программирование - операционные системы Разработка рабочих программ. Организация курсов повышения квалификации. Подготовка к AtomSkills.Наладка учебных стендов. Научная деятельность. Ведение кружковой деятельности по направлениям: -робототехника -электроника/программирование Системный администратор: - Создание учебного сайта - Обслуживание сети/ серверов/ компьютерного класса FPGA designer: - Разработка систем безопасности технологических сетей - Разработка сертифицированного стека протоколов для российский SOC"
24,0.0,84.795631,"В свободное время увлекаюсь астрофотографией, пытаюсь поймать в объектив самые далёкие галактики. Недавно начал осваивать игру на гитаре - пока получается не очень, но соседи пока терпят. Обожаю путешествовать на машине, особенно по местам, где не ловит мобильная связь. Ищу единомышленников для совместных проектов и интересных дискуссий на тему науки и технологий. \n","Имею большой опыт в реализации ML-решений для производства и бизнеса, умею находить точки соприкосновения с неподатливым заказчиком и достигать удовлетворительного консенсуса в диалоге. Заинтересован в интеллектуальном развитии, являюсь пропагандистом цифровизации и чутким последователем знаний, полученных на физфаке СПбГУ. В решениях для бизнеса предпочитаю хорошее с доработкой на лучшее. P.S. При возможном случае стараюсь проводить время с семьей на природе, люблю дальние поездки. Увлеченно играю в волейбол и плаваю в бассейне. В свободное время окунаюсь с головой в игру на гитаре и других инструментах.","Data Scientist 32 Мужчина Активно ищет работу MATLAB Статистический анализ Анализ данных Математическая статистика Математическое моделирование Научные исследования SQL Математическое программирование Cистемы управления базами данных Data Analysis R# Python MS SQL Server База данных: Olap Аналитическое мышление Деловое общение Git Docker ML-flow DVC Bash Power BI Data Science Машинное обучение Моделирование mlops Ведущий Data scientist: Функционал: - Ведение ML-проектов (менеджмент) - Разработка ML-продуктов от сбора данных до интеграции (экспертная деятельность) - Анализ целей бизнеса, метрик и алгоритмов машинного обучения (экспертная деятельность) - Сбор, предобработка и анализ данных (экспертная деятельность) - Постановка и проверка гипотез, генерация фичей (экспертная деятельность) - Разработка бизнес-продукта на основе ML-решения - Общение с внутренним заказчиком для выявления точек роста продукта (экспертная деятельность) - Поиск и внедрение существующих коммерческих решений (менеджмент/экспертная деятельность) - Администрирование и апгрейд действующих ML-решений (экспертная деятельность) - Формирование и контроль аналитической деятельности команды (менеджмент) - Проведение A/B тестирования (менеджмент) - Разработка пайплайнов и их модернизация (экспертная деятельность) - Составление проектной документации (Договор подряда, ТЗ, Паспорт проекта, КПГ ) - Ведение технической документации (экспертная деятельность) - Участие в стратегии развития проектов (менеджмент/экспертная деятельность) - Участие в процессах найма новых сотрудников, подготовка тестовых заданий (менеджмент) - Проведение образовательных презентаций для членов команды (экспертная деятельность) Достижения: - Интегрировано решение от подрядчика для оптимизации ПИД-регулятором динамического ценообразования квартир на основе симуляции SARIMAX модели, произведена доработка пространства фичей, реализован модуль генерации синтетических фичей по результатам собственного анализа и модуль отбора фичей по значимости, выполнена интеграция на самостоятельно развернутую виртуальную машину на Debian, настроено логирование и рассылка ошибок на почту - Проведено исследование по использованию регрессионных моделей для прогнозирования спроса по временным рядам - Реализован продукт для прогноза кумулятивной суммы продаж на основе градиентного бустинга (CatBoost, XGB) - Реализован продукт с визуализацией в PlotlyDash, позволяющий проводить аналитику темпов продаж в текущем месяце, сравнивать поведение графиков за последние полгода, замечать отставание от оперативного плана и накладывать прогноз с фильтрацией по выбранным признакам - Реализован продукт для классификации заявок на исполнителя методом SVM, проведен анализ сообщений, реализован скрипт по расчету расстояния Левинштейна, результат распределения рассылается на исполнителя через бота в telegram - Реализована модель для распознавания свободных мест на дворовых пространствах с использованием YOLO - Разработан и реализован продукт по прогнозированию времени до заключения договора активных броней на квартиры, алгоритм состоит из двух этапов: классификация успешных и неуспешных броней и прогнозирование времени жизни успешных броней, продукт в конечном виде представлен в PlotlyDash - До стадии mvp без запуска в продакшн реализован алгоритм, позволяющий оценивать выгорание сотрудника и давать рекомендацию непосредственному руководителю - Участие в процессах найма, подготовка тестовых заданий - Общение и привлечение подрядчиков на реализацию голосовых роботов Бизнес-аналитик: Функционал: - Ведение ML-проектов (менеджмент) - Аналитика производственных и бизнес процессов (экспертная деятельность) - Взаимодействие с внутренним заказчиком и технологами на производственной цепи - Внедрение методов машинного обучения и решение частных задач для оптимизации процессов производственной цепи (экспертная деятельность) - Постановка и проверка гипотез (экспертная деятельность) - Разработка ML-продуктов, тестирование и администрирование (экспертная деятельность) - Построение стратегии для разработки и применения ML- проектов (менеджмент) - Бизнес-моделирование, оформление аналитических дашбордов (экспертная деятельность) - Разработка метрик, проведение A/B тестов (экспертная деятельность) - Формирование рабочих групп из членов кросс-функциональной команды (менеджмент) - Менторство и обучение новых сотрудников (менеджмент) Достижения: - Реализован алгоритм по распределению свободного остатка в цехе на переработку и реализацию - Разработан комбинаторный алгоритм сопоставляющий потребность производства с остатком на складах - Реализована модель классификации изделий по сложности изготовления с помощью SVM - Реализован алгоритм рекомендации последовательности изготовления изделий по затрачиваемым мощностям на отдельных участках производственной цепи - Настроены пайплайны для сбора и предобработки данных - Выполнена проверка гипотез для выявления зависимостей от потенциальных фичей - Настроены скрипты для генерации и отбора фичей - Сформированы рабочие группы под потребности проектов - Построен план интеграций новых ML-продуктов и доработки действующих алгоритмов - Проведены обучения по темам :'Специфика процессов на предприятии', 'Первичный анализ данных' и 'Построение предиктивных моделей SARIMAX' -Начат проект по распознаванию брака крупных изделий на производственной цепи Ведущий специалист по большим данным: Функционал: - Анализ целей бизнеса, метрик и алгоритмов машинного обучения, а также доступных и необходимых данных (экспертная деятельность) - Постановка и проверка гипотез (экспертная деятельность) - Выделение признаков из данных для применения алгоритмов машинного обучения (экспертная деятельность) - Создание предиктивных моделей (экспертная деятельность) - Администрирование и апгрейд действующих ML-решений (экспертная деятельность) - Внедрение ML-продуктов в продакшн (менеджмент/экспертная деятельность) - Формирование и контроль аналитической деятельности команды (менеджмент) - Планирование и анализ A/B тестирования моделей в продакшн (менеджмент) - Разработка необходимых компонентов для ML-пайплайнов, модернизация пайплайнов (экспертная деятельность) - Ведение документации с описанием алгоритмов и моделей, с соответствующим анализом (экспертная деятельность) Достижения: - Выполнены статистические исследования данных, анализ корреляций и выбросов - Для оптимизации выборки данных сгенерированы фичи и выполнен их отбор по степени важности - Внедрение и настройка LSTM сетей в продакшн для прогнозирования товарного запаса на складах разных уровней (РЦ, ЛЦ, ОП) - Выполнены подбор составляющих и настройка вычислительной машины - Апробация и внедрение регрессионных моделей (SARIMAX, линейные регрессии, FaceBook_Prophet) - Апробация и внедрение моделей на основе градиентного спуск (CatBoost, XGB, LightGBM) - Скрипт для отбора наилучшей предиктивной модели и ее настройки (тюнинга) - Прогноз на 6 месяцев с пониженной точностью (план-прогноз) для оптимизации закупок - Алгоритм для расчета оптимального объема товарного запаса на складах - Сформирована группа аналитики для проведения тестов и проверки гипотез на предиктивных моделях, проведено обучение - Начата работа по оптимизации поиска на сайте-каталоге Специалист: Функционал: - Подготовка и обработка данных ГИС (экспертная деятельность) - Постановка и проверка гипотез (экспертная деятельность) - Построение геомеханической модели месторождений (экспертная деятельность) - Вероятностно-статистическая оценка запасов углеводородов (экспертная деятельность) - Геомоделирование для задач сейсмики и геомеханики (экспертная деятельность) - Ведение технической документации (экспертная деятельность) Достижения: - Реализована геомеханическая модель месторождения Х с вероятностной оценкой запасов углеводородов - Разработана новая методика по поиску корреляций соседних месторождений - Реализованы частные задачи геомоделирования Аналитик: Функционал: - Ведение аналитической отчетности (экспертная деятельность) - Анализ реализации групп и категорий товаров (экспертная деятельность) - Взаимодействие с руководителями проектов и аналитическими группами, оперативная аналитика (экспертная деятельность) - Проведение А/B тестов (экспертная деятельность) - Разработка бизнес-метрик для OLAP-кубов с использованием DAX (экспертная деятельность) Достижения: - Разработаны формы регулярной аналитики по группам товаров - Разработаны метрики для анализа текучести товарных позиций - Реализовано DAX-наполнение для аналитических кубов Инженер-программист: Функционал: - Общение с заказчиком и технологами на предприятии (экспертная деятельность) - Аналитика производственных процессов на заводе Cеверсталь (экспертная деятельность) - Математическое и термохимическое моделирование процессов автоматического режима сталеплавильной печи (экспертная деятельность) - Оптимизация процессов выплавки стали (экспертная деятельность) - Проведение A/B-тестов (экспертная деятельность) - Менторство студентов-практикантов (менеджмент) - Ведение технической документации по реализованным продуктам (экспертная деятельность) Достижения: - Автоматический режим работы электросталеплавильной печи до 1-го и 2-го замеров химических составляющих, попадание в требуемый состав - 80-85% - Алгоритм завершающей стадии, доведение стали до необходимого химического состава, попадание в требуемый состав 90-95% - Алгоритм оптимизации использования металлического лома и остаточного плавильного шлака - Проведен курс преддипломной практики для студентов выпускников ТПГУ, темами для работ стали связанные задачи по проекту автоматизации"


In [156]:
with pd.option_context('display.max_rows', 5,
                       'display.max_columns', 10,
                       'display.max_colwidth', None):
    display(rec_df.loc[rec_df['target']==1].head(5))

Unnamed: 0,target,proba,about_me,about,cv_info
0,1.0,80.861015,"В свободное время я увлекаюсь астрономией - космос всегда манил своей неизведанностью, поэтому по вечерам частенько можно застать меня с телескопом на крыше. А еще я учусь играть на укулеле - маленькой, но такой звонкой гавайской гитаре. Это помогает расслабиться после рабочего дня и создает уютную атмосферу. Всегда рада новым знакомствам и интересным беседам! \n","Level of English Intermediate\r Driving license category B. \r I worked as an assistant to the organizer of the VIII St. Petersburg Internet Conference 2013.\r I study English, I try to improve my level.\r I like to travel","Analyst 32 Female Actively searching for a job Английский язык MS PowerPoint Driving Licence B MS Office 1С: Документооборот AutoCAD Mathcad Creo Elements/Pro SolidWorks Power BI SAP Business Objects SOPs specialist/Региональный эксперт по поддержке процессов отдела продаж: Creating sales value regional Key clients and distributors forecaste by SKU.\r Supported current promotion plan in TLC format\r Сollecting information about sales plans from distributors (SI & SO) and analytics of current trends\r Support for Ad-hoc requests from demand planning and SOPs (collection and processing of comments on the performance of the region / new launches / performance of brands / channels and other requests)\r \r Sales department systems supporting (AReS, TRAX, Sales Works) Design engineer category 2: Managed the project to develop interactive guides\r Design and development of submarine parts.\r Cooperation with the various services of the enterprise\r Coordination of design documents with customers or their representatives"
1,1.0,81.964615,"Работаю с данными, строю модели - без этого сейчас никуда. А в свободное время люблю снимать ночное небо на фотоаппарат: находить удачные ракурсы для съёмки и ловить в кадр созвездия. Всегда рад пообщаться с единомышленниками, да и просто интересными людьми.",,"Data Analyst/Data Scientist Мужчина Активно ищет работу Python Machine Learning Numpy pandas Matplotlib Работа с базами данных Базы данных PostgreSQL Linux Docker Data Science Английский язык Data Scientist: Занимался обработкой панельных данных, задачами causal estimation Вел проект Mars Pet food, рассчитывал элластичность с применением методов машинного обучения для товаров этой категории. Data Analyst в отделе внутренного аудита: 1. Провел и написал собственные валидационные тесты модели постконтроля физических лиц причастных к схемам уклонения от уплаты налогов и схемам отмывания нелегально полученных денежных средств. 2. Провел анализ и предложил оптимальный метод вычисления цепочки мошеннических схем, используя Pandas, и представил результат в виде кластеров, полученных из графов при помощи библиотеки NetworkX Специалист отдела информационных технологий: 1. Обработывал клиентские данные в департаменте интегрированных рисков для дальнейшей передачи в работу отдела моделирования. 2. Создавал витрину данных. Стэк использовавшихся технологий - Python, PostgreSQL, Oracle."
2,1.0,84.014023,"В свободное время люблю погонять на велосипеде по парковым тропинкам, а вечерами с удовольствием просматриваю документалки про космос или историю. Всегда в поиске интересных задач, где можно применить свои аналитические способности, поэтому не упускаю возможности познакомиться с коллегами по цеху и обменяться опытом. Кто знает, может быть, наше случайное знакомство перерастет в совместный проект! \n","Я по первому образованию инженер-программист, а по второму экономист. Много лет работала финансовым контролером, но год назад узнала, что появилась специальность на стыке моих навыков (программирования и любимых циферок) - Data Scientist. Это то, что мне очень нравится. Личные качества: коммуникабельна, ответственна, аналитические способности. Профиль на github: Профиль на kaggle:","Data scientist Женщина Python SQL Numpy Git ML Random Forest Scikit-learn Pandas Gradient Boosting JIRA Big Data Data Analysis Bootstrap MS Excel Data Scientist: В рамках обучения выполняла следующие проекты: •\tПредсказание стоимости автомобиля. Спарсила сайт auto.ru. Спрогнозировала стоимость автомобиля на вторичном рынке для последующего сравнения со средней ценой модели автомобиля в целях поиска выгодных предложений о продаже. Стекинг, подбор гиперпараметров. Используемые модели: CatBoost, LinearRegression, RandomForestRegressor, DecisionTreeRegressor, CatBoostRegressor, KNeighborsRegressor, GradientBoostingRegressor. •\tПроект кредитный рейтинг. Построила модель, используя алгоритм логистической регрессии, которая прогнозирует дефолтность клиентов. Данные потребовали предварительную очистку. Произвела EDA анализ, сделала матрицу корреляции, оценила корреляцию Пирсона, провела анализ значимости непрерывных (значение f-статистики) и категориальных признаков(функция mutual_info_classif из библиотеки sklearn). Стандартизировала числовые признаки (label_encoder), а также воспользовалась dummy-кодированием для категориальных переменных. Создала полиномиальные признаки. Балансировала классы с помощью class_weight = balanced так как целевая переменная не сбалансированная. Оценила качество модели используя ROC-анализ (коэффициент ROC AUC и confusion matrix) •\tПроект предсказывания рейтинга ресторана Создала модель, использующую алгоритм RandomForestRegression, которая будет прогнозировать рейтинг ресторана по версии TripAdvidor. При подготовке датасета избавилась от пропущенных значений и нечисловых признаков, провела EDA-анализ, написала функцию анализа квантилей и выбросов, а также сгенерировала новые признаки на основе информации, уже содержащейся в данных. Построенную модель оценила метрикой Mean Absolute Error (MAE) Стек: библиотеки pandas, numpy, matplotlib, seaborn, sklearn •\tИспользую основные алгоритмические конструкции и структуры данных Python для проектирования алгоритмов •\tВизуализирую данные с помощью Pandas, Matplotlib и Seaborn •\tСоздаю модели с помощью классического машинного обучения ML для решения задач Data Science (линейные модели, деревья решений, ансамблевые модели) •\tПолучаю данные из веб-источников или по API •\tРаботаю с системой контроля версий (Git) Аналитик отдела управленческой отчетности: •\tРазработка и сопровождение аналитических отчетов •\tРазработка и сопровождение модели капитализации контента • Расчет стоимости внутренней разработки •\tВосстановление отчетности PL прошлых лет Финансовый контролер: МБС – сервисная компания, которая оказывает услуги бэк-офиса для активов Национальной Медиа Группы, таких как «СТС Медиа» и пр.\r \r •\tБюджетный контроль расходов и платежей\r •\tПодготовка консолидированной управленческой отчетности (PL, CF, Capex, BS)\r •\tСверка и исключение внутригрупповых оборотов между компаниями холдинга\r •\tФормирование подробного бюджета бизнес-единицы (PL, CF, Capex)\r •\tСоставление прогноза расходов до конца года, работа с функциональными подразделениями\r •\tАнализ отклонений от бюджета, предоставление пояснений по отклонениям\r •\tПодготовка аналитических отчетов и презентаций для внутренних и внешних пользователей Финансовый контролер: • Подготовка ежемесячной отчетности агентства (P&L, Balance) по международным стандартам \r • Взаиморасчеты внутри группы, Interco групп компании\r • Бюджетирование, Анализ бюджета - план/факт\r Контроль исполнения бюджета\r • Анализ отклонений медийных размещений между данными отделами баинга и 1С бухгалтерией. \r \r • Анализ прибыльности клиентов\r • Составление финансовых отчетов для внутренних целей компании\r • Внедрение управленческой отчетности на базе 1С предприятия\r • Успешное прохождение SOX аудита\r • Взаимодействие с представителями head-office из Лондона"
3,1.0,82.630783,"В свободное от работы с данными время люблю отвлечься на что-то творческое – увлекаюсь фотографией, особенно ночной съёмкой города. Ещё стараюсь не пропускать городские велопробеги, адреналин и скорость отлично разгружают мозг. Всегда рад пообщаться с интересными людьми и обменяться опытом, особенно в области data science и новых технологий. \n","Senior Specialist at Gazprom Neft, developing data-driven approach by applying data science tools at Economics and Finance department","Data Scientist 27 Мужчина Data Mining Python Latex Data Analysis Stata SQL MS Office Machine Learning Big Data R Programming Citizen Data Scientist: Developing digital products for Economics department: - Automatization of logistic legs calculation - Parsing prices from oil station steles - Detailed OPEX prediction model - Optimization of fuel delivery network Data Science Intern: Analysed users behaviour, by testing hypotheses on heuristics of fraudulent behaviour. Built network graph models, which were able to solve fraud detection task and classify, whether a user is a bot or not. Data Analyst: VK Data Analysis Project for Global Entrepreneurship Monitor (GEM). \r \r Accessed data from VK API and conducted exploratory data analysis and that will be used by Graduate School of Management team of researchers and published in the next GEM report. Trainee Economist: Updated business plan and financial model of Leningrad oblast reabilitation centre Research Intern: Conducted several researches about quality of health, health measurement, health-labour relationship and presented the results at the international conferences. Trainee Marketer-Analyst: Analysed the market of laboratory services and identified the optimal positioning of the new centres in Saint-Petersburg and other cities."
4,1.0,84.947281,"В свободное от работы время люблю погонять на велосипеде по лесу – отличный способ разгрузить голову после сложного алгоритма. А еще увлекся 3D-печатью, печатаю всякие полезные мелочи для дома и велосипеда. Интересуюсь новыми технологиями в области машинного обучения, особенно в сфере робототехники. Всегда рад пообщаться с коллегами и узнать что-то новое! \n","Общительный, креативный, легкообучаемый, нахожу общий язык с коллегами и сразу же синергирую. Обладаю системным научным подходом к решению задач. Стрессоустойчив в условиях цейтнота.","Data Scientist 33 Мужчина Не ищет работу Python Data Scientist: - Динамическое ценообразование - Геоаналитика - Скоринговая модель - Парсинг данных - Проектирование и создание микросервисов Аналитик: Анализ состояния операций Анализ временных рядов Руководитель учебного центра: Административное управление филиалом центра федерального значения. Техническое обеспечение и ведение проектной деятельности. Обучение и подготовка углубленного физико-математического класса. Ведение курсов программирования квадрокоптеров и AR. Аналитик: - Системная аналитика - Сбор данных. Прогнозирование времени работы самокатов. Выявление горячих зон для сервисного обслуживания. - Исследовательские инсайды Chief Technology Officer: Ведение технического направления: - Проектирование электронной базы - Создание адаптивных алгоритмов распознавания - Распределенная вычислительная система с интеграцией ROS Freelance - аналитик: - Аналитика B2B моделей - Разработка систем шеринговых самокатов (ООО ""ШЕРИНГ СИСТЕМ РУС"") - Обучение skillbox - Научное консультирование по направлениям (""Системы автоматического регулирования"", ""Разработка программно-аппаратных комплексов"") Системный администратор: - Создание защищенного сегмента сети - Создание терминальных рабочих мест - Обслуживание сети/серверов/клиентских ПК Старший преподаватель: ведение дисциплин: - надежность систем - системы искусственного интеллекта - моделирование цифровых систем - моделирование электронных устройств - защита информации - программирование - операционные системы Разработка рабочих программ. Организация курсов повышения квалификации. Подготовка к AtomSkills.Наладка учебных стендов. Научная деятельность. Ведение кружковой деятельности по направлениям: -робототехника -электроника/программирование Системный администратор: - Создание учебного сайта - Обслуживание сети/ серверов/ компьютерного класса FPGA designer: - Разработка систем безопасности технологических сетей - Разработка сертифицированного стека протоколов для российский SOC"


# map@k

In [212]:
def apk(recs, rels):
    x = 0
    sum = 0
    for i, rec_id in enumerate(recs):
        is_rel = (rec_id in rels)
        mult = 1 if is_rel else 0
        if is_rel:
            x += 1
        sum += mult * (x / (i+1))

    return sum / min(len(rels), len(recs))



k = 5
all_rels = [rel['pos'] for rel in razmetka]
all_recs = []


for el in tqdm(razmetka):
    index = el['index']
    about_target = about_target_vec[index]

    target_idx_list = list(range(0,200))
    target_idx_list.pop(index)

    pos_dist = get_distance(
        about_target,
        full_about_me_vec[el['pos']]
    )
    neg_dist = get_distance(
        about_target,
        full_about_me_vec[el['neg']]
    )
    proba = torch.cat([pos_dist, neg_dist])

    el_recs = np.argpartition(proba, -k)[-k:]
    all_recs.append(el_recs.tolist())

apk_list = [apk(rec, rel) for rec, rel in zip(all_recs, all_rels)]

print('\n', sum(apk_list)/len(apk_list))

100%|██████████| 200/200 [00:00<00:00, 2023.95it/s]


 0.590075





# precison@k и recall@k

In [211]:
k = 5

def precision(rels, recs, k):
    act_set = set(rels)
    pred_set = set(recs[:k])
    result = len(act_set & pred_set) / float(k)
    return result

def recall(rels, recs, k):
    act_set = set(rels)
    pred_set = set(recs[:k])
    result = len(act_set & pred_set) / float(len(act_set))
    return result

precision_list = [precision(rel, rec, k) for rel, rec in zip(all_rels, all_recs)]
recall_list = [recall(rel, rec, k) for rel, rec in zip(all_rels, all_recs)]

print(f'Mean precision@{k} = {sum(precision_list)/len(precision_list)}')
print(f'Mean recall@{k} = {sum(recall_list)/len(recall_list)}')

Mean precision@5 = 0.6419999999999996
Mean recall@5 = 0.04051863870189532
