In [None]:
!pip install accelerate

In [None]:
!pip install sentence-transformers

In [20]:
from typing import List, Dict

from transformers import pipeline


class NERModel:
    def __init__(self, model_folder: str):
        self.model = pipeline("ner", model=model_folder, aggregation_strategy="max")

    def __call__(self, text: str) -> List[Dict]:
        return self.model(text)


In [21]:
extractor = NERModel('t1/ml/json_extraction/model_files')

Hardware accelerator e.g. GPU is available in the environment, but no `device` argument is passed to the `Pipeline` object. Model will be on CPU.


In [24]:
def extract_experience_items(entities):
    experience_items = [item['word'] for item in entities if item['entity_group'] == 'experienceItem']
    return ' '.join(experience_items).replace(' ,', ',').replace(' .', '.')

In [9]:
from sentence_transformers import SentenceTransformer
from transformers import AutoTokenizer

model = SentenceTransformer("intfloat/multilingual-e5-large")
#tokenizer = AutoTokenizer("intfloat/multilingual-e5-large")

In [9]:
from sklearn.metrics.pairwise import cosine_similarity

In [33]:
example_resumes = [""""uuid": "6561771c-7ef3-3e50-ab3a-ba8547201480",
      "first_name": "Александра",
      "last_name": "Панова",
      "birth_date": "1995-01-01",
      "country": "Россия",
      "city": "Москва",
      "about": " О себе: Java\/Kotlin-разработчик, знаю Spring Boot, Hibernate, PostgreSQL, Liquibase, RabbitMQ, есть опыт MySQL, MongoDB, Freemarker, Webpack, считаю признаком зрелого проекта - наличие автотестов. Умею фиксить невоспроизводимые тестировщиками баги, восстанавливать сервера после других людей(при наличии ssh root). В свободное от работы время делаю pet-проекты на Java\/Kotlin\/Go, см. ниже. Java: * Spring: Spring Boot, Spring Data JPA, Spring Data JDBC, Spring Data Mongo, Spring Data R2DBC, Spring Rabbit, Spring Kafka, Spring Testing, Spring Security, Spring Session, GraalVM. JEE: JMS, JPA; JDBC, Hibernate Databases : MySQL, H2, MongoDB, PostgreSQL, DoltDB Caches: Redis, Hazelcast MQ\/Log : RabbitMQ, Apache Qpid, ActiveMQ, Kafka, ksqlDB * Web Servers: Tomcat, Jetty, Undertow, Ktor * GraphQL : Spring GraphQL, Netflix DSG framework * Application Servers: Tomcat, Wildfly, Glassfish * OIDC: Keycloak * Testing frameworks: JUnit, TestNG, Rest Assured, Mockito, Spring Test, Testcontainers, Jmeter; * build tools: Maven, Gradle; * (De)serialization: XStream, JAXB, Jackson, JsonPath * JSF 2.0: PrimeFaces SCM : git, svn, TFS; CI : Jenkins, Travis, Gitlab CI, Github Actions Технологии и др: TDD, Design Patterns, DDD. Other programming languages: Groovy, Kotlin, Python. OS : Fedora, CentOS, Debian, Alpine Linux : systemd, journald, bash, ansible, supervisord VM : VMware Workstation, Oracle VM VirtualBox, Microsoft Virtual PC 2007, qemu Сontainerisation : Docker, Docker Compose, Kubernetes, Openshift, OKD Microservices : Consul, Feign Monitoring\/Tracing : Prometheus, Grafana, ELK, Spring Cloud Sleuth, Open Metrics, Jaeger, OpenCensus, OpenTelemetry, Micrometer ",
      "key_skills": null,
      "experienceItem": [
        {
          "starts": "2022-02-01",
          "ends": null,
          "employer": "ООО Компания ЮпитерХмельГлавЛизинг",
          "city": "Дорохово",
          "position": "Senior Backend Devloper",
          "description": " Some common tasks with PostgreSQL, Spring Boot, RabbitMQ and Kafka. I created delivering telemetry (geo coordinates) through GraphQL subscriptions to m le app. I rewrote legacy unstable Event-Sourcing auth microservice to traditional blocking approach. Prototyping migration another git-like microservice onto DoltDB. Technical tasks with Camunda 7 - updating Camunda itself with Liquibase, cleaning up Camunda's history. PostgreSQL• Java Spring Framework • Spring Boot • GraphQL • Apache Kafka • Git • Kotlin • Camunda • RabbitMQ "
        },
        {
          "starts": "2020-10-01",
          "ends": "2022-02-01",
          "employer": "ООО Север",
          "city": "Дорохово",
          "position": "Ведущий разработчик",
          "description": " Исправил код работы с Hazelcast, удалил ImageMagick, отказался от Kafka, удалил самописную реализацию CQRS, отрефакторил базу - разделил монотаблицу с запутанными структурами высокой степени вложенности (попытка сделать mongo на jsonb) на несколько таблиц в соответствии с бизнес сущностями. Оптимизировал SQL запросы (рефакторил базу для создания более подходящей под большие объёмы схемы). Написал сериализатор Spring Statemachine, сохраняющий состояние в таблицу как jsonb (дефолтный сохраняет через Kryo - затрудняет обновления версий). Организовывал процесс деплоя вышеперечисленных доработок в прод - координировал 2 команды сопровождения и команду нагрузочного тестирования. Kotlin • Java • PostgreSQL • Kubernetes • Spring Boot • Docker • Hibernate • Junit • MongoDB "
        },
        {
          "starts": "2019-11-01",
          "ends": "2020-10-01",
          "employer": "ПАО АвтоМобайл",
          "city": "Красногорск",
          "position": "Старший разработчик",
          "description": " Обновил MongoDB 3-&gt;4 на проде, внедрил (интеграционные) автотесты(JUnit 5, Spring Boot, Spring Test, Freemarker), вывел из эксплуатации 1 микросервис. Сделал версионирование позиций, подобно MVCC в PostgreSQL. Java • Spring Boot • Apache Kafka • RabbitMQ • JUnit • MongoDB • Kubernetes "
        },
        {
          "starts": "2017-08-01",
          "ends": "2019-11-01",
          "employer": "ПАО РемРадио",
          "city": "Луховицы",
          "position": "Эксперт",
          "description": " Интеграция с партнёрами и вендорами, поддержка и рефакторинг микросервисной архитектуры. Удалил тонны вендорского кода, прорефакторил Spring Security часть, покрыл её тестами. \"Схлопнул\" 5 микросервисов в 1 для упрощения отладки и тестирования. Удалил привязку к вендорскому решению (реверс-инжиниринг с помощью tcpdump). Внедрил тесты с базой с помощью testcontainers. Настроил GC в docker registry. Привел к общему виду механизм обработки исключений (@ExceptionHandler). Поднял мастер-ноду дженкинса, перенес на нее таски со старой. Поднял gitea для Spring Cloud Config. Удалил gitea. Внедрил Spring Cloud Gateway. Настроил nexus. Поддерживал кластер kubernetes. Лидил 3 продуктовые команды разработки и онбордил новых сотрудников. Java • Spring Boot • RabbitMQ • Hibernate • PostgreSQL • Bash • Jenkins • JUnit "
        },
        {
          "starts": "2015-04-01",
          "ends": "2017-08-01",
          "employer": "МКК ВостокВод",
          "city": "Мытищи",
          "position": "Инженер-программист",
          "description": " Написание компонентов высоконагруженной платформы (отправка пушей, рассылка почты, методы работы с профилем пользователя); Настроил Jenkins, сделал docker-compose сборки проекта, состоящего из 10 модулей, привёл в порядок gradle-скрипты, объединил эти модули в один репозиторий, js админка собирается gradle-таской gradle-node-plugin; Внедрил интеграционные автотесты на связке Groovy + Rest Assured, установил это на Jenkins. Java • Spring Boot • MongoDB • PostgreSQL • Jenkins • JUnit • Python "
        },
        {
          "starts": "2014-08-01",
          "ends": "2015-04-01",
          "employer": "ООО Компания ТекстильТранс",
          "city": "Шаховская",
          "position": "Программист",
          "description": " Обязанности: - Внедрение работы с виртуальными машинами VMware Workstation через ant-vix-tasks в тестовый фреймворк ... и последующий отказ от тасков в пользу vmrun; - Расширение функциональности тестового фреймворка для новых сценариев. Java • VMware "
        }
      ],
      "languageItems": [
        "Русский",
        "Английский"
      ],
      "educationItem": [
        {
          "year": 2015,
          "organization": "МИРЭА",
          "faculty": "Вычислительных машин и систем; ВМС",
          "specialty": "",
          "result": "",
          "education_type": "Основное",
          "education_level": "Высшее"
        }
      ]
    }""", """""uuid": "3e66410d-5eca-38fa-8008-90801fbd9569",
        "first_name": "Светлана",
        "last_name": "Бобылёв",
        "birth_date": "1991-05-31",
        "country": "Россия",
        "city": "Санкт-Петербург",
        "about": null,
        "key_skills": "XML, HTML, CSS, SQL, Atlassian Confluence, Анализ требований, JUnit, JSON, HTTP, UML, BPMN, Java EE, Аналитика, API, Atlassian Jira, Hibernate ORM, Postman, Техническая документация",
        "experienceItem": [
          {
            "starts": "2021-04-01",
            "ends": "2023-07-01",
            "employer": "ООО ДизайнМор",
            "city": "Серпухов",
            "position": "Системный аналитик",
            "description": "Работа над ПО для отдела КИПиА: 1. Составление User Story и Use Cases во время планирования разработки. 2. Работа с данными на основе SQL-запросов. 3. Применение ER-модели для структурирования данных 4. BPMN 2.0 в качестве методологии моделирования бизнес-процессов. 5. Взаимодействие с заказчиком продукта. 6. Определение требований и критериев приемки к функциям ПО. 7. Постановка задач для исправления багов. 8. Работа с API, написание ТЗ. 9. Разработка структуры данных в форматах JSON, XML и XSD. 10. Формирование ТЗ после анализа процессов. 11. Описание взаимодействия объектов через UML. 12. Постановка задач на разработку функций продукта. 13. Использование Postman для тестирования различных запросов. 14. Разработка технической документации. 15. Применение Jira для задач и Confluence для документации. 16. Проектирование пользовательского опыта (интерфейсов). 17. Проведение сбора требований перед началом разработки. "
          },
          {
            "starts": "2016-06-01",
            "ends": "2021-04-01",
            "employer": "ОАО АвтоМор",
            "city": "Истра",
            "position": "Специалист технологических процессов",
            "description": "1. Установка, настройка и обслуживание контрольно-измерительных приборов и автоматических систем. 2. Осуществление контроля и измерения параметров технологических процессов. 3. Диагностика и устранение неисправностей в приборах и системах. 4. Программирование и настройка автоматических систем управления. 5. Проведение плановых технических обслуживаний и ремонтов. 6. Ведение документации и отчетности о проведенных работах. 7. Соблюдение требований по безопасности и охране труда при работе с приборами и системами. 8. Участие в разработке и внедрении новых технологических решений и систем автоматизации."
          },
          {
            "starts": "2013-11-01",
            "ends": "2014-12-01",
            "employer": "МКК Телеком",
            "city": "Ногинск",
            "position": "Системный администратор",
            "description": "1. Установка и настройка серверного оборудования и программного обеспечения. 2. Управление и поддержка сетевой инфраструктуры, включая настройку и обслуживание коммутаторов, маршрутизаторов, межсетевых экранов и других сетевых устройств. 3. Установка и настройка операционных систем на серверах и рабочих станциях. 4. Управление пользователями и их правами доступа к системам и ресурсам. 5. Решение проблем сетевого и серверного оборудования, а также программного обеспечения. 6. Обеспечение безопасности сети и данных, включая установку и настройку системы защиты от вторжений и антивирусного программного обеспечения. 7. Поддержка пользователей, включая решение проблем с аппаратным и программным обеспечением, а также предоставление консультаций и обучение. 8. Настройка и ремонт профессионального косметологического оборудования 9. Прием и распределение товаров 10. Учет товаров 11. Организация хранения товаров 12. Контроль за сроками годности и качеством товаров"
          },
          {
            "starts": "2013-01-01",
            "ends": "2013-10-01",
            "employer": "ООО Компания Асбоцемент",
            "city": "Талдом",
            "position": "Специалист технологических процессов",
            "description": "1. Установка, настройка и обслуживание контрольно-измерительных приборов и автоматических систем. 2. Осуществление контроля и измерения параметров технологических процессов. 3. Диагностика и устранение неисправностей в приборах и системах. 4. Программирование и настройка автоматических систем управления. 5. Проведение плановых технических обслуживаний и ремонтов. 6. Ведение документации и отчетности о проведенных работах. 7. Соблюдение требований по безопасности и охране труда при работе с приборами и системами. 8. Участие в разработке и внедрении новых технологических решений и систем автоматизации."
          }
        ],
        "languageItems": [
          "Русский",
          "Английский"
        ],
        "educationItem": [
          {
            "year": 2015,
            "organization": "Санкт-Петербургский государственный университет водных коммуникаций, Санкт-Петербург",
            "faculty": "Кафедра вычислительных систем и информатики",
            "specialty": "Информационные системы и технологи (Инженер-программист)",
            "result": "",
            "education_type": "Основное",
            "education_level": "Высшее"
          },
          {
            "year": 2010,
            "organization": "КРУ, Котлас",
            "faculty": "Среднее специальное",
            "specialty": "Программист",
            "result": "",
            "education_type": "Основное",
            "education_level": "Высшее"
          }
        ]
      }"""]

In [34]:
example_vacancy = """vacancy": {
    "uuid": "8b9c8d16-c7f0-38a2-b80c-d94030c15a6f",
    "name": "Java разработчик",
    "keywords": "Kafka, Java, RxJava, Hystrix, MongoDB ",
    "description": "Требования: 4+ года опыта работы с Java 8+ или Kotlin 4+ года опыта работы с Spring и 2+ год работы с Spring Boot. Опыт работы с системами на микросервисной архитектуре (Spring Cloud, Kubernetes, Openshift или аналоги). Опыт работы с Docker. Опыт работы с 3-мя любыми из следующих технологий NoSQL (MongoDB, Elasticsearch, аналоги) SQL (PostgreSQL, Oracle, аналоги) Брокеры сообщений (Kafka, RabbitMQ, аналоги) Reactive programming (RxJava, Project Reactor) Cache (Redis, Hazelcast). Настройка CI\/CD (GitlabCI, Jenkins, аналоги). Настройка средств мониторинга (Zabbix, Prometheus). Настройка средств логирования (Graylog, ELK). Будет хорошо, если кандидат: Знает все технологии из первого пункта; Участвовал в проработке архитектуры и может объяснить все решения на своем проекте; Готов драйвить техническое развитие систем, а не просто следовать текущим стандартам; Имеет дружеские отношения с DevOps, пайплайны, контейнеризация и оркестрация, Linux; Понимает микросервисную архитектуры и устройство распределенных систем; Участвовал в подборе и онбординге новых сотрудников; Умеет и хочет писать технические статьи. Развиваться и развивать коллег\/комьюнити. Проводить как разовые тренинги, так и планировать долгие обучения. Что предстоит делать: Использовать самый современный технологический стэк для создания FinTech решений; Разрабатывать приложения, которые масштабируются на все дистанционные каналы банка (интернет-банк, мобильные приложения, платёжные сервисы и многое другое); Взаимодействовать с различными командами разработки, Data Science, поддержки и другими (поэтому необходимы хорошие навыки коммуникации или желание их развивать); Вносить свой вклад в развитие архитектуры, делать новое и оценивать старое. """

In [35]:
extracted_resume_0 = extractor(example_resumes[0])
extracted_resume_1 = extractor(example_resumes[1])

In [36]:
normilized_resume_0 = extract_experience_items(extracted_resume_0)
normilized_resume_1 = extract_experience_items(extracted_resume_1)

In [42]:
normilized_resume_0

'" uuid " : " 6561771c - 7ef3 - 3e50 - ab3a - ba8547201480 ", " first _ name " : " ", " last _ name " : " ", " birth _ date " : " - 01 - 01 ", " country " : " ", " " : ", " about " : * * frameworks : JUnit, TestNG, Rest Assured, Mockito, Spring Test, Testcontainers, Jmeter ; * : Maven, ; * ( De ) serialization : XStream, JAXB, Jackson, JsonPath * JSF 2. 0 : PrimeFaces SCM : git, svn, TFS ; CI : Jenkins, Travis, Gitlab CI, Github Actions Технологии и др : TDD, Design Patterns, DDD. programming Groovy, Kotlin, Python. OS Fedora, CentOS, Debian, Alpine Linux : systemd, journald, bash, ansible, supervisord VM : VMware Workstation, Oracle VM VirtualBox, Microsoft Virtual PC'

In [37]:
from sklearn.metrics.pairwise import cosine_similarity

In [38]:
embeddings_resume_0 = model.encode(normilized_resume_0)
embeddings_resume_1 = model.encode(normilized_resume_1)
embeddings_vacancy = model.encode(example_vacancy)

In [40]:
cosine_similarity([embeddings_vacancy], [embeddings_resume_0])

array([[0.8764807]], dtype=float32)