# Setup

In [None]:
import sys
PYTHON_PATH = sys.executable

In [None]:
!$PYTHON_PATH -m pip install --upgrade bitsandbytes>=0.39.0 accelerate>=0.20.0
!$PYTHON_PATH -m pip install --upgrade transformers guidance 

In [None]:
!$PYTHON_PATH -m pip install --upgrade pandas==1.3.0 numpy

In [None]:
import os
os.environ['OMP_NUM_THREADS'] = "32"

## Load model

In [None]:
from guidance import models, select, gen
model_name_or_path = "NousResearch/Meta-Llama-3-8B-Instruct"
# model_name_or_path = "NousResearch/Meta-Llama-3-70B-Instruct"
lm = models.Transformers(
    model_name_or_path, 
    device_map="auto", 
    load_in_8bit=True, 
    _attn_implementation='sdpa'
)

In [None]:
import transformers
import torch 

pipeline = transformers.pipeline(
    "text-generation",
    model=model_name_or_path,
    model_kwargs={"torch_dtype": torch.bfloat16},
    device="cuda",
)

## Get features from vacancy

In [None]:
header = "Тестировщик"

sample_text = """
<div class="bloko-column bloko-column_xs-4 bloko-column_s-8 bloko-column_m-12 bloko-column_l-10"><div class="vacancy-description"><div class="vacancy-section"><div class="g-user-content" data-qa="vacancy-description"><p><span>Компания NodaSoft - разработчик онлайн сервисов для автобизнеса. Мы создали продукты и сервисы, которыми пользуются тысячи компаний, предпринимателей и розничных клиентов в России и </span><span class="highlighted">по</span><span> всему миру.</span></p> <p><span>Миссия компании: создание надёжных сервисов, стандартизация и унификация данных и решений в любой предметной области, применение принципа повторного использования данных и программного кода во всех создаваемых продуктах, снижение экономических издержек и доступность продуктов компании даже для начинающего бизнеса.</span></p> <p><span>Основной продукт компании </span><strong><span>платформа </span><strong><span>ABCP</span></strong></strong><span> - SaaS решение для предпринимателей для создания интернет-магазина автозапчастей "под ключ" и насчитывает более 2000 постоянных клиентов</span></p> <p><strong><span>Мы предлагаем:</span></strong></p> <ul> <li><span>интересные задачи в highload-проектах;</span></li> <li><span>работу в компании с нормальным руководством;</span></li> </ul> <p><strong><span>Мы ожидаем, что Вы:</span></strong></p> <ul> <li><span>знаете основные виды тестирования;</span></li> <li><span>имеете опыт работы с подготовкой тест-планов, тест-кейсов, сценариев тестирования;</span></li> <li><span>имеете опыт тестирования API;</span></li> <li> <p><span>имеете базовые знания </span><span class="highlighted">по</span><span> работе с консолью разработчика в браузере;</span></p> </li> <li> <p><span>внимательны к мелочам и поэтому в сопроводительном письме вы напишете слово "ping";</span></p> </li> <li> <p><span>базовые знания SQL приветствуются;</span></p> </li> <li> <p><span>опыт работы с docker приветствуется;</span></p> </li> <li> <p><span>опыт работы </span><span class="highlighted">тестировщиком</span><span> приветствуется.</span></p> </li> </ul> <p><strong><span>Условия:</span></strong></p> <ul> <li><span>работа в стабильной IT-компании (с 2008 года на рынке);</span></li> <li><span>график работы пн-пт, восьми часовой рабочий день (начало работы обсуждается);</span></li> <li><span>удаленная работа</span></li> </ul></div></div><div class="vacancy-section"></div><h2 data-qa="bloko-header-2" class="bloko-header-2">Задайте вопрос работодателю</h2><div class="bloko-v-spacing bloko-v-spacing_base-2"></div><div class="bloko-text bloko-text_large">Он&nbsp;получит его с&nbsp;откликом на&nbsp;вакансию</div><div class="bloko-v-spacing bloko-v-spacing_base-5"></div><p class="bloko-chips-multiline-container"><a class="bloko-chips-chip-link" href="#" data-qa="vacancy-response-question vacancy-response-question_work_place_location">Где располагается место работы?</a><a class="bloko-chips-chip-link" href="#" data-qa="vacancy-response-question vacancy-response-question_employment_and_work_mode">Какой график работы?</a><a class="bloko-chips-chip-link" href="#" data-qa="vacancy-response-question vacancy-response-question_is_vacancy_open">Вакансия открыта?</a><a class="bloko-chips-chip-link" href="#" data-qa="vacancy-response-question vacancy-response-question_salary_options">Какая оплата труда?</a><a class="bloko-chips-chip-link" href="#" data-qa="vacancy-response-question vacancy-response-question_how_to_contact">Как с&nbsp;вами связаться?</a><a class="bloko-chips-chip-link" href="#" data-qa="vacancy-response-question vacancy-response-question_other">Другой вопрос</a></p><div class="bloko-v-spacing bloko-v-spacing_base-11"></div></div></div>
"""
# print(sample_text)

In [None]:
header = "Unreal Engine AI Developer"

sample_text = """
<div class="vacancy-description"><div class="vacancy-section"><div class="g-user-content" data-qa="vacancy-description"><p><strong><span>Krista Games</span></strong><span> — игровая компания, объединившая ведущих игроков рынка в области разработки и издательства видео-, мобильных и настольных </span><span class="highlighted">игр</span><span> с целью создания единой экосистемы развлечений. Команда представлена ветеранами рынка, которые работали в известных игровых компаниях и запускали крупнейшие международные релизы.</span></p> <p><span>Сейчас мы ищем в одну из наших студий </span><strong><span></span><span class="highlighted">Unreal</span><span> </span><span class="highlighted">Engine</span><span> AI </span><span class="highlighted">Developer</span><span></span></strong><span> для работы над экшн-хоррором от первого лица для PC.</span></p> <p><strong><span>Задачи:</span></strong></p> <ul> <li><span>Программирование поведения для различных игровых сущностей;</span></li> <li><span>Работа с моделями персонажей, анимациями, скелетами, настройка рига, инверсной кинематики и пр.;</span></li> <li><span>Создание и интеграция сюжетных событий, катсцен с участием анимированных персонажей;</span></li> <li><span>Работа с лицевыми анимациями, тканью, повреждениями, материалами персонажй, озвучкой.</span></li> </ul> <p><strong><span>Требования:</span></strong></p> <ul> <li><span>Опыт работы с </span><span class="highlighted">Unreal</span><span> </span><span class="highlighted">Engine</span><span> 4 от 3 лет;</span></li> <li><span>Опыт программирования от 3 лет;</span></li> <li><span>Знание сетевой части </span><span class="highlighted">Unreal</span><span> </span><span class="highlighted">Engine</span><span>;</span></li> <li><span>Знание Behavior Tree, Animation Graph, State Machine;</span></li> <li><span>Участие в игровых проектах.</span></li> </ul> <p><strong><span>Что предлагаем:</span></strong></p> <ul> <li><span>Комфортный график работы и возможность подстраивать рабочее время под себя;</span></li> <li><span>Релокация </span><span class="highlighted">на</span><span> Кипр;</span></li> <li><span>Среда для развития: работа плечом к плечу с лучшими профессионалами;</span></li> <li><span>Достойная зарплата по итогам собеседования, возможности для карьерного роста.</span></li> </ul></div></div><div class="vacancy-section"></div><div class="vacancy-section"><h2 data-qa="bloko-header-2" class="bloko-header-2">Ключевые навыки</h2><div class="bloko-v-spacing bloko-v-spacing_base-4"></div><div><div class="bloko-tag-list"><div class="bloko-tag bloko-tag_inline" data-qa="bloko-tag bloko-tag_inline skills-element"><span class="bloko-tag__section bloko-tag__section_text" data-qa="bloko-tag__text">Game Programming</span></div><div class="bloko-tag bloko-tag_inline" data-qa="bloko-tag bloko-tag_inline skills-element"><span class="bloko-tag__section bloko-tag__section_text" data-qa="bloko-tag__text">C++</span></div><div class="bloko-tag bloko-tag_inline" data-qa="bloko-tag bloko-tag_inline skills-element"><span class="bloko-tag__section bloko-tag__section_text" data-qa="bloko-tag__text">Unreal Engine 5</span></div><div class="bloko-tag bloko-tag_inline" data-qa="bloko-tag bloko-tag_inline skills-element"><span class="bloko-tag__section bloko-tag__section_text" data-qa="bloko-tag__text">AI</span></div></div></div></div><h2 data-qa="bloko-header-2" class="bloko-header-2">Задайте вопрос работодателю</h2><div class="bloko-v-spacing bloko-v-spacing_base-2"></div><div class="bloko-text bloko-text_large">Он&nbsp;получит его с&nbsp;откликом на&nbsp;вакансию</div><div class="bloko-v-spacing bloko-v-spacing_base-5"></div><p class="bloko-chips-multiline-container"><a class="bloko-chips-chip-link" href="#" data-qa="vacancy-response-question vacancy-response-question_work_place_location">Где располагается место работы?</a><a class="bloko-chips-chip-link" href="#" data-qa="vacancy-response-question vacancy-response-question_employment_and_work_mode">Какой график работы?</a><a class="bloko-chips-chip-link" href="#" data-qa="vacancy-response-question vacancy-response-question_is_vacancy_open">Вакансия открыта?</a><a class="bloko-chips-chip-link" href="#" data-qa="vacancy-response-question vacancy-response-question_salary_options">Какая оплата труда?</a><a class="bloko-chips-chip-link" href="#" data-qa="vacancy-response-question vacancy-response-question_how_to_contact">Как с&nbsp;вами связаться?</a><a class="bloko-chips-chip-link" href="#" data-qa="vacancy-response-question vacancy-response-question_other">Другой вопрос</a></p><div class="bloko-v-spacing bloko-v-spacing_base-11"></div></div>
"""
# print(sample_text)

In [None]:
from bs4 import BeautifulSoup
soup = BeautifulSoup(sample_text, 'html.parser')

# Remove all tags except 'text' and 'div'
for tag in soup.find_all(True):
    if tag.name not in ['p', 'ul', 'li', 'div'] + [f"h{i}" for i in range(1, 6)]:
        tag.unwrap()

for tag in soup.find_all(True):
    tag.attrs = {}
    if not tag.get_text(strip=True):
        tag.decompose()
        
# sample_text = ' '.join(line.strip() for line in soup.get_text().split('\n'))
sample_text = str(soup)
sample_text = '\n'.join(line.strip() for line in sample_text.split('\n') if len(line.strip()) > 0)
# print(sample_text)

## Get features from course

In [None]:
import os
os.environ['NUMEXPR_NUM_THREADS'] = "32"
import pandas as pd

# Convert the dictionary to a pandas DataFrame

# Display the DataFrame

### LLM tree

In [None]:
courses_grouped = """
name: Курсы
children:

  - name: Информационные технологии
    children:

      - name: Компьютерная грамотность
        add_desc: true
      - name: Кибернетика умных устройств. Специалист
        add_desc: true

      - name: Управление проектами и продуктами
        children:
          - name: Продакт-менеджер в ИТ. Специалист. Смешанный формат
          - name: Проджект-менеджер в ИТ. Специалист. Смешанный формат

      - name: Разработка ПО
        children:

          - name: Для детей
            children:
              - name: Разработчик для школьников
              - name: Программирование на Python для детей
              - name: "Программирование на Python в Minecraft: углублённый курс"

          - name: Для взрослых
            children:

              - name: Веб разработка
                children:
                  - name: Frontend-разработчик Мастер
                  - name: Frontend-разработчик. Специалист
                  - name: Fullstack-разработчик
                  - name: Веб-разработчик. Специалист. Смешанный формат
                  - name: "Веб-разработка: углублённый курс"

              - name: Разработка программного обеспечения
                children:
                  - name: Разработчик
                  - name: Инженер-программист C++
                  - name: Разработчик С++. Специалист
                  - name: Инженер-программист
                  - name: Программист Java Мастер
                  - name: Java-разработчик. Специалист

              - name: Мобильная разработка
                children:
                  - name: iOS-разработчик. Специалист
                  - name: Разработчик приложений на Android
                  - name: Android-разработчик. Специалист

              - name: Бэкенд разработка
                children:
                  - name: Backend-разработчик. Специалист
                  - name: Fullstack-разработчик

              - name: Разработка на C#
                children:
                  - name: Разработчик C#. Специалист

              - name: Разработка на Python
                children:
                  - name: Инженер-программист Python Мастер
                  - name: Python-разработчик. Специалист. Смешанный формат
                  - name: Fullstack-разработчик

              - name: Разработка на 1С
                children:
                  - name: 1С-разработчик
                  - name: 1С-разработчик. Специалист

      - name: Тестирование ПО
        children:
          - name: Инженер по тестированию
          - name: Инженер по тестированию Мастер
          - name: Ручной тестировщик. Специалист
          - name: Автоматизация тестирования на Python. Специалист

      - name: Искусственный интеллект
        children:
          - name: ИТ-инженер Data Science Мастер
          - name: Искусственный интеллект. Специалист
          - name: Data Science. Специалист
          - name: Data Science в медицине. Специалист
          - name: Специалист по внедрению ИИ
          - name: Дата-сайентист в медицине Мастер
          - name: Нейрохищник
            add_desc: true

      - name: DevOps
        children:
          - name: DevOps-инженер Мастер
          - name: DevOps-инженер. Специалист

      - name: Базы данных
        children:
          - name: Data Engineer. Специалист

      - name: Информационная безопасность
        children:
          - name: Кибербезопасность и приложения на Python
          - name: Информационная безопасность

      - name: Сетевые технологии
        children:
          - name: Сетевой инженер

      - name: Разработка игр
        children:
          - name: Дизайн и программирование в Roblox Studio
          - name: Программирование и 3D-моделирование в Minecraft
          - name: Гейм-дизайнер. Специалист
          - name: Программирование и разработка игр на Scratch
          - name: Разработка игр на Unity для детей
          - name: Геймдизайнер с нуля до PRO
          - name: Разработчик Игр на Unreal Engine
          - name: Разработчик Игр на Unity
          - name: "Программирование на Python в Minecraft: углублённый курс"

  - name: Финансы
    children:
      - name: Бухгалтер (совместно со SkillBox)

  - name: Кино и видео 
    children:
      - name: Сценарист
      - name: Фотограф
      - name: Режиссёр монтажа

  - name: Дизайн
    children:

      - name: Игровой дизайн и разработка
        children:
          - name: Дизайн и программирование в Roblox Studio
          - name: Программирование и 3D-моделирование в Minecraft
          - name: Геймдизайнер с нуля до PRO
          - name: Гейм-дизайнер. Специалист

      - name: Графический дизайн
        children:
          - name: Графический дизайн
          - name: Бренд-менеджер
          - name: Графический дизайнер Мастер
          - name: Графический дизайнер
          - name: Цифровой дизайнер Мастер
          - name: Цифровой дизайнер
          - name: Дизайнер
          - name: "Веб-дизайн: углублённый курс"
          - name: Компьютерная графика
          - name: Веб-дизайнер. Специалист
          - name: Моушн-дизайнер. Специалист
          - name: Fullstack-дизайнер. Специалист
          - name: Дизайнер интерфейсов (UX/UI). Специалист
          - name: UX/UI дизайнер Мастер
          - name: Графический дизайнер. Специалист
          - name: Коммерческий иллюстратор
          - name: Нейрохищник
            add_desc: true

      - name: 3D моделирование и анимация
        children:
          - name: 3D-моделирование в Blender
          - name: 3D-дженералист
          - name: Углублённый курс по анимации
          - name: 3D моделирование. Специалист
          - name: 3D-художник
          - name: Концепт-художник

      - name: Дизайн интерьеров и ландшафтов
        children:
          - name: Дизайнер интерьеров
          - name: Ландшафтный дизайнер
          - name: Ландшафтный дизайнер. Специалист

      - name: Видеомонтаж
        children:
          - name: Режиссёр монтажа

  - name: Маркетинг
    children:
      - name: Digital-маркетолог Специалист
      - name: Интернет-маркетолог
      - name: Редактор
      - name: SEO-специалист
      - name: Продуктовый маркетолог
      - name: SMM-менеджер
      - name: Perfomance менеджер
      - name: Таргетолог
      - name: Специалист по работе с маркетплейсами
      - name: Контекстная реклама. Специалист
      - name: Трафик-менеджер. Специалист
      - name: Таргетолог. Специалист
      - name: SMM-менеджер. Специалист
      - name: Менеджер по работе с маркетплейсами и e-commerce. Специалист
      - name: Как продавать на Wildberries (совместно со SkillBox)

  - name: Аналитика
    children:
      - name: Инженер-аналитик
      - name: BI (Business Intelligence) аналитик
      - name: Продуктовый аналитик
      - name: Финансовый аналитик. Специалист
      - name: Аналитик данных. Специалист
      - name: Бизнес-аналитик. Специалист
      - name: Системный и бизнес аналитик
      - name: Системный аналитик. Специалист

"""


import yaml

# Открываем файл для чтения
# with open('courses.yaml', 'r') as file:
#     # Загружаем содержимое файла в Python объект
data = yaml.safe_load(courses_grouped)


In [None]:
from guidance import zero_or_more, regex
import guidance
import re

messages = [
    {"role": "system", "content": "Ты очень полезный ассистен, который помогает подбирать кадры для IT компании и не только"},
    {"role": "user", "content": f"Вот название и описание вакансии\n<header>{header}</header><text>{sample_text}</text>"},
    {"role": "assistant", "content": f"Я готов отвечать на вопросы"},
]
assistant_eos = '<|eot_id|><|start_header_id|>assistant<|end_header_id|>\n\n'
user_eos = '<|eot_id|><|start_header_id|>user<|end_header_id|>\n\n'


prompt = pipeline.tokenizer.apply_chat_template(
    messages, 
    tokenize=False, 
    add_generation_prompt=True
)
prompt = prompt[:-len(assistant_eos)]
prompt += user_eos
level_d = data['children']
level_idx = 0
output = lm + prompt
result_edu_course = None

while True:

    
    message = ""
    message = f"Напиши номер категории, к которой вакансия относится больше всего:\n"
    for i in range(1, len(level_d)+1):
        message += f'{i}. ' + level_d[i-1]['name']
#         if level_d[i].get('add_desc'):
#             lm += level_d[i]['desc']
        message += '\n'
    
    output += message + assistant_eos
    output += select([i for i in range(1, len(level_d) + 1)], name=f'level_{level_idx}') + user_eos
    
    choosen_index = int(output[f'level_{level_idx}']) - 1
    
#     if 
    if not level_d[choosen_index].get('children'):
        result_edu_course = level_d[choosen_index]['name']
        break
    
    level_d = level_d[choosen_index].get('children')
    level_idx += 1
    
result_edu_course