In [37]:
import typing as tp
import httpx
import json
import re

class LLM:
    def __init__(self, llm_chat_url: str):
        self.url = llm_chat_url
        self.client = httpx.Client(headers={
            "accept": "text/event-stream",
            "accept-language": "en-US,en;q=0.9,ru-RU;q=0.8,ru;q=0.7",
            "content-type": "application/json",
            "cookie": "dcm=5",
            "dnt": "1",
            "origin": "https://duckduckgo.com",
            "priority": "u=1, i",
            "referer": "https://duckduckgo.com/",
            "sec-ch-ua": '"Google Chrome";v="129", "Not=A?Brand";v="8", "Chromium";v="129"',
            "sec-ch-ua-mobile": "?0",
            "sec-ch-ua-platform": '"macOS"',
            "sec-fetch-dest": "empty",
            "sec-fetch-mode": "cors",
            "sec-fetch-site": "same-origin",
            "user-agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/129.0.0.0 Safari/537.36",
            "x-vqd-4": "4-189727535158365797383025471132521611675",
        })


    def _assemble_body(self, prompt: str,
                        model: tp.Literal["claude-3-haiku-20240307",
            "meta-llama/Meta-Llama-3.1-70B-Instruct-Turbo",
            "mistralai/Mixtral-8x7B-Instruct-v0.1",
            "gpt-4o-mini"] = "meta-llama/Meta-Llama-3.1-70B-Instruct-Turbo"):
        return {
            "model": model,
            "messages": [
                {"role": "user", "content": prompt}
            ],
        }

    def __parse_chunk(self, chunk: str) -> str :
        if len(chunk) == 0:
            return ""
        payload = chunk[5:]
        try:
            return json.loads(payload)["message"]
        except Exception as e:
            print(e, chunk)
            return ""


    def _email_prompt(self, vacancy_description: str ) -> str:
        return f"Помоги написать письмо для рассылки с новой вакансией для компании в формате html, вот описание вакансии: {vacancy_description}"


    def __parse_html_response(self, response: str) -> str:
        match = re.search(r'```(.*?)```', response, re.DOTALL)
        if match:
            return match.group(1).strip()
        return ""

    def _telegram_prompt(self, vacancy_description: str) -> str:
        return f"Помоги написать пост для рекламы ванакансии в соц сети с использованием markdown, вот описание вакансии: {vacancy_description}"

    def prompt(self, post_type: tp.Literal["telegram", "email"], vacancy_description: str) -> str:
        match post_type:
            case "telegram":
                prompt = self._telegram_prompt(vacancy_description)
            case "email":
                prompt = self._email_prompt(vacancy_description)

        response = ""
        with self.client.stream("POST", self.url,  json=self._assemble_body(prompt), timeout=120) as r:
            for chunk in r.iter_lines():
                new_data = self.__parse_chunk(chunk)
                response += new_data
        match post_type:
            case "telegram":
                response = response
            case "email":
                response = self.__parse_html_response(response)

        return response

In [38]:
DUCK_DUCK_GO_URL = "https://duckduckgo.com/duckchat/v1/chat"
description = """
Мы ищем data scientist’а с опытом работы в текстовых задачах, рекомендательных или поисковых системах. Если вы хорошо знаете математику, любите копаться в больших массивах данных, находить в них закономерности, и умеете внедрять свои решения в продакшн, то мы будем рады видеть вас в нашей компании.

Мы развиваем ML-модели ранжирования поиска и рекомендаций, которые позволяют находить работу людям со всей страны. Наша основная задача состоит в количественном росте продуктовых метрик, таких как кол-во откликов/приглашений, все гипотезы строго проверяются с помощью A/B-экспериментов. Наши решения работают в online режиме под большой нагрузкой на поисковом кластере из 100+ машин. Мы работаем в продуктовых кросс-функциональных (frontend/backend/data science) командах по гибким методологиям.

Требования

Опыт реализации и применения моделей машинного обучения в продакшн;

Понимание основных методов и алгоритмов Machine Learning;

Знание принципов работы нейросетевых моделей для обработки текста;

Опыт в ранжировании, рекомендациях, а также в nlp-задачах будет большим плюсом;

Уверенное владение Python (numpy, scipy, pytorch, sklearn), приветствуется знание и опыт с Java;

Алгоритмическая подготовка: знание основных алгоритмов и структур данных;

Желателен опыт работы с различными источниками данных: SQL, Cassandra, Hive, Presto, Kafka, etc.;

Понимание и опыт работы с A/B-экспериментами;

Обязанности

Развитие моделей поискового ранжирования и рекомендательных систем;

Тюнинг существующих моделей, feature engineering, а также построение новых решений с нуля;

Прототипирование и доведение своих решений до продакшна на python;

Полная поддержка своих моделей: от написания запроса для выгрузки обучающей выборки из хранилищ данных до анализа результатов A/B-экспериментов и переключения всех пользователей на новый функционал;
"""

In [39]:
llm = LLM(DUCK_DUCK_GO_URL)

response = llm.prompt("email", description)
print(response)

Expecting value: line 1 column 3 (char 2) data: [DONE]
<html>
  <head>
    <title>Вакансия Data Scientist в нашей компании</title>
  </head>
  <body>
    <h1>Вакансия Data Scientist в нашей компании</h1>
    <p>Мы ищем data scientist'а с опытом работы в текстовых задачах, рекомендательных или поисковых системах. Если вы хорошо знаете математику, любите копаться в больших массивах данных, находить в них закономерности, и умеете внедрять свои решения в продакшн, то мы будем рады видеть вас в нашей компании.</p>
    <p>Мы развиваем ML-модели ранжирования поиска и рекомендаций, которые позволяют находить работу людям со всей страны. Наша основная задача состоит в количественном росте продуктовых метрик, таких как кол-во откликов/приглашений, все гипотезы строго проверяются с помощью A/B-экспериментов. Наши решения работают в online режиме под большой нагрузкой на поисковом кластере из 100+ машин. Мы работаем в продуктовых кросс-функциональных (frontend/backend/data science) командах по гиб

In [36]:
response

"Предлагаю вам следующий вариант письма для рассылки с новой вакансией в формате HTML:\n\n```\n<html>\n  <head>\n    <title>Вакансия Data Scientist в нашей компании</title>\n  </head>\n  <body>\n    <h1>Вакансия Data Scientist в нашей компании</h1>\n    <p>Мы ищем data scientist'а с опытом работы в текстовых задачах, рекомендательных или поисковых системах. Если вы хорошо знаете математику, любите копаться в больших массивах данных, находить в них закономерности, и умеете внедрять свои решения в продакшн, то мы будем рады видеть вас в нашей компании.</p>\n    <p>Мы развиваем ML-модели ранжирования поиска и рекомендаций, которые позволяют находить работу людям со всей страны. Наша основная задача состоит в количественном росте продуктовых метрик, таких как кол-во откликов/приглашений, все гипотезы строго проверяются с помощью A/B-экспериментов. Наши решения работают в online режиме под большой нагрузкой на поисковом кластере из 100+ машин. Мы работаем в продуктовых кросс-функциональных 

In [21]:
test_chunks = [
    'data: {"role":"assistant","message":"расс","created":1727851705,"id":"8cc2be8bee7b1b02-AMS","action":"success","model":"meta-llama/Meta-Llama-3.1-70B-Instruct-Turbo"}',
    'data: [DONE]'
]

def parce_chunk(chunk: str) -> str:
    payload = chunk[5:]
    print(payload, "\n")
    if payload == " [DONE]":
        return ""
    else:
        return json.loads(payload)["message"]

r = ""
for ch in test_chunks:
    print("json: ", parce_chunk(ch))

 {"role":"assistant","message":"расс","created":1727851705,"id":"8cc2be8bee7b1b02-AMS","action":"success","model":"meta-llama/Meta-Llama-3.1-70B-Instruct-Turbo"} 

json:  расс
 [DONE] 

json:  


In [7]:
response 

''

In [1]:
import httpx

In [None]:
prompt = "сделай шаблон письма от рекрутера по вакансии "

In [None]:
httpx.post(
    DUCK_DUCK_GO_URL,
    data={
        "model": "meta-llama/Meta-Llama-3.1-70B-Instruct-Turbo",
        "messages": [{"role": "user", "content": "подскажи"}],
    },
    headers={
        "content-type":"text/event-stream",
        "sec-ch-ua": '"Google Chrome";v="129", "Not=A?Brand";v="8", "Chromium";v="129"',
    },
)

In [12]:
import httpx
from httpx_sse import connect_sse

data={
        "model": "meta-llama/Meta-Llama-3.1-70B-Instruct-Turbo",
        "messages": [{"role": "user", "content": "подскажи"}],
}
headers = {
    "Content-Type": "text/event-stream",
    "Accept":"text/event-stream"
}

with httpx.Client() as client:
    response = client.stream("POST", DUCK_DUCK_GO_URL, data=data, headers=headers)
    for r in response.gen:
        print(r)

<Response [400 Bad Request]>


In [23]:
import httpx
import json

url = "https://duckduckgo.com/duckchat/v1/chat"
headers = {
    "accept": "text/event-stream",
    "accept-language": "en-US,en;q=0.9,ru-RU;q=0.8,ru;q=0.7",
    "content-type": "application/json",
    "cookie": "dcm=5",
    "dnt": "1",
    "origin": "https://duckduckgo.com",
    "priority": "u=1, i",
    "referer": "https://duckduckgo.com/",
    "sec-ch-ua": '"Google Chrome";v="129", "Not=A?Brand";v="8", "Chromium";v="129"',
    "sec-ch-ua-mobile": "?0",
    "sec-ch-ua-platform": '"macOS"',
    "sec-fetch-dest": "empty",
    "sec-fetch-mode": "cors",
    "sec-fetch-site": "same-origin",
    "user-agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/129.0.0.0 Safari/537.36",
    "x-vqd-4": "4-189727535158365797383025471132521611675",
}

data = {
    "model": "meta-llama/Meta-Llama-3.1-70B-Instruct-Turbo",
    "messages": [
        {"role": "user", "content": "сделай шаблон письма от рекрутера по вакансии"}
    ],
}


with httpx.stream("POST", url, headers=headers, json=data, timeout=120) as r:
    for chunk in r.iter_lines():
        print(chunk)

data: {"role":"assistant","message":"З","created":1727850571,"id":"8cc2a3778c490bd0-AMS","action":"success","model":"meta-llama/Meta-Llama-3.1-70B-Instruct-Turbo"}

data: {"role":"assistant","message":"д","created":1727850572,"id":"8cc2a3778c490bd0-AMS","action":"success","model":"meta-llama/Meta-Llama-3.1-70B-Instruct-Turbo"}

data: {"role":"assistant","message":"есь","created":1727850572,"id":"8cc2a3778c490bd0-AMS","action":"success","model":"meta-llama/Meta-Llama-3.1-70B-Instruct-Turbo"}

data: {"role":"assistant","message":" привед","created":1727850572,"id":"8cc2a3778c490bd0-AMS","action":"success","model":"meta-llama/Meta-Llama-3.1-70B-Instruct-Turbo"}

data: {"role":"assistant","message":"ен","created":1727850572,"id":"8cc2a3778c490bd0-AMS","action":"success","model":"meta-llama/Meta-Llama-3.1-70B-Instruct-Turbo"}

data: {"role":"assistant","message":" пример","created":1727850572,"id":"8cc2a3778c490bd0-AMS","action":"success","model":"meta-llama/Meta-Llama-3.1-70B-Instruct-Turb

SyntaxError: expected default value expression (1463847035.py, line 29)

curl 'https://api.hh.ru/vacancies?employer_id=4649269&clusters=true&per_page=0' \
  -H 'accept: application/json, text/plain, */*' \
  -H 'accept-language: en-US,en;q=0.9,ru-RU;q=0.8,ru;q=0.7' \
  -H 'authorization: Bearer APPLRMJQHCQCST4PURJJ3DBU9LTHKUUQT2R1VSP8BKTOS3OLP46AQTDCMG42NA34' \
  -H 'dnt: 1' \
  -H 'origin: https://career.t1.ru' \
  -H 'priority: u=1, i' \
  -H 'referer: https://career.t1.ru/' \
  -H 'sec-ch-ua: "Google Chrome";v="129", "Not=A?Brand";v="8", "Chromium";v="129"' \
  -H 'sec-ch-ua-mobile: ?0' \
  -H 'sec-ch-ua-platform: "macOS"' \
  -H 'sec-fetch-dest: empty' \
  -H 'sec-fetch-mode: cors' \
  -H 'sec-fetch-site: cross-site' \
  -H 'user-agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/129.0.0.0 Safari/537.36'

In [15]:
import httpx


url = "https://api.hh.ru/vacancies"
params = {
    "employer_id": 4649269,
    "clusters":True,
    "per_page":0,
}

headers = {
    "Authorization": "Bearer "
}


response = httpx.get(url, params=params)

print(response.json())

{'items': [], 'found': 1282, 'pages': 1282, 'page': 0, 'per_page': 0, 'clusters': [{'name': 'Регион', 'id': 'area', 'items': [{'name': 'Россия', 'url': 'https://api.hh.ru/vacancies?clusters=true&employer_id=4649269&per_page=0&area=113', 'count': 1257}, {'name': 'Москва', 'url': 'https://api.hh.ru/vacancies?clusters=true&employer_id=4649269&per_page=0&area=1', 'count': 947}, {'name': 'Санкт-Петербург', 'url': 'https://api.hh.ru/vacancies?clusters=true&employer_id=4649269&per_page=0&area=2', 'count': 82}, {'name': 'Беларусь', 'url': 'https://api.hh.ru/vacancies?clusters=true&employer_id=4649269&per_page=0&area=16', 'count': 25}, {'name': 'Минск', 'url': 'https://api.hh.ru/vacancies?clusters=true&employer_id=4649269&per_page=0&area=1002', 'count': 25}, {'name': 'Нижегородская область', 'url': 'https://api.hh.ru/vacancies?clusters=true&employer_id=4649269&per_page=0&area=1679', 'count': 25}, {'name': 'Самарская область', 'url': 'https://api.hh.ru/vacancies?clusters=true&employer_id=4649269

In [16]:
data = response.json()

In [17]:
data

{'items': [],
 'found': 1282,
 'pages': 1282,
 'page': 0,
 'per_page': 0,
 'clusters': [{'name': 'Регион',
   'id': 'area',
   'items': [{'name': 'Россия',
     'url': 'https://api.hh.ru/vacancies?clusters=true&employer_id=4649269&per_page=0&area=113',
     'count': 1257},
    {'name': 'Москва',
     'url': 'https://api.hh.ru/vacancies?clusters=true&employer_id=4649269&per_page=0&area=1',
     'count': 947},
    {'name': 'Санкт-Петербург',
     'url': 'https://api.hh.ru/vacancies?clusters=true&employer_id=4649269&per_page=0&area=2',
     'count': 82},
    {'name': 'Беларусь',
     'url': 'https://api.hh.ru/vacancies?clusters=true&employer_id=4649269&per_page=0&area=16',
     'count': 25},
    {'name': 'Минск',
     'url': 'https://api.hh.ru/vacancies?clusters=true&employer_id=4649269&per_page=0&area=1002',
     'count': 25},
    {'name': 'Нижегородская область',
     'url': 'https://api.hh.ru/vacancies?clusters=true&employer_id=4649269&per_page=0&area=1679',
     'count': 25},
    {'na