# 1 часть

In [5]:
# чтобы все смержить в 1 файл
import json

names = [
    "data_scientist",
    "frontend",
    "backend",
    "analyst",
]


def merge_json_with_indices(input_files, output_file):
    merged_data = []

    for file_name in input_files:
        with open(file_name, "r", encoding="utf-8") as f:
            data = json.load(f)
            if isinstance(data, list):
                merged_data.extend(data)
            else:
                print(
                    f"Warning: {file_name} does not contain a JSON array. Skipping file."
                )
    indexed_data = [{"index": i, **item} for i, item in enumerate(merged_data)]

    with open(output_file, "w", encoding="utf-8") as f:
        json.dump(indexed_data, f, ensure_ascii=False, indent=4)


input_files = [f"./data/{n}_resumes.json" for n in names]
output_file = "./data/merged_resumes.json"

merge_json_with_indices(input_files, output_file)

In [6]:
import re

# Список ключей, которые нужно очистить
keys_to_clean = ["about", "jobs"]  # Замените на нужные ключи


def remove_phone_numbers_and_links(text):
    phone_number_pattern = re.compile(r"\b(\+?\d[\d -]{8,}\d)\b")
    url_pattern = re.compile(
        r"http[s]?://(?:[a-zA-Zа-яА-ЯёЁ0-9]|[$-_@.&+]|[!*\\(\\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+"
    )
    mention_pattern = re.compile(r"@\w+")

    # Удаляем номера телефонов и ссылки из текста
    text = phone_number_pattern.sub("", text)
    text = url_pattern.sub("", text)
    text = mention_pattern.sub("", text)
    return text


def clean_json(data):
    if isinstance(data, dict):
        for key, value in data.items():
            if key in keys_to_clean:
                if isinstance(value, str):
                    data[key] = remove_phone_numbers_and_links(value)
                elif isinstance(value, list):
                    data[key] = [
                        remove_phone_numbers_and_links(value[i])
                        for i in range(len(value))
                    ]

            else:
                data[key] = clean_json(value)
    elif isinstance(data, list):
        for i in range(len(data)):
            data[i] = clean_json(data[i])
    return data


def process_json_file(input_file, output_file):
    with open(input_file, "r", encoding="utf-8") as f:
        data = json.load(f)

    cleaned_data = clean_json(data)

    with open(output_file, "w", encoding="utf-8") as f:
        json.dump(cleaned_data, f, ensure_ascii=False, indent=2)

In [7]:
process_json_file("./data/merged_resumes.json", "./data/updated_merged_resumes.json")

In [19]:
import time

from tqdm import tqdm


# попытка использвать gpt4free - неудачная
def process_json_element(client, element):
    content = f"Ты человек, о котором известно следующее {str(json.dumps(element))}, ты пришел на IT конференцию, где хочешь найти новые знакомста. На основе информации о себе, придумай себе хобби и увлечения и напиши краткий неформальный рассказ о себе от первого лица в 3-4 предложениях, старайся не повторять информацию из описания и отвечай на русском."
    response = client.chat.completions.create(
        model="gpt-3.5-turbo",
        messages=[{"role": "user", "content": content}],
    )
    time.sleep(10)
    return response


def update_json_list(client, json_list):
    updated_list = []
    for item in tqdm(json_list):
        response = process_json_element(client, item)
        item["about_me"] = response.choices[0].message.content
        updated_list.append(item)
    return updated_list

In [20]:
from g4f.client import Client

client = Client()

with open("./data/updated_merged_resumes.json", "r", encoding="utf-8") as infile:
    data = json.load(infile)[:10]
updated_json = update_json_list(client, data)
with open("./data/test_about_me.json", "w", encoding="utf-8") as outfile:
    json.dump(data, outfile, ensure_ascii=False, indent=4)

  self._context.run(self._callback, *self._args)
100%|██████████| 10/10 [02:29<00:00, 14.90s/it]


In [18]:
import google.generativeai as genai
import json
from tqdm import tqdm
from google.generativeai.types import GenerationConfig
import time

apiKey = ""
genai.configure(api_key=apiKey)

with open("./data/updated_merged_resumes.json", "r", encoding="utf-8") as infile:
    data = json.load(infile)

model = genai.GenerativeModel("gemini-1.5-pro")


def get_about_me(model, data):
    updated_data = []
    for d in tqdm(data):
        content = f"Ты человек, о котором известно следующее {str(json.dumps(d))}, ты пришел на IT конференцию, где хочешь найти новые знакомства. На основе информации о себе, придумай себе хобби и увлечения и напиши краткий неформальный рассказ о себе от первого лица в 3-4 предложениях, старайся не повторять информацию из описания и отвечай на русском. Также не здоровайся и не пиши, как тебя зовут."
        response = model.generate_content(
            content, GenerationConfig={"temperature": 1.8}
        ).text
        d["about_me"] = response
        updated_data.append(d)
        print(response)
        time.sleep(50)
    return updated_data


# updated_data = get_about_me(model, data)

updated_data = []
for d in tqdm(data):
    if "about_me" not in d.keys():
        print(d["index"])
        content = f"Ты человек, о котором известно следующее {str(json.dumps(d))}, ты пришел на IT конференцию, где хочешь найти новые знакомста. На основе информации о себе, придумай себе интересное хобби и увлечения и напиши краткий рассказ о себе от первого лица в 3-4 предложениях, старайся не повторять информацию из описания и отвечай на русском. Хобби можешь выбрать любые от вязания до прыжков с парашутом, но не фотографию, это слишком заезжено. Также не здоровайся и не пиши, как тебя зовут."
        try:
            response = model.generate_content(content).text
            d["about_me"] = response
            print(f"'about_me': '{response}',")
            time.sleep(40)
        except:
            with open("./data/with_about_me.json", "w", encoding="utf-8") as outfile:
                json.dump(updated_data, outfile, ensure_ascii=False, indent=4)
            new_data_dict = {item["index"]: item for item in updated_data}
            # Обновляем старый JSON, добавляя новое поле из нового JSON по совпадению index
            for obj in data:
                index = obj["index"]
                if index in new_data_dict:
                    obj.update(new_data_dict[index])
            with open(
                "./data/updated_merged_resumes.json", "w", encoding="utf-8"
            ) as outfile:
                json.dump(data, outfile, ensure_ascii=False, indent=4)
            break
    else:
        pass
    updated_data.append(d)

  0%|          | 0/200 [00:00<?, ?it/s]

180
'about_me': 'В свободное от анализа данных время я увлекаюсь домашним мыловарением. Меня завораживает сам процесс создания ароматов и форм, а результат радует не только меня, но и моих близких. Всегда открыта к новым знакомствам и обмену опытом, особенно в IT-сфере и, возможно, найду единомышленников в мире ароматов. 
',


 90%|█████████ | 181/200 [00:44<00:04,  4.10it/s]

181
'about_me': 'В свободное время я увлекаюсь скалолазанием, получаю удовольствие от преодоления сложных маршрутов и работы над техникой.  Обожаю походы и вылазки на природу с палатками, где можно отдохнуть от городской суеты и насладиться тишиной. Открыта к новым знакомствам и интересным беседам, особенно на тему IT и экологии. 
',


 91%|█████████ | 182/200 [01:27<00:10,  1.71it/s]

182
'about_me': 'В свободное от финансовых моделей время я увлекаюсь сценическим фехтованием — динамика и умение мыслить стратегически важны не только в бизнесе.  Нравится разбираться в тонкостях исторических техник боя, а еще это отличный способ выплеснуть энергию. Интересуюсь IT-сферой, особенно  Big Data и аналитикой — вижу большой потенциал на стыке технологий и финансов. Всегда рад новым знакомствам и интересным проектам!
',


 92%|█████████▏| 183/200 [02:11<00:18,  1.06s/it]

183
'about_me': 'Помимо работы с данными и погружения в мир VBA, увлекся столярным делом – создаю своими руками необычные предметы мебели.  В свободное время люблю выбираться на природу с палаткой, подальше от городской суеты.  На этой конференции надеюсь пообщаться с интересными людьми и узнать о последних трендах в IT-сфере. 
',


 92%|█████████▏| 184/200 [02:55<00:27,  1.73s/it]

184
'about_me': 'Я увлекаюсь моделированием и постройкой радиоуправляемых самолётов.  Это требует не только  терпения и внимания к деталям, но и глубоких технических знаний. Свободное время люблю проводить на свежем воздухе, запуская свои модели  -  адреналин и восторг  гарантированы!  Всегда рад пообщаться с единомышленниками  и узнать что-то новое в IT сфере. 
',


 92%|█████████▎| 185/200 [03:41<00:40,  2.70s/it]

185
'about_me': 'В свободное от цифр и аналитики время я увлекаюсь столярным делом - создаю своими руками мебель и предметы интерьера.  Нахожу в этом занятии медитативное спокойствие и отдушину от интеллектуального труда.  Открыт к новым знакомствам и интересным проектам,  особенно в области Big Data и машинного обучения. 
',


 93%|█████████▎| 186/200 [04:25<00:55,  3.95s/it]

186
'about_me': 'Я финансовый аналитик с солидным опытом, но в последнее время увлекся миром крафтового пивоварения.  Варить собственное пиво оказалось увлекательнее, чем строить финансовые модели, да и дегустировать результаты с друзьями гораздо приятнее, чем анализировать биржевые сводки. Всегда рад пообщаться с людьми, увлеченными своим делом, и узнать что-то новое. 
',


 94%|█████████▎| 187/200 [05:10<01:12,  5.61s/it]

187
'about_me': 'В свободное от работы с данными время увлекаюсь  пилотированием дронов -  создаю  необычные кадры  и даже участвую в любительских гонках. Всегда  открыт  к  новым  знакомствам  с  интересными  людьми, особенно  с  теми, кто  разбирается в IT-сфере и готов обсуждать  последние  тренды.  Возможно,  вместе мы придумаем новый  захватывающий проект! 
',


 94%|█████████▍| 188/200 [05:55<01:33,  7.81s/it]

188
'about_me': 'В свободное от анализа данных время я увлекаюсь астрономией. Собрал дома небольшой телескоп, чтобы наблюдать за звездным небом, и пытаюсь вникнуть в астрофотографию, но пока получается не очень. Еще люблю готовить, особенно блюда азиатской кухни, экспериментирую с рецептами и специями. Всегда рад пообщаться с интересными людьми и обменяться опытом, как в науке о данных, так и за ее пределами. 
',


 94%|█████████▍| 189/200 [06:40<01:56, 10.57s/it]

189
'about_me': 'В свободное время люблю отвлечься от цифр и покорить очередную вершину – благо, увлекаюсь скалолазанием.  Недавно вот вернулся из Киргизии, покорял Тянь-Шань.  Сейчас ищу интересные возможности  для применения своего аналитического опыта в IT-сфере – возможно,  смогу оптимизировать логистику для альпинистских экспедиций. А пока изучаю иностранный язык,  чтобы  свободно общаться с коллегами по скалолазанию со всего мира. 
',


 95%|█████████▌| 190/200 [07:26<02:19, 13.95s/it]

190
'about_me': 'В свободное время я увлекаюсь скетчингом - обожаю схватывать на лету интересные образы и архитектурные детали.  Еще меня очень вдохновляют путешествия, особенно по странам с богатой историей и культурой.  Стараюсь совмещать приятное с полезным, поэтому с удовольствием посещаю  IT конференции, чтобы быть в курсе последних трендов и, конечно же,  знакомиться с интересными людьми. 
',


 96%|█████████▌| 191/200 [08:10<02:37, 17.54s/it]

191
'about_me': 'Увлекаюсь игрой на гитаре, уже несколько лет как собрал свою группу и мы даже даем небольшие концерты. В свободное время учусь готовить экзотические блюда, особенно азиатской кухни, и экспериментирую с острыми специями. Всегда открыт к новым знакомствам и интересным проектам, где смогу применить свой аналитический склад ума и креативность. 
',


 96%|█████████▌| 192/200 [08:54<02:51, 21.40s/it]

192
'about_me': 'В свободное время я увлекаюсь астрономией – звёздное небо завораживает, а изучение созвездий и туманностей стало для меня настоящей страстью. Всегда рад обсудить последние открытия в космосе или подискутировать о теориях возникновения Вселенной. Люблю решать сложные задачи и добиваться поставленных целей, командная работа в этом – моя сильная сторона. 
',


 96%|█████████▋| 193/200 [09:37<02:56, 25.18s/it]

193
'about_me': 'В свободное время я люблю  играть в страйкбол - это отличная возможность выплеснуть адреналин и попрактиковаться в тактическом мышлении. Еще увлекаюсь моделированием кораблей -  работа с мелкими деталями успокаивает и помогает отвлечься от цифр и баз данных, которыми занимаюсь на работе.  На конференцию пришел, чтобы быть в курсе последних трендов в IT и, конечно, пообщаться с интересными людьми. 
',


 97%|█████████▋| 194/200 [10:21<02:53, 28.88s/it]

194
'about_me': 'Я аналитик с большим опытом, но в свободное время люблю отключать голову и ухожу в мастерскую - реставрирую старую мебель.  Нахожу удовольствие в возвращении красоты вещам, пережившим свою историю. Интересуюсь новыми технологиями, уверен, на конференции найду единомышленников и интересные дискуссии. 
',


 98%|█████████▊| 195/200 [11:04<02:39, 31.97s/it]

195
'about_me': 'В свободное от анализа данных время я увлекаюсь скалолазанием -  обожаю преодолевать себя и искать нестандартные решения. Этот спорт, как и моя работа, требует собранности, аналитического склада ума и умения работать в команде. Всегда рада пообщаться с единомышленниками и узнать о новых интересных проектах в сфере IT. 
',


 98%|█████████▊| 196/200 [11:47<02:18, 34.72s/it]

196
'about_me': 'В свободное от формул и алгоритмов время я увлекаюсь скалолазанием -  обожаю чувствовать адреналин и преодолевать себя.  Увлекаюсь  джазом, особенно импровизациями,  и даже  пытаюсь  освоить саксофон.  Всегда  открыта  новому  знакомству и  интересному  разговору. 
',


 98%|█████████▊| 197/200 [12:30<01:50, 36.77s/it]

197
'about_me': 'В свободное от анализа финансовых рынков время я увлекаюсь астрономией. Часами могу рассматривать звездное небо, а недавно даже начал осваивать астрофотографию, чтобы запечатлеть увиденное. Пришел на конференцию, чтобы познакомиться с интересными людьми, узнать о последних новинках в мире IT и, возможно, найти новые идеи для своих астрономических изысканий. 
',


 99%|█████████▉| 198/200 [13:15<01:17, 38.90s/it]

198
'about_me': 'В свободное время я увлекаюсь игрой на барабанах – это отличный способ снять стресс после анализа данных и поиска новой работы. Обожаю джаз и фанк, а еще иногда собираюсь с друзьями и мы импровизируем, придумывая свои собственные мелодии.  Кстати, сейчас изучаю Python, хочу автоматизировать некоторые процессы в своей работе. 
',


100%|█████████▉| 199/200 [14:31<00:49, 49.07s/it]

199
'about_me': 'В свободное время я увлекаюсь астрономией - космос всегда манил своей неизведанностью, поэтому по вечерам частенько можно застать меня с телескопом на крыше. А еще я учусь играть на укулеле - маленькой, но такой звонкой гавайской гитаре. Это помогает расслабиться после рабочего дня и создает уютную атмосферу.  Всегда рада новым знакомствам и интересным беседам! 
',


100%|██████████| 200/200 [15:15<00:00,  4.58s/it]


In [20]:
with open("./data/with_about_me.json", "w", encoding="utf-8") as outfile:
    json.dump(updated_data, outfile, ensure_ascii=False, indent=4)
new_data_dict = {item["index"]: item for item in updated_data}
# Обновляем старый JSON, добавляя новое поле из нового JSON по совпадению index
for obj in data:
    index = obj["index"]
    if index in new_data_dict:
        obj.update(new_data_dict[index])
with open("./data/updated_merged_resumes.json", "w", encoding="utf-8") as outfile:
    json.dump(data, outfile, ensure_ascii=False, indent=4)

# 2 часть

In [2]:
import google.generativeai as genai
import json
from tqdm import tqdm
from google.generativeai.types import GenerationConfig
import time

# часть, где где генериться about_target

  from .autonotebook import tqdm as notebook_tqdm


In [2]:
with open("./data/resumes.json", "r", encoding="utf-8") as infile:
    data = json.load(infile)

data[0]

{'index': 0,
 'position': 'Data Scientist',
 'age': '28',
 'gender': 'Мужчина',
 'job_search_status': 'Не ищет работу',
 'about': 'Разработка систем на основе машинного обучения:  1. Идентификация и верификация человека по лицу  2. Распознавание номеров автомобилей и их классов  3. Распознавание опасных предметов на рентгеновских снимках багажа.  4. Чат бот для банка  5. Разработка предиктовых моделей, для оптимизации бизнеса',
 'jobs': ['Data Scientist: Отдел разработки'],
 'tags': ['машинное обучение',
  'Python',
  'Mac Os',
  'нейронные сети',
  'технический английский',
  'machine learning',
  'Data Analysis',
  'computer vision',
  'Linux'],
 'education': ['Национальный исследовательский ядерный университет "МИФИ", Москва: ИЯФИТ , Ядерная физика и технологии',
  'НИЯУ МИФИ: Mail.ru Group , Базовый курс по нейронным сетям'],
 'link': 'https://hh.ru/resume/33633ae90004689b730039ed1f507746394b34',
 'about_me': 'В свободное время люблю покопаться с Arduino и всякими датчиками, смасте

In [5]:
content = f"""Перед тобой описание человека со следующей анкетой: {str(json.dumps(data[1]))}. Выдели главную информацию из этого описания, обращая 
    внимание на детали, а не общую информацию (например, просто увлекается ML не подходит), и опиши его 1-2 предложениями в формате 'Я ищу человека ...' 
    либо похожее перефразирование начала. Не указывай пол и возраст. Либо больше сосредоточься на профессиональных сторонах и навыках, либо укажи его 
    интересы, о которых бы хотел поговорить. Придумай причину, почему бы ты искал такого человека"""
# GenerationConfig={"temperature": 1.8}
response = model.generate_content(content).text
response

'Я ищу человека, увлечённого data science, который не только строит модели на основе алгоритмов для решения бизнес-задач, но и глубоко погружается в мир настольных игр. Было бы интересно обменяться опытом в применении data science для анализа игровых стратегий и механик. \n'

In [3]:
updated_data = []

In [12]:
apiKey = ""
genai.configure(api_key=apiKey)
model = genai.GenerativeModel("gemini-1.5-flash")

In [None]:
for d in tqdm(data[15:]):
    content = f"""Перед тобой описание человека со следующей анкетой: {str(json.dumps(d))}. Выдели главную информацию из этого описания, обращая 
    внимание на детали, не указывай общую информацию (например, просто увлекается машинным обучением не подходит), и опиши его 1-2 предложениями в формате 
    'Я ищу человека ...'. 
    Не указывай пол и возраст. Либо больше сосредоточься на профессиональных сторонах, навыках и умениях, либо укажи его 
    интересы, о которых бы хотел поговорить. Придумай причину, почему бы ты искал такого человека"""
    try:
        response = model.generate_content(content).text
        updated_data.append({"index": d["index"], "about_target": response})
        print(f"{d["index"]}: {response}")
        time.sleep(20)
    except:
        with open("./data/targets_1.json", "w", encoding="utf-8") as f:
            json.dump(updated_data, f, ensure_ascii=False, indent=4)
        print("stopssss")
        break

In [15]:
with open("./data/targets_1.json", "w", encoding="utf-8") as f:
    json.dump(updated_data, f, ensure_ascii=False, indent=4)

# Часть 3

In [9]:
# часть, где добавляю about_target в датасет и создаю json для метрик
with open("./data/main_resumes.json", "r", encoding="utf-8") as f:
    data = json.load(f)
with open("./data/targets.json", "r", encoding="utf-8") as f:
    targets = json.load(f)
for d in data:
    d["about_target"] = targets[199 - d["index"]]["about_target"]


with open("./data/main_resumes.json", "w", encoding="utf-8") as f:
    json.dump(data, f, ensure_ascii=False, indent=4)


In [37]:
import json

# Пример двух JSON-объектов
with open("./data/targets.json", "r", encoding="utf-8") as f:
    json1 = json.load(f)

with open("./data/resumes.json", "r", encoding="utf-8") as f:
    json2 = json.load(f)

# Создаем словарь, где ключом будет index
combined_data = {}

# Обрабатываем первый JSON
for item in json1:
    index = item["index"]
    if index not in combined_data:
        combined_data[index] = {}
    combined_data[index].update(item)

# Обрабатываем второй JSON
for item in json2:
    index = item["index"]
    if index not in combined_data:
        combined_data[index] = {}
    combined_data[index].update(item)

# Преобразуем словарь обратно в список
result = list(combined_data.values())

with open("./data/main_resumes.json", "w", encoding="utf-8") as f:
    json.dump(result, f, ensure_ascii=False, indent=4)

In [11]:
with open("./data/main_resumes.json", "r", encoding="utf-8") as f:
    json1 = json.load(f)
res = []

for el in json1:
    structure = {"index": el["index"], "pos": [199 - el["index"]], "neg": []}
    res.append(structure)

res = sorted(res, key=lambda x: x["index"])

with open("./data/for_metrics.json", "w", encoding="utf-8") as f:
    json.dump(res, f, ensure_ascii=False, indent=4)

# Часть 4

In [None]:
# часть, где происходит разметка

# что мне нужно:
# для каждого индекса взять about_target
# пройтись по всем остальным индексам (дропая about_target)
# спросить, подходит ли анкета под описание
# если да - добавляем индекс в pos, иначе - в neg

# для каждого в конце выводим получившееся
# добавляем в новый json


In [3]:
with open("./data/main_resumes.json", "r", encoding="utf-8") as infile:
    data = json.load(infile)

data[0]

{'index': 0,
 'about_target': 'Я ищу человека, обладающего опытом в сфере продаж и аналитики, особенно в области прогнозирования продаж и сбора данных. Он/она свободно владеет английским языком на уровне Intermediate, а также имеет опыт работы с различными системами, в том числе  AReS, TRAX, Sales Works, Power BI и SAP Business Objects. Кроме того, он/она имеет инженерное образование и опыт работы с CAD-программами, такими как AutoCAD, Mathcad, Creo Elements/Pro и SolidWorks.  Мне необходим такой человек для участия в проекте по разработке системы прогнозирования продаж для нашей компании. \n',
 'position': 'Data Scientist',
 'age': '28',
 'gender': 'Мужчина',
 'job_search_status': 'Не ищет работу',
 'about': 'Разработка систем на основе машинного обучения:  1. Идентификация и верификация человека по лицу  2. Распознавание номеров автомобилей и их классов  3. Распознавание опасных предметов на рентгеновских снимках багажа.  4. Чат бот для банка  5. Разработка предиктовых моделей, для о

In [5]:
apiKey = "AIzaSyABAam7g4JebCJGcR6fs4KwnQbmTMkP-mk"
# AIzaSyBfXcxNI-URP-otgVGg3JSv2VAK9nVYwHE (kaggle) -----
# "AIzaSyCSSvcmlWPhRh0fWjyI3HiREj0NQ6fkcR0" ------
# AIzaSyA7gljEaWVcgvXy9QBjl6GQieBruqquPl8 ----
# AIzaSyABAam7g4JebCJGcR6fs4KwnQbmTMkP-mk ------
genai.configure(api_key=apiKey)
model = genai.GenerativeModel("gemini-1.5-flash")

In [None]:
with open("./data/main_resumes.json", "r", encoding="utf-8") as infile:
    data = json.load(infile)
with open("./data/for_metrics.json", "r", encoding="utf-8") as infile:
    target = json.load(infile)

RESULT = []


def get_ans(model, about_target, element):
    el = element.copy()
    del el["about_target"]
    content = f"""Перед тобой описание человека, которого ищут: {about_target}, а так же анкета другого человека. 
    Анкета: {str(json.dumps(el, ensure_ascii=False))}. Подходит ли человек с такой анкетой
    под описание? Если этот человек хорошо подходит под описание, то верни в своем ответе 1, если нет, 
    то 0, и ничего больше."""
    # print(content)
    response = model.generate_content(content).text
    # print(response)
    return response


for i in tqdm(range(37, 40)):
    about_target = data[i]["about_target"]
    for d in data:
        ind = d["index"]
        if (ind == i) or (ind in target[i]["pos"]) or (ind in target[i]["neg"]):
            continue
        else:
            ans = get_ans(model, about_target, d)
            time.sleep(5)
            if "0" in ans:
                target[i]["neg"].append(ind)
            elif "1" in ans:
                target[i]["pos"].append(ind)
            else:
                print("некорректный ответ модели")
    print(target[i])
    RESULT.append(target[i])
    with open("./data/RESULT.json", "w", encoding="utf-8") as f:
        json.dump(RESULT, f, ensure_ascii=False, indent=4)
    RESULT

In [7]:
print(target[47])

{'index': 47, 'pos': [152], 'neg': [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105, 106, 107, 108, 109, 110, 111, 112, 113, 114, 115, 116, 117]}


In [25]:
target[40]

{'index': 40, 'pos': [159, 1, 2], 'neg': [0]}

# Часть 5 (Happy ending)

In [17]:
import ollama

In [35]:
with open("./data/main_resumes.json", "r", encoding="utf-8") as infile:
    data = json.load(infile)
with open("./data/for_metrics.json", "r", encoding="utf-8") as infile:
    target = json.load(infile)

RESULT = []


def get_ans(about_target, element):
    el = element.copy()
    del el["about_target"]
    content = f"""Перед тобой описание человека, которого ищут: {about_target}, а так же анкета другого человека. 
    Анкета: {str(json.dumps(el, ensure_ascii=False))}. Подходит ли человек с такой анкетой
    под описание? Если этот человек хорошо подходит под описание и между ними большинство совпадает, то верни в своем ответе 'Ответ: 1', 
    иначе 'Ответ: 0', и ничего больше."""
    response = ollama.chat(
        model="llama3:8b",
        messages=[
            {
                "role": "user",
                "content": content,
            },
        ],
    )
    response = response["message"]["content"]
    return response


for i in tqdm(range(92, 200)):
    about_target = data[i]["about_target"]
    for d in data:
        ind = d["index"]
        if (ind == i) or (ind in target[i]["pos"]) or (ind in target[i]["neg"]):
            continue
        else:
            ans = get_ans(about_target, d)
            # print(ans)
            if "0" in ans:
                target[i]["neg"].append(ind)
            elif "1" in ans:
                target[i]["pos"].append(ind)
            else:
                target[i]["pos"].append(ind)
                print(ind, i, ans)
                print("некорректный ответ модели")
    # print(target[i])
    RESULT.append(target[i])
    with open("./data/RESULT.json", "w", encoding="utf-8") as f:
        json.dump(RESULT, f, ensure_ascii=False, indent=4)
    RESULT


  0%|          | 0/108 [00:00<?, ?it/s]

 48%|████▊     | 52/108 [2:48:50<2:59:39, 192.49s/it]

90 144 В ответе!
некорректный ответ модели


 54%|█████▎    | 58/108 [3:08:23<2:37:25, 188.90s/it]

39 150 The person's profile matches the description quite well.

The description asks for someone with experience in Data Science, Python, Pandas, Matplotlib, SQL, Power BI, and R, as well as knowledge of machine learning techniques such as A/B-testing, PCA, SVD, t-SNE, and XGBoost. The person's profile mentions:

* Experience with Python, Pandas, Sklearn, MatPlotLib, Seaborn, CatBoost, xgboost
* Knowledge of SQL (query level)
* Familiarity with machine learning techniques such as A/B-testing, Gradient Boosting, LightGBM

The description also asks for someone who has experience working with various industries, and the person's profile mentions work experience in banking, metalworking, and trade companies.

Therefore, I would say that this person is a good match for the description.
некорректный ответ модели


 72%|███████▏  | 78/108 [4:13:28<1:49:27, 218.93s/it]

141 170 В ответе.

Человек с анкетой не подходит описанию. Он Backend-разработчик, а описание ищет Data Scientist'а, исследователя и специалиста по автоматизации бизнес-процессов в сфере digital advertising. Хотя оба человека имеют опыт работы на высоком уровне, их области деятельности и навыки не совпадают.
некорректный ответ модели


100%|██████████| 108/108 [5:57:25<00:00, 198.57s/it] 


In [29]:
print(RESULT)

[{'index': 47, 'pos': [152, 118, 119, 121, 122, 123, 124, 126, 127, 128, 130, 132, 133, 136, 137, 138, 140, 142, 145, 146, 147, 148, 149, 150, 151, 153, 155, 156, 157, 158, 160, 161, 162, 163, 164, 165, 166, 167, 168, 170, 173, 174, 175, 179, 181, 182, 183, 184, 185, 187, 189, 190, 191, 192, 193, 194, 195, 196, 197, 198, 199], 'neg': [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105, 106, 107, 108, 109, 110, 111, 112, 113, 114, 115, 116, 117, 120, 125, 129, 131, 134, 135, 139, 141, 143, 144, 154, 159, 169, 171, 172, 176, 177, 178, 180, 186, 188]}, {'index': 48, 'pos': [151, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15,

In [30]:
with open("./data/RESULT.json", "w", encoding="utf-8") as f:
    json.dump(RESULT, f, ensure_ascii=False, indent=4)


In [31]:
tmp = {
    "index": 88,
    "pos": [
        111,
        0,
        1,
        2,
        3,
        4,
        5,
        7,
        8,
        9,
        10,
        11,
        12,
        13,
        14,
        15,
        16,
        18,
        19,
        20,
        21,
        22,
        23,
        24,
        25,
        26,
        27,
        28,
        29,
        30,
        31,
        32,
        33,
        34,
        35,
        36,
        37,
        39,
        40,
        41,
        42,
        43,
        44,
        45,
        46,
        47,
        48,
        49,
        50,
        52,
        55,
        56,
        57,
        58,
        59,
        60,
        62,
        63,
        65,
        66,
        68,
        69,
        70,
        71,
        72,
        73,
        74,
        79,
        80,
        81,
        83,
        84,
        85,
        86,
        87,
        89,
        96,
        97,
        98,
        100,
        101,
        102,
        103,
        104,
        105,
        106,
        107,
        108,
        109,
        112,
        113,
        114,
        115,
        116,
        117,
        118,
        119,
        121,
        122,
        123,
        124,
        125,
        127,
        128,
        131,
        132,
        133,
        134,
        135,
        136,
        137,
        138,
        139,
        140,
        141,
        142,
        143,
        144,
        145,
        146,
        147,
        148,
        149,
        150,
        153,
        157,
        158,
        159,
        160,
        161,
        162,
        163,
        165,
        166,
        170,
        174,
        175,
        179,
        182,
        185,
        187,
        189,
        191,
        195,
        196,
        198,
    ],
    "neg": [
        6,
        17,
        38,
        51,
        53,
        54,
        61,
        64,
        67,
        75,
        76,
        77,
        78,
        82,
        90,
        91,
        92,
        93,
        94,
        95,
        99,
        120,
        126,
        129,
        130,
        151,
        152,
        154,
        155,
        156,
        164,
        167,
        168,
        169,
        171,
        172,
        173,
        176,
        177,
        178,
        180,
        181,
        183,
        184,
        186,
        188,
        190,
        192,
        193,
        194,
        197,
        199,
    ],
}
len(tmp["pos"] + tmp["neg"])


198

In [34]:
tmp_all = tmp["pos"] + tmp["neg"]
tmp_all.sort()
print(tmp_all)


[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105, 106, 107, 108, 109, 111, 112, 113, 114, 115, 116, 117, 118, 119, 120, 121, 122, 123, 124, 125, 126, 127, 128, 129, 130, 131, 132, 133, 134, 135, 136, 137, 138, 139, 140, 141, 142, 143, 144, 145, 146, 147, 148, 149, 150, 151, 152, 153, 154, 155, 156, 157, 158, 159, 160, 161, 162, 163, 164, 165, 166, 167, 168, 169, 170, 171, 172, 173, 174, 175, 176, 177, 178, 179, 180, 181, 182, 183, 184, 185, 186, 187, 188, 189, 190, 191, 192, 193, 194, 195, 196, 197, 198, 199]
