In [13]:
import pandas as pd
import requests
import json

In [74]:
model = '/models/Qwen3-30B-A3B-Instruct-2507-FP8'
url = 'https://10.44.123.3/qwen30-fp8/v1/chat/completions'

def call_llm(model, url, sys_prompt, user_prompt):
    payload = {
                "model": model,
                "messages": [
                    {"role": "system", "content": sys_prompt},
                    {"role": "user", "content": user_prompt},
                ],
                "temperature": 0.1,
                "stream": False,
                "chat_template_kwargs": {"enable_thinking": False},
            }
    url = url
    response = requests.post(url=url, json=payload, verify=False, timeout=30).json()
    resp = response['choices'][0]['message']['content']
    return resp

In [14]:
with open('1_VOP.md', encoding='utf8') as file:
    text = file.read()

In [None]:
# парсим файл с вопросно-ответными парами
lines = text.split('\n')

text_data = []

current_question = None
current_answer = []

for line in lines:
    if line.startswith('## '):
        if current_question is not None:
            text_data.append([current_question, ' '.join(current_answer)])
            current_answer = []
        current_question = line[3:].strip()
    else:
        current_answer.append(line.strip())

if current_question is not None:
    text_data.append([current_question, ' '.join(current_answer)])
text_data
# df = pd.DataFrame(text_data[:10], columns=['Вопрос', 'Ответ'])
# df

In [None]:
# делаем из ВОП словари с дубликатами ответов и уникальными ответами
from collections import defaultdict

def group_by_identical_answers(text_data: list):
    """
    На входе список списков, каждый маленький список - вопрос + ответ
    На выходе:
        duplicates: dict {answer: [question1, question2, ...]} для ответов, которые соответствуют >1 вопросу
        unique: список [[question, answer]] для уникальных ответов
    """
    def normalize_answer(answer):
        return ' '.join(answer.strip().split())
    
    answer_groups = defaultdict(list)
    
    for question, answer in text_data:
        norm_answer = normalize_answer(answer)
        answer_groups[norm_answer].append({
            'question': question,
            'original_answer': answer  
        })
    
    # Разделение на группы
    duplicate_qa_groups = []
    unique_qa_pairs = []
    
    for norm_answer, items in answer_groups.items():
        if len(items) > 1:
            duplicate_qa_groups.append({
                'answer': norm_answer,
                # 'original_answer': items[0]['original_answer'],  # Берём первый оригинальный ответ
                'questions': [item['question'] for item in items],
                # 'count': len(items),
                # 'raw_items': items  # Все оригинальные данные
            })
        else:
            unique_qa_pairs.append([items[0]['question'], items[0]['original_answer']])
    
    return duplicate_qa_groups, unique_qa_pairs

# Использование
duplicate_groups, unique_pairs = group_by_identical_answers(text_data)

# Статистика
print(f"Всего пар: {len(text_data)}")
print(f"Уникальных ответов: {len(unique_pairs)}")
print(f"Групп с одинаковыми ответами: {len(duplicate_groups)}")


Всего пар: 843
Уникальных ответов: 416
Групп с одинаковыми ответами: 60


## Работа с дубликатами

In [51]:
duplicate_groups

[{'answer': 'Добрый день! Информируем, что за изменение ВРИ на виды предусматривающие жилищное строительство взимается плата, размер которой определяется в соответствии с Постановлением Правительства Московской области от 31.12.2013 №1190/57. Первоначально необходимо обратиться за услугой "Предоставление расчета размера платы за изменение ВРИ земельного участка". Ссылка на услугу – "https://uslugi.mosreg.ru/services/21663" . Далее, после оплаты Вам необходимо обратиться в Управление Федеральной службы государственной регистрации, кадастра и картографии по Московской области (Росреестр), посредством обращения в любой центр государственных и муниципальных услуг "Мои документы" на территории Московской области за изменением вида разрешенного использования земельного участка.',
  'questions': ['Добрый день! Приводим в соответствие сведения о ВРИ на з/у общего пользования в СНТ(к.н 50:26:0180417:101) Просим пояснить: будет ли начислена плата как за изменение ВРИ при обращении за государстве

In [62]:
sys_prompt = '''
Ты получаешь на вход группу вопросов с одинаковым ответом.

Структура входных данных:
{
  "answer": "универсальный ответ на все вопросы",
  "questions": ["список вопросов"]
}

Твоя задача:
ШАГ 1: Определи общую тему всех вопросов (максимум 3 слова)
ШАГ 2: Сгруппируй вопросы по подтемам. Для каждой группы выдели:
- Название подтемы
- Количество вопросов
- Что объединяет эти вопросы
ШАГ 3: Создай эталонные вопросы для каждой подтемы на основе исходных вопросов (до 3 вопросов на подтему)

ФОРМАТ ОТВЕТА - ТОЛЬКО чистый JSON:
{
  "analysis": {
    "general_topic": "общая тема всех вопросов (1-2 слова)",
    "answer": "оригинальный универсальный ответ"
  },
  "themes": [
    {
      "theme_name": "Название тематики",
      "question_count": число,
      "description": "Краткое описание (что объединяет эти вопросы)",
      "canonical_questions": ["созданные эталонные вопросы (1-5 штук)"],
    }
  ],
}

ВАЖНЫЕ ПРАВИЛА:
1. Ответ ТОЛЬКО в этом JSON-формате, без пояснений
2. canonical_questions должны быть четкими, без конкретных имён/дат/адресов
3. Если вопросы очень похожи, можно оставить 1-2 эталонных
4. Общая тема (general_topic) должна быть краткой
'''

In [63]:
# анализируем дубликаты
duplicate_lst = []
for elem in duplicate_groups:
    user_prompt = f'Группа вопросов: {elem}'
    resp = call_llm(model, url, sys_prompt, user_prompt)
    duplicate_lst.append(resp)
duplicate_lst



['{\n  "analysis": {\n    "general_topic": "изменение ВРИ",\n    "answer": "Добрый день! Информируем, что за изменение ВРИ на виды предусматривающие жилищное строительство взимается плата, размер которой определяется в соответствии с Постановлением Правительства Московской области от 31.12.2013 №1190/57. Первоначально необходимо обратиться за услугой \\"Предоставление расчета размера платы за изменение ВРИ земельного участка\\". Ссылка на услугу – \\"https://uslugi.mosreg.ru/services/21663\\" . Далее, после оплаты Вам необходимо обратиться в Управление Федеральной службы государственной регистрации, кадастра и картографии по Московской области (Росреестр), посредством обращения в любой центр государственных и муниципальных услуг \\"Мои документы\\" на территории Московской области за изменением вида разрешенного использования земельного участка."\n  },\n  "themes": [\n    {\n      "theme_name": "Процедура изменения ВРИ",\n      "question_count": 28,\n      "description": "Вопросы, каса

In [64]:
# придаем ответу вид JSONа
import re
from typing import Any, Optional

def clean_and_parse_json(json_like_string: str) -> Optional[Any]:
    """
    Очищает и парсит строку, похожую на JSON, даже с проблемами.
    Обрабатывает:
    - Строки внутри списков Python ['{...}']
    - Проблемы с экранированием кавычек
    - Лишние символы
    """
    if not json_like_string:
        return None
    
    # Если это список Python, извлекаем первый элемент
    if json_like_string.startswith('[') and json_like_string.endswith(']'):
        try:
            # Безопасно извлекаем содержимое
            match = re.search(r'\[(.*)\]', json_like_string, re.DOTALL)
            if match:
                json_like_string = match.group(1).strip()
        except:
            pass
    
    # Убираем возможные лишние кавычки в начале/конце
    json_like_string = json_like_string.strip()
    if json_like_string.startswith("'") and json_like_string.endswith("'"):
        json_like_string = json_like_string[1:-1]
    elif json_like_string.startswith('"') and json_like_string.endswith('"'):
        json_like_string = json_like_string[1:-1]
    
    # Исправляем двойное экранирование (\\")
    # Заменяем \\" на \"
    json_like_string = re.sub(r'\\\\"', r'\\"', json_like_string)
    
    # Убираем лишние обратные слэши перед кавычками
    json_like_string = re.sub(r'\\+(")', r'\\\1', json_like_string)
    
    # Пробуем распарсить
    try:
        return json.loads(json_like_string)
    except json.JSONDecodeError as e:
        # Пробуем исправить наиболее частые ошибки
        print(f"Первая попытка не удалась: {e}")
        
        # Исправляем незакрытые кавычки в длинных строках
        # Находим все строки в JSON и проверяем их
        try:
            # Убираем проблемные символы
            json_like_string = re.sub(r'([^\\])"([^\\])"', r'\1"\2"', json_like_string)
            
            # Пробуем снова
            return json.loads(json_like_string)
        except json.JSONDecodeError:
            # Последняя попытка: находим JSON объект в строке
            match = re.search(r'\{.*\}', json_like_string, re.DOTALL)
            if match:
                try:
                    return json.loads(match.group())
                except:
                    pass
    
    return None

cleaned_duplicate_list = []
for elem in duplicate_lst:
    cleaned_json = clean_and_parse_json(elem)
    cleaned_duplicate_list.append(cleaned_json)

cleaned_duplicate_list

Первая попытка не удалась: Expecting ',' delimiter: line 4 column 666 (char 740)
Первая попытка не удалась: Expecting ',' delimiter: line 4 column 401 (char 475)
Первая попытка не удалась: Expecting ',' delimiter: line 4 column 269 (char 352)


[{'analysis': {'general_topic': 'изменение ВРИ',
   'answer': 'Добрый день! Информируем, что за изменение ВРИ на виды предусматривающие жилищное строительство взимается плата, размер которой определяется в соответствии с Постановлением Правительства Московской области от 31.12.2013 №1190/57. Первоначально необходимо обратиться за услугой "Предоставление расчета размера платы за изменение ВРИ земельного участка". Ссылка на услугу – "https://uslugi.mosreg.ru/services/21663" . Далее, после оплаты Вам необходимо обратиться в Управление Федеральной службы государственной регистрации, кадастра и картографии по Московской области (Росреестр), посредством обращения в любой центр государственных и муниципальных услуг "Мои документы" на территории Московской области за изменением вида разрешенного использования земельного участка.'},
  'themes': [{'theme_name': 'Процедура изменения ВРИ',
    'question_count': 28,
    'description': 'Вопросы, касающиеся последовательности действий, порядка подачи

In [None]:
# lst = []
# for _, row in df.iterrows():
#     sys_prompt = '''
#     Ты получаешь на вход строку pandas датафрейма. 
#     Строка в первом столбце датафрейма - вопрос, который задает пользователь.
#     Строка во втором столбце датафрейма - ответ, который дается на вопрос пользователя.
#     Твоя задача - проанализировать вопрос и данный на него ответ и оценить его по критериям релевантности и полноты.
#     Если ответ релевантный и полный, оставь его в неизменном виде.
#     Если ответ нерелевантный, перепиши его, чтобы он лучше соответствовал вопросу. Можешь использовать свои знания.
#     Если ответ повторяется, посмотри на удаляемые вопросы. Составь один общий вопрос, для которого подходит повторяющийся ответ. Остальные удали.
#     '''
#     user_prompt = f'Строка датафрейма: {row}'
#     resp = call_llm(model=model, url=url, sys_prompt=sys_prompt, user_prompt=user_prompt)
#     lst.append(resp)

# lst



## Работа с уникальными парами

In [71]:
unique_pairs

[['Добрый день При заполнении услуги на последнем шаге требуется СОГЛАСИЕ СОБСТВЕННИКА ЗЕМЕЛЬНОГО УЧАСТКА НА УСТАНОВЛЕНИЕ СООТВЕТСТВИЯ ВИДА РАЗРЕШЕННОГО ИСПОЛЬЗОВАНИЯ ЗЕМЕЛЬНОГО УЧАСТКА, без которого невозможно перейти на последний шаг НО! В описании услуги в вопросах-ответах есть требование к документам: Согласие собственника(-ов) земельного участка на установление соответствия вида разрешенного использования земельного участка (в случае, если с заявлением обращается правообладатель, не являющийся собственником этого земельного участка); Я являюсь собственником (не представителем) участка Мне необходимо нотариально заверять заявление или возможно обойтись без этого или возможно ли сделать этот пункт при заполнении необязательным? Спасибо',
  'Добрый день! Если у вас высвечивается данный документ как обязательный, скорее всего вы ответили "да" на вопрос "ЗЕМЕЛЬНЫЙ УЧАСТОК НАХОДИТСЯ У ЗАЯВИТЕЛЯ В АРЕНДЕ/БЕЗВОЗМЕЗДНОМ ПОЛЬЗОВАНИИ/ПОСТОЯННОМ (БЕССРОЧНОМ) ПОЛЬЗОВАНИИ?" или "ЗЕМЕЛЬНЫЙ УЧАСТ

In [78]:
sys_prompt_unique = '''
Ты анализируешь ответы, данные на пользовательские вопросы.

ИНСТРУКЦИЯ:
- Оцени пару "вопрос-ответ" по критериям ниже
- Прими решение: оставить ответ, улучшить ответ, переписав его, или удалить ответ

КРИТЕРИИ ОЦЕНКИ:
- Полнота: отвечает ли на вопрос полностью?
- Уместность: логично ли сочетание вопроса и ответа?

ФОРМАТ ОТВЕТА:
{
    'query': 'текст вопроса',
    'original_answer': 'текст исходного ответа',
    'assessment': 'оставить, переписать или удалить'
    'corrected_answer': 'переписанный ответ или текст исходного ответа, если решено оставить как есть или удалить'
}
'''

unique_pairs_lst = []
for elem in unique_pairs:
    query = elem[0]
    answer = elem[1]
    user_prompt_unique = f'Вопрос пользователя: {query}. Ответ: {answer}'
    res = call_llm(model, url, sys_prompt=sys_prompt_unique, user_prompt=user_prompt_unique)
    unique_pairs_lst.append(res)
    print(len(unique_pairs_lst))



1




2




3




4




5




6




7




8




9




10




11




12




13




14




15




16




17




18




19




20




21




22




23




24




25




26




27




28




29




30




31




32




33




34




35




36




37




38




39




40




41




42




43




44




45




46




47




48




49




50




51




52




53




54




55




56




57




58




59




60




61




62




63




64




65




66




67




68




69




70




71




72




73




74




75




76




77




78




79




80




81




82




83




84




85




86




87




88




89




90




91




92




93




94




95




96




97




98




99




100




101




102




103




104




105




106




107




108




109




110




111




112




113




114




115




116




117




118




119




120




121




122




123




124




125




126




127




128




129




130




131




132




133




134




135




136




137




138




139




140




141




142




143




144




145




146




147




148




149




150




151




152




153




154




155




156




157




158




159




160




161




162




163




164




165




166




167




168




169




170




171




172




173




174




175




176




177




178




179




180




181




182




183




184




185




186




187




188




189




190




191




192




193




194




195




196




197




198




199




200




201




202




203




204




205




206




207




208




209




210




211




212




213




214




215




216




217




218




219




220




221




222




223




224




225




226




227




228




229




230




231




232




233




234




235




236




237




238




239




240




241




242




243




244




245




246




247




248




249




250




251




252




253




254




255




256




257




258




259




260




261




262




263




264




265




266




267




268




269




270




271




272




273




274




275




276




277




278




279




280




281




282




283




284




285




286




287




288




289




290




291




292




293




294




295




296




297




298




299




300




301




302




303




304




305




306




307




308




309




310




311




312




313




314




315




316




317




318




319




320




321




322




323




324




325




326




327




328




329




330




331




332




333




334




335




336




337




338




339




340




341




342




343




344




345




346




347




348




349




350




351




352




353




354




355




356




357




358




359




360




361




362




363




364




365




366




367




368




369




370




371




372




373




374




375




376




377




378




379




380




381




382




383




384




385




386




387




388




389




390




391




392




393




394




395




396




397




398




399




400




401




402




ReadTimeout: HTTPSConnectionPool(host='10.44.123.3', port=443): Read timed out. (read timeout=30)

In [79]:
cleaned_unique_list = []
for elem in unique_pairs_lst:
    cleaned_unique_json = clean_and_parse_json(elem)
    cleaned_unique_list.append(cleaned_unique_json)

cleaned_unique_list

Первая попытка не удалась: Invalid control character at: line 5 column 387 (char 1309)
Первая попытка не удалась: Invalid control character at: line 5 column 59 (char 1382)
Первая попытка не удалась: Invalid control character at: line 5 column 494 (char 1021)
Первая попытка не удалась: Invalid control character at: line 5 column 373 (char 854)
Первая попытка не удалась: Expecting ',' delimiter: line 5 column 1083 (char 1842)
Первая попытка не удалась: Expecting ',' delimiter: line 5 column 1518 (char 3014)
Первая попытка не удалась: Invalid control character at: line 5 column 360 (char 1394)


[{'query': 'Добрый день При заполнении услуги на последнем шаге требуется СОГЛАСИЕ СОБСТВЕННИКА ЗЕМЕЛЬНОГО УЧАСТКА НА УСТАНОВЛЕНИЕ СООТВЕТСТВИЯ ВИДА РАЗРЕШЕННОГО ИСПОЛЬЗОВАНИЯ ЗЕМЕЛЬНОГО УЧАСТКА, без которого невозможно перейти на последний шаг НО! В описании услуги в вопросах-ответах есть требование к документам: Согласие собственника(-ов) земельного участка на установление соответствия вида разрешенного использования земельного участка (в случае, если с заявлением обращается правообладатель, не являющийся собственником этого земельного участка); Я являюсь собственником (не представителем) участка Мне необходимо нотариально заверять заявление или возможно обойтись без этого или возможно ли сделать этот пункт при заполнении необязательным? Спасибо.',
  'original_answer': 'Добрый день! Если у вас высвечивается данный документ как обязательный, скорее всего вы ответили "да" на вопрос "ЗЕМЕЛЬНЫЙ УЧАСТОК НАХОДИТСЯ У ЗАЯВИТЕЛЯ В АРЕНДЕ/БЕЗВОЗМЕЗДНОМ ПОЛЬЗОВАНИИ/ПОСТОЯННОМ (БЕССРОЧНОМ) ПОЛЬЗ