In [37]:
import os
import torch
import chromadb
from transformers import AutoTokenizer, AutoModel
import json
from dotenv import load_dotenv
import openai
import telebot
import httpx
import pathlib
import time

In [45]:
class RuModernBERTEmbedding:
    """Функция эмбеддинга на основе deepvk/RuModernBERT-small для использования в ChromaDB"""

    def __init__(self, model_name="deepvk/RuModernBERT-small"):
        self.tokenizer = AutoTokenizer.from_pretrained(model_name)
        self.model = AutoModel.from_pretrained(model_name)

    def get_embeddings(self, texts):
        """Генерирует эмбеддинги для списка текстов"""
        inputs = self.tokenizer(texts, padding=True, truncation=True, return_tensors="pt")
        with torch.no_grad():
            outputs = self.model(**inputs)
        embeddings = outputs.last_hidden_state.mean(dim=1)
        return embeddings.cpu().numpy().tolist()  # Преобразуем в список списков

# Создаем клиент ChromaDB с сохранением данных
chroma_client = chromadb.PersistentClient(path="./chroma_db")

# Создаем коллекцию (если её нет, создаст новую)
collection_name = "text_embeddings"
collection = chroma_client.get_or_create_collection(name=collection_name)

# Создаем объект эмбеддинга
embedding_function = RuModernBERTEmbedding()

# Путь к папке с текстовыми файлами
folder_path = 'Annotations'

# Получение списка всех файлов в папке
file_names = os.listdir(folder_path)

# Читаем содержимое файлов
documents = []
ids = []

for file_name in file_names:
    file_path = os.path.join(folder_path, file_name)
    with open(file_path, 'r', encoding='utf-8', errors='replace') as file:
        text = file.read()
        documents.append(text)
        ids.append(file_name)  # Используем имя файла как ID

# Генерируем эмбеддинги
embeddings = embedding_function.get_embeddings(documents)

# Добавляем данные в ChromaDB
collection.add(
    ids=ids,
    documents=documents,
    embeddings=embeddings
)

print(f"Добавлено {len(documents)} документов в коллекцию '{collection_name}'.")



Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.
Add of existing embedding ID: 4.txt
Add of existing embedding ID: 3.txt
Add of existing embedding ID: 2.txt
Add of existing embedding ID: 1.txt
Insert of existing embedding ID: 4.txt
Insert of existing embedding ID: 3.txt
Insert of existing embedding ID: 2.txt
Insert of existing embedding ID: 1.txt


Добавлено 4 документов в коллекцию 'text_embeddings'.


In [None]:
# Загружаем переменные из .env
load_dotenv()

# 🔹 Укажи токен своего бота
TOKEN = os.getenv("TELEGRAM_BOT_TOKEN")

if not TOKEN:
    raise ValueError("❌ TELEGRAM_BOT_TOKEN не найден! Убедитесь, что .env файл существует.")

bot = telebot.TeleBot(TOKEN)

proxy = "http://user234366:n7r9g5@193.28.183.191:7556"

# 🔹 Создаём httpx клиент 
httpx_client = httpx.Client(proxy=proxy, timeout=httpx.Timeout(30.0))

# 🔹 Создаём OpenAI клиента с кастомным HTTP-клиентом
openai_client = openai.OpenAI(api_key=os.getenv("OPENAI_API_KEY"), http_client=httpx_client)

# 🔹 Обрабатываем команду /start
@bot.message_handler(commands=['start'])
def send_welcome(message):
    bot.send_message(message.chat.id, "Привет! Я юридический ассистент. Я проанализировал 4 судебных дела между маркетплейсами и продавцами. И могу подсказать тебе по твоему вопросу")

# 🔹 Обрабатываем текстовые запросы
@bot.message_handler(func=lambda message: True)

def search_documents(message):

    bot.send_message(message.chat.id, "Анализирую вопрос. Подождите 30 секунд") # Сообщение ожидания
    user_query = message.text  # Получаем текст запроса

    # =========== !!!!!!!!

    # Отправка запроса в ChatGPT
    gpt_response = openai_client.chat.completions.create(
        model="gpt-3.5-turbo",  # Используемая модель
        messages=[{"role": "system", "content": "Ты помощник."},
                {"role": "user", "content": f"Представь, что ты нашел судебное постановление, наиболее соответствующее пользовательскому запросу. Отправь в ответ краткую аннотацию этого судебного постановления. Ниже пользововательские запрос \n ===== \n {user_query}"}],
        temperature=0.7
    )
    
    # Вывод ответа модели
    user_gpt_annotation = gpt_response.choices[0].message.content
    print(user_gpt_annotation)

    # 🔹 Генерируем эмбеддинг запроса
    query_embedding = embedding_function.get_embeddings([user_gpt_annotation])

    # 🔹 Выполняем поиск в ChromaDB
    chromadb_response = collection.query(
        query_embeddings=query_embedding,
        n_results=2
    )

    # 🔹 Получаем результаты поиска
    txt_ids = chromadb_response.get("ids", [[]])[0]  # Берем первый список
    print(txt_ids)

    pdf_folder = "/Users/igoshaev/Desktop/RAGtest/Documents/"

    pdf_ids = []
    for id in txt_ids:
        pdf_file = id.replace(".txt", ".pdf")  # Заменяем .txt на .pdf
        pdf_path = os.path.join(pdf_folder, pdf_file)
        pdf_ids.append(pdf_path)

    print(pdf_ids)

    ##### ================== ТЕСТОВЫЙ БЛОК С ПОДГРУЗКОЙ КОНКРЕТНОГО ФАЙЛА ХАРДКОДОМ И ДОБАВЛЕНИЯ ЕГО В ПРОМПТ

    # Путь к файлу PDF
    file_path = pathlib.Path("/Users/igoshaev/Desktop/RAGtest/Documents/2.pdf")

    # Загрузка файла в OpenAI API
    uploaded_file = openai_client.files.create(
        file=file_path.open("rb"),
        purpose="assistants"
    )

    file_id = uploaded_file.id
    print(f"Файл загружен. ID: {file_id}")

    # Создаём ассистента с функцией поиска по файлам
    law_assistant = openai_client.beta.assistants.create(
        name="Юридический консультант",
        instructions="Ты - юридический консультант. Используй загруженные файлы для поиска ответов.",
        model="gpt-3.5-turbo",
        tools=[{"type": "file_search"}]  # Включаем поиск по файлам
)

    # 🔹 Создаём новую сессию (тред)
    thread = openai_client.beta.threads.create()

    # 🔹 Отправляем запрос и указываем файл
    prompt = openai_client.beta.threads.messages.create(
        thread_id=thread.id,
        role="user",
        content=f""" 
            Проанализируй запрос на юридическую консультацию 
            \n=== 
            \n{user_query} 
            \n=== 
            \nТеперь проанализируй приложенное судебные постановления из базы  
            \n=== 
            \nТеперь ответь на запрос на основании приложенных судебных постановлений. 
            Отвечай кратко и по сути. Укажи номера постановлений судебных органов и их дату, если ссылаешься на них в ответе. 
        """,
        attachments=[{"file_id":file_id, "tools":[{"type":"file_search"}]}]
    )

    print(prompt)

    # Запускаем ассистента на обработку
    run = openai_client.beta.threads.runs.create(
        thread_id=thread.id,
        assistant_id=law_assistant.id
    )

    print(f"ID выполнения: {run.id}")

    while True:
        run_status = openai_client.beta.threads.runs.retrieve(thread_id=thread.id, run_id=run.id)
        if run_status.status == "completed":
            break
        time.sleep(2)  # Ждем завершения обработки

    openai_messages = openai_client.beta.threads.messages.list(thread_id=thread.id)
    for msg in openai_messages.data:
        if msg.role == "assistant":
        # Извлекаем текст из content
            assistant_response_text = msg.content[0].text.value
            print(assistant_response_text)


    # 🔹 Отправляем ответ от ChatGPT пользователю
    bot.send_message(message.chat.id, assistant_response_text)

    # 🔹 Прикрепляем найденные судебные решения и отправляем пользователю
    print(pdf_ids)

    for pdf_id in pdf_ids:
        if os.path.exists(pdf_id):
            with open(pdf_id, "rb") as document:
                print(pdf_id)
                bot.send_document(
                    message.chat.id,
                    document,
                    caption=f"Найденное судебное решение: {os.path.basename(pdf_id)}"
                )

        else: bot.send_message(message.chat.id, "❌ Файлы не найдены.")   

# 🔹 Запускаем бота
bot.polling()


Аннотация: Судебное постановление в деле о штрафе за самовыкуп рассматривает спор о наличии нарушения правил самовыкупа. Суд пришел к выводу, что нарушение было допущено, однако учтены обстоятельства, свидетельствующие о непреднамеренном характере действий и возможности устранения нарушения. В результате, суд принял решение о снижении штрафа и предоставлении возможности урегулировать ситуацию без лишних финансовых и временных затрат.
['2.txt', '3.txt']
['/Users/igoshaev/Desktop/RAGtest/Documents/2.pdf', '/Users/igoshaev/Desktop/RAGtest/Documents/3.pdf']
Файл загружен. ID: file-Y13yXe7hnh4FRScpwe6ehr
Message(id='msg_CPNDQpOgO8QsJq9Qswggq29a', assistant_id=None, attachments=[Attachment(file_id='file-Y13yXe7hnh4FRScpwe6ehr', tools=[AttachmentToolAssistantToolsFileSearchTypeOnly(type='file_search')])], completed_at=None, content=[TextContentBlock(text=Text(annotations=[], value=' \n            Проанализируй запрос на юридическую консультацию \n            \n=== \n            \nМне выставил

In [None]:
### ======================== РАБОТА С ЗАПРОСАМИ CHATGPT В КОНСОЛИ =================================

# Загружаем переменные из .env
load_dotenv()

proxy = "http://user234366:n7r9g5@193.28.183.191:7556"

# 🔹 Создаём httpx клиент 
httpx_client = httpx.Client(proxy=proxy, timeout=httpx.Timeout(30.0))

# 🔹 Создаём OpenAI клиента с кастомным HTTP-клиентом
openai_client = openai.OpenAI(api_key=os.getenv("OPENAI_API_KEY"), http_client=httpx_client)

##### =============== ТЕСТОВЫЙ БЛОК С ПРИКРЕПЛЕНИЕМ ФАЙЛА В CHATGPT ================

# Путь к файлу PDF
file_path = pathlib.Path("/Users/igoshaev/Desktop/RAGtest/Documents/2.pdf")

# Загрузка файла в OpenAI API
uploaded_file = openai_client.files.create(
    file=file_path.open("rb"),
    purpose="assistants"
)

file_id = uploaded_file.id
print(f"Файл загружен. ID: {file_id}")

# Создаём ассистента с функцией поиска по файлам
law_assistant = openai_client.beta.assistants.create(
    name="Юридический консультант",
    instructions="Ты - юридический консультант. Используй загруженные файлы для поиска ответов.",
    model="gpt-3.5-turbo",
    tools=[{"type": "file_search"}]  # Включаем поиск по файлам
)

# Создаём новую сессию (тред)
thread = openai_client.beta.threads.create()

# Добавляем пользовательский запрос
test_user_query = "Как обжаловать штраф за самовыкуп?"

# Отправляем запрос и указываем файл
message = openai_client.beta.threads.messages.create(
    thread_id=thread.id,
    role="user",
    content=f""" 
        Проанализируй запрос на юридическую консультацию 
        \n=== 
        \n{test_user_query} 
        \n=== 
        \nТеперь проанализируй приложенное судебные постановления из базы  
        \n=== 
        \nТеперь ответь на запрос на основании приложенных судебных постановлений. 
        Отвечай кратко и по сути. Укажи номера постановлений судебных органов и их дату, если ссылаешься на них в ответе. 
    """,
    attachments=[{"file_id":file_id, "tools":[{"type":"file_search"}]}]
)

# Запускаем ассистента на обработку
run = openai_client.beta.threads.runs.create(
    thread_id=thread.id,
    assistant_id=law_assistant.id
)

print(f"ID выполнения: {run.id}")

while True:
    run_status = openai_client.beta.threads.runs.retrieve(thread_id=thread.id, run_id=run.id)
    if run_status.status == "completed":
        break
    time.sleep(2)  # Ждем завершения обработки

messages = openai_client.beta.threads.messages.list(thread_id=thread.id)
for msg in messages.data:
    if msg.role == "assistant":
    # Извлекаем текст из content
        assistant_response_text = msg.content[0].text.value
        print(assistant_response_text)


Файл загружен. ID: file-3RTN2sovKWP1dN6tvykicR
ID выполнения: run_4remN7HSzsBf6aWjsQLpvYII
Из предоставленных судебных постановлений следует, что штраф за нарушения правил площадки, включая использование механик искусственного завышения рейтинга (ИМИЗР), может быть применен в размере 30% от стоимости товаров, реализованных с нарушениями, но не менее 100 000 рублей. Этот штраф обоснован и может быть наложен, если лицо действовало вопреки правилам использования платформы【4:0†source】.

Критериями для уменьшения неустойки в случае несоразмерности могут быть: чрезмерно высокий процент неустойки, значительное превышение суммы неустойки над возможными убытками, длительность неисполнения обязательств и другие обстоятельства【4:0†source】.

Согласно Гражданскому кодексу Российской Федерации, лицо, приобретшее имущество за счет другого лица без законных оснований, обязано вернуть неосновательно приобретенное имущество (неосновательное обогащение), если удовлетворены определенные условия, включая о

In [None]:
# Пути к папкам
annotations_folder = "Annotations"
documents_folder = "/Users/igoshaev/Desktop/RAGtest/Documents/"

# Получаем список .txt файлов в папке Annotations
txt_files = sorted([f for f in os.listdir(annotations_folder) if f.endswith(".txt")])

# Берем первые три .txt файла
selected_txt_files = txt_files[:3]

# Создаем пары txt → pdf
file_pairs = []
for txt_file in selected_txt_files:
    pdf_file = txt_file.replace(".txt", ".pdf")  # Заменяем .txt на .pdf
    pdf_path = os.path.join(documents_folder, pdf_file)

    if os.path.exists(pdf_path):  # Проверяем, что pdf существует
        file_pairs.append((os.path.join(annotations_folder, txt_file), pdf_path))

# Выводим найденные пары
for txt_path, pdf_path in file_pairs:
    print(f"Найдено: {txt_path} → {pdf_path}")

In [None]:
### ======================== РАБОТА С ЗАПРОСАМИ CHATGPT В КОНСОЛИ =================================

# Загружаем переменные из .env
load_dotenv()

proxy = "http://user234366:n7r9g5@193.28.183.191:7556"

# 🔹 Создаём httpx клиент 
httpx_client = httpx.Client(proxy=proxy, timeout=httpx.Timeout(30.0))

# 🔹 Создаём OpenAI клиента с кастомным HTTP-клиентом
openai_client = openai.OpenAI(api_key=os.getenv("OPENAI_API_KEY"), http_client=httpx_client)

##### =============== ТЕСТОВЫЙ БЛОК С ПРИКРЕПЛЕНИЕМ ФАЙЛА В CHATGPT ================

# Путь к файлу PDF
file_path = pathlib.Path("/Users/igoshaev/Desktop/RAGtest/Documents/2.pdf")

# Загрузка файла в OpenAI API
uploaded_file = openai_client.files.create(
    file=file_path.open("rb"),
    purpose="assistants"
)

file_id = uploaded_file.id
print(f"Файл загружен. ID: {file_id}")

# Создаём ассистента с функцией поиска по файлам
law_assistant = openai_client.beta.assistants.create(
    name="Юридический консультант",
    instructions="Ты - юридический консультант. Используй загруженные файлы для поиска ответов.",
    model="gpt-3.5-turbo",
    tools=[{"type": "file_search"}]  # Включаем поиск по файлам
)

# Создаём новую сессию (тред)
thread = openai_client.beta.threads.create()

# Добавляем пользовательский запрос
test_user_query = "Как обжаловать штраф за самовыкуп?"

# Отправляем запрос и указываем файл
message = openai_client.beta.threads.messages.create(
    thread_id=thread.id,
    role="user",
    content=f""" 
        Проанализируй запрос на юридическую консультацию 
        \n=== 
        \n{test_user_query} 
        \n=== 
        \nТеперь проанализируй приложенное судебные постановления из базы  
        \n=== 
        \nТеперь ответь на запрос на основании приложенных судебных постановлений. 
        Отвечай кратко и по сути. Укажи номера постановлений судебных органов и их дату, если ссылаешься на них в ответе. 
    """,
    attachments=[{"file_id":file_id, "tools":[{"type":"file_search"}]}]
)

# Запускаем ассистента на обработку
run = openai_client.beta.threads.runs.create(
    thread_id=thread.id,
    assistant_id=law_assistant.id
)

print(f"ID выполнения: {run.id}")

while True:
    run_status = openai_client.beta.threads.runs.retrieve(thread_id=thread.id, run_id=run.id)
    if run_status.status == "completed":
        break
    time.sleep(2)  # Ждем завершения обработки

messages = openai_client.beta.threads.messages.list(thread_id=thread.id)
for msg in messages.data:
    if msg.role == "assistant":
    # Извлекаем текст из content
        assistant_response_text = msg.content[0].text.value
        print(assistant_response_text)


Файл загружен. ID: file-3RTN2sovKWP1dN6tvykicR
ID выполнения: run_4remN7HSzsBf6aWjsQLpvYII
Из предоставленных судебных постановлений следует, что штраф за нарушения правил площадки, включая использование механик искусственного завышения рейтинга (ИМИЗР), может быть применен в размере 30% от стоимости товаров, реализованных с нарушениями, но не менее 100 000 рублей. Этот штраф обоснован и может быть наложен, если лицо действовало вопреки правилам использования платформы【4:0†source】.

Критериями для уменьшения неустойки в случае несоразмерности могут быть: чрезмерно высокий процент неустойки, значительное превышение суммы неустойки над возможными убытками, длительность неисполнения обязательств и другие обстоятельства【4:0†source】.

Согласно Гражданскому кодексу Российской Федерации, лицо, приобретшее имущество за счет другого лица без законных оснований, обязано вернуть неосновательно приобретенное имущество (неосновательное обогащение), если удовлетворены определенные условия, включая о

In [129]:
### ======================== РАБОТА С ЗАПРОСАМИ CHROMADB В КОНСОЛИ =================================

print(collection.name)

# Поиск по векторной базе
query = "Аннотация: В данном определении суд принял решение о признании незаконным штрафа за самовыкупы и о его отмене. Суд ссылается на то, что оспариваемые действия со стороны компании по выставлению штрафа не соответствовали законодательству и были незаконными. Решение суда основано на предыдущих судебных решениях и прецедентах, где подобные случаи также были признаны незаконными."
search_results = collection.query(
    query_embeddings=embedding_function.get_embeddings([query]),  # Генерируем эмбеддинг запроса
    n_results=3
)

# Извлекаем нужные данные
ids = search_results.get("ids", [])
documents = search_results.get("documents", [])
distances = search_results.get("distances", [])

# Выводим результаты
print("IDs:", ids)
print("Documents:", documents)
print("Distances:", distances)


text_embeddings
IDs: [['text1.txt', 'text3.txt', 'text4.txt']]
Documents: [['Аннотация к судебному решению по делу номер А41-93574 2024. Истец индивидуальный предприниматель Антонова ЮА подала иск к ООО РВБ о взыскании неосновательного обогащения в размере 300000 рублей, процентов за пользование чужими денежными средствами в размере 13267 рублей 79 копеек, расходов на оплату услуг представителя в размере 55000 рублей и государственной пошлины в размере 20663 рублей. Основанием для иска стало удержание маркетплейсом Вайлдберриз штрафов за нарушение правил использования площадки, а именно за использование механик искусственного завышения рейтинга через самовыкупы товаров. Истец утверждает, что штрафы в размере 300000 рублей были начислены необоснованно и самовыкупы не совершались, в связи с чем требует возврата удержанных средств как неосновательного обогащения. Ответчик ООО РВБ и третье лицо Вайлдберриз утверждают, что штрафы были начислены правомерно в соответствии с условиями оферты, 