In [23]:
import os
import torch
import chromadb
from transformers import AutoTokenizer, AutoModel
import json
from dotenv import load_dotenv
import openai
import telebot
import requests
import httpx

In [2]:
from telegram import Update
from telegram.ext import Updater, CommandHandler, MessageHandler, Filters, CallbackContext
import logging

ImportError: cannot import name 'Update' from 'telegram' (unknown location)

In [3]:
class RuModernBERTEmbedding:
    """Функция эмбеддинга на основе deepvk/RuModernBERT-small для использования в ChromaDB"""

    def __init__(self, model_name="deepvk/RuModernBERT-small"):
        self.tokenizer = AutoTokenizer.from_pretrained(model_name)
        self.model = AutoModel.from_pretrained(model_name)

    def get_embeddings(self, texts):
        """Генерирует эмбеддинги для списка текстов"""
        inputs = self.tokenizer(texts, padding=True, truncation=True, return_tensors="pt")
        with torch.no_grad():
            outputs = self.model(**inputs)
        embeddings = outputs.last_hidden_state.mean(dim=1)
        return embeddings.cpu().numpy().tolist()  # Преобразуем в список списков

# Создаем клиент ChromaDB с сохранением данных
chroma_client = chromadb.PersistentClient(path="./chroma_db")

# Создаем коллекцию (если её нет, создаст новую)
collection_name = "text_embeddings"
collection = chroma_client.get_or_create_collection(name=collection_name)

# Создаем объект эмбеддинга
embedding_function = RuModernBERTEmbedding()

# Путь к папке с текстовыми файлами
folder_path = 'Annotations'

# Получение списка всех файлов в папке
file_names = os.listdir(folder_path)

# Читаем содержимое файлов
documents = []
ids = []

for file_name in file_names:
    file_path = os.path.join(folder_path, file_name)
    with open(file_path, 'r', encoding='utf-8') as file:
        text = file.read()
        documents.append(text)
        ids.append(file_name)  # Используем имя файла как ID

# Генерируем эмбеддинги
embeddings = embedding_function.get_embeddings(documents)

# Добавляем данные в ChromaDB
collection.add(
    ids=ids,
    documents=documents,
    embeddings=embeddings
)

print(f"Добавлено {len(documents)} документов в коллекцию '{collection_name}'.")



Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.
Add of existing embedding ID: text1.txt
Add of existing embedding ID: text2.txt
Add of existing embedding ID: text1.txt
Add of existing embedding ID: text2.txt
Add of existing embedding ID: text1.txt
Add of existing embedding ID: text2.txt
Add of existing embedding ID: text1.txt
Add of existing embedding ID: text2.txt
Add of existing embedding ID: text1.txt
Add of existing embedding ID: text2.txt
Add of existing embedding ID: text1.txt
Add of existing embedding ID: text2.txt
Add of existing embedding ID: text1.txt
Add of existing embedding ID: text2.txt
Add of existing embedding ID: text1.txt
Add of existing embedding ID: text2.txt
Add of existing embedding ID: text1.txt
Add of existing embedding ID: text2.txt
Add of existing embedding ID: text1.txt
Add of existing embedding ID: text2.txt
Add of existing embedding ID: text1.txt
Add of existing emb

Добавлено 2 документов в коллекцию 'text_embeddings'.


In [None]:
# Загружаем переменные из .env
load_dotenv()

# 🔹 Укажи токен своего бота
TOKEN = os.getenv("TELEGRAM_BOT_TOKEN")

if not TOKEN:
    raise ValueError("❌ TELEGRAM_BOT_TOKEN не найден! Убедитесь, что .env файл существует.")

bot = telebot.TeleBot(TOKEN)

proxy = "http://user234366:n7r9g5@193.28.183.191:7556"

# 🔹 Создаём httpx клиент 
httpx_client = httpx.Client(proxy=proxy, timeout=httpx.Timeout(30.0))

# 🔹 Создаём OpenAI клиента с кастомным HTTP-клиентом
client = openai.OpenAI(api_key=os.getenv("OPENAI_API_KEY"), http_client=httpx_client)

# 🔹 Обрабатываем команду /start
@bot.message_handler(commands=['start'])
def send_welcome(message):
    bot.send_message(message.chat.id, "Привет! Я юридический ассистент. Я проанализировал более 8000 судебных дел между маркетплейсами и продавцами. И могу подсказать тебе по твоему вопросу")

# 🔹 Обрабатываем текстовые запросы
@bot.message_handler(func=lambda message: True)

def search_documents(message):
    user_query = message.text  # Получаем текст запроса

    # 🔹 Генерируем эмбеддинг запроса
    query_embedding = embedding_function.get_embeddings([user_query])

    # 🔹 Выполняем поиск в ChromaDB
    response = collection.query(
        query_embeddings=query_embedding,
        n_results=2
    )

    # 🔹 Получаем результаты поиска
    ids = response.get("ids", [[]])[0]  # Берем первый список
    documents = response.get("documents", [[]])[0]
    distances = response.get("distances", [[]])[0]

    # 🔹 Формируем документы для ChatGPT
    if ids:
        # Формируем тексты документов для добавления в Prompt
        documents_text = "\n\n".join([
            f"📄 *Документ {i + 1}:* {doc}\n🎯 *Расстояние:* {round(dist, 4)}"
            for i, (doc, dist) in enumerate(zip(documents, distances))
        ])

        # 🔹 Формируем messages в корректном формате
        messages = [
            {"role": "system", "content": "Ты - юридический ассистент в России. Твоя задача - отвечать на основе предоставленных документов."},
            {"role": "user", "content": f"Проанализируй запрос на юридическую консультацию === {user_query} =====\n\n Затем проанализируй имеющуюся судебную практику. Вот документы из базы: === \n{documents_text} === \n\n Предложи ответ пользователю на основании судебной практики. При обосновании указывай номер постановлений судебных органов и их дату"}
        ]

        # 🔹 Получаем ответ от ChatGPT
        try:
            chatgpt_response = client.chat.completions.create(
                model="gpt-3.5-turbo",  # Или используйте нужную модель
                messages=messages,
                max_tokens=500,  # Ограничьте количество токенов, если нужно
                temperature=0.7  # Контролируем креативность ответа
            )

            # 🔹 Извлекаем ответ от ChatGPT
            chatgpt_answer = chatgpt_response.choices[0].message.content

        except Exception as e:
            chatgpt_answer = f"Произошла ошибка при запросе к ChatGPT: {e}"

    else:
        chatgpt_answer = "❌ Ничего не найдено."

# 🔹 Отправляем ответ пользователю
    bot.send_message(message.chat.id, chatgpt_answer)

# 🔹 Запускаем бота
bot.polling()


In [None]:
try:
    if ids:
        # Формируем тексты документов для добавления в Prompt
        documents_text = "\n\n".join([
            f"📄 *Документ {i + 1}:* {doc}\n🎯 *Расстояние:* {round(dist, 4)}"
            for i, (doc, dist) in enumerate(zip(documents, distances))
        ])

        # 🔹 Формируем messages в корректном формате
        messages = [
            {"role": "system", "content": "Ты - ассистент, и твоя задача - отвечать на основе предоставленных документов."},
            {"role": "user", "content": f"Запрос: {user_query}\n\nВот найденные документы:\n{documents_text}\n\nОтвет:"}
        ]

        # 🔹 Получаем ответ от ChatGPT
        chatgpt_response = openai.chat.completions.create(
            model="gpt-3.5-turbo",  # Или gpt-4
            messages=messages,  # Теперь передаём список объектов
            max_tokens=150,
            temperature=0.7
        )

        # 🔹 Извлекаем ответ от ChatGPT
        chatgpt_answer = chatgpt_response["choices"][0]["message"]["content"].strip()

    else:
        chatgpt_answer = "❌ Ничего не найдено."

except Exception as e:
    chatgpt_answer = f"Произошла ошибка при запросе к ChatGPT: {e}"

# 🔹 Отправляем ответ пользователю
bot.send_message(message.chat.id, chatgpt_answer)

In [19]:
# Настройка OpenAI API

# Настройка логирования
logging.basicConfig(format='%(asctime)s - %(name)s - %(levelname)s - %(message)s',
                    level=logging.INFO)
logger = logging.getLogger(__name__)

# Функция для общения с ChatGPT
def chat_with_gpt(message: str) -> str:
    try:
        response = openai.Completion.create(
            engine="gpt-4",  # Или используйте "gpt-3.5-turbo"
            prompt=message,
            max_tokens=150,
            temperature=0.7
        )
        return response.choices[0].text.strip()
    except Exception as e:
        return f"Произошла ошибка при обработке запроса: {str(e)}"

# Функция обработки сообщений
def handle_message(update: Update, context: CallbackContext) -> None:
    user_message = update.message.text
    # Отправка сообщения в ChatGPT и получение ответа
    bot_reply = chat_with_gpt(user_message)
    # Отправка ответа обратно пользователю
    update.message.reply_text(bot_reply)

# Основная функция для запуска бота
def main() -> None:
    updater = Updater(TELEGRAM_TOKEN)

    dispatcher = updater.dispatcher

    # Обработчик сообщений
    dispatcher.add_handler(MessageHandler(Filters.text & ~Filters.command, handle_message))

    # Запуск бота
    updater.start_polling()

    updater.idle()

if __name__ == '__main__':
    main()


NameError: name 'logging' is not defined

In [23]:
### ======================== ТЕЛЕГРАМ БОТ, ВОЗВРАЩАЮЩИЙ ДОКУМЕНТ ПОД ЗАПРОС =================================

# 🔹 Обрабатываем команду /start
@bot.message_handler(commands=['start'])
def send_welcome(message):
    bot.send_message(message.chat.id, "Привет! Отправь мне запрос, и я найду похожие документы.")

# 🔹 Обрабатываем текстовые запросы
@bot.message_handler(func=lambda message: True)
def search_documents(message):
    user_query = message.text  # Получаем текст запроса

    # 🔹 Генерируем эмбеддинг запроса
    query_embedding = embedding_function.get_embeddings([user_query])

    # 🔹 Выполняем поиск в ChromaDB
    response = collection.query(
        query_embeddings=query_embedding,
        n_results=2
    )

    # 🔹 Получаем результаты поиска
    ids = response.get("ids", [[]])[0]  # Берем первый список
    documents = response.get("documents", [[]])[0]
    distances = response.get("distances", [[]])[0]

    # 🔹 Формируем ответ
    if ids:
        result_text = "\n\n".join([
            f"📄 *Документ:* {doc}\n🎯 *Расстояние:* {round(dist, 4)}"
            for doc, dist in zip(documents, distances)
        ])
    else:
        result_text = "❌ Ничего не найдено."

    # 🔹 Отправляем ответ пользователю
    bot.send_message(message.chat.id, result_text, parse_mode="Markdown")

# 🔹 Запускаем бота
bot.polling()

In [22]:
### ======================== РАБОТА С ЗАПРОСАМИ В КОНСОЛИ =================================

# Поиск по векторной базе
query = "Жизнь российского писателя?"
search_results = collection.query(
    query_embeddings=embedding_function.get_embeddings([query]),  # Генерируем эмбеддинг запроса
    n_results=2
)

# Извлекаем нужные данные
ids = search_results.get("ids", [])
documents = search_results.get("documents", [])
distances = search_results.get("distances", [])

# Выводим результаты
print("IDs:", ids)
print("Documents:", documents)
print("Distances:", distances)


IDs: [['text1.txt', 'text2.txt']]
Documents: [['Аннотация к судебному решению по делу номер А41-93574 2024. Истец индивидуальный предприниматель Антонова ЮА подала иск к ООО РВБ о взыскании неосновательного обогащения в размере 300000 рублей, процентов за пользование чужими денежными средствами в размере 13267 рублей 79 копеек, расходов на оплату услуг представителя в размере 55000 рублей и государственной пошлины в размере 20663 рублей. Основанием для иска стало удержание маркетплейсом Вайлдберриз штрафов за нарушение правил использования площадки, а именно за использование механик искусственного завышения рейтинга через самовыкупы товаров. Истец утверждает, что штрафы в размере 300000 рублей были начислены необоснованно и самовыкупы не совершались, в связи с чем требует возврата удержанных средств как неосновательного обогащения. Ответчик ООО РВБ и третье лицо Вайлдберриз утверждают, что штрафы были начислены правомерно в соответствии с условиями оферты, запрещающей манипулирование р

In [None]:
# 🔹 Запускаем бота
bot.polling()