### Настройка LLM

In [1]:
import os
from dotenv import load_dotenv
from openai import OpenAI
OPENAI_API_KEY = os.getenv('OPENAI_API_KEY')
client = OpenAI(
    api_key=OPENAI_API_KEY,
    base_url="https://api.proxyapi.ru/openai/v1",
)



In [2]:
class LLM:
    OPENAI_API_KEY = os.getenv('OPENAI_API_KEY')

    def __init__(self, model, system_prompt):
        self.model = model
        self.system_prompt = system_prompt
        self.client = OpenAI(api_key=OPENAI_API_KEY, base_url="https://api.proxyapi.ru/openai/v1")
        self.messages = [{'role': 'system', 'content': system_prompt}]
    
    def chat(self, user_input):
        self.messages.append({'role': 'user', 'content': user_input})
        answer = self.client.chat.completions.create(model=self.model, messages=self.messages)
        answer = answer.choices[0].message.content
        self.messages.append({'role': 'assistant', 'content': answer})
        return answer



### Определение ситуации, в которой данный блок может быть полезен

In [56]:
system = """
Изучи фрагмент юридического документа - пользовательского соглашения сервиса Rutube.
Напиши, в каком случае этот фрагмент может быть полезен пользователю сервиса.
Выведи только список возможных ситуаций-обращений
"""

In [57]:
llm = LLM("gpt-4o-mini", system)

In [58]:
doc_block = '''
В случае если у Пользователя возникают проблемы с использованием RUTUBE, Стороны понимают и соглашаются, что 
Пользователь обязан до обращения с претензией к Администрации ознакомиться с информацией, указанной на следующей странице: https://rutube.ru/info/faq/. 
В случае если информация на указанной странице не помогла, Пользователь вправе обратиться c претензией к Администрации по адресу, указанному в п.12.5 
Соглашения, которую Администрация рассматривает в течение 30 (Тридцати) дней с момента получения. 
Стороны согласились, что все споры, возникающие из отношений Сторон, будут разрешаться в суде по месту нахождения 
Администрации с обязательным соблюдением досудебного претензионного порядка урегулирования споров
'''

In [59]:
answer = llm.chat(doc_block)

In [60]:
print(answer)

1. Пользователь столкнулся с техническими проблемами при использовании сервиса Rutube.
2. Пользователь не нашел ответ на свой вопрос в разделе FAQ на сайте Rutube.
3. Пользователь хочет подать претензию к администрации сервиса.
4. Пользователь нуждается в разъяснении условий пользовательского соглашения.
5. Пользователь желает узнать, как урегулировать споры с администрацией. 
6. Пользователь хочет узнать сроки рассмотрения своей претензии.


### Саммари блока документа

In [71]:
system = """
Изучи переданный фрагмент документа - пользовательского соглашения сервиса Rutube.
Напиши в одном предлажении тему данного фрагмента.
В ответ выведи только тему
"""

In [72]:
llm = LLM("gpt-4o-mini", system)

In [73]:
doc_block = '''В случае если у Пользователя возникают проблемы с использованием RUTUBE, Стороны понимают и соглашаются, что 
Пользователь обязан до обращения с претензией к Администрации ознакомиться с информацией, указанной на следующей странице: https://rutube.ru/info/faq/. 
В случае если информация на указанной странице не помогла, Пользователь вправе обратиться c претензией к Администрации по адресу, указанному в п.12.5 
Соглашения, которую Администрация рассматривает в течение 30 (Тридцати) дней с момента получения. 
Стороны согласились, что все споры, возникающие из отношений Сторон, будут разрешаться в суде по месту нахождения 
Администрации с обязательным соблюдением досудебного претензионного порядка урегулирования споров'''

In [74]:
answer = llm.chat(doc_block)

In [75]:
print(answer)

Процедура урегулирования проблем и претензий пользователей сервиса RUTUBE.


### Summary 2

In [34]:
import pandas as pd
df = pd.read_csv(r'C:\Users\Winston\Documents\GitHub\rutube-ai-assistant\data\concat_data.csv')
df_test = pd.read_csv(r'C:\Users\Winston\Documents\GitHub\rutube-ai-assistant\data\query_answer.csv')
doc = df['concat'].iloc[0]
q = df_test['Вопрос пользователя'].iloc[0]

In [30]:
system = """
Представь, что тебе нужно определить, в какой ситуации может пригодиться 
переданный фрагмент текста и о чем он. Эта информация будет использоваться 
для поиска релевантных ответов к вопросу пользователя. 
Подумай и выведи одно предложение.

Текст:
"""

In [31]:
llm = LLM("gpt-4o-mini", system)

In [32]:
answer = llm.chat(doc)

In [33]:
print(doc, '\n\n')
print(answer)

Как загрузить видеоролик на сайт?

1. Зарегистрируйтесь или авторизуйтесь на RUTUBE.
2. Нажмите на значок загрузки (символ «плеера со знаком плюс») в правом верхнем углу экрана или пройдите по этой ссылке: https://studio.rutube.ru/uploader/
3. Выберите на вашем устройстве видеофайл, который хотите загрузить.
4. Укажите название и описание, выберите категорию ролика.
5. Настройте доступ к видео.
Если хотите, чтобы ваш ролик могли посмотреть только те, с кем вы им поделились, в поле "Параметры доступа" выберите вариант «Только по ссылке». Такой ролик не будет находиться в поиске, и другие пользователи не увидят его в списке ваших роликов. Обратите внимание: если вы отправите кому-то ссылку на ролик, то получатель может ею поделиться с другими. 


Данный текст содержит пошаговую инструкцию по загрузке видеороликов на сайт RUTUBE и может быть полезен пользователям, которые хотят узнать, как правильно разместить свои видео на этой платформе.


### Extract information

In [19]:
import pandas as pd
df = pd.read_csv(r'C:\Users\Winston\Documents\GitHub\rutube-ai-assistant\data\concat_data.csv')
doc = df['concat'].iloc[0]

In [20]:
system = """
Пожалуйста, разбейте следующий текст на простые, автономные утверждения. Убедитесь, что каждое утверждение соответствует следующим критериям:

Выражает один факт: Каждое утверждение должно содержать один конкретный факт или утверждение.
Понятно без контекста: Утверждение должно быть автономным, то есть его можно понять без дополнительного контекста.
Используйте полные имена, а не местоимения: Избегайте местоимений или неоднозначных ссылок; используйте полные имена сущностей.
Включайте соответствующие даты/уточняющие данные: Если применимо, добавляйте необходимые даты, время и уточняющие данные, чтобы сделать факт точным.
Содержит одну субъектно-предикатную связь: Сосредоточьтесь на одном субъекте и его действии или признаке, избегайте союзов и сложных предложений.

Текст:
"""

In [21]:
llm = LLM("gpt-4o-mini", system)

In [22]:
answer = llm.chat(doc)

In [23]:
print(doc, '\n\n')
print(answer)

Как загрузить видеоролик на сайт?

1. Зарегистрируйтесь или авторизуйтесь на RUTUBE.
2. Нажмите на значок загрузки (символ «плеера со знаком плюс») в правом верхнем углу экрана или пройдите по этой ссылке: https://studio.rutube.ru/uploader/
3. Выберите на вашем устройстве видеофайл, который хотите загрузить.
4. Укажите название и описание, выберите категорию ролика.
5. Настройте доступ к видео.
Если хотите, чтобы ваш ролик могли посмотреть только те, с кем вы им поделились, в поле "Параметры доступа" выберите вариант «Только по ссылке». Такой ролик не будет находиться в поиске, и другие пользователи не увидят его в списке ваших роликов. Обратите внимание: если вы отправите кому-то ссылку на ролик, то получатель может ею поделиться с другими. 


1. Пользователь должен зарегистрироваться или авторизоваться на сайте RUTUBE.  
2. Пользователь должен нажать на значок загрузки в правом верхнем углу экрана.  
3. Пользователь может перейти по ссылке https://studio.rutube.ru/uploader/.  
4. Пол

### Rewrite user query


In [74]:
import pandas as pd
df = pd.read_csv(r'C:\Users\Winston\Documents\GitHub\rutube-ai-assistant\data\concat_data.csv')
df_test = pd.read_csv(r'C:\Users\Winston\Documents\GitHub\rutube-ai-assistant\data\query_answer.csv')
doc = df['concat'].iloc[0]
q = df_test['Вопрос пользователя'].iloc[0]

In [75]:
themes = '\n'.join(df['Классификатор 2 уровня'].unique())

In [76]:
system = f"""
Тебе передана QA база данных компании Rutube.
Твоя задача - исходя из запроса пользователя определить,
какая информация из базы знаний нужна, чтобы ответить на его вопрос.
Дополнительно к рекомендациям выбери одну или несколько тем, к которой может относится вопрос.

Темы: {themes}

Вопрос пользователя:
"""

2 версия с выводом JSON

In [None]:
system = f"""
Тебе передана QA база данных компании Rutube.
Твоя задача - исходя из запроса пользователя определить,
какая информация из базы знаний нужна, чтобы ответить на его вопрос.
Дополнительно к рекомендациям выбери одну или несколько тем, к которой может относится вопрос.

Ответ нужно вернуть в формате JSON с ключами:
info - информация, которая может потребоваться для ответа на вопрос
themes - список из одной или нескольких тем

Темы: {themes}

Вопрос пользователя:
"""

In [77]:
llm = LLM("gpt-4o-mini", system)

In [64]:
answer = llm.chat(q)

In [65]:
print(q, '\n\n')
print(answer)

Здравствуйте! Можно уточнить причины Правилhttps://rutube.ru/info/taboo_agreement/ по которым удаляются ролики? что за нарушение правил RUTUBE ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌  


Для ответа на ваш вопрос потребуется информация о правилах и причинах удаления видео, которые перечислены в соглашении о запретах на сайте Rutube.

Темы, к которым может относиться ваш вопрос:
- Отклонение/блокировка видео
- Запрещенный контент


### Тесты на датасете

In [69]:
from langchain.retrievers import BM25Retriever, EnsembleRetriever

In [68]:
import pandas as pd
df = pd.read_csv(r'C:\Users\Winston\Documents\GitHub\rutube-ai-assistant\data\concat_data.csv')
df_test = pd.read_csv(r'C:\Users\Winston\Documents\GitHub\rutube-ai-assistant\data\query_answer.csv')

0      Категория вопроса: Загрузка видео\nВопрос: Как...
1      Категория вопроса: Персонализация 0\nВопрос: Д...
2      Категория вопроса: Управление трансляцией\nВоп...
3      Категория вопроса: Загрузка видео\nВопрос: Пра...
4      Категория вопроса: Воспроизведение видео\nВопр...
                             ...                        
300    Категория вопроса: Недоступность видео\nВопрос...
301    Категория вопроса: Регистрация/Авторизация\nВо...
302    Категория вопроса: Отсутствует\nВопрос: Что та...
303    Категория вопроса: Управление трансляцией\nВоп...
304    Категория вопроса: Регистрация/Авторизация\nВо...
Name: concat, Length: 305, dtype: object

In [88]:
c_df = pd.merge(df_sample, df, on='Ответ из БЗ', how='left')

In [114]:
df_sample = df_test.sample(9)

In [115]:
retriever = BM25Retriever.from_texts(df['Ответ из БЗ'])

In [116]:
def chunk_acc(row):
    q = row['Вопрос пользователя']
    q = llm.chat(q)
    chunks = retriever.invoke(q)
    chunks = [d.page_content for d in chunks]
    row['chunks'] = chunks
    acc = 0

    for chunk in chunks:
        if row['Ответ из БЗ'] in chunk:
            acc = 1
    row['accuracy'] = acc
    return row

df_sample = df_sample.apply(chunk_acc, axis=1)
df_sample['accuracy'].mean()

0.0

In [104]:
c_df[c_df['accuracy'] == 0].iloc[0, 0]

'Какие требования к оформлению контента на вашей платформе для продвижения?'

In [108]:
c_df[c_df['accuracy'] == 0].iloc[0, 6]

['Продвижение канала',
 'Продвижение канала',
 'Продвижение канала',
 'Продвижение канала']