In [50]:
import json
import os
from transformers import AutoTokenizer, AutoModel, AutoModelForQuestionAnswering, T5ForConditionalGeneration
import torch
from docx import Document

# модель hivaze/AAQG-QA-QG-FRED-T5-1.7B
device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")

In [116]:
path = 'docs/docs_json/Service_registratsii.json'
with open(path, 'r', encoding='utf-8') as f:
    json_file = json.load(f)['data']

In [5]:
from transformers import AutoTokenizer, T5ForConditionalGeneration
from functools import partial

saved_checkpoint = './t5_model/'
tokenizer = AutoTokenizer.from_pretrained(saved_checkpoint)
model = T5ForConditionalGeneration.from_pretrained(saved_checkpoint)


def generate_text(prompt, tokenizer, model, n=1, temperature=0.8, num_beams=3):
    encoded_input = tokenizer.encode_plus(prompt, return_tensors='pt')
    encoded_input = {k: v.to(model.device) for k, v in encoded_input.items()}

    resulted_tokens = model.generate(**encoded_input,
                                   max_new_tokens=64,
                                   do_sample=True,
                                   num_beams=num_beams,
                                   num_return_sequences=n,
                                   temperature=temperature,
                                   top_p=0.9,
                                   top_k=50)
    resulted_texts = tokenizer.batch_decode(resulted_tokens, skip_special_tokens=True)

    return resulted_texts

generate_text = partial(generate_text, tokenizer=tokenizer, model=model)

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

In [7]:

QA_PROMPT = "Сгенерируй ответ на вопрос по тексту. Текст: '{context}'. Вопрос: '{question}'."
test_context = "Пользователю ЛК предоставляется возможность изменять тему интерфейса Системы. Для того чтобы изменить текущую тему интерфейса нажмите на ссылку с ФИО в правом верхнем углу Системы: откроется форма «Персональные настройки». На форме «Персональные настройки» можно изменить часовой пояс, цвет темы, язык интерфейса."
question = 'Как изменять тему интерфейса?'
generate_text(QA_PROMPT.format(
  context=test_context,
  question=question
), n=1)

['Нажмите на ссылку с ФИО в правом верхнем углу Системы: откроется форма «Персональные настройки».']

In [22]:
model.eval()
QA_PROMPT = "Сгенерируй ответ на вопрос по тексту. Текст: '{context}'. Вопрос: '{question}'."
prompt = QA_PROMPT.format(context='', question='При создании заявления на регистрацию декларации о соответствии на продукцию, включенную в Единый перечень продукции, подлежащей декларированию соответствия в соответствии с Постановлением № 2425, обязательным полем для заполнения идут схемы декларирования. Из какого документа взяты эти схемы декларирования (1д – 7д)?')
tokenizer.encode_plus(prompt)

{'input_ids': [563, 297, 23231, 28306, 1078, 309, 1247, 334, 28607, 18, 22324, 30, 6145, 25261, 8919, 30, 6145, 4670, 11184, 10744, 309, 30123, 35138, 290, 5118, 309, 15966, 16, 2302, 18525, 282, 35985, 451, 17597, 6340, 16, 19984, 2909, 49519, 9781, 31114, 282, 5118, 281, 20705, 3021, 4855, 3436, 4691, 16, 32983, 23360, 541, 26898, 8272, 19631, 49519, 2682, 18, 1598, 5608, 6325, 39935, 870, 19631, 49519, 2682, 473, 21, 280, 651, 1409, 280, 30818, 25261], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]}

In [45]:
inputs = tokenizer.encode_plus('Сколько яблок ты съел?', return_tensors='pt').replace('?')

In [24]:
# Создайте входные данные для декодера
decoder_input_ids = torch.tensor([[tokenizer.pad_token_id]])

# Пропустите текст через модель и получите скрытые состояния
with torch.no_grad():
    outputs = model(input_ids=inputs['input_ids'], decoder_input_ids=decoder_input_ids, output_hidden_states=True)

last_hidden_state = outputs.encoder_last_hidden_state

# Преобразуйте скрытое состояние в эмбеддинг (например, усреднение по всем токенам)
embedding = last_hidden_state.mean(dim=1)  # [batch_size, hidden_dim]

In [14]:
# ленивое разбиение на чанки для поиска релевантного куска
def split_document(json_file, tokenizer, max_context_length=450, overlap=100):
    # читаем файл, получаем список
    with open(json_file, 'r', encoding='utf-8') as f:
        data = json.load(f)['data']
    
    # разделяем на пересекающиеся чанки каждый блок (по токенам)
    for i in range(len(data)):
        title = data[i]['title']
        content = data[i]['content']
        if title not in content:
            content = title + '. ' + content
        content_tokens = tokenizer.encode(content)
        if len(content_tokens) < max_context_length:
            data[i]['content'] = [content]
        else:
            new_content = []
            step = max_context_length - overlap
            for j in range(0, len(content_tokens) - overlap, step):
                chunk = content_tokens[j:j + max_context_length]
                text = ''.join(tokenizer.batch_decode(chunk, skip_special_tokens=True))
                new_content.append(text)
            data[i]['content'] = new_content
            
    return data

In [17]:
dir_path = 'docs/docs_json/' 
paths = ['Naumen_Desk', 'Service_registratsii']
format_ = '.json'
for path in paths:
    res = os.path.join(dir_path, path) + format_
    splited_doc = split_document(res, tokenizer)
    json_data = {'data': splited_doc}
    new_path = os.path.join(dir_path, path) + '_splited.json'
    with open(new_path, 'w', encoding='utf-8') as f:
        json.dump(json_data, f, indent=2, ensure_ascii=False)
    print(new_path)

docs/docs_json/Naumen_Desk_splited.json
docs/docs_json/Service_registratsii_splited.json


In [21]:
from sklearn.metrics.pairwise import cosine_similarity

path = 'docs/docs_json/Service_registratsii_splited_emb.json'
with open(path, 'r', encoding='utf-8') as f:
    json_file = json.load(f)['data']

In [40]:
similarities = []
for i in range(len(json_file)):
    embeddings = json_file[i]['embeddings']
    similarity = cosine_similarity()

0.7618016810571367

In [208]:
model.eval()
QA_PROMPT = "Сгенерируй ответ на вопрос по тексту. Текст: '{context}'. Вопрос: '{question}'."
test_context = "Пользователю ЛК предоставляется возможность изменять тему интерфейса Системы. Для того чтобы изменить текущую тему интерфейса нажмите на ссылку с ФИО в правом верхнем углу Системы: откроется форма «Персональные настройки». На форме «Персональные настройки» можно изменить часовой пояс, цвет темы, язык интерфейса."
question = 'Как изменять тему интерфейса?'
prompt = QA_PROMPT.format(context=test_context, question=question)

encoded_input = tokenizer.encode_plus(prompt, return_tensors='pt')
encoded_input = {k: v.to(model.device) for k, v in encoded_input.items()}

with torch.no_grad():
    outputs = model.generate(**encoded_input,
                             max_new_tokens=64,
                             do_sample=True,
                             num_beams=3,
                             num_return_sequences=1,
                             temperature=0.8,
                             top_p=0.9,
                             top_k=50, output_scores=True, return_dict_in_generate=True,
                             early_stopping=True
            )

# Получаем токены и лог-вероятности
generated_tokens = outputs.sequences[0]
logits = outputs.scores

# Вычисление уверенности ответа
# Переведем логиты в вероятности токенов
probabilities = [torch.softmax(logit, dim=-1) for logit in logits]

# Извлечение вероятности предсказанных токенов
predicted_probabilities = []
for i, token_id in enumerate(generated_tokens[1:]):  # Пропускаем токен <bos>
    predicted_probabilities.append(probabilities[i][0, token_id].item())

# Уверенность ответа
confidence_score = sum(predicted_probabilities) / len(predicted_probabilities)

In [228]:
# Получаем токены и лог-вероятности
generated_tokens = outputs.sequences[0]
logits = outputs.scores

# Вычисление уверенности ответа
# Переведем логиты в вероятности токенов
probabilities = [torch.softmax(logit, dim=-1) for logit in logits]

# Извлечение вероятности предсказанных токенов
predicted_probabilities = []
for i, token_id in enumerate(generated_tokens[1:]):
    predicted_probabilities.append(max(probabilities[i][:, token_id]).item())

# Уверенность ответа
confidence_score = sum(predicted_probabilities) / len(predicted_probabilities)
confidence_score

0.9540417423615088

In [227]:
max(probabilities[0][:, 2176]).item()

0.7200158834457397

In [216]:
generated_tokens[1:]

tensor([ 2176, 14465,   309, 18899,   281, 18151,   630,   282, 12233, 34258,
         9941, 44026,     2])

In [217]:
probabilities[0][0, 2176]

tensor(0.7200)

In [198]:
generated_tokens = outputs.sequences[0]
logits = outputs.scores

# Вычисление уверенности ответа
# Переведем логиты в вероятности токенов
probabilities = [torch.softmax(logit, dim=-1) for logit in logits]

# Извлечение вероятности предсказанных токенов
predicted_probabilities = []
for i, token_id in enumerate(generated_tokens):  # Пропускаем токен <bos>
    probabilities = torch.max(probabilities[i], 0).values
    predicted_probabilities.append(probabilities[i][token_id].item())

# Уверенность ответа
confidence_score = sum(predicted_probabilities) / len(predicted_probabilities)

IndexError: too many indices for tensor of dimension 0

In [201]:
probabilities

tensor([0., 0., 0.,  ..., 0., 0., 0.])

In [230]:
from my_utils import get_answer

In [None]:
get_answer()