In [1]:
import transformers
from transformers import AutoModelForCausalLM, AutoTokenizer, GenerationConfig, AutoModel
import torch
MODEL_NAME = "IlyaGusev/saiga_llama3_8b"
EMBEDDINGS_MODEL = "sentence-transformers/all-MiniLM-L6-v2"
token='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'

model = AutoModelForCausalLM.from_pretrained(
    MODEL_NAME,
    load_in_8bit=True,
    token=token,
    torch_dtype=torch.bfloat16,
    device_map="auto"
)
model.eval()
e_tokenizer = AutoTokenizer.from_pretrained(EMBEDDINGS_MODEL)
e_model = AutoModel.from_pretrained(EMBEDDINGS_MODEL)
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
generation_config = GenerationConfig.from_pretrained(MODEL_NAME)
print(generation_config)

The `load_in_4bit` and `load_in_8bit` arguments are deprecated and will be removed in the future versions. Please, pass a `BitsAndBytesConfig` object in `quantization_config` argument instead.


Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]

config.json:   0%|          | 0.00/612 [00:00<?, ?B/s]

To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to see activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development


model.safetensors:   0%|          | 0.00/90.9M [00:00<?, ?B/s]

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


GenerationConfig {
  "bos_token_id": 128000,
  "do_sample": true,
  "eos_token_id": 128009,
  "max_new_tokens": 1536,
  "pad_token_id": 128000,
  "repetition_penalty": 1.12,
  "temperature": 0.2,
  "top_k": 30,
  "top_p": 0.9
}



In [26]:
import torch
import torch.nn.functional as F
from typing import List


class MyEmbeddings:
        def __init__(self, e_model, e_tokenizer):
            self.e_model = e_model
            self.e_tokenizer = e_tokenizer

        def get_embedding(self, sentence):
            def _mean_pooling(model_output, attention_mask):
                token_embeddings = model_output[0]
                input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
                return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)
                
            encoded_input = self.e_tokenizer([sentence], padding=True, truncation=True, return_tensors='pt')
            with torch.no_grad():
                model_output = self.e_model(**encoded_input)
            sentence_embeddings = _mean_pooling(model_output, encoded_input['attention_mask'])
            sentence_embeddings = F.normalize(sentence_embeddings, p=2, dim=1)
            return sentence_embeddings[0].tolist()
    
        def embed_documents(self, texts: List[str]) -> List[List[float]]:
            return [self.get_embedding(t) for t in texts]
        
        def embed_query(self, text: str) -> List[float]:
            return self.get_embedding(text)

embeddings=MyEmbeddings(e_model, e_tokenizer)
#

In [27]:
embeddings.embed_query(text="У меня стучит подвеска на машине, что делать?")[:5]

[0.03505406901240349,
 0.0799689069390297,
 -0.0039292932488024235,
 0.007063731551170349,
 -0.03213558718562126]

In [18]:
embeds = embeddings.embed_documents(
    ["У меня стучит подвеска на машине, что делать?",
          "Непонятный стук в двигателе, а еще дверь плохо закрывается",
          "Хорошая погода на улице, не правда ли?",
          "Долбанный голубь насрал на крышу!!1! как я зол"]
)
len(embeds), len(embeds[0])

(4, 384)

In [21]:
pdf_folder = "./instructions/"
import os
#os.listdir(pdf_folder)
from langchain_community.document_loaders import PyPDFLoader

loaders = [PyPDFLoader(os.path.join(pdf_folder, fn)) for fn in os.listdir(pdf_folder)]
all_pages = []
for loader in loaders:
    for p in loader.load_and_split():
        all_pages.append(p)


In [28]:
from langchain_core.documents import Document
from langchain_postgres import PGVector
from langchain_postgres.vectorstores import PGVector

connection = "postgresql+psycopg://langchain:langchain@localhost:6024/langchain"  
collection_name = "instructions"

vectorstore = PGVector.from_documents(
    documents=all_pages,
    embedding=embeddings,
    collection_name=collection_name,
    connection=connection,
    use_jsonb=True,
)

In [30]:
all_pages

[Document(page_content='Проект D-1C1-1 \n«Развитие унифицированной отраслевой  \nплатформы «1С ERP 2.0: ЦИФРОВОЙ  \nРОСАТОМ» \n \nИнструкция пользователей  \n«D-1C1-1.05.1 Планирование работы ТС»', metadata={'source': './instructions/D-1C1-1.05.01 Планирование работы ТС.pdf', 'page': 0}),
 Document(page_content='Инструкция пользователей  \nПланирование работы ТС \n \nАвтор АО «Гринатом» Инструкция пользователей «Планирование \nработы ТС» Страница 2 \nСтраниц 10 \nВерсия  2 \n \n \n \nЛИСТ ИЗМЕНЕНИЙ \n \nДата  Версия  Краткое описание изменений  ФИО  \n30.10.2020 1 Первая версия документа Маркин С.С. \n04.10.2023 2 Перенос в новый шаблон, актуализация М итрофанов В.Р.', metadata={'source': './instructions/D-1C1-1.05.01 Планирование работы ТС.pdf', 'page': 1}),
 Document(page_content='Инструкция пользователей  \nПланирование работы ТС \n \nАвтор АО «Гринатом» Инструкция пользователей «Планирование \nработы ТС» Страница 3 \nСтраниц 10 \nВерсия  2 \n \n \nОглавление \n1.  ЦЕЛИ И ЗАДАЧИ НАС

In [36]:
vectorstore.similarity_search("Добавить новый этап оплаты",  k=3)

[Document(page_content='а \n \nПроект D-1C1-1 \n«Развитие унифицированной отраслевой \nплатформы «1С ERP 2.0: ЦИФРОВОЙ \nРОСАТОМ»  \n \nИнструкция пользователей D-1C1-1.10.10  \n«Учет результатов инвентаризации \nобъектов учета ВНА, РБП, ДБП »', metadata={'page': 0, 'source': './instructions/Инструкция D-1C1-1.10.10 Учет результатов инвентаризации объектов учета ВНА, РБП, ДБП.pdf'}),
 Document(page_content='а \n \nПроект D-1C1-1 \n«Развитие унифицированной отраслевой \nплатформы «1С ERP 2.0: ЦИФРОВОЙ \nРОСАТОМ»  \n \nИнструкция пользователей D-1C1-1.10.10  \n«Учет результатов инвентаризации \nобъектов учета ВНА, РБП, ДБП »', metadata={'page': 0, 'source': './instructions/Инструкция D-1C1-1.10.10 Учет результатов инвентаризации объектов учета ВНА, РБП, ДБП.pdf'}),
 Document(page_content='а \n \nПроект D-1C1-1 \n«Развитие унифицированной отраслевой \nплатформы «1С ERP 2.0: ЦИФРОВОЙ \nРОСАТОМ»  \n \nИнструкция пользователей  \nОЦО  \n«Настройки регламентированного \nучета »', metadata={'p

In [2]:
import json

DEFAULT_SYSTEM_PROMPT = '''Тебе на вход будут приходить жалобы пользователей.
Ты умеешь отбрасывать всё лишнее - знаки вопроса / вводные слова / эмоции / ..., выделять корень проблемы 
    и описывать его в формате json. В поле "problems" должен быть список проблем.
    Одна проблема - одна строка. если в сообщении не сформулировано проблемы 
    возникшей у пользователя то массив поля "problems" должен быть пустой. Не используй форматирование в стиле кода, нужен только текст.

Пример:
- ввод: У меня нихрена не работает! Я нажимаю на кнопку войти и оно не входит! Вы там совсем уже!??
  вывод: {"problems": ["не работает кнопка войти"]}
- ввод: Добрый день! Не хочу вас отвлекать, но, если не сложно, подскажите пожалуйста, как сформировать отчет?
  вывод: {"problems": ["не получается сформировать отчет"]}
- ввод: Здравствуйте! Помогите пожалуйста, не получается актуализировать распределение на основании данного изменения,
т.к. компьютер его не видит при выборе по кнопке
  вывод: {"problems": ["не получается актуализировать распределение", "компьютер не видит изменения"]}
  
Если жалоба пользователя не содержит конкретной проблемы - выведи NONE
Пример:
- ввод: Какой чудесный день! Пошли пить пиво вечером?
  вывод: {"problems": []}

Делай так на каждый ввод пользователя
'''

def get_model_output(model, msgs):
    prompt = tokenizer.apply_chat_template(msgs, tokenize=False, add_generation_prompt=True)
    data = tokenizer(prompt, return_tensors="pt", add_special_tokens=False)
    data = {k: v.to(model.device) for k, v in data.items()}
    output_ids = model.generate(**data, generation_config=generation_config)[0]
    output_ids = output_ids[len(data["input_ids"][0]):]
    output = tokenizer.decode(output_ids, skip_special_tokens=True).strip()
    return output
    

def extract_problems(text):
    try:
        a = json.loads(text)
        return a.get('problems')
    except Exception:
        return None

def filter_query(model, query):
    msgs = [{
        "role": "system",
        "content": DEFAULT_SYSTEM_PROMPT
    }, {
        "role": "user",
        "content": query
    }]
    output = get_model_output(model, msgs)
    out = extract_problems(output)
    if out is not None:
        return out
    print("err occurred")
    msgs.append( {"role": "assistant","content": output})
    msgs.append({"role": "user", "content":"выдай ответ в нужном формате, там не должно быть лишних слов, не должно быть форматирования, не должно быть ```"})
    output = get_model_output(model, msgs)
    return extract_problems(output)

inputs = ["У меня стучит подвеска на машине, что делать?",
          "Непонятный стук в двигателе, а еще дверь плохо закрывается",
          "Хорошая погода на улице, не правда ли?",
          "Долбанный голубь насрал на крышу!!1! как я зол"]
for query in inputs:
    print(filter_query(model, query))

  attn_output = torch.nn.functional.scaled_dot_product_attention(


err occurred
['подвеска стучит']
['непонятный стук в двигателе', 'дверь плохо закрывается']
[]
[]


In [2]:
#!pip install -i https://pypi.org/simple/ bitsandbytes
#!pip install accelerate
#!pip install peft
#!pip install pandas
#!pip install openpyxl
#!pip install langchain_community
#!pip install pypdf
#!pip install "psycopg[binary]"
#!pip install -U langchain_postgres

In [1]:
import pandas as pd
pd.set_option('display.max_colwidth', None)
df = pd.read_excel("Вопросы и ответы.xlsx", index_col=None, header=1)
for t in df["Рабочая группа"].unique():
    if t.find("запрос")>=0:
        df = df[df["Рабочая группа"]!=t]
df = df.loc[(df["Категория"] ==  'инцидент') | (df["Категория"] ==  'Изменение')]
#df.head()

In [80]:
a = df['Описание'][0]
a = 'в УПП была кнопка для заполнения колонки в ТЧ документа одним значением На скриншотах документы ``Передача материалов в кладовую``, ``Заказ материалов в производство`` возможна реализация в рамках официального ЗИ - нужно оценить трудозатраты --------------------- Добрый день! Имеется ввиду в документах по строкам «заполнение по реквизитам» , как было в УПП, например в заказе материалов не выбирать   в каждой позиции дату отгрузки.  X. В документах, например, «заказ поставщику», нет возможности как в XСERP заполнять строки аналитик «по реквизитам», просим добавить такую возможность в документы. Просьба пояснить, что имеется ввиду  ----- '
b = tokenizer(a, return_tensors="pt", add_special_tokens=False)