In [59]:
import os
from pypdf import PdfReader
from pathlib import Path
from tqdm.notebook import tqdm
import re
from razdel import sentenize
import numpy as np
import transformers
import time
from sklearn.metrics.pairwise import cosine_similarity

In [44]:
import warnings
warnings.filterwarnings("ignore")

In [48]:
import torch
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("cointegrated/rubert-tiny2")
model = AutoModel.from_pretrained("cointegrated/rubert-tiny2")
model.cuda()  # uncomment it if you have a GPU

def embed_bert_cls(text, model, tokenizer):
    t = tokenizer(text, padding=True, truncation=True, return_tensors='pt')
    with torch.no_grad():
        model_output = model(**{k: v.to(model.device) for k, v in t.items()})
    embeddings = model_output.last_hidden_state[:, 0, :]
    embeddings = torch.nn.functional.normalize(embeddings)
    return embeddings[0].cpu().numpy()

for i in tqdm(range(100)):
    embed_bert_cls('привет мир', model, tokenizer).shape

  0%|          | 0/100 [00:00<?, ?it/s]

In [49]:
import torch.nn.functional as F

from torch import Tensor
from transformers import AutoTokenizer, AutoModel


def average_pool(last_hidden_states: Tensor,
                 attention_mask: Tensor) -> Tensor:
    last_hidden = last_hidden_states.masked_fill(~attention_mask[..., None].bool(), 0.0)
    return last_hidden.sum(dim=1) / attention_mask.sum(dim=1)[..., None]


# Each input text should start with "query: " or "passage: ", even for non-English texts.
# For tasks other than retrieval, you can simply use the "query: " prefix.
input_texts = ['query: how much protein should a female eat',
               'query: 南瓜的家常做法',
               "passage: As a general guideline, the CDC's average requirement of protein for women ages 19 to 70 is 46 grams per day. But, as you can see from this chart, you'll need to increase that if you're expecting or training for a marathon. Check out the chart below to see how much protein you should be eating each day.",
               "passage: 1.清炒南瓜丝 原料:嫩南瓜半个 调料:葱、盐、白糖、鸡精 做法: 1、南瓜用刀薄薄的削去表面一层皮,用勺子刮去瓤 2、擦成细丝(没有擦菜板就用刀慢慢切成细丝) 3、锅烧热放油,入葱花煸出香味 4、入南瓜丝快速翻炒一分钟左右,放盐、一点白糖和鸡精调味出锅 2.香葱炒南瓜 原料:南瓜1只 调料:香葱、蒜末、橄榄油、盐 做法: 1、将南瓜去皮,切成片 2、油锅8成热后,将蒜末放入爆香 3、爆香后,将南瓜片放入,翻炒 4、在翻炒的同时,可以不时地往锅里加水,但不要太多 5、放入盐,炒匀 6、南瓜差不多软和绵了之后,就可以关火 7、撒入香葱,即可出锅"]

tokenizer = AutoTokenizer.from_pretrained('intfloat/multilingual-e5-large')
model = AutoModel.from_pretrained('intfloat/multilingual-e5-large')

# Tokenize the input texts
batch_dict = tokenizer(input_texts, max_length=512, padding=True, truncation=True, return_tensors='pt')

outputs = model(**batch_dict)
embeddings = average_pool(outputs.last_hidden_state, batch_dict['attention_mask'])

# normalize embeddings
embeddings = F.normalize(embeddings, p=2, dim=1)
scores = (embeddings[:2] @ embeddings[2:].T) * 100
print(scores.tolist())

tokenizer_config.json:   0%|          | 0.00/418 [00:00<?, ?B/s]

To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to see activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development


sentencepiece.bpe.model:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/17.1M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/280 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/690 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/2.24G [00:00<?, ?B/s]

[[90.81391906738281, 72.13392639160156], [70.53543090820312, 88.76110076904297]]


In [5]:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer('intfloat/multilingual-e5-large')

modules.json:   0%|          | 0.00/387 [00:00<?, ?B/s]

To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to see activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development


README.md:   0%|          | 0.00/160k [00:00<?, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/57.0 [00:00<?, ?B/s]

1_Pooling/config.json:   0%|          | 0.00/201 [00:00<?, ?B/s]

In [6]:
embeddings = []
model.eval()
model.cuda()
for file_name, texts in tqdm(chunks.items(), desc='Files'):
    for text in tqdm(texts, desc=f'Texts for {file_name}'):
        embs = model.encode([f"passage: {text}"], normalize_embeddings=True)
        embeddings.append(embs)

Files:   0%|          | 0/62 [00:00<?, ?it/s]

Texts for 1300154386.pdf:   0%|          | 0/155 [00:00<?, ?it/s]

Texts for gost-r-55766-2013.pdf:   0%|          | 0/264 [00:00<?, ?it/s]

Texts for gost-r-58256-2018.pdf:   0%|          | 0/51 [00:00<?, ?it/s]

Texts for gost-r-58776-2019.pdf:   0%|          | 0/34 [00:00<?, ?it/s]

Texts for gost-r-58777-2019.pdf:   0%|          | 0/102 [00:00<?, ?it/s]

Texts for gost-r-59236-2020.pdf:   0%|          | 0/65 [00:00<?, ?it/s]

Texts for gost-r-59237-2020.pdf:   0%|          | 0/40 [00:00<?, ?it/s]

Texts for gost-r-59276-2020.pdf:   0%|          | 0/102 [00:00<?, ?it/s]

Texts for gost-r-59277-2020.pdf:   0%|          | 0/86 [00:00<?, ?it/s]

Texts for gost-r-59278-2020.pdf:   0%|          | 0/48 [00:00<?, ?it/s]

Texts for gost-r-59385-2021.pdf:   0%|          | 0/79 [00:00<?, ?it/s]

Texts for gost-r-59391-2021.pdf:   0%|          | 0/64 [00:00<?, ?it/s]

Texts for gost-r-59879-2021.pdf:   0%|          | 0/94 [00:00<?, ?it/s]

Texts for gost-r-59880-2021.pdf:   0%|          | 0/227 [00:00<?, ?it/s]

Texts for gost-r-59895-2021.pdf:   0%|          | 0/60 [00:00<?, ?it/s]

Texts for gost-r-59896-2021.pdf:   0%|          | 0/37 [00:00<?, ?it/s]

Texts for gost-r-59897-2021.pdf:   0%|          | 0/66 [00:00<?, ?it/s]

Texts for gost-r-59898-2021.pdf:   0%|          | 0/151 [00:00<?, ?it/s]

Texts for gost-r-59899-2021.pdf:   0%|          | 0/53 [00:00<?, ?it/s]

Texts for gost-r-59900-2021.pdf:   0%|          | 0/28 [00:00<?, ?it/s]

Texts for gost-r-59920-2021.pdf:   0%|          | 0/132 [00:00<?, ?it/s]

Texts for gost-r-59921 (1).pdf:   0%|          | 0/68 [00:00<?, ?it/s]

Texts for gost-r-59921 (2).pdf:   0%|          | 0/386 [00:00<?, ?it/s]

Texts for gost-r-59921 (3).pdf:   0%|          | 0/213 [00:00<?, ?it/s]

Texts for gost-r-59921 (4).pdf:   0%|          | 0/56 [00:00<?, ?it/s]

Texts for gost-r-59921 (5).pdf:   0%|          | 0/77 [00:00<?, ?it/s]

Texts for gost-r-59921 (6).pdf:   0%|          | 0/85 [00:00<?, ?it/s]

Texts for gost-r-59921 (7).pdf:   0%|          | 0/65 [00:00<?, ?it/s]

Texts for gost-r-59921 (8).pdf:   0%|          | 0/155 [00:00<?, ?it/s]

Texts for gost-r-59921 (9).pdf:   0%|          | 0/116 [00:00<?, ?it/s]

Texts for gost-r-59921.pdf:   0%|          | 0/238 [00:00<?, ?it/s]

Texts for gost-r-70246-2022.pdf:   0%|          | 0/92 [00:00<?, ?it/s]

Texts for gost-r-70247-2022.pdf:   0%|          | 0/108 [00:00<?, ?it/s]

Texts for gost-r-70249-2022.pdf:   0%|          | 0/79 [00:00<?, ?it/s]

Texts for gost-r-70250-2022.pdf:   0%|          | 0/265 [00:00<?, ?it/s]

Texts for gost-r-70251-2022.pdf:   0%|          | 0/48 [00:00<?, ?it/s]

Texts for gost-r-70252-2022.pdf:   0%|          | 0/47 [00:00<?, ?it/s]

Texts for gost-r-70253-2022.pdf:   0%|          | 0/49 [00:00<?, ?it/s]

Texts for gost-r-70254-2022.pdf:   0%|          | 0/48 [00:00<?, ?it/s]

Texts for gost-r-70255-2022.pdf:   0%|          | 0/47 [00:00<?, ?it/s]

Texts for gost-r-70256-2022.pdf:   0%|          | 0/46 [00:00<?, ?it/s]

Texts for gost-r-70321 (1).pdf:   0%|          | 0/35 [00:00<?, ?it/s]

Texts for gost-r-70321 (2).pdf:   0%|          | 0/35 [00:00<?, ?it/s]

Texts for gost-r-70321 (3).pdf:   0%|          | 0/42 [00:00<?, ?it/s]

Texts for gost-r-70321 (4).pdf:   0%|          | 0/70 [00:00<?, ?it/s]

Texts for gost-r-70321 (5).pdf:   0%|          | 0/84 [00:00<?, ?it/s]

Texts for gost-r-70321 (6).pdf:   0%|          | 0/29 [00:00<?, ?it/s]

Texts for gost-r-70321.pdf:   0%|          | 0/87 [00:00<?, ?it/s]

Texts for gost-r-70462.pdf:   0%|          | 0/415 [00:00<?, ?it/s]

Texts for gost-r-70466-2022.pdf:   0%|          | 0/153 [00:00<?, ?it/s]

Texts for gost-r-iso-iec-20546-2021.pdf:   0%|          | 0/113 [00:00<?, ?it/s]

Texts for gost-r-iso-iec-24668-2022.pdf:   0%|          | 0/287 [00:00<?, ?it/s]

Texts for pnst-776-2022.pdf:   0%|          | 0/213 [00:00<?, ?it/s]

Texts for pnst-777-2022.pdf:   0%|          | 0/309 [00:00<?, ?it/s]

Texts for pnst-779-2022.pdf:   0%|          | 0/45 [00:00<?, ?it/s]

Texts for pnst-780-2022.pdf:   0%|          | 0/29 [00:00<?, ?it/s]

Texts for pnst-784-2022.pdf:   0%|          | 0/174 [00:00<?, ?it/s]

Texts for pnst-785-2022.pdf:   0%|          | 0/27 [00:00<?, ?it/s]

Texts for pnst-786-2022.pdf:   0%|          | 0/27 [00:00<?, ?it/s]

Texts for pnst-787-2022.pdf:   0%|          | 0/45 [00:00<?, ?it/s]

Texts for pnst-788-2022.pdf:   0%|          | 0/36 [00:00<?, ?it/s]

Texts for pnst-789-2022.pdf:   0%|          | 0/63 [00:00<?, ?it/s]

In [7]:
all_texts = []
for file_name, texts in chunks.items():
    for text in texts:
        all_texts.append(text)

In [43]:
rn = np.random.randint(5, len(all_texts)-1)
all_texts[rn], rn

('-\xa0TN\xa0—\xa0количество \xa0 истинно \xa0 отрицательных \xa0 исходов \xa0 по \xa0всем\xa0классам: \xa0 объекты, \xa0 не \xa0отнесенные \xa0 к\xa0\nцелевым\xa0классам\xa0по \xa0результатам\xa0работы \xa0 алгоритма \xa0 ИИ, \xa0 не \xa0 принадлежат \xa0к \xa0целевым\xa0классам\xa0в\xa0разметке; -\xa0FP\xa0—\xa0количество \xa0 ложноположительных \xa0 исходов \xa0 по \xa0всем \xa0классам: \xa0 объекты, \xa0 отнесенные \xa0 к\xa0целе-\nвым \xa0классам \xa0 по \xa0 результатам \xa0 работы \xa0 алгоритма \xa0 ИИ, \xa0 не \xa0 принадлежат \xa0 к \xa0целевым \xa0классам \xa0 в \xa0разметке;',
 4256)

In [54]:
query = 'что надо включать в отчет о мощности СИИ'
query_emb = model.encode([f"query: {query}"], normalize_embeddings=True)
sims = []
for passage_emb in tqdm(embeddings):
    sims.append(cosine_similarity(query_emb, passage_emb)[0][0])

  0%|          | 0/6544 [00:00<?, ?it/s]

In [64]:
def get_best_answers(query, model, top_k=3):
    query_emb = model.encode([f"query: {query}"], normalize_embeddings=True)
    sims = []
    print(f'Searching in {len(chunks)} docs, {len(all_texts)} chunks...')
    for passage_emb in tqdm(embeddings, desc='Comparing'):
        sims.append(cosine_similarity(query_emb, passage_emb)[0][0])
    sims = np.argsort(sims)[::-1][:top_k]
    for i, sim in enumerate(sims):
        print(f'Chunk №{i+1}: {all_texts[sim]}')
        print(f'------------end of chunk №{i+1}------------')

In [55]:
np.argsort(sims)[::-1][:20]

array([1687, 2799, 3275, 2795, 1686, 3270, 2732, 3349, 6045, 5892, 2472,
       2796, 2794, 6044, 2805, 3344, 3276, 2804, 2791, 3343], dtype=int64)

In [60]:
all_texts[1687]

'8.3.2 В протокол тестирования следует включить параметры, влияющие на показатели качества: \nпараметры ЦПУ, объем памяти, включая объем хранения (общий объем для хранения моделей ИИ), \nсетевой трафик и прочее. 8.3.3 Для оценки уровня производительности СИИ рекомендуется применять следующий набор \nсубхарактеристик: характер изменения во времени (time behaviour), характер изменения (использова-\nния) ресурсов (resource utilization) и производительные возможности (capacity).'

In [82]:
query = 'a tool for scanning things in airports used for safety'
get_best_answers(query, model, top_k=5)

Searching in 62 docs, 6544 chunks...


Comparing:   0%|          | 0/6544 [00:00<?, ?it/s]

Chunk №1: Интроскоп является одним из основных средств досмотра, необходимых для обеспечения безо -
пасности на территории аэропорта. С использованием интроскопов выявляются незаконные вложения 
в сумках багажа и ручной клади. Обычно выявление незаконных вложений происходит путем ручного 
дешифрирования теневых снимков, полученных с использованием интроскопа.
------------end of chunk №1------------
Chunk №2: [ГОСТ Р 55249—2012, пункт 3.1.3]
3.2 сумка: Ручная кладь, багаж либо другая емкость, пригодная для провоза либо проноса неза-
конных вложений, предъявляемые к анализу.ГОСТ Р 58777—2019
Н А Ц И О Н А Л Ь Н Ы Й   С Т А Н Д А Р Т   Р О С С И Й С К О Й   Ф Е Д Е Р А Ц И И
Воздушный транспорт
АЭРОПОРТЫ. ТЕХНИЧЕСКИЕ СРЕДСТВА ДОСМОТРА
Методика определения показателей качества распознавания незаконных вложений  
по теневым рентгеновским изображениям 
Air transport. Airports.
------------end of chunk №2------------
Chunk №3: Airports. Technical means of inspection. Methodology for determina

In [3]:
max_pages = 100
chunks = {}
path = Path('c:/users/1645286/vkr/gosts')
for dirpath, _, filenames in os.walk(path):
    for filename in tqdm(filenames):
        #print(filename)
        file_path = os.path.join(dirpath, filename)
        if filename.endswith('.pdf'):
            reader = PdfReader(file_path)
            if len(reader.pages) > max_pages:
                print(f'Too many pages: {len(reader.pages)} ({filename})')
                continue
            text = ''
            for i, page in enumerate(reader.pages):
                page_text = page.extract_text()
                if i == len(reader.pages) - 1:
                    if re.search('редактор', page_text, re.I):
                        break
                text += (' ' + page_text)
        elif filename.endswith('.txt'):
            with open(file_path, 'r') as file:
                text = file.read()
        else:
            print('file name with unknown extension: ', filename)
            continue
        chunks[filename] = []
        start_pos = re.search('введение', text,  re.I)
        if start_pos:
            start_pos = start_pos.end()
        else:
            start_pos = 0
        text = text[start_pos:]
        
        sentences = list(sentenize(text))
        sentences = [sent.text for sent in sentences]
        #print(sentences[-5:])
        i = 0
        sent_window = 3
        overlap = 1
        min_length = 300
        max_length = 600
        emergency_c = 0
        #print(len(sentences))
        while i < len(sentences) - overlap:
            #print(i)
            emergency_c += 1
            chunk = ''
            emergency_c_inner = 0
            add = 0
            while len(chunk) < min_length:
                emergency_c_inner += 1
                chunk = ' '.join(sentences[i:i+sent_window+add])
                add += 1
                if i + sent_window + add >= len(sentences):
                    break
                if emergency_c_inner > 100:
                    print('inner emergency stopping')
                    break
            if len(chunk) > max_length:
                add -= 1
                chunk = chunk = ' '.join(sentences[i:i+sent_window+add-1])
            i += (sent_window + (add - 1) - overlap)
            chunks[filename].append(chunk)
            if emergency_c > len(sentences)*3 or emergency_c_inner > 100:
                print(i)
                print('emergency stopping')
                break
        
        #for chunk in chunks:
            #print(chunk)
            #print('-------chunk end--------')
        #print(np.mean([len(chunk) for chunk in chunks]))
        #print([len(chunk) for chunk in chunks])

  0%|          | 0/64 [00:00<?, ?it/s]

file name with unknown extension:  176da4cd-ee92-4801-b51a-57744de5b3ee.rtf
Too many pages: 294 (gost-r-59926-2021.pdf)


In [10]:
re.search('введение', 'ав ывавы вВедЕние павпвап', re.I).end()

17

In [25]:
re.search('редактор', 'dsfds', re.I)

In [70]:
import uuid
import requests
import ast

def get_token():
    
    u = str(uuid.uuid4())
    url = "https://ngw.devices.sberbank.ru:9443/api/v2/oauth"
    
    payload='scope=GIGACHAT_API_PERS'
    headers = {
      'Content-Type': 'application/x-www-form-urlencoded',
      'Accept': 'application/json',
      'RqUID': u,
      'Authorization': 'Basic ZDMxZWJmYjMtOGQ5MC00NDIzLTkyNGEtZDE0ODE1YTlhYmI1OjMyYzg0MTJlLTBlYjctNGYxOC04MjI3LTdhMmZjNzY4MTVjYQ=='
    }
    
    response = requests.request("POST", url, headers=headers, data=payload, verify=False)
    
    token = ast.literal_eval(response.text)['access_token']
    return token, u
TOKEN, latest_uuid = get_token()

In [85]:
import requests
import json

def ask_gigachat(question, system_prompt, model='GigaChat', temperature=1, top_p=0.1, max_tokens=512, repetition_penalty=1, stream=False, n=1):
    
    url = "https://gigachat.devices.sberbank.ru/api/v1/chat/completions"
    
    payload = json.dumps({
      "model": model,
      "messages": [
        {
            "role": "system",
            "content": system_prompt
        },
        { 
          "role": "user",
          "content": question
        }
      ],
      "temperature": temperature,
      "top_p": top_p,
      "n": n,
      "stream": stream,
      "max_tokens": max_tokens,
      "repetition_penalty": repetition_penalty
    })
    headers = {
      'Content-Type': 'application/json',
      'Accept': 'application/json',
      'Authorization': f'Bearer {TOKEN}'
    }
    
    response = requests.request("POST", url, headers=headers, data=payload, verify=False)

    return response.status_code, ast.literal_eval(response.text)

In [86]:
def count_tokens(text, model='GigaChat'):
    url = 'https://gigachat.devices.sberbank.ru/api/v1/tokens/count'
    payload = json.dumps({
        "model": model,
        "input": text
    })
    headers = {
      'Content-Type': 'application/json',
      'Accept': 'application/json',
      'Authorization': f'Bearer {TOKEN}'
    }
    response = requests.post(url, headers=headers, data=payload, verify=False)
    return ast.literal_eval(response.text)

In [87]:
def get_doc_text(doc_id=0, max_pages=100):
    """
    doc_id - Номер документа
    max_pages (default: 100) - Сколько максимум страниц брать (если больше, то будет ошибка)
    """
    path = Path('c:/users/1645286/vkr/files_cropped')
    files = []
    for dirpath, _, filenames in os.walk(path):
        files.extend(filenames)

    filename = filenames[doc_id]
        
    file_path = os.path.join(dirpath, filename)
    if filename.endswith('.pdf'):
        reader = PdfReader(file_path)
        if len(reader.pages) > max_pages:
            print(f'Too many pages: {len(reader.pages)} ({filename})')
            return None
        text = ''
        for i, page in enumerate(reader.pages):
            page_text = page.extract_text()
            if i == len(reader.pages) - 1:
                if re.search('редактор', page_text, re.I):
                    break
            text += (page_text + ' ')
    elif filename.endswith('.txt'):
        with open(file_path, 'r') as file:
            text = file.read()
    else:
        print('file name with unknown extension: ', filename)
        return None
    return text

In [88]:
for i in range(10):
    text = get_doc_text(i)
    print(f"ID документа: {i}. Длина в символах: {len(text)}. Количество токенов: {count_tokens(text, model='GigaChat')['tokens']}")

ID документа: 0. Длина в символах: 28852. Количество токенов: 7389
ID документа: 1. Длина в символах: 14292. Количество токенов: 4128
ID документа: 2. Длина в символах: 98371. Количество токенов: 30287
ID документа: 3. Длина в символах: 13087. Количество токенов: 4483
ID документа: 4. Длина в символах: 47023. Количество токенов: 15205
ID документа: 5. Длина в символах: 11308. Количество токенов: 3723
ID документа: 6. Длина в символах: 10338. Количество токенов: 3377
ID документа: 7. Длина в символах: 78158. Количество токенов: 20114
ID документа: 8. Длина в символах: 86205. Количество токенов: 23832
ID документа: 9. Длина в символах: 74192. Количество токенов: 20208


In [92]:
text = get_doc_text(5)
print(text)

государственные стандарты 
союза сер
ГОЕУДЛРСТВЕНЯДЯ 
СИСТЕМА
москва
государственный комитет ессг  
по стандартам
1986 ГОСУДАРСТВЕННЫЕ СТАНДАРТЫ  
СОЮЗА ССР
ГОСУДАРСТВЕННАЯ СИСТЕМА 
СТАНДАРТИЗАЦИИ
ГОСТ 1.0-85, ГОСТ 1.2-85 - ГОСТ 1.5-85,  
ГОСТ 1.7-85, ГОСТ 1.13-85, ГОСТ 1.15—85,  
ГОСТ 1.18-85 — ГОСТ 1.20-85, ГОСТ 1.22—85,  
ГОСТ 1.25—76
Издание официальное
ГОСУДАРСТВЕННЫЙ КОМИТЕТ СССР ПО СТАНДАРТАМ
Москва 1986 © Издательство стандартов, 1986 УДК 006.05:006.354 Группа ТБО
ОКСТУ 0001ГОСУДАРСТВЕННЫЙ СТАНДАРТ СОЮЗА ССР
Государственная система  
стандартизации
Содержание и оформление дел отраслевых  
и республиканских стандартовГОСТ
State system of standardization.  
Contents and presentation of branch  
and republic standards files1.18-85
Дата введения 01.01Л7
1. ОБЩИЕ ПОЛОЖЕНИЯ
1.1. На каждый отраслевой и республиканский стандарт должно быть  
сформировано дело соответственно отраслевого и республиканского  
стандарта (далее — дело стандарта).
1.2. В дело стандарта включают документы, по

In [93]:
count_tokens(text, model='GigaChat')['tokens']

3723

In [99]:
system_prompt = (
    "Ты выступаешь в роли суммаризатора. Тебе на вход от пользователя поступает нормативный документ (ГОСТ) и ты "
    'вкратце (4-5 предложений) должен изложить о чем этот документ. Начинай свой ответ с фраз типа "В этом документе описывается...",'
    '"В этом документе говорится о..." и похожих.'    
)
system_prompt

'Ты выступаешь в роли суммаризатора. Тебе на вход от пользователя поступает нормативный документ (ГОСТ) и ты вкратце (4-5 предложений) должен изложить о чем этот документ. Начинай свой ответ с фраз типа "В этом документе описывается...","В этом документе говорится о..." и похожих.'

In [97]:
status, giga_response = ask_gigachat(
    question=text,
    system_prompt=system_prompt,
    model='GigaChat',
    temperature=0.5,
    top_p=1,
    max_tokens=512,
    repetition_penalty=1,
    stream=False,
    n=1
)

In [98]:
if status == 200:
    print(giga_response['choices'][0]['message']['content'])
else:
    print(giga_response)

Этот документ о стандартизации. В нем описывается процесс формирования дел отраслевых и республиканских стандартов. В дело стандарта включают документы, подготовленные в процессе разработки, согласования, утверждения, регистрации, издания, проверок, изменения и отмены стандарта. Дела отмененных стандартов по истечении установленных сроков ведомственного хранения передают на хранение. В дело стандарта подшивают первые машинописные экземпляры (с подлинными подписями), копии или типографские издания документов. В дело стандарта должны быть включены следующие документы: техническое задание на разработку стандарта, проект стандарта в первой и окончательной редакции, документы о согласовании и утверждении стандарта, утвержденный стандарт, сводка отзывов на первую редакцию проекта стандарта, акт научно-технической и правовой экспертизы окончательной редакции проекта стандарта.
