## Установка зависимостей для gguf формата моделей




In [1]:
%%capture
!pip install -q langchain==0.0.322 pydantic openai==0.28.1 faiss-cpu==1.7.4 tiktoken==0.5.1 sentence_transformers==2.2.2 nltk==3.8.1
!pip install -U -q deep-translator==1.11.4

In [2]:
import os
os.environ["LANGCHAIN_TRACING"] = "true" # Если вы хотите отслеживать выполнение программы, установите значение «true»

In [3]:
%%capture
!CMAKE_ARGS="-DLLAMA_CUBLAS=on" FORCE_CMAKE=1 pip install -q --upgrade --force-reinstall llama-cpp-python==0.2.11 --no-cache-dir

In [4]:
%%capture
!pip install -q numpy==1.23.1

In [6]:
import os
import getpass
import openai

# Получение ключа API от пользователя и установка его как переменной окружения
from google.colab import userdata
openai_key = userdata.get("OPENAI_API_KEY")
os.environ["OPENAI_API_KEY"] = openai_key
openai.api_key = openai_key

In [7]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [9]:
%%capture
!pip install -U langchain-community

In [10]:
from langchain.vectorstores import FAISS
from langchain.llms import OpenAI
from langchain.docstore.document import Document
from langchain.embeddings.openai import OpenAIEmbeddings
from langchain.text_splitter import RecursiveCharacterTextSplitter, NLTKTextSplitter, CharacterTextSplitter
import requests
import re
import pickle
import pandas as pd
import nltk
import os
nltk.download('punkt')

# функция для загрузки документа по ссылке из гугл драйв
def load_document_text(url: str) -> str:
    # Extract the document ID from the URL
    match_ = re.search('/document/d/([a-zA-Z0-9-_]+)', url)
    if match_ is None:
        raise ValueError('Invalid Google Docs URL')
    doc_id = match_.group(1)

    # Download the document as plain text
    response = requests.get(f'https://docs.google.com/document/d/{doc_id}/export?format=txt')
    response.raise_for_status()
    text = response.text

    return text

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


In [12]:
%%capture
!pip install faiss-cpu

### Подготовка файлов

In [13]:
from langchain.document_loaders import TextLoader


documents = load_document_text("https://docs.google.com/document/d/1o0x1b-kSmHBzSOG5jP2tTywRi0AdygsM3FOkozO4BCI")
with open('documents.txt', 'w',encoding='utf8') as f:
    f.write(documents)

loader = TextLoader('/content/documents.txt')
documents = loader.load()
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1024, chunk_overlap=0)
docs = text_splitter.split_documents(documents)

# Используем первые 400 чанков из 867, т.к. OpenAI накладывает ограничения на бесплатном аккаунте.
# Это повлияет на качество ответов на вопросы, которые относятся к незадействованной части базы знаний
db = FAISS.from_documents(docs[:400], OpenAIEmbeddings())

In [14]:
# Сохраняем папку UII_DZ_24_Lite_ru с файлами index.pkl и index.faiss
project_path = "/content/drive/MyDrive"
db.save_local(os.path.join(project_path, 'UII_DZ_24_Lite_ru'))

In [15]:
# Сохраняем файл docs_new_ru.pkl (такой же как index.pkl)
with open(os.path.join(project_path, 'docs_new_ru.pkl'), 'wb') as f:
    pickle.dump(docs, f, protocol = None, fix_imports = True)

In [18]:
from langchain_community.vectorstores import FAISS
from langchain.embeddings.openai import OpenAIEmbeddings
import os

project_path = "/content/drive/MyDrive/"
db = FAISS.load_local(
    os.path.join(project_path, 'UII_DZ_24_Lite_ru'),
    OpenAIEmbeddings(),
    allow_dangerous_deserialization=True
)

### Saiga2_7B_8_gguf

In [19]:
!wget https://huggingface.co/IlyaGusev/saiga2_7b_gguf/resolve/main/model-q8_0.gguf

--2025-10-01 17:26:53--  https://huggingface.co/IlyaGusev/saiga2_7b_gguf/resolve/main/model-q8_0.gguf
Resolving huggingface.co (huggingface.co)... 3.165.160.12, 3.165.160.61, 3.165.160.11, ...
Connecting to huggingface.co (huggingface.co)|3.165.160.12|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://cas-bridge.xethub.hf.co/xet-bridge-us/64c0641684191336fafc1202/ba18afe551fb13782bc13ad91378dc623b331f076c390c461b94bf107ad4b8cf?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Content-Sha256=UNSIGNED-PAYLOAD&X-Amz-Credential=cas%2F20251001%2Fus-east-1%2Fs3%2Faws4_request&X-Amz-Date=20251001T172654Z&X-Amz-Expires=3600&X-Amz-Signature=52307000ce71fa1797c74d56c885793c3589b90d92a33bd5134d603fec446c6f&X-Amz-SignedHeaders=host&X-Xet-Cas-Uid=public&response-content-disposition=inline%3B+filename*%3DUTF-8%27%27model-q8_0.gguf%3B+filename%3D%22model-q8_0.gguf%22%3B&x-id=GetObject&Expires=1759343214&Policy=eyJTdGF0ZW1lbnQiOlt7IkNvbmRpdGlvbiI6eyJEYXRlTGVzc1RoYW4iOnsiQVdTOk

In [20]:
# import fire
from llama_cpp import Llama

SYSTEM_PROMPT = """Ты менеджер поддержки в чате Российской компании Университет Исскуственного интеллекта. Компания продает курсы по AI.
У компании есть большой документ со всеми материалами о продуктах компании на русском языке. Тебе задает вопрос клиент в чате, дай ему ответ на языке оригинала,
опираясь на отрывки из этого документа, постарайся ответить так, чтобы человек захотел после ответа купить обучение. Отвечай максимально
точно по документу, не придумывай ничего от себя. Никогда не ссылайся на название документа или названия его отрывков при ответе, клиент ничего не должен
знать о документе, по которому ты отвечаешь. Отвечай от первого лица без ссылок на источники на которые ты опираешься. Если ты не знаешь ответа или его нет в документе, то ответь "Я не могу отетить на этот вопрос".
"""
SYSTEM_TOKEN = 1788
USER_TOKEN = 1404
BOT_TOKEN = 9225
LINEBREAK_TOKEN = 13

ROLE_TOKENS = {
    "user": USER_TOKEN,
    "bot": BOT_TOKEN,
    "system": SYSTEM_TOKEN
}

def get_message_tokens(model, role, content):
    message_tokens = model.tokenize(content.encode("utf-8"))
    message_tokens.insert(1, ROLE_TOKENS[role])
    message_tokens.insert(2, LINEBREAK_TOKEN)
    message_tokens.append(model.token_eos())
    return message_tokens


def get_system_tokens(model):
    system_message = {
        "role": "system",
        "content": SYSTEM_PROMPT
    }
    return get_message_tokens(model, **system_message)


In [21]:
def interact(
    model,
    query,
    tokens,
    top_k=30,
    top_p=0.9,
    temperature=0.2,
    repeat_penalty=1.1
):

    answer = []

    while True:
        user_message = f"User: {query}"
        message_tokens = get_message_tokens(model=model, role="user", content=user_message)
        role_tokens = [model.token_bos(), BOT_TOKEN, LINEBREAK_TOKEN]
        tokens += message_tokens + role_tokens
        generator = model.generate(
            tokens,
            top_k=top_k,
            top_p=top_p,
            temp=temperature,
            repeat_penalty=repeat_penalty,

        )
        for token in generator:
            token_str = model.detokenize([token]).decode("utf-8", errors="ignore")
            tokens.append(token)
            answer.append(token_str)
            if token == model.token_eos():
                print('Ответ: ',''.join(answer))
                return ''.join(answer)
                break

            print(token_str, end="", flush=True)

        print()


In [22]:
# инициализируем модель
model = Llama(
    model_path='/content/model-q8_0.gguf',
    n_ctx=4096,
    n_parts=1,
    n_gpu_layers=32,
    n_batch=512,
    n_gqa=8,
    verbose=True
)

system_tokens = get_system_tokens(model)
tokens = system_tokens
model.eval(tokens)

AVX = 1 | AVX2 = 1 | AVX512 = 0 | AVX512_VBMI = 0 | AVX512_VNNI = 0 | FMA = 1 | NEON = 0 | ARM_FMA = 0 | F16C = 1 | FP16_VA = 0 | WASM_SIMD = 0 | BLAS = 1 | SSE3 = 1 | SSSE3 = 1 | VSX = 0 | 


In [23]:
# Определяем функцию
import re
import time

history = []
query_time = []

def callModel(question):
    # Получаем 3 релевантных фрагмента
    sim_docs = db.similarity_search(question, k=3)
    context = "\n\n".join([doc.page_content for doc in sim_docs])

    # Формируем запрос БЕЗ лишних символов
    user_query = f"""Ответь на вопрос клиента, используя только информацию из документа.

Вопрос: {question}

Информация из документа:
{context}
"""

    system_tokens = get_system_tokens(model)
    tokens = system_tokens
    model.eval(tokens)

    start_time = time.time()
    result = interact(model, query=user_query, tokens=tokens)
    finish_time = time.time()

    print(f'\n⏱ Время обработки: {round(finish_time - start_time)} сек\n')
    history.append([question, result, context])
    return result


In [24]:
# Вводим вопрос
question = input()

# получаем ответ
result = callModel(question)
# print (result)

какие тарифы предлагает Университет ИИ и чем они отличаются?


Llama.generate: prefix-match hit


Ответ: Университет Искусственного Интеллекта предлагает несколько тарифов обучения: "Базовый", "Основной", "Расширенный", "Продвинутый", "AI под ключ" и "ChatGPT". Каждый из них предлагает уникальные возможности и глубокое погружение в мир нейронных сетей, программирования и других актуальных тем искусственного интеллекта. Независимо от уровня подготовки, студенты смогут найти подходящий тариф, соответствующий их интересам и целям.Ответ:  Ответ: Университет Искусственного Интеллекта предлагает несколько тарифов обучения: "Базовый", "Основной", "Расширенный", "Продвинутый", "AI под ключ" и "ChatGPT". Каждый из них предлагает уникальные возможности и глубокое погружение в мир нейронных сетей, программирования и других актуальных тем искусственного интеллекта. Независимо от уровня подготовки, студенты смогут найти подходящий тариф, соответствующий их интересам и целям.

⏱ Время обработки: 31 сек

