In [2]:
!pip install load_dotenv
!pip install faiss-cpu
!pip install bitsandbytes
!pip install llama_index
!pip install langchain_huggingface
!pip install llama-index-embeddings-langchain
!pip install llama-index-vector-stores-faissv
!pip install llama-index-embeddings-huggingface

Collecting faiss-cpu
  Using cached faiss_cpu-1.10.0-cp311-cp311-manylinux_2_28_x86_64.whl.metadata (4.4 kB)
Using cached faiss_cpu-1.10.0-cp311-cp311-manylinux_2_28_x86_64.whl (30.7 MB)
Installing collected packages: faiss-cpu
Successfully installed faiss-cpu-1.10.0
Collecting bitsandbytes
  Downloading bitsandbytes-0.45.3-py3-none-manylinux_2_24_x86_64.whl.metadata (5.0 kB)
Collecting nvidia-cuda-nvrtc-cu12==12.4.127 (from torch<3,>=2.0->bitsandbytes)
  Downloading nvidia_cuda_nvrtc_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-runtime-cu12==12.4.127 (from torch<3,>=2.0->bitsandbytes)
  Downloading nvidia_cuda_runtime_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-cupti-cu12==12.4.127 (from torch<3,>=2.0->bitsandbytes)
  Downloading nvidia_cuda_cupti_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cudnn-cu12==9.1.0.70 (from torch<3,>=2.0->bitsandbytes)
  Downloadin

In [3]:
from huggingface_hub import login
from dotenv import load_dotenv
import openai
import os

# download .env
load_dotenv(".env")

try:
    HF_TOKEN= os.getenv('TOKEN_HF')
    OPENAI_API_KEY= os.getenv('OPENAI_API_KEY')

    if HF_TOKEN is None:
        raise ValueError("TOKEN_HF не найдена!")

    if OPENAI_API_KEY is None:
        raise ValueError("OPENAI_API_KEY не найдена!")

    # login(HF_TOKEN, add_to_git_credential=True)
    login(HF_TOKEN)
    os.environ["OPENAI_API_KEY"] = OPENAI_API_KEY
    print("OpenAI API key successful installed!")
except Exception as e:
    print(f"Ошибка: {e}")

OpenAI API key successful installed!


# Модель

In [4]:
MODEL_NAME = "IlyaGusev/saiga_llama3_8b"

In [5]:
DEFAULT_SYSTEM_PROMPT = """Ты — MLTeacherBot, интеллектуальный помощник и учитель математики для машинного обучения.
Твоя задача — объяснять сложные математические темы понятным языком, помогать решать задачи и давать полезные советы.

### Твой стиль общения:
- Дружелюбный, терпеливый, мотивирующий.
- Объясняй просто и структурированно, подстраиваясь под уровень пользователя.
- Используй аналогии и примеры.

Ты — наставник, который делает обучение увлекательным и доступным.
"""

In [6]:
import torch
from torch import bfloat16
from transformers import AutoModelForCausalLM, AutoTokenizer, GenerationConfig, BitsAndBytesConfig, pipeline
import bitsandbytes


# 4-разрядная конфигурация для загрузки LLM с меньшим объемом памяти графического процессора
quantization_config = BitsAndBytesConfig(
    load_in_4bit=True,  # Использую 4-битную квантизацию
    bnb_4bit_quant_type='nf4',  # используем формат NF4
    bnb_4bit_use_double_quant=True,  # применить повторное квантовани
    bnb_4bit_compute_dtype=bfloat16  # Тип из которого преобразуем (доступная точность модели)
)

# Загружаем модель с квантизацией и автоматическим распределением
model = AutoModelForCausalLM.from_pretrained(
    MODEL_NAME,
    quantization_config=quantization_config,
    device_map="auto"
)

model.eval()

tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)

generation_config = GenerationConfig.from_pretrained(MODEL_NAME)
print(generation_config)

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


config.json:   0%|          | 0.00/689 [00:00<?, ?B/s]

model.safetensors.index.json:   0%|          | 0.00/23.9k [00:00<?, ?B/s]

Downloading shards:   0%|          | 0/4 [00:00<?, ?it/s]

model-00001-of-00004.safetensors:   0%|          | 0.00/4.98G [00:00<?, ?B/s]

model-00002-of-00004.safetensors:   0%|          | 0.00/5.00G [00:00<?, ?B/s]

model-00003-of-00004.safetensors:   0%|          | 0.00/4.92G [00:00<?, ?B/s]

model-00004-of-00004.safetensors:   0%|          | 0.00/1.17G [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/277 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/51.0k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/9.09M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/446 [00:00<?, ?B/s]

GenerationConfig {
  "bos_token_id": 128000,
  "do_sample": true,
  "eos_token_id": 128009,
  "max_new_tokens": 1536,
  "pad_token_id": 128000,
  "repetition_penalty": 1.12,
  "temperature": 0.2,
  "top_k": 30,
  "top_p": 0.9
}



# подготовка бызы знаний

## Загружаем документы

In [7]:
!gdown "https://drive.google.com/uc?export=download&id=1QQEday3YxXd8b9mcDzlpPkI2i8W75Cvn"

Downloading...
From (original): https://drive.google.com/uc?export=download&id=1QQEday3YxXd8b9mcDzlpPkI2i8W75Cvn
From (redirected): https://drive.google.com/uc?export=download&id=1QQEday3YxXd8b9mcDzlpPkI2i8W75Cvn&confirm=t&uuid=4a5172a4-b306-481f-b5cc-34c040d8d51e
To: /content/library.zip
100% 71.8M/71.8M [00:01<00:00, 46.3MB/s]


In [8]:
!unzip "/content/library.zip"

Archive:  /content/library.zip
   creating: library/
  inflating: library/shevcov_lineynaya_algebra.pdf  
  inflating: library/Математический анализ (В. А. Зорич) 1 часть.pdf  
  inflating: library/Математический анализ (В. А. Зорич) 2 часть.pdf  
  inflating: library/Введение в математическую статистику_Ивченко и др_2010 -600с_.pdf  
  inflating: library/ТЕОРИЮ ВЕРОЯТНОСТЕЙ.pdf  
  inflating: library/мат статистика.pdf  


In [9]:
from llama_index.core import SimpleDirectoryReader

#Загрузка всех Pdf из папки
Documents = SimpleDirectoryReader("/content/library").load_data()

### проверка загруженных документов

In [10]:
expected_files = [
    "shevcov_lineynaya_algebra.pdf",
    "Математический анализ (В. А. Зорич) 1 часть.pdf",
    "Математический анализ (В. А. Зорич) 2 часть.pdf",
    "Введение в математическую статистику_Ивченко и др_2010 -600с_.pdf",
    "ТЕОРИЮ ВЕРОЯТНОСТЕЙ.pdf",
    "мат статистика.pdf"
]

# Получаем имена загруженных файлов
loaded_files = [doc.metadata.get("file_name", "unknown") for doc in Documents]

# Проверяем, все ли файлы загружены
missing_files = set(expected_files) - set(loaded_files)
if missing_files:
    print(f"Предупреждение: следующие файлы не были загружены: {missing_files}")
else:
    print("Все файлы успешно загружены.")

Все файлы успешно загружены.


# Разбиваем текст на чанки

In [11]:
from llama_index.core.node_parser import SentenceSplitter

node_parser = SentenceSplitter(chunk_size=512, chunk_overlap=100)
nodes = node_parser.get_nodes_from_documents(Documents)

In [12]:
from llama_index.core import Settings
from llama_index.core import VectorStoreIndex
from langchain_huggingface  import HuggingFaceEmbeddings
from llama_index.embeddings.langchain import LangchainEmbedding

#  Создаем эмбеддинги с помощью модели Hugging Face

In [13]:
import numpy as np
from llama_index.embeddings.huggingface import HuggingFaceEmbedding

embed_model = HuggingFaceEmbedding(model_name="sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2")

modules.json:   0%|          | 0.00/229 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/122 [00:00<?, ?B/s]

README.md:   0%|          | 0.00/4.12k [00:00<?, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/645 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/471M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/480 [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/9.08M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/239 [00:00<?, ?B/s]

1_Pooling%2Fconfig.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

In [14]:
embeddings = np.array([embed_model.get_text_embedding(node.get_text()) for node in nodes], dtype=np.float32)

# Создаём FAISS индекс

In [15]:
import faiss

# Создаем индекс FAISS
dimension = embeddings.shape[1]
index = faiss.IndexFlatL2(dimension)
index.add(embeddings)

In [16]:

# RAG pipeline с FAISS
def rag_pipeline_with_faiss(query):

    query_embedding = np.array([embed_model.get_text_embedding(query)], dtype=np.float32)

    k = 5

    distances, indices = index.search(query_embedding, k)

    retrieved_nodes = [nodes[i] for i in indices[0]]

    context = "\n".join([node.get_text() for node in retrieved_nodes])

    prompt = f"Ответь на вопрос, используя контекст:\n\nКонтекст:\n{context}\n\nВопрос: {query}\n\nОтвет:"

    inputs = tokenizer(prompt, return_tensors="pt").to(model.device)

    outputs = model.generate(**inputs, max_new_tokens=200)

    response = tokenizer.decode(outputs[0], skip_special_tokens=True)

    return response

# Пример использования
query = "как оценивать сосотав совокупности ?"
response = rag_pipeline_with_faiss(query)
print(response)

Ответь на вопрос, используя контекст:

Контекст:
Такая позиция означает отождествле-
ние числа с последовательностью1 все более точных его приближений чис-
лами, получаемыми при измерении. Но всякое измерение есть конечная
совокупность сравнений с некоторым эталоном или с соизмеримой с ним
его частью, поэтому результат измерения должен выражаться натуральны-
ми, целыми или, более общо, рациональными числами. Значит, последова-
тельностями рациональных чисел в принципе можно описать все множество
вещественных чисел, построив после должного анализа математическую ко-
пию или, лучше сказать, модель того, что делают с числами люди, не по-
дозревающие об их аксиоматическом описании. А они вместо сложения и
умножения неизвестных им измеряемых величин складывают и умножают
их приближенные значения (не всегда, правда, умея сказать, какое отноше-
ние имеет результат таких действий к тому, что получилось бы, если бы эти
действия производились с точными значениями величин; ниже мы обсудим
этот во

In [17]:
# Пример использования
query = "что такое критерий пустых ящиков ?"
response = rag_pipeline_with_faiss(query)
print(response)

Ответь на вопрос, используя контекст:

Контекст:
a) Точка и конечное число точек суть множества меры нуль.
b) Объединение конечного или счетного числа множеств меры нуль есть
множество меры нуль.
c) Подмножество множества меры нуль само есть множество меры нуль.
d) Отрезок [a, b] при a <b не является множеством меры нуль.
◀ a) Точку можно покрыть одним интервалом длины меньшей, чем любое
наперед заданное числоϵ> 0, поэтому точка является множеством меры
нуль. В остальном a) вытекает из b).
b) ПустьE =
⋃
n
En — не более чем счетное объединение множествEn меры
нуль. Поϵ>0 для каждогоEn строим покрытие{In
/k.short} множестваEn такое, что∑
/k.short
|In
/k.short|< ϵ
2n.
А вот с точки зрения
распространения понятия предела на более общие функции, определенные
не на числовом множестве, наиболее удобной является последняя форму-
лировка, которую мы и выделили. Из нее, кстати, видно, что мы сможем
определить понятие предела отображенияf : X →Y, если нам будет сказано,
что такое окрестность точк