<a href="https://colab.research.google.com/github/Raoufmamedov/PET_PROJECTS/blob/main/AI_%D0%BF%D0%BE%D0%BC%D0%BE%D1%89%D0%BD%D0%B8%D0%BA_%D0%BD%D0%B0_%D0%B1%D0%B0%D0%B7%D0%B5_LLM_%D1%81_RAG_(Final).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# -*- coding: utf-8 -*-

# **Jupyter Notebook: AI-помощник на базе LLM с RAG для запросов к базе знаний**

## **1. Введение**

### Данный ноутбук посвящен разработке интеллектуального помощника, использующего большие языковые модели (LLM) и Retrieval-Augmented Generation (RAG) для ответов на вопросы на основе предоставленной базы знаний.

### **Бизнес-проблема:** Компании часто имеют обширную внутреннюю документацию, к которой трудно получить быстрый и точный доступ. AI-помощник с RAG может предоставлять контекстно-зависимые ответы, улучшая эффективность и удовлетворенность.

### **Цель проекта:** Построить RAG-систему, способную отвечать на вопросы на основе реального текстового корпуса, используя бесплатные ресурсы Google Colab. В качестве примера мы сформируем базу знаний из англоязычного текста Библии короля Якова (KJB), опубликованного на сайте проекта Project Gutenberg. Это большой корпус, состаящий из 39 книг, и он хорошо подходит в качестве коллекции документов различающихся стилем и манерой повествования, а также содержащих упоминание разных личностей имеющих одно и то же имя.

### Источник данных: "The King James Version of the Bible" (Библия короля Якова)
### URL: https://www.gutenberg.org/files/10/10-0.txt

In [None]:
# ## 2. установка и импорт необходимых библиотек, настройка среды
# Здесь мы импортируем все библиотеки, которые потребуются для проекта.
# Если ноутбук запускается в Google Colab, убедитесь, что используется среду с GPU (T4).

!pip install transformers sentence-transformers langchain langchain-community faiss-cpu accelerate bitsandbytes -q
!pip install pypdf -q # Для чтения PDF, если понадобится


In [None]:

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import re
import os
import requests # Для загрузки данных
from tqdm.notebook import tqdm # Для прогресс-баров
from google.colab import userdata
import os

# Для RAG
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.embeddings import HuggingFaceEmbeddings
from langchain_community.vectorstores import FAISS
from langchain_community.llms import HuggingFacePipeline
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.prompts import PromptTemplate
from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline, BitsAndBytesConfig
import torch
from langchain_core.documents import Document

In [None]:
# Проверяем доступность GPU
if torch.cuda.is_available():
    print(f"GPU доступен: {torch.cuda.get_device_name(0)}")
    device = "cuda"
else:
    print("GPU не доступен, будет использоваться CPU.")
    device = "cpu"


### Осуществляем загрузку данных и их очистку с удалением метаданных и сохраняем текст для дальнейшей обработки


In [None]:
print("Загрузка текста книги из Project Gutenberg...")
book_url = "https://www.gutenberg.org/files/10/10-0.txt"
response = requests.get(book_url)
response.raise_for_status() # Проверка, успешности запроса

raw_text = response.text
print(f"Текст успешно загружен. Размер текста: {len(raw_text)} символов.")

# Очистка текста: удаляем метаданные Project Gutenberg в начале и конце
start_marker = "*** START OF THE PROJECT GUTENBERG EBOOK 10 ***"
end_marker = "*** END OF THE PROJECT GUTENBERG EBOOK 10 ***"

start_index = raw_text.find(start_marker)
end_index = raw_text.find(end_marker)

if start_index!= -1 and end_index!= -1:
    cleaned_text = raw_text[start_index + len(start_marker):end_index].strip()
    print(f"Текст очищен от метаданных. Размер очищенного текста: {len(cleaned_text)} символов.")
else:
    cleaned_text = raw_text.strip()
    print("Метаданные не найдены, используется весь текст.")

# Сохраняем очищенный текст в файл для дальнейшей обработки
with open("KJB.txt", "w", encoding="utf-8") as f:
    f.write(cleaned_text)
print("Очищенный текст сохранен в 'KJB.txt'.")

## **Предварительная обработка текста и генерация эмбеддингов**

### На этом этапе мы подготовим текстовые данные для RAG-системы: чанкируем текст, сгенерируем векторные представления (эмбединги), индексируя их в векторной базе данных FAISS, которая позволит нам эффективно искать сходство между векторами.

In [None]:
from langchain_core.documents import Document

# Обёртывание текста в объект Document
documents = [Document(page_content=cleaned_text, metadata={"source": "your_source"})]

# Разбиение
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=400,
    chunk_overlap=50,
    length_function=len
)
chunks = text_splitter.split_documents(documents)  # Список чанков

print(f"Текст разбит на {len(chunks)} чанков.")
print("Пример чанка:")
print(chunks[25].page_content[:1000] + "...")

### Для создания из чанков индексируемых в FAISS эмбедингов мы будем использовать небольшую и эффективную модель семантического поиска **all-MiniLM-L6-v2**. Для последующего локального использования в API, мы сохраним базу данных локально

In [None]:
embedding_model_name = "sentence-transformers/all-MiniLM-L6-v2"
embeddings = HuggingFaceEmbeddings(model_name=embedding_model_name, model_kwargs={'device': device})

In [None]:
# 4.3. Индексация в векторной базе данных (FAISS)
vector_store = FAISS.from_documents(chunks, embeddings)

# Сохраняем векторную базу
vector_store_path = "/tmp/faiss_index_KJB"
vector_store.save_local(vector_store_path)
print(f"Путь к хранилищу базы данных FAISS: {vector_store_path}")

## **Настройка Большой Языковой Модели (LLM)**

### Генерировать ответы мы будем с помощью сравнительно небольшой и при этом  мощной модели **gemma-7b-it**, работающей даже на CPU применяя 4-битную квантизацию, чтобы уместить модель в память GPU и ускорить её.

In [None]:
# Конфигурация для 4-битной квантизации
nf4_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_use_double_quant=True,
    bnb_4bit_compute_dtype=torch.bfloat16
)

# Загрузка токенизатора и модели
# llm_model_name = "google/gemma-7b-it"
# llm_model_name = "meta-llama/Llama-3-8B-Instruct"
llm_model_name = "mistralai/Mistral-7B-Instruct-v0.2"

# https://huggingface.co/meta-llama/Meta-Llama-3.1-8B-Instruct
print(f"Загрузка токенизатора для {llm_model_name}...")

### Модель 'google/gemma-7b-it' является "gated repo" на Hugging Face. Для доступа к ней необходимо:
1. Перейти на страницу модели на Hugging Face (https://huggingface.co/google/gemma-7b-it) и принять условия использования.
2. Сгенерировать API токен в настройках Hugging Face (https://huggingface.co/settings/tokens).
3. Добавить этот токен в секреты Colab с именем HF_TOKEN.
4. Перезапустить сессию Colab (Runtime -> Restart session).

In [None]:
# import os
# import torch
# from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig, pipeline
# from google.colab import drive

# # --- 1. Монтирование Google Drive ---
# # Это необходимо для доступа к вашим файлам на Google Drive
# print("Монтирование Google Drive...")
# drive.mount('/content/drive')
# print("Google Drive смонтирован.")

# # --- 2. Определение путей сохранения на Google Drive ---
# # Выберите путь на вашем Google Drive, где будут храниться модели.
# # Рекомендуется создать отдельную папку, например, 'colab_models'.
# drive_base_path = '/content/drive/MyDrive/colab_models'

# # Имя вашей LLM модели (например, "google/gemma-7b-it" или "meta-llama/Llama-3-8B-Instruct")
# llm_model_name = "google/gemma-7b-it" # Укажите здесь вашу выбранную модель

# # Создаем специфические пути для модели и токенизатора на Google Drive
# model_save_path = os.path.join(drive_base_path, llm_model_name.replace("/", "_") + "_model")
# tokenizer_save_path = os.path.join(drive_base_path, llm_model_name.replace("/", "_") + "_tokenizer")

# # --- 3. Настройка квантизации (как у вас было) ---
# nf4_config = BitsAndBytesConfig(
#     load_in_4bit=True,
#     bnb_4bit_quant_type="nf4",
#     bnb_4bit_use_double_quant=True,
#     bnb_4bit_compute_dtype=torch.bfloat16
# )

# # --- 4. Загрузка или скачивание модели и токенизатора ---
# tokenizer = None
# model_llm = None

# # Проверяем, существует ли модель уже на Google Drive
# if os.path.exists(model_save_path) and os.path.exists(tokenizer_save_path):
#     print(f"Модель и токенизатор '{llm_model_name}' найдены на Google Drive. Загрузка...")
#     try:
#         tokenizer = AutoTokenizer.from_pretrained(tokenizer_save_path)
#         model_llm = AutoModelForCausalLM.from_pretrained(
#             model_save_path,
#             quantization_config=nf4_config,
#             torch_dtype=torch.bfloat16,
#             device_map="auto"
#         )
#         print("Модель и токенизатор успешно загружены с Google Drive.")
#     except Exception as e:
#         print(f"Ошибка при загрузке с Google Drive: {e}. Попытка скачать из Hugging Face...")
#         # Если загрузка с Drive не удалась, удаляем неполные файлы и скачиваем заново
#         if os.path.exists(model_save_path):
#             os.rmdir(model_save_path) # Удалить, если была частичная загрузка
#         if os.path.exists(tokenizer_save_path):
#             os.rmdir(tokenizer_save_path) # Удалить, если была частичная загрузка

#         tokenizer = AutoTokenizer.from_pretrained(llm_model_name)
#         model_llm = AutoModelForCausalLM.from_pretrained(
#             llm_model_name,
#             quantization_config=nf4_config,
#             torch_dtype=torch.bfloat16,
#             device_map="auto"
#         )
#         # После успешной загрузки из Hugging Face, сохраняем на Drive
#         print(f"Модель и токенизатор '{llm_model_name}' успешно скачаны. Сохранение на Google Drive...")
#         os.makedirs(model_save_path, exist_ok=True)
#         os.makedirs(tokenizer_save_path, exist_ok=True)
#         model_llm.save_pretrained(model_save_path)
#         tokenizer.save_pretrained(tokenizer_save_path)
#         print("Модель и токенизатор сохранены на Google Drive для будущего использования.")
# else:
#     print(f"Модель и токенизатор '{llm_model_name}' не найдены на Google Drive. Скачивание из Hugging Face...")
#     # Если на Drive нет, скачиваем из Hugging Face
#     tokenizer = AutoTokenizer.from_pretrained(llm_model_name)
#     model_llm = AutoModelForCausalLM.from_pretrained(
#         llm_model_name,
#         quantization_config=nf4_config,
#         torch_dtype=torch.bfloat16,
#         device_map="auto"
#     )
#     # После успешной загрузки из Hugging Face, сохраняем на Drive
#     print(f"Модель и токенизатор '{llm_model_name}' успешно скачаны. Сохранение на Google Drive...")
#     os.makedirs(model_save_path, exist_ok=True)
#     os.makedirs(tokenizer_save_path, exist_ok=True)
#     model_llm.save_pretrained(model_save_path)
#     tokenizer.save_pretrained(tokenizer_save_path)
#     print("Модель и токенизатор сохранены на Google Drive для будущего использования.")

# # --- 5. Создание пайплайна (как у вас было) ---
# text_generation_pipeline = pipeline(
#     task="text-generation",
#     model=model_llm,
#     tokenizer=tokenizer,
#     max_new_tokens=256,
#     do_sample=True,
#     temperature=0.5, # Используйте свои последние настройки
#     top_k=75,
#     top_p=0.9,
#     model_kwargs={"quantization_config": nf4_config, "torch_dtype": torch.bfloat16}
# )

# print("Настройка RAG-системы завершена.")

### Загружаем квантизировагнную модель LLM и создаём пайплайн HuggingFace для генерации текста ответа.

In [None]:
# Загружаем модель с Hugging Face.
from google.colab import userdata
import os

hf_token = userdata.get('HF_TOKEN')
if hf_token:
    os.environ["HF_TOKEN"] = hf_token
else:
    print("Токен Hugging Face не найден")

tokenizer = AutoTokenizer.from_pretrained(llm_model_name)
print(f"Загрузка модели {llm_model_name} с 4-битной квантизацией...")
model_llm = AutoModelForCausalLM.from_pretrained(
    llm_model_name,
    quantization_config=nf4_config,
    torch_dtype=torch.bfloat16,
    device_map="auto") # Автозагрузка модели на доступное устройство (GPU/CPU)

# Создание пайплайна
text_generation_pipeline = pipeline(
    task="text-generation",
    model=llm_model_name,
    tokenizer=tokenizer, # Remove tokenizer argument when passing model name
    max_new_tokens=256, # Максимальное количество новых токенов в ответе
    do_sample=True,
   temperature=0.5, # Увеличено немного, для баланса между точностью и синтезом
    top_k=75,        # Оставляем как было
    top_p=0.9,       # Увеличено немного
    # num_beams=5,
    # repetition_penalty=1.1, # Для предотвращения повторений
    model_kwargs={"quantization_config": nf4_config, "torch_dtype": torch.bfloat16} # передача конфигурации квантизации
)
print("HuggingFace Pipeline для генерации текста настроен.")


# Оборачиваем пайплайн в LangChain LLM
llm = HuggingFacePipeline(pipeline=text_generation_pipeline)
print("LLM-пайплайн для LangChain настроен.")


### Конвейер RAG остоит из двух составляющих:

### 1.  **Retrieval (Получение):** Извлечение на основе запроса пользователя релевантных текстовых фрагментов из базы знаний.
### 2.  **Generation (Генерация):** Использование LLM для создания ответа, основываясь на извлеченном контексте.

### Создаём промпт, инструктирующий LLM как ей необходимо отвечать на вопросы исходя из контекста, а также RAG-цепочку, связывающую векторный поиск с генерацией,  а также ретривер для извлечения релевантного контента из векторной базы данных (задаётся количество выдаваемых единиц контента).


# Порядок операций в RAG-цепочке
### 1. Получение вопроса
### 2. Передаем вопроса ретриверу для извлечения контекста
### 3. Формирование промпта с контекстом и вопросом
### 4. Передача промпта в LLM для генерации ответа
### 5. Парсинг выводимого LLM текста в строку

In [None]:
# Промпт
template = """Используйте только следующий фрагмент контекста, чтобы ответить на вопрос пользователя.

Инструкции:

Извлеките все релевантные факты и информацию, относящиеся к вопросу.

На основе этих фактов, сформулируйте краткий, точный и информативный ответ, что известно о той или иной личности, предмете, обстоятельствах, месте, действиях, о которых спрашивается.

Если контекст не содержит достаточной информации для прямого ответа на вопрос, укажите это.

Контекст:
{context}

Вопрос: {question}

Ответ:"""

RAG_PROMPT_TEMPLATE = PromptTemplate.from_template(template)

# Создание RAG-цепочки (LangChain)
from langchain_core.runnables import RunnablePassthrough, RunnableLambda
from langchain_core.output_parsers import StrOutputParser

# Создаем ретривер из векторного хранилища
retriever = vector_store.as_retriever(search_kwargs={"k": 7})

rag_chain = (
    {"context": retriever, "question": RunnablePassthrough()}

| RAG_PROMPT_TEMPLATE
| llm
| StrOutputParser()
)

print("Конвейер RAG успешно настроен.")

### Мы построили RAG систему. Самое время исппытать её и посмотреть что у нас получилось.

In [None]:
# --- 7. Тестирование RAG-системы ---

print("\n--- Тестирование RAG-системы ---")

# Вопрос 1: Вопрос, на который есть ответ в тексте
question1 = "Who was Uriah the Hittite?"
print(f"Вопрос: {question1}")
response1 = rag_chain.invoke(question1)
print(f"Ответ: {response1}")
print("-" * 50)

# Вопрос 2: Вопрос о персонаже
question2 = "Name of first son of Adam?"
print(f"Вопрос: {question2}")
response2 = rag_chain.invoke(question2)
print(f"Ответ: {response2}")
print("-" * 50)

# # Вопрос 3: Вопрос, на который, возможно, нет прямого ответа в контексте
question3 = "Who is Moses?"
print(f"Вопрос: {question3}")
response3 = rag_chain.invoke(question3)
print(f"Ответ: {response3}")
print("-" * 50)

# # Вопрос 4: Вопрос о деталях сюжета
question4 = "Who was the serpent?"
print(f"Вопрос: {question4}")
response4 = rag_chain.invoke(question4)
print(f"Ответ: {response4}")
print("-" * 50)



In [None]:

# Пример 5: Вопрос о деталях сюжета
question5 = "Who was Nebuchadnezzar?"
print(f"Вопрос: {question5}")
response5 = rag_chain.invoke(question5)
print(f"Ответ: {response5}")
print("-" * 50)


In [None]:

# Пример 5: Вопрос о деталях сюжета
question5 = "What was a name of Adam's wife"
print(f"Вопрос: {question5}")
response5 = rag_chain.invoke(question5)
print(f"Ответ: {response5}")
print("-" * 50)


Вывод по тестированию RAG-системы:Система успешно извлекает релевантный контекст и генерирует ответы.