### Огляд використаних технологій

Цей проєкт побудований на комплексному поєднанні технологій обробки природної мови, інформаційного пошуку та генерації відповідей, що дозволяє реалізувати підхід Retrieval-Augmented Generation (RAG). Нижче описано основні технології та концепції, які використовуються для досягнення результатів.

#### 1. **Retrieval-Augmented Generation (RAG)**

RAG – це технологія, яка комбінує витяг інформації (retrieval) з бази знань або документа та генерацію тексту за допомогою мовної моделі. Основні компоненти цього підходу:
   - **Витяг інформації (retrieval)**: На основі індексованих документів здійснюється пошук релевантних сегментів тексту для відповіді на конкретний запит.
   - **Генерація (generation)**: Мовна модель отримує контекст, отриманий із витягнутих даних, та генерує узгоджену відповідь на запит.

RAG-підхід особливо корисний у сценаріях, де моделі потрібен додатковий контекст або доступ до специфічної інформації для формування точних відповідей.

#### 2. **Мовна модель Llama 3.1 (Ollama)**

Модель Llama 3.1, доступна через інтерфейс Ollama, забезпечує високу якість генерації тексту на основі запиту. Модель оптимізована для швидкої та точної обробки текстових запитів, що дозволяє генерувати детальні, узгоджені відповіді. Llama використовується для обробки розширених запитів (augmented prompts) і є ключовим елементом у RAG-системі.

#### 3. **Векторне індексування (Vector Store Index)**

Індекс векторного пошуку (Vector Store Index) створює векторні представлення текстових даних (ембеддінги), що дозволяє швидко знаходити релевантні фрагменти тексту на основі схожості. Основні компоненти:
   - **Ембеддінги**: Числові представлення тексту, що дозволяють порівнювати різні фрагменти тексту.
   - **Індексування та пошук**: Індексування дозволяє зберігати документи у векторному форматі, а засіб пошуку (retriever) швидко знаходить схожі фрагменти для заданого запиту.

#### 4. **Hugging Face Transformers**

Бібліотека Hugging Face Transformers забезпечує доступ до моделей і токенізаторів для створення ембеддінгів. У проєкті використовується модель `sentence-transformers/all-MiniLM-L6-v2` для генерації векторів тексту, які пізніше індексуються. Завдяки цій бібліотеці можна створювати локальні ембеддінги для тексту, що пришвидшує пошук і знижує потребу в зовнішньому інтернет-з’єднанні.

#### 5. **Jupyter Notebook для інтерактивного тестування та налаштування**

Jupyter Notebook використовується для інтерактивної розробки та тестування, дозволяючи виконувати код по клітинках і швидко отримувати зворотний зв’язок на різних етапах проєкту. Це зручне середовище для налаштування параметрів, аналізу результатів та демонстрації можливостей RAG-підходу.

#### 6. **Змішані підходи до обробки тексту та керування середовищем**

- **Python бібліотека `os`**: використовується для управління ключами доступу (API keys) та змінними середовища, що дозволяє безпечно зберігати конфіденційні дані.
- **IPython.display**: використовується для виведення результатів у форматі Markdown, що покращує читабельність і наочність результатів, особливо в контексті взаємодії з Jupyter Notebook.

### Висновок

Поєднання RAG-підходу, мовної моделі Llama 3.1, векторного індексування та бібліотек для створення ембеддінгів забезпечує гнучку і потужну платформу для автоматизації пошуку та генерації текстових відповідей. Використання цих технологій дозволяє створити ефективну систему, здатну швидко знаходити релевантну інформацію та інтегрувати її у відповіді на складні запити, що особливо корисно в освітніх, дослідницьких та інформаційно-аналітичних проєктах.

### Вступ

Цей проєкт використовує методику Retrieval-Augmented Generation (RAG), яка комбінує вилучення інформації з наявних даних та генерацію нових текстових відповідей за допомогою мовних моделей. У цьому документі пояснюється, як завантажити дані, налаштувати середовище та виконати процес вилучення і генерації за допомогою моделі Llama 3.1.

---

### Markdown Cell 1: Встановлення необхідних бібліотек

```python
# Needed libraries installation (run it once)
# %pip install -r requirements.txt
```

#### Пояснення

Цей рядок коду використовується для встановлення всіх необхідних бібліотек, зазначених у файлі `requirements.txt`. Команда `%pip install` дозволяє швидко встановити залежності, потрібні для роботи з мовними моделями та іншими інструментами в цьому проєкті. Цей рядок закоментовано, але його можна розкоментувати для встановлення пакетів.

---

### Markdown Cell 2: Налаштування ключа API для OpenAI

```python
import os

os.environ["OPENAI_API_KEY"] = "NA"
```

#### Пояснення

Цей блок коду налаштовує змінну середовища `OPENAI_API_KEY`, що потрібна для роботи з OpenAI API. Вона задається через бібліотеку `os`, яка дозволяє керувати змінними середовища для зберігання конфіденційних даних у безпечному форматі. У цьому випадку, значення ключа API задано як `"NA"`, але на практиці воно повинно містити справжній ключ доступу до API.

### Markdown Cell 3: Ініціалізація моделі Ollama

```python
from llama_index.llms.ollama import Ollama

llm = Ollama(model="llama3.1", request_timeout=4000.0)
```

#### Пояснення

1. **Імпорт Ollama** – з модуля `llama_index.llms.ollama` імпортується клас `Ollama`, що дозволяє використовувати модель Llama 3.1 для генерації тексту.
2. **llm = Ollama(model="llama3.1", request_timeout=4000.0)** – цей рядок коду створює об'єкт `llm`, що представляє модель Llama 3.1 з наступними параметрами:
   - **model="llama3.1"** – задає версію моделі для використання.
   - **request_timeout=4000.0** – встановлює максимальний час очікування відповіді у 4000 секунд, що дозволяє уникнути переривання запиту через тривалий час обробки, особливо при обробці великих обсягів даних.

Цей блок коду підключає модель Llama 3.1 для подальшого використання у процесі генерації тексту.

---

### Markdown Cell 4: Завантаження документів з директорії

```python
from llama_index.core import SimpleDirectoryReader

documents = SimpleDirectoryReader("data").load_data()
```

#### Пояснення

1. **Імпорт SimpleDirectoryReader** – клас `SimpleDirectoryReader` з `llama_index.core` дозволяє легко завантажувати документи з вказаної директорії.
2. **documents = SimpleDirectoryReader("data").load_data()** – цей рядок ініціалізує об'єкт `SimpleDirectoryReader` з параметром `"data"`, що вказує на папку з документами. Метод `load_data()` завантажує всі файли з цієї папки та зберігає їх у змінній `documents`.

Цей блок коду забезпечує завантаження всіх документів з папки `data`, щоб модель могла використовувати їх для вилучення інформації під час генерації відповідей.

### Markdown Cell 5: Налаштування моделі для локального збереження ембеддінгів

```python
from transformers import AutoModel, AutoTokenizer

save_directory = "./local_embedding_model"
```

#### Пояснення

1. **Імпорт AutoModel і AutoTokenizer** – ці класи з бібліотеки `transformers` дозволяють працювати з моделями та токенізаторами для створення ембеддінгів тексту. Ембеддінги – це числові представлення текстових даних, які можуть бути корисними для подальшого аналізу або пошуку інформації.
2. **save_directory = "./local_embedding_model"** – змінна `save_directory` вказує на директорію для збереження локальної копії моделі ембеддінгів. Це дозволяє використовувати збережені дані локально без необхідності повторного завантаження з інтернету, що оптимізує швидкість роботи.

Цей блок коду підготовлює директорію для збереження моделі ембеддінгів, яка буде використовуватися для обробки текстових даних та вилучення інформації.

---

### Markdown Cell 6: Збереження моделі ембеддінгів локально

```python
model = AutoModel.from_pretrained("sentence-transformers/all-MiniLM-L6-v2")
tokenizer = AutoTokenizer.from_pretrained("sentence-transformers/all-MiniLM-L6-v2")

model.save_pretrained(save_directory)
tokenizer.save_pretrained(save_directory)
```

#### Пояснення

1. **Завантаження моделі та токенізатора** – `AutoModel.from_pretrained` і `AutoTokenizer.from_pretrained` завантажують модель та токенізатор для ембеддінгів з репозиторію `sentence-transformers/all-MiniLM-L6-v2`. Ця модель спеціалізується на перетворенні тексту в ембеддінги, що придатні для пошукових і класифікаційних задач.
2. **Збереження моделі та токенізатора локально**:
   - `model.save_pretrained(save_directory)` зберігає модель у вказаній директорії.
   - `tokenizer.save_pretrained(save_directory)` зберігає токенізатор у тій самій директорії.

Цей код зберігає модель та її токенізатор локально, що дозволяє уникнути повторного завантаження та оптимізує час виконання під час майбутніх запитів.

### Markdown Cell 7: Створення функції для ембеддінгів

Цей блок коду створює спеціалізовану функцію для генерації ембеддінгів тексту з використанням налаштованої моделі та токенізатора. Це дозволяє нам перетворити текст на числові представлення, які можна використовувати для пошуку та класифікації інформації.

```python
from llama_index.core.embeddings import BaseEmbedding
import torch

class LocalEmbedding(BaseEmbedding):
    def __init__(self, model, tokenizer):
        super().__init__()
        self._model = model  # Приватний атрибут для зберігання моделі
        self._tokenizer = tokenizer

    def get_text_embedding(self, text):
        # Токенізація з обрізанням до максимального розміру моделі
        inputs = self._tokenizer(text, return_tensors="pt", max_length=512, truncation=True)
        with torch.no_grad():
            outputs = self._model(**inputs)
        # Обчислення середнього значення останнього прихованого стану як ембеддінгу
        embedding = outputs.last_hidden_state.mean(dim=1).squeeze().numpy()
        return embedding

    # Реалізація необхідних методів
    def _get_query_embedding(self, query):
        return self.get_text_embedding(query)

    def _get_text_embedding(self, text):
        return self.get_text_embedding(text)

    async def _aget_query_embedding(self, query):
        return self.get_text_embedding(query)

# Ініціалізація користувацької функції для ембеддінгів
embedding_model = LocalEmbedding(model=model, tokenizer=tokenizer)
```

#### Пояснення

1. **Клас `LocalEmbedding`** – створює новий клас для роботи з ембеддінгами, який наслідує від `BaseEmbedding`. Він включає методи для обробки текстових запитів та перетворення їх на ембеддінги.
2. **Метод `get_text_embedding`**:
   - Виконує токенізацію тексту з використанням обмеження до 512 токенів.
   - За допомогою `torch.no_grad()` генерує вихідні значення, не зберігаючи обчислення для градієнтів, що знижує обсяг ресурсів.
   - Обчислює середнє значення останнього прихованого стану як вектор ембеддінгу.
3. **Додаткові методи**:
   - `_get_query_embedding` та `_get_text_embedding` використовують `get_text_embedding` для отримання ембеддінгу запиту чи тексту.
   - `_aget_query_embedding` – асинхронна версія, яка дозволяє інтегрувати цю функцію в асинхронні процеси.

Цей клас забезпечує зручний спосіб створювати та обробляти ембеддінги тексту, що важливо для реалізації функцій пошуку та вилучення інформації в RAG-системах.

### Markdown Cell 8: Налаштування та створення індексу VectorStore для роботи з документами

Цей блок коду налаштовує глобальні параметри для роботи з індексом векторного пошуку, який використовує модель Llama та спеціалізовану функцію ембеддінгів. Індекс векторного пошуку дозволяє ефективно знаходити релевантні документи на основі схожості їх векторних представлень.

```python
from llama_index.core import VectorStoreIndex, Settings

# Налаштування глобальних параметрів
Settings.llm = llm
Settings.embed_model = embedding_model
# Встановлення розміру сегмента (кількість токенів у сегменті)
Settings.chunk_size = 256
# Встановлення перекриття сегментів (кількість токенів, що перекриваються між сегментами)
Settings.chunk_overlap = 64

# Створення індексу на основі завантажених документів
index = VectorStoreIndex.from_documents(documents, show_progress=True)
```

#### Пояснення

1. **Налаштування глобальних параметрів (`Settings`)**:
   - `Settings.llm = llm` – вказує, яка мовна модель (Llama 3.1) буде використовуватися для генерації відповідей.
   - `Settings.embed_model = embedding_model` – встановлює модель ембеддінгів (`embedding_model`), яка буде перетворювати текст у векторні представлення.
   - `Settings.chunk_size = 256` – визначає кількість токенів у кожному сегменті документа. Це розбиває документ на невеликі частини, полегшуючи пошук.
   - `Settings.chunk_overlap = 64` – встановлює кількість токенів, що перекриваються між сегментами. Це забезпечує плавність переходу між сегментами та знижує ймовірність втрати важливої інформації на межі сегментів.
   
2. **Створення індексу**:
   - `VectorStoreIndex.from_documents(documents, show_progress=True)` створює індекс, використовуючи завантажені документи, та показує прогрес створення. Індекс дозволяє виконувати ефективний пошук за векторними представленнями тексту.

Цей блок коду забезпечує підготовку документів до пошуку, налаштовуючи параметри для оптимальної роботи з текстовими даними та генерацією ембеддінгів. Така структура індексу підходить для пошуку релевантних сегментів тексту в системах, що використовують RAG.

### Markdown Cell 9: Налаштування засобу пошуку (retriever) з використанням індексу

Цей блок коду налаштовує об'єкт `retriever` для виконання пошуку релевантних сегментів тексту з індексу. Це дозволяє знайти документи або їх частини, які найбільше відповідають заданому запиту.

```python
# Налаштування засобу пошуку з використанням індексу
top_k = 5
retriever = index.as_retriever(similarity_top_k=top_k)
```

#### Пояснення

1. **top_k** – змінна, що визначає кількість найбільш релевантних результатів, які буде повертати засіб пошуку. У цьому випадку значення `top_k = 5` означає, що буде знайдено та повернено до 5 найбільш схожих сегментів.
2. **index.as_retriever(similarity_top_k=top_k)** – цей метод створює об'єкт `retriever` з індексу. `similarity_top_k=top_k` визначає, що пошук виконується на основі схожості та повертає до `top_k` найближчих відповідей.

Цей `retriever` дозволяє виконувати швидкий пошук релевантної інформації в індексі, повертаючи найбільш підходящі результати на запити користувача. Це важлива частина системи RAG, яка забезпечує доступ до релевантних даних для подальшої генерації текстових відповідей.

### Markdown Cell 10: Функція для створення розширеного запиту з контекстом

Ця функція `get_augmented_prompt` створює розширений запит (prompt) для генерації відповіді, який включає витягнуті сегменти тексту з індексу. Це підхід Retrieval-Augmented Generation (RAG), де контекст додається до запиту для підвищення точності відповіді.

```python
def get_augmented_prompt(query):
    retrieved_documents = retriever.retrieve(query)
    # Доповнюємо запит, включаючи витягнуті документи
    # Створення розширеного запиту з контекстом із знайдених документів
    augmented_prompt = f"Context:\n"
    for index, doc in enumerate(retrieved_documents):
        text = doc.text
        print(f"Retrieved {index+1}: {text} \n")
        augmented_prompt += f"{text}\n"
    augmented_prompt += f"\nQuestion: {query}\nPlease provide a concise and accurate answer based on the context."
    return augmented_prompt
```

#### Пояснення

1. **retriever.retrieve(query)** – виконує пошук в індексі за запитом `query` і повертає релевантні документи.
2. **augmented_prompt** – змінна, що формується для створення повного запиту з контекстом. Вона починається з тексту `"Context:\n"`, після якого додається вміст кожного витягнутого документа.
3. **for loop** – цикл, що проходить по кожному витягнутому документу. Для кожного документа:
   - **print(f"Retrieved {index+1}: {text} \n")** – виводить на екран текст витягнутого сегмента з його індексом.
   - **augmented_prompt += f"{text}\n"** – додає текст витягнутого документа до розширеного запиту.
4. **Додавання питання** – в кінці `augmented_prompt` додається текст запиту та інструкція для створення точної відповіді на основі контексту.

Ця функція створює розширений запит, який містить релевантні витяги з документів, що надає додатковий контекст для точного формулювання відповіді на питання. Такий підхід є основою RAG-систем, де модель отримує додаткову інформацію перед створенням відповіді.

### Markdown Cell 11: Отримання відповіді з використанням RAG-підходу

Ця функція `get_RAG_response` надсилає розширений запит із доданим контекстом до мовної моделі для генерації узгодженої відповіді на основі отриманої інформації.

```python
from IPython.display import Markdown, display

# Надсилання розширеного запиту до мовної моделі для отримання узагальненої відповіді
def get_RAG_response(query):    
    response = llm.complete(get_augmented_prompt(query))
    return response
```

#### Пояснення

1. **get_augmented_prompt(query)** – викликає функцію `get_augmented_prompt`, яка створює розширений запит із контекстом, доданим з витягнутих документів, щоб забезпечити точність відповіді.
2. **llm.complete(augmented_prompt)** – надсилає розширений запит до мовної моделі (налаштованої як `llm`). Модель обробляє запит з контекстом і генерує відповідь, яка базується на наданій інформації.
3. **return response** – повертає згенеровану моделью відповідь, що є результатом обробки запиту з урахуванням контексту.

Функція `get_RAG_response` використовує RAG-підхід, комбінуючи витягнуті релевантні дані з індексу та мовну модель для створення детальної відповіді. Цей підхід допомагає моделі генерувати більш точні та релевантні відповіді на запити, особливо коли потрібен додатковий контекст із документів.

### Загальні висновки

Цей проєкт демонструє, як сучасні технології обробки природної мови можуть значно покращити процес пошуку інформації та генерації тексту на основі запитів. Використовуючи підхід Retrieval-Augmented Generation (RAG), система дозволяє отримувати високоякісні, контекстно-орієнтовані відповіді, об’єднуючи переваги інформаційного пошуку та генерації тексту. Ось основні висновки:

1. **Ефективне поєднання пошуку та генерації тексту**:
   - RAG забезпечує точні відповіді на основі релевантного контексту, який система знаходить у попередньо завантажених документах. Це значно покращує якість відповідей порівняно зі звичайною генерацією без контексту, особливо для складних запитів, які потребують детальної інформації.

2. **Використання векторного індексування для швидкого доступу до інформації**:
   - Завдяки індексу векторного пошуку проєкт може швидко знаходити найбільш релевантні документи або їх частини, що значно підвищує швидкість обробки запитів і точність відповіді. Векторне індексування та пошук по ембеддінгам забезпечують гнучкість і масштабованість для великих обсягів тексту.

3. **Застосування мовної моделі Llama 3.1 для генерації якісних текстів**:
   - Модель Llama 3.1 демонструє високу якість генерації відповідей завдяки можливості працювати з контекстом і складними запитами. Це відкриває нові можливості для використання мовних моделей в інформаційно-аналітичних та освітніх проєктах.

4. **Гнучкість і масштабованість рішення**:
   - Використання RAG-підходу дозволяє адаптувати систему під різні потреби, зокрема, в освітній сфері, дослідницьких проєктах, аналітиці та інших галузях. Система легко масштабується і може працювати з великими наборами даних, завдяки чому її можна адаптувати для широкого спектру завдань.

5. **Безпечне та надійне керування конфіденційними даними**:
   - Проєкт демонструє практику безпечного зберігання ключів API та налаштувань середовища, що є критично важливим аспектом при роботі з хмарними платформами та конфіденційними даними. 

### Підсумок

Цей проєкт є прикладом того, як сучасні методи обробки природної мови можуть значно покращити роботу з інформацією, забезпечуючи швидкий доступ до потрібних даних та точну генерацію відповідей на запити. Поєднання RAG, векторного індексування та мовних моделей створює гнучкий інструмент, який може бути корисним у різноманітних застосуваннях — від освіти до аналізу даних.