**Цель** последней работы - разработать на основе материалов лабораторных 3-5 полноценный RAG-пайплайн’

**RAG** (Retrieval-Augmented Generation) — это метод генерации текста, при котором языковая модель сначала извлекает релевантные данные из базы знаний, а затем использует их для формирования наиболее точного ответа на запрос.

**Задачи:**

1. **LLM:** Зарегистрироваться и получить доступ к **Google AI Studio** – Для выполнения работы рекомендую Free Tier [этой](https://ai.google.dev/gemini-api/docs/pricing#gemini-2.5-pro-preview) модели. Изучить документацию по отправке запросов к модели (REST API или SDK). Получить API-ключ и удостовериться, что квота бесплатного использования позволяет выполнять необходимые запросы.
2. **Интеграция этапа поиска:** Использовать разработанный в ЛР5 семантический поиск. При поступлении нового вопроса от пользователя, сначала выполнить поиск по векторной базе Chroma:
   - Вычислить эмбеддинг запроса (вопроса пользователя).
   - Найти, например, топ-3 самых близких вопросов из базы знаний Stack Overflow. Извлечь для них сохраненные тексты (например, тексты лучших ответов или конспект ответов).
   - Полученный контекст (3 ответа или фрагмента знаний) сохранить для использования в генерации.
3. **Формирование запроса (prompt) для генерации:** Скомпоновать вход для LLM таким образом, чтобы включить как сам вопрос пользователя, так и найденный контекст. Например, сформировать текст запроса вида: *«Вопрос пользователя: ... \[текст вопроса\] ... Контекст из базы знаний: ... \[фрагменты ответов на похожие вопросы\] ... Сформулируй итоговый ответ, используя информацию из контекста.»*. Учесть ограничения на длину prompt’а (при необходимости отобрать самые краткие/информативные фрагменты). Убедиться, что LLM получит достаточно данных, чтобы сгенерировать обоснованный ответ.
4. **Вызов генеративной модели:** С помощью API Google AI Studio отправить сформированный prompt в модель LLM и получить сгенерированный ответ. Реализовать этот вызов в коде. Обработать ответ от модели — извлечь текст сгенерированного решения/совета.
5. **Вывод ответа пользователю:** Объединить все компоненты в единый цикл: запрос -> поиск в Chroma -> формирование prompt -> вызов LLM -> получение и предоставление ответа. Протестировать работу цепочки на нескольких примерах вопросов (в идеале тех, на которые ответы есть в датасете). Убедиться, что ответы содержательно опираются на предоставленный контекст.
6. **Заключительный анализ:** Проанализировать работу финального RAG-приложения. Привести примеры успешных ответов и разобрать случаи, где модель могла дать неточный ответ даже при наличии контекста. Оценить скорость ответа (включая время на поиск и на генерацию). Сделать выводы о реализованном прототипе: как наличие этапа Retrieval помогло улучшить генерацию, какие есть ограничения у текущей реализации, и какие шаги можно предпринять для дальнейшего улучшения (например, более продвинутая обработка prompt’а, ранжирование результатов поиска, или обновление базы знаний). Завершить работу оформлением отчета, включающего описание финального пайплайна RAG и демонстрацию его работы на тестовых вопросах.




# Лабораторная работа #6

In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

## Создаём CromaDB, но без лишних данных

In [12]:
# Очищенный датасет вопросов
questions_clear = pd.read_csv(r'C:\Users\VORANDPAV BIG SPB\Downloads\dataset\Questions_clear.csv', encoding='latin1')
# Выводим первые 5 строк
questions_clear.head()

Unnamed: 0,Id,OwnerUserId,CreationDate,ClosedDate,Score,Title,Body
0,80,26.0,2008-08-01T13:57:07Z,,26,SQLStatement.execute() - multiple queries in o...,write database generation script sql want exec...
1,90,58.0,2008-08-01T14:41:24Z,2012-12-26T03:45:49Z,144,Good branching and merging tutorials for Torto...,really good tutorial explain branching merge a...
2,120,83.0,2008-08-01T15:50:08Z,,21,ASP.NET Site Maps,anyone get experience create sqlbased aspnet s...
3,180,2089740.0,2008-08-01T18:42:19Z,,53,Function for creating color wheels,something pseudosolved many time never quite f...
4,260,91.0,2008-08-01T23:22:08Z,,49,Adding scripting functionality to .NET applica...,little game write c us database backend tradin...


In [13]:
# Очищенный датасет ответов
answers_clear = pd.read_csv(r'C:\Users\VORANDPAV BIG SPB\Downloads\dataset\Answers_clear.csv', encoding='latin1')
# Выводим первые 5 строк
answers_clear.head()

Unnamed: 0,Id,OwnerUserId,CreationDate,ParentId,Score,Body
0,92,61.0,2008-08-01T14:45:37Z,90,13,version control subversion good resource sourc...
1,124,26.0,2008-08-01T16:09:47Z,80,12,wound use kind hack actually work pretty well ...
2,199,50.0,2008-08-01T19:36:46Z,180,1,read somewhere human eye distinguish less 4 va...
3,269,91.0,2008-08-01T23:49:57Z,260,4,yes thought soon figure another domainspecific...
4,307,49.0,2008-08-02T01:49:46Z,260,28,oleg shilos c script solution code project rea...


In [15]:
# Находим Id лучшего ответа для каждого вопроса
best_answers_clear = answers_clear.loc[answers_clear.groupby('ParentId')['Score'].idxmax()]

# Объединяем с вопросами (inner join)
# В данном случае оставляем только Id вопросов и Id ответов
merged = pd.merge(
    questions_clear[['Id']],
    best_answers_clear[['ParentId', 'Id']],
    left_on='Id',
    right_on='ParentId',
    suffixes=('_question', '_answer')
)

In [16]:
# Загружаем эмбеддинги из файла
emb_matrix = np.load(r'C:\Users\VORANDPAV BIG SPB\Downloads\embeddings.npy')
print(f"Эмбеддинги загружены: {emb_matrix.shape[0]} объектов, размерность {emb_matrix.shape[1]}")

Эмбеддинги загружены: 1102568 объектов, размерность 384


In [17]:
# Присоединяем эмбеддинги к merged
merged['embeddings'] = list(emb_matrix)
merged

Unnamed: 0,Id_question,ParentId,Id_answer,embeddings
0,80,80,124,"[0.01357938, -0.024715697, -0.056818295, 0.089..."
1,90,90,1466832,"[0.022999706, -0.054095984, -0.04250651, -0.07..."
2,120,120,124363,"[0.002508051, -0.064242, -0.015580753, 0.00925..."
3,180,180,539,"[0.009283214, 0.027419629, -0.014058785, -0.06..."
4,260,260,307,"[-0.015197881, -0.029962653, -0.12446398, 0.04..."
...,...,...,...,...
1102563,40142860,40142860,40142994,"[-0.041066702, 0.094635084, 0.016694594, 0.017..."
1102564,40142900,40142900,40143005,"[-0.07177593, -0.01753621, 0.07370899, -0.0023..."
1102565,40142910,40142910,40143389,"[0.0020394926, -0.033933215, -0.04788427, -0.0..."
1102566,40142940,40142940,40143139,"[0.0074667125, 0.11854785, -0.06675289, -0.068..."


In [18]:
# Удаляем лишние столбцы
merged = merged.drop(columns=['ParentId'])
merged

Unnamed: 0,Id_question,Id_answer,embeddings
0,80,124,"[0.01357938, -0.024715697, -0.056818295, 0.089..."
1,90,1466832,"[0.022999706, -0.054095984, -0.04250651, -0.07..."
2,120,124363,"[0.002508051, -0.064242, -0.015580753, 0.00925..."
3,180,539,"[0.009283214, 0.027419629, -0.014058785, -0.06..."
4,260,307,"[-0.015197881, -0.029962653, -0.12446398, 0.04..."
...,...,...,...
1102563,40142860,40142994,"[-0.041066702, 0.094635084, 0.016694594, 0.017..."
1102564,40142900,40143005,"[-0.07177593, -0.01753621, 0.07370899, -0.0023..."
1102565,40142910,40143389,"[0.0020394926, -0.033933215, -0.04788427, -0.0..."
1102566,40142940,40143139,"[0.0074667125, 0.11854785, -0.06675289, -0.068..."


In [21]:
# Проверяем на NaN
print(f"NaN в merged: {merged.isna().sum().sum()}")


NaN в merged: 0


In [8]:
import chromadb
import uuid
from tqdm.notebook import tqdm

# Создаём клиент Chroma
chroma_client = chromadb.PersistentClient(path="./chroma_data")

# Создаём коллекцию
collection = chroma_client.create_collection(
    name="StackOverflowQnA",
    metadata={"hnsw:space": "cosine"}
)

# Добавление данных
batch_size = 1000
for i in tqdm(range(0, len(merged), batch_size), desc="Adding documents to Chroma"):
    batch = merged.iloc[i:i + batch_size]
    ids = [str(uuid.uuid4()) for _ in range(len(batch))]

    collection.add(
        metadatas=batch[['Id_question', 'Id_answer']].to_dict(orient='records'),
        embeddings=batch['embeddings'].tolist(),
        ids=ids
    )

print(f"Всего документов в коллекции: {collection.count()}")

Adding documents to Chroma:   0%|          | 0/1103 [00:00<?, ?it/s]

Всего документов в коллекции: 1102568


In [9]:
# Удаляем коллекцию
# chroma_client.delete_collection("StackOverflowQnA")

## Загрузка коллекции

In [1]:
# Загрузка коллекции
import chromadb
from tqdm.notebook import tqdm

client = chromadb.PersistentClient(path="./chroma_data")
collection = client.get_collection("StackOverflowQnA")
print(f"Всего документов в коллекции: {collection.count()}")

Всего документов в коллекции: 1102568


In [31]:
# Загрузка датасет ответов, неочищенных. Будем его использвоать для генерации ответов.
answers = pd.read_csv(r'C:\Users\VORANDPAV BIG SPB\Downloads\dataset\Answers.csv', encoding='latin1')
# Выводим первые 5 строк
answers.head()

Unnamed: 0,Id,OwnerUserId,CreationDate,ParentId,Score,Body
0,92,61.0,2008-08-01T14:45:37Z,90,13,"<p><a href=""http://svnbook.red-bean.com/"">Vers..."
1,124,26.0,2008-08-01T16:09:47Z,80,12,<p>I wound up using this. It is a kind of a ha...
2,199,50.0,2008-08-01T19:36:46Z,180,1,<p>I've read somewhere the human eye can't dis...
3,269,91.0,2008-08-01T23:49:57Z,260,4,"<p>Yes, I thought about that, but I soon figur..."
4,307,49.0,2008-08-02T01:49:46Z,260,28,"<p><a href=""http://www.codeproject.com/Article..."


In [32]:
# Загрузка датасет вопросов, неочищенных. Будем его использвоать для генерации ответов. Чтобы на всякий не путать нейросеть, несвязанными ответами.
questions = pd.read_csv(r'C:\Users\VORANDPAV BIG SPB\Downloads\dataset\Questions.csv', encoding='latin1')
# Выводим первые 5 строк
questions.head()

Unnamed: 0,Id,OwnerUserId,CreationDate,ClosedDate,Score,Title,Body
0,80,26.0,2008-08-01T13:57:07Z,,26,SQLStatement.execute() - multiple queries in o...,<p>I've written a database generation script i...
1,90,58.0,2008-08-01T14:41:24Z,2012-12-26T03:45:49Z,144,Good branching and merging tutorials for Torto...,<p>Are there any really good tutorials explain...
2,120,83.0,2008-08-01T15:50:08Z,,21,ASP.NET Site Maps,<p>Has anyone got experience creating <strong>...
3,180,2089740.0,2008-08-01T18:42:19Z,,53,Function for creating color wheels,<p>This is something I've pseudo-solved many t...
4,260,91.0,2008-08-01T23:22:08Z,,49,Adding scripting functionality to .NET applica...,<p>I have a little game written in C#. It uses...


## Итеграция этапа поиска

In [4]:
import re
import nltk
from nltk.corpus import stopwords, wordnet
from nltk.stem import WordNetLemmatizer

nltk.download('stopwords')  # Загрузка стоп-слов
nltk.download('wordnet')  # Загрузка WordNet
nltk.download('averaged_perceptron_tagger_eng')  # Загрузка тегов

[nltk_data] Downloading package stopwords to C:\Users\VORANDPAV BIG
[nltk_data]     SPB\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to C:\Users\VORANDPAV BIG
[nltk_data]     SPB\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger_eng to
[nltk_data]     C:\Users\VORANDPAV BIG
[nltk_data]     SPB\AppData\Roaming\nltk_data...
[nltk_data]   Package averaged_perceptron_tagger_eng is already up-to-
[nltk_data]       date!


True

In [40]:
stop_words = set(stopwords.words('english'))  # Загрузка стоп-слов
contractions = ['ive', 'youre', 'theyre', 'hes', 'shes', 'its', 'weve', 'theyve', 'im', 'isnt', 'wasnt', 'werent',
                'hasnt', 'havent', 'dont', 'doesnt', 'didnt', 'cant', 'couldnt', 'shouldnt', 'mightnt', 'mustnt',
                'wouldnt']  # Список сокращений
lemmatizer = WordNetLemmatizer()  # Загрузка лемматизатора


# Функция опеределения части речи для лемматизации
def get_wordnet_pos(word):
    tag = nltk.pos_tag([word])[0][1][0].upper()
    tag_dict = {
        'J': wordnet.ADJ,
        'N': wordnet.NOUN,
        'V': wordnet.VERB,
        'R': wordnet.ADV
    }
    return tag_dict.get(tag, wordnet.NOUN)


# Функция для очистки текста (для поиска)
def clean_text(text):
    if not isinstance(text, str):  # Проверяем, что текст является строкой
        return ''

    text = re.sub(r'<code>.*?</code>', '', text, flags=re.DOTALL)  # Удаляем блоки <code>
    text = re.sub(r'\`[^\`]*\`', '', text)  # Удаляем инлайн-код в Markdown
    text = re.sub(r'<[^>]*>', '', text)  # Удаляем оставшиеся HTML-теги
    text = re.sub(r'\[.*?\]\(.*?\)', '', text)  # Удаляем Markdown-ссылки
    text = re.sub(r'"[^"]*"', '', text)  # Удаляем текст в кавычках
    text = re.sub(r'\s+', ' ', text).strip()  # Удаляем лишние пробелы

    text = text.lower()  # Приводим текст к нижнему регистру
    text = re.sub(r'[^a-z0-9\s]', '', text)  # Удаляем все кроме букв, цифр и пробелов

    words = text.split()  # Разбиваем текст на слова
    words = [lemmatizer.lemmatize(word, get_wordnet_pos(word)) for word in words if
             word not in stop_words and word not in contractions]  # Удаляем стоп-слова и сокращения, лемматизируем слова
    text = ' '.join(words)  # Объединяем слова обратно в текст

    return text


# Функция для небольшой очистки текста
def clean_text_light(text: str) -> str:
    if not isinstance(text, str):
        return ''

    text = re.sub(r'<[^>]+>', '', text)  # Убираем HTML-теги
    text = re.sub(r'\s+', ' ', text).strip()  # Нормализуем пробелы

    return text


In [41]:
# Загружаем модель
from sentence_transformers import SentenceTransformer

model_name = 'all-MiniLM-L6-v2'
model = SentenceTransformer(model_name)


def semantic_search(query, top_k=5):
    """
    Функция для семантического поиска в Chroma
    :param query: текст запроса
    :param top_k: количество ближайших соседей
    :return: список найденных документов
    """
    # Очищаем текст запроса
    query = clean_text(query)

    # Вычисляем эмбеддинг запроса
    query_embedding = model.encode(
        [query],
        show_progress_bar=False,
        convert_to_numpy=True,
        num_workers=12,
    )[0]

    # Выполняем поиск ближайших соседей
    results = collection.query(
        query_embeddings=[query_embedding],
        n_results=top_k
    )

    return results

In [97]:
def get_answers_text_from_query(query, top_k=5):
    """
    Функция для получения текстов вопросов и ответов из Chroma
    :param query: текст запроса
    :param top_k: количество ближайших соседей
    :return: список текстов вопросов и ответов
    """

    # Получаем вопросы-ответы из Chroma
    results = semantic_search(query, top_k)

    # Получаем Id вопросов
    question_ids = [result['Id_question'] for result in results['metadatas'][0]]

    # Получаем Id ответов
    answer_ids = [result['Id_answer'] for result in results['metadatas'][0]]

    # Получаем тексты вопросов и ответов
    questions_texts = []
    answers_texts = []
    for i in range(len(question_ids)):
        questions_texts.append(questions.loc[questions['Id'] == question_ids[i], 'Body'].values[0])
        answers_texts.append(answers.loc[answers['Id'] == answer_ids[i], 'Body'].values[0])

    # Очищаем тексты вопросов и ответов
    questions_texts = [clean_text_light(text) for text in questions_texts]
    answers_texts = [clean_text_light(text) for text in answers_texts]

    # Объединяем тексты вопросов и ответов
    texts = [(q, a) for q, a in zip(questions_texts, answers_texts)]

    return texts

In [98]:
# Пример использования
query = "I am new to Python and wanted to read a file"
answers_texts = get_answers_text_from_query(query, top_k=3)
print(*answers_texts,
      sep='\n\n' + '─' * 200 + '\n\n')

("So I'm a newb :) Python question I have a list of files and I'm looking to open/read these files using an I/O method I understand if I explicitly go through each test file I've created and opening them one by one would be fine but how about if I have an unknown file and I tell it to be open/read, how would this be done? Logically thinking, it sounds like I need to create a variable and assign it to a list of files and from there tell it open all the files in the list. So a for loop perhaps?", "You can do it as follows: import os for fl in os.listdir(os.getcwd()): with open(fl) as f: #do stuff Alternatively, if your files are not in the same directory as your script, you can do: for fl in os.listdir('custom/path/to/files'):")

────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────

("I want to read a text file using Python. My list must be l

## Формирование запроса (prompt) для генерации

In [99]:
# Функция для формирования запроса
def build_prompt(query, contexts, max_chars=10000):
    header = f"User Question:\n{query}\n\nRetrieved Contexts:\n"
    footer = "\n\nUsing the above contexts, please generate a comprehensive and accurate answer to the original question."

    # Формируем блоки контекста
    blocks = [
        f"{i + 1}) Question: {ctx[0]}\n"
        f"Best answer: {ctx[1]}"
        for i, ctx in enumerate(contexts)
    ]

    # Сначала возьмём все блоки, потом обрежем
    context_str = "\n\n".join(blocks)
    prompt = header + context_str + footer

    # Если слишком длинно — постепенно убираем последние блоки
    while len(prompt) > max_chars and blocks:
        blocks.pop()  # удаляем самый дальний блок
        context_str = "\n\n".join(blocks)
        prompt = header + context_str + footer

    # Если всё ещё слишком длинно — обрезаем сам текст запроса
    if len(prompt) > max_chars:
        prompt = prompt[: max_chars - len(footer)] + footer

    return prompt

In [134]:
# Пример использования
query = "I have a list of files and I'm looking to open/read these files using an I/O method I understand if I explicitly go through each test file I've created and opening them one by one would be fine but how about if I have an unknown file and I tell it to be open/read, how would this be done? Logically thinking, it sounds like I need to create a variable and assign it to a list of files and from there tell it open all the files in the list. So a for loop perhaps?"
contexts = get_answers_text_from_query(query, top_k=30)
prompt = build_prompt(query, contexts)
print(prompt)

User Question:
I have a list of files and I'm looking to open/read these files using an I/O method I understand if I explicitly go through each test file I've created and opening them one by one would be fine but how about if I have an unknown file and I tell it to be open/read, how would this be done? Logically thinking, it sounds like I need to create a variable and assign it to a list of files and from there tell it open all the files in the list. So a for loop perhaps?

Retrieved Contexts:
1) Question: So I'm a newb :) Python question I have a list of files and I'm looking to open/read these files using an I/O method I understand if I explicitly go through each test file I've created and opening them one by one would be fine but how about if I have an unknown file and I tell it to be open/read, how would this be done? Logically thinking, it sounds like I need to create a variable and assign it to a list of files and from there tell it open all the files in the list. So a for loop p

## Вызов генеративной модели

In [123]:
from google import genai

client = genai.Client(api_key="AIzaSyAhC_MdJ82KOT1y8aCvdoE6GU46pkvrNuo")

response = client.models.generate_content(
    model="gemini-2.5-flash-preview-04-17",
    contents="I have a list of files and I'm looking to open/read these files using an I/O method I understand if I explicitly go through each test file I've created and opening them one by one would be fine but how about if I have an unknown file and I tell it to be open/read, how would this be done? Logically thinking, it sounds like I need to create a variable and assign it to a list of files and from there tell it open all the files in the list. So a for loop perhaps? Answer very shortly, please, In 5 sentences."
)
print(response.text)

Yes, storing your file paths in a list variable is the correct approach. You would then use a loop, such as a `for` loop, to iterate through this list of file paths. Inside the loop, for each file path in the list, you will open that specific file using `open()`. The recommended way is using the `with open(filepath, 'r') as file_object:` syntax to ensure the file is closed properly. Inside the `with` block, you can read the content of the current file.


In [122]:
# Пример использования
query = "I have a C# program that is constantly checking for new additions to an online DB. I have this code to have it check every 10 seconds static void Main(string[] args) { boolean run = true; while (run) { DBConnect Db = new DBConnect(); // do amazing awesome mind blowing cool stuff Db.closeConnection(); // wait for 10 seconds int wait = 10 * 1000; System.Threading.Thread.Sleep(wait); } } i have error reporting that posts to the DB and if a major error occurs the program shuts down. Outside of the specific errors within my function, is this method secure and efficient?"
contexts = get_answers_text_from_query(query, top_k=30)
prompt = build_prompt(query, contexts)
print(prompt)

User Question:
I have a C# program that is constantly checking for new additions to an online DB. I have this code to have it check every 10 seconds static void Main(string[] args) { boolean run = true; while (run) { DBConnect Db = new DBConnect(); // do amazing awesome mind blowing cool stuff Db.closeConnection(); // wait for 10 seconds int wait = 10 * 1000; System.Threading.Thread.Sleep(wait); } } i have error reporting that posts to the DB and if a major error occurs the program shuts down. Outside of the specific errors within my function, is this method secure and efficient?

Retrieved Contexts:
1) Question: I have a C# program that is constantly checking for new additions to an online DB. I have this code to have it check every 10 seconds static void Main(string[] args) { boolean run = true; while (run) { DBConnect Db = new DBConnect(); // do amazing awesome mind blowing cool stuff Db.closeConnection(); // wait for 10 seconds int wait = 10 * 1000; System.Threading.Thread.Sleep(wa

In [120]:
response = client.models.generate_content(
    model="gemini-2.5-flash-preview-04-17",
    contents="I have a C# program that is constantly checking for new additions to an online DB. I have this code to have it check every 10 seconds static void Main(string[] args) { boolean run = true; while (run) { DBConnect Db = new DBConnect(); // do amazing awesome mind blowing cool stuff Db.closeConnection(); // wait for 10 seconds int wait = 10 * 1000; System.Threading.Thread.Sleep(wait); } } i have error reporting that posts to the DB and if a major error occurs the program shuts down. Outside of the specific errors within my function, is this method secure and efficient? Answer very shortly, please, In 5 sentences."
)
print(response.text)

This method is highly inefficient regarding database connection handling. It repeatedly creates and closes a connection every 10 seconds, which incurs significant overhead. A better practice is to use database connection pooling to reuse connections, reducing this cost. Security isn't directly impacted by the loop structure itself but depends on the `DBConnect` implementation and DB interactions. Thus, the main issue is inefficiency due to poor connection management.


In [133]:
# Пример использования
query = "I'm about to submit an app for approval and have a quick question: it's a simple app for drink recipes and i was wondering if it's ok to use brand names in the app, like 'Stoli Vodka' ? I've put the reg. trademark symbol next to the brand. thanks in advance."
contexts = get_answers_text_from_query(query, top_k=30)
prompt = build_prompt(query, contexts)
print(prompt)

User Question:
I'm about to submit an app for approval and have a quick question: it's a simple app for drink recipes and i was wondering if it's ok to use brand names in the app, like 'Stoli Vodka' ? I've put the reg. trademark symbol next to the brand. thanks in advance.

Retrieved Contexts:
1) Question: I'm about to submit an app for approval and have a quick question: it's a simple app for drink recipes and i was wondering if it's ok to use brand names in the app, like 'Stoli Vodka' ? I've put the reg. trademark symbol next to the brand. thanks in advance.
Best answer: Generally it's not a good. Apple will almost certainly approve it though. They are not the copyright police and will not dig into your affairs to see if you have permission. They will hound you though if you use their trademarks. You will need to get permission from the brand owners.

2) Question: If I make an app and want to sell to just one or two companies, can I legally provide them with the IPA that is signed wi

In [119]:
response = client.models.generate_content(
    model="gemini-2.5-flash-preview-04-17",
    contents="I'm about to submit an app for approval and have a quick question: it's a simple app for drink recipes and i was wondering if it's ok to use brand names in the app, like 'Stoli Vodka' ? I've put the reg. trademark symbol next to the brand. thanks in advance. Answer very shortly, please, In 5 sentences."
)
print(response.text)

Generally, using brand names like 'Stoli Vodka' in recipes is acceptable as "nominative fair use." This means you are referring to the specific product as an ingredient. Adding the ® symbol is good practice, acknowledging the trademark owner. Ensure you are simply identifying the ingredient and not implying any endorsement or affiliation with the brand. While often permissible, consulting legal counsel is always the safest approach for certainty.


## Вывод ответа пользователю


In [124]:
# Функция для получения ответа от модели
def get_answer_from_model(query, top_k=5, max_chars=10000):
    # Получаем тексты вопросов и ответов
    contexts = get_answers_text_from_query(query, top_k)

    # Формируем запрос
    prompt = build_prompt(query, contexts, max_chars=max_chars)

    # Получаем ответ от модели
    response = client.models.generate_content(
        model="gemini-2.5-flash-preview-04-17",
        contents=(prompt + "\n\nAnswer very shortly, please, In 5 sentences.")
    )

    return response.text

In [135]:
# Пример использования
# Лучший ответ на вопрос
# You can do it as follows: import os for fl in os.listdir(os.getcwd()): with open(fl) as f: #do stuff Alternatively, if your files are not in the same directory as your script, you can do: for fl in os.listdir('custom/path/to/files'):
# Ответ нейросети без контекста
# Yes, storing your file paths in a list variable is the correct approach. You would then use a loop, such as a `for` loop, to iterate through this list of file paths. Inside the loop, for each file path in the list, you will open that specific file using `open()`. The recommended way is using the `with open(filepath, 'r') as file_object:` syntax to ensure the file is closed properly. Inside the `with` block, you can read the content of the current file.
query = "I have a list of files and I'm looking to open/read these files using an I/O method I understand if I explicitly go through each test file I've created and opening them one by one would be fine but how about if I have an unknown file and I tell it to be open/read, how would this be done? Logically thinking, it sounds like I need to create a variable and assign it to a list of files and from there tell it open all the files in the list. So a for loop perhaps?"
answer = get_answer_from_model(query, top_k=5)
print(answer)

Yes, your logical thinking is correct; you can use a variable to hold a list of filenames and then iterate through them with a loop. In Python, you can get a list of files in a directory using `os.listdir()`. You would then use a `for` loop to go through each filename in the list. Inside the loop, you open each file using `with open(filename, 'r') as f:`. This method ensures the file is properly closed after reading.


In [136]:
query = "I have a list of files and I'm looking to open/read these files using an I/O method I understand if I explicitly go through each test file I've created and opening them one by one would be fine but how about if I have an unknown file and I tell it to be open/read, how would this be done? Logically thinking, it sounds like I need to create a variable and assign it to a list of files and from there tell it open all the files in the list. So a for loop perhaps?"
answer = get_answer_from_model(query, top_k=1)
print(answer)

Yes, a for loop is the correct approach to open multiple files from a list. You can dynamically get a list of file names in a directory using Python's `os.listdir()`. This function returns a list of entries in the specified directory. You can then iterate through this list using a `for` loop. Inside the loop, use `with open(filename)` to open and process each file safely.


In [127]:
# Пример использования
# Лучший ответ на вопрос
# You should rewrite your program as a windows service, that way you do not need to rely on a user to be logged for your program to run. If you do go with the service route, I would swap out the infinite loop for a timer. public partial class Service1 : ServiceBase { public Service1() { InitializeComponent(); int wait = 10 * 1000; timer = new Timer(wait); timer.Elapsed += timer_Elapsed; // We don't want the timer to start ticking again till we tell it to. timer.AutoReset = false; } private System.Timers.Timer timer; protected override void OnStart(string[] args) { timer.Start(); } void timer_Elapsed(object sender, ElapsedEventArgs e) { try { try { DBConnect Db = new DBConnect()) // do amazing awesome mind blowing cool stuff } finally { Db.closeConnection(); //We put this in a finally block so it will still happen, even if an exception is thrown. } timer.Start(); } catch(SomeNonCriticalException ex) { MyExecptionLogger.Log(ex, Level.Waring); //Log the exception so you know what went wrong timer.Start(); //Start the timer for the next loop } catch(Exception ex) { MyExecptionLogger.Log(ex, Level.Critical); //Log the exception so you know what went wrong this.Stop(); //Stop the service } } protected override void OnStop() { timer.Stop(); } }
# Ответ нейросети без контекста
# This method is highly inefficient regarding database connection handling. It repeatedly creates and closes a connection every 10 seconds, which incurs significant overhead. A better practice is to use database connection pooling to reuse connections, reducing this cost. Security isn't directly impacted by the loop structure itself but depends on the `DBConnect` implementation and DB interactions. Thus, the main issue is inefficiency due to poor connection management.
query = "I have a C# program that is constantly checking for new additions to an online DB. I have this code to have it check every 10 seconds static void Main(string[] args) { boolean run = true; while (run) { DBConnect Db = new DBConnect(); // do amazing awesome mind blowing cool stuff Db.closeConnection(); // wait for 10 seconds int wait = 10 * 1000; System.Threading.Thread.Sleep(wait); } } i have error reporting that posts to the DB and if a major error occurs the program shuts down. Outside of the specific errors within my function, is this method secure and efficient?"
answer = get_answer_from_model(query, top_k=1)
print(answer)

Your current method using a `while` loop with `Thread.Sleep` is a basic way to achieve the delay. However, for a continuous background task checking a database, this approach is generally less robust and harder to manage than using a Windows Service with `System.Timers.Timer`, as suggested by the context. A service runs independently of user login, providing better reliability for continuous operation. While `Thread.Sleep` is efficient in yielding CPU, the `Timer` pattern is often preferred for scheduling periodic tasks in long-running applications for better structure and control. Security primarily depends on your database connection handling and error management within the checking logic, not the loop method itself, although the service approach can facilitate more robust exception handling.


In [128]:
# Пример использования
# Лучший ответ на вопрос
# Generally it's not a good. Apple will almost certainly approve it though. They are not the copyright police and will not dig into your affairs to see if you have permission. They will hound you though if you use their trademarks. You will need to get permission from the brand owners.
# Ответ нейросети без контекста
# Generally, using brand names like 'Stoli Vodka' in recipes is acceptable as "nominative fair use." This means you are referring to the specific product as an ingredient. Adding the ® symbol is good practice, acknowledging the trademark owner. Ensure you are simply identifying the ingredient and not implying any endorsement or affiliation with the brand. While often permissible, consulting legal counsel is always the safest approach for certainty.
query = "I'm about to submit an app for approval and have a quick question: it's a simple app for drink recipes and i was wondering if it's ok to use brand names in the app, like 'Stoli Vodka' ? I've put the reg. trademark symbol next to the brand. thanks in advance."
answer = get_answer_from_model(query, top_k=5)
print(answer)

Based on the contexts, generally, using brand names like 'Stoli Vodka' in your app requires permission from the brand owner. Simply adding the registered trademark symbol does not grant you the right to use it. While Apple *may* approve the app as they don't heavily police third-party trademarks, this doesn't make the usage legal. The risk of legal action from the brand owner remains if you don't have their consent. It's best practice and legally required to obtain proper authorization before using brand names in your content.


In [129]:
query = "I'm about to submit an app for approval and have a quick question: it's a simple app for drink recipes and i was wondering if it's ok to use brand names in the app, like 'Stoli Vodka' ? I've put the reg. trademark symbol next to the brand. thanks in advance."
answer = get_answer_from_model(query, top_k=1)
print(answer)

Generally, using brand names like 'Stoli Vodka' without permission is not advisable, even with the registered trademark symbol. While Apple often approves apps as they aren't third-party trademark police, legally you need permission from the brand owners themselves. Simply adding the symbol doesn't grant you the right to use the brand commercially. To be safe and legal, you should obtain permission from the companies whose brands you mention.



### Запрос:
**I am new to Python and wanted to read a file**

#### Без RAG
- Общее описание работы с `open()`.
- Рекомендация использовать `with open(...)`.
- Добавлено обоснование «для безопасности».

#### Извлечённый контекст
- Код с `import os` и `for fl in os.listdir()` + `with open(fl)`.
- Альтернативный пример с передачей путей (`'custom/path/to/files'`).

#### С RAG (top\_k=1, 3)
- Дополнительная рекомендация `os.listdir()` для создания путей.
- Ответы не изменяются значительно в зависимости от количества извлечённых контекстов.

#### Выводы:
- Появилась рекомендация про `os.listdir()`, что не было в оригинальном ответе.
- Но не добавилось пояснение про свой путь к файлам.
- Сам ответ стал более обоснованным и содержательным.

---

### Запрос:
**I have a C# program that is constantly checking for new additions to an online DB. ... Is this method secure and efficient?**

#### Без RAG
- Указывается только общий **проблемный паттерн** — частое создание и закрытие соединения каждые 10 секунд.
- Рекомендация использовать **connection pooling** для повышения эффективности.
- Кратко упомянута безопасность, но без практических шагов по обработке ошибок или архитектуре приложения.

#### Извлечённый контекст
- Шаблон **Windows Service** с использованием `System.Timers.Timer`.
- Фрагмент кода: инициализация `timer.AutoReset = false`, подписка на `Elapsed` и повторный запуск внутри `finally`.
- Блок `finally { Db.closeConnection(); }` для гарантированного закрытия соединения при любом исходе.
- Раздельные `catch`-блоки: логирование non-critical vs critical исключений и корректная остановка сервиса (`this.Stop()`).
- Методы `OnStart` и `OnStop` для управления жизненным циклом сервиса без зависимости от пользователя.

#### С RAG (top_k=1)
- Лаконично: «Перепиши приложение как Windows Service с `System.Timers.Timer` и гарантированным `finally { Db.closeConnection(); }`.»

#### Выводы:
- Без RAG модель давала лишь теоретическую рекомендацию по пулу соединений.
- Добавление контекста дало точную практическую реализацию Windows Service.

---

### Запрос:
**I'm about to submit an app for approval and have a quick question: it's a simple app for drink recipes and I was wondering if it's ok to use brand names in the app, like 'Stoli Vodka'? I've put the reg. trademark symbol next to the brand.**

#### Без RAG
- Общий совет: «Использование торговых марок возможно как nominative fair use.»
- Рекомендация добавить символ ® и «consult legal counsel».
- Нет упоминания конкретных рисков App Store или юридических прецедентов.

#### Извлечённый контекст
- Прецеденты отказов App Store за неправильное использование торговых марок.
- Чёткая рекомендация запрашивать **permission** у владельцев бренда.
- Комментарий: Apple «не полицейский» авторского права, но не гарантирует отсутствие рисков.

#### С RAG (top_k=1, 3)
- Ответ нейросети практически пересказывает контекст лучшего ответа.
- Но ответ более грамотный и обширный.
#### Выводы:
- Один фрагмент контекста дал ключевые направления ответа.



# Итоговый отчёт по лабораторной работе №6 «RAG-пайплайн»

## 1. Цель и задачи
**Цель:** Построить RAG-пайплайн на базе Chroma для векторного поиска и Google AI Studio для генерации обоснованных ответов на вопросы пользователей.

**Задачи:**
1. Создать и сохранить в Chroma коллекцию вопросов/ответов (ЛР3–5).
2. Реализовать функцию семантического поиска (ЛР5).
3. Интегрировать поиск и генерацию:
   - извлечение top_k контекстов;
   - сборка промпта;
   - вызов Gemini-2.5;
   - вывод ответа.
4. Оценить результаты.

---

## 2. Архитектура пайплайна


[Запрос пользователя] ->
[Семантический поиск: Chroma] ->
[Сбор контекста] ->
[Формирование запроса] ->
[Генерация LLM: Gemini-2.5] ->
[Ответ пользователю]


---

## 3. Настройка и компоненты

- **Chroma**
   - Метрика `cosine`.
   - Хранение: Id ответов и вопросов, эмбеддини.
   <br><br>
- **Очистка текста**
   - Сильная очистка `clean_text` - для сжатия размеров датасетов, ускорения поиска и создания эмбеддингов.
   - Слабая очистка `clean_text_light` - для вставки в запрос, так как LLM важны связи и все вставки.
   <br><br>
- **Эмбеддинги**
   - Модель: `all-MiniLM-L6-v2` - быстрая модель.
   - Использование GPU для ускорения.
   <br><br>
- **Google AI Studio (Gemini-2.5)**
   - Новейшая и бесплатная модель
   - Вызов через библиотеку от Google
   <br><br>
- **Основная функция**
   ```python
    def get_answer_from_model(query, top_k=5, max_chars=10000):
    contexts = get_answers_text_from_query(query, top_k)
    prompt = build_prompt(query, contexts, max_chars=max_chars)
    response = client.models.generate_content(
        model="gemini-2.5-flash-preview-04-17",
        contents=(prompt + "\n\nAnswer very shortly, please, In 5 sentences.")
    )
    return response.text
   ```

---

## 4. Производительность


Семантический поиск: 0.1 – 5 с
Генерация (Gemini-2.5): 3 – 10 с
**Итого: 3 – 15 с**

*Причины варьирования:* размер коллекции, длина контекста, `top_k`, сетевые задержки.

---

## 7. Заключение и дальнейшие шаги

### Краткие выводы:

- **RAG-пайплайн** продемонстрировал значительное улучшение качества ответов: они стали более конкретными, релевантными и практически полезными.
- **Оптимальное значение `top_k`**:
     - 1 фрагмент в нашем случае, так как вопросы строятся уже по готовым вопросам и ответам
     - 5-10 фрагментов в случае, если будет дан весь датасет и улучшен способ поиска.

### Возможные улучшения:

- **Лучшие модели**: использовать более продвинутые модели для эмбедингов и генерации ответов.
- **Комбинированный поиск**: объединить эмбеддинговый и классический TF-IDF / BM25 поиск.
- **Взвешивание по важности**: учитывать вес терминов в запросе, выделять ключевые слова и фразы.
- **Использование тегов и других ответов**: искать фрагменты по тэгам, использовать не только лучший ответ.
- **Расширение корпуса**: загрузить 100% датасета и протестировать масштабируемость решений.

---

## 📌 Общий вывод

Использование RAG-подхода даже с ограниченным корпусом и базовыми эмбеддингами уже даёт заметное улучшение качества ответов. Однако для продуктивного применения в реальных условиях необходимо масштабировать корпус, комбинировать методы поиска и использовать лучшие модели. Это позволит системе выдавать более точные, осмысленные и полезные ответы в большинстве пользовательских сценариев. Также стоит уже серьёзный проект переписать как проект на Python, а не блокнот.
