#Introducing Naive, Advanced, and Modular RAG

Copyright 2024, Denis Rothman

This notebook introduces Naïve, Advanced, and Modular RAG through basic educational examples.

The Naïve, Advanced and modular RAG techniques offer flexibility in selecting retrieval strategies, allowing adaptation to various tasks and data characteristics.

**Summary**

**Part 1: Foundations and Basic Implementation**

1.Environment setup for OpenAI API integration  
2.Generator function using GPT models    
3.Dataetup with a list of documents (db_records)  
4.Query(user request)  

**Part 2: Advanced Techniques and Evaluation**

1.Retrieval metrics  
2.Naive RAG  
3.Advanced RAG  
4.Modular RAG Retriever  

# Part 1: Foundations and Basic Implementation

# 1.The Environment

In [None]:
!pip install openai==1.107.2

Collecting openai==1.107.2
  Downloading openai-1.107.2-py3-none-any.whl.metadata (29 kB)
Downloading openai-1.107.2-py3-none-any.whl (946 kB)
[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/946.9 kB[0m [31m?[0m eta [36m-:--:--[0m[2K   [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[91m╸[0m [32m942.1/946.9 kB[0m [31m69.2 MB/s[0m eta [36m0:00:01[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m946.9/946.9 kB[0m [31m18.7 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: openai
  Attempting uninstall: openai
    Found existing installation: openai 2.12.0
    Uninstalling openai-2.12.0:
      Successfully uninstalled openai-2.12.0
Successfully installed openai-1.107.2


In [1]:
#API Key
#Store you key in a file and read it(you can type it directly in the notebook but it will be visible for somebody next to you)
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [73]:
#f = open("drive/MyDrive/api_key.txt", "r")
#API_KEY=f.readline().strip()
API_KEY="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"
#f.close()

#The OpenAI Key
import os
import openai
os.environ['OPENAI_API_KEY'] =API_KEY
openai.api_key = os.getenv("OPENAI_API_KEY")
openai.api_base = "https://openrouter.ai/api/v1"



# 2.The Generator


In [74]:
import openai
from openai import OpenAI

client = OpenAI()
gptmodel="openai/gpt-4o"

def call_llm_with_full_text(itext):

     # Join all lines to form a single string
    # text_input = '\n'.join(itext)
    text_input = itext
    prompt = f"Please elaborate on the following content:\n{text_input}"
    print(prompt)

    try:
      response = client.chat.completions.create(
         model=gptmodel,
         messages=[
            {"role": "system", "content": "You are an expert Natural Language Processing exercise expert"},
            {"role": "assistant", "content": "1.You can explain read the input and answer in detail"},
            {"role": "user", "content": prompt}
         ],
         temperature=0.1  # Add the temperature parameter here and other parameters you need
        )
      return response.choices[0].message.content.strip()
    except Exception as e:
        return str(e)

## Formatted response

In [64]:
import textwrap

def print_formatted_response(response):
    # Define the width for wrapping the text
    wrapper = textwrap.TextWrapper(width=80)  # Set to 80 columns wide, but adjust as needed
    wrapped_text = wrapper.fill(text=response)

    # Print the formatted response with a header and footer
    print("Response:")
    print("---------------")
    print(wrapped_text)
    print("---------------\n")

 # 3.The Data

In [65]:
db_records = [
  "Генерация с расширенным поиском (Retrieval Augmented Generation, RAG) представляет собой сложный гибридный подход в области искусственного интеллекта, особенно в сфере обработки естественного языка (NLP).",
  "Она инновационно сочетает возможности языковых моделей на основе нейронных сетей с системами поиска для повышения точности, информативности и контекстной релевантности генерации текста.",
  "Эта методология использует сильные стороны как генеративных, так и поисковых архитектур для решения сложных задач, требующих не только лингвистической беглости, но и фактической корректности и глубины знаний.",
  "В основе генерации с расширенным поиском (RAG) лежит генеративная модель, как правило, нейронная сеть на основе трансформеров, подобная тем, которые используются в таких моделях, как GPT (Generative Pre-trained Transformer) или BERT (Bidirectional Encoder Representations from Transformers).",
  "Этот компонент отвечает за создание связных и контекстно-релевантных языковых результатов на основе сочетания входных подсказок и дополнительной информации, полученной системой поиска.",
  "Дополняет языковую модель система поиска, которая обычно строится на основе базы данных документов или корпуса текстов.",
  "Эта система использует методы информационного поиска для поиска и извлечения документов, релевантных входному запросу или подсказке.",
  "Механизм определения релевантности может варьироваться от простого сопоставления ключевых слов до более сложных алгоритмов семантического поиска, которые интерпретируют смысл запроса для поиска наилучших совпадений.",
  "Этот компонент объединяет выходные данные языковой модели и системы поиска.",
  "Он эффективно синтезирует необработанные данные, полученные системой поиска, в генеративный процесс языковой модели.",
  "Интегратор обеспечивает бесшовное включение информации из системы поиска в конечный текстовый вывод, повышая способность модели генерировать ответы, которые не только беглы и грамматически корректны, но и богаты фактическими деталями и контекстно-специфическими нюансами.",
  "Когда получен запрос или подсказка, система сначала обрабатывает его, чтобы понять требование или контекст.",
  "На основе обработанного запроса система поиска осуществляет поиск в своей базе данных для нахождения релевантных документов или фрагментов информации.",
  "Этот поиск осуществляется на основе сходства содержимого документов с запросом, которое может быть определено с помощью различных методов, таких как векторные представления или меры семантического сходства.",
  "Полученные документы затем передаются в языковую модель.",
  "В некоторых реализациях эта интеграция происходит на уровне токенов, где модель может динамически получать доступ к определенным фрагментам информации из полученных текстов и включать их в процесс генерации каждой части ответа.",
  "Языковая модель, теперь дополненная прямым доступом к полученной информации, генерирует ответ.",
  "Этот ответ зависит не только от обучения модели, но и от конкретных фактов и деталей, содержащихся в полученных документах, что делает его более персонализированным и точным.",
  "Благодаря прямому включению информации из внешних источников, модели генерации с расширенным поиском (RAG) могут создавать ответы, которые являются более фактическими и релевантными заданному запросу",
  "Это особенно полезно в таких областях, как медицинские консультации, техническая поддержка и другие сферы, где точность и актуальные знания имеют решающее значение.",
  "Системы дополненной генерации поиска (RAG) могут динамически адаптироваться к новой информации, поскольку они извлекают данные из своих баз данных в режиме реального времени.",
  "Это позволяет им оставаться в курсе последних знаний и тенденций без необходимости частого переобучения.",
  "Благодаря доступу к широкому спектру документов, системы дополненной генерации поиска (RAG) могут предоставлять подробные и тонкие ответы, которые автономная языковая модель может быть не в состоянии сгенерировать, основываясь исключительно на своих предварительно обученных знаниях.",
  "Хотя дополненная генерация поиска (RAG) предлагает существенные преимущества, она также сопряжена со своими проблемами.",
  "К ним относятся сложность интеграции систем поиска и генерации, вычислительные затраты, связанные с поиском данных в режиме реального времени, и необходимость поддержания большой, актуальной и высококачественной базы данных доступные для поиска тексты.",
  "Кроме того, обеспечение релевантности и точности извлекаемой информации остается серьезной проблемой, как и управление потенциальной возможностью внесения искажений или ошибок из внешних источников.",
  "В заключение, генерация с дополненной реальностью (Retrieval Augmented Generation, RAG) представляет собой значительный шаг вперед в области искусственного интеллекта, объединяя лучшие достижения технологий поиска и генеративных технологий для создания систем, которые не только понимают и генерируют естественный язык, но и глубоко понимают и используют огромные объемы информации, доступной в текстовой форме.",
  "Векторное хранилище RAG — это база данных или набор данных."
]

In [66]:
import textwrap
paragraph = ' '.join(db_records)
wrapped_text = textwrap.fill(paragraph, width=80)
print(wrapped_text)

Генерация с расширенным поиском (Retrieval Augmented Generation, RAG)
представляет собой сложный гибридный подход в области искусственного интеллекта,
особенно в сфере обработки естественного языка (NLP). Она инновационно сочетает
возможности языковых моделей на основе нейронных сетей с системами поиска для
повышения точности, информативности и контекстной релевантности генерации
текста. Эта методология использует сильные стороны как генеративных, так и
поисковых архитектур для решения сложных задач, требующих не только
лингвистической беглости, но и фактической корректности и глубины знаний. В
основе генерации с расширенным поиском (RAG) лежит генеративная модель, как
правило, нейронная сеть на основе трансформеров, подобная тем, которые
используются в таких моделях, как GPT (Generative Pre-trained Transformer) или
BERT (Bidirectional Encoder Representations from Transformers). Этот компонент
отвечает за создание связных и контекстно-релевантных языковых результатов на
основе сочетани

# 4.The Query

In [67]:
query = "define a rag store"

Generation without augmentation

In [76]:
# Call the function and print the result
llm_response = call_llm_with_full_text(query)
print_formatted_response(llm_response)

Please elaborate on the following content:
define a rag store
Response:
---------------
Error code: 401 - {'error': {'message': 'Incorrect API key provided: sk-
or-v1*************************************************************b8cb. You can
find your API key at https://platform.openai.com/account/api-keys.', 'type':
'invalid_request_error', 'code': 'invalid_api_key', 'param': None}, 'status':
401}
---------------



# Part 2: Advanced Techniques and Evaluation

# 1.Retrieval Metrics

## Cosine Similarity

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

def calculate_cosine_similarity(text1, text2):
    vectorizer = TfidfVectorizer(
        stop_words='english',
        use_idf=True,
        norm='l2',
        ngram_range=(1, 2),  # Use unigrams and bigrams
        sublinear_tf=True,   # Apply sublinear TF scaling
        analyzer='word'      # You could also experiment with 'char' or 'char_wb' for character-level features
    )
    tfidf = vectorizer.fit_transform([text1, text2])
    similarity = cosine_similarity(tfidf[0:1], tfidf[1:2])
    return similarity[0][0]

## Enhanced Similarity

In [None]:
import spacy
import nltk
nltk.download('wordnet')
from nltk.corpus import wordnet
from collections import Counter
import numpy as np

# Load spaCy model
nlp = spacy.load("en_core_web_sm")

def get_synonyms(word):
    synonyms = set()
    for syn in wordnet.synsets(word):
        for lemma in syn.lemmas():
            synonyms.add(lemma.name())
    return synonyms

def preprocess_text(text):
    doc = nlp(text.lower())
    lemmatized_words = []
    for token in doc:
        if token.is_stop or token.is_punct:
            continue
        lemmatized_words.append(token.lemma_)
    return lemmatized_words

def expand_with_synonyms(words):
    expanded_words = words.copy()
    for word in words:
        expanded_words.extend(get_synonyms(word))
    return expanded_words

def calculate_enhanced_similarity(text1, text2):
    # Preprocess and tokenize texts
    words1 = preprocess_text(text1)
    words2 = preprocess_text(text2)

    # Expand with synonyms
    words1_expanded = expand_with_synonyms(words1)
    words2_expanded = expand_with_synonyms(words2)

    # Count word frequencies
    freq1 = Counter(words1_expanded)
    freq2 = Counter(words2_expanded)

    # Create a set of all unique words
    unique_words = set(freq1.keys()).union(set(freq2.keys()))

    # Create frequency vectors
    vector1 = [freq1[word] for word in unique_words]
    vector2 = [freq2[word] for word in unique_words]

    # Convert lists to numpy arrays
    vector1 = np.array(vector1)
    vector2 = np.array(vector2)

    # Calculate cosine similarity
    cosine_similarity = np.dot(vector1, vector2) / (np.linalg.norm(vector1) * np.linalg.norm(vector2))

    return cosine_similarity

[nltk_data] Downloading package wordnet to /root/nltk_data...


# 2.Naive RAG

## Keyword search and matching

In [None]:
def find_best_match_keyword_search(query, db_records):
    best_score = 0
    best_record = None

    # Split the query into individual keywords
    query_keywords = set(query.lower().split())

    # Iterate through each record in db_records
    for record in db_records:
        # Split the record into keywords
        record_keywords = set(record.lower().split())

        # Calculate the number of common keywords
        common_keywords = query_keywords.intersection(record_keywords)
        current_score = len(common_keywords)

        # Update the best score and record if the current score is higher
        if current_score > best_score:
            best_score = current_score
            best_record = record

    return best_score, best_record

# Assuming 'query' and 'db_records' are defined in previous cells in your Colab notebook
best_keyword_score, best_matching_record = find_best_match_keyword_search(query, db_records)

print(f"Best Keyword Score: {best_keyword_score}")
print_formatted_response(best_matching_record)

Best Keyword Score: 3
Response:
---------------
A RAG vector store is a database or dataset that contains vectorized data
points.
---------------



## Metrics

In [None]:
# Cosine Similarity
score = calculate_cosine_similarity(query, best_matching_record)
print(f"Best Cosine Similarity Score: {score:.3f}")

Best Cosine Similarity Score: 0.126


In [None]:
# Enhanced Similarity
response = best_matching_record
print(query,": ", response)
similarity_score = calculate_enhanced_similarity(query, response)
print(f"Enhanced Similarity:, {similarity_score:.3f}")

define a rag store :  A RAG vector store is a database or dataset that contains vectorized data points.
Enhanced Similarity:, 0.642


## Augmented input

In [None]:
augmented_input=query+ ": "+ best_matching_record

In [None]:
print_formatted_response(augmented_input)

Response:
---------------
define a rag store: A RAG vector store is a database or dataset that contains
vectorized data points.
---------------



## Generation

In [None]:
# Call the function and print the result
llm_response = call_llm_with_full_text(augmented_input)
print_formatted_response(llm_response)

Response:
---------------
Certainly! Let's break down the concept of an "ARAG vector store" and what it
means to have a database or dataset containing vectorized data points.  ### ARAG
Vector Store  1. **Definition**:    - An ARAG vector store is essentially a
specialized type of database or dataset designed to store and manage vectorized
data points. These data points are typically numerical representations of
information, often derived from text, images, or other data types through a
process called vectorization.  2. **Vectorization**:    - Vectorization is the
process of converting data into a numerical format that can be easily processed
by machine learning algorithms. For example, in natural language processing
(NLP), words or sentences are often transformed into vectors using techniques
like word embeddings (e.g., Word2Vec, GloVe) or sentence embeddings (e.g., BERT,
Sentence Transformers).  3. **Purpose**:    - The primary purpose of a vector
store is to facilitate efficient stor

# 3.Advanced RAG

## 3.1.Vector search

### Search function

In [None]:
def find_best_match(text_input, records):
    best_score = 0
    best_record = None
    for record in records:
        current_score = calculate_cosine_similarity(text_input, record)
        if current_score > best_score:
            best_score = current_score
            best_record = record
    return best_score, best_record

In [None]:
best_similarity_score, best_matching_record = find_best_match(query, db_records)

In [None]:
print_formatted_response(best_matching_record)

Response:
---------------
A RAG vector store is a database or dataset that contains vectorized data
points.
---------------



### Metrics

In [None]:
print(f"Best Cosine Similarity Score: {best_similarity_score:.3f}")

Best Cosine Similarity Score: 0.126


In [None]:
# Enhanced Similarity
response = best_matching_record
print(query,": ", response)
similarity_score = calculate_enhanced_similarity(query, best_matching_record)
print(f"Enhanced Similarity:, {similarity_score:.3f}")

define a rag store :  A RAG vector store is a database or dataset that contains vectorized data points.
Enhanced Similarity:, 0.642


### Augmented input

In [None]:
augmented_input=query+": "+best_matching_record

In [None]:
print_formatted_response(augmented_input)

Response:
---------------
define a rag store: A RAG vector store is a database or dataset that contains
vectorized data points.
---------------



### Generation

In [None]:
# Call the function and print the result
llm_response = call_llm_with_full_text(augmented_input)
print_formatted_response(llm_response)

Response:
---------------
Certainly! Let's break down the concept of an "ARAG vector store" and what it
means to have a database or dataset containing vectorized data points.  ### ARAG
Vector Store  1. **Definition**:    - An "ARAG vector store" refers to a
specialized type of database or dataset designed to store and manage vectorized
data points. The term "ARAG" might be specific to a particular context or
system, but generally, it implies a structured way to handle data in vector
form.  2. **Vectorized Data Points**:    - **Vectors**: In the context of data
storage and processing, a vector is a mathematical representation of data in the
form of an array of numbers. Each number in the array represents a dimension of
the data.    - **Vectorization**: This is the process of converting data into a
numerical format that can be easily processed by machine learning algorithms.
For example, text data can be vectorized using techniques like word embeddings
(e.g., Word2Vec, GloVe) or sentence

## 3.2.Index-based search

### Search Function

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

def setup_vectorizer(records):
    vectorizer = TfidfVectorizer()
    tfidf_matrix = vectorizer.fit_transform(records)
    return vectorizer, tfidf_matrix

def find_best_match(query, vectorizer, tfidf_matrix):
    query_tfidf = vectorizer.transform([query])
    similarities = cosine_similarity(query_tfidf, tfidf_matrix)
    best_index = similarities.argmax()  # Get the index of the highest similarity score
    best_score = similarities[0, best_index]
    return best_score, best_index

vectorizer, tfidf_matrix = setup_vectorizer(db_records)

best_similarity_score, best_index = find_best_match(query, vectorizer, tfidf_matrix)
best_matching_record = db_records[best_index]

print_formatted_response(best_matching_record)

Response:
---------------
A RAG vector store is a database or dataset that contains vectorized data
points.
---------------



### Metrics

In [None]:
# Cosine Similarity
print(f"Best Cosine Similarity Score: {best_similarity_score:.3f}")
print_formatted_response(best_matching_record)

Best Cosine Similarity Score: 0.407
Response:
---------------
A RAG vector store is a database or dataset that contains vectorized data
points.
---------------



In [None]:
# Enhanced Similarity
response = best_matching_record
print(query,": ", response)
similarity_score = calculate_enhanced_similarity(query, response)
print(f"Enhanced Similarity:, {similarity_score:.3f}")

define a rag store :  A RAG vector store is a database or dataset that contains vectorized data points.
Enhanced Similarity:, 0.642


Feature extraction

In [None]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer

def setup_vectorizer(records):
    vectorizer = TfidfVectorizer()
    tfidf_matrix = vectorizer.fit_transform(records)

    # Convert the TF-IDF matrix to a DataFrame for display purposes
    tfidf_df = pd.DataFrame(tfidf_matrix.toarray(), columns=vectorizer.get_feature_names_out())

    # Display the DataFrame
    print(tfidf_df)

    return vectorizer, tfidf_matrix

vectorizer, tfidf_matrix = setup_vectorizer(db_records)

     ability    access  accuracy  accurate     adapt  additional  advancement  \
0   0.000000  0.000000  0.000000  0.000000  0.000000    0.000000     0.000000   
1   0.000000  0.000000  0.000000  0.216364  0.000000    0.000000     0.000000   
2   0.000000  0.000000  0.000000  0.000000  0.000000    0.000000     0.000000   
3   0.000000  0.000000  0.000000  0.000000  0.000000    0.000000     0.000000   
4   0.000000  0.000000  0.000000  0.000000  0.000000    0.236479     0.000000   
5   0.000000  0.000000  0.000000  0.000000  0.000000    0.000000     0.000000   
6   0.000000  0.000000  0.000000  0.000000  0.000000    0.000000     0.000000   
7   0.000000  0.000000  0.000000  0.000000  0.000000    0.000000     0.000000   
8   0.000000  0.000000  0.000000  0.000000  0.000000    0.000000     0.000000   
9   0.000000  0.000000  0.000000  0.000000  0.000000    0.000000     0.000000   
10  0.186734  0.000000  0.000000  0.000000  0.000000    0.000000     0.000000   
11  0.000000  0.000000  0.00

### Augmented input

In [None]:
augmented_input=query+": "+best_matching_record

In [None]:
print_formatted_response(augmented_input)

Response:
---------------
define a rag store: A RAG vector store is a database or dataset that contains
vectorized data points.
---------------



### Generation

In [None]:
# Call the function and print the result
llm_response = call_llm_with_full_text(augmented_input)
print_formatted_response(llm_response)

Response:
---------------
An ARAG vector store, or more generally a vector store, is a specialized type of
database or dataset designed to store and manage vectorized data points. Here's
a more detailed explanation of what this entails:  1. **Vectorized Data
Points**: In the context of machine learning and data science, data is often
represented in the form of vectors. A vector is essentially an array of numbers
that can represent various types of data, such as text, images, or any other
form of structured or unstructured data. These vectors are typically generated
through processes like embedding, where complex data is transformed into a
numerical format that can be easily processed by algorithms.  2. **Purpose of a
Vector Store**: The primary purpose of a vector store is to efficiently store
and retrieve these vectorized representations. This is particularly useful in
applications such as similarity search, recommendation systems, and clustering,
where the goal is to find data points

# 4.Modular RAG

Modular RAG can combine methods. For example:

**keyword search**:Searches through each document to find the one that best matches the keyword(s).

**vector search**: Searches through each document and calculates similarity.

**indexed search**: Uses a precomputed index (TF-IDF matrix) to compute cosine similarities.

**October 25, 2025 update**

`self.documents` is initialized in the fit method to hold the records used for searching and enable the `keyword_search` function to access them without error.

**Note on Vector search**

In this case, the `def vector_search(self, query):` uses `tfidf_matrix`to increase the vector search performance.

The `def vector_search(self, query):` function could use a brute-force method as implemented in `Section 3.1.Vector search` of this notebook.

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

class RetrievalComponent:
    def __init__(self, method='vector'):
        self.method = method
        if self.method == 'vector' or self.method == 'indexed':
            self.vectorizer = TfidfVectorizer()
            self.tfidf_matrix = None

    def fit(self, records):
      self.documents = records  # Initialize self.documents here
      if self.method == 'vector' or self.method == 'indexed':
        self.tfidf_matrix = self.vectorizer.fit_transform(records)

    def retrieve(self, query):
        if self.method == 'keyword':
            return self.keyword_search(query)
        elif self.method == 'vector':
            return self.vector_search(query)
        elif self.method == 'indexed':
            return self.indexed_search(query)

    def keyword_search(self, query):
        best_score = 0
        best_record = None
        query_keywords = set(query.lower().split())
        for index, doc in enumerate(self.documents):
            doc_keywords = set(doc.lower().split())
            common_keywords = query_keywords.intersection(doc_keywords)
            score = len(common_keywords)
            if score > best_score:
                best_score = score
                best_record = self.documents[index]
        return best_record

    def vector_search(self, query):
        query_tfidf = self.vectorizer.transform([query])
        similarities = cosine_similarity(query_tfidf, self.tfidf_matrix)
        best_index = similarities.argmax()
        return db_records[best_index]

    def indexed_search(self, query):
        # Assuming the tfidf_matrix is precomputed and stored
        query_tfidf = self.vectorizer.transform([query])
        similarities = cosine_similarity(query_tfidf, self.tfidf_matrix)
        best_index = similarities.argmax()
        return db_records[best_index]

### Modular RAG Strategies

In [None]:
# Usage example
retrieval = RetrievalComponent(method='vector')  # Choose from 'keyword', 'vector', 'indexed'
retrieval.fit(db_records)
best_matching_record = retrieval.retrieve(query)

print_formatted_response(best_matching_record)

Response:
---------------
A RAG vector store is a database or dataset that contains vectorized data
points.
---------------



### Metrics

In [None]:
# Cosine Similarity
print(f"Best Cosine Similarity Score: {best_similarity_score:.3f}")
print_formatted_response(best_matching_record)

Best Cosine Similarity Score: 0.407
Response:
---------------
A RAG vector store is a database or dataset that contains vectorized data
points.
---------------



In [None]:
# Enhanced Similarity
response = best_matching_record
print(query,": ", response)
similarity_score = calculate_enhanced_similarity(query, response)
print("Enhanced Similarity:", similarity_score)

define a rag store :  A RAG vector store is a database or dataset that contains vectorized data points.
Enhanced Similarity: 0.641582812483307


### Augmented Input

In [None]:
augmented_input=query+ " "+ best_matching_record

In [None]:
print_formatted_response(augmented_input)

Response:
---------------
define a rag store A RAG vector store is a database or dataset that contains
vectorized data points.
---------------



### Generation

In [None]:
# Call the function and print the result
llm_response = call_llm_with_full_text(augmented_input)
print_formatted_response(llm_response)

Response:
---------------
Certainly! Let's break down the concept of a "vector store" or "vector database"
and understand its significance in the context of data storage and retrieval.
### What is a Vector Store?  A **vector store** or **vector database** is a
specialized type of database or dataset designed to store and manage data in the
form of vectors. Vectors are mathematical representations of data points, often
used in machine learning and data science to represent features of data in a
numerical format.  ### Key Characteristics of a Vector Store:  1. **Vectorized
Data Points**:     - The primary feature of a vector store is that it contains
data points that have been converted into vectors. These vectors are typically
arrays of numbers that represent various attributes or features of the data.  2.
**Efficient Similarity Search**:    - Vector stores are optimized for performing
similarity searches. This means they can quickly find vectors that are similar
to a given query vector