# RAG lab

## Setup for RAG

4. connect to the database. Milvus

In [None]:
from pymilvus import MilvusClient

host = "localhost"
port = "19530"

milvus_client = MilvusClient(
    host=host,
    port=port
)

: 

5. Vector databases work quite similarly to document databases

In [8]:
from pymilvus import FieldSchema, DataType, CollectionSchema

VECTOR_LENGTH = 768  # check the dimensionality for Silver Retriever Base (v1.1) model

id_field = FieldSchema(name="id", dtype=DataType.INT64, is_primary=True, description="Primary id")
text = FieldSchema(name="text", dtype=DataType.VARCHAR, max_length=4096, description="Page text")
embedding_text = FieldSchema("embedding", dtype=DataType.FLOAT_VECTOR, dim=VECTOR_LENGTH, description="Embedded text")

fields = [id_field, text, embedding_text]

schema = CollectionSchema(fields=fields, auto_id=True, enable_dynamic_field=True, description="RAG Texts collection")

6. To create a collection with the given schema:

In [14]:
COLLECTION_NAME = "rag_texts_and_embeddings"

has_collection = milvus_client.has_collection(COLLECTION_NAME)

print(f"Collection {COLLECTION_NAME} exists: {has_collection}", has_collection)

if not has_collection:
    milvus_client.create_collection(
        collection_name=COLLECTION_NAME,
        schema=schema
    )
    

index_params = milvus_client.prepare_index_params()

index_params.add_index(
    field_name="embedding", 
    index_type="HNSW",
    metric_type="L2",
    params={"M": 4, "efConstruction": 64}  # lower values for speed
) 

milvus_client.create_index(
    collection_name=COLLECTION_NAME,
    index_params=index_params
)

# checkout our collection
print(milvus_client.list_collections())

# describe our collection
print(milvus_client.describe_collection(COLLECTION_NAME))

Collection rag_texts_and_embeddings exists: True True
['rag_texts_and_embeddings']
{'collection_name': 'rag_texts_and_embeddings', 'auto_id': True, 'num_shards': 1, 'description': 'RAG Texts collection', 'fields': [{'field_id': 100, 'name': 'id', 'description': 'Primary id', 'type': <DataType.INT64: 5>, 'params': {}, 'auto_id': True, 'is_primary': True}, {'field_id': 101, 'name': 'text', 'description': 'Page text', 'type': <DataType.VARCHAR: 21>, 'params': {'max_length': 4096}}, {'field_id': 102, 'name': 'embedding', 'description': 'Embedded text', 'type': <DataType.FLOAT_VECTOR: 101>, 'params': {'dim': 768}}], 'functions': [], 'aliases': [], 'collection_id': 457850165906902359, 'consistency_level': 2, 'properties': {}, 'num_partitions': 1, 'enable_dynamic_field': True, 'created_timestamp': 457850344056029189}


7. Now we are able to insert documents into put database.

In [15]:
# define data source and destination
## the document origin destination from which document will be downloaded 
pdf_url = "https://www.iab.org.pl/wp-content/uploads/2024/04/Przewodnik-po-sztucznej-inteligencji-2024_IAB-Polska.pdf"

## local destination of the document
file_name = "Przewodnik-po-sztucznej-inteligencji-2024_IAB-Polska.pdf"

## local destination of the processed document 
file_json = "Przewodnik-po-sztucznej-inteligencji-2024_IAB-Polska.json"

## local destination of the embedded pages of the document
embeddings_json = "Przewodnik-po-sztucznej-inteligencji-2024_IAB-Polska-Embeddings.json"

## local destination of all above local required files
data_dir = "./data"

8. Let's download the document into the `data_dir` directory

In [16]:
# download data
import os
import requests

def download_pdf_data(pdf_url: str, file_name: str) -> None:
    response = requests.get(pdf_url, stream=True)
    with open(os.path.join(data_dir, file_name), "wb") as file:
        for block in response.iter_content(chunk_size=1024):
            if block:
                file.write(block)

download_pdf_data(pdf_url, file_name)

9. This is a lot of text, and in RAG we need to add specific fragments to the prompt.

In [17]:
# prepare data

import fitz
import json


def extract_pdf_text(file_name, file_json):
    document = fitz.open(os.path.join(data_dir, file_name))
    pages = []

    for page_num in range(len(document)):
        page = document.load_page(page_num)
        page_text = page.get_text()
        pages.append({"page_num": page_num, "text": page_text})

    with open(os.path.join(data_dir, file_json), "w") as file:
        json.dump(pages, file, indent=4, ensure_ascii=False)

extract_pdf_text(file_name, file_json)

10. Now we have texts, but we need vectors. We will use the model to embed text from each page

In [18]:
# vectorize data

import torch
import numpy as np
from sentence_transformers import SentenceTransformer


def generate_embeddings(file_json, embeddings_json, model):
    pages = []
    with open(os.path.join(data_dir, file_json), "r") as file:
        data = json.load(file)

    for page in data:
        pages.append(page["text"])

    embeddings = model.encode(pages)

    embeddings_paginated = []
    for page_num in range(len(embeddings)):
        embeddings_paginated.append({"page_num": page_num, "embedding": embeddings[page_num].tolist()})

    with open(os.path.join(data_dir, embeddings_json), "w") as file:
        json.dump(embeddings_paginated, file, indent=4, ensure_ascii=False)

model_name = "ipipan/silver-retriever-base-v1.1"
device = "cuda" if torch.cuda.is_available() else "cpu"
model = SentenceTransformer(model_name, device=device)
generate_embeddings(file_json, embeddings_json, model)

11. Now we can easily insert the data into Milvus

In [19]:
def insert_embeddings(file_json, embeddings_json, client=milvus_client):
    rows = []
    with open(os.path.join(data_dir, file_json), "r") as t_f, open(os.path.join(data_dir, embeddings_json), "r") as e_f:
        text_data, embedding_data = json.load(t_f), json.load(e_f)
        text_data =  list(map(lambda d: d["text"], text_data))
        embedding_data = list(map(lambda d: d["embedding"], embedding_data))
        
        for page, (text, embedding) in enumerate(zip(text_data, embedding_data)):
            rows.append({"text":text, "embedding": embedding})

    client.insert(collection_name="rag_texts_and_embeddings", data=rows)


insert_embeddings(file_json, embeddings_json)

# load inserted data into memory
milvus_client.load_collection("rag_texts_and_embeddings")

12. Now let's do some semantic search!

In [26]:
# search
def search(model, query, client=milvus_client):
    embedded_query = model.encode(query).tolist()
    result = client.search(
        collection_name="rag_texts_and_embeddings", 
        data=[embedded_query], 
        limit=1,
        search_params={"metric_type": "L2"},
        output_fields=["text"]
    )
    return result


result = search(model, query="Czym jest sztuczna inteligencja")

print(result[0][0]["entity"]["text"])


Historia powstania
sztucznej inteligencji
7
W języku potocznym „sztuczny" oznacza to, co
jest 
wytworem 
mającym 
naśladować 
coś
naturalnego. W takim znaczeniu używamy
terminu ,,sztuczny'', gdy mówimy o sztucznym
lodowisku lub oku. Sztuczna inteligencja byłaby
czymś (programem, maszyną) symulującym
inteligencję naturalną, ludzką.
Sztuczna inteligencja (AI) to obszar informatyki,
który skupia się na tworzeniu programów
komputerowych zdolnych do wykonywania
zadań, które wymagają ludzkiej inteligencji. 
Te zadania obejmują rozpoznawanie wzorców,
rozumienie języka naturalnego, podejmowanie
decyzji, uczenie się, planowanie i wiele innych.
Głównym celem AI jest stworzenie systemów,
które są zdolne do myślenia i podejmowania
decyzji na sposób przypominający ludzki.
Historia sztucznej inteligencji sięga lat 50. 
XX wieku, kiedy to powstały pierwsze koncepcje
i modele tego, co mogłoby stać się sztuczną
inteligencją. Jednym z pionierów był Alan
Turing, który sformułował test Turinga, mający
na 

## Gemini

5. Let's prepare the function that will call Google API and generate our response

In [27]:
import os
from google import genai

# GEMINI_KEY = os.getenv("GEMINI_API_KEY")
GEMINI_KEY ="AIzaSyAfdnCac5xkRzBZQyzkWECq-nds75b-6EQ"
gemini_client = genai.Client(api_key=GEMINI_KEY)

MODEL = "gemini-2.0-flash"

def generate_response(prompt: str):
    try:
        # Send request to Gemini 2.0 Flash API and get the response
        response = gemini_client.models.generate_content(
            model=MODEL,
            contents=prompt,
        )
        return response.text 
    except Exception as e:
        print(f"Error generating response: {e}")
        return None

6. Now we can fully integrate everything into a RAG system. Fill the function below that will

In [42]:
def build_prompt(context: str, query: str) -> str:
    prompt = f"Context: {context}\n\nQuestion: {query}\n\nAnswer:"
    return prompt
    

def rag(query: str) -> str:
    result = search(model, query)
    context = result[0][0]["entity"]["text"]
    prompt = build_prompt(context, query)
    response = generate_response(prompt)
    return response
    # having all prepared functions, you can combine them together and try to build your own RAG!

In [43]:
import textwrap

# response formating to print short lines in notebook

In [44]:
query="Czym jest sztuczna inteligencja"

response =rag(query)

print(type(response))


wrapped_response = "\n".join(textwrap.wrap(response, width=100))
print(wrapped_response)

<class 'str'>
Sztuczna inteligencja (AI) to obszar informatyki, który skupia się na tworzeniu programów
komputerowych zdolnych do wykonywania zadań, które wymagają ludzkiej inteligencji. Te zadania
obejmują rozpoznawanie wzorców, rozumienie języka naturalnego, podejmowanie decyzji, uczenie się,
planowanie i wiele innych. Głównym celem AI jest stworzenie systemów, które są zdolne do myślenia i
podejmowania decyzji na sposób przypominający ludzki. W potocznym rozumieniu, sztuczna inteligencja
to coś (program, maszyna) symulujące inteligencję naturalną, ludzką.


In [45]:
query="Jaki jest kierunek rozwoju sztucznej inteligencji"

wrapped_response = "\n".join(textwrap.wrap(rag(query), width=100))
print(wrapped_response)

Z tekstu wynika, że rozwój sztucznej inteligencji zmierza w kilku kierunkach:  *   **W kierunku
coraz większego zrozumienia i emulacji ludzkiej inteligencji:** Od wąskiej AI, przez silną AI, aż po
umysłową AI, która ma emulować ludzkie myślenie i rozumienie, a nawet posiadać świadomość. *   **W
kierunku współpracy i synergii z ludzką inteligencją:** Sztuczna inteligencja zwiększająca
(Augmented Intelligence) pokazuje trend łączenia sił AI z ludzkimi zdolnościami. *   **W kierunku
bezpieczeństwa i etyki:** Sztuczna inteligencja bezpieczna (Safe AI) pokazuje, że istotne jest
minimalizowanie ryzyka i zapewnienie zgodności z wartościami etycznymi. *   **W kierunku lepszego
zrozumienia ludzkich procesów myślowych:** Sztuczna inteligencja odwrócona (Inverse AI) dąży do
modelowania ludzkiego myślenia, by lepiej dostosowywać interakcje maszyn do ludzkich oczekiwań. *
**W kierunku reprezentacji wiedzy o świecie i przewidywania przyszłości:** Sztuczna inteligencja
reprezentacyjna (Representation