<a href="https://colab.research.google.com/github/simonastojev/internship/blob/main/RAGAPP.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
# 1. Инсталација потребних библиотека
!pip install langchain langchain-community langchain-google-genai sentence-transformers faiss-cpu

# 2. Увоз библиотека
from google.colab import files
from langchain_community.document_loaders import TextLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.vectorstores import FAISS
from sentence_transformers import SentenceTransformer
from langchain_core.embeddings import Embeddings
from langchain.chains import RetrievalQA
from langchain_google_genai import ChatGoogleGenerativeAI

# 3. Креирамо класу за локалне embeddings (SentenceTransformers)
class LocalEmbeddings(Embeddings):
    def __init__(self, model_name="all-MiniLM-L6-v2"):
        self.model = SentenceTransformer(model_name)

    def embed_documents(self, texts):
        return self.model.encode(texts).tolist()

    def embed_query(self, text):
        return self.model.encode([text])[0].tolist()



In [2]:
# 4. Уплоад књиге (.txt)
uploaded = files.upload()
filename = list(uploaded.keys())[0]

# 5. Учитавање документа
loader = TextLoader(filename, encoding="utf-8")
documents = loader.load()

print(f"Учитан документ: {filename}, дужина: {len(documents)} сегмената")

Saving Raspad Jugoslavije.txt to Raspad Jugoslavije.txt
Учитан документ: Raspad Jugoslavije.txt, дужина: 1 сегмената


In [3]:
# 6. Подела текста на мање делове (chunking)
text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)
docs = text_splitter.split_documents(documents)

print(f"Број сегмената након сечења: {len(docs)}")
print("Први сегмент:\n", docs[0].page_content[:300])

Број сегмената након сечења: 4
Први сегмент:
 Распад Социјалистичке Федеративне Републике Југославије настао је као резултат низа политичких немира и сукоба
 током почетка деведесетих година 20. века. Након смрти Јосипа Броза Тита и распада Савеза комуниста Југославије
 на републичке савезе, дошло је до периода политичких криза осамдесетих годи


In [4]:
# 7. Креирамо FAISS векторску базу
embeddings = LocalEmbeddings()
vectorstore = FAISS.from_documents(docs, embeddings)

retriever = vectorstore.as_retriever()

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


modules.json:   0%|          | 0.00/349 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/116 [00:00<?, ?B/s]

README.md: 0.00B [00:00, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/612 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/90.9M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/350 [00:00<?, ?B/s]

vocab.txt: 0.00B [00:00, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

In [5]:
# 8. Креирамо LLM (Gemini модел)
llm = ChatGoogleGenerativeAI(
    model="gemini-1.5-flash",
    google_api_key="AIzaSyD4mcsXgQAe_IPluXtwmYFgIqdXCvAxLXg"
)

In [6]:
# 9. Правимо RAG (Retrieval-Augmented Generation) ланац
qa_chain = RetrievalQA.from_chain_type(
    llm=llm,
    retriever=retriever,
    return_source_documents=True
)

In [7]:
# 🔟 Тестирање – постављамо питање о књизи
query = "Које су биле републике?"
result = qa_chain.invoke({"query": query})

print("Питање:", query)
print("Одговор:", result["result"])

# Ако желиш, можеш приказати и изворне документе
for i, doc in enumerate(result["source_documents"]):
    print(f"\n Извор {i+1}:")
    print(doc.page_content[:300])

Питање: Које су биле републике?
Одговор: Републике Социјалистичке Федеративне Републике Југославије су биле: Словенија, Хрватска, Босна и Херцеговина, Србија, Црна Гора и Македонија.

 Извор 1:
Федеративне Републике Југославије (СФРЈ) 1992. године и формирања нових држава од шест социјалистичких република. 
Ратни сукоби су били мањи у СР Словенији средином 1991, а у СР Хрватској (1991—1995) и СР Босни и Херцеговини (1992—1995) 
прерасли су у грађанске ратове са десетинама хиљада мртвих.[а]

 Извор 2:
Након савезничке победе у Другом светском рату, 
ДФ Југославија је формирана као федерација шест република: Словенија, Хрватска, Босна и Херцеговина,
 Србија, Црна Гора и Македонија. Поред република, на подручју Србије су формиране двије аутономне покрајине:
 Војводина и Косово. Свака од република ј

 Извор 3:
Распад Социјалистичке Федеративне Републике Југославије настао је као резултат низа политичких немира и сукоба
 током почетка деведесетих година 20. века. Након смрти Јосипа Броза Ти

In [8]:
# 1. Инсталација потребних библиотека
!pip install langchain langchain-community langchain-google-genai sentence-transformers faiss-cpu pypdfium2

# 2. Увоз библиотека
from google.colab import files
from langchain_community.document_loaders import PyPDFium2Loader   # koristi se za PDF fajlove
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.vectorstores import FAISS
from sentence_transformers import SentenceTransformer
from langchain_core.embeddings import Embeddings
from langchain.chains import RetrievalQA
from langchain_google_genai import ChatGoogleGenerativeAI

# 3. Креирамо класу за локалне embeddings (SentenceTransformers)
class LocalEmbeddings(Embeddings):
    def __init__(self, model_name="all-MiniLM-L6-v2"):
        self.model = SentenceTransformer(model_name)

    def embed_documents(self, texts):
        return self.model.encode(texts).tolist()

    def embed_query(self, text):
        return self.model.encode([text])[0].tolist()

# 4. Уплоад књиге (.pdf)
uploaded = files.upload()
filename = list(uploaded.keys())[0]

# 5. Учитавање PDF документа
loader = PyPDFium2Loader(filename)
documents = loader.load()

print(f"Учитан документ: {filename}, број страница: {len(documents)}")

# 6. Подела текста на мање делове (chunking)
text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)
docs = text_splitter.split_documents(documents)

print(f"Број сегмената након сечења: {len(docs)}")
print("Први сегмент:\n", docs[0].page_content[:300])

# 7. Креирамо FAISS векторску базу
embeddings = LocalEmbeddings()
vectorstore = FAISS.from_documents(docs, embeddings)

retriever = vectorstore.as_retriever()

# 8. Креирамо LLM (Gemini модел)
llm = ChatGoogleGenerativeAI(
    model="gemini-1.5-flash",
    google_api_key="AIzaSyD4mcsXgQAe_IPluXtwmYFgIqdXCvAxLXg"   # zameni API key
)

# 9. Правимо RAG (Retrieval-Augmented Generation) ланац
qa_chain = RetrievalQA.from_chain_type(
    llm=llm,
    retriever=retriever,
    return_source_documents=True
)

# 🔟 Тестирање – постављамо питање о књизи
query = "О чему се говори у уводу књиге?"
result = qa_chain.invoke({"query": query})

print("Питање:", query)
print("Одговор:", result["result"])

# Прикажи и изворне документе
for i, doc in enumerate(result["source_documents"][:2]):  # samo prva 2 izvora
    print(f"\n Извор {i+1}:")
    print(doc.page_content[:300])


Collecting pypdfium2
  Downloading pypdfium2-4.30.0-py3-none-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (48 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m48.5/48.5 kB[0m [31m4.2 MB/s[0m eta [36m0:00:00[0m
Downloading pypdfium2-4.30.0-py3-none-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (2.8 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.8/2.8 MB[0m [31m59.0 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pypdfium2
Successfully installed pypdfium2-4.30.0


Saving Mathematics for Machine learning.pdf to Mathematics for Machine learning.pdf




Учитан документ: Mathematics for Machine learning.pdf, број страница: 412
Број сегмената након сечења: 2192
Први сегмент:
 MATHEMATICS FOR
MACHINE LEARNING
Marc Peter Deisenroth
A. Aldo Faisal
Cheng Soon Ong
Питање: О чему се говори у уводу књиге?
Одговор: Жао ми је, али не знам на шта се односи увод у књигу.  Текст који ми је дат садржи фрагменте математичке теорије, а не увод у књигу.

 Извор 1:
>
i bj = 1 if and only if i = j and 0 otherwise.
From Section 2.5 we know that for a basis (b1, . . . , bD) of RD any x ∈
RD can be written as a linear combination of the basis vectors of RD, i.e.,
Vectors x˜ ∈ U could
be vectors on a
plane in R3. The
dimensionality of
the plane is 2, but
the vector

 Извор 2:
Box-Muller transform ( ¨ Devroye, 1986) to obtain a sample from a univariate Gaussian; and third, we collate a vector of these samples to obtain a
sample from a multivariate standard normal N
