<a href="https://colab.research.google.com/github/simonastojev/internship/blob/main/RAGAPP.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
# 1. Инсталација потребних библиотека
!pip install langchain langchain-community langchain-google-genai sentence-transformers faiss-cpu

# 2. Увоз библиотека
from google.colab import files
from langchain_community.document_loaders import TextLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.vectorstores import FAISS
from sentence_transformers import SentenceTransformer
from langchain_core.embeddings import Embeddings
from langchain.chains import RetrievalQA
from langchain_google_genai import ChatGoogleGenerativeAI

# 3. Креирамо класу за локалне embeddings (SentenceTransformers)
class LocalEmbeddings(Embeddings):
    def __init__(self, model_name="all-MiniLM-L6-v2"):
        self.model = SentenceTransformer(model_name)

    def embed_documents(self, texts):
        return self.model.encode(texts).tolist()

    def embed_query(self, text):
        return self.model.encode([text])[0].tolist()



In [2]:
# 4. Уплоад књиге (.txt)
uploaded = files.upload()
filename = list(uploaded.keys())[0]

# 5. Учитавање документа
loader = TextLoader(filename, encoding="utf-8")
documents = loader.load()

print(f"Учитан документ: {filename}, дужина: {len(documents)} сегмената")

Saving Raspad Jugoslavije.txt to Raspad Jugoslavije.txt
Учитан документ: Raspad Jugoslavije.txt, дужина: 1 сегмената


In [3]:
# 6. Подела текста на мање делове (chunking)
text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)
docs = text_splitter.split_documents(documents)

print(f"Број сегмената након сечења: {len(docs)}")
print("Први сегмент:\n", docs[0].page_content[:300])

Број сегмената након сечења: 4
Први сегмент:
 Распад Социјалистичке Федеративне Републике Југославије настао је као резултат низа политичких немира и сукоба
 током почетка деведесетих година 20. века. Након смрти Јосипа Броза Тита и распада Савеза комуниста Југославије
 на републичке савезе, дошло је до периода политичких криза осамдесетих годи


In [4]:
# 7. Креирамо FAISS векторску базу
embeddings = LocalEmbeddings()
vectorstore = FAISS.from_documents(docs, embeddings)

retriever = vectorstore.as_retriever()

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


modules.json:   0%|          | 0.00/349 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/116 [00:00<?, ?B/s]

README.md: 0.00B [00:00, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/612 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/90.9M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/350 [00:00<?, ?B/s]

vocab.txt: 0.00B [00:00, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

In [5]:
# 8. Креирамо LLM (Gemini модел)
llm = ChatGoogleGenerativeAI(
    model="gemini-1.5-flash",
    google_api_key="AIzaSyD4mcsXgQAe_IPluXtwmYFgIqdXCvAxLXg"
)

In [6]:
# 9. Правимо RAG (Retrieval-Augmented Generation) ланац
qa_chain = RetrievalQA.from_chain_type(
    llm=llm,
    retriever=retriever,
    return_source_documents=True
)

In [7]:
# 🔟 Тестирање – постављамо питање о књизи
query = "Које су биле републике?"
result = qa_chain.invoke({"query": query})

print("Питање:", query)
print("Одговор:", result["result"])

# Ако желиш, можеш приказати и изворне документе
for i, doc in enumerate(result["source_documents"]):
    print(f"\n Извор {i+1}:")
    print(doc.page_content[:300])

Питање: Које су биле републике?
Одговор: Републике Социјалистичке Федеративне Републике Југославије су биле: Словенија, Хрватска, Босна и Херцеговина, Србија, Црна Гора и Македонија.

 Извор 1:
Федеративне Републике Југославије (СФРЈ) 1992. године и формирања нових држава од шест социјалистичких република. 
Ратни сукоби су били мањи у СР Словенији средином 1991, а у СР Хрватској (1991—1995) и СР Босни и Херцеговини (1992—1995) 
прерасли су у грађанске ратове са десетинама хиљада мртвих.[а]

 Извор 2:
Након савезничке победе у Другом светском рату, 
ДФ Југославија је формирана као федерација шест република: Словенија, Хрватска, Босна и Херцеговина,
 Србија, Црна Гора и Македонија. Поред република, на подручју Србије су формиране двије аутономне покрајине:
 Војводина и Косово. Свака од република ј

 Извор 3:
Распад Социјалистичке Федеративне Републике Југославије настао је као резултат низа политичких немира и сукоба
 током почетка деведесетих година 20. века. Након смрти Јосипа Броза Ти

ODAVDE JE VEŽBANJE

In [1]:
# 1. Инсталација потребних библиотека
!pip install langchain langchain-community langchain-google-genai sentence-transformers faiss-cpu pypdfium2

# 2. Увоз библиотека
from google.colab import files
from langchain_community.document_loaders import PyPDFium2Loader   # koristi se za PDF fajlove
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.vectorstores import FAISS
from sentence_transformers import SentenceTransformer
from langchain_core.embeddings import Embeddings
from langchain.chains import RetrievalQA
from langchain_google_genai import ChatGoogleGenerativeAI

# 3. Креирамо класу за локалне embeddings (SentenceTransformers)
class LocalEmbeddings(Embeddings):
    def __init__(self, model_name="all-MiniLM-L6-v2"):
        self.model = SentenceTransformer(model_name)

    def embed_documents(self, texts):
        return self.model.encode(texts).tolist()

    def embed_query(self, text):
        return self.model.encode([text])[0].tolist()

# 4. Уплоад књиге (.pdf)
uploaded = files.upload()
filename = list(uploaded.keys())[0]

# 5. Учитавање PDF документа
loader = PyPDFium2Loader(filename)
documents = loader.load()

print(f"Учитан документ: {filename}, број страница: {len(documents)}")





Saving Deep Learning with Python (F. Chollet).pdf to Deep Learning with Python (F. Chollet).pdf




Учитан документ: Deep Learning with Python (F. Chollet).pdf, број страница: 386
Број сегмената након сечења: 1814
Први сегмент:
 MANNING
François Chollet


The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


modules.json:   0%|          | 0.00/349 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/116 [00:00<?, ?B/s]

README.md: 0.00B [00:00, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/612 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/90.9M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/350 [00:00<?, ?B/s]

vocab.txt: 0.00B [00:00, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

Питање: О чему се говори у уводу књиге?
Одговор: Жао ми је, али не знам на шта се односи овај увод.  Немам довољно информација да одговорим на ваше питање.

 Извор 1:
strength, in the langus, as which the same time life and "even who
discless the mankind, with a subject and fact all you have to be the stand
and lave no comes a troveration of the man and surely the
conscience the superiority, and when one must be w
And here’s what you get with temperature=1.0:
new

 Извор 2:
special conscience the special and nature and such men the subjection of the
special men, the most surely the subjection of the special
intellect of the subjection of the same things and
Here’s the result with temperature=0.5:
new faculty, and the jubilation reached its climax when kant in the etern


In [None]:
# 6. Подела текста на мање делове (chunking)
text_splitter = RecursiveCharacterTextSplitter(chunk_size=2000, chunk_overlap=50)
docs = text_splitter.split_documents(documents)

print(f"Број сегмената након сечења: {len(docs)}")
print("Први сегмент:\n", docs[0].page_content[:300])

# 7. Креирамо FAISS векторску базу
embeddings = LocalEmbeddings()
vectorstore = FAISS.from_documents(docs, embeddings)

retriever = vectorstore.as_retriever()

# 8. Креирамо LLM (Gemini модел)
llm = ChatGoogleGenerativeAI(
    model="gemini-1.5-flash",
    google_api_key="AIzaSyD4mcsXgQAe_IPluXtwmYFgIqdXCvAxLXg"   # API key
)

# 9. Правимо RAG (Retrieval-Augmented Generation) ланац
qa_chain = RetrievalQA.from_chain_type(
    llm=llm,
    retriever=retriever,
    return_source_documents=True
)

In [5]:
# 🔟 Тестирање – постављамо питање о књизи
query = "О чему се говори у делу везаном за рачунарску визију? то је сеедмо поглавље у књизи"
result = qa_chain.invoke({"query": query})

print("Питање:", query)
print("Одговор:", result["result"])

# Прикажи СВЕ изворне документе које је искористио
for i, doc in enumerate(result["source_documents"]):
    print(f"\n Извор {i+1}:")
    print(doc.page_content[:300])  # prikaz prvih 300 karaktera iz svakog izvora


Питање: О чему се говори у делу везаном за рачунарску визију? то је сеедмо поглавље у књизи
Одговор: Жао ми је, али не знам одговор на то питање.  Немам приступ садржају седмог поглавља књиге о рачунарској визији.

 Извор 1:
135, 155, 222
RNN (recurrent neural 
network) 196
rotation_range 139
S
samples axis 34
samples dimension 34
sampling
from language models
276–278
Licensed to <null>

 Извор 2:
results[i, j, index] = 1.
Note that Keras has built-in utilities for doing one-hot encoding of text at the word level
or character level, starting from raw text data. You should use these utilities, because
they take care of a number of important features such as stripping special characters
from st

 Извор 3:
words to an integer index.
Reverses it, mapping 
integer indices to words Decodes the review. Note that the indices
are offset by 3 because 0, 1, and 2 are
reserved indices for “padding,” “start of
sequence,” and “unknown.”
Creates an all-zero matrix 
of shape (len(sequences), 
dimensio

DO OVDE JE VEŽBANJE, A OVO JE PDF - učitavanje knjige

In [2]:
# 1. Инсталација потребних библиотека
!pip install langchain langchain-community langchain-google-genai sentence-transformers faiss-cpu
!pip install pypdfium2

Collecting langchain-community
  Downloading langchain_community-0.3.29-py3-none-any.whl.metadata (2.9 kB)
Collecting langchain-google-genai
  Downloading langchain_google_genai-2.1.12-py3-none-any.whl.metadata (7.1 kB)
Collecting faiss-cpu
  Downloading faiss_cpu-1.12.0-cp312-cp312-manylinux_2_27_x86_64.manylinux_2_28_x86_64.whl.metadata (5.1 kB)
Collecting requests<3,>=2 (from langchain)
  Downloading requests-2.32.5-py3-none-any.whl.metadata (4.9 kB)
Collecting dataclasses-json<0.7,>=0.6.7 (from langchain-community)
  Downloading dataclasses_json-0.6.7-py3-none-any.whl.metadata (25 kB)
Collecting google-ai-generativelanguage<1,>=0.7 (from langchain-google-genai)
  Downloading google_ai_generativelanguage-0.7.0-py3-none-any.whl.metadata (10 kB)
Collecting filetype<2,>=1.2 (from langchain-google-genai)
  Downloading filetype-1.2.0-py2.py3-none-any.whl.metadata (6.5 kB)
Collecting marshmallow<4.0.0,>=3.18.0 (from dataclasses-json<0.7,>=0.6.7->langchain-community)
  Downloading marshmal

In [5]:
# 1. Uvoz biblioteka
from google.colab import files
from langchain_community.document_loaders import PyPDFium2Loader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.vectorstores import FAISS
from sentence_transformers import SentenceTransformer
from langchain_core.embeddings import Embeddings
from langchain.chains import RetrievalQA
from langchain_google_genai import ChatGoogleGenerativeAI

# 2. Klasa za embeddings
class LocalEmbeddings(Embeddings):
    def __init__(self, model_name="all-mpnet-base-v2"):  # precizniji model
        self.model = SentenceTransformer(model_name)

    def embed_documents(self, texts):
        return self.model.encode(texts, show_progress_bar=True).tolist()

    def embed_query(self, text):
        return self.model.encode([text])[0].tolist()

# 3. Upload PDF knjige
uploaded = files.upload()
filename = list(uploaded.keys())[0]

# 4. Učitavanje PDF-a
loader = PyPDFium2Loader(filename)
documents = loader.load()

print(f"✅ Učitano: {filename}, broj strana: {len(documents)}")

# 5. Chunkovanje (duži segmenti za bolji kontekst)
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=1500,
    chunk_overlap=150
)
docs = text_splitter.split_documents(documents)
print(f"📑 Segmenti posle sečenja: {len(docs)}")

# 6. FAISS baza
embeddings = LocalEmbeddings()
vectorstore = FAISS.from_documents(docs, embeddings)

retriever = vectorstore.as_retriever(search_kwargs={"k": 10})

# 7. LLM (Gemini)
llm = ChatGoogleGenerativeAI(
    model="gemini-1.5-flash",
    google_api_key="API_KEY" # YOUR API KEY
)

# 8. RAG lanac
qa_chain = RetrievalQA.from_chain_type(
    llm=llm,
    retriever=retriever,
    return_source_documents=True
)

# 9. Interaktivni chat sa knjigom
while True:
    query = input("\nUnesi pitanje (ili 'quit' za kraj): ")
    if query.lower() == "quit":
        break

    result = qa_chain.invoke({"query": query})
    print("\n Odgovor:\n", result["result"])

for i, doc in enumerate(result["source_documents"]):
    print(f"\n Извор {i+1}:")
    print(doc.page_content[:500])  # prikaz prvih 300 karaktera iz svakog izvora

Saving Deep Learning with Python (F. Chollet).pdf to Deep Learning with Python (F. Chollet) (3).pdf




✅ Učitano: Deep Learning with Python (F. Chollet) (3).pdf, broj strana: 386
📑 Segmenti posle sečenja: 708


Batches:   0%|          | 0/23 [00:00<?, ?it/s]


Unesi pitanje (ili 'quit' za kraj): Duboko učenje

 Odgovor:
 I'm sorry, but I don't know what "Duboko učenje" means.

Unesi pitanje (ili 'quit' za kraj): Deep learning

 Odgovor:
 Deep learning is a subfield of machine learning, which itself is a subfield of artificial intelligence.  Deep learning models are long chains of geometric functions applied one after another, structured into modules called layers.  These layers are parameterized by weights, which are learned during training.  The knowledge of a model is stored in its weights. Deep learning has achieved breakthroughs in machine perception (extracting information from images, videos, sound, etc.), but its capabilities are still developing and expectations should be moderated for the short term.  While it shows great promise for transformative applications in various fields, much of its research hasn't yet been fully applied to real-world problems.

Unesi pitanje (ili 'quit' za kraj): Šta je veštačka inteligencija?

 Odgovor:
