In [1]:
from langchain_community.document_loaders import PyPDFLoader
loader = PyPDFLoader("Foretagsinfo_RSA_AB.pdf")
Pdf_data = loader.load()  # entire PDF is loaded as a single Document

Pdf_data

[Document(metadata={'producer': 'PyFPDF 1.7.2 http://pyfpdf.googlecode.com/', 'creator': 'PyPDF', 'creationdate': 'D:20250520151417', 'source': 'Foretagsinfo_RSA_AB.pdf', 'total_pages': 2, 'page': 0, 'page_label': '1'}, page_content='Exempel AB - Företagsinformation\nOm oss\nRsa AB är ett svenskt IT-konsultföretag som erbjuder skräddarsydda lösningar för små och medelstora\nföretag. Vi har över 10 års erfarenhet inom mjukvaruutveckling, molntjänster och IT-säkerhet.\nVåra tjänster\n- Mjukvaruutveckling\n- Systemintegration\n- IT-support och underhåll\n- Rådgivning inom cybersäkerhet\n- Molnbaserade lösningar\nVanliga frågor (FAQ)\n1. Hur kan jag kontakta er support?\n   - Du kan nå vår support via e-post på support@rsa.se eller ringa oss på 010-123 45 67.\n2. Har ni jourservice?\n   - Ja, vi erbjuder jourservice kvällar och helger för företagskunder med avtal.\n3. Arbetar ni med specifika branscher?\n   - Vi är specialiserade på lösningar för hälso- och sjukvård, detaljhandel och finan

In [2]:
len(Pdf_data)

2

In [3]:

from langchain.text_splitter import RecursiveCharacterTextSplitter

#split data
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000)
docs = text_splitter.split_documents(Pdf_data)


print("Total number of documents: ",len(docs))

Total number of documents:  2


In [4]:
docs[1]

Document(metadata={'producer': 'PyFPDF 1.7.2 http://pyfpdf.googlecode.com/', 'creator': 'PyPDF', 'creationdate': 'D:20250520151417', 'source': 'Foretagsinfo_RSA_AB.pdf', 'total_pages': 2, 'page': 1, 'page_label': '2'}, page_content='Exempel AB - Företagsinformation\nWebbplats: www.rsa.se\nÖppettider\nMåndag - Fredag: 08:00 - 17:00\nLördag - Söndag: Stängt\nIntegritetspolicy (GDPR)\nVi hanterar alla personuppgifter enligt gällande dataskyddsförordning (GDPR). För mer information om hur vi\nbehandlar dina uppgifter, besök vår hemsida eller kontakta vårt dataskyddsombud.')

In [5]:

import os 
from dotenv import load_dotenv
load_dotenv() 
# Get the value
api_key = os.getenv("GOOGLE_API_KEY")

# Print it to verify
print(f"My API Key is: {api_key}")


My API Key is: AIzaSyDskcfrLJF7pguJw9SGo9dQwkfZRl6Ikx8


In [6]:
from langchain_google_genai import GoogleGenerativeAIEmbeddings

embeddings = GoogleGenerativeAIEmbeddings(model="models/gemini-embedding-exp-03-07")
vector = embeddings.embed_query("hello, world!")
vector[:5]

[-0.024917153641581535,
 0.012005362659692764,
 -0.003886754624545574,
 -0.05774897709488869,
 0.0020742062479257584]

In [7]:
# Create a vector store with a sample text
from langchain_core.vectorstores import InMemoryVectorStore

vectorstore = InMemoryVectorStore.from_documents(documents=docs, embedding=GoogleGenerativeAIEmbeddings(model="models/embedding-001"))

# Use the vectorstore as a retriever
retriever = vectorstore.as_retriever(search_type="similarity", search_kwargs={"k": 2})

# Retrieve the most similar text
retrieved_documents = retriever.invoke("Hur kan jag kontakta er support")

# show the retrieved document's content

print(retrieved_documents)

[Document(id='547ea605-aa7a-42e0-8e55-af296c208003', metadata={'producer': 'PyFPDF 1.7.2 http://pyfpdf.googlecode.com/', 'creator': 'PyPDF', 'creationdate': 'D:20250520151417', 'source': 'Foretagsinfo_RSA_AB.pdf', 'total_pages': 2, 'page': 0, 'page_label': '1'}, page_content='Exempel AB - Företagsinformation\nOm oss\nRsa AB är ett svenskt IT-konsultföretag som erbjuder skräddarsydda lösningar för små och medelstora\nföretag. Vi har över 10 års erfarenhet inom mjukvaruutveckling, molntjänster och IT-säkerhet.\nVåra tjänster\n- Mjukvaruutveckling\n- Systemintegration\n- IT-support och underhåll\n- Rådgivning inom cybersäkerhet\n- Molnbaserade lösningar\nVanliga frågor (FAQ)\n1. Hur kan jag kontakta er support?\n   - Du kan nå vår support via e-post på support@rsa.se eller ringa oss på 010-123 45 67.\n2. Har ni jourservice?\n   - Ja, vi erbjuder jourservice kvällar och helger för företagskunder med avtal.\n3. Arbetar ni med specifika branscher?\n   - Vi är specialiserade på lösningar för 

In [8]:
len(retrieved_documents)

2

In [9]:
from langchain_google_genai import ChatGoogleGenerativeAI

llm = ChatGoogleGenerativeAI(
    model="gemini-2.0-flash",
    temperature=0,
    max_tokens=None,
    
)

In [10]:
from langchain.chains import create_retrieval_chain
from langchain.chains.combine_documents import create_stuff_documents_chain
from langchain_core.prompts import ChatPromptTemplate


# System prompt
system_prompt = (
    "You are an assistant for question-answering tasks. "
    "Use the following pieces of retrieved context to answer "
    "the question. If you don't know the answer, say that you "
    "don't know. Use three sentences maximum and keep the "
    "answer concise.\n\n{context}"
)

prompt = ChatPromptTemplate.from_messages([
    ("system", system_prompt),
    ("human", "{input}"),
])



In [11]:
question_answer_chain = create_stuff_documents_chain(llm, prompt)
rag_chain = create_retrieval_chain(retriever, question_answer_chain)

In [12]:
response = rag_chain.invoke({"input": "Hur kan jag kontakta er support?"})
print(response["answer"])

Du kan nå supporten via e-post på support@rsa.se eller ringa på 010-123 45 67.
