In [1]:
from langchain.document_loaders import PyPDFLoader, DirectoryLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.vectorstores import Chroma
from langchain.callbacks.manager import CallbackManager
from langchain.callbacks.streaming_stdout import StreamingStdOutCallbackHandler
from langchain.embeddings import GPT4AllEmbeddings
from langchain_community.llms import LlamaCpp, HuggingFaceHub
from langchain.chains import LLMChain
from langchain import PromptTemplate
from langchain_core.runnables import RunnablePassthrough
from langchain_core.output_parsers import StrOutputParser
from warnings import filterwarnings

In [2]:
filterwarnings('ignore')

In [3]:

directory = "./pdf"
model_path = "./models/llama-2-7b-chat.Q4_0.gguf"
callback_manager = CallbackManager([StreamingStdOutCallbackHandler()])

In [4]:
def file2doc(directory:str) -> list:
  return DirectoryLoader(directory, glob="*.pdf", loader_cls=PyPDFLoader, use_multithreading=True).load()

In [9]:
doc_sources = [doc.page_content for doc in file2doc(directory)]
doc_sources

['32\n2.1 Bulutsu (Nebula)\nYıldızlar arası boşluklarda yer alan ve bu -\nlutu andıran gök cisimlerine bulutsu denir. \nHidrojen gazı, toz ve diğer materyallerden olu -\nşur. Yapısında yıldızlar bulunur ve bu yıldızların ışı -\nğıyla görünür hâle gelir. Bulutsular genellikle yıldız \noluşum bölgeleri oluşturur. Bulutsulardaki gaz, toz \nve diğer materyaller kendi kütlelerinin kütle çekim \nkuvvetinin etkisiyle yoğunlaşarak kümeleşir. Bu kü-\nmeleşme süreci belli bölgelerde yoğunlaşarak yıldız -\nların oluşmasını sağlar.\nAtbaşı Bulutsusu: Orion Takımyıldızı’nda yer alan ve \nbizden 1500 ışık yılı uzaklıkta bulunan bu bulutsu, \nkaranlık bulutsulara güzel bir örnektir. Bulutsu kendi \niçindeki sıcak ve genç yıldızların yaydığı ışık sayesinde \ngörünür durumdadır.\nTarantula Bulutsusu: Şimdiye ka-\ndar keşfedilen en büyük bulutsudur. \nGalaksimize çok uzakta bulunan bu -\nlutsu parlak dev yıldız kümeleriyle \naydınlanır.Orion Bulutsusu: Dünya’ya yaklaşık \n1500 ışık yılı uzaklıkta buluna

In [5]:
def split_text(docs:list) -> list:
  return RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200).split_documents(docs)

In [6]:
def vector_storing(splitted_text):
  return Chroma.from_documents(documents=splitted_text,
                               embedding=GPT4AllEmbeddings(model_kwargs={"device": "cuda"}),
                               persist_directory='db'
                               )

In [7]:
vectorstore = vector_storing(split_text(file2doc(directory)))

In [8]:
def query_vectorstore(prompt,vectorstore):
  return vectorstore.as_retriever(search_type="similarity", search_kwargs={"k": 6}).get_relevant_documents(prompt)

query_vectorstore("Güneş nedir?",vectorstore)

[Document(page_content='yıldızlar Dünya’dan çok uzak olduğu için ışık nok -\ntası hâlinde görünür.\nYeryüzünde iki yer -\nleşim yeri arasındaki \nuzaklığın milimetre veya santimetreler -\nle ölçülmesi tercih edilen bir durum değildir. Aynı şekilde evrende de iki cisim arasındaki uzaklığı metre veya kilomet-relerle ölçmek tercih \nedilmez. Bunun ye -\nrine gök cisimlerinin \nuzaklığını ölçmek için gök biliminde ışık yılı kullanılır. Işık yılı ışığın bir yıl-da kat ettiği yoldur \nve yaklaşık 10 tril-\nyon kilometredir.\n““GÜNEŞ SİSTEMİ VE ÖTESİ 1.\nÜNİTE\n34', metadata={'page': 2, 'source': 'pdf\\sample_01.pdf'}),
 Document(page_content='yıldızlar Dünya’dan çok uzak olduğu için ışık nok -\ntası hâlinde görünür.\nYeryüzünde iki yer -\nleşim yeri arasındaki \nuzaklığın milimetre veya santimetreler -\nle ölçülmesi tercih edilen bir durum değildir. Aynı şekilde evrende de iki cisim arasındaki uzaklığı metre veya kilomet-relerle ölçmek tercih \nedilmez. Bunun ye -\nrine gök cisimlerinin \nuz

In [9]:
llm = LlamaCpp(
        model_path=model_path,
        n_gpu_layers=110,
        temperature=0.2,
        context_window=10000,
        max_tokens=2000,
        top_p=1,
        callback_manager=callback_manager,
        n_threads=6,
        verbose=True,
        n_ctx=4096,
        n_batch=512
    )

llama_model_loader: loaded meta data with 19 key-value pairs and 291 tensors from ./models/llama-2-7b-chat.Q4_0.gguf (version GGUF V2)
llama_model_loader: Dumping metadata keys/values. Note: KV overrides do not apply in this output.
llama_model_loader: - kv   0:                       general.architecture str              = llama
llama_model_loader: - kv   1:                               general.name str              = LLaMA v2
llama_model_loader: - kv   2:                       llama.context_length u32              = 4096
llama_model_loader: - kv   3:                     llama.embedding_length u32              = 4096
llama_model_loader: - kv   4:                          llama.block_count u32              = 32
llama_model_loader: - kv   5:                  llama.feed_forward_length u32              = 11008
llama_model_loader: - kv   6:                 llama.rope.dimension_count u32              = 128
llama_model_loader: - kv   7:                 llama.attention.head_count u32         

llm=HuggingFaceHub(
  repo_id="mistralai/Mistral-7B-Instruct-v0.1",
  model_kwargs={"temperature":0.7},
  huggingfacehub_api_token="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"
)

In [10]:
prompt_template = """
  Soruyu verilen bağlama göre en anlaşılır ve detaylı şekilde cevapla.
  Gelen sorular karşılaştırma sorusu, genel sorular veya direk bilgi istenen sorular olabilir.
  Karşılaştırma sorularına bağlamdan anlamlı bir sonuç çıkararak cevap vereceksin.
  Soruları yanıtlarken sadece Türklerin bakış açısından cevapla.
  Sana sağlanan dokümanlarda bilgisi bulunmayan bir bağlama yanıt olarak "Metinde bilgi bulunmamaktadır" veya "Bilmiyorum" cevabını vereceksin.

  Context:\n {context}?\n
  Question: \n{question}\n
  
  Answer:
"""

In [11]:
prompt = PromptTemplate.from_template(prompt_template)
output_parser = StrOutputParser()
llm_chain = LLMChain(llm=llm, prompt=prompt)
retriever = vectorstore.as_retriever(search_type="similarity", search_kwargs={"k": 6})
rag_chain = ( 
 {"context": retriever, "question": RunnablePassthrough()}
    | llm_chain
)

In [12]:
rag_chain.invoke("güneş nedir?")

LlamaCpp??