In [1]:
from dotenv import load_dotenv
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.document_loaders import PyPDFLoader
from langchain_community.vectorstores import Chroma 
from langchain_openai import OpenAIEmbeddings
from pathlib import Path
from chromadb.utils import embedding_functions
from langchain import hub
from langchain_chroma import Chroma
from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import RunnablePassthrough
from langchain_community.embeddings import SentenceTransformerEmbeddings

In [2]:
load_dotenv()
knowledge_base_paths = Path("KnowledgeBase")
files_path = [f for f in knowledge_base_paths.iterdir() if f.is_file()]

docs = [PyPDFLoader(path).load() for path in files_path]
docs_list = [item for sublist in docs for item in sublist]
splitter = RecursiveCharacterTextSplitter(chunk_size=1024, chunk_overlap=100)
chunks = splitter.split_documents(docs_list)



In [3]:
len(chunks)

3485

In [9]:
chunks[2000]

Document(metadata={'source': 'KnowledgeBase/Bir Muslumanin Yol Haritasi - Akademi A. Heyeti.pdf', 'page': 409}, page_content='f) Taşınması\nCenazeyi teşyi etmek, yani arkasından mezara kadar gitmek sünnettir,\nbunda büyük sevap vardır. Hatta akraba veya komşulardan olup iyi haliyle')

In [4]:
embedding_function = OpenAIEmbeddings(model="text-embedding-3-large")

In [5]:
res = embedding_function.embed_query("Hallo")

In [7]:
len(res)

3072

In [10]:
vectorstore = Chroma.from_documents(
documents=chunks, 
embedding=embedding_function,
collection_name="asrin-getirdigi-tereddutler", persist_directory="./.chromadb",
collection_metadata={"embeeding_model":"text-embedding-3-large",
"chunk_size":1024,
"chunk_overlap":100})



In [11]:
vectorstore._collection.count()

3913

In [12]:
len(vectorstore._collection.peek(1)['embeddings'][0])

3072

In [6]:
vectorstore = Chroma( 
embedding_function=embedding_function,
collection_name="asrin-getirdigi-tereddutler", 
persist_directory="./.chromadb",
collection_metadata={"embeeding_model":"text-embedding-3-large",
"chunk_size":1024,
"chunk_overlap":100})


In [21]:
vectorstore._collection.count()


3913

In [44]:
Allah her şeyi yarattı, -hâşâ- O’nu kim yarattı?query = ""
query2 ="Nürnbergde hava nasil?"

In [45]:
results = vectorstore.similarity_search_with_score(
    query2, k=3
)
for res, score in results:
    print(f"* [SIM={score:3f}] {res.page_content} [{res.metadata}]")


* [SIM=1.530767] de istifham ortaya çıkacaktır. Meselâ, yağmur, buluta bağlı; bulut, zâit-nâkıs
(artı-eksi) habbeciklere, onlar buharlaşma hâdisesine, o da suların
mevcudiyetine ve nihayet o da suyu meydana getiren unsurlara... Böylece
sebepler zinciri, belki birkaç adım daha ilerleyerek devam eder durur; ama
durduğu yerde yine “Şöyle de olabilir, böyle de” diyerek insan kendini
faraziyelerin kucağında hisseder ve onlarla tatmin olmaya çalışır. Bu ise,
fevkalâde bir nizam; bir âhenk ve birbiriyle münasebet içinde, bir hikmet eliyle
meydana geldiği sezilen bütün eşyayı çocuk hezeyanlarıyla izah etmeye
yeltenmekten başka, bir de ilimlerin ufkunu ve hedefini karartmak demektir.
Oysaki, her netice için mutlaka mâkul bir sebebe ihtiyaç vardır. Gayr-i mâkul
ve gayr-i mantıkî sebeplerin uzayıp gitmesi, uzayıp gitmenin kerameti olarak [{'page': 28, 'source': 'KnowledgeBase/asrin-getirdigi-tereddutler-1-M-F-Gulen.pdf'}]
* [SIM=1.538648] bunun altında, üstünde hava bulunmadığı sözünü
1
, geleceğ

In [14]:
import chromadb

client = chromadb.PersistentClient(path=".chromadb")


In [18]:
collection = client.get_or_create_collection("asrin-getirdigi-tereddutler")    

In [16]:
client.delete_collection("chat_messages")

In [19]:
collection.modify(name="fikih")

In [20]:
client.list_collections()

[Collection(name=fikih)]

In [98]:
col = [{"input": "chat_messages", "output": "chat_messages"}]

In [97]:
messages_collection.get("1")

{'ids': ['1'],
 'embeddings': None,
 'documents': ['test'],
 'uris': None,
 'data': None,
 'metadatas': [None],
 'included': [<IncludeEnum.documents: 'documents'>,
  <IncludeEnum.metadatas: 'metadatas'>]}

In [22]:
knowledge_base_paths = Path("vektorisierte_PDF")
files_path = [f for f in knowledge_base_paths.iterdir() if f.is_file()]
docs = [PyPDFLoader(path).load() for path in files_path]
docs_list = [item for sublist in docs for item in sublist]

In [23]:
files_path

[PosixPath('vektorisierte_PDF/Asrin-Getirdigi-Tereddutler-4-M-F-Gulen.pdf'),
 PosixPath('vektorisierte_PDF/asrin-getirdigi-tereddutler-1-M-F-Gulen.pdf'),
 PosixPath('vektorisierte_PDF/Asrin-Getirdigi-Tereddutler-3-M-F-Gulen.pdf'),
 PosixPath('vektorisierte_PDF/Bir Muslumanin Yol Haritasi - Akademi A. Heyeti.pdf'),
 PosixPath('vektorisierte_PDF/Asrin-Getirdigi-Tereddutler-2-M-F-Gulen.pdf')]