### Use this Notebook to create Vector Datastore using Chroma and Langchain

##### Arabic Vector DB - Model : *sentence-transformers/stsb-xlm-r-multilingual*

In [1]:
from langchain.vectorstores import Chroma
from langchain.embeddings import SentenceTransformerEmbeddings 
from langchain.document_loaders import PyPDFDirectoryLoader


embeddings = SentenceTransformerEmbeddings(model_name ="sentence-transformers/stsb-xlm-r-multilingual")

directory = "UAE_Docs_Embeddings_Arabic"

print("embedding the doc now")
loader = PyPDFDirectoryLoader("UAE_Arabic_Documents")
pages = loader.load_and_split()

vectordb = Chroma.from_documents(
    documents=pages, embedding=embeddings, persist_directory=directory
)

vectordb.persist()

  from .autonotebook import tqdm as notebook_tqdm


embedding the doc now


Using embedded DuckDB with persistence: data will be stored in: UAE_Docs_Embeddings_Arabic


#### Retrieve from VectorDB

In [2]:
from langchain.vectorstores import Chroma
from langchain.embeddings import SentenceTransformerEmbeddings
directory = "UAE_Docs_Embeddings_Arabic"
embeddings = SentenceTransformerEmbeddings(model_name ="sentence-transformers/stsb-xlm-r-multilingual")
vectordb = Chroma(persist_directory=directory, embedding_function=embeddings)
query = input("Type your search: ")
result_docs = vectordb.similarity_search_with_score(query)
result_docs

Using embedded DuckDB with persistence: data will be stored in: UAE_Docs_Embeddings_Arabic


[(Document(page_content='6 \n \nالهدف السادس  : ضمان توافر المياه النظيفة والنظافة الصحية .  \nأ- في مجال المياه: \n- الطلة المتزايد على المياه  ب الدولة الم در بنحو  4,2 مليار متر مكعة ستتتنويًا د مع امتلاكها  مخزون غير يتتتخم\nمن المياه الجو ية د جعلها تتجه نحو تبني سياسات ترشيد استخدامات المياه واعتماد مصادر  خرى للمياه مثل تحلية \nمياه البحر لتأمين احتياجاتها . \n-  طل ت الدولة "برنام  الإمارات لبحوث علوم الاستتتمطار "د للت دم  ي استتتكشتتاف الأستتس العلمية والت نية لتحستتين  \nهطول الأمطارد واستخدام التكنولوجيا لتح يز وزيادة هطول الأمطار.  \n-  ستتتستتتت مؤستتتستتتة ستتت يا الإمارات واطلاق مبادرة ستتت يا الامارات لدعم الجهود الدولية من  جل تو ير مياه نظي ة \nصتتالحة للشتترة للأشتتخاص المحتاجين حول العالمد كما تستتاهم المؤستتستتة  ي إيجاد حلول دائمة ومستتتدامة ومبتكرة \nلمشكلة ندرة المياه. \n - تم إنشاء 33 محطة تحلية لتو ير الاحتياجات من المياه. \n- تم تبني حلول جديدة لتن ية المياه وتحليتها بما  ي ذلك تحلية مياه البحر بت نية التنايتتتتتتح العكستتتتتتيد ومحطة تحلية \n ولت يوئيةد وتن

##### English Vector DB - Model : *sentence-transformers/all-MiniLM-L6-v2*

In [3]:
from langchain.vectorstores import Chroma
from langchain.embeddings import SentenceTransformerEmbeddings 
from langchain.document_loaders import PyPDFDirectoryLoader


embeddings = SentenceTransformerEmbeddings(model_name ='sentence-transformers/all-MiniLM-L6-v2')

directory = "UAE_Docs_Embeddings"

# if not os.path.exists(directory):
print("embedding the doc now")
loader = PyPDFDirectoryLoader("UAE_Docs")
pages = loader.load_and_split()

print('Total :',len(pages))
#Avoid docs with very less content
filter_pages = []
for doc in pages :
    if len(doc.page_content) > 200 :
        filter_pages.append(doc)
print('Filtered :',len(filter_pages))

vectordb = Chroma.from_documents(
    documents=filter_pages, embedding=embeddings, persist_directory=directory
)

vectordb.persist()

embedding the doc now


Using embedded DuckDB with persistence: data will be stored in: UAE_Docs_Embeddings


Total : 260
Filtered : 249


#### Retrieve from VectorDB

In [4]:
from langchain.vectorstores import Chroma
from langchain.embeddings import SentenceTransformerEmbeddings
directory = "UAE_Docs_Embeddings"
embeddings = SentenceTransformerEmbeddings(model_name ='sentence-transformers/all-MiniLM-L6-v2')
vectordb = Chroma(persist_directory=directory, embedding_function=embeddings)
query = input("Type your search: ")
result_docs = vectordb.similarity_search_with_score(query)
result_docs

Using embedded DuckDB with persistence: data will be stored in: UAE_Docs_Embeddings


[(Document(page_content='Page 1 Updated: March 2023\nThe 28th Conference of the Parties to the UN Framework Convention on Climate Change (COP28) will \ntake place in November 2023 at Expo City Dubai, United Arab Emirates. COP28 will unite the world towards agreement on bold, practical and ambitious solutions to the most pressing global challenge of our time.\nAs host of COP28, the UAE has outlined four priority areas in which it plans to encourage action and \nelevate the global community’s collective ambition and achieve a major course correction to cut global \nemissions 43 percent by 2030.Areas of Focus“We need to reverse emissions while moving economies forward [and] enable \nan inclusive and just transition that leaves no one behind. That’s why we are determined to make COP28 a COP for All, and a COP of Action.” \nHE Dr. Sultan Al Jaber , COP28 President-Designate\nCOP28 marks the conclusion of the /f_i rst Global Stocktake, a comprehensive assessment of progress  \ntowards the go