## Practice vector stores

In [1]:
from dotenv import load_dotenv, find_dotenv

In [2]:
_ = load_dotenv(find_dotenv())

### Load the documents

In [3]:
from langchain.document_loaders import PyPDFLoader

In [4]:
loaders = [
    PyPDFLoader("../data/Glasnik-638.pdf"),
    PyPDFLoader("../data/Glasnik-689.pdf"),
    PyPDFLoader("../data/masteri-upatstvo.pdf"),
    PyPDFLoader("../data/pravila-za-seminarska-rabota_ekts.pdf")
]

docs = []
for loader in loaders:
    docs.extend(loader.load())

### Create chunks

In [5]:
from langchain.text_splitter import RecursiveCharacterTextSplitter

In [6]:
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=1500,
    chunk_overlap=150
)

In [7]:
docs

[Document(metadata={'source': '../data/Glasnik-638.pdf', 'page': 0}, page_content=' \n  \nUniverzitetski glasnik  Br.  638, 30 декември 2022  \n \n1 \n   \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n  \nUniverzitetski glasnik  \n \n \nИздавач  \nУниверзитет  „Св. Кирил  и \nМетодиј“  - Скопје  \n \n \n \n \n \n \n \n \n \nУредник  \nна издавачката  дејност  на \nУКИМ  \nпроф . д-р Никола  Јанкуловски , \nректор  \n \n \nУредник  \nна Универзитетски  гласник  \nм-р Марија  Маневска , \nгенерален  секретар  \n \nЛектор  \nВесна Илиевска Цветановска  \n \nТехничко  уредување  \nЗоран  Кордоски  \nм-р Елизабета Додевска  \n  \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \nО Д Л У КА  \nЗА ПРАВИЛА НА СТУДИРАЊЕ  \nна втор циклус студии (постдипломски  \nстудии)  на Универзитетот „Св. Кирил и \nМетодиј“ во Скопје , Економски и нститут  – \nСкопје  \n '),
 Document(metadata={'source': '../data/Glasnik-638.pdf', 'page': 1}, page_content=' \n  \nUniverzitetski glasnik  Br.  638, 30 

In [8]:
len(docs) # This shows the total number of pages of all loaded documents

44

In [9]:
splits = text_splitter.split_documents(docs)

In [10]:
len(splits)

90

In [11]:
splits

[Document(metadata={'source': '../data/Glasnik-638.pdf', 'page': 0}, page_content='Univerzitetski glasnik  Br.  638, 30 декември 2022  \n \n1 \n   \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n  \nUniverzitetski glasnik  \n \n \nИздавач  \nУниверзитет  „Св. Кирил  и \nМетодиј“  - Скопје  \n \n \n \n \n \n \n \n \n \nУредник  \nна издавачката  дејност  на \nУКИМ  \nпроф . д-р Никола  Јанкуловски , \nректор  \n \n \nУредник  \nна Универзитетски  гласник  \nм-р Марија  Маневска , \nгенерален  секретар  \n \nЛектор  \nВесна Илиевска Цветановска  \n \nТехничко  уредување  \nЗоран  Кордоски  \nм-р Елизабета Додевска  \n  \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \nО Д Л У КА  \nЗА ПРАВИЛА НА СТУДИРАЊЕ  \nна втор циклус студии (постдипломски  \nстудии)  на Универзитетот „Св. Кирил и \nМетодиј“ во Скопје , Економски и нститут  – \nСкопје'),
 Document(metadata={'source': '../data/Glasnik-638.pdf', 'page': 1}, page_content='Univerzitetski glasnik  Br.  638, 30 декември 2022  \n \

In [12]:
splits[0].page_content

'Univerzitetski glasnik  Br.  638, 30 декември 2022  \n \n1 \n   \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n  \nUniverzitetski glasnik  \n \n \nИздавач  \nУниверзитет  „Св. Кирил  и \nМетодиј“  - Скопје  \n \n \n \n \n \n \n \n \n \nУредник  \nна издавачката  дејност  на \nУКИМ  \nпроф . д-р Никола  Јанкуловски , \nректор  \n \n \nУредник  \nна Универзитетски  гласник  \nм-р Марија  Маневска , \nгенерален  секретар  \n \nЛектор  \nВесна Илиевска Цветановска  \n \nТехничко  уредување  \nЗоран  Кордоски  \nм-р Елизабета Додевска  \n  \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \nО Д Л У КА  \nЗА ПРАВИЛА НА СТУДИРАЊЕ  \nна втор циклус студии (постдипломски  \nстудии)  на Универзитетот „Св. Кирил и \nМетодиј“ во Скопје , Економски и нститут  – \nСкопје'

In [13]:
splits[2]

Document(metadata={'source': '../data/Glasnik-638.pdf', 'page': 1}, page_content='индивидуално то студирање, признавање то на \nиспитите и другите студиски обврски положени \nна различни високообразовни установи, видот на \nисправите кои му се издаваат на студентот врз \nоснов а на евиденцијата определена со Законот за \nвисокото образование, постапката за заштита на \nправата на студен тите, органи те надлежни за \nводење на постапките и одлучувањето, \nдисциплинска та одговорност и права та и \nдолжности те на студентите во дисци плинската \nпостапка и други прави ла поврзани со правата и \nдолжностите на студентите  на Универзитетот \n„Св. Кирил и Методи ј“ во Скопје, Економски \nинститут  – Скопје (во понатамошниот текст:  \nИнститутот ). \n \nII.  ЗАПИШУВАЊЕ СТУДЕНТИ  \nУслови за запишување  \nЧлен 2  \nНа втор циклус студии (постдипломски \nстудии) (во понатамошниот текст: втор циклус  \nстудии)  на Институтот , студентите се запишуваат \nсогласно со З акон от за високото образов

### Create embeddings

In [14]:
from langchain.embeddings.openai import OpenAIEmbeddings # need api key, account and pay in advance

In [15]:
from langchain_community.embeddings import GPT4AllEmbeddings # These ones's free

In [16]:
embeddings = GPT4AllEmbeddings()

In [17]:
sentence1 = "i like dogs"
sentence2 = "i like canines"
sentence3 = "the weather is ugly outside"

In [18]:
embedding1 = embeddings.embed_query(sentence1)
embedding2 = embeddings.embed_query(sentence2)
embedding3 = embeddings.embed_query(sentence3)

In [19]:
import numpy as np # to compare embeddings

In [20]:
np.dot(embedding1, embedding2)

0.9151681536233391

In [21]:
np.dot(embedding1, embedding3)

0.08331223583733952

In [22]:
np.dot(embedding2, embedding3)

0.040348342825510294

### Vector stores

In [23]:
from langchain.vectorstores import Chroma # open source vector store
# It's lightweight and in-memory, very easy to get started with

In [26]:
persist_directory = '../data/chroma'

In [25]:
# Create a vector store

vectordb = Chroma.from_documents(
    documents=splits,
    embedding=embeddings,
    persist_directory=persist_directory
)

In [36]:
print(vectordb._collection.count())

90


In [37]:
question = "is there an email i can ask for help"

In [38]:
docs = vectordb.similarity_search(question, k=3)

In [39]:
docs

[Document(metadata={'page': 2, 'source': '../data/pravila-za-seminarska-rabota_ekts.pdf'}, page_content='2. Користење на факторингот----------------------------------------------------  10 \n     2.1. Предности на факторингот----------------------------------------------   10 \n     2.2. Слабости на факторингот-----------------------------------------------    11 \n3. Примена на факторингот во Соединетите Американски Држави  \n           и  Европа----------------------------------------------------------------------------    12 \n4. Услови од кои зависи промовирањето на факторингот во \n    Македонија-------------------------------------------------------------------------   15 \n           4.1. Е кономски претпоставки------------------------------------------------    15 \n     4.2. Правни услови --------------------------------------------------------------    17 \n     4.3. Сметководствена и даночна политика-------------------------------    19 \n      Заклучок----------------------

In [40]:
vectordb.persist()

  vectordb.persist()


In [41]:
# Docs are automatically persisted

In [None]:
print(docs[0].page_content)

### Maximum Marginal Relevance

In [42]:
texts = [
    """The Amanita phalloides has a large and imposing epigeous (aboveground) fruiting body (basidiocarp).""",
    """A mushroom with a large fruiting body is the Amanita phalloides. Some varieties are all-white.""",
    """A. phalloides, a.k.a Death Cap, is one of the most poisonous of all known mushrooms.""",
]

In [44]:
# create a small database to use as a toy example
smalldb = Chroma.from_texts(texts, embedding=embeddings)

In [46]:
smalldb.similarity_search(question, k=2)

[Document(metadata={}, page_content='A mushroom with a large fruiting body is the Amanita phalloides. Some varieties are all-white.'),
 Document(metadata={}, page_content='A. phalloides, a.k.a Death Cap, is one of the most poisonous of all known mushrooms.')]

In [48]:
smalldb.max_marginal_relevance_search(question, k=2, fetch_k=3)

[Document(metadata={}, page_content='A mushroom with a large fruiting body is the Amanita phalloides. Some varieties are all-white.'),
 Document(metadata={}, page_content='A. phalloides, a.k.a Death Cap, is one of the most poisonous of all known mushrooms.')]