# Test loaders

In [24]:
import os
from langchain.document_loaders import PyPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_openai import OpenAIEmbeddings
from langchain_community.vectorstores import FAISS


In [21]:
import getpass
import os

if "OPENAI_API_KEY" not in os.environ:
    os.environ["OPENAI_API_KEY"] = getpass.getpass("OpenAI API Key:")

In [2]:
os.listdir('../data/input')

['glasnik-540-pravila-feit.pdf']

In [4]:
pdf_path = '../data/input/glasnik-540-pravila-feit.pdf'

In [7]:
loader = PyPDFLoader(pdf_path)

In [6]:
! pip install pypdf

Collecting pypdf
  Downloading pypdf-5.1.0-py3-none-any.whl (297 kB)
Installing collected packages: pypdf
Successfully installed pypdf-5.1.0


In [12]:
pages = []
async for page in loader.alazy_load():
    pages.append(page)

In [16]:
print(f"{pages[10].metadata}\n")
print(pages[10].page_content)

{'source': '../data/input/glasnik-540-pravila-feit.pdf', 'page': 10}

  
Универзитетски гласник Бр.  540, 17 март 2021 
 
11 
 
 да се има вклучен мобилен телефон 
или каков било друг аудио или 
визуелен носач/пренесувач на 
информации за поставеното 
прашање, освен ако природата на 
задачата бара или дозволува 
употреба на дигитална технологија; 
 ненавремено предавање на тестот, 
откако наставникот дал знак дека 
времето за пишување завршило; 
 какво било користење литература за 
поставеното прашање, освен ако 
природата на наставниот предмет 
дозволува нејзино користење во 
текот на испитот. 
За време на полагање на усниот испит не е 
дозволено: 
 допишување, зборување или 
соработка меѓу студентите, освен 
ако наставникот дозволи таков 
начин на работа; 
 да се има вклучен мобилен телефон 
или каков било друг аудио или 
визуелен носач/пренесувач на 
информации за поставеното 
прашање, освен ако природата на 
задачата бара или дозволува 
употреба на дигитална технологија; 
 ка

In [23]:
splitter = RecursiveCharacterTextSplitter(
    chunk_size=2000,
    chunk_overlap=200,
    length_function=len,
    is_separator_regex=False,
)
pdf_documents = splitter.split_documents(pages)

In [22]:
embedder  = OpenAIEmbeddings(
    model="text-embedding-ada-002",
    openai_api_key=os.environ["OPENAI_API_KEY"]
)


In [25]:
pdf_documents

[Document(metadata={'source': '../data/input/glasnik-540-pravila-feit.pdf', 'page': 0}, page_content='Универзитетски гласник Бр.  540, 17 март 2021 \n \n1 \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \nУниверзитетски гласник \n \n \nИздавач: \nУниверзитет „Св. Кирил и \nМетодиј“ – Скопје \n \n \n \n \n  \n \n \n \nУредник \nна издавачката дејност на УКИМ: \nпроф. д-р Никола Јанкуловски, \nректор \n \n \nУредник \nна Универзитетски гласник: \nм-р Марија Маневска, \nгенерален секретар \n \n \nЛектор: \nВесна Илиевска Цветановска \n \nТехничко уредување: \nЗоран Кордоски \nм-р Елизабета Додевска \n \n \n \n \n \n \n \n \n \n \n \n \nО Д Л У К А \nЗА ПРАВИЛА НА СТУДИРАЊЕ \nна прв циклус студии (додипломски студии) \nи втор циклус студии (постдипломски \nстудии) на Универзитетот „Св. Кирил и \nМетодиј“ во Скопје – Факултет за \nелектротехника и информациски \nтехнологии – Скопје'),
 Document(metadata={'source': '../data/input/glasnik-540-pravila-feit.pdf', 'page': 1}, page_content='Ун

In [27]:
db = FAISS.from_documents(pdf_documents, embedder)
db.save_local(folder_path='../vector_db/vectors_RecursiveCharacterTextSplitter_2000_200')