In [1]:
import os
from dotenv import load_dotenv
from llama_index.llms.openai import OpenAI
from llama_index.embeddings.openai import OpenAIEmbedding
from llama_index.core import Settings


load_dotenv()

OPENAI_API_KEY = os.getenv('OPENAI_API_KEY')
OPENAI_MODEL = os.getenv('OPENAI_MODEL')
OPENAI_EMBED_MODEL = os.getenv('OPENAI_EMBED_MODEL')
TEMPERATURE_MODEL = os.getenv('TEMPERATURE_MODEL')

In [2]:
llm = OpenAI(
    api_key=OPENAI_API_KEY,
    model=OPENAI_MODEL,
    temperature=TEMPERATURE_MODEL
)
embed_model = OpenAIEmbedding(
    api_key=OPENAI_API_KEY,
    model=OPENAI_EMBED_MODEL
)

In [3]:
Settings.llms = llm
Settings.embed_model = embed_model

In [4]:
from loaders import GeneralLoader

In [5]:
a = GeneralLoader()

In [6]:
documents = a.load_data(['https://tuyensinh.uit.edu.vn/trao-tri-qua-cong-nghe-so-i-he-thong-tra-cuu-mo-liet-si-cong-trinh-y-nghia-mua-he-xanh-uit-2024'])

100%|██████████| 1/1 [00:00<00:00,  2.85it/s]


In [7]:
documents

[Document(id_='https://tuyensinh.uit.edu.vn/trao-tri-qua-cong-nghe-so-i-he-thong-tra-cuu-mo-liet-si-cong-trinh-y-nghia-mua-he-xanh-uit-2024', embedding=None, metadata={}, excluded_embed_metadata_keys=[], excluded_llm_metadata_keys=[], relationships={}, text=' T3, 30/07/2024 \\- 15:20\n\nNhân dịp kỷ niệm 77 năm ngày Thương binh, Liệt sĩ (27/7/1947 \\- 27/7/2024\\), các chiến sĩ Mùa Hè Xanh UIT đã phối hợp với Thành Đoàn, Hội Sinh viên Việt Nam Thành phố và Ban Chỉ huy Chiến dịch tình nguyện Mùa Hè Xanh TP. HCM để ra mắt công trình "Hệ thống tra cứu thông tin mộ liệt sĩ trên địa bàn TP. HCM"\xa0 \\-\xa0[https://www.anhhunglietsi.vn](https://www.anhhunglietsi.vn/?fbclid=IwZXh0bgNhZW0CMTAAAR3D_cDrliekwo7wYleeyT-RzIHfjVrbqSyS09mFNJjVlMCqUsHfpT0J5LE_aem_P9K8fJ7LnxOib41_BeYPMQ) tại Nghĩa trang Liệt sĩ Củ Chi. Đây là hoạt động thuộc khuôn khổ ngày hoạt động cao điểm "Chiến sĩ tình nguyện uống nước nhớ nguồn".\n\n\n\nCông trình "Hệ thống tra cứu thông tin mộ liệt sĩ trên địa bàn TP. Hồ Chí Minh

In [6]:
import weaviate
from llama_index.core import VectorStoreIndex, SimpleDirectoryReader
from llama_index.vector_stores.weaviate import WeaviateVectorStore
from llama_index.core.response.notebook_utils import display_response
from llama_index.core import StorageContext
from llama_index.core.storage.docstore import SimpleDocumentStore
from llama_index.core import Sente

ImportError: cannot import name 'Sente' from 'llama_index.core' (c:\Users\Admin\anaconda3\envs\RAG-chatbot\lib\site-packages\llama_index\core\__init__.py)

In [8]:
client = weaviate.connect_to_local()

In [9]:
client.collections.delete("DSC2024")

In [38]:
documents = a.load_data(['D:/UIT/DSC-2024/DSC2024/notebook/CV_Fullstack_Developer_TranTuanKiet_d3cddc.pdf']) 

100%|██████████| 1/1 [00:33<00:00, 33.98s/it]


In [97]:
from llama_index.storage.docstore.mongodb import MongoDocumentStore

In [142]:
vector_store = WeaviateVectorStore(weaviate_client=client, index_name='DSC2024')
storage_context = StorageContext.from_defaults(docstore=MongoDocumentStore.from_uri('mongodb://localhost:27017', db_name='QAsystem'),vector_store=vector_store)
index = VectorStoreIndex.from_documents(
                documents=documents,
                storage_context=storage_context
)

In [5]:
vector_store = WeaviateVectorStore(weaviate_client=client, index_name='DSC2024')
storage_context = StorageContext.from_defaults(docstore=MongoDocumentStore.from_uri('mongodb://localhost:27017', db_name='QAsystem'),vector_store=vector_store)
index = VectorStoreIndex.from_vector_store(
                vector_store=vector_store,
                storage_context=storage_context
            )

NameError: name 'WeaviateVectorStore' is not defined

In [178]:
query_engine = index.as_query_engine(similarity_top_k=2)
response = query_engine.query("Tên tác giả của cv là gì?")

In [179]:
response

Response(response='Tên tác giả của CV là Tran Tuan Kiet.', source_nodes=[NodeWithScore(node=TextNode(id_='9c4aecfb-d660-4e4d-a1f3-7af5235a9f5c', embedding=[-0.025196988135576248, -0.003818774363026023, 0.0004218246031086892, -0.015217412263154984, 0.0541781410574913, -0.06031586974859238, 0.005843532271683216, 0.05953134596347809, -0.017420995980501175, -0.03470354527235031, -0.012875384651124477, 0.001749310176819563, -0.05431658774614334, -0.008716265670955181, 0.01659032516181469, 0.04224879667162895, -0.051963020116090775, -0.05990053340792656, -0.016371119767427444, -0.04624062776565552, 0.01767481118440628, -0.014732854440808296, 0.021816624328494072, 0.014594409614801407, 0.03461124747991562, -0.027065996080636978, -0.024550912901759148, 0.03571880981326103, -0.0312654934823513, -0.011323646642267704, 0.009812288917601109, -0.034380506724119186, 0.03211923688650131, 0.0028669650200754404, 0.049101825803518295, 0.03604184836149216, 0.039018414914608, 0.003608222585171461, 0.01691

Document(id_='1ce916a8-4473-4de6-9984-cad8542cb658', embedding=None, metadata={'file_path': 'D:\\UIT\\DSC-2024\\DSC2024\\notebook\\CV_Fullstack_Developer_TranTuanKiet_d3cddc.pdf', 'file_name': 'CV_Fullstack_Developer_TranTuanKiet_d3cddc.pdf', 'file_type': 'application/pdf', 'file_size': 49345, 'creation_date': '2024-08-01', 'last_modified_date': '2024-07-31'}, excluded_embed_metadata_keys=['file_name', 'file_type', 'file_size', 'creation_date', 'last_modified_date', 'last_accessed_date'], excluded_llm_metadata_keys=['file_name', 'file_type', 'file_size', 'creation_date', 'last_modified_date', 'last_accessed_date'], relationships={}, text='# Tran Tuan Kiet - Software Engineer\n\n# Tran Tuan Kiet - Kỹ sư Phần mềm\n\n# KỸ NĂNG CHÍNH\n\n- Ngôn ngữ: Trung cấp tiếng Anh.\n- Ngôn ngữ lập trình: Trung cấp Javascript, Typescript.\n- Công nghệ Frontend: Trung cấp ReactJS, NextJS, React Native.\n- Công nghệ Backend: Mới bắt đầu với NodeJS, ExpressJS và NestJS, mới bắt đầu với SQL (Postgres), Mong

In [155]:
print(a.id_)

1ce916a8-4473-4de6-9984-cad8542cb658


In [149]:
len(storage_context.docstore.docs)

0

In [177]:
index.delete_nodes(['1a955af0-9bdf-4e45-a9f7-3d9d57cdca2e','f8da2343-9cf5-4823-b4ec-529e33d4e632'], delete_from_docstore=True)

In [None]:
index = VectorStoreIndex.from_vector_store(
                vector_store=vector_store,
                storage_context=storage_context
            )