#### Setup

In [9]:
import os
import openai
from langchain.embeddings import HuggingFaceEmbeddings
from llama_index import ServiceContext, set_global_service_context
from llama_index.llms import OpenAI
from llama_index.embeddings import OpenAIEmbedding
from llama_index.node_parser import SentenceWindowNodeParser
#------------------------------------------------------------
os.environ["OPENAI_API_KEY"] = "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"
openai.api_key = os.environ["OPENAI_API_KEY"]
# Create the sentence window node parser w/ default settings
node_parser = SentenceWindowNodeParser.from_defaults(
    window_size=3,
    window_metadata_key="window",
    original_text_metadata_key="original_text",
)
#------------------------------------------------------------
llm = OpenAI(model="gpt-3.5-turbo", temperature=0.1)
#------------------------------------------------------------
# # HuggingFaceEmbeddings
# ctx = ServiceContext.from_defaults(
#     llm=llm,
#     embed_model=HuggingFaceEmbeddings(model_name="sentence-transformers/all-mpnet-base-v2"),
#     node_parser=node_parser,)
#------------------------------------------------------------
# OpenAIEmbeddings
ctx = ServiceContext.from_defaults(
    llm=llm, 
    embed_model=OpenAIEmbedding(embed_batch_size=512), 
    node_parser=node_parser)


#### Build the index

In [10]:
from llama_index import VectorStoreIndex
from llama_index import SimpleDirectoryReader
_file = ['../data/lsdk_preprocessed.txt']
documents = SimpleDirectoryReader(input_files=_file).load_data()
sentence_index = VectorStoreIndex.from_documents(documents, service_context=ctx)


#### Querying With MetadataReplacementPostProcessor

In [13]:
from llama_index.indices.postprocessor import MetadataReplacementPostProcessor

query_engine = sentence_index.as_query_engine(
    similarity_top_k=2,
    # the target key defaults to `window` to match the node_parser's default
    node_postprocessors=[
        MetadataReplacementPostProcessor(target_metadata_key="window")
    ],
)
window_response = query_engine.query("Lịch sử tìm kiếm thăm dò địa chấn khúc xạ?")
print(window_response)

Tổng cục Dầu mỏ và Khí đốt Việt Nam đã tiến hành nhiều hoạt động tìm kiếm, thăm dò dầu khí ở các lô và khu vực thuộc bể Nam Côn Sơn. Các nhà thầu đã tiến hành thu nổ hàng chục nghìn kilômét tuyến địa chấn 2D và hàng nghìn kilômét vuông địa chấn 3D để tìm kiếm dấu hiệu dầu khí.


In [16]:
import textwrap
window = window_response.source_nodes[0].node.metadata["window"]
sentence = window_response.source_nodes[0].node.metadata["original_text"]

print(textwrap.fill(f"Window: {window}", width=100))
print("------------------")
print(textwrap.fill(f"Original Sentence: {sentence}", width=100))

Window: 5. Đoàn Dầu khí Đồng bằng Cửu Long. 5.2. Khoan tìm kiếm - thăm dò. Để làm rõ mặt cắt địa
chất và tìm kiếm các dấu hiệu dầu khí vùng Đồng bằng sông Cửu Long, Tổng cục Dầu khí đã quyết định
cho khoan hai giếng khoan đầu tiên trên các khu vực có triển vọng là Cửu Long I và Hậu Giang I.
Giếng khoan Cửu Long I (CL-I): Đặt trên cánh nâng phía Đông của vùng lõm cửa sông Hậu, nằm vào phạm
vi ấp Cà Cối, huyện Cầu Ngang, tỉnh Cửu Long (nay là tỉnh Trà Vinh), ngay tại cọc nổ 560 trên tuyến
địa chấn N10 CGG. Đây là giếng khoan sâu đầu tiên trên đất liền ở miền Nam Việt Nam.
------------------
Original Sentence: Khoan tìm kiếm - thăm dò.


#### Contrast with normal VectorStoreIndex

In [17]:
from langchain.embeddings import HuggingFaceEmbeddings
from llama_index import VectorStoreIndex
from llama_index import ServiceContext, set_global_service_context
from llama_index.llms import OpenAI

llm = OpenAI(model="gpt-3.5-turbo", temperature=0.1)
ctx = ServiceContext.from_defaults(
    llm=llm,
    embed_model=HuggingFaceEmbeddings(
        model_name="sentence-transformers/all-mpnet-base-v2"
    ),
)

vector_index = VectorStoreIndex.from_documents(documents, service_context=ctx)

  from .autonotebook import tqdm as notebook_tqdm
Downloading (…)a8e1d/.gitattributes: 100%|██████████| 1.18k/1.18k [00:00<00:00, 1.18MB/s]
Downloading (…)_Pooling/config.json: 100%|██████████| 190/190 [00:00<00:00, 1.02MB/s]
Downloading (…)b20bca8e1d/README.md: 100%|██████████| 10.6k/10.6k [00:00<00:00, 23.6MB/s]
Downloading (…)0bca8e1d/config.json: 100%|██████████| 571/571 [00:00<00:00, 3.05MB/s]
Downloading (…)ce_transformers.json: 100%|██████████| 116/116 [00:00<00:00, 281kB/s]
Downloading (…)e1d/data_config.json: 100%|██████████| 39.3k/39.3k [00:00<00:00, 189kB/s]
Downloading pytorch_model.bin: 100%|██████████| 438M/438M [01:33<00:00, 4.67MB/s] 
Downloading (…)nce_bert_config.json: 100%|██████████| 53.0/53.0 [00:00<00:00, 124kB/s]
Downloading (…)cial_tokens_map.json: 100%|██████████| 239/239 [00:00<00:00, 596kB/s]
Downloading (…)a8e1d/tokenizer.json: 100%|██████████| 466k/466k [00:00<00:00, 726kB/s]
Downloading (…)okenizer_config.json: 100%|██████████| 363/363 [00:00<00:00, 622kB/

In [19]:
query_engine = vector_index.as_query_engine(similarity_top_k=2)
vector_response = query_engine.query("Lịch sử tìm kiếm thăm dò địa chấn khúc xạ?")
print(vector_response)

Trong lịch sử tìm kiếm thăm dò địa chấn khúc xạ, Tập đoàn Dầu khí Việt Nam đã thực hiện Chương trình hợp tác khảo sát địa chấn 3 bên giữa Việt Nam - Trung Quốc - Philippine ở khu vực Trường Sa. Họ cũng đã hợp tác hai bên giữa Việt Nam - Trung Quốc tại khu vực phía Đông Biển Đông.


In [20]:
query_engine = vector_index.as_query_engine(similarity_top_k=5)
vector_response = query_engine.query("Lịch sử tìm kiếm thăm dò địa chấn khúc xạ?")
print(vector_response)

Trong lịch sử của Tập đoàn Dầu khí Việt Nam, công tác tìm kiếm thăm dò địa chấn khúc xạ đã được thực hiện. Cụ thể, trong giai đoạn 2006-2020, công tác này tập trung chủ yếu ở bể Cửu Long, bể Nam Côn Sơn và vùng nước sâu xa bờ phía Nam bể Sông Hồng.


#### Analysis

In [21]:
for source_node in window_response.source_nodes:
    print(source_node.node.metadata["original_text"])
    print("--------")

Khoan tìm kiếm - thăm dò.
--------
Từ năm 1990, đặc biệt sau khi Hiệp định dầu khí Việt - Xô ngày 16-7-1991 được ký kết, hoạt động tìm kiếm, thăm dò được phát triển mạnh mẽ ở các lô và khu vực khác nhau của bể Nam Côn Sơn.
--------


In [23]:
for node in vector_response.source_nodes:
    print("tìm kiếm thăm dò", "địa chấn khúc xạ" in node.node.text)
    print("--------")

tìm kiếm thăm dò False
--------
tìm kiếm thăm dò False
--------
tìm kiếm thăm dò False
--------
tìm kiếm thăm dò False
--------
tìm kiếm thăm dò False
--------


In [24]:
print(vector_response.source_nodes[2].node.text)

Đến giữa năm 2004 đã hoàn thành một số phân đoạn, sẵn sàng tiếp nhận tàu, sà lan vào lấy hàng phục vụ Nhà máy Đạm Phú Mỹ; tiếp tục đầu tư xây dựng và hoàn thiện cầu cảng chính vào đầu năm 2009.Dịch vụ xây lắp dầu khí.Trên cơ sở hạ tầng bến bãi, kho cảng của mình, Công ty PTSC đã triển khai công tác chế tạo, lắp ráp và xây lắp nhiều công trình dầu khí quan trọng.Thông qua đấu thầu quốc tế, Công ty PTSC đã lần lượt trúng thầu: - Xây dựng khối nhà ở LQ-CPC 99 cho Xí nghiệp Liên doanh Vietsovpetro với một hợp đồng trị giá gần 20 triệu USD.
