#### Setup

In [1]:
import openai
from llama_index import ServiceContext, set_global_service_context
from llama_index.llms import OpenAI
from llama_index.embeddings import OpenAIEmbedding
from llama_index.node_parser import SentenceWindowNodeParser
#------------------------------------------------------------
openai.api_key = "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"
# Create the sentence window node parser w/ default settings
node_parser = SentenceWindowNodeParser.from_defaults(
    window_size=3,
    window_metadata_key="window",
    original_text_metadata_key="original_text",
)
#------------------------------------------------------------
llm = OpenAI(model="gpt-3.5-turbo", temperature=0.1)
#------------------------------------------------------------
# OpenAIEmbeddings
ctx = ServiceContext.from_defaults(
    llm=llm, 
    embed_model=OpenAIEmbedding(embed_batch_size=512), 
    node_parser=node_parser)


#### Build the index

In [2]:
from llama_index import VectorStoreIndex
from llama_index import SimpleDirectoryReader
_file = ['./data/PVJ.2022.11-01.docx']
documents = SimpleDirectoryReader(input_files=_file).load_data()
sentence_index = VectorStoreIndex.from_documents(documents, service_context=ctx)


#### Querying With MetadataReplacementPostProcessor

In [5]:
from llama_index.indices.postprocessor import MetadataReplacementPostProcessor

query_engine = sentence_index.as_query_engine(
    similarity_top_k=3,
    # the target key defaults to `window` to match the node_parser's default
    node_postprocessors=[
        MetadataReplacementPostProcessor(target_metadata_key="window")
    ],
)
window_response = query_engine.query("Có những phương pháp nội suy nào?")
print(window_response)

Có một số phương pháp nội suy khác nhau, trong đó phương pháp Inverse Distance Weight (IDW) là một trong số đó.


In [17]:
import textwrap
window = window_response.source_nodes[2].node.metadata["window"]
sentence = window_response.source_nodes[2].node.metadata["original_text"]

print(textwrap.fill(f"Window: {window}", width=100))
print("------------------")
print(textwrap.fill(f"Original Sentence: {sentence}", width=100))

Window: 3.4.  Phục hồi lịch sử khai thác mô hình  Bản đồ dạng 3D về trọng số độ dẫn động theo 2
thuật toán được đưa trực tiếp vào mô hình thông qua từ khóa MULTIPLY.  Định dạng bản đồ 3D, tuy
nhiên thông số bản đồ chỉ thay đổi theo chiều X và Y, không thay đổi theo chiều Z (chiều thẳng
đứng).  Kết quả chạy mô hình cho thấy, lịch sử các giếng khai thác được cải thiện đặc biệt động thái
độ ngập nước khi 5/10 giếng khai thác có độ ngập nước gần với thực tế hơn so với mô hình ban đầu.
Kết quả cũng cho thấy có sự khác biệt về kết quả khi áp dụng 2 thuật toán, tuy nhiên sự khác nhau là
không lớn.    Giếng 2P là giếng có lưu lượng khai thác lớn nhất tại khu vực, giếng nằm về phía Nam
và cách giếng bơm ép 3I khoảng 500 m. Độ ngập nước thực tế tại giếng 2P bắt đầu tăng nhanh từ năm
2012, tương ứng với thời điểm đưa giếng bơm ép 3I vào hoạt động, độ ngập nước 2 giếng đạt khoảng 50%
vào thời điểm cuối năm 2014.
------------------
Original Sentence: Kết quả chạy mô hình cho thấy, lịch sử các giếng

#### Contrast with normal VectorStoreIndex

In [18]:
from langchain.embeddings import HuggingFaceEmbeddings
from llama_index import VectorStoreIndex
from llama_index import ServiceContext, set_global_service_context
from llama_index.llms import OpenAI

llm = OpenAI(model="gpt-3.5-turbo", temperature=0.1)
ctx = ServiceContext.from_defaults(
    llm=llm,
    embed_model=HuggingFaceEmbeddings(
        model_name="sentence-transformers/all-mpnet-base-v2"
    ),
)

vector_index = VectorStoreIndex.from_documents(documents, service_context=ctx)

In [19]:
query_engine = vector_index.as_query_engine(similarity_top_k=2)
vector_response = query_engine.query("Có những phương pháp nội suy nào?")
print(vector_response)

Có hai phương pháp nội suy được đề cập trong đoạn văn trên, đó là phương pháp xử lý tín hiệu phi tuyến và phương pháp bản đồ hóa các điểm dữ liệu thông qua thuật toán nội suy.


In [20]:
query_engine = vector_index.as_query_engine(similarity_top_k=5)
vector_response = query_engine.query("Có những phương pháp nội suy nào?")
print(vector_response)

Trong đoạn văn trên không đề cập đến cụ thể những phương pháp nội suy nào được sử dụng.


#### Analysis

In [25]:
for source_node in window_response.source_nodes:
    print(source_node.node.metadata["original_text"])
    print("--------")

Phương pháp xử lý tín hiệu phi tuyến được ứng dụng rộng rãi trong các lĩnh vực kỹ thuật.
--------
Một số các công trình nghiên cứu trên thế giới sử dụng phương pháp xử lý tín hiệu phi tuyến để đánh giá ảnh hưởng giữa giếng bơm ép và giếng khai thác, bước đầu thu được kết quả khả quan như mô hình INSIM (inter-well-numerical simulation model) [2], mô hình điện trở điện dung [3, 4], phương pháp chỉ số khai thác đa giếng (MPI) [5].
--------
Bản đồ hóa kết quả phương pháp xử lý tín hiệu phi tuyến

2.2.1.
--------


In [49]:
for node in vector_response.source_nodes:
    print("tín hiệu phi tuyến" in node.node.text)
        # print(node.node.text)

False
True
True
False
False


In [58]:
print(vector_response.source_nodes[4].node.text)

Giá trị semi-variogram đầu tiên được ước tính từ các điểm dữ liệu mẫu và sau đó sử dụng để ước tính giá trị dữ liệu của điểm dự đoán dựa trên công thức:

Trong đó: 

wi (x0): Giá trị trọng số được tính toán dựa trên hàm semi-variogram.Hiệu quả của phương pháp nội suy Kriging phụ thuộc vào độ chính xác của các tham số semi-variogram và mô hình của sự thay đổi của địa hình (có nghĩa là giá trị trung bình thay đổi theo khoảng cách).



2.2.2. Gán điểm và xây dựng bản đồ

Mô phỏng khai thác thông qua mô hình số nhằm biểu diễn vỉa chứa dưới dạng ô lưới 3 chiều. Mỗi vị trí giếng khoan được gán tương ứng với mỗi ô lưới đã xác định tọa độ X - Y - Z. Kết quả tương tác giữa giếng bơm ép và giếng khai thác được chuyển sang dạng bản đồ số theo quy trình sau:

Bước 1: Gán vị trí giếng bơm ép và giếng khai thác theo tọa độ mô hình mô phỏng;

Bước 2: Giá trị trọng số độ dẫn động được gán tại trung điểm giữa giếng bơm ép và giếng khai thác (điểm giả lập); 

Bước 3: Sử dụng thuật toán Kriging và IDW để