In [1]:
%load_ext autoreload
%autoreload 2

In [2]:
from langchain_community.document_loaders import UnstructuredMarkdownLoader
from langchain_core.documents import Document

import os

In [3]:
directory_path = "./../../data/vks/markdown/vi"  # Change this to your directory
md_files = []

for root, _, files in os.walk(directory_path):
    for file in files:
        if file.endswith("mo-hinh-hoat-dong.md"):
            md_files.append(os.path.join(root, file))

print(md_files)

['./../../data/vks/markdown/vi/mo-hinh-hoat-dong.md']


In [None]:
len(md_files)

1

In [10]:
import mistune
from langchain.schema import Document
from langchain.document_loaders.base import BaseLoader

class CustomMarkdownLoader(BaseLoader):
    def __init__(self, file_path):
        self.file_path = file_path

    def load(self):
        with open(self.file_path, "r", encoding="utf-8") as file:
            markdown_text = file.read()
        
        # Process Markdown
        cleaned_text = self.extract_text_keep_links(markdown_text)

        # Return as LangChain Document
        return [Document(page_content=cleaned_text)]

    def extract_text_keep_links(self, markdown_text):
        """Process Markdown while keeping hyperlinks and image links."""
        class CustomRenderer(mistune.Markdown):
            def text(self, text):
                return text

            def link(self, link, text=None):
                return f"[{text}]({link})" if text else f"<{link}>"

            def image(self, src, alt=""):
                return f"![{alt}]({src})"  # Preserve images

        markdown = mistune.create_markdown(renderer=CustomRenderer())
        return markdown(markdown_text)

In [11]:
docs = []

for file in md_files:
    loader = CustomMarkdownLoader(file)

    data = loader.load()
    docs.extend(data)

TypeError: __call__() takes 2 positional arguments but 3 were given

In [None]:
from langchain_huggingface.embeddings import HuggingFaceEmbeddings

In [None]:
embeddings_model = HuggingFaceEmbeddings(
    model_name="sentence-transformers/paraphrase-multilingual-mpnet-base-v2",
)

  from .autonotebook import tqdm as notebook_tqdm


In [None]:
from langchain_experimental.text_splitter import SemanticChunker

In [None]:
text_splitter = SemanticChunker(
    embeddings_model, breakpoint_threshold_type="standard_deviation"
)

In [None]:
from langchain_text_splitters import RecursiveCharacterTextSplitter


In [None]:
chunk_size = 7000
chunk_overlap = 6800
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=chunk_size, chunk_overlap=chunk_overlap
)

In [None]:
# See docker command above to launch a postgres instance with pgvector enabled.
connection = "postgresql+psycopg://langchain:langchain@localhost:6024/langchain2"  # Uses psycopg3!
collection_name = "my_docs"

In [None]:
from langchain_core.documents import Document
from langchain_postgres import PGVector
from langchain_postgres.vectorstores import PGVector

In [None]:
vector_store = PGVector(
    embeddings=embeddings_model,
    collection_name=collection_name,
    connection=connection,
    use_jsonb=True,
)

In [None]:
splits = text_splitter.split_documents(docs)


In [None]:
len(splits)

335

In [None]:
vector_store.add_documents(splits)

['4c14c117-685b-476d-9818-4ddbb4157dbb',
 '000ca6a9-0edb-476d-8e47-0f8f84c7bce0',
 '264382e1-7727-43f2-9d0c-2f7f5c17496f',
 '18d2f1cb-faad-4571-a4e2-58530f71359a',
 '50f7b8cc-21c8-463a-87d1-9f35d17c2494',
 'c59b7264-21a8-440f-bb9c-5f6c0208d935',
 '2e3df485-9d39-4e6e-a77f-120e2bbee39d',
 'f35e93e4-da9b-41de-bb45-f539b95199eb',
 '8e89f6d4-0908-4da9-8d39-bd84b9ab2390',
 'd7e46716-b69b-4928-808f-4a23e1d4f4fa',
 '258d25a9-b1e7-4792-9439-00a0948247a5',
 'f892895c-51c9-4b51-82b5-00b56a2fc667',
 'bfb51d99-ea68-464d-bc2d-e5343e6f0295',
 '9182abf7-aede-4df5-82b1-31883f2376d6',
 'f40d93e7-6383-40a6-acab-5647055f9ce2',
 '4a21dd39-8b51-46fc-985e-176efda5caf7',
 'f8c4f1d5-9ab8-4a22-ad1f-17d838c97954',
 '66eac3db-fb3f-4909-b980-9c38cb3a348b',
 '1fec823b-ade0-4bb6-a680-46ff87c8522a',
 '6fbde385-b0f2-42fc-b9f5-7f3281edb002',
 '97995013-0e5a-443a-b2dd-ed3ca7a1659c',
 'c04f1013-bcd2-450a-b63d-21401e8267fc',
 '84f64955-d85c-4fd3-99cc-ff985766c594',
 'c995ad42-9e62-4ecc-9395-fb90cd1f00fa',
 'adb0fc8a-db21-

In [None]:
retriever = vector_store.as_retriever()

In [None]:
docs = retriever.invoke("VKS là gì?")


In [None]:
for d in docs:
    print(d)

page_content='VKS là gì?

VKS (VNGCloud Kubernetes Service) là một dịch vụ được quản lý trên VNGCloud giúp bạn đơn giản hóa quá trình triển khai và quản lý các ứng dụng dựa trên container. Kubernetes là một nền tảng mã nguồn mở được phát triển bởi Google, được sử dụng rộng rãi để quản lý và triển khai các ứng dụng container trên môi trường phân tán.

Những điểm nổi bật của VKS

Quản lý Control Plane hoàn toàn tự động (Fully Managed control plane): VKS sẽ giải phóng bạn khỏi gánh nặng quản lý Control Plane của Kubernetes, giúp bạn tập trung vào việc phát triển ứng dụng.

Hỗ trợ các phiên bản Kubernetes mới nhất: VKS luôn cập nhật những phiên bản Kubernetes mới nhất (minor version từ 1.27, 1.28, 1.29) để đảm bảo bạn luôn tận dụng được những tính năng tiên tiến nhất.

Kubernetes Networking: VKS tích hợp Calico CNI, mang lại tính hiệu quả và bảo mật cao.

Upgrade seamlessly: VKS hỗ trợ nâng cấp giữa các phiên bản Kubernetes một cách dễ dàng và nhanh chóng, giúp bạn luôn cập nhật những cải 

In [None]:
docs = retriever.invoke("VKS có các version nào")


In [None]:
for d in docs:
    print(d, end="-----------------------")

page_content='VKS là gì?

VKS (VNGCloud Kubernetes Service) là một dịch vụ được quản lý trên VNGCloud giúp bạn đơn giản hóa quá trình triển khai và quản lý các ứng dụng dựa trên container. Kubernetes là một nền tảng mã nguồn mở được phát triển bởi Google, được sử dụng rộng rãi để quản lý và triển khai các ứng dụng container trên môi trường phân tán.

Những điểm nổi bật của VKS

Quản lý Control Plane hoàn toàn tự động (Fully Managed control plane): VKS sẽ giải phóng bạn khỏi gánh nặng quản lý Control Plane của Kubernetes, giúp bạn tập trung vào việc phát triển ứng dụng.

Hỗ trợ các phiên bản Kubernetes mới nhất: VKS luôn cập nhật những phiên bản Kubernetes mới nhất (minor version từ 1.27, 1.28, 1.29) để đảm bảo bạn luôn tận dụng được những tính năng tiên tiến nhất.

Kubernetes Networking: VKS tích hợp Calico CNI, mang lại tính hiệu quả và bảo mật cao.

Upgrade seamlessly: VKS hỗ trợ nâng cấp giữa các phiên bản Kubernetes một cách dễ dàng và nhanh chóng, giúp bạn luôn cập nhật những cải 

In [None]:
docs = retriever.invoke("So sánh private cluster và public cluster")
for d in docs:
    print(d, end="-----------------------")


page_content='Public Cluster và Private Cluster

1. Public Cluster

Khi bạn khởi tạo một Public Cluster với Public Node Group, hệ thống VKS sẽ:

Tạo VM có Floating IP ( tức có IP Public). Lúc này các VM (Node) này có thể join trực tiếp vào cụm K8S thông qua Public IP này. Bằng cách sử dụng Public Cluster và Public Node Group, bạn có thể dễ dàng tạo các cụm Kubernetes và thực hiện expose service mà không cần sử dụng Load Balancer. Việc này sẽ góp phần tiết kiệm chi phí cho cụm của bạn.

Khi bạn khởi tạo một Public Cluster với Private Node Group, hệ thống VKS sẽ:

Tạo VM không có Floating IP ( tức không có IP Public). Lúc này các VM (Node) này không thể join trực tiếp vào cụm K8S. Để các VM này có thể join vào cụm K8S, bạn cần phải sử dụng một NAT Gateway (NATGW). NATGW hoạt động như một trạm chuyển tiếp, cho phép các VM kết nối với cụm K8S mà không cần IP Public. Với VNG Cloud, chúng tôi khuyến cáo bạn sử dụng Pfsense hoặc Palo Alto như một NATGW cho Cluster của bạn. Pfsense sẽ giúp bạn