In [54]:
from langchain_community.document_loaders import DirectoryLoader, PyPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from sentence_transformers import SentenceTransformer
from qdrant_client import QdrantClient
from qdrant_client.models import VectorParams, Distance, PointStruct
import google.generativeai as genai
from dotenv import load_dotenv
import os

# **Load data**

In [11]:
loader = DirectoryLoader('./data', glob='*.pdf', loader_cls=PyPDFLoader)
document = loader.load()
len(document)

12

In [14]:
document[0]

Document(metadata={'producer': 'Microsoft® Word 2016; modified using iTextSharp™ 5.5.9 ©2000-2016 iText Group NV (AGPL-version)', 'creator': 'Microsoft® Word 2016', 'creationdate': '2024-09-13T10:44:15+07:00', 'author': 'D.D. Thieu', 'moddate': '2024-09-13T16:36:30+07:00', 'source': 'data\\20240913. 1943. QĐ-ĐHCN. Signed.QD ban hanh CTDT Thac si nganh KHMT.pdf', 'total_pages': 12, 'page': 0, 'page_label': '1'}, page_content='ĐẠI HỌC QUỐC GIA HÀ NỘI \nTRƯỜNG ĐẠI HỌC CÔNG NGHỆ \n   CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM \nĐộc lập - Tự do - Hạnh phúc \nSố:                /QĐ-ĐHCN Hà Nội, ngày         tháng 09 năm 2024 \nQUYẾT ĐỊNH  \nVề việc ban hành chương trình đào tạo (điều chỉnh) \nHIỆU TRƯỞNG  \nTRƯỜNG ĐẠI HỌC CÔNG NGHỆ \nCăn cứ Luật Giáo dục đại học ngày 18 tháng 06 năm 2012 và Luật sửa đổi, bổ sung một \nsố điều của Luật Giáo dục đại học ngày 19 tháng 11 năm 2018; \nCăn cứ Nghị định số 186/2013/NĐ-CP ngày 17 tháng 11 năm 2013 của Chính phủ về \nĐại học Quốc gia; \nCăn cứ Quyết định số 

# **Divide the document into chunks**

In [32]:
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
docs = text_splitter.split_documents(document)
print(f"Số lượng chunks: {len(docs)}")
# print(docs[0].page_content[:300])  # xem thử 300 ký tự đầu tiên
texts = [d.page_content for d in docs]  # trích nội dung
print(texts[0][:300])

Số lượng chunks: 24
ĐẠI HỌC QUỐC GIA HÀ NỘI 
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ 
   CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM 
Độc lập - Tự do - Hạnh phúc 
Số:                /QĐ-ĐHCN Hà Nội, ngày         tháng 09 năm 2024 
QUYẾT ĐỊNH  
Về việc ban hành chương trình đào tạo (điều chỉnh) 
HIỆU TRƯỞNG  
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ 
Căn cứ L


# **Set Qdrant and save document embedding vectors**

In [24]:
qdrant_client = QdrantClient(
    url="https://f3427648-3502-4e26-9ec1-df3e58b45ce1.us-east4-0.gcp.cloud.qdrant.io:6333",
    api_key="eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJhY2Nlc3MiOiJtIn0.dRyQpoqveewzO3swhfU_R09HnT77Cq2d39rLVjytRrk",
)
print(qdrant_client.get_collections())

collections=[]


In [None]:
# TẠO COLLECTION (database cho embedding)
qdrant_client.recreate_collection(
    collection_name="pdf_chunks",
    vectors_config=VectorParams(
        size=768,                   # kích thước vector (phải đúng với embedding model)
        distance=Distance.COSINE    # kiểu đo khoảng cách (Cosine, Euclidean, Dot)
    )
)

  qdrant_client.recreate_collection(


True

In [29]:
print(qdrant_client.get_collections())

collections=[CollectionDescription(name='pdf_chunks')]


# **Embedding document chunks**

In [39]:
embedding = SentenceTransformer('intfloat/multilingual-e5-base')

In [40]:
embedded_vectors = embedding.encode(texts, show_progress_bar=True)
print("Số vector:", len(embedded_vectors))
print("Kích thước vector:", embedded_vectors.shape)
print(embedded_vectors[0][:25])  # xem 5 phần tử đầu tiên của vector đầu tiên

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Batches: 100%|██████████| 1/1 [00:01<00:00,  1.68s/it]

Số vector: 24
Kích thước vector: (24, 768)
[ 0.013335    0.0357257  -0.01797861  0.04788489  0.0177182  -0.01980784
 -0.03755639 -0.03688082  0.02734615  0.04372652  0.00472515  0.00037759
  0.16629595  0.05803661 -0.01879682 -0.07188299  0.03512502 -0.00670466
  0.0239889   0.02064706  0.03033207 -0.00857692  0.01918442  0.00053993
  0.06449112]





# **Submit data to Qdrant Cloud**

In [45]:
# Prepare PointStruct data for upsert
points = []
for i, doc in enumerate(docs):
    point = PointStruct(
        id=i,
        vector=embedded_vectors[i].tolist(),
        payload={
            "text": doc.page_content,
            "source": doc.metadata.get("source", "unknown"),
            "page": doc.metadata.get("page", 0)
        }
    )
    points.append(point)

In [None]:
qdrant_client.upsert(
    collection_name="pdf_chunks",
    points=points
)

UpdateResult(operation_id=0, status=<UpdateStatus.COMPLETED: 'completed'>)

In [48]:
info = qdrant_client.get_collection("pdf_chunks")
print(info)  # in thông tin collection

count = qdrant_client.count("pdf_chunks", exact=True)
print("Tổng số điểm đã lưu:", count.count)

status=<CollectionStatus.GREEN: 'green'> optimizer_status=<OptimizersStatusOneOf.OK: 'ok'> vectors_count=None indexed_vectors_count=0 points_count=24 segments_count=2 config=CollectionConfig(params=CollectionParams(vectors=VectorParams(size=768, distance=<Distance.COSINE: 'Cosine'>, hnsw_config=None, quantization_config=None, on_disk=None, datatype=None, multivector_config=None), shard_number=1, sharding_method=None, replication_factor=1, write_consistency_factor=1, read_fan_out_factor=None, on_disk_payload=True, sparse_vectors=None), hnsw_config=HnswConfig(m=16, ef_construct=100, full_scan_threshold=10000, max_indexing_threads=0, on_disk=False, payload_m=None), optimizer_config=OptimizersConfig(deleted_threshold=0.2, vacuum_min_vector_number=1000, default_segment_number=0, max_segment_size=None, memmap_threshold=None, indexing_threshold=10000, flush_interval_sec=5, max_optimization_threads=None), wal_config=WalConfig(wal_capacity_mb=32, wal_segments_ahead=0), quantization_config=None,

# **Search**

In [49]:
query = "Đối tượng dự tuyển sinh yêu cầu như thế nào?"
query_vector = embedding.encode([query])[0]

results = qdrant_client.search(
    collection_name="pdf_chunks",
    query_vector=query_vector.tolist(),
    limit=3
)

for result in results:
    print(f"Score: {result.score:.4f}")
    print(f"Source: {result.payload.get('source', 'unknown')} - Page: {result.payload.get('page', 0)}")
    print(f"Text: {result.payload.get('text', '')[:300]}...")
    print("-" * 50)

  results = qdrant_client.search(


Score: 0.8445
Source: data\20240913. 1943. QĐ-ĐHCN. Signed.QD ban hanh CTDT Thac si nganh KHMT.pdf - Page: 3
Text: 4 
 
2.2. Mục tiêu cụ thể: 
- Trang bị kiến thức nâng cao đối với một số chủ đề cơ sở của ngành KHMT liên quan 
đến thuật toán, phần mềm, lý thuyết thông tin, an toàn thông tin; 
- Bổ sung, cập nhật kiến thức chuyên sâu, nâng cao kỹ năng phân tích, thiết kế, lập 
trình, triển khai phương pháp t rong...
--------------------------------------------------
Score: 0.8445
Source: data\20240913. 1943. QĐ-ĐHCN. Signed.QD ban hanh CTDT Thac si nganh KHMT.pdf - Page: 4
Text: nghiệp đại học phù hợp thuộc Nhóm 2, gồm tối đa bốn học phần với 15 tín chỉ như sau. 
Căn cứ vào bảng điểm đại học của mỗi thí sinh, Tiểu ban xét hồ sơ sẽ quyết định danh sách 
các học phần mà thí sinh cần bổ sung (thí sinh đã học môn nào thì sẽ được miễn). 
- Toán rời rạc, 4 tín chỉ 
- Lập trình nâ...
--------------------------------------------------
Score: 0.8423
Source: data\20240913. 1943. QĐ-ĐHCN. Signed.Q

# **Concatenate query and embedding vector into llm model**

In [None]:
load_dotenv()
GEMINI_API_KEY = os.getenv("GOOOEL_GEMINI_API_KEY")
genai.configure(api_key=GEMINI_API_KEY)

context = "\n".join([result.payload.get('text', '') for result in results])
question = "Đối tượng dự tuyển sinh yêu cầu như thế nào?"

prompt = f"""
Dựa trên ngữ cảnh sau, trả lời câu hỏi:
Ngữ cảnh:
{context}

Câu hỏi:
{question}
"""

model = genai.GenerativeModel("gemini-2.5-flash-preview-05-20")
response = model.generate_content(prompt)
print("Response:", response.text)

Response: Dựa trên ngữ cảnh được cung cấp, đối tượng dự tuyển sinh yêu cầu như sau:

**1. Đối với công dân Việt Nam:**
*   **Văn bằng và ngành học:** Tốt nghiệp đại học (cử nhân/kĩ sư) ngành phù hợp với ngành Khoa học Máy tính (KHMT) (theo danh mục nêu tại Mục 3.3).
*   **Loại tốt nghiệp:** Từ loại Khá trở lên.
    *   **Trường hợp ngoại lệ:** Ứng viên tốt nghiệp đại học dưới loại Khá cần có công bố khoa học (sách, giáo trình, bài báo đăng trên các tạp chí khoa học chuyên ngành hoặc các báo cáo đăng trên kỷ yếu hội nghị, hội thảo khoa học chuyên ngành) liên quan đến lĩnh vực Công nghệ thông tin (CNTT).
*   **Năng lực ngoại ngữ:** Có năng lực ngoại ngữ từ Bậc 3 trở lên theo Khung năng lực ngoại ngữ 6 bậc dùng cho Việt Nam.

**2. Đối với công dân nước ngoài:**
*   Được xét tuyển theo quy định đối với người nước ngoài vào học tại Đại học Quốc gia Hà Nội (ĐHQGHN).

**3. Đối với văn bằng do nước ngoài cấp:**
*   Nếu bằng thuộc ngành/chuyên ngành do nước ngoài cấp mà không trùng với mã của c