In [None]:
# !pip install -q \
#     fastapi==0.104.1 \
#     uvicorn==0.24.0 \
#     pyngrok==7.0.0 \
#     nest-asyncio==1.5.8 \
#     python-multipart \
#     pdfplumber \
#     sentence-transformers \
#     torch \
#     torch-geometric \
#     neo4j \
#     qdrant-client \
#     py_vncorenlp \
#     google-generativeai \
#     langchain \
#     langchain-core \
#     langchain-community \
#     langchain-nvidia-ai-endpoints \
#     langgraph \
#     boto3


In [None]:
# Thư viện chuẩn Python
import ast
import io
import json
import math
import os
import re
import signal
import asyncio
from typing import AsyncGenerator
import subprocess
import tempfile
import threading
import time
import uuid
import unicodedata
from abc import ABC, abstractmethod
from concurrent.futures import ThreadPoolExecutor
from typing import Dict, List, TypedDict

# Thư viện xử lý dữ liệu
import pandas as pd
import numpy as np

# NLP và xử lý văn bản
import pdfplumber
import py_vncorenlp
from sentence_transformers import CrossEncoder, SentenceTransformer, util
from transformers import AutoModel, AutoTokenizer

# AI/ML và học sâu
import torch
import torch.nn.functional as F
from torch_geometric.data import Data
from torch_geometric.nn import GCNConv

# Kết nối và cơ sở dữ liệu
from neo4j import GraphDatabase
from qdrant_client import QdrantClient
from qdrant_client.models import PointStruct, models
from pyngrok import ngrok
from io import BytesIO
# LangChain và các thành phần liên quan
from langchain.chains import LLMChain
from langchain_community.vectorstores import Neo4jVector, Qdrant
from langchain_community.document_loaders import PyPDFLoader
from langchain_core.documents import Document
from langchain_core.messages import HumanMessage
from langchain_core.prompts import PromptTemplate
from langchain_nvidia_ai_endpoints import NVIDIARerank
from langgraph.types import Command

# Google Cloud & Generative AI
import google.generativeai as genai

# FastAPI và Flask
from fastapi import FastAPI, File, UploadFile, HTTPException, Response, Form
from fastapi.responses import JSONResponse
from fastapi.middleware.cors import CORSMiddleware
from pydantic import BaseModel
from flask import Flask, request, jsonify, Response

# OpenAI SDK
from openai import OpenAI

# Boto3 (AWS S3)
import boto3
from botocore.exceptions import ClientError, NoCredentialsError
from fastapi.responses import StreamingResponse

# Kaggle secrets
from kaggle_secrets import UserSecretsClient

In [None]:
dir_vncorenpl = '/kaggle/input/vncorenlp01/tensorflow2/default/1/vncorenlp'
dir_vietnamese_stopwords = '/kaggle/input/stopwords/vietnamese_stopwords.txt'
user_secrets = UserSecretsClient()

In [None]:
class PDF:
    def __init__(self, s3, pdf_path, bucket_name, key):
        self.pdf_path = pdf_path  # Đường dẫn tới 1 file PDF
        self.s3 = s3

    def read_chunks_stsv(self, footer_height=40):
        all_pages_text = []

        try:
            with pdfplumber.open(self.pdf_path) as pdf:
                num_pages = len(pdf.pages)
                start_page = 9
                end_page = num_pages - 2

                for i in range(start_page, end_page + 1, 3):
                    group_text = []

                    for j in range(i, min(i + 3, end_page + 1)):
                        page = pdf.pages[j]
                        page_height = page.height

                        cropped_page = page.within_bbox(
                            (0, 0, page.width, page_height - footer_height)
                        )
                        text = cropped_page.extract_text()
                        if text:
                            group_text.append(text)

                    if group_text:
                        all_pages_text.append('\n'.join(group_text))
        except Exception as e:
            print(f"Lỗi khi xử lý file {self.pdf_path}: {e}")

        return all_pages_text

    def read_chunks(self):
        all_pages_text = []
        
        response = self.s3.get_object(Bucket=self.bucket_name, Key=self.key)
        file_stream = BytesIO(response['Body'].read())

        try:
            with pdfplumber.open(file_stream) as pdf:
                num_pages = len(pdf.pages)

                for i in range(0, num_pages, 2):
                    group_text = []

                    for j in range(i, min(i + 2, num_pages)):
                        page = pdf.pages[j]
                        text = page.extract_text()
                        if text:
                            group_text.append(text)

                    if group_text:
                        all_pages_text.append('\n'.join(group_text))
        except Exception as e:
            print(f"Lỗi khi xử lý file {self.pdf_path}: {e}")

        return all_pages_text

    def set_path(self, path):
        self.pdf_path = path
        
    def set_bucket_name(self, bucket_name):
        self.bucket_name = bucket_name
        
    def set_key(self, key):
        self.key = key

In [None]:
class ModelEmbedding:
    def __init__(self, name):
        self.name = name
        self.model = self.load_model()

    def load_model(self):
        model = SentenceTransformer(self.name, trust_remote_code=True)
        print(f"load model embedding {self.name} success")
        return model

    def embed(self, text):
        return self.model.encode(text)

In [None]:
class ModelLateInteraction:
    def __init__(self, name):
      self.name = name
      model_embedding, tokenizer = self.load_model()

      self.model_embedding = model_embedding
      self.tokenizer = tokenizer

    def load_model(self):
      model = AutoModel.from_pretrained(self.name)
      tokenizer = AutoTokenizer.from_pretrained(self.name)
      print("load model embedding late interaction success")
      return model, tokenizer

    def embed(self, text):
        print(text)
        inputs = self.tokenizer(text, return_tensors="pt", truncation=True, padding=True)
        with torch.no_grad():
            outputs = self.model_embedding(**inputs)
        return outputs.last_hidden_state.squeeze(0) 

In [None]:
class EmbeddingFactory:
    @staticmethod
    def create_embed_model(embed_model_name):
        # model_embedding_1024_name = user_secrets.get_secret("MODEL_EMBEDDING_1024")
        # model_embedding_768_name = user_secrets.get_secret("MODEL_EMBEDDING_768")
        # model_embedding_512_name = user_secrets.get_secret("MODEL_EMBEDDING_512")
        # model_late_interaction_name = user_secrets.get_secret("MODEL_LATE_INTERACTION")

        model_embedding_1024_name = "intfloat/multilingual-e5-large-instruct"
        model_embedding_768_name = "Alibaba-NLP/gte-multilingual-base"
        model_embedding_512_name = "sentence-transformers/distiluse-base-multilingual-cased-v2"
        model_late_interaction_name = "colbert-ir/colbertv2.0"

        if embed_model_name == model_embedding_1024_name:
            return ModelEmbedding(embed_model_name)
        elif embed_model_name == model_embedding_768_name:
            return ModelEmbedding(embed_model_name)
        elif embed_model_name == model_embedding_512_name:
            return ModelEmbedding(embed_model_name)
        elif embed_model_name == model_late_interaction_name:
            return ModelLateInteraction(embed_model_name)
        else:
            raise ValueError(f"Không hỗ trợ")

In [None]:
class Llama:
    def __init__(self, api_key, model_name):
        self.model_name = model_name
        self.client = OpenAI(
            base_url="https://integrate.api.nvidia.com/v1",
            api_key=api_key
        )
        self.text = ""
        self.prompt = ""

    def set_text(self, text):
        self.text = text

    def set_prompt(self, prompt):
        self.prompt = prompt

    def generator(self):
        completion = self.client.chat.completions.create(
            model=self.model_name,
            messages=[
                {"role": "system", "content": f"{self.prompt}"},
                {"role": "user", "content": f"{self.text}"}
            ],
            temperature=0.2,
            top_p=0.9,
            max_tokens=4096
        )
        return completion.choices[0].message.content

In [None]:
class Gemini:
    def __init__(self, model_name: str, api_key: str):
        self.model_name = model_name
        self.api_key = api_key

        # Cấu hình API key
        genai.configure(api_key=self.api_key)

        # Khởi tạo model
        self.model = genai.GenerativeModel(model_name=self.model_name)
        self.chat = self.model.start_chat()
        print("Load model success")

    def generator(self, text: str) -> str:
        response = self.chat.send_message(text)
        return response.text.strip()

In [None]:
class GCN(torch.nn.Module):
    def __init__(self, input_dim, hidden_dim, output_dim):
        super().__init__()
        self.conv1 = GCNConv(input_dim, hidden_dim)
        self.conv2 = GCNConv(hidden_dim, output_dim)

    def forward(self, data):
        x, edge_index = data.x, data.edge_index
        x = self.conv1(x, edge_index)
        x = F.relu(x)
        x = self.conv2(x, edge_index)
        return x

In [None]:
class Neo4j:
    def __init__(self, uri, user, password):
        """Khởi tạo kết nối tới Neo4j"""
        self.driver = GraphDatabase.driver(uri, auth=(user, password))
        self.sentence_model = SentenceTransformer("intfloat/multilingual-e5-large-instruct")

    def close(self):
        """Đóng kết nối tới Neo4j"""
        self.driver.close()

    def execute_cypher(self, query):
        """Thực thi một truy vấn Cypher"""
        with self.driver.session() as session:
            session.run(query)

    def add_entities_relation_highest(self):
        """Thêm các entities và relationships cấp cao"""
        cypher_queries = [
           # Episode 1: nlu - định hướng trường đại học nghiên cứu
            """
            MERGE (highest:General {name: 'tài liệu'})
            MERGE (document:Document {name: 'sổ tay sinh viên 2024'})
            MERGE (highest)-[:bao_gồm]->(document)
            
            MERGE (a:part {name: 'phần 1: nlu - định hướng trường đại học nghiên cứu'})
            MERGE (b:section {name: 'quá trình hình thành và phát triển'})
            MERGE (c:section {name: 'sứ mạng'})
            MERGE (d:section {name: 'tầm nhìn'})
            MERGE (e:section {name: 'giá trị cốt lõi'})
            MERGE (f:section {name: 'mục tiêu chiến lược'})
            MERGE (g:section {name: 'cơ sở vật chất'})
            MERGE (h:section {name: 'các đơn vị trong trường'})
            MERGE (i:section {name: 'các khoa - ngành đào tạo'})
            MERGE (j:section {name: 'tuần sinh hoạt công dân - sinh viên'})
            MERGE (k:section {name: 'hoạt động phong trào sinh viên'})
            MERGE (l:section {name: 'câu lạc bộ (clb) - đội, nhóm'})
            MERGE (m:section {name: 'cơ sở đào tạo'})
            MERGE (document)-[:bao_gồm]->(a)
            MERGE (a)-[:bao_gồm]->(b)
            MERGE (a)-[:bao_gồm]->(c)
            MERGE (a)-[:bao_gồm]->(d)
            MERGE (a)-[:bao_gồm]->(e)
            MERGE (a)-[:bao_gồm]->(f)
            MERGE (a)-[:bao_gồm]->(g)
            MERGE (a)-[:bao_gồm]->(h)
            MERGE (a)-[:bao_gồm]->(i)
            MERGE (a)-[:bao_gồm]->(j)
            MERGE (a)-[:bao_gồm]->(k)
            MERGE (a)-[:bao_gồm]->(l)
            MERGE (a)-[:bao_gồm]->(m)
            """,
            # Episode 2: học tập và rèn luyện
            """
            MERGE (n:part {name: 'phần 2: học tập và rèn luyện'})

            MERGE (o:section {name: 'quy chế sinh viên'})
            MERGE (o2:part {name: 'chương 2: quyền và nghĩa vụ của sinh viên'})
            MERGE (o2_4:article {name: 'điều 4: quyền của sinh viên'})
            MERGE (o2_5:article {name: 'điều 5: nghĩa vụ của sinh viên'})
            MERGE (o2_6:article {name: 'điều 6: các hành vi sinh viên không được làm'})

            MERGE (p:section {name: 'quy chế học vụ'})
            MERGE (p2:part {name: 'chương 2: lập kế hoạch và tổ chức giảng dạy'})
            MERGE (p2_9:article {name: 'điều 9: tổ chức đăng ký học tập'})
            MERGE (p2_10:article {name: 'điều 10: tổ chức lớp học phần'})
            MERGE (p3:part {name: 'chương 3: đánh giá kết quả học tập và cấp bằng tốt nghiệp'})
            MERGE (p3_12:article {name: 'điều 12: tổ chức thi kết thúc học phần'})
            MERGE (p3_13:article {name: 'điều 13: đánh giá và tính điểm học phần'})
            MERGE (p3_14:article {name: 'điều 14: xét tương đường và công nhận học phần của các cơ sở đào tạo khác'})
            MERGE (p3_15:article {name: 'điều 15: đánh giá kết quả học tập theo học kỳ, năm học'})
            MERGE (p3_16:article {name: 'điều 16: thông báo kết quả học tập'})
            MERGE (p3_17:article {name: 'điều 17: điểm rèn luyện(đrl)'})
            MERGE (p3_18:article {name: 'điều 18: xử lý kết quả học tập'})
            MERGE (p3_19:article {name: 'điều 19: khóa luận, tiểu luận, tích lũy tín chỉ tốt nghiệp'})
            MERGE (p3_20:article {name: 'điều 20: công nhận tốt nghiệp và cấp bằng tốt nghiêp'})
            MERGE (p4:part {name: 'chương 4: những quy định khác đối với sinh viên'})
            MERGE (p4_21:article {name: 'điều 21: nghỉ học tạm thời, thôi học'})
            MERGE (p4_24:article {name: 'điều 24: học cùng lúc hai chương trình'})

            MERGE (q:section {name: 'quy định về việc đào tạo trực tuyến'})
            MERGE (q0_3:article {name: 'điều 3: hệ thống đào tạo trực tuyến tại trường đại học nông lâm tp.hcm'})
            MERGE (q0_9:article {name: 'điều 9: đánh giá kết quả học tập trực tuyến'})
            MERGE (q0_13:article {name: 'điều 13: quyền và trách nhiệm của sinh viên'})

            MERGE (r:section {name: 'quy định khen thưởng, kỷ luật sinh viên'})
            MERGE (r2:part {name: 'chương 2: khen thưởng'})
            MERGE (r2_4:article {name: 'điều 4: nội dung khen thưởng'})
            MERGE (r2_5:article {name: 'điều 5: khen thưởng đối với cá nhân và tập thể sinh viên đạt thành tích xứng đánh để biểu dương, khen thưởng'})
            MERGE (r2_6:article {name: 'điều 6: khen thưởng đối với sinh viên tiêu biểu(svtb) vào cuối mỗi năm học'})
            MERGE (r2_7:article {name: 'điều 7: khen thưởng đối với sinh viên là thủ khoa, á khoa kỳ tuyển sinh đầu vào'})
            MERGE (r2_8:article {name: 'điều 8: khen thưởng đối với sinh viên tốt nghiệp'})
            MERGE (r3:part {name: 'chương 3: kỷ luật'})
            MERGE (r3_11:article {name: 'điều 11: hình thức kỷ luật và nội dung vi phạm'})
            MERGE (r3_12:article {name: 'điều 12: trình tự, thủ tục và hồ sơ xét kỷ luật'})
            MERGE (r3_13:article {name: 'điều 13: chấm dứt hiệu lực của quyết định kỷ luật'})
            MERGE (r3_0:article {name: 'một số nội dung vi phạm và khung xử lý kỷ luật sinh viên'})

            MERGE (s:section {name: 'quy chế đánh giá kết quả rèn luyện'})
            MERGE (s0_3:article {name: 'điều 3: nội dung đánh giá và thang điểm'})
            MERGE (s0_4:article {name: 'điều 4: đánh giá về ý thức tham gia học tập'})
            MERGE (s0_5:article {name: 'điều 5: đánh giá về ý thức chấp hành nội quy, quy chế, quy định trong cơ sở giáo dục đại học'})
            MERGE (s0_6:article {name: 'điều 6: đánh giá về ý thức tham gia các hoạt động chính trị, xã hội, văn hóa, nghệ thuật, thể thao, phòng chống tội phạm và các tệ nạn xã hội'})
            MERGE (s0_7:article {name: 'điều 7: đánh giá về ý thức công dân trong quản hệ cộng đồng'})
            MERGE (s0_8:article {name: 'điều 8: Đánh giá về ý thức và kết quả khi tham gia công tác cán bộ lớp, các đoàn thể, tổ chức trong cơ sở giáo dục đại học hoặc người học đạt được thành tích đặc biệt trong học tập, rèn luyện'})
            MERGE (s0_9:article {name: 'điều 9: phân loại kết quả rèn luyện'})
            MERGE (s0_10:article {name: 'điều 10: phân loại để đánh giá'})
            MERGE (s0_11:article {name: 'điều 11: quy trình đánh giá kết quả rèn luyện'})

            MERGE (t:section {name: 'quy tắc ứng xử văn hóa của người học'})
            MERGE (t0_4:article {name: 'điều 4: ứng xử với công tác học tập, nghiên cứu khoa học, rèn luyện'})
            MERGE (t0_5:article {name: 'điều 5: ứng xử đối với giảng viên và nhân viên nhà trường'})
            MERGE (t0_6:article {name: 'điều 6: ứng xử với bạn bè'})
            MERGE (t0_7:article {name: 'điều 7: ứng xử với cảnh quan môi trường và tài sản công'})

            MERGE (u:section {name: 'cố vấn học tập'})
            MERGE (v:section {name: 'danh hiệu sinh viên 5 tốt'})
            MERGE (v0_1:article {name: 'đạo đức tốt'})
            MERGE (v0_2:article {name: 'học tập tốt'})
            MERGE (v0_3:article {name: 'thể lực tốt'})
            MERGE (v0_4:article {name: 'tình nguyện tốt'})
            MERGE (v0_5:article {name: 'hội nhập tốt'})
            MERGE (v0_6:article {name: 'khái niệm'})

            MERGE (v1:part {name: 'ngoài ra ưu tiên xét chọn những sinh viên đạt ít nhất 01 trong các các tiêu chuẩn sau'})
            MERGE (v1_1:article {name: 'ưu tiên 1'})
            MERGE (v1_2:article {name: 'ưu tiên 2'})
            MERGE (v1_3:article {name: 'ưu tiên 3'})
            MERGE (v1_4:article {name: 'ưu tiên 4'})
            MERGE (v1_5:article {name: 'ưu tiên 5'})
            MERGE (v1_6:article {name: 'ưu tiên 6'})

            MERGE (w:section {name: 'danh hiệu sinh viên tiêu biểu'})
            
            MERGE (document)-[:bao_gồm]->(n)
            MERGE (n)-[:bao_gồm]->(o)
            MERGE (o)-[:bao_gồm]->(o2)
            MERGE (o2)-[:bao_gồm]->(o2_4)
            MERGE (o2)-[:bao_gồm]->(o2_5)
            MERGE (o2)-[:bao_gồm]->(o2_6)

            MERGE (n)-[:bao_gồm]->(p)
            MERGE (p)-[:bao_gồm]->(p2)
            MERGE (p2)-[:bao_gồm]->(p2_9)
            MERGE (p2)-[:bao_gồm]->(p2_10)
            MERGE (p)-[:bao_gồm]->(p3)
            MERGE (p3)-[:bao_gồm]->(p3_12)
            MERGE (p3)-[:bao_gồm]->(p3_13)
            MERGE (p3)-[:bao_gồm]->(p3_14)
            MERGE (p3)-[:bao_gồm]->(p3_15)
            MERGE (p3)-[:bao_gồm]->(p3_16)
            MERGE (p3)-[:bao_gồm]->(p3_17)
            MERGE (p3)-[:bao_gồm]->(p3_18)
            MERGE (p3)-[:bao_gồm]->(p3_19)
            MERGE (p3)-[:bao_gồm]->(p3_20)
            MERGE (p)-[:bao_gồm]->(p4)
            MERGE (p4)-[:bao_gồm]->(p4_21)
            MERGE (p4)-[:bao_gồm]->(p4_24)

            MERGE (n)-[:bao_gồm]->(q)
            MERGE (q)-[:bao_gồm]->(q0_3)
            MERGE (q)-[:bao_gồm]->(q0_9)
            MERGE (q)-[:bao_gồm]->(q0_13)

            MERGE (n)-[:bao_gồm]->(r)
            MERGE (r)-[:bao_gồm]->(r2)
            MERGE (r2)-[:bao_gồm]->(r2_4)
            MERGE (r2)-[:bao_gồm]->(r2_5)
            MERGE (r2)-[:bao_gồm]->(r2_6)
            MERGE (r2)-[:bao_gồm]->(r2_7)
            MERGE (r2)-[:bao_gồm]->(r2_8)
            MERGE (r)-[:bao_gồm]->(r3)
            MERGE (r3)-[:bao_gồm]->(r3_11)
            MERGE (r3)-[:bao_gồm]->(r3_12)
            MERGE (r3)-[:bao_gồm]->(r3_13)
            MERGE (r3)-[:bao_gồm]->(r3_0)

            MERGE (n)-[:bao_gồm]->(s)
            MERGE (s)-[:bao_gồm]->(s0_3)
            MERGE (s)-[:bao_gồm]->(s0_4)
            MERGE (s)-[:bao_gồm]->(s0_5)
            MERGE (s)-[:bao_gồm]->(s0_6)
            MERGE (s)-[:bao_gồm]->(s0_7)
            MERGE (s)-[:bao_gồm]->(s0_8)
            MERGE (s)-[:bao_gồm]->(s0_9)
            MERGE (s)-[:bao_gồm]->(s0_10)
            MERGE (s)-[:bao_gồm]->(s0_11)

            MERGE (n)-[:bao_gồm]->(t)
            MERGE (t)-[:bao_gồm]->(t0_4)
            MERGE (t)-[:bao_gồm]->(t0_5)
            MERGE (t)-[:bao_gồm]->(t0_6)
            MERGE (t)-[:bao_gồm]->(t0_7)

            MERGE (n)-[:bao_gồm]->(u)
            MERGE (n)-[:bao_gồm]->(v)
            MERGE (v)-[:bao_gồm]->(v0_1)
            MERGE (v)-[:bao_gồm]->(v0_2)
            MERGE (v)-[:bao_gồm]->(v0_3)
            MERGE (v)-[:bao_gồm]->(v0_4)
            MERGE (v)-[:bao_gồm]->(v0_5)
            MERGE (v)-[:bao_gồm]->(v0_6)
            MERGE (v)-[:bao_gồm]->(v1)
            MERGE (v1)-[:bao_gồm]->(v1_1)
            MERGE (v1)-[:bao_gồm]->(v1_2)
            MERGE (v1)-[:bao_gồm]->(v1_3)
            MERGE (v1)-[:bao_gồm]->(v1_4)
            MERGE (v1)-[:bao_gồm]->(v1_5)
            MERGE (v1)-[:bao_gồm]->(v1_6)

            MERGE (n)-[:bao_gồm]->(w)
            """,
            # Episode 3: hỗ trợ và dịch vụ
            """
            MERGE (x:part {name: 'phần 3: hỗ trợ và dịch vụ'})
            MERGE (y:section {name: 'quy định phân cấp giải quyết thắc mắc của sinh viên'})
            MERGE (y0_2:article {name: 'điều 2: hình thức thắc mắc, kiến nghị'})
            MERGE (y0_3:article {name: 'điều 3: các bước gửi thắc mắc, kiên nghị'})
            MERGE (y0_4:article {name: 'điều 4: những vấn đề trao đổi trực tiếp hoặc gửi thư qua email'})
            MERGE (y0_5:article {name: 'điều 5: trách nhiệm của giảng viên và các bộ phận chức năng'})
            MERGE (y0_6:article {name: 'điều 6: những vấn đề đã trao đổi trực tiêp hoặc gửi thư không được giải quyết thoải đáng'})
            MERGE (y0_7:article {name: 'điều 7: những vấn đề liên quan đến tổ chức lớp học phần'})
            MERGE (y0_8:article {name: 'điều 8: những vấn đề liên quan đến điểm bộ phận, điểm thi kết thúc học phần, điểm thi học phần và tổ chức thi'})
            MERGE (y0_9:article {name: 'điều 9; chuyển thắc mắc, kiến nghị của sinh viên'})
            MERGE (y0_10:article {name: 'điều 10: những nội dung được nói trực tuyến trên website'})
            MERGE (y0_11:article {name: 'điều 11: yêu cầu đối với sinh viên tham gia trực tuyến'})

            MERGE (z:section {name: 'thông tin học bổng tài trợ'})
            MERGE (aa:section {name: 'vay vốn học tập từ ngân hàng chính sách xã hội dành cho sinh viên'})
            MERGE (aa0_1:article {name: 'đối tượng sinh viên được hỗ trợ vay tiền'})
            MERGE (aa0_2:article {name: 'điều kiện để được hỗ trợ vay tiền sinh viên'})
            MERGE (aa0_3:article {name: 'mức tiền và lãi suất hỗ trợ vay tiền sinh viên'})
            MERGE (aa0_4:article {name: 'phương thức cho vay tiền sinh viên'})
            MERGE (aa0_5:article {name: 'thông tin về vay vốn học tập từ ngân hàng chính sách xã hội dành cho sinh viên'})

            MERGE (bb:section {name: 'quy trình xác nhận hồ sơ sinh viên'})
            MERGE (bb0_1:article {name: 'các loại giấy tờ được xác nhận'})
            MERGE (bb0_2:article {name: 'kênh đăng ký'})
            MERGE (bb0_3:article {name: 'đăng ký'})
            MERGE (bb0_4:article {name: 'quy trình'})

            MERGE (cc:section {name: 'hồ sơ yêu cầu bồi thường bảo hiểm tai nạn sinh viên'})
            MERGE (dd:section {name: 'thông tin về bảo hiểm y tế'})

            MERGE (ee:section {name: 'hướng dẫn sử dụng các kênh thanh toán học phí, bhyt, lệ phí xét tốt nghiệp'})
            MERGE (ee0_1:article {name: 'thanh toán tại quầy giao dịch của bidv'})
            MERGE (ee0_2:article {name: 'thanh toán qua kênh bidv smart banking'})
            MERGE (ee0_3:article {name: 'thanh toán qua kênh bidv online'})
            MERGE (ee0_4:article {name: 'thanh toán qua atm của bidv'})
            MERGE (ee0_5:article {name: 'thanh toán qua website sinh viên'})
            MERGE (ee0_6:article {name: 'hướng dẫn cài đặt sinh trắc học'})

            MERGE (ff:section {name: 'tham vấn tâm lý học đường'})
            MERGE (gg:section {name: 'trung tâm dịch vụ sinh viên'})

            MERGE (mm:section {name: 'thông tin học bổng khuyến khích học tập'})
            MERGE (mm0_1:article {name: 'đối tượng'})
            MERGE (mm0_2:article {name: 'quỹ học bổng khuyến khích học tập'})
            MERGE (mm0_3:article {name: 'căn cứ để xét học bổng khuyến khích học tập'})
            MERGE (mm0_4:article {name: 'mức học bổng khuyến khích học tập'})
            MERGE (mm0_5:article {name: 'quy trình xét học bổng'})
            
            MERGE (document)-[:bao_gồm]->(x)
            MERGE (x)-[:bao_gồm]->(y)
            MERGE (y)-[:bao_gồm]->(y0_2)
            MERGE (y)-[:bao_gồm]->(y0_3)
            MERGE (y)-[:bao_gồm]->(y0_4)
            MERGE (y)-[:bao_gồm]->(y0_5)
            MERGE (y)-[:bao_gồm]->(y0_6)
            MERGE (y)-[:bao_gồm]->(y0_7)
            MERGE (y)-[:bao_gồm]->(y0_8)
            MERGE (y)-[:bao_gồm]->(y0_9)
            MERGE (y)-[:bao_gồm]->(y0_10)
            MERGE (y)-[:bao_gồm]->(y0_11)

            MERGE (x)-[:bao_gồm]->(z)
            MERGE (x)-[:bao_gồm]->(aa)
            MERGE (aa)-[:bao_gồm]->(aa0_1)
            MERGE (aa)-[:bao_gồm]->(aa0_2)
            MERGE (aa)-[:bao_gồm]->(aa0_3)
            MERGE (aa)-[:bao_gồm]->(aa0_4)
            MERGE (aa)-[:bao_gồm]->(aa0_5)

            MERGE (x)-[:bao_gồm]->(bb)
            MERGE (bb)-[:bao_gồm]->(bb0_1)
            MERGE (bb)-[:bao_gồm]->(bb0_2)
            MERGE (bb)-[:bao_gồm]->(bb0_3)
            MERGE (bb)-[:bao_gồm]->(bb0_4)

            MERGE (x)-[:bao_gồm]->(cc)
            MERGE (x)-[:bao_gồm]->(dd)
            MERGE (x)-[:bao_gồm]->(ee)
            MERGE (ee)-[:bao_gồm]->(ee0_1)
            MERGE (ee)-[:bao_gồm]->(ee0_2)
            MERGE (ee)-[:bao_gồm]->(ee0_3)
            MERGE (ee)-[:bao_gồm]->(ee0_4)
            MERGE (ee)-[:bao_gồm]->(ee0_5)
            MERGE (ee)-[:bao_gồm]->(ee0_6)

            MERGE (x)-[:bao_gồm]->(ff)
            MERGE (x)-[:bao_gồm]->(gg)
            MERGE (x)-[:bao_gồm]->(mm)
            MERGE (mm)-[:bao_gồm]->(mm0_1)
            MERGE (mm)-[:bao_gồm]->(mm0_2)
            MERGE (mm)-[:bao_gồm]->(mm0_3)
            MERGE (mm)-[:bao_gồm]->(mm0_4)
            MERGE (mm)-[:bao_gồm]->(mm0_5)
            """
        ]
        for query in cypher_queries:
            self.execute_cypher(query)

    def add_entities(self, entities):
        def _add_entities(tx, entities):
            for entity in entities:
                print(entity)
                name = entity["name"]
                entity_type = entity["type"]
                query = f"MERGE (e:{entity_type} {{name: $name}})"
                tx.run(query, name=name)

        with self.driver.session() as session:
            session.execute_write(_add_entities, entities)

    def stringify_node_properties(self, props):
        return "; ".join(f"{k} {v}" for k, v in props.items())

    def encode(self, texts):
        return self.sentence_model.encode(texts, convert_to_tensor=True)
        
    def retrieve_similar_nodes(self, question, node_embeddings, node_texts, top_k=5):
        """
        Tìm các node gần nhất về ngữ nghĩa với câu hỏi.
    
        Parameters:
        - question (str): câu hỏi cần truy vấn
        - sentence_model: model SentenceTransformer
        - node_embeddings: tensor (N, D) – embedding của từng node
        - node_texts: list[str] – mô tả văn bản ban đầu của node
        - top_k (int): số lượng kết quả muốn lấy
    
        Returns:
        - List[Tuple[str, float]]: danh sách các text node giống nhất cùng với độ tương đồng cosine
        """
        # Bước 1: Embedding câu hỏi
        question_embedding = self.sentence_model.encode(question, convert_to_tensor=True)
    
        # Bước 2: Tính cosine similarity
        cosine_scores = util.cos_sim(question_embedding, node_embeddings)[0]
    
        # Bước 3: Lấy top-k node giống nhất
        top_results = torch.topk(cosine_scores, k=top_k)
    
        results = []
        for score, idx in zip(top_results.values, top_results.indices):
            results.append(node_texts[idx])
    
        return results

    def fetch_subgraph(self, query):
        def _fetch_subgraph(tx, query):
            result = tx.run(query)
            nodes = {}
            edges = []
            
            for record in result:
                path = record["p"]
                
                # Lấy tất cả nodes trong path
                for node in path.nodes:
                    node_id = node.element_id
                    if node_id not in nodes:
                        nodes[node_id] = {
                            'properties': dict(node.items())
                        }
                
                # Lấy tất cả relationships trong path
                for rel in path.relationships:
                    src_id = rel.start_node.element_id
                    tgt_id = rel.end_node.element_id
                    
                    edge_info = {
                        'source': src_id,
                        'target': tgt_id,
                        'type': rel.type,
                        'properties': dict(rel.items())
                    }
                    
                    edges.append(edge_info)
                    
                    # Đảm bảo start_node và end_node cũng được thêm vào nodes
                    if src_id not in nodes:
                        nodes[src_id] = {
                            'properties': dict(rel.start_node.items())
                        }
                        
                    if tgt_id not in nodes:
                        nodes[tgt_id] = {
                            'properties': dict(rel.end_node.items())
                        }
            
            return nodes, edges
        
        # Lấy data từ Neo4j
        with self.driver.session() as session:
            # Sử dụng execute_read thay vì read_transaction (deprecated)
            nodes, edges = session.execute_read(_fetch_subgraph, query)
            
        return nodes, edges
        
        
    
    def add_relationships(self, relationships, type_part, part):
        def _add_relationships(tx, relationships, part):
            for rel in relationships:
                source = rel["source"]
                target = rel["target"]
                relation = rel["relation"]
                type_source = rel["type_source"]
                type_target = rel["type_target"]

                # Sử dụng APOC để merge mối quan hệ với nhãn động
                query = """
                    MATCH (source:%s {name: $source})
                    MATCH (target:%s {name: $target})
                    CALL apoc.merge.relationship(source, $relation, {}, {}, target)
                    YIELD rel
                    RETURN rel
                """ % (type_source, type_target)
                tx.run(query, source=source, target=target, relation=relation)

                # Chỉ tạo mối quan hệ bao_gồm nếu part được cung cấp
                if part:
                    part_query = """
                        MATCH (p:%s {name: $part})
                        MATCH (s:%s {name: $source})
                        MERGE (p)-[:bao_gồm]->(s)
                    """ % (type_part, type_source)
                    tx.run(part_query, part=part, source=source)

        with self.driver.session() as session:
            session.execute_write(_add_relationships, relationships, part)

    def get_owned_entities(self, type, source, relation):
        query = f"""
            MATCH (o:{type} {{name: "{source}"}})-[r:{relation}]->(e)
            RETURN o AS source, r AS relationship, e AS target
        """

        with self.driver.session() as session:
            result = session.run(query)
            return [record for record in result]


    def get_path(self, cypher_query):
        with self.driver.session() as session:
            result = session.run(cypher_query)
            return [record for record in result]


    def create_documents(self, records):
        documents = []

        for record in records:
            relations = record["relation"]

            for rel in relations:
                source_node = rel.start_node
                target_node = rel.end_node
                relation_type = rel.type

                # Lấy thuộc tính của nguồn và đích
                source_properties = dict(source_node)
                target_properties = dict(target_node)

                # Chuyển thuộc tính thành chuỗi
                source_str = str(source_properties) if source_properties else "{}"
                target_str = str(target_properties) if target_properties else "{}"

                # Tạo triplet dạng chuỗi
                triplet = f"{source_str} {relation_type} {target_str}"
                documents.append(triplet)

        return documents

    
    def import_relationships(self, content, part, type_Part):
        relationships = content["relationships"]
        with self.driver.session() as session:
            for rel in relationships:
                source = rel["source"]
                target = rel["target"]
                relation = rel["relation"].upper().replace(" ", "_")
                print(f'{source} {relation} {target}')
                type_source = self._capitalize_label(rel["type_source"])
                type_target = self._capitalize_label(rel["type_target"])
                type_Part_cap = self._capitalize_label(type_Part)

                session.execute_write(
                    self._create_relation_with_Part,
                    source, type_source,
                    target, type_target,
                    relation,
                    part, type_Part_cap
                )


    @staticmethod
    def _capitalize_label(label):
        # Chuyển thành PascalCase: "university branch" -> "UniversityBranch"
        return ''.join(word.capitalize() for word in label.split(' '))


    @staticmethod
    def _create_relation_with_Part(tx, source, type_source, target, type_target, relation, Part, type_Part):
        query = f"""
           MERGE (src:{type_source} {{name: $source_name}})
           SET src += $source_props

           MERGE (tgt:{type_target} {{name: $target_name}})
           SET tgt += $target_props

           MERGE (Part:{type_Part} {{name: $Part}})
           MERGE (src)-[:{relation}]->(tgt)
           MERGE (Part)-[:BAO_GỒM]->(src)
           """
        tx.run(query,
               source_name=source["name"],
               source_props=source,
               target_name=target["name"],
               target_props=target,
               Part=Part
               )

    def add_single_relationship(self, source_name, source_type, target_name, target_type, relation_type):
        source_name = source_name.lower()
        target_name = target_name.lower()

        source_type = self._capitalize_label(source_type)
        target_type = self._capitalize_label(target_type)

        query = f"""
            MERGE (a:{source_type} {{name: $source_name}})
            MERGE (b:{target_type} {{name: $target_name}})
            MERGE (a)-[r:{relation_type}]->(b)
            RETURN r
        """
        with self.driver.session() as session:
            session.run(query, source_name=source_name, target_name=target_name)


    def get_part_of_document(self, document_id):
        query = """
            MATCH p = (a:Document {name: $document_id})-[*1..1]-(e)
            RETURN p
        """
        with self.driver.session() as session:
            result = session.run(query, document_id=document_id)
            paths = [record["p"] for record in result]
    
            if not paths:
                return ""
    
            # Extract document ID and part names
            document_node = paths[0].start_node
            doc_id = document_node.get("name")
    
            part_names = []
            for path in paths:
                part_name = path.end_node.get("name")
                if part_name not in part_names:
                    part_names.append(part_name)
    
            # Format Cypher
            lines = []
            lines.append(f"MERGE (highest:General {{name: 'tài liệu'}})")
            lines.append(f"MERGE (document:Document {{name: '{doc_id}'}})")
            lines.append("MERGE (highest)-[:BAO_GỒM]->(document)\n")
    
            var_names = [chr(i) for i in range(ord('a'), ord('a') + len(part_names))]
    
            for var, part in zip(var_names, part_names):
                lines.append(f"MERGE ({var}:Part {{name: '{part}'}})")
    
            lines.append("")
    
            for var in var_names:
                lines.append(f"MERGE (document)-[:BAO_GỒM]->({var})")
    
            return "\n".join(lines)



    def delete_part_of_document(self, document_id):
        query = """
            MATCH (a:Document {name: $document_id})-[*0..]->(b)
            DETACH DELETE a, b
        """
        with self.driver.session() as session:
            session.run(query, document_id=document_id)


In [None]:
def first_decision_stsv():
    return """
Bạn là một trợ lý hữu ích, tuân theo khuôn mẫu. Với câu hỏi sau, hãy trích xuất thông tin từ câu hỏi theo yêu cầu.
Quy tắc:
1. Thông tin quan hệ phải đến từ các loại quan hệ đã cho.
2. Mỗi thực thể phải có chính xác một danh mục trong ngoặc đơn.
3. Các câu hỏi yêu cầu phải tóm tắt thì ưu tiên nguồn truy xuất GRAPH

ví dụ 1: Các khoa có số điện thoại là 028372 mà giảng dạy về ngoại ngữ?
{{
  "khoa có số điện thoại là 028372": "text",
  "giảng dạy về ngoại ngữ": "graph"
}}
ví dụ 2: Ngành quản trị kinh doanh do khoa nào quản lý và số điện thoại của khoa đó là gì?
{{
  "quản trị kinh doanh": "text",
  "số điện thoại của khoa": "graph"
}}

ví dụ 3: Câu lạc bộ nào thuộc lĩnh vực học thuật, ngoại ngữ mà do Nguyễn Thị Ngọc Hân chủ nhiệm?
{{
  "học thuật, ngoại ngữ": "text",
  "Nguyễn Thị Ngọc Hân chủ nhiệm": "graph"
}}

ví dụ 4: Ký túc xá tại Đại học Nông Lâm TP.HCM có số lượng là bao nhiêu?
{{
  "Ký túc xá tại Đại học Nông Lâm TP.HCM": "graph"
}}

ví dụ 5: Viện nghiên cứu tại Đại học Nông Lâm TP.HCM có số lượng là bao nhiêu?
{{
  "Viện nghiên cứu tại Đại học Nông Lâm TP.HCM": "graph"
}}

ví dụ 6: Số ngành đào tạo thuộc Khoa Chăn nuôi - Thú y của Đại học Nông Lâm TP.HCM là bao nhiêu?
{{
  "Khoa Chăn nuôi - Thú y của Đại học Nông Lâm TP.HCM": "graph"
}}

ví dụ 7: Trang web nào cung cấp thông tin về sinh hoạt công dân - sinh viên của Trường Đại học Nông Lâm TP.HCM?
{{
  "sinh hoạt công dân - sinh viên của Trường Đại học Nông Lâm TP.HCM": "graph"
}}

ví dụ 8: Chiến dịch Mùa hè xanh tại Trường Đại học Nông Lâm TP.HCM diễn ra vào thời điểm nào?
{{
  "Chiến dịch Mùa hè xanh tại Trường Đại học Nông Lâm TP.HCM": "text"
}}

ví dụ 9: Slogan của BEC English Club tại Trường Đại học Nông Lâm TP.HCM là gì?
{{
  "BEC English Club tại Trường Đại học Nông Lâm TP.HCM": "text"
}}

ví dụ 10: Hoạt động chính của CLB Nông Lâm Radio tại Đại học Nông Lâm TP.HCM là gì?
{{
  "CLB Nông Lâm Radio tại Đại học Nông Lâm TP.HCM": "text"
}}

Với câu hỏi sau, dựa trên loại thực thể và loại quan hệ, hãy trích xuất các thực thể chủ đề và các quan hệ hữu ích từ câu hỏi.
Loại thực thể: "phần 1: nlu - định hướng trường đại học nghiên cứu, quá trình hình thành và phát triển, sứ mạng, tầm nhìn, giá trị cốt lõi, mục tiêu chiến lược, cơ sở vật chất, các đơn vị trong trường, các khoa - ngành đào tạo, tuần sinh hoạt công dân - sinh viên, hoạt động phong trào sinh viên, câu lạc bộ (clb) - đội, nhóm, cơ sở đào tạo, phần 2: học tập và rèn luyện, quy chế sinh viên, quy chế học vụ, quy định về việc đào tạo trực tuyến, quy định khen thưởng, kỷ luật sinh viên, quy chế đánh giá kết quả rèn luyện, quy tắc ứng xử văn hóa của người học, cố vấn học tập, danh hiệu sinh viên 5 tốt, danh hiệu sinh viên tiêu biểu, phần 3: hỗ trợ và dịch vụ, quy định phân cấp giải quyết thắc mắc của sinh viên, thông tin học bổng, vay vốn học tập từ ngân hàng chính sách xã hội dành cho sinh viên, quy trình xác nhận hồ sơ sinh viên, hồ sơ yêu cầu bồi thường bảo hiểm tai nạn sinh viên, thông tin về bảo hiểm y tế, hướng dẫn sử dụng các kênh thanh toán học phí, bhyt, lệ phí xét tốt nghiệp, tham vấn tâm lý học đường, trung tâm dịch vụ sinh viên, trường đại học nông lâm tp. hồ chí minh, 12 phòng ban, 07 trung tâm, 01 viện nghiên cứu, 12 khoa đào tạo chuyên môn, 01 khoa cơ bản, phòng công tác sinh viên, 28.3897456, http://nls.hcmuaf.edu.vn, phòng đào tạo, 28.3896335, http://pdt.hcmuaf.edu.vn, phòng đào tạo sau đại học, 28.38963339, http://pgo.hcmuaf.edu.vn, phòng hành chính, 28.3896678, https://ado.hcmuaf.edu.vn, phòng hợp tác quốc tế, 28.38966946, http://iro.hcmuaf.edu.vn, phòng kế hoạch tài chính, 28.38963334, http://pkhtc.hcmuaf.edu.vn, phòng quản lý chất lượng, 283.724587, https://kdcl.hcmuaf.edu.vn, phòng ql nghiên cứu khoa học, 28.3896334, http://srmo.hcmuaf.edu.vn, phòng quản trị vật tư, 28.38961157, http://pqtvt.hcmuaf.edu.vn, phòng tổ chức cán bộ, 28.38963341, http://tccb.hcmuaf.edu.vn, phòng thanh tra giáo dục, 28.37245195, http://ttra.hcmuaf.edu.vn, phòng thông tin và truyền thông, 28.35359097, https://4t.hcmuaf.edu.vn, đoàn thanh niên, hội sinh viên, 283.7245396, https://www.tuoitrenonglam.com, tạp chí nông nghiệp và phát triển trường đại học nông lâm tp.hcm, 28.3724567, https://jad.hcmuaf.edu.vn, thư viện, 28.38963351, http://elib.hcmuaf.edu.vn, trung tâm dịch vụ sinh viên, 28.38963346, https://ttdvsv.hcmuaf.edu.vn, tt hỗ trợ sinh viên và quan hệ doanh nghiệp, 28.37245397, http://htsv.hcmuaf.edu.vn, tt nghiên cứu & chuyển giao khcn, 28.38966056, http://rttc.hcmuaf.edu.vn, trung tâm nghiên cứu biến đổi khí hậu, 28.37242522, https://rccc.hcmuaf.edu.vn, trung tâm nghiên cứu và ứng dụng công nghệ địa chính, 28.37245422, http://cadas.hcmuaf.edu.vn, tt ngoại ngữ, 28.38960109, http://cfs.hcmuaf.edu.vn, tt tin học ứng dụng, 28.38961713, http://aic.hcmuaf.edu.vn, tt ươm tạo doanh nghiệp công nghệ, 28.37245197, http://tbi.hcmuaf.edu.vn, viện nghiên cứu công nghệ sinh học và môi trường, 28.37220294, http://ribe.hcmuaf.edu.vn, khoa công nghệ hóa học và thực phẩm, 28.38960871, https://ceft.hcmuaf.edu.vn, khoa công nghệ thông tin, 28.37242623, http://fit.hcmuaf.edu.vn, khoa cơ khí công nghệ, 28.38960721, http://fme.hcmuaf.edu.vn, khoa chăn nuôi thú y, 28.38961711, https://cnty.hcmuaf.edu.vn, khoa kinh tế, 28.38961708, http://eco.hcmuaf.edu.vn, khoa khoa học, 28.37220262, http://fs.hcmuaf.edu.vn, khoa khoa học sinh học, 28.37245163, http://biotech.hcmuaf.edu.vn, khoa lâm nghiệp, 28.38975453, http://ff.hcmuaf.edu.vn, khoa môi trường và tài nguyên, 28.37220723, http://env.hcmuaf.edu.vn, khoa nông học, 28.3896171, http://fa.hcmuaf.edu.vn, khoa ngoại ngữ - sư phạm, 28.37220727, http://ffl.hcmuaf.edu.vn, khoa quản lý đất đai và bất động sản, 28.37220261, http://lrem.hcmuaf.edu.vn, khoa thủy sản, 28.38963343, https://fof.hcmuaf.edu.vn, bộ môn lý luận chính trị, 28.38963342, http://bmllct.hcmuaf.edu.vn, trường đại học nông lâm tp. hcm (nls), ngành công nghệ kỹ thuật cơ khí, cơ khí - công nghệ, công nghệ kỹ thuật cơ điện tử, công nghệ kỹ thuật ôtô, công nghệ kỹ thuật nhiệt, kỹ thuật điều khiển và tự động hóa, công nghệ kỹ thuật năng lượng tái tạo, khoa cơ khí - công nghệ, ngành công nghệ thông tin, ngành quả lý đất đai, bất động sản, ngành công nghệ chế biến lâm sản, lâm học, quản lý tài nguyên rừng, lâm nghiệp đô thị, ngành công nghệ kỹ thuật hóa học, công nghệ thực phẩm, ngành chăn nuôi, thú y, khoa chăn nuôi – thú y, ngành nông học, bảo vệ thực vật, khoa nông hoc, ngành khoa học sinh học, khoa công nghệ sinh học, ngành kỹ thuật môi trường, quản lý tài nguyên và môi trường, khoa học môi trường, hệ thống thông tin, tài nguyên và du lịch sinh thái, cảnh quan và kỹ thuật hoa viên, ngành nuôi trồng thủy sản, công nghệ chế biến thủy sản, ngành sư phạm kỹ thuật nông nghiệp, ngôn ngữ anh, ngành kinh tế, quản trị kinh doanh, kinh doanh nông nghiệp, phát triển nông thôn, kế toán, bác sĩ thú y, phân hiệu gia lai (nlg), phân hiệu ninh thuận (nln), giáo dục mầm non (trình độ cao đẳng), giáo dục mầm non (trình độ đại học), trường đại học nông lâm tp.hcm, clb cán bộ đoàn ngôi sao xanh, đoàn thanh niên, hồ thị thanh hồng, bec english club, đoàn–hội khoa khoa học sinh học, nguyễn lê thanh vy, clb bóng rổ đại học nông lâm, hội thể thao, hồ thanh tú, clb du lịch sinh thái, đoàn–hội khoa môi trường – tài nguyên, trần lê hiếu, clb dược thú y, đoàn – hội khoa chăn nuôi thú y, nguyễn nữ mai thơ, clb đồng hành – ac, phạm chí biết, fire english club, đoàn–hội khoa ngoại ngữ–sư phạm, nguyễn hoàng nam phương, clb học thuật–kỹ năng quản trị (b.a.s), võ lê bách, clb karate-do, lê quang trí, clb kết nối thành công, trung tâm hỗ trợ sinh viên & quan hệ doanh nghiệp, dương triệu duy, clb khởi nghiệp (nlu startup club) nsc, trung tâm ươm tạo doanh nghiệp công nghệ, trần phạm mỹ duyên, clb một sức khỏe tp.hcm (hcmc one health club), võ minh trường, clb sách và hành động nông lâm tp.hcm, phạm thị huyên, clb tiếng anh khoa công nghệ hóa học và thực phẩm (seeds for future) sff, đoàn - hội khoa công nghệ hóa học và thực phẩm, nguyễn thị ngọc hân, clb tiếng anh khoa kinh tế efb (english for business club) efb, đoàn - hội khoa kinh tế, nguyễn hoàng tuấn, clb thể thao điện tử pwf – clb pwf gaming, nguyễn võ hải triều, clb thú y engscope, nguyễn ngọc uyên nhi, clb truyền thông nông lâm radio, bùi thị thùy trang, wildlife vet student club, lê tường vi, clb yêu môi trường, trần ái thiên, tổ tu dưỡng rèn luyện hạt giống đỏ, dương quốc thái, đội công tác xã hội, hội sinh viên trường, võ công thương, đội khát vọng tuổi trẻ khoa chăn nuôi thú y, trần viết nguyên chương, đội nhiệt huyết rừng xanh, đoàn–hội khoa lâm nghiệp, nguyễn hữu hoàng, đội văn nghệ mfb–melody from bio, trần đức phúc, đội văn nghệ rạng đông, lê thành tài, đội văn nghệ xung kích nhịp điệu xanh, nguyễn nhu minh hạ, đội xung kích khoa khoa học sinh học, đỗ minh anh, hội cổ động viên (nong lam buffaloes) nlb, đoàn an bình, khu phố 22-23, phường linh trung, thành phố thủ đức, thành phố hồ chí minh, 0283.896.6780, https://www.hcmuaf.edu.vn, vphanhchinh@hcmuaf.edu.vn, phân hiệu trường đại học nông lâm tp.hcm tại ninh thuận, số 8 đường yên ninh, thị trấn khánh hải, huyện ninh hải, tỉnh ninh thuận, 0259.2472.252, https://phnt.hcmuaf.edu.vn/, phnt@hcmuaf.edu.vn, phân hiệu trường đại học nông lâm tp.hcm tại gia lai, đường trần nhật duật, thông 01, xã diên phú, thành phố pleiku, tỉnh gia lai, 0269.3877.035, https://phgl.hcmuaf.edu.vn/, phgl@hcmuaf.edu.vn, 6 giảng đường, 10 trung tâm, 01 viện nghiên cứu và ứng dụng, 01 thư viện trung tâm, 15.000 đầu sách, 01 bệnh viện thú y, 01 xưởng dược thú y, 01 trại thực nghiệm thủy sản, 04 trung tâm nghiên cứu thí nghiệm, thư viện điện tử, 6 ký túc xá, 350 phòng, 3.000 sinh viên, 1 sân đa môn, 3 sân bóng chuyền, 1 sân bóng đá, nhà thi đấu và luyện tập thể thao, 1, nhân văn, giá trị truyền thống nhân văn, dân tộc, nhân bản, tài năng, tính sáng tạo, kỹ năng, trách nhiệm nghề nghiệp, người học, phục vụ, lợi ích, cộng đồng, xã hội học tập, đổi mới, chất lượng, hiệu quả, nhà trường, hội nhập, hợp tác, chia sẻ, các hoạt động sinh viên cấp trường nổi bật hằng năm, các hoạt động nổi bật khác, hoạt động tự hào sinh viên nông lâm, ngày hội sinh viên nông lâm với pháp luật, hội thao sinh viên nông lâm, cuộc thi khởi nghiệp nông nghiệp, cuộc thi ý tưởng nghiên cứu khoa học, hội thảo nghiên cứu khoa học sinh viên, chiến dịch tình nguyện mùa hè xanh, chương trình vì màu xanh nông lâm, chiến dịch xuân tình nguyện, chương trình hiến máu tình nguyện, lễ tuyên dương thanh niên tiên tiến làm theo lời bác và trao giải thưởng nguyễn thái bình, lễ tuyên dương sinh viên 5 tốt, lễ tuyên dương hoạt động học thuật, khoa học công nghệ, khởi nghiệp, cuộc thi nét đẹp sinh viên nông lâm, hội thi bí thư chi đoàn giỏi, hội thi thủ lĩnh sinh viên, chương trình vì đàn em thân yêu, chương trình ánh trăng cho em, ngày thứ 7 tình nguyện, ngày chủ nhật xanh, chương trình vì nụ cười trẻ thơ, chương trình về nguồn, hành trình đi tìm địa chỉ đỏ, hành trình đến với bảo tàng, hội thi kiến thức chuyên ngành, đào tạo, nghiên cứu, chuyển giao công nghệ, hợp tác quốc tế, trường đại học tiên tiến, khu vực, thế giới, hệ thống quản lý, quản trị, nhân sự, tinh thần sáng tạo, khởi nghiệp, nguồn lực, môi trường học thuật, nghiên cứu khoa học, phục vụ cộng đồng, cơ sở giáo dục đại học, việt nam, hệ thống cơ sở vật chất, công nghệ thông tin, quản lý, kế hoạch chiến lược giai đoạn 2021-2025, 2035, 03 nhóm chiến lược cốt lõi, đào tạo, nghiên cứu và phát triển khoa học công nghệ, phục vụ cộng đồng, 06 nhóm chiến lược bổ trợ, phát triển nguồn nhân lực, bảo đảm chất lượng giáo dục, hợp tác trong nước và quốc tế, phát triển công nghệ thông tin, đầu tư phát triển cơ sở vật chất, phát triển tài chính, trường đại học nông lâm thành phố hồ chí minh, nong lam university - nlu, bộ giáo dục và đào tạo, thành phố thủ đức, thành phố hồ chí minh, thành phố dĩ an, tỉnh bình dương, 70 năm, huân chương lao động hạng ba, huân chương lao động hạng nhất, huân chương độc lập hạng ba, 1955, 1963, 1972, 1975, 1985, 1995, 2000, trường quốc gia nông lâm mục blao, trường cao đẳng nông lâm súc, học viện quốc gia nông nghiệp sài gòn, trường đại học nông nghiệp 4, trường đại học nông lâm nghiệp tp.hồ chí minh, trường đại học nông lâm (thành viên của học quốc gia tp.hồ chí minh), trường đại học đa ngành, nguồn nhân lực, chuyên môn, tư duy sáng tạo, phát triển, phổ biến, chuyển giao tri thức, công nghệ, phát triển bền vững, kinh tế - xã hội, trường đại học nghiên cứu, chất lượng quốc tế, sinh hoạt công dân - sinh viên (shcd - sv), https://go.hcmuaf.edu.vn/lichshcd2024, tân sinh viên, sinh viên năm 2, năm 3 và năm cuối, hướng dẫn phương pháp học đại học, sử dụng các tiện ích online, sử dụng thư viện, đăng ký môn học, phổ biến quy chế học vụ, giới thiệu các hoạt động đoàn - hội và phong trào sinh viên, định hướng nghề nghiệp - khởi nghiệp, thông tin tình hình kinh tế - chính trị - xã hội, học tập và làm theo tư tưởng, đạo đức, phong cách hồ chí minh, đại học nông lâm tp.hcm, ngành học, khoa, đội ngũ cố vấn học tập, sinh viên, chương trình đào tạo, kế hoạch học tập, học kỳ, khóa học, năng lực, hoàn cảnh, điều kiện học tập, học phần, kết quả học tập, biện pháp hỗ trợ, ban cố vấn học tập, website, phòng công tác sinh viên, http://nls.hcmuaf.edu.vn/, sinh viên 5 tốt, sinh viên việt nam, sinh viên trường đại học nông lâm tp.hcm, đảng, pháp luật, quy chế, nội quy, trường, nơi công cộng, điểm rèn luyện, năm học, sinh viên năm nhất, 21 điểm, 6 điểm, khoa/bộ môn, cuộc thi học thuật, clb học thuật, 06 tháng, bài viết, cơ quan truyền thông uy tín, báo, tạp chí khoa học chuyên ngành, hội đồng, sinh viên khuyết tật, giấy khen, sinh viên khối ngành ngoại ngữ, 7.0/10, câu lạc bộ, ủy viên ban chấp hành, cơ sở đoàn, hội, thành viên ban điều hành, hội sinh viên, bằng khen, đoàn – hội, hiến máu tình nguyện, 02 lần, đội, nhóm, tuyên truyền, vận động hiến máu tình nguyện, xã, phường, phương tiện truyền thông đại chúng, thanh niên tiêu biểu, lễ tuyên dương sinh viên tiêu biểu, sinh viên tiêu biểu, thành tích học tập, rèn luyện, danh hiệu sinh viên tiêu biểu, loại khá, loại tốt, hoạt động đoàn-hội sv, điểm, hoạt động chính trị, hoạt động xã hội, hoạt động văn hóa, hoạt động văn nghệ, hoạt động thể thao, tội phạm, tệ nạn xã hội, cán bộ lớp, đoàn thể, tổ chức, thành tích, học tập, 100 điểm, ý thức, thái độ, câu lạc bộ học thuật, hoạt động học thuật, hoạt động ngoại khóa, kỳ thi, cuộc thi, ngành, cơ quan chỉ đạo cấp trên, quy định, hoạt động rèn luyện, hoạt động công ích, hoạt động tình nguyện, công tác xã hội, nhà nước, chính sách, xuất sắc, tốt, khá, trung bình, yếu, kém, 90 điểm, 80 điểm, 65 điểm, 50 điểm, 35 điểm, khiển trách, cảnh cáo, đình chỉ học tập, buộc thôi học, http://sv.hc-muaf.edu.vn/diemrenluyen, thủ khoa, á khoa, olympic các môn học, cuộc thi sáng tạo kỹ thuật, cuộc thi văn hóa, cuộc thi văn nghệ, cuộc thi thể thao, ký túc xá, phong trào toàn dân bảo vệ an ninh tổ quốc, 500 sinh viên, 01 svtb, 500 đến 1.000 sinh viên, 02 svtb, 1.000 sinh viên, 04 svtb, 5%, đtbtl, 90 sinh viên, 01 thủ khoa, 01 á khoa, 25 đến 89 sinh viên, 25 sinh viên, hội đồng khen thưởng và kỷ luật sinh viên, khối lớp, 60 sinh viên, hiệu trưởng, 03 tháng, hội đồng khen thưởng, kỷ luật sinh viên, trưởng khoa, bản tường trình, bản tự kiểm điểm, lớp trưởng, trợ lý quản lý sinh viên, biên bản họp, tài liệu, quyết định kỷ luật, gia đình sinh viên, địa phương, giờ học, giờ thực tập, 5-10 điểm rèn luyện, thầy, cô giáo, cbvc nhà trường, thi, kiểm tra, tiểu luận, đồ án, khóa luận tốt nghiệp, cơ quan chức năng, pháp luật, phòng thi, đề thi, bài thi, học phí, bảo hiểm y tế, ktx, tài sản, rượu, bia, đình chỉ có thời hạn, thuốc lá, đánh bạc, sản phẩm văn hóa đồi trụy, hoạt động mê tín dị đoan, hoạt động tôn giáo trái phép, ma túy, mại dâm, vũ khí, chất nổ, hàng cấm, phần tử xấu, đánh nhau, biểu tình, truyền đơn, áp phích, hình ảnh, an ninh quốc gia, internet, quấy rối, dâm ô, an toàn giao thông, hồ sơ, văn bằng, chứng chỉ, văn bằng tốt nghiệp, lần 1, lần 2, lần 3, quy chế đào tạo, quy chế công tác hssv, quy định đối với hssv nội ngoại trú, quy định về việc thực hiện nếp sống văn hóa học đường, quy định về giờ giấc học tập, thầy cô, bài tập, đề tài, hoạt động học tập, phong trào thi đua, tổ chức đoàn thể, hoạt động khởi nghiệp, hoạt động phục vụ cộng đồng, giảng viên, nhân viên nhà trường, bạn bè, cử chỉ, cơ sở vật chất, thiết bị dạy và học, môi trường sống, khu vực hiệu bộ, giờ làm việc, khu giảng đường, phòng học, thông tin học bổng khuyến khích học tập, bidv, khách hàng, mã sinh viên, 01 liên chứng từ, cán bộ bidv, bidv smart banking, điện thoại di động, số điện thoại di động, mật khẩu, học phí_lệ phí thi, nhà cung cấp, mã khách hàng, otp, hóa đơn, báo cáo giao dịch, www.bidv.com.vn, tên đăng nhập, thanh toán hóa đơn, thanh toán hóa đơn từng lần, tài khoản, số hóa đơn, số tiền, bidv online, hộp thư/hộp thư đến, atm, thanh toán, tài khoản thanh toán, học phí– lệ phí thi, có, biên lai, chuyển khoản, https://dkmh.hcmuaf.edu.vn/, đóng tiền học phí, bill, thanh toán học phí qua bidv, hình thức thanh toán, số tài khoản, bidv smartbanking, cài đặt sinh trắc học, 10.000.000 đồng, giấy tờ tùy thân, cccd, qr, chip cccd, khuôn mặt, đã thu nhập cấp độ 2, người có thẩm quyền, email, đơn, bản in, điện thoại, phòng đào tạo, giáo viên chủ nhiệm, cố vấn học tập, số tín chỉ, chuyên ngành đào tạo, giáo viên giảng dạy, đề cương chi tiết học phần, điểm bộ phận, ngân hàng câu hỏi thi, tài liệu học tập, tài liệu tham khảo, khiếu nại, đình chỉ thi, khoa chuyên môn, giáo vụ khoa, ban chủ nhiệm khoa, điều kiện tốt nghiệp, thẻ sinh viên, bộ phận quản lý đăng ký trực tuyến, 3 tuần, môn học, thời khóa biểu, cơ sở dữ liệu, trang web, lớp học phần, văn bản pháp lý, tài khoản cá nhân, cán bộ giảng dạy, trợ lý giáo vụ, phòng chức năng, thông tin, điều 4, đơn vị chức năng, ban giám hiệu, chương 3, bcn khoa, trưởng phòng đào tạo, danh sách lớp học phần, danh sách bổ sung, đăng ký, rút học phần, điểm thi kết thúc học phần, điểm thi, trưởng bộ môn, bộ môn, điểm học phần, giáo viên, giấy tờ, vay vốn ngân hàng chính sách xã hội, tạm hoãn nghĩa vụ quân sự, đi xe buýt, bổ sung hồ sơ nhận trợ cấp, bổ sung hồ sơ làm lại thẻ sinh viên, bổ sung hồ sơ thuế cho người thân, bổ sung hồ sơ ký túc xá đại học quốc gia tp.hcm, bổ sung hồ sơ thi học kỳ, bổ sung hồ sơ thi acces, bổ sung hồ sơ lý lịch cá nhân, bổ sung hồ sơ nhận học bổng, bổ sung hồ sơ giảm trừ gia cảnh, bổ sung hồ sơ đi làm, bổ sung hồ sơ đi thực tập, https://nlsonline.hcmuaf.edu.vn/gxn/dangnhap.php, trình duyệt web, máy tính để bàn, máy tính xách tay, máy tính bảng, thông tin cá nhân, giấy xác nhận, cán bộ phòng công tác sinh viên, thời gian, hệ thống, bước 4, tổ tham vấn tâm lý học đường, tham vấn trực tiếp, tham vấn online, radio nông lâm, chuyên gia tư vấn, cán bộ, tổ tư vấn tâm lý học đường, g.05, nhà thiên lý, tuvantamly@hcmuaf.edu.vn, https://nls.hcmuaf.edu.vn, 0283 897 4560, sinh viên hệ chính quy, thời gian thiết kế chương trình đào tạo, học bổng, 01 suất học bổng, học bổng chính sách, trợ cấp xã hội, chính sách ưu đãi, học bổng khuyến khích học tập, khối học bổng, chương trình tiên tiến, giai đoạn dự bị anh văn, trình độ anh văn, quỹ học bổng khuyến khích học tập, chương trình đại trà, 8%, tổng thu học phí, chương trình chất lượng cao, 3%, cơ sở chính, khối ngành 1, khối ngành 3, khối ngành 4, khối ngành 5, khối ngành 7, ngành công nghệ thực phẩm, ngành chăn nuôi thú y, phân hiệu gia lai, phân hiệu ninh thuận, khối cao đẳng, công thức, 𝑞𝑖, 𝑄, 𝑛𝑖, 𝑁, điểm trung bình chung học bổng, thang điểm 10, 15 tín chỉ, học kỳ cuối, 08 tín chỉ, 7,0, 5 điểm, 70, học bổng loại khá, học bổng loại giỏi, 8,0, 80, học bổng loại xuất sắc, 9,0, 90, mức trần học phí, nhóm ngành, chính phủ, 20%, 30%, hội đồng xét duyệt, điểm trung bình chung tích lũy, 2 chữ số thập phân, học bổng tài trợ, quỹ “đồng hành cùng trường đại học nông lâm tp.hcm”, cựu sinh viên, doanh nghiệp, cá nhân, hoàn cảnh khó khăn, hộ nghèo, mồ côi cha mẹ, hoàn cảnh khó khăn đột xuất, thiên tai, tai nạn, thành tích cao, hoạt động cộng đồng, đoàn - hội, chương trình học bổng, 6 tỷ đồng, tiền mặt, khóa học đào tạo ngắn hạn, tin học, ngoại ngữ, học bổng đồng hành, điều kiện, đối tượng, quy trình, thủ tục, hồ sơ học bổng, email sinh viên, website phòng công tác sinh viên, https://nls.hcmuaf.edu.vn/, bảo hiểm tai nạn, tai nạn giao thông, tai nạn sinh hoạt, tiêm ngừa bệnh dại, động vật cắn, giờ hành chính, thứ 2 đến thứ 6, hàng tuần, hồ sơ yêu cầu bồi thường, giấy yêu cầu trả tiền bảo hiểm, biên bản tường trình tai nạn, giấy phép lái xe, cà vẹt xe, hồ sơ điều trị thương tật, giấy ra viện, giấy phẫu thuật, phim x.quang, phim mri, đơn thuốc, bệnh viện/cơ sở y tế, biên bản tai nạn giao thông, chính quyền, giấy chứng tử, ủy quyền thừa kế, kết quả nồng độ cồn, sổ tiêm ngừa bệnh dại, luật bảo hiểm y tế 2008, 2014, thẻ bảo hiểm y tế, cn, bt, hn, dt, dk, xd, ts, tc, tq, tv, ta, ty, hg, pv, mức đóng, 4,5%, mức lương cơ sở, số tháng, 70%, quốc hội, https://bhytsv.hcmuaf.edu.vn, thẻ, baohiemxahoi.gov.vn, trung tâm dịch vụ sinh viên, sinh viên nội trú, ăn, ở, sinh hoạt, dịch vụ, kỹ năng ngoại khóa, nhà khách, giữ xe, căn tin, photocopy, internet, phương tiện vận chuyển, văn phòng trung tâm dịch vụ sinh viên, đường số 6, 028-38963346, ttdvsv@hcmuaf.edu.vn, quỹ tín dụng học tập, 1998, ngân hàng chính sách xã hội (nhcsxh), vốn vay, phương tiện học tập, sách vở, ăn, ở, đi lại, sinh viên mồ côi, hộ gia đình, hộ cận nghèo, mức sống trung bình, gia đình, bệnh tật, hỏa hoạn, dịch bệnh, ủy ban nhân dân xã, phường, thị trấn, học sinh, sinh viên, giấy báo trúng tuyển, cờ bạc, nghiện hút, trộm cắp, buôn lậu, 4.000.000 đ/tháng/sinh viên, 0,65%/tháng, ngân hàng chính sách xã hội, giấy xác nhận vay vốn, đảng cộng sản việt nam, đoàn tncs hồ chí minh, hội sinh viên việt nam, hội liên hiệp thanh niên việt nam, nhà giáo, ctđt, cvht, khht, học phần, website, điểm f, 12 tín chỉ, lý thuyết, thực hành, giáo dục thể chất, 30 sinh viên, 60 sinh viên, 200 sinh viên, 20 sinh viên, 25 sinh viên, 50 sinh viên, 40 sinh viên, phòng quản lý chất lượng, bộ môn lý luận chính trị, điểm i, điểm 0, điểm thực hành, điểm thi kết thúc học phần, hội đồng khoa, điểm m, điểm d, đtbchk, đtbcnh, đtbctl, trung bình, cử nhân, kỹ sư, 50%, bảng điểm cá nhân, điểm rèn luyện, học kỳ chính, học kỳ phụ, thang điểm 100, thông tư số 16/2015/tt-bgdđt, đrl, hồ sơ quản lý sinh viên, bảng điểm toàn khóa, học bổng, khóa luận, tiểu luận, 10 tín chỉ, bác sỹ thú y, 5 tín chỉ, 6 tín chỉ, chuẩn đầu ra, ngoại ngữ không chuyên, tin học không chuyên, điểm trung bình tích lũy, bằng tốt nghiệp, chứng nhận, hội đồng xét tốt nghiệp khoa, hội đồng xét tốt nghiệp trường, biên bản xét tốt nghiệp, phụ lục văn bằng, giấy chứng nhận tốt nghiệp tạm thời, bản sao bằng tốt nghiệp, bản sao phụ lục văn bằng, kết quả đã học, lực lượng vũ trang, cơ quan có thẩm quyền, giải đấu quốc tế, bộ y tế, học phí, kết quả học phần, minh chứng, chương trình, ngành, quyền lợi, tốt nghiệp, điểm c, giảng dạy trực tuyến, giảng dạy online – offline, dịch bệnh, thiên tai, hệ thống đào tạo trực tuyến, e-learning – nlu, cổng đào tạo trực tuyến, hệ thống quản lý học tập, học liệu điện tử, diễn đàn trao đổi, thảo luận trực tuyến, hệ thống kiểm tra, đánh giá sinh viên, edmodo, thi cuối kỳ, thực hành, thực tập, tài khoản, lớp học, diễn đàn thảo luận, hồ sơ cá nhân, hình đại diện, chữ ký, đường link lớp học, nhiệm vụ, 05 - 10 phút, email, micro, camera, raise hand, lower hand, màn hình cá nhân"
Loại quan hệ: "website, có, là, tôn_trọng, theo, hủy, in, dưới, bị, mời, đối_với, của, gửi, không, gồm, trong, từ, email, công_bố, BAO_GỒM, sở_hữu, số_điện_thoại, thuộc_khoa, chương_trình_tiên_tiến_tại, chương_trình_nâng_cao_tại, chương_trình_đào_tạo_tại, quản_lý_bởi, chủ_nhiệm, trưởng_ban_điều_hành, đội_trưởng, số_lượng_sách, sử_dụng, số_lượng_phòng, sức_chứa, bao_gồm, về, sánh_vai, trên, đổi_mới, thúc_đẩy, phát_huy, xây_dựng, trở_thành, hàng_đầu, đáp_ứng, tầm_nhìn, tên_khác, trực_thuộc, tọa_lạc_tại, thuộc, thời_gian_hoạt_động, nhận_giải_thưởng, thành_lập, phục_vụ, đào_tạo, và, mục_tiêu_đến, sẽ_trở_thành, với, tổ_chức_bởi, được_đăng_tại, gìn_giữ_và_phát_huy, phát_hiện, nâng_đỡ, cho, đề_cao, hoạt_động_của, dành_cho, hỗ_trợ, tư_vấn, phù_hợp, hướng_dẫn, đăng_ký, ở, điều_chỉnh, xác_nhận, theo_dõi, cập_nhật_trên, không_dưới, ít_nhất, xem_xét, cấp, tham_gia, trường, tổ_chức, vào_cuối, tuyên_dương, khen_thưởng, căn_cứ, đánh_giá, phòng_chống, đạt, thang_điểm, chấp_hành, đến, không_vượt_quá, đánh_giá_qua, đoạt_giải, có_thành_tích, đóng_góp, hoạt_động_tại, thực_hiện, bảo_đảm_an_ninh, ít_hơn_hoặc_bằng, chọn, cao_nhất, cao_thứ_hai, bằng_nhau, công_nhận, xét, áp_dụng_bởi, thông_báo, gửi_thông_báo, làm, tham_dự, sau, chấm_dứt, trừ, vô_lễ, lần_1, giao_cho, hạ_điểm, tài_sản_trong, làm_hư_hỏng, lần_2, lần_3, trái, xâm_phạm, chống_phá, thu_hồi, lắng_nghe, hoàn_thành, nghiêm_túc, phát_động, hỏi, trả_lời, làm_phiền, quan_hệ, không_gây_ồn_ào, giữ_gìn, cung_cấp, nhận, dấu_và_chữ_ký, truy_cập, nhập, thanh_toán, hiển_thị, lưu, tại, tương_ứng, phản_hồi, đăng_nhập, chụp_ảnh, quét, đọc, lấy_ảnh, kiểm_tra, trạng_thái, chuyển_tới, viết, trực_tuyến, không_chấp_nhận, nộp, trao_đổi, thắc_mắc, đề_nghị, mang, được_hỗ_trợ, đi_học, chưa_được_sửa, mất, giúp_đỡ, nêu, hoặc, ghi, chuyển, ký, đã, kèm, giải_quyết, loại, bổ_sung, cập_nhật, trình_ký, đóng_dấu, hoạt_động, liên_hệ, như, cùng, xếp, so_sánh, không_cần, bằng, bố_trí, trọng_số, không_bị, quyết_định, cao_hơn, hơn, lập, trình, làm_tròn, trích_từ, do, phối_hợp, trị_giá, một_lần, qua, mỗi, đóng_mộc, sửa_đổi, mã, nhân, tra_cứu, quản_lý, điện_thoại, thành_lập_từ, vay, để, giúp, thủ_tục, gặp_khó_khăn, cư_trú, sinh_sống, đủ_tiêu_chuẩn, tối_đa, lãi_suất, thông_qua, trả_nợ, đóng_trụ_sở, tuân_thủ_quy_định_của, học_tập_tại, được_tôn_trọng_bởi, được_cung_cấp, được_sử_dụng, hoạt_động_trong, kiến_nghị_với, đề_đạt_nguyện_vọng_lên, được_ở, được_nhận, tuân_thủ_chủ_trương_của, tuân_thủ_pháp_luật_của, tuân_thủ_quy_chế_của, đóng, không_được_xúc_phạm, không_được_tham_gia, không_được, không_được_tổ_chức_hoạt_động_mà_chưa_được_cho_phép, cung_cấp_ctđt_cho, tư_vấn_xây_dựng_khht_cho, thông_báo_học_phần_cho, hướng_dẫn_đăng_ký_cho, thực_hiện_theo, đăng_ký_học_lại, cải_thiện_điểm, cho_phép_đăng_ký_ít_hơn_14_tín_chỉ, rút, không_đi_học, không_dự_thi, nhận_điểm_r, nhận_điểm_f, rút_học_phần_trên, đề_xuất_hủy_hoặc_mở_thêm, đăng_ký_trực_tuyến, công_bố_kết_quả_đăng_ký_cho, cải_thiện_kết_quả, đề_xuất, duy_trì, phê_duyệt_duy_trì, đề_xuất_mở_thêm, chấp_thuận_mở_thêm, mở_thêm, dự_thi, đề_xuất_cấm_thi, duyệt_danh_sách_cấm_thi, tối_thiểu, chuẩn, được_quy_định_trong, thông_báo_cho, thông_báo_lịch_thi, hưởng, chấp_thuận, duyệt_đơn, tổ_chức_thi_cho, xét_tương_đương, quy_định, rà_soát, phê_duyệt, xác_định, đồng_ý, không_đạt, tính_vào, xử_lý, xem_kết_quả, được_đánh_giá, tính, không_tính, dựa_vào, trung_bình_cộng, kỷ_luật, không_tham_gia, xếp_loại, lưu_trong, ghi_vào, đình_chỉ, tiêu_chí, cho_phép, chuyển_sang, cấp_bằng, chấm, thỏa_mản, phân_công, tổ_chức_bảo_vệ, thảo_luận, gia_hạn, quyết_định_gia_hạn, không_hoàn_thành, tích_lũy, ra_quyết_định, được_cấp, báo, bảo_lưu, được_điều_động, cần, theo_quy_định, học_xong, nghỉ, được_công_nhận, học, vượt_quá, nghiên_cứu, bổ_sung_vào, tăng_cường, áp_dụng, chỉ_đạo, phát_triển_trên, không_tổ_chức, giữ_bí_mật, bảo_vệ, chịu_trách_nhiệm, trước, nhấn, mở, tắt, bấm, chia_sẻ"

### Câu hỏi: {question}

Cần có tài liệu để trả lời câu hỏi đã cho, và mục tiêu là tìm kiếm các tài liệu hữu ích. Mỗi thực thể trong đồ thị tri thức được liên kết với một tài liệu.
Dựa trên các thực thể và quan hệ đã trích xuất, đồ thị tri thức(graph) hay tài liệu văn bản(text) hữu ích hơn để thu hẹp không gian tìm kiếm?. Hãy phản hồi theo dạng sau
{{
  <trích xuất như ví dụ, không được ghi chuỗi theo kiểu lồng chuỗi>
}}
"""

def reflection_stsv():
    return """
Tài liệu đã truy xuất không đúng.
### feedback: {feedback}
### Câu hỏi: {question}
### Câu trả lời: {answer}


CHỈ TRÍCH XUẤT LẠI VỚI CÂU HỎI CHƯA ĐƯỢC TRẢ LỜI HOẶC CHƯA CÓ THÔNG TIN. CÂU HỎI ĐÃ ĐƯỢC TRẢ LỜI RỒI THÌ KHÔNG CẦN ĐỂ TĂNG TỐC ĐỘ TRUY XUẤT
Tài liệu đã truy xuất không đúng. Trả lời lại dựa trên các thực thể chủ đề mới được trích xuất.
Hãy phản hồi theo dạng sau:
{{
  <trích xuất như ví dụ, không được ghi chuỗi theo kiểu lồng chuỗi>
}}
"""


def generator_stsv():
    return """
### Câu hỏi: {question}
### Tài liệu: {references}
"""

def generator_stsv_system():
    return """
Bạn là chuyên gia trả lời câu hỏi dựa trên tài liệu cung cấp, tuân theo khuôn mẫu. Nhiệm vụ:
1. Trả lời tất cả câu hỏi chính xác dựa trên tài liệu.
2. Trình bày rõ ràng, liệt kê (nếu có) đánh số thứ tự và in đậm.
3. Nếu thiếu thông tin, trả lời: "Không có thông tin". Nếu có, diễn đạt lại.
4. Chỉ trả lời, không giải thích thêm.
"""


# cải tiển: thêm các chỉ số để đánh giá câu trả lời
def valid_stsv():
    return """
Bạn là trợ lý phân tích câu trả lời theo khuôn mẫu.

Câu hỏi: {question}
Câu trả lời: {answer}
Nếu câu trả lời 'không có thông tin' thì trả lời no mà không cần suy nghĩ
Nhiệm vụ:
1. Xác định loại của câu trả lời (what, who, where, how, why).
2. Kiểm tra câu trả lời có khớp với câu hỏi không:
2.1 Nếu khớp, trả lời "yes".
2.2 Nếu 'không có thông tin' hoặc câu trả lời không thỏa mãn thì trả lời 'no'.
Trả lời: Chỉ 1 từ ("yes" hoặc "no")."""



def commentor_stsv():
    return """
Bạn là một trợ lý hữu ích, tuân theo khuôn mẫu. 
Hãy phản hồi sửa lỗi một cách chi tiết nhất có thể cho:
1. Nếu nguồn truy xuất hiện tại là 'TEXT', hãy chỉ ra lỗi được liệt kê dưới đây:
 - Chỉ ra thực thể hoặc quan hệ được trích xuất sai từ câu hỏi, nếu Tài liệu khả thi trống.
 - Chỉ ra thực thể hoặc quan hệ bị thiếu từ câu hỏi, nếu Tài liệu khả thi trống.
 - Có thể đề xuất chuyển sang nguồn truy xuất 'GRAPH', nếu sử dụng TEXT quá nhiều nhưng không tìm thấy thông tin hoặc tài liệu trống

2. Nếu nguồn truy xuất hiện tại là 'GRAPH', hãy chỉ ra lỗi được liệt kê dưới đây:
 - Nếu tài liệu không có ý nghĩa. Ưu tiên dự đoán lại mục lục.
 - Có thể đề xuất chuyển sang nguồn truy xuất 'TEXT', nếu sử dụng GRAPH quá nhiều nhưng không tìm thấy thông tin hoặc tài liệu trống

### Câu hỏi: {question}
### Thực thể chủ đề: {entities}
### Tài liệu khả thi: {references}

Lưu ý:
1. Hiện tại chỉ có 2 nguồn là 'TEXT' và 'GRAPH'. KHÔNG ĐỀ NGHỊ NGUỒN KHÁC NGOÀI 2 CÁI TRÊN

Phản hồi theo mẫu:
1. <hãy chỉ ra lỗi>
2. <đề xuất ngắn gọn, rõ ràng, cụ thể để sửa lỗi tương ứng với 'TEXT' hoặc 'GRAPH', mỗi lần chỉ đề xuất 1 nguồn, không tính tới bước tiếp theo>
"""


def extract_entities_relationship_from_text():
    return """    
Bạn là một hệ thống trích xuất thông tin từ văn bản. Tuân theo khuôn mẫu, Nhiệm vụ của bạn là:

1. Trích xuất tất cả các thực thể có trong đoạn văn bản.
   - Mỗi thực thể cần có tên(name) và loại(type).
   - Loại của thực thể (ví dụ: person, organization, location, date, v.v.) phải được ghi bằng TIÊNG ANH, nếu có 2 từ trở lên thì SỬ DỤNG PascalCase.

2. Xác định các mối quan hệ giữa các thực thể.
   - Mỗi mối quan hệ phải có nguồn(source), đích(target) và tên mối quan hệ(relation).
   - Tên mối quan hệ phải được ghi thường, TIẾNG VIỆT, CÓ DẤU, nếu có 2 từ trở lên thì PHÂN CÁCH NHAU BỞI DẤU "_".(ví dụ: "THỦ_ĐÔ_CỦA", "TẠO_RA").
   - Nếu một mối quan hệ có ý nghĩa giống nhau ở nhiều trường hợp, hãy thống nhất sử dụng một tên mối quan hệ duy nhất và không thêm từ gì khác. Ví dụ: nếu "tphcm ở việt nam" được quy định là mối quan hệ "Ở", thì với mọi trường hợp tương tự, mối quan hệ phải là "Ở".

3. Trả về kết quả dưới dạng JSON với các trường:
   - "entities": Danh sách các thực thể. Mỗi thực thể có các thuộc tính "name" và "type".
   - "relationships": Danh sách các mối quan hệ. Mỗi mối quan hệ có các thuộc tính "source", "target", "type_source", "type_target" và "relation".

Yêu cầu:
- Trả về kết quả dưới dạng JSON với các trường: relationships.
- Mỗi relationship cần có source, target, type_source, type_target và relation.
- source và target sẽ là 1 json có các thuộc tính mặc định là name, ngoài ra sẽ có từ 2 ĐẾN 5 THUỘC TÍNH KHÁC NHAU tùy theo thông tin văn bản(giống như lưu trữ của Neo4j). Không lặp lại thuộc tính type Thuộc tính ghi tiếng anh, còn giá trị ghi tiếng việt
- không giải thích gì thêm, không ghi mở đầu, kết thúc, thống kê. Chỉ phản hồi theo hướng dẫn
- CHỈ TRÍCH XUẤT TỪ THÔNG TIN MÀ TÔI CUNG CẤP, KHÔNG THÊM BẤT CỨ THÔNG TIN GÌ KHÁC BÊN NGOÀI.
---
### Giải thích:
1. **Relationship**:
   - Là mối quan hệ giữa các entity, ví dụ: "Alice knows Bob" → quan hệ Biết giữa Alice và Bob.

2. **Định dạng đầu ra**:
   - Sử dụng JSON để trả về kết quả một cách có cấu trúc, dễ dàng xử lý tiếp theo.
    
Ví dụ: 
Đại sứ Iran tại LHQ cho rằng làm giàu uranium là quyền không thể tước bỏ của mỗi quốc gia, khẳng định Tehran sẽ không từ bỏ hoạt động này. Trong cuộc phỏng vấn với kênh CBS News của Mỹ ngày 29/6, đại sứ Iran tại Liên Hợp Quốc Amir Saeid Iravani được hỏi liệu Tehran có ý định "phục hồi chương trình làm giàu uranium trên lãnh thổ của mình" hay không. Ông trả lời bằng cách trích dẫn điều khoản của Hiệp ước Không phổ biến vũ khí hạt nhân (NPT), trong đó nêu rõ các quốc gia có quyền sử dụng công nghệ hạt nhân vì mục đích hòa bình, trong đó có làm giàu uranium, miễn là công nghệ này vẫn nằm trong giới hạn nhất định.
Kết quả:
{
  "relationships": [
    {
      "source": {
        "name": "Amir Saeid Iravani",
        "title": "Đại sứ Iran tại LHQ"
      },
      "target": {
        "name": "Iran"
      },
      "type_source": "Person",
      "type_target": "Country",
      "relation": "là_đại_sứ_của"
    },
    {
      "source": {
        "name": "Amir Saeid Iravani",
        "title": "Đại sứ Iran tại LHQ"
      },
      "target": {
        "name": "LHQ",
        "full_name": "Liên Hợp Quốc"
      },
      "type_source": "Person",
      "type_target": "Organization",
      "relation": "làm_việc_tại"
    },
    {
      "source": {
        "name": "Iran"
      },
      "target": {
        "name": "uranium"
      },
      "type_source": "Country",
      "type_target": "ChemicalElement",
      "relation": "làm_giàu"
    },
    {
      "source": {
        "name": "Tehran"
      },
      "target": {
        "name": "Iran"
      },
      "type_source": "Location",
      "type_target": "Country",
      "relation": "là_thủ_đô_của"
    },
    {
      "source": {
        "name": "Amir Saeid Iravani",
        "title": "Đại sứ Iran tại LHQ"
      },
      "target": {
        "name": "CBS News",
        "country": "Mỹ",
        "interview_date": "29/6"
      },
      "type_source": "Person",
      "type_target": "Organization",
      "relation": "được_phỏng_vấn_bởi"
    },
    {
      "source": {
        "name": "CBS News"
      },
      "target": {
        "name": "Mỹ"
      },
      "type_source": "Organization",
      "type_target": "Country",
      "relation": "thuộc_về"
    },
    {
      "source": {
        "name": "Iran"
      },
      "target": {
        "name": "Hiệp ước Không phổ biến vũ khí hạt nhân",
        "acronym": "NPT",
        "content": "Các quốc gia có quyền sử dụng công nghệ hạt nhân vì mục đích hòa bình"
      },
      "type_source": "Country",
      "type_target": "Treaty",
      "relation": "trích_dẫn"
    }
  ]
}
"""

def extract_question_from_text():
    return """nhiệm vụ của bạn là sẽ tạo ra TẤT CẢ các câu hỏi từ văn bản từ đầu đến cuối mà không bỏ xót 1 chi tiết nào, các câu hỏi viết chữ thường, chỉ tạo ra danh sách câu hỏi và không thêm bất cứ thông tin gì"""

# yêu cầu llm dự đoán câu hỏi sẽ thuộc về phần nào trong sổ tay sinh viên
def predict_question_belong_to_stsv():
    return """
    Bạn là một trợ lý hữu ích, tuân theo khuôn mẫu. Nhiệm vụ của bạn:
    Đầu tiên, cần dự đoán câu hỏi sau nằm trong phần nào trong mục lục mà tôi cung cấp:

    Mục lục:
     MERGE (a:Part {{name: 'phần 1: nlu - định hướng trường đại học nghiên cứu'}})
            MERGE (b:Section {{name: 'quá trình hình thành và phát triển'}})
            MERGE (c:Section {{name: 'sứ mạng'}})
            MERGE (d:Section {{name: 'tầm nhìn'}})
            MERGE (e:Section {{name: 'giá trị cốt lõi'}})
            MERGE (f:Section {{name: 'mục tiêu chiến lược'}})
            MERGE (g:Section {{name: 'cơ sở vật chất'}})
            MERGE (h:Section {{name: 'các đơn vị trong trường'}})
            MERGE (i:Section {{name: 'các khoa - ngành đào tạo'}})
            MERGE (j:Section {{name: 'tuần sinh hoạt công dân - sinh viên'}})
            MERGE (k:Section {{name: 'hoạt động phong trào sinh viên'}})
            MERGE (l:Section {{name: 'câu lạc bộ (clb) - đội, nhóm'}})
            MERGE (m:Section {{name: 'cơ sở đào tạo'}})
            MERGE (a)-[:BAO_GỒM]->(b)
            MERGE (a)-[:BAO_GỒM]->(c)
            MERGE (a)-[:BAO_GỒM]->(d)
            MERGE (a)-[:BAO_GỒM]->(e)
            MERGE (a)-[:BAO_GỒM]->(f)
            MERGE (a)-[:BAO_GỒM]->(g)
            MERGE (a)-[:BAO_GỒM]->(h)
            MERGE (a)-[:BAO_GỒM]->(i)
            MERGE (a)-[:BAO_GỒM]->(j)
            MERGE (a)-[:BAO_GỒM]->(k)
            MERGE (a)-[:BAO_GỒM]->(l)
            MERGE (a)-[:BAO_GỒM]->(m)

            # Episode 2: học tập và rèn luyện
            MERGE (n:Part {{name: 'phần 2: học tập và rèn luyện'}})

            MERGE (o:Section {{name: 'quy chế sinh viên'}})
            MERGE (o2:Part {{name: 'chương 2: quyền và nghĩa vụ của sinh viên'}})
            MERGE (o2_4:Article {{name: 'điều 4: quyền của sinh viên'}})
            MERGE (o2_5:Article {{name: 'điều 5: nghĩa vụ của sinh viên'}})
            MERGE (o2_6:Article {{name: 'điều 6: các hành vi sinh viên không được làm'}})

            MERGE (p:Section {{name: 'quy chế học vụ'}})
            MERGE (p2:Part {{name: 'chương 2: lập kế hoạch và tổ chức giảng dạy'}})
            MERGE (p2_9:Article {{name: 'điều 9: tổ chức đăng ký học tập'}})
            MERGE (p2_10:Article {{name: 'điều 10: tổ chức lớp học phần'}})
            MERGE (p3:Part {{name: 'chương 3: đánh giá kết quả học tập và cấp bằng tốt nghiệp'}})
            MERGE (p3_12:Article {{name: 'điều 12: tổ chức thi kết thúc học phần'}})
            MERGE (p3_13:Article {{name: 'điều 13: đánh giá và tính điểm học phần'}})
            MERGE (p3_14:Article {{name: 'điều 14: xét tương đường và công nhận học phần của các cơ sở đào tạo khác'}})
            MERGE (p3_15:Article {{name: 'điều 15: đánh giá kết quả học tập theo học kỳ, năm học'}})
            MERGE (p3_16:Article {{name: 'điều 16: thông báo kết quả học tập'}})
            MERGE (p3_17:Article {{name: 'điều 17: điểm rèn luyện(đrl)'}})
            MERGE (p3_18:Article {{name: 'điều 18: xử lý kết quả học tập'}})
            MERGE (p3_19:Article {{name: 'điều 19: khóa luận, tiểu luận, tích lũy tín chỉ tốt nghiệp'}})
            MERGE (p3_20:Article {{name: 'điều 20: công nhận tốt nghiệp và cấp bằng tốt nghiêp'}})
            MERGE (p4:Part {{name: 'chương 4: những quy định khác đối với sinh viên'}})
            MERGE (p4_21:Article {{name: 'điều 21: nghỉ học tạm thời, thôi học'}})
            MERGE (p4_24:Article {{name: 'điều 24: học cùng lúc hai chương trình'}})

            MERGE (q:Section {{name: 'quy định về việc đào tạo trực tuyến'}})
            MERGE (q0_3:Article {{name: 'điều 3: hệ thống đào tạo trực tuyến tại trường đại học nông lâm tp.hcm'}})
            MERGE (q0_9:Article {{name: 'điều 9: đánh giá kết quả học tập trực tuyến'}})
            MERGE (q0_13:Article {{name: 'điều 13: quyền và trách nhiệm của sinh viên'}})

            MERGE (r:Section {{name: 'quy định khen thưởng, kỷ luật sinh viên'}})
            MERGE (r2:Part {{name: 'chương 2: khen thưởng'}})
            MERGE (r2_4:Article {{name: 'điều 4: nội dung khen thưởng'}})
            MERGE (r2_5:Article {{name: 'điều 5: khen thưởng đối với cá nhân và tập thể sinh viên đạt thành tích xứng đánh để biểu dương, khen thưởng'}})
            MERGE (r2_6:Article {{name: 'điều 6: khen thưởng đối với sinh viên tiêu biểu(svtb) vào cuối mỗi năm học'}})
            MERGE (r2_7:Article {{name: 'điều 7: khen thưởng đối với sinh viên là thủ khoa, á khoa kỳ tuyển sinh đầu vào'}})
            MERGE (r2_8:Article {{name: 'điều 8: khen thưởng đối với sinh viên tốt nghiệp'}})
            MERGE (r3:Part {{name: 'chương 3: kỷ luật'}})
            MERGE (r3_11:Article {{name: 'điều 11: hình thức kỷ luật và nội dung vi phạm'}})
            MERGE (r3_12:Article {{name: 'điều 12: trình tự, thủ tục và hồ sơ xét kỷ luật'}})
            MERGE (r3_13:Article {{name: 'điều 13: chấm dứt hiệu lực của quyết định kỷ luật'}})
            MERGE (r3_0:Article {{name: 'một số nội dung vi phạm và khung xử lý kỷ luật sinh viên'}})

            MERGE (s:Section {{name: 'quy chế đánh giá kết quả rèn luyện'}})
            MERGE (s0_3:Article {{name: 'điều 3: nội dung đánh giá và thang điểm'}})
            MERGE (s0_4:Article {{name: 'điều 4: đánh giá về ý thức tham gia học tập'}})
            MERGE (s0_5:Article {{name: 'điều 5: đánh giá về ý thức chấp hành nội quy, quy chế, quy định trong cơ sở giáo dục đại học'}})
            MERGE (s0_6:Article {{name: 'điều 6: đánh giá về ý thức tham gia các hoạt động chính trị, xã hội, văn hóa, nghệ thuật, thể thao, phòng chống tội phạm và các tệ nạn xã hội'}})
            MERGE (s0_7:Article {{name: 'điều 7: đánh giá về ý thức công dân trong quản hệ cộng đồng'}})
            MERGE (s0_8:Article {{name: 'điều 8: Đánh giá về ý thức và kết quả khi tham gia công tác cán bộ lớp, các đoàn thể, tổ chức trong cơ sở giáo dục đại học hoặc người học đạt được thành tích đặc biệt trong học tập, rèn luyện'}})
            MERGE (s0_9:Article {{name: 'điều 9: phân loại kết quả rèn luyện'}})
            MERGE (s0_10:Article {{name: 'điều 10: phân loại để đánh giá'}})
            MERGE (s0_11:Article {{name: 'điều 11: quy trình đánh giá kết quả rèn luyện'}})

            MERGE (t:Section {{name: 'quy tắc ứng xử văn hóa của người học'}})
            MERGE (t0_4:Article {{name: 'điều 4: ứng xử với công tác học tập, nghiên cứu khoa học, rèn luyện'}})
            MERGE (t0_5:Article {{name: 'điều 5: ứng xử đối với giảng viên và nhân viên nhà trường'}})
            MERGE (t0_6:Article {{name: 'điều 6: ứng xử với bạn bè'}})
            MERGE (t0_7:Article {{name: 'điều 7: ứng xử với cảnh quan môi trường và tài sản công'}})

            MERGE (u:Section {{name: 'cố vấn học tập'}})
            MERGE (v:Section {{name: 'danh hiệu sinh viên 5 tốt'}})
            MERGE (v0_1:Article {{name: 'đạo đức tốt'}})
            MERGE (v0_2:Article {{name: 'học tập tốt'}})
            MERGE (v0_3:Article {{name: 'thể lực tốt'}})
            MERGE (v0_4:Article {{name: 'tình nguyện tốt'}})
            MERGE (v0_5:Article {{name: 'hội nhập tốt'}})
            MERGE (v0_6:Article {{name: 'khái niệm'}})

            MERGE (v1:Part {{name: 'ngoài ra ưu tiên xét chọn những sinh viên đạt ít nhất 01 trong các các tiêu chuẩn sau'}})
            MERGE (v1_1:Article {{name: 'ưu tiên 1'}})
            MERGE (v1_2:Article {{name: 'ưu tiên 2'}})
            MERGE (v1_3:Article {{name: 'ưu tiên 3'}})
            MERGE (v1_4:Article {{name: 'ưu tiên 4'}})
            MERGE (v1_5:Article {{name: 'ưu tiên 5'}})
            MERGE (v1_6:Article {{name: 'ưu tiên 6'}})

            MERGE (w:Section {{name: 'danh hiệu sinh viên tiêu biểu'}})

            MERGE (n)-[:BAO_GỒM]->(o)
            MERGE (o)-[:BAO_GỒM]->(o2)
            MERGE (o2)-[:BAO_GỒM]->(o2_4)
            MERGE (o2)-[:BAO_GỒM]->(o2_5)
            MERGE (o2)-[:BAO_GỒM]->(o2_6)

            MERGE (n)-[:BAO_GỒM]->(p)
            MERGE (p)-[:BAO_GỒM]->(p2)
            MERGE (p2)-[:BAO_GỒM]->(p2_9)
            MERGE (p2)-[:BAO_GỒM]->(p2_10)
            MERGE (p)-[:BAO_GỒM]->(p3)
            MERGE (p3)-[:BAO_GỒM]->(p3_12)
            MERGE (p3)-[:BAO_GỒM]->(p3_13)
            MERGE (p3)-[:BAO_GỒM]->(p3_14)
            MERGE (p3)-[:BAO_GỒM]->(p3_15)
            MERGE (p3)-[:BAO_GỒM]->(p3_16)
            MERGE (p3)-[:BAO_GỒM]->(p3_17)
            MERGE (p3)-[:BAO_GỒM]->(p3_18)
            MERGE (p3)-[:BAO_GỒM]->(p3_19)
            MERGE (p3)-[:BAO_GỒM]->(p3_20)
            MERGE (p)-[:BAO_GỒM]->(p4)
            MERGE (p4)-[:BAO_GỒM]->(p4_21)
            MERGE (p4)-[:BAO_GỒM]->(p4_24)

            MERGE (n)-[:BAO_GỒM]->(q)
            MERGE (q)-[:BAO_GỒM]->(q0_3)
            MERGE (q)-[:BAO_GỒM]->(q0_9)
            MERGE (q)-[:BAO_GỒM]->(q0_13)

            MERGE (n)-[:BAO_GỒM]->(r)
            MERGE (r)-[:BAO_GỒM]->(r2)
            MERGE (r2)-[:BAO_GỒM]->(r2_4)
            MERGE (r2)-[:BAO_GỒM]->(r2_5)
            MERGE (r2)-[:BAO_GỒM]->(r2_6)
            MERGE (r2)-[:BAO_GỒM]->(r2_7)
            MERGE (r2)-[:BAO_GỒM]->(r2_8)
            MERGE (r)-[:BAO_GỒM]->(r3)
            MERGE (r3)-[:BAO_GỒM]->(r3_11)
            MERGE (r3)-[:BAO_GỒM]->(r3_12)
            MERGE (r3)-[:BAO_GỒM]->(r3_13)
            MERGE (r3)-[:BAO_GỒM]->(r3_0)

            MERGE (n)-[:BAO_GỒM]->(s)
            MERGE (s)-[:BAO_GỒM]->(s0_3)
            MERGE (s)-[:BAO_GỒM]->(s0_4)
            MERGE (s)-[:BAO_GỒM]->(s0_5)
            MERGE (s)-[:BAO_GỒM]->(s0_6)
            MERGE (s)-[:BAO_GỒM]->(s0_7)
            MERGE (s)-[:BAO_GỒM]->(s0_8)
            MERGE (s)-[:BAO_GỒM]->(s0_9)
            MERGE (s)-[:BAO_GỒM]->(s0_10)
            MERGE (s)-[:BAO_GỒM]->(s0_11)

            MERGE (n)-[:BAO_GỒM]->(t)
            MERGE (t)-[:BAO_GỒM]->(t0_4)
            MERGE (t)-[:BAO_GỒM]->(t0_5)
            MERGE (t)-[:BAO_GỒM]->(t0_6)
            MERGE (t)-[:BAO_GỒM]->(t0_7)

            MERGE (n)-[:BAO_GỒM]->(u)
            MERGE (n)-[:BAO_GỒM]->(v)
            MERGE (v)-[:BAO_GỒM]->(v0_1)
            MERGE (v)-[:BAO_GỒM]->(v0_2)
            MERGE (v)-[:BAO_GỒM]->(v0_3)
            MERGE (v)-[:BAO_GỒM]->(v0_4)
            MERGE (v)-[:BAO_GỒM]->(v0_5)
            MERGE (v)-[:BAO_GỒM]->(v0_6)
            MERGE (v)-[:BAO_GỒM]->(v1)
            MERGE (v1)-[:BAO_GỒM]->(v1_1)
            MERGE (v1)-[:BAO_GỒM]->(v1_2)
            MERGE (v1)-[:BAO_GỒM]->(v1_3)
            MERGE (v1)-[:BAO_GỒM]->(v1_4)
            MERGE (v1)-[:BAO_GỒM]->(v1_5)
            MERGE (v1)-[:BAO_GỒM]->(v1_6)

            MERGE (n)-[:BAO_GỒM]->(w)
            # Episode 3: hỗ trợ và dịch vụ
            MERGE (x:Part {{name: 'phần 3: hỗ trợ và dịch vụ'}})
            MERGE (y:Section {{name: 'quy định phân cấp giải quyết thắc mắc của sinh viên'}})
            MERGE (y0_2:Article {{name: 'điều 2: hình thức thắc mắc, kiến nghị'}})
            MERGE (y0_3:Article {{name: 'điều 3: các bước gửi thắc mắc, kiên nghị'}})
            MERGE (y0_4:Article {{name: 'điều 4: những vấn đề trao đổi trực tiếp hoặc gửi thư qua email'}})
            MERGE (y0_5:Article {{name: 'điều 5: trách nhiệm của giảng viên và các bộ phận chức năng'}})
            MERGE (y0_6:Article {{name: 'điều 6: những vấn đề đã trao đổi trực tiêp hoặc gửi thư không được giải quyết thoải đáng'}})
            MERGE (y0_7:Article {{name: 'điều 7: những vấn đề liên quan đến tổ chức lớp học phần'}})
            MERGE (y0_8:Article {{name: 'điều 8: những vấn đề liên quan đến điểm bộ phận, điểm thi kết thúc học phần, điểm thi học phần và tổ chức thi'}})
            MERGE (y0_9:Article {{name: 'điều 9; chuyển thắc mắc, kiến nghị của sinh viên'}})
            MERGE (y0_10:Article {{name: 'điều 10: những nội dung được nói trực tuyến trên website'}})
            MERGE (y0_11:Article {{name: 'điều 11: yêu cầu đối với sinh viên tham gia trực tuyến'}})

            MERGE (z:Section {{name: 'thông tin học bổng tài trợ'}})
            MERGE (aa:Section {{name: 'vay vốn học tập từ ngân hàng chính sách xã hội dành cho sinh viên'}})
            MERGE (aa0_1:Article {{name: 'đối tượng sinh viên được hỗ trợ vay tiền'}})
            MERGE (aa0_2:Article {{name: 'điều kiện để được hỗ trợ vay tiền sinh viên'}})
            MERGE (aa0_3:Article {{name: 'mức tiền và lãi suất hỗ trợ vay tiền sinh viên'}})
            MERGE (aa0_4:Article {{name: 'phương thức cho vay tiền sinh viên'}})
            MERGE (aa0_5:Article {{name: 'thông tin về vay vốn học tập từ ngân hàng chính sách xã hội dành cho sinh viên'}})

            MERGE (bb:Section {{name: 'quy trình xác nhận hồ sơ sinh viên'}})
            MERGE (bb0_1:Article {{name: 'các loại giấy tờ được xác nhận'}})
            MERGE (bb0_2:Article {{name: 'kênh đăng ký'}})
            MERGE (bb0_3:Article {{name: 'đăng ký'}})
            MERGE (bb0_4:Article {{name: 'quy trình'}})

            MERGE (cc:Section {{name: 'hồ sơ yêu cầu bồi thường bảo hiểm tai nạn sinh viên'}})
            MERGE (dd:Section {{name: 'thông tin về bảo hiểm y tế'}})

            MERGE (ee:Section {{name: 'hướng dẫn sử dụng các kênh thanh toán học phí, bhyt, lệ phí xét tốt nghiệp'}})
            MERGE (ee0_1:Article {{name: 'thanh toán tại quầy giao dịch của bidv'}})
            MERGE (ee0_2:Article {{name: 'thanh toán qua kênh bidv smart banking'}})
            MERGE (ee0_3:Article {{name: 'thanh toán qua kênh bidv online'}})
            MERGE (ee0_4:Article {{name: 'thanh toán qua atm của bidv'}})
            MERGE (ee0_5:Article {{name: 'thanh toán qua website sinh viên'}})
            MERGE (ee0_6:Article {{name: 'hướng dẫn cài đặt sinh trắc học'}})

            MERGE (ff:Section {{name: 'tham vấn tâm lý học đường'}})
            MERGE (gg:Section {{name: 'trung tâm dịch vụ sinh viên'}})

            MERGE (mm:Section {{name: 'thông tin học bổng khuyến khích học tập'}})
            MERGE (mm0_1:Article {{name: 'đối tượng'}})
            MERGE (mm0_2:Article {{name: 'quỹ học bổng khuyến khích học tập'}})
            MERGE (mm0_3:Article {{name: 'căn cứ để xét học bổng khuyến khích học tập'}})
            MERGE (mm0_4:Article {{name: 'mức học bổng khuyến khích học tập'}})
            MERGE (mm0_5:Article {{name: 'quy trình xét học bổng'}})

            MERGE (x)-[:BAO_GỒM]->(y)
            MERGE (y)-[:BAO_GỒM]->(y0_2)
            MERGE (y)-[:BAO_GỒM]->(y0_3)
            MERGE (y)-[:BAO_GỒM]->(y0_4)
            MERGE (y)-[:BAO_GỒM]->(y0_5)
            MERGE (y)-[:BAO_GỒM]->(y0_6)
            MERGE (y)-[:BAO_GỒM]->(y0_7)
            MERGE (y)-[:BAO_GỒM]->(y0_8)
            MERGE (y)-[:BAO_GỒM]->(y0_9)
            MERGE (y)-[:BAO_GỒM]->(y0_10)
            MERGE (y)-[:BAO_GỒM]->(y0_11)

            MERGE (x)-[:BAO_GỒM]->(z)
            MERGE (x)-[:BAO_GỒM]->(aa)
            MERGE (aa)-[:BAO_GỒM]->(aa0_1)
            MERGE (aa)-[:BAO_GỒM]->(aa0_2)
            MERGE (aa)-[:BAO_GỒM]->(aa0_3)
            MERGE (aa)-[:BAO_GỒM]->(aa0_4)
            MERGE (aa)-[:BAO_GỒM]->(aa0_5)

            MERGE (x)-[:BAO_GỒM]->(bb)
            MERGE (bb)-[:BAO_GỒM]->(bb0_1)
            MERGE (bb)-[:BAO_GỒM]->(bb0_2)
            MERGE (bb)-[:BAO_GỒM]->(bb0_3)
            MERGE (bb)-[:BAO_GỒM]->(bb0_4)

            MERGE (x)-[:BAO_GỒM]->(cc)
            MERGE (x)-[:BAO_GỒM]->(dd)
            MERGE (x)-[:BAO_GỒM]->(ee)
            MERGE (ee)-[:BAO_GỒM]->(ee0_1)
            MERGE (ee)-[:BAO_GỒM]->(ee0_2)
            MERGE (ee)-[:BAO_GỒM]->(ee0_3)
            MERGE (ee)-[:BAO_GỒM]->(ee0_4)
            MERGE (ee)-[:BAO_GỒM]->(ee0_5)
            MERGE (ee)-[:BAO_GỒM]->(ee0_6)

            MERGE (x)-[:BAO_GỒM]->(ff)
            MERGE (x)-[:BAO_GỒM]->(gg)
            MERGE (x)-[:BAO_GỒM]->(mm)
            MERGE (mm)-[:BAO_GỒM]->(mm0_1)
            MERGE (mm)-[:BAO_GỒM]->(mm0_2)
            MERGE (mm)-[:BAO_GỒM]->(mm0_3)
            MERGE (mm)-[:BAO_GỒM]->(mm0_4)
            MERGE (mm)-[:BAO_GỒM]->(mm0_5)


    Thứ hai, sau khi xác định thuộc phần nào, bạn sẽ phải trả về câu cypher query theo mô tả sau:
    1. các phần như part, section, article được dùng làm "type"(tất cả đều ghi hoa chữ cái đầu, tiếng anh)
    2. các phần nội dung là phần "name"(tất cả đều ghi thường, tiếng việt)

    Cypher query:
    MATCH p=(predict:<type> {{name: '<name>'}})-[r*1..2]->(e)
    RETURN p

    Trong đó:
        - <type>: Là loại của mục (Part, Section, hoặc Article phải ghi hoa chữ cái đầu).
        - <name>: Là nội dung của mục (viết thường, tiếng Việt, đúng như trong mục lục).
        - Phần -[r*1..2]->(e) phải luôn có.

    Hướng dẫn:
      1. Phân tích câu hỏi để xác định chủ đề chính.
      2. Tìm mục cụ thể nhất trong mục lục liên quan đến chủ đề đó:
        - Nếu câu hỏi liên quan đến một section, chỉ định part chứa section đó và section đó.
        - Nếu câu hỏi liên quan đến một part con trong section, chỉ định part -> section -> part con.
        - Nếu câu hỏi rõ ràng đề cập đến một article cụ thể, bạn có thể chỉ định đến article đó.
      3. Dùng phán đoán của bạn để quyết định đường dẫn dựa trên tính cụ thể của câu hỏi.

    Lưu ý:
      - Mọi câu hỏi đều thuộc mục lục, không có trường hợp không tìm thấy.
      - Query phải đúng định dạng mẫu
      - CHỈ PHẢN HỒI VỀ CYPHER QUERY VÀ KHÔNG GIẢI THÍCH GÌ THÊM

Ví dụ 1:
Câu hỏi: Trường Đại học Nông Lâm Thành phố Hồ Chí Minh có diện tích bao nhiêu
Cypher query:
MATCH (document:Document {{name: {document_id}}})-[*]->(predict:Section {{name: 'quá trình hình thành và phát triển'}})
MATCH p=(predict)-[r*1..2]->(e)
RETURN p

Ví dụ 2:
Câu hỏi: Khoa nào phụ trách ngành Công nghệ kỹ thuật năng lượng tái tạo?
Cypher query:
MATCH p=(document:Document {{name: {document_id}}})-[*]->(predict:Section {{name: 'các khoa - ngành đào tạo'}})-[r*1..2]->(e)
RETURN p

Ví dụ 3:
Câu hỏi: lễ tuyên dương tuyên_dương sinh viên có thành tích
Cypher query:
MATCH p=(document:Document {{name: {document_id}}})-[*]->(predict:Part {{name: 'chương 2: khen thưởng'}})-[r*1..2]->(e)
RETURN p

Ví dụ 4:
Câu hỏi: Hoạt động chính của CLB Nông Lâm Radio tại Đại học Nông Lâm TP.HCM là gì?
Cypher query:
MATCH p=(document:Document {{name: {document_id}}})-[*]->(predict:Section {{name: 'câu lạc bộ (clb) - đội, nhóm'}})-[r*1..2]->(e)
RETURN p

Ví dụ 5:
Câu hỏi: ý thức chấp hành nội quy được_đánh_giá_bằng điểm rèn luyện có_khung_điểm_tối_đa 100 điểm
Cypher query:
MATCH p=(document:Document {{name: {document_id}}})-[*]->(predict:Article {{name: 'điều 5: đánh giá về ý thức chấp hành nội quy, quy chế, quy định trong cơ sở giáo dục đại học'}})-[r*1..2]->(e)
RETURN p

Ví dụ 6:
Câu hỏi: sinh viên thực_hiện chấm điểm rèn luyện sử_dụng địa chỉ
Cypher query:
MATCH p=(document:Document {{name: {document_id}}})-[*]->(predict:Section {{name: 'quy chế đánh giá kết quả rèn luyện'}})-[r*1..2]->(e)
RETURN p

Ví dụ 7:
Câu hỏi: sinh viên tuân_theo quy định về học tập và rèn luyện
Cypher query:
MATCH p=(document:Document {{name: {document_id}}})-[*]->(predict:Part {{name: 'phần 2: học tập và rèn luyện'}})-[r*1..2]->(e)
RETURN p

Ví dụ 8:
Câu hỏi: sinh viên tuân_thủ quy tắc ứng xử tuân_thủ quy tắc ứng xử hỏi_hoặc_trả_lời giảng viên
Cypher query:
MATCH p=(document:Document {{name: {document_id}}})-[*]->(predict:Section {{name: 'quy tắc ứng xử văn hóa của người học'}})-[r*1..2]->(e)
RETURN p

Ví dụ 9:
Câu hỏi: trường đại học nông lâm tp.hcm có giá trị cốt lõi
Cypher query:
MATCH p=(document:Document {{name: {document_id}}})-[*]->(predict:Section {{name: 'giá trị cốt lõi'}})-[r*1..2]->(e)
RETURN p

Ví dụ 10:
Câu hỏi: sinh viên giao tiếp_với giảng viên cần_thể_hiện thái độ tôn trọng và ý thức kỷ luật thể hiện_qua ngôn ngữ
Cypher query:
MATCH p=(document:Document {{name: {document_id}}})-[*]->(predict:Section {{name: 'quy tắc ứng xử văn hóa của người học'}})-[r*1..2]->(e)
RETURN p

Ví dụ 11:
Câu hỏi: không bị xử phạt vi phạm hành chính ở mức độ nào trở lên đối với những hành vi nào
Cypher query:
MATCH p=(document:Document {{name: {document_id}}})-[*]->(predict:Article {{name: 'một số nội dung vi phạm và khung xử lý kỷ luật sinh viên'}})-[r*1..2]->(e)
RETURN p
Chỉ trả về cypher và không giải thích gì thêm

Ví dụ 12:
Câu hỏi: Tớm tắt phần 1
Cypher query:
MATCH p=(document:Document {{name: {document_id}}})-[*]->(predict:Article {{name: 'phần 1: nlu - định hướng trường đại học nghiên cứu'}})-[r*1..2]->(e)
RETURN p
trả về theo format json sau:
{{
"cypher": <câu cypher>
"path": <mô tả phân được truy xuất>
}}

### Câu hỏi: {question}

"""

def predict_question_belong_to():
    return """
    Bạn là một trợ lý hữu ích, tuân theo khuôn mẫu. Nhiệm vụ của bạn:
    Đầu tiên, cần dự đoán câu hỏi sau nằm trong phần nào trong mục lục mà tôi cung cấp:

    Mục lục: 
    {parts_of_document}


    Thứ hai, sau khi xác định thuộc phần nào, bạn sẽ phải trả về câu cypher query theo mô tả sau:
    1. các phần như part được dùng làm "type"(ghi hoa chữ cái đầu, tiếng anh)
    2. các phần nội dung là phần "name"(tất cả đều ghi thường, tiếng việt)

    Cypher query:
    MATCH p=(document:Document {{name: {document_id}}})-[*]->(predict:<type> {{name: '<name>'}})-[r*1..2]->(e)
    RETURN p

    Trong đó:
        - <type>: Là loại của mục (Part, Section, hoặc Article phải ghi hoa chữ cái đầu).
        - <name>: Là nội dung của mục (viết thường, tiếng Việt, đúng như trong mục lục).
        - Phần -[r*1..2]->(e) phải luôn có.

    Hướng dẫn:
      1. Phân tích câu hỏi để xác định chủ đề chính.
      2. Tìm mục cụ thể nhất trong mục lục liên quan đến chủ đề đó
      3. Dùng phán đoán của bạn để quyết định đường dẫn dựa trên tính cụ thể của câu hỏi.

    Lưu ý:
      - Mọi câu hỏi đều thuộc mục lục, không có trường hợp không tìm thấy.
      - Query phải đúng định dạng mẫu
      - CHỈ PHẢN HỒI VỀ CYPHER QUERY VÀ KHÔNG GIẢI THÍCH GÌ THÊM
trả về theo format json sau:
{{
"cypher": <câu cypher>
"path": <mô tả phân được truy xuất>
}}

### Câu hỏi: {question}
"""

# dùng để trích xuất entities và relationship cho câu hỏi
def extract_entities_relationship_from_question():
    return """Bạn là một hệ thống trích xuất thông tin từ văn bản. Nhiệm vụ của bạn là:
1. Trích xuất tất cả các thực thể có trong đoạn văn bản.
   - Mỗi thực thể cần có tên(name) và loại(type).
   - Loại(type) hãy sử dụng các từ mà tôi cung cấp dưới đây:
   "episode, part, organization, quantity, department, phone_number, website, center, institute, faculty, training_program, person, email, location, facility, activity, type_of_organization, concept, document, year, strategy, time, award, group_of_people, group, title, event, position, disciplinary_action, movement, abbreviation, percentage, beverage, item, network, frequency, action, material, code, device, system, status, clause, chapter, document_type, software, sequence, media, variable, natural_phenomenon, service, crime, grade, data, course_type, degree, assignment, criteria, subject, money, field, right, teaching_method, platform, account, image, feature"
2. Xác định các mối quan hệ(relaion) giữa các thực thể.
    - Mỗi mối quan hệ phải có nguồn(source), tên mối quan hệ(relation) và loại của nguồn(type_source)(lấy từ entities).
    - PHẢI sử dụng các mối quan hệ có sẵn dưới đây, nếu câu hỏi không có sẵn quan hệ bên dưới hãy tìm từ đồng nghĩa, KHÔNG ĐƯỢC LẤY LẠI MỐI QUAN HỆ Ở CÂU HỎI:
    "website, có, là, tôn_trọng, theo, hủy, in, dưới, bị, mời, đối_với, của, gửi, không, gồm, trong, từ, email, công_bố, BAO_GỒM, sở_hữu, số_điện_thoại, thuộc_khoa, chương_trình_tiên_tiến_tại, chương_trình_nâng_cao_tại, chương_trình_đào_tạo_tại, quản_lý_bởi, chủ_nhiệm, trưởng_ban_điều_hành, đội_trưởng, số_lượng_sách, sử_dụng, số_lượng_phòng, sức_chứa, bao_gồm, về, sánh_vai, trên, đổi_mới, thúc_đẩy, phát_huy, xây_dựng, trở_thành, hàng_đầu, đáp_ứng, tầm_nhìn, tên_khác, trực_thuộc, tọa_lạc_tại, thuộc, thời_gian_hoạt_động, nhận_giải_thưởng, thành_lập, phục_vụ, đào_tạo, và, mục_tiêu_đến, sẽ_trở_thành, với, tổ_chức_bởi, được_đăng_tại, gìn_giữ_và_phát_huy, phát_hiện, nâng_đỡ, cho, đề_cao, hoạt_động_của, dành_cho, hỗ_trợ, tư_vấn, phù_hợp, hướng_dẫn, đăng_ký, ở, điều_chỉnh, xác_nhận, theo_dõi, cập_nhật_trên, không_dưới, ít_nhất, xem_xét, cấp, tham_gia, trường, tổ_chức, vào_cuối, tuyên_dương, khen_thưởng, căn_cứ, đánh_giá, phòng_chống, đạt, thang_điểm, chấp_hành, đến, không_vượt_quá, đánh_giá_qua, đoạt_giải, có_thành_tích, đóng_góp, hoạt_động_tại, thực_hiện, bảo_đảm_an_ninh, ít_hơn_hoặc_bằng, chọn, cao_nhất, cao_thứ_hai, bằng_nhau, công_nhận, xét, áp_dụng_bởi, thông_báo, gửi_thông_báo, làm, tham_dự, sau, chấm_dứt, trừ, vô_lễ, lần_1, giao_cho, hạ_điểm, tài_sản_trong, làm_hư_hỏng, lần_2, lần_3, trái, xâm_phạm, chống_phá, thu_hồi, lắng_nghe, hoàn_thành, nghiêm_túc, phát_động, hỏi, trả_lời, làm_phiền, quan_hệ, không_gây_ồn_ào, giữ_gìn, cung_cấp, nhận, dấu_và_chữ_ký, truy_cập, nhập, thanh_toán, hiển_thị, lưu, tại, tương_ứng, phản_hồi, đăng_nhập, chụp_ảnh, quét, đọc, lấy_ảnh, kiểm_tra, trạng_thái, chuyển_tới, viết, trực_tuyến, không_chấp_nhận, nộp, trao_đổi, thắc_mắc, đề_nghị, mang, được_hỗ_trợ, đi_học, chưa_được_sửa, mất, giúp_đỡ, nêu, hoặc, ghi, chuyển, ký, đã, kèm, giải_quyết, loại, bổ_sung, cập_nhật, trình_ký, đóng_dấu, hoạt_động, liên_hệ, như, cùng, xếp, so_sánh, không_cần, bằng, bố_trí, trọng_số, không_bị, quyết_định, cao_hơn, hơn, lập, trình, làm_tròn, trích_từ, do, phối_hợp, trị_giá, một_lần, qua, mỗi, đóng_mộc, sửa_đổi, mã, nhân, tra_cứu, quản_lý, điện_thoại, thành_lập_từ, vay, để, giúp, thủ_tục, gặp_khó_khăn, cư_trú, sinh_sống, đủ_tiêu_chuẩn, tối_đa, lãi_suất, thông_qua, trả_nợ, đóng_trụ_sở, tuân_thủ_quy_định_của, học_tập_tại, được_tôn_trọng_bởi, được_cung_cấp, được_sử_dụng, hoạt_động_trong, kiến_nghị_với, đề_đạt_nguyện_vọng_lên, được_ở, được_nhận, tuân_thủ_chủ_trương_của, tuân_thủ_pháp_luật_của, tuân_thủ_quy_chế_của, đóng, không_được_xúc_phạm, không_được_tham_gia, không_được, không_được_tổ_chức_hoạt_động_mà_chưa_được_cho_phép, cung_cấp_ctđt_cho, tư_vấn_xây_dựng_khht_cho, thông_báo_học_phần_cho, hướng_dẫn_đăng_ký_cho, thực_hiện_theo, đăng_ký_học_lại, cải_thiện_điểm, cho_phép_đăng_ký_ít_hơn_14_tín_chỉ, rút, không_đi_học, không_dự_thi, nhận_điểm_r, nhận_điểm_f, rút_học_phần_trên, đề_xuất_hủy_hoặc_mở_thêm, đăng_ký_trực_tuyến, công_bố_kết_quả_đăng_ký_cho, cải_thiện_kết_quả, đề_xuất, duy_trì, phê_duyệt_duy_trì, đề_xuất_mở_thêm, chấp_thuận_mở_thêm, mở_thêm, dự_thi, đề_xuất_cấm_thi, duyệt_danh_sách_cấm_thi, tối_thiểu, chuẩn, được_quy_định_trong, thông_báo_cho, thông_báo_lịch_thi, hưởng, chấp_thuận, duyệt_đơn, tổ_chức_thi_cho, xét_tương_đương, quy_định, rà_soát, phê_duyệt, xác_định, đồng_ý, không_đạt, tính_vào, xử_lý, xem_kết_quả, được_đánh_giá, tính, không_tính, dựa_vào, trung_bình_cộng, kỷ_luật, không_tham_gia, xếp_loại, lưu_trong, ghi_vào, đình_chỉ, tiêu_chí, cho_phép, chuyển_sang, cấp_bằng, chấm, thỏa_mản, phân_công, tổ_chức_bảo_vệ, thảo_luận, gia_hạn, quyết_định_gia_hạn, không_hoàn_thành, tích_lũy, ra_quyết_định, được_cấp, báo, bảo_lưu, được_điều_động, cần, theo_quy_định, học_xong, nghỉ, được_công_nhận, học, vượt_quá, nghiên_cứu, bổ_sung_vào, tăng_cường, áp_dụng, chỉ_đạo, phát_triển_trên, không_tổ_chức, giữ_bí_mật, bảo_vệ, chịu_trách_nhiệm, trước, nhấn, mở, tắt, bấm, chia_sẻ"
    - Tên mối quan hệ phải được ghi thường. Nếu tên mối quan hệ gồm từ hai từ trở lên, các từ phải được nối với nhau bằng dấu gạch dưới (ví dụ: "không_tính", "thông_báo_lịch_thi").

3. Trả về kết quả dưới dạng JSON với các trường:
   - "entities": Danh sách các thực thể. Mỗi thực thể có các thuộc tính "name" và "type".
   - "relationships": Danh sách các mối quan hệ: . Mỗi mối quan hệ có các thuộc tính "source", "relation" và "type_source"(lấy từ entities).

Đoạn văn bản cần trích xuất:
{question}

Yêu cầu:
- Trả về kết quả dưới dạng JSON với các trường: entities, relationships.
- Mỗi entity cần có name và type.
- Mỗi relationship cần có source, relation và "type_source"(lấy từ entities).

---
### Giải thích:
1. **Entity**:
   - Là các đối tượng được nhắc đến trong văn bản, ví dụ: tên người, địa điểm, tổ chức, ngày tháng, v.v.
   - Mỗi entity cần được gán một loại phù hợp, ví dụ: NGƯỜI, ĐỊA ĐIỂM, TỔ CHỨC, NGÀY, v.v.

2. **Relationship**:
   - Là mối quan hệ giữa các entity, nhưng không trích xuất target

3. **Định dạng đầu ra**:
   - Sử dụng JSON để trả về kết quả một cách có cấu trúc, dễ dàng xử lý tiếp theo."""


def extract_text_from_paragraph(paragraph):
    return f"""
    Bạn là một trợ lý AI chuyên xử lý văn bản tự nhiên. Tôi có một văn bản lớn và muốn bạn giúp tôi trích xuất các đoạn văn nhỏ từ văn bản đó để lưu vào vectordatabase. Hãy thực hiện theo các yêu cầu sau:

1. Chia văn bản thành các đoạn nhỏ, mỗi đoạn có độ dài từ 100 đến 200 từ (hoặc khoảng 2-4 câu, tùy vào ngữ cảnh), nhưng không được cắt giữa chừng làm mất nghĩa của câu hoặc ý chính.

2. Đảm bảo mỗi đoạn nhỏ giữ được ý nghĩa độc lập hoặc liên quan chặt chẽ đến ngữ cảnh của văn bản gốc, không bị rời rạc.

3. Các đoạn văn nhỏ phải liền mạch với nhau, nghĩa là nội dung của đoạn sau phải có sự kết nối tự nhiên với đoạn trước, giống như trong văn bản gốc.

4. Trả về kết quả dưới dạng json có thuộc tính text lưu trữ từng đoạn văn.

5. Nếu có câu hoặc ý nào quá dài, hãy điều chỉnh để đoạn văn vẫn nằm trong khoảng độ dài mong muốn mà không làm mất ý nghĩa.

6. BẮT BUỘC TRÍCH XUẤT ĐÀY ĐỦ NỘI DUNG CỦA VĂN BẢN, KHÔNG ĐƯỢC CHỈNH SỬA NỘI DUNG NHƯ THÊM HOẶC BỚT, KHÔNG ĐƯỢC ĐÍNH KÈM CÁC TỪ CHUNG CHUNG NHƯ "các liên kết dưới đây" hoặc "các thông tin sau"nếu như từ đó không có trong văn bản.
7. có thể thêm các từ để bổ sung ý nghĩa cho 1 câu như "khu vực A có email kva@gmai..com", "Khư vực B có số điện thoại 0901231212"
Dưới đây là văn bản lớn mà tôi cung cấp:
{paragraph}"""

def answer_by_context():
    return """
hãy dựa vào ngữ cảnh của các câu trả lời trước để trả lời câu hỏi {question}. Nếu không có ngữ cảnh để trả lời thì phản hổi 'Không có thông tin' và không giải thích gì thêm.
"""

def chunking():
    return """
Bạn là một trợ lý AI chuyên xử lý văn bản tự nhiên. Nhiệm vụ của bạn là giúp tôi trích xuất các đoạn văn nhỏ từ văn bản lớn. Tôi sẽ đưa vào một văn bản lớn. Hãy thực hiện theo các yêu cầu sau:

1. Không được cắt giữa chừng làm mất nghĩa của câu hoặc ý chính.
2. Đảm bảo mỗi đoạn nhỏ giữ được ý nghĩa độc lập và liên quan chặt chẽ đến ngữ cảnh, không bị rời rạc, không thay đổi, chỉnh sửa hoặc thiếu của văn bản gốc.
3. Các đoạn văn nhỏ phải liền mạch với nhau, nghĩa là nội dung của đoạn sau phải có sự kết nối tự nhiên với đoạn trước, giống như trong văn bản gốc.
4. Trả về kết quả dưới dạng json như sau:
{{
"đoạn 1": "",
"đoạn 2": "",
"đoạn 3": "",
"đoạn 4": "",
....
}}
5. Phải trích xuất từ đầu đến cuối, một cách liên tục và liền mạch mà không bỏ lỡ bất kỳ từ gì
6. Chỉ trích xuất những nội dung có ý nghĩa và nội dung. Bỏ các nội dung của header, footer, phần, chương, 1., 2., 3., a., b., c., mục lục,...
7. Json phải sử dụng ký tự "" không được dùng ''
Hãy trích xuất các đoạn văn nhỏ theo yêu cầu trên và trả lời bằng tiếng Việt. Chỉ trả về theo dạng json và không giải thích gì thêm, không mở đầu, không kết thúc"""

# dùng để trích xuất các chủ đề quan trọng. Được sử dụng để thêm thông tin vào chunk để tạo thuận lợi cho ss vector qdrant
def summary_document():
    return """
Bạn là một chuyên gia trích xuất chủ đề quan trọng trong văn bản. nhiệm vụ của bạn là hãy trích xuất chủ đề quan trọng theo các yêu cầu sau đây:
1. Nội dung không quá 2 dòng, phù hợp để tăng thêm ngữ cảnh thì truy xuất thông qua vector embedding.
2. Chỉ trích xuất các nội dung chính được nhắc đến trong đoạn văn.
Văn bản: {paragraph}
    """

def summary_answer_system():
    return """
You are given:

* A composite question that may include multiple conditions.
* A list of step-by-step answers, each answering only part of the original question.
* Each answer may contain one or more entities (e.g., multiple clubs, multiple people).

Your task:

* The answers will be provided in multiple steps. You need to select the steps that contain relevant information and provide only the final composite answer that satisfies **all** conditions stated in the original question.
* Do **not** provide any explanation or reasoning.

Example:
**Question**: "Which club is in the field of communication and wildlife and led by Lê Tường Vi?"
**Step-by-step answers**:

* The club in the field of communication and wildlife is *wildlife vet student club*.
* The club led by Lê Tường Vi is *wildlife vet student club*.
  **Expected output**:
* The club in the field of communication and wildlife and led by Lê Tường Vi is **wildlife vet student club**.

Requirements:

* Use natural language.
* For links and URLs, there is no need to bold them.
* If there are multiple items, list them in order and bold the key terms.
* DO NOT EXPLAIN, DO NOT WRITE ANY INTRODUCTION OR CONCLUSION — ONLY OUTPUT THE FINAL COMPOSITE ANSWER.
"""


def summary_answer_user():
    return """
Câu hỏi: {question}
Câu trả lời: {answer}
    """

def summary_answer():
    return """
Bạn được cung cấp:
- Một câu hỏi tổng hợp có thể bao gồm nhiều điều kiện.
- Một danh sách các câu trả lời đơn lẻ, mỗi câu chỉ trả lời một phần của câu hỏi ban đầu.
- Mỗi câu trả lời có thể chứa một hoặc nhiều đối tượng (ví dụ: nhiều câu lạc bộ, nhiều người).

Nhiệm vụ của bạn:
- Tổng hợp các câu trả lời lại để trả lời chính xác câu hỏi ban đầu, đáp ứng đầy đủ tất cả điều kiện được nêu ra trong câu hỏi.

Câu trả lời cuối cùng phải ở dạng:
"<Câu hỏi ban đầu được diễn giải theo cách tự nhiên> là <kết quả tổng hợp>"

Ví dụ:
"CLB nào thuộc lĩnh vực truyền thông và động vật hoang dã do Lê Tường Vi làm đội trưởng là wildlife vet student club"

Ví dụ:
Câu hỏi: 'CLB nào thuộc lĩnh vực truyền thông và động vật hoang dã do Lê Tường Vi làm đội trưởng?'
Câu trả lời thành phần:
- CLB nào thuộc lĩnh vực truyền thông và động vật hoang dã là wildlife vet student club
- CLB do Lê Tường Vi làm đội trưởng là wildlife vet student club
Kết quả mong muốn:
- CLB nào thuộc lĩnh vực truyền thông và động vật hoang dã do Lê Tường Vi làm đội trưởng là wildlife vet student club

Yêu cầu:
- Diễn đạt theo ngôn ngữ tự nhiên
- Nếu có nhiều mục thì hãy chia ra theo thứ tự và in đậm các ký tự chính

Câu hỏi: {question}
Câu trả lời: {answer}
"""


# tạo ra tiêu đề cho neo4j khi thêm tài liệu mới
def create_title():
    return """
Bạn là một chuyên gia ngôn ngữ. Dưới đây là một đoạn văn bản dài. Hãy thực hiện các bước sau:
Nếu trong đoạn văn bản có tiêu đề rõ ràng (ví dụ nằm ở đầu đoạn hoặc được phân biệt rõ ràng), hãy trích xuất tiêu đề đó.
Nếu không có tiêu đề rõ ràng, hãy đọc và tóm tắt nội dung đoạn văn để tạo ra một tiêu đề phù hợp, ngắn gọn, chính xác và bao quát nội dung chính.
Đầu ra: 
{
    "title": "<title>"
}
"""

In [None]:
class Qdrant:
    def __init__(self, host: str, api, model_1024, model_768, model_512, model_late_interaction, collection_name, distance, pre_processing):
        self.client = QdrantClient(
            url=host,
            api_key=api,
        )
        self.collection_name = collection_name
        self.model_1024 = model_1024
        self.model_768 = model_768
        self.model_512 = model_512
        self.model_late_interaction = model_late_interaction
        self.pre_processing = pre_processing
        self.distance = distance
    
    def create_collection(self):
        if self.client.collection_exists(collection_name=self.collection_name):
            print("Collection đã tồn tại")
            return

        hnsw_config = {
            "m": 16,  # Số kết nối tối đa cho mỗi nút trong đồ thị (mặc định: 16)
            "ef_construct": 1000,  # Yếu tố xây dựng, ảnh hưởng đến chất lượng index (mặc định: 100)
            "full_scan_threshold": 10000  # Ngưỡng để chuyển sang quét toàn bộ nếu tập dữ liệu nhỏ
        }

        # Tạo collection với cấu hình vectors và HNSW
        self.client.create_collection(
            collection_name=self.collection_name,
            vectors_config={
                'matryoshka-1024dim': models.VectorParams(
                    size=1024,
                    distance=models.Distance[self.distance.upper()],
                    datatype=models.Datatype.FLOAT32
                ),
                'matryoshka-768dim': models.VectorParams(
                    size=768,
                    distance=models.Distance[self.distance.upper()],
                    datatype=models.Datatype.FLOAT32
                ),
                'matryoshka-512dim': models.VectorParams(
                    size=512,
                    distance=models.Distance[self.distance.upper()],
                    datatype=models.Datatype.FLOAT32
                ),
                'late_interaction': models.VectorParams(
                    size=768,
                    distance=models.Distance[self.distance.upper()],
                    multivector_config=models.MultiVectorConfig(
                        comparator=models.MultiVectorComparator.MAX_SIM
                    ),
                    datatype=models.Datatype.FLOAT32
                )
            },
            quantization_config=models.ScalarQuantization(
                scalar=models.ScalarQuantizationConfig(
                    type=models.ScalarType.INT8,
                    quantile=0.99,
                    always_ram=True,
                ),
            ),
            hnsw_config=hnsw_config  # Thêm cấu hình HNSW
        )
        print("create collection success")
        return self.client

        
    def create_embed(self, chunks):
        """Nhúng toàn bộ văn bản trong chunks một lần theo batch và trả về dict các embedding."""
        print("Starting full-batch embedding...")
    
        try:
            preprocessed_chunks = [
                self.pre_processing.text_preprocessing_vietnamese(chunk)
                for chunk in chunks
            ]
    
            # Tạo embedding toàn bộ 1 lần
            embeddings_dict = {
                'matryoshka-1024dim': self.model_1024.embed(preprocessed_chunks),
                'matryoshka-768dim': self.model_768.embed(preprocessed_chunks),
                'matryoshka-512dim': self.model_512.embed(preprocessed_chunks)
            }
            embed_li = []
            for data in preprocessed_chunks:
                embed_li.append(self.model_late_interaction.embed(data))
                
            embeddings_dict['late_interaction'] = embed_li
            print("Embedding completed.")
            return embeddings_dict
    
        except Exception as e:
            print(f"Lỗi khi tạo embedding toàn bộ: {e}")
            return None
            
    def add_data(self, chunks, embeddings_dict, batch_size=20):
        """Lưu embedding vào Qdrant theo batch từ dict embeddings đã tạo."""
        if embeddings_dict is None:
            print("No embeddings to upsert.")
            return
    
        print("Starting upsert into Qdrant...")
    
        points = []
    
        for idx in range(len(chunks)):
            point = PointStruct(
                id=idx + 1,
                payload={"text": chunks[idx]},
                vector={
                    'matryoshka-1024dim': embeddings_dict['matryoshka-1024dim'][idx],
                    'matryoshka-768dim': embeddings_dict['matryoshka-768dim'][idx],
                    'matryoshka-512dim': embeddings_dict['matryoshka-512dim'][idx],
                    'late_interaction': embeddings_dict['late_interaction'][idx]
                }
            )
            points.append(point)
    
            if len(points) >= batch_size:
                self._upsert_points(points)
                print(f"Upserted chunks {idx - batch_size + 2} to {idx + 1}")
                points.clear()
    
        # Upsert phần còn lại
        if points:
            self._upsert_points(points)
            print(f"Upserted chunks {len(chunks) - len(points) + 1} to {len(chunks)}")
    
        print("Upsert completed.")

        
    def _upsert_points(self, points):
        """Helper method để upsert points vào VDB"""
        try:
            self.client.upsert(self.collection_name, points)
            print(f"Upserted {len(points)} points to VDB")
        except Exception as e:
            print(f"Error upserting points: {e}")


    def query_from_db(self, text):
      text_embedded_512 = self.model_512.embed(text)
      text_embedded_768 = self.model_768.embed(text)
      text_embedded_1024 = self.model_1024.embed(text)
      embedded_late_interaction = self.model_late_interaction.embed(text).cpu().numpy()

      response =  self.client.query_points(
            collection_name= self.collection_name,
            prefetch=models.Prefetch(
                prefetch=models.Prefetch(
                    prefetch=models.Prefetch(
                        query=text_embedded_512,
                        using="matryoshka-512dim",
                        limit=200,
                    ),
                    query=text_embedded_768,
                    using="matryoshka-768dim",
                    limit=100,
                ),
                query=text_embedded_1024,
                using="matryoshka-1024dim",
                limit=50,
            ),
            query=embedded_late_interaction,
            using="late_interaction",
            limit=25,
        )
      documents = []
      for result in response.points:
        documents.append(result.payload["text"])
      return documents

    def re_ranking(self, query, passages):
        client = NVIDIARerank(
            model="nvidia/llama-3.2-nv-rerankqa-1b-v2",
            api_key=user_secrets.get_secret('API_KEY_RERANKING'),

            top_n=len(passages)
        )

        response = client.compress_documents(
            query=query,
            documents=[Document(page_content=passage) for passage in passages]
        )
        return response

    def set_collection_name(self, name):
        self.collection_name = name

In [None]:
save_dir = dir_vncorenpl
VnCoreNLP_INSTANCE = None

def get_vncorenlp_instance():
    global VnCoreNLP_INSTANCE
    if VnCoreNLP_INSTANCE is None:
        VnCoreNLP_INSTANCE = py_vncorenlp.VnCoreNLP(annotators=["wseg"], save_dir=save_dir)
    return VnCoreNLP_INSTANCE

class PreProcessing:
    def __init__(self):
        self.vncorenlp = get_vncorenlp_instance()


    def string_to_json(self, text):
        removed_special = text.replace("```", "").replace("json", "")
        removed_special = removed_special.strip()

        return ast.literal_eval(removed_special)

    def text_preprocessing_vietnamese(self, text):
      stopwords_path = dir_vietnamese_stopwords

      with open(stopwords_path, 'r', encoding='utf-8') as f:
        stop_words = set(f.read().splitlines())

        # 2. Chuyển thành chữ thường
        text = text.lower()

        # 3. Loại bỏ ký tự đánh số/thứ tự ở đầu dòng (ví dụ: "1. ", "a) ")
        #    (?m) bật chế độ multiline, ^ khớp đầu dòng, \s* để bỏ khoảng trắng đầu dòng nếu có
        text = re.sub(r'(?m)^\s*(?:\d+\.|[a-z]\))\s*', '', text)

        # 4. Xóa tất cả các ký tự đặc biệt
        text = re.sub(r'(?<!\.)[^\w\s\n\.]|(?<!\w)\.(?!\s)', '', text)

        # 5. Xóa khoảng trắng thừa
        text = text.strip()

        # 6. word segment
        try:
            output = self.vncorenlp.word_segment(text)  # output là một list
            output = output[0].split(' ')
            # 7. Loại bỏ stop words trực tiếp từ list
            filtered_words = [word for word in output if word not in stop_words]
            result_string = ' '.join(filtered_words)
            return result_string
        except:
            output = ''

        return text

In [None]:
class Chat:
    def __init__(self, t, qdrant, neo4j, pre_processing, document_id):
        self.t = t
        self.question = ''
        self.pre_processing = pre_processing
        self.references_final = ""
        self.extract = ""
        self.feedback = ""
        self.answer_final = ""
        self.document_id = document_id
    
        
        # 1. khởi tạo gemini và chat
        model_name_15_flash = user_secrets.get_secret('MODEL_15_FLASH')
        model_name_20_flash = user_secrets.get_secret('MODEL_20_FLASH')
        model_name_25_flash = user_secrets.get_secret('MODEL_25_FLASH')
        
        # api_key_agent = user_secrets.get_secret('API_KEY_AGENT')
        # api_key_generator = user_secrets.get_secret('API_KEY_GENERATOR')
        # api_key_valid = user_secrets.get_secret('API_KEY_VALID')
        # api_key_commentor = user_secrets.get_secret('API_KEY_COMMENTOR')
        
        api_key_generator = "AIzaSyDJOnB0i3Kr4FOk_4mINN9wETWLlV7jdRc"
        api_key_commentor = "AIzaSyBHEUQT-1f1NbZji3LsvYyVBiNxNPShzFg"
        # api_key_generator = "AIzaSyBpbQbmZek3VC98sGoKJV0hSWiBNbuaKRY" # pha
        api_key_valid = "AIzaSyBHEUQT-1f1NbZji3LsvYyVBiNxNPShzFg"
        api_key_agent = "AIzaSyDJOnB0i3Kr4FOk_4mINN9wETWLlV7jdRc"
        # api_key_generator = "AIzaSyC9JFA36xRYLaS9TAbOfrefpHkPFZEbiRU" # pha
        
        self.gemini_agent = Gemini(model_name_25_flash, api_key_agent)
        self.gemini_generator = Gemini(model_name_20_flash, api_key_generator)
        self.gemini_valid = Gemini(model_name_15_flash, api_key_valid)
        self.gemini_commentor = Gemini(model_name_15_flash, api_key_commentor)
    
    
        self.qdrant = qdrant
        self.neo = neo4j
        
        api_key_01 =  user_secrets.get_secret("API_KEY_NVIDIA_01")
        api_key_02 =  user_secrets.get_secret("API_KEY_NVIDIA_02")
        api_key_03 =  user_secrets.get_secret("API_KEY_NVIDIA_03")
        api_key_04 =  user_secrets.get_secret("API_KEY_NVIDIA_04")
        
        model_llama_405b = user_secrets.get_secret("MODEL_LLAMA_405B")

        self.llama3_1_commentor = Llama(api_key_01, model_llama_405b)
        self.llama3_1_generator = Llama(api_key_02, model_llama_405b)
        self.llama3_1_graph = Llama(api_key_03, model_llama_405b)
        self.llama3_1_summary = Llama(api_key_04, model_llama_405b)
        
        print('Initialize Chat success')

    def answer_by_context(self):
        prompt_template = PromptTemplate(
            input_variables=["question"],
            template=answer_by_context()
        )
        formatted_prompt = prompt_template.format(question=self.question)

        return self.gemini_agent.generator(formatted_prompt)

    def answer_s2s(self):
        self.references_final = ""
        self.extract = ""
        self.feedback = ""
        self.answer_final = ""
        
        print(f'question: {self.question}')
        for t in range(self.t):
          print(f"Step {t}, initial feedback: {self.feedback}")
          self.references_final = ""

          self.extract = self.agent()
          print(f'extract: {self.extract}')

          for attr in self.extract:
            action = self.extract[attr]
            print(f'attr: {attr}')
            print(f'action: {action}')
            references = self.retrieval_bank(action)
            print(f"Available references: {references}")
            self.references_final += str(references)

          self.answer_final += f"Step {t}: {self.generator()}"
          print(f"Answer: {self.answer_final}")
            
          validator = self.valid()
          print(f"valid: {validator}")

          if "yes" in validator:
            return self.summary_answer()

          self.feedback = self.commentor()

        return self.summary_answer()

    def answer_s2s_stsv(self):
        self.references_final = ""
        self.extract = ""
        self.feedback = ""
        self.answer_final = ""
        
        print(f'question: {self.question}')
        for t in range(self.t):
          print(f"Step {t}, initial feedback: {self.feedback}")
          self.references_final = ""

          self.extract = self.agent()
          print(f'extract: {self.extract}')

          for attr in self.extract:
            action = self.extract[attr]
            print(f'attr: {attr}')
            print(f'action: {action}')
            references = self.retrieval_bank_stsv(action)
            print(f"Available references: {references}")
            self.references_final += str(references)

          self.answer_final += f"Step {t}: {self.generator()}"
          print(f"Answer: {self.answer_final}")
            
          validator = self.valid()
          print(f"valid: {validator}")

          if "yes" in validator:
            return self.summary_answer()

          self.feedback = self.commentor()

        return self.summary_answer()
        
    def summary_answer(self):
        prompt_template = PromptTemplate(
            input_variables=["question", 'answer'],
            template=summary_answer_user()
        )
        formatted_prompt = prompt_template.format(question=self.question, answer=self.answer_final)
        # return self.gemini_agent.generator(formatted_prompt)
        
        self.llama3_1_summary.set_prompt(summary_answer_system())
        self.llama3_1_summary.set_text(formatted_prompt)
        return self.llama3_1_summary.generator()

    def agent(self):
        agent = self.first_decision() if not self.feedback else self.reflection()
        return pre_processing.string_to_json(agent)

    def retrieval_bank_stsv(self, action):
        return self.retrieval_graph_stsv() if 'graph' in action else self.retrieval_text()
        
    def retrieval_bank(self, action):
        return self.retrieval_graph() if 'graph' in action else self.retrieval_text()

    def retrieval_graph(self):
        # llm dự đoán câu hỏi thuộc phần nào để thu hẹp nội dung cần truy xuất
        prompt_template = PromptTemplate(
            input_variables=["question", "document_id", "parts_of_document"],
            template=predict_question_belong_to()
        )
        formatted_prompt = prompt_template.format(question=self.question, document_id=self.document_id, parts_of_document=self.neo.get_part_of_document(self.document_id))
        query = self.gemini_agent.generator(formatted_prompt)
        query = query.replace("```", "").replace("json", "")
        query = json.loads(query)
        
        print('query:', query['cypher'])
        nodes, edges = self.neo.fetch_subgraph(query['cypher'])
        
        # Tạo mapping node_id_to_idx trước
        node_id_list = list(nodes.keys())
        node_id_to_idx = {nid: i for i, nid in enumerate(node_id_list)}
        
        # Xác định thiết bị (GPU nếu có, ngược lại CPU)
        device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
        
        # Tạo edge_index và chuyển lên device
        edge_index = torch.tensor([
            [node_id_to_idx[edge["source"]] for edge in edges],
            [node_id_to_idx[edge["target"]] for edge in edges]
        ], dtype=torch.long).to(device)
        
        texts = [" ".join([f"{key} {value}" for key, value in dict(nodes[nid].items())['properties'].items()]) for nid in node_id_list]
        return texts

    def retrieval_graph_stsv(self):
        # llm dự đoán câu hỏi thuộc phần nào để thu hẹp nội dung cần truy xuất
        prompt_template = PromptTemplate(
            input_variables=["question", "document_id"],
            template=predict_question_belong_to_stsv()
        )
        formatted_prompt = prompt_template.format(question=self.question, document_id=self.document_id)
        query = self.gemini_agent.generator(formatted_prompt)
        query = query.replace("```", "").replace("json", "")
        query = json.loads(query)
        
        print('query:', query['cypher'])
        nodes, edges = self.neo.fetch_subgraph(query['cypher'])
        
        # Tạo mapping node_id_to_idx trước
        node_id_list = list(nodes.keys())
        node_id_to_idx = {nid: i for i, nid in enumerate(node_id_list)}
        
        # Xác định thiết bị (GPU nếu có, ngược lại CPU)
        device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
        
        # Tạo edge_index và chuyển lên device
        edge_index = torch.tensor([
            [node_id_to_idx[edge["source"]] for edge in edges],
            [node_id_to_idx[edge["target"]] for edge in edges]
        ], dtype=torch.long).to(device)
        
        texts = [" ".join([f"{key} {value}" for key, value in dict(nodes[nid].items())['properties'].items()]) for nid in node_id_list]
      
        # x = self.neo.encode(texts)
        
        # # Chuyển x lên cùng device
        # if isinstance(x, torch.Tensor):
        #     x = x.to(device)
        # else:
        #     x = torch.tensor(x).to(device)
        
        # data = Data(x=x, edge_index=edge_index)
        
        # # Chuyển model lên device
        # model = GCN(input_dim=x.shape[1], hidden_dim=x.shape[1], output_dim=x.shape[1]).to(device)
        
        # output = model(data)  # output: [num_nodes, 16]
        # results = self.neo.retrieve_similar_nodes(self.question, output, texts, math.ceil(x.shape[0] * 0.5))

        return texts

    def retrieval_text(self):
        documents = self.qdrant.query_from_db(self.question)

        try:
            re_ranking_query_text = self.qdrant.re_ranking(self.question, documents)

            reference = ""
            for i in range(len(re_ranking_query_text)):
                logit = re_ranking_query_text[i].metadata['relevance_score']
                text = re_ranking_query_text[i].page_content
                if logit > 0:
                    reference += f'{text}\n'

            return reference
        except:
            return documents

    def first_decision(self):
        prompt_template = PromptTemplate(
            input_variables=["question"],
            template=first_decision_stsv()
        )
        formatted_prompt = prompt_template.format(question=self.question)
        return self.gemini_agent.generator(formatted_prompt).lower()



    def reflection(self):
        prompt_template = PromptTemplate(
            input_variables=["question", "feedback", "answer"],
            template=reflection_stsv()
        )
        formatted_prompt = prompt_template.format(question=self.question, feedback=self.feedback, answer=self.answer_final)
        return self.gemini_agent.generator(formatted_prompt).lower()

    def generator(self):
        prompt_template = PromptTemplate(
            input_variables=["question", "references"],
            template=generator_stsv()
        )
        formatted_prompt = prompt_template.format(question=self.question, references=self.references_final)
      # return self.gemini_generator.generator(formatted_prompt)
        self.llama3_1_generator.set_prompt(generator_stsv_system())
        self.llama3_1_generator.set_text(formatted_prompt)
        return self.llama3_1_generator.generator()

    def valid(self):
        prompt_template = PromptTemplate(
            input_variables=["question", "answer"],
            template=valid_stsv()
        )
        formatted_prompt = prompt_template.format(question=self.question, answer=self.answer_final)
        
        return self.gemini_valid.generator(formatted_prompt).lower()

    def commentor(self):
        prompt_template = PromptTemplate(
            input_variables=["question", "entities", "references"],
            template=commentor_stsv()
        )
        formatted_prompt = prompt_template.format(question=self.question, entities=self.extract, references=self.references_final)
        return self.gemini_commentor.generator(formatted_prompt)
        
    def set_question(self, question):
        self.question = question
    
    def set_document_id(self, document_id):
        self.document_id = document_id


**khởi tạo đối tượng tiền xử lý**

In [None]:
pre_processing = PreProcessing()

**Khởi tạo các đối tượng**

In [None]:
# 2. Khởi tạo mô hình nhúng
factory = EmbeddingFactory()
model_name_512 = user_secrets.get_secret("MODEL_EMBEDDING_512")
model_name_768 = user_secrets.get_secret("MODEL_EMBEDDING_768")
model_name_1024 = user_secrets.get_secret("MODEL_EMBEDDING_1024")
model_name_li = user_secrets.get_secret("MODEL_LATE_INTERACTION")


model_512 = factory.create_embed_model(model_name_512)
model_768 = factory.create_embed_model(model_name_768)
model_1024 = factory.create_embed_model(model_name_1024)
model_li = factory.create_embed_model(model_name_li)

In [None]:
# 3. Khởi tạo Qdrant
host = user_secrets.get_secret("HOST_QDRANT")
api = user_secrets.get_secret("API_KEY_QDRANT")
distance = user_secrets.get_secret("DISTANCE")

qdrant = Qdrant(
    host, api,
    model_1024, 
    model_768, 
    model_512, 
    model_li, 
    '', 
    distance,
    pre_processing
)

# 4. khởi tạo mô hình llama để tạo chunking
model_llama_405b = user_secrets.get_secret("MODEL_LLAMA_405B")
model_llama_70b = user_secrets.get_secret("MODEL_LLAMA_70B")
api_key_01 =  user_secrets.get_secret("API_KEY_NVIDIA_01")
api_key_02 =  user_secrets.get_secret("API_KEY_NVIDIA_02")
api_key_03 =  user_secrets.get_secret("API_KEY_NVIDIA_03")

llama_title = Llama(api_key_01, model_llama_70b)
llama_content = Llama(api_key_02, model_llama_405b)
llama_chunks = Llama(api_key_03, model_llama_405b)

# 5. khởi tạo neo4j
uri = user_secrets.get_secret("URI_NEO")
user = user_secrets.get_secret("USER")
password = user_secrets.get_secret("PASSWORD")
neo = Neo4j(uri, user, password)

# 6. khởi tạo chat
t = 5
chat = Chat(t, qdrant, neo, pre_processing, '')

**API**

In [None]:
class QuestionRequest(BaseModel):
    question: str
    document_id: str | None = None 

In [None]:
from fastapi import FastAPI, File, UploadFile, HTTPException, Response, Form
from fastapi.middleware.cors import CORSMiddleware
import io
from typing import Dict, List
import uuid
import tempfile
import os
import threading
import uvicorn
import os
import boto3
from botocore.exceptions import ClientError, NoCredentialsError

In [None]:
# AWS S3 Configuration
S3_BUCKET_NAME = "khoaluan111"
S3_REGION = "ap-southeast-1"

# Initialize S3 client
try:
    s3_client = boto3.client(
        's3',
        region_name=S3_REGION,
        aws_access_key_id=user_secrets.get_secret('AWS_ACCESS_KEY_ID'),
        aws_secret_access_key=user_secrets.get_secret('AWS_SECRET_ACCESS_KEY')
    )
    # 1. Khởi tạo đối tượng xử lý PDF
    pdf = PDF(s3_client, '', '', '')

    print("S3 client initialized successfully")
except Exception as e:
    print(f"Error initializing S3 client: {str(e)}")
    s3_client = None

In [None]:
app = FastAPI(title="PDF Upload API", version="1.0.0")

# Cấu hình CORS để frontend có thể gọi API
app.add_middleware(
    CORSMiddleware,
    allow_origins=["http://localhost:3000", "http://127.0.0.1:3000"],  # Chỉ định cụ thể origins
    allow_credentials=True,  # Cho phép credentials
    allow_methods=["GET", "POST", "PUT", "DELETE", "OPTIONS"],
    allow_headers=["*"],
)

# Create FastAPI app
app = FastAPI(title="PDF Processing API", version="1.0.0")

# Cấu hình CORS cho ngrok
app.add_middleware(
    CORSMiddleware,
    allow_origins=["*"],  # Cho phép tất cả origins cho ngrok
    allow_credentials=True,
    allow_methods=["*"],  # Cho phép tất cả HTTP methods
    allow_headers=["*"],  # Cho phép tất cả headers
)

@app.get("/")
async def root():
    return {"message": "PDF Processing API is running on Kaggle with ngrok"}

@app.get("/health")
async def health():
    return {"status": "OK", "message": "Server is running"}

def upload_to_s3(file_content: bytes, file_name: str, document_id: str) -> str:
    """
    Upload file to S3 and return the S3 key
    """
    try:
        if not s3_client:
            raise Exception("S3 client not initialized")
        
        # Tạo S3 key với document_id để tránh trùng lặp
        s3_key = f"documents/{document_id}/{file_name}"
        
        # Upload file to S3
        s3_client.put_object(
            Bucket=S3_BUCKET_NAME,
            Key=s3_key,
            Body=file_content,
            ContentType='application/pdf'
        )
        
        print(f"File uploaded to S3: s3://{S3_BUCKET_NAME}/{s3_key}")
        return s3_key
        
    except NoCredentialsError:
        print("AWS credentials not found")
        raise Exception("AWS credentials not configured")
    except ClientError as e:
        print(f"AWS S3 error: {str(e)}")
        raise Exception(f"Failed to upload to S3: {str(e)}")
    except Exception as e:
        print(f"Error uploading to S3: {str(e)}")
        raise

def get_s3_file_url(s3_key: str) -> str:
    """
    Generate S3 file URL
    """
    return f"s3://{S3_BUCKET_NAME}/{s3_key}"

@app.post("/upload-file")
async def upload_file(file: UploadFile = File(...):
    """
    API upload file PDF lên S3 và xử lý với Qdrant và Neo4j
    """
    print(f"=== NEW UPLOAD REQUEST ===")
    print(f"Document ID: {document_id}")
    print(f"Received file: {file.filename}")
    print(f"Content type: {file.content_type}")
    document_id = str(uuid.uuid4())
    # Kiểm tra file có tồn tại không
    if not file.filename:
        raise HTTPException(
            status_code=400, 
            detail="Không có file được upload"
        )
    
    # Kiểm tra định dạng file
    if not file.filename.lower().endswith('.pdf'):
        raise HTTPException(
            status_code=400, 
            detail="Chỉ chấp nhận file PDF (.pdf)"
        )
    
    s3_key = None
    s3_file_url = None
    
    try:
        # Đọc nội dung PDF
        try:
            print(f"Processing file: {file.filename}")
            
            # Đọc nội dung file vào memory
            contents = await file.read()
            
            if not contents:
                raise HTTPException(
                    status_code=400, 
                    detail="File rỗng hoặc không thể đọc"
                )
            
            file_size = len(contents)
            print(f"File size: {file_size} bytes")
            
            # Upload file lên S3
            print("Uploading file to S3...")
            s3_key = upload_to_s3(contents, file.filename, document_id)
            s3_file_url = get_s3_file_url(s3_key)
            print(f"File uploaded successfully to: {s3_file_url}")
            
            # Sử dụng qdrant để đọc file từ S3
            print("Reading file chunks using qdrant...")
            pdf.set_path(s3_file_url)
            pdf.set_bucket_name(S3_BUCKET_NAME)
            pdf.set_key(s3_key)
            sentences = pdf.read_chunks()
            print(f"Successfully read {len(sentences) if sentences else 0} chunks from qdrant")
        except HTTPException:
            # Re-raise HTTP exceptions
            raise
        except Exception as e:
            print(f"Error processing PDF: {str(e)}")
            raise HTTPException(status_code=500, detail=f"Error processing PDF: {str(e)}")
        
        try:
            await _add_data_to_qdrant(sentences, document_id)
            await _add_data_to_neo4j(sentences, document_id)
            print("Data processing completed")
        except Exception as e:
            print(f"Data processing error: {str(e)}")
            raise HTTPException(status_code=500, detail=f"Data processing error: {str(e)}")
        
        return {
            "message": "Upload and processing completed successfully.", 
            "document_id": document_id,
            "filename": file.filename,
            "file_size": file_size,
            "sentences_count": len(sentences) if sentences else 0,
            "s3_key": s3_key,
            "s3_url": s3_file_url,
            "status": "success"
        }
        
    except HTTPException:
        # Re-raise HTTP exceptions
        raise
    except Exception as e:
        print(f"Unexpected error: {str(e)}")
        # Catch any other unexpected errors
        raise HTTPException(status_code=500, detail=f"Unexpected error: {str(e)}")
                
# Thêm file mới vào qdrant
async def _add_data_to_qdrant(sentences, document_id):
    try:
        print(f"Processing {len(sentences)} sentences for Qdrant")
        chunks = []
        all_paragraphs = []
        
        # sử dụng llama để tự động chia chunk. Output là mảng các json [{}, {}, {}]
        llama_chunks.set_prompt(chunking())
        for s in sentences:
            llama_chunks.set_text(s)
            chunk_json = llama_chunks.generator()
            chunk_json = chunk_json.replace("'", '"')
            print(chunk_json)
            chunks.append(ast.literal_eval(chunk_json))
        
        # tạo ra mảng chứa các chunk. Output là mảng String ['', '', '']
        for chunk in chunks:
            for key, content in chunk.items():
                all_paragraphs.append(content)
        
        print(all_paragraphs)
        
        # 1. tạo collection trong qdrant
        qdrant.set_collection_name(document_id)
        qdrant.create_collection()
        
        # 2. Tạo embedding
        embeddings_dict = qdrant.create_embed(all_paragraphs)
        # 3. lưu vào qdrant
        qdrant.add_data(all_paragraphs, embeddings_dict)
        
        return {"message": "File uploaded and processed successfully for qdrant", "data": document_id}
        
    except Exception as e:
        print(f"Error processing file in qdrant: {str(e)}")
        raise HTTPException(status_code=500, detail=f"Error processing file in qdrant: {str(e)}")

# Thêm file mới vào neo4j
async def _add_data_to_neo4j(sentences, document_id):
    try:
        # Tạo ra tiêu đề cho đồ thị
        titles = []
        llama_title.set_prompt(create_title())
        
        for s in sentences:
            print(s)
            llama_title.set_text(s)
            title = llama_title.generator().lower()
            print(title)
            titles.append(pre_processing.string_to_json(title))
        
        print(titles)
        
        # Tạo ra entities và relationships
        entities_relationship = []
        llama_content.set_prompt(extract_entities_relationship_from_text())
        
        for s in sentences:
            llama_content.set_text(s)
            entity_relation = llama_content.generator().lower()
            entity_relation = pre_processing.string_to_json(entity_relation)
            print(entity_relation)
            entities_relationship.append(entity_relation)
        
        print(entities_relationship)
        
        # B1: Nối "General" với UUID người dùng (Document)
        neo.add_single_relationship("tài liệu", "General", document_id, "Document", "BAO_GỒM")
    
        # B2: Nối document với tiêu đề
        for title in titles:
            neo.add_single_relationship(document_id, "Document", title["title"], "Part", "BAO_GỒM")
        
        # B3: Nối tiêu đề với entities_relationship
        for r, title in zip(entities_relationship, titles):
            neo.import_relationships(r, title["title"], "Part")

    
        return {"message": "File uploaded and processed successfully for neo4j", "data": document_id}
        
    except Exception as e:
        print(f"Error processing file in neo4j: {str(e)}")
        raise HTTPException(status_code=500, detail=f"Error processing file in neo4j: {str(e)}")

# Chat default endpoint - mặc định document_id = 'so_tay_sinh_vien_2024'
@app.post("/api/chat-default")
async def chat_stsv(req: QuestionRequest):
    try:

        chat.set_document_id("so_tay_sinh_vien_2024")
        chat.set_question(req.question)
        answer = chat.answer_s2s_stsv()
        
        # Mock response
        answer = f"Mock answer for default document 'so_tay_sinh_vien_2024': {req.question}"
        
        return {"message": "Process answer successfully", "data": answer}
    except Exception as e:
        print(f"Error processing chat: {str(e)}")
        raise HTTPException(status_code=500, detail=f"Error processing chat: {str(e)}")

# Chat custom endpoint - document_id được truyền từ client
@app.post("/api/chat")
async def chat(req: QuestionRequest):
    try:
        if not req.document_id:
            raise HTTPException(status_code=400, detail="document_id is required")
        
        print(f"Chat custom request - Document ID: {req.document_id}, Question: {req.question}")
        

        chat.set_document_id(req.document_id)
        chat.set_question(req.question)
        answer = chat.answer_s2s()
        
        return {"message": "Process answer successfully", "data": answer}
    except Exception as e:
        print(f"Error processing chat: {str(e)}")
        raise HTTPException(status_code=500, detail=f"Error processing chat: {str(e)}")

@app.get("/test-s3")
async def test_s3_connection():
    """
    Test S3 connection
    """
    try:
        if not s3_client:
            return {"status": "error", "message": "S3 client not initialized"}
        
        # Test connection by listing bucket
        response = s3_client.head_bucket(Bucket=S3_BUCKET_NAME)
        return {
            "status": "success", 
            "message": f"Successfully connected to S3 bucket: {S3_BUCKET_NAME}",
            "region": S3_REGION
        }
    except Exception as e:
        return {
            "status": "error", 
            "message": f"Failed to connect to S3: {str(e)}"
        }



# Global variable để lưu public URL
public_url = None

def run_server_with_ngrok():
    global public_url
    try:
        print("🔧 Setting up ngrok tunnel...")
        api_ngrok = user_secrets.get_secret("api_ngrok")
        ngrok.set_auth_token(api_ngrok)
        tunnel = ngrok.connect(8000)
        public_url = tunnel.public_url
        
        print(f"🌍 Ngrok tunnel created: {public_url}")
        print(f"📋 API Documentation: {public_url}/docs")
        print(f"🔄 Upload endpoint: {public_url}/upload-file")
        
        print("🚀 Starting FastAPI server on port 8000...")
        uvicorn.run(app, host="0.0.0.0", port=8000, log_level="info")
        
    except Exception as e:
        print(f"❌ Error starting server: {str(e)}")


def start_kaggle_server():
    """
    Function chính để chạy server trong Kaggle notebook
    """
    print("🚀 Starting FastAPI server with ngrok...")
    
    # Chạy server trong thread riêng để tránh block notebook
    server_thread = threading.Thread(target=run_server_with_ngrok, daemon=True)
    server_thread.start()
    
    # Đợi server khởi động
    time.sleep(5)
    
    print("✅ Server started successfully!")
    print("📝 Server is running in background thread...")
    
    if public_url:
        print(f"🌍 Your API is available at: {public_url}")
    
    return server_thread

if __name__ == "__main__":
    start_kaggle_server()

In [None]:
# import subprocess
# import signal

# # Tìm và kill tất cả process ngrok
# try:
#     result = subprocess.run(['pgrep', '-f', 'ngrok'], capture_output=True, text=True)
#     pids = result.stdout.strip().split('\n')
    
#     for pid in pids:
#         if pid:
#             os.kill(int(pid), signal.SIGTERM)
#             print(f"Đã tắt ngrok process với PID: {pid}")
            
# except ProcessLookupError:
#     print("Không tìm thấy process ngrok nào đang chạy")
# except Exception as e:
#     print(f"Lỗi: {e}")

In [None]:
import time
for i in range(1, 1000000):
    time.sleep(120)
    print(i)