## Import

In [1]:
from elasticsearch import Elasticsearch
from sentence_transformers import SentenceTransformer, CrossEncoder
import chromadb
from chromadb.config import Settings
import numpy as np
import json
import os

  from .autonotebook import tqdm as notebook_tqdm


## Institute

In [2]:
model_embedding = SentenceTransformer('dangvantuan/vietnamese-embedding-LongContext', trust_remote_code=True)
cross_encoder = CrossEncoder('itdainb/PhoRanker')

In [3]:
os.environ["CHROMA_DB_PERSIST_DIRECTORY"] = "./chromadb_data"

# Use PersistentClient instead of regular Client
client = chromadb.PersistentClient(path="./chromadb_data")

try:
    collection = client.get_collection(name="utehy_v1")
    print("Collection loaded!")
except:
    collection = client.create_collection(
        name="utehy_v1", 
        # metadata={"hnsw:space": "cosine"}
    )
    print("Collection created!")

Collection loaded!


In [4]:
# client.delete_collection(name="utehy_v1")

In [4]:
es = Elasticsearch(
    "https://localhost:9200/",
    http_auth=("elastic", "123456"),
    verify_certs=False  # Nếu dùng chứng chỉ tự ký, có thể tạm thời đặt False
)

  _transport = transport_class(
  es = Elasticsearch(


## Data Preparation

### Data Loading

In [4]:
with open('/Users/toan/Working/UTEHY_CHATBOT/data_process/merged_chunks_third_time.json', 'r', encoding='utf-8') as file:
    data = json.load(file)

In [5]:
chunks = []
for entry in data:
    title = entry.get('title', '')
    content = entry.get('content', '')
    metadata = entry.get('metadata', {})

    context_embedding = f"Title: {title}\nContent: {content}"

    chunk = {
        "title": title,
        "content": content,
        "context_embedding": context_embedding,
        "metadata": metadata
    }
    chunks.append(chunk)

In [6]:
context_embeddings = [chunk['context_embedding'] for chunk in chunks]

In [7]:
context_embeddings

['Title: # TỔNG QUAN VỀ NGÀNH SƯ PHẠM CÔNG NGHỆ\nContent: 1. Giới thiệu chung \nTên ngành: Sư phạm Công nghệ\nMã ngành: 7140246\nNgành Sư phạm Công nghệ là một ngành đào tạo giáo viên Công nghệ nhằm đáp ứng nhu cầu giáo viên giảng dạy theo Chương trình phổ thông năm 2018, đáp ứng đào tạo Công nghệ theo định hướng STEM.\n2. Cơ hội việc làm\nTrong Chương trình giáo dục phổ thông, Giáo dục Công nghệ được thực hiện từ lớp 3 đến lớp 12. Chính vì vậy nhu cầu nhân lực trong giảng dạy Công nghệ là rất lớn. \n3. Những tố chất của theo đuổi ngành sư phạm công nghệ\nĐể học tập và thành công trong ngành Sư phạm Công nghiệp, bạn cần phải có các tố chất sau:\n- Cẩn thận, kiên trì, khéo léo, tỉ mỉ;\n- Siêng năng, tận tâm với công việc;\n- Có tinh thần hợp tác, khả năng làm việc theo nhóm và chịu được áp lực công việc cao;\n- Có khả năng học tốt các môn Khoa học Tự nhiên;\n- Khả năng truyền đạt tốt trên cả hai phương diện nói và viết;\n- Có tâm huyết với nghề, có đạo đức và tấm lòng trong sáng;\n- Yêu

### Embedding

In [8]:
embeddingDoc = model_embedding.encode(context_embeddings, normalize_embeddings=True)
print(embeddingDoc.shape)

(12, 768)


### Upload 2 Vector DB

In [9]:
ids = [str(i) for i in range(len(chunks))]
# Check if embeddings are numpy arrays or already lists
embeddings_for_upload = []
for emb in embeddingDoc:
    if hasattr(emb, 'tolist'):
        embeddings_for_upload.append(emb.tolist())
    else:
        embeddings_for_upload.append(emb)  # Already a list
documents = [chunk['context_embedding'] for chunk in chunks]

In [10]:
batch_size = 100
for i in range(0, len(documents), batch_size):
    end_idx = min(i + batch_size, len(documents))

    collection.add(
        ids=ids[i:end_idx],
        embeddings=embeddingDoc[i:end_idx],
        documents=documents[i:end_idx]
    )

In [3]:
query = 'Xếp loại học tập'
query_embedding = model_embedding.encode(query).tolist()

# Perform the query
results = collection.query(
    query_embeddings=[query_embedding],
    n_results=5,
    include=["documents", "distances"]
)

# Display results
for i, (doc, distance) in enumerate(zip(
    results['documents'][0], 
    results['distances'][0]
)):
    print(f"\n--- Result {i+1} ---")
    print(f"Content: {doc}")
    print(f"Distance: {distance}")
    
    print("-" * 50)

NameError: name 'model_embedding' is not defined

## Search with reranking

### VectorSearch

In [5]:
class VectorSearch:
    def __init__(self, vector_collection, embedding_model, cross_encoder):

        self.collection = vector_collection
        self.model_embedding = embedding_model
        self.cross_encoder = cross_encoder
        
    def search(self, query_text, top_k=20, rerank=True, rerank_top_k=6):

        query_vector = self.model_embedding.encode(query_text, normalize_embeddings=True).tolist()
        
        vector_results = self.collection.query(
            query_embeddings=[query_vector],
            n_results=top_k,
            include=["documents", "distances"]
        )
        
        results = []
        for i in range(len(vector_results['documents'][0])):
            doc_id = vector_results['ids'][0][i]
            doc_content = vector_results['documents'][0][i]
            vector_score = 1.0 - vector_results['distances'][0][i]  # Convert distance to similarity
            
            
            results.append({
                'content': doc_content,
                'vector_score': vector_score
            })
        
        # Apply reranking if requested and cross-encoder is available
        if rerank and self.cross_encoder and results:
            # Create pairs for cross-encoder
            rerank_pairs = [(query_text, result['content']) for result in results]
            rerank_scores = self.cross_encoder.predict(rerank_pairs)
            
            # Add rerank scores to results
            for i, score in enumerate(rerank_scores):
                results[i]['rerank_score'] = float(score)
            
            # Sort by rerank score
            results = sorted(results, key=lambda x: x.get('rerank_score', 0), reverse=True)[:rerank_top_k]
        
        return results
    
    def display_results(self, query, results, limit=20):

        print(f"\n=== Kết quả tìm kiếm vector cho: '{query}' ===\n")
        
        for i, doc in enumerate(results[:limit], 1):
            print(f"Kết quả {i}:")
            
            # Hiển thị điểm số
            print(f"Điểm vector: {doc['vector_score']:.4f}")
            if 'rerank_score' in doc:
                print(f"Điểm rerank: {doc['rerank_score']:.4f}")
            
            # Hiển thị nội dung chính nếu có
            if 'content' in doc and doc['content']:
                text = doc['content']
                # Giới hạn độ dài hiển thị
                if len(text) > 200:
                    text = text[:200] + "..."
                print(f"\nNội dung: {text}")
            
            print("-" * 80)
        
        return results 

In [6]:
vector_searcher = VectorSearch(collection, model_embedding, cross_encoder=cross_encoder)
query = "học phí năm 2024"
results = vector_searcher.search(query, rerank=True)
vector_searcher.display_results(query, results)

Be aware, overflowing tokens are not returned for the setting you have chosen, i.e. sequence pairs with the 'longest_first' truncation strategy. So the returned list will always be empty even if some tokens have been removed.
Be aware, overflowing tokens are not returned for the setting you have chosen, i.e. sequence pairs with the 'longest_first' truncation strategy. So the returned list will always be empty even if some tokens have been removed.
Be aware, overflowing tokens are not returned for the setting you have chosen, i.e. sequence pairs with the 'longest_first' truncation strategy. So the returned list will always be empty even if some tokens have been removed.
Be aware, overflowing tokens are not returned for the setting you have chosen, i.e. sequence pairs with the 'longest_first' truncation strategy. So the returned list will always be empty even if some tokens have been removed.
Be aware, overflowing tokens are not returned for the setting you have chosen, i.e. sequence pai


=== Kết quả tìm kiếm vector cho: 'học phí năm 2024' ===

Kết quả 1:
Điểm vector: 0.3283
Điểm rerank: 0.9641

Nội dung: Học phí đào tạo sau đại học năm 2024 
1. Đào tạo sau đại học
Tiến sĩ:
Học phí: 1,317,000 đồng/tín chỉ.
Niên chế: 3,950,000 đồng/tháng (tổng cộng 90 tín chỉ).
Thạc sĩ:
Khối ngành III(Kinh doanh và quản...
--------------------------------------------------------------------------------
Kết quả 2:
Điểm vector: 0.1568
Điểm rerank: 0.0613

Nội dung: Quyền lợi của sinh viên khi tham gia bảo hiểm y tế (2024)Sinh viên sẽ được Ngân sách nhà nước hỗ trợ 30% mức đóng BHYT và đây là bảo hiểm bắt buộc, tất cả SV đều phải tham gia đóng BHYT. Khi có thẻ BH...
--------------------------------------------------------------------------------
Kết quả 3:
Điểm vector: 0.0040
Điểm rerank: 0.0008

Nội dung: Ngành: Sư phạm công nghệ
Chuyên ngành:: Sư phạm công nghệ
Mã ngành: 7140246
Số tín chỉ: 74
Khóa học: 2025-2029
(Quy chế đào tạo trình độ đại học ban hành theo Quyết định số 952/QĐ - ĐHSP

[{'content': 'Học phí đào tạo sau đại học năm 2024 \n1. Đào tạo sau đại học\nTiến sĩ:\nHọc phí: 1,317,000 đồng/tín chỉ.\nNiên chế: 3,950,000 đồng/tháng (tổng cộng 90 tín chỉ).\nThạc sĩ:\nKhối ngành III(Kinh doanh và quản lý, pháp luật):\nHọc phí: 506,000 đồng/tín chỉ.\nNiên chế: 2,025,000 đồng/tháng (tổng cộng 60 tín chỉ).\nKhối ngành V(Toán và thống kê, máy tính và công nghệ thông tin, công nghệ kỹ thuật, kỹ thuật, sản xuất và chế biến. Áp dụng với K19):\nHọc phí: 593,000 đồng/tín chỉ.\nNiên chế: 2,370,000 đồng/tháng (tổng cộng 60 tín chỉ).\n\nHọc phí đào tạo đại học chính quy năm 2024 \n2. Đào tạo đại học chính quy\nKhối ngành I( Khoa học giáo dục và đào tạo giáo viên) & III(Kinh doanh và quản lý, pháp luật):\nHọc phí: 400,000 đồng/tín chỉ.\nNiên chế: 1,350,000 đồng/tháng (tổng cộng 135 tín chỉ).\nKhối ngành V (Toán và thống kê, máy tính và công nghệ thông tin, công nghệ kỹ thuật, kỹ thuật, sản xuất và chế biến. Áp dụng với K19):\nHọc phí: 450,000 đồng/tín chỉ.\nNiên chế: 1,580,000 đ

### Elasticsearch

In [7]:
class ElasticsearchBody:
    def __init__(self, es_client=es, embedding_model=None, es_index="citations", cross_encoder=None):

        self.es = es_client
        self.index_name = es_index
        self.cross_encoder = cross_encoder
        self.model_embedding = model_embedding  # Not used for ES search but kept for API consistency
        
    def search(self, query_text, top_k=20, rerank=True, rerank_top_k=6):
        query = {
            "query": {
                "bool": {
                    "should": [
                        {
                            "match": {
                                "title": {"query": query_text, "boost": 1.0}
                            }
                        },
                        {
                            "match": {
                                "content": {"query": query_text, "boost": 3.0}
                            }
                        }
                    ],
                    "minimum_should_match": 1
                }
            },
            "size": top_k if not rerank else top_k * 2  # Get more results if reranking
        }
        
        es_results = self.es.search(index=self.index_name, body=query)
        results = self._format_results(es_results)
        
        # Apply reranking if requested and cross-encoder is available
        if rerank and self.cross_encoder and results:
            # Create pairs for cross-encoder
            rerank_pairs = [(query_text, result['content']) for result in results]
            rerank_scores = self.cross_encoder.predict(rerank_pairs)
            
            # Add rerank scores to results
            for i, score in enumerate(rerank_scores):
                results[i]['rerank_score'] = float(score)
            
            # Sort by rerank score
            results = sorted(results, key=lambda x: x.get('rerank_score', 0), reverse=True)[:rerank_top_k]
        
        return results
    
    def _format_results(self, results):
        """Format kết quả trả về từ Elasticsearch"""
        hits = results["hits"]["hits"]
        formatted = []
        
        for hit in hits:
            source = hit["_source"]
            
            # Kiểm tra nếu có inner_hits (matched quotes)
            inner_hits = hit.get("inner_hits", {}).get("hits", {}).get("hits", [])
            matched_quotes = []
            
            for inner_hit in inner_hits:
                quote_info = inner_hit["_source"]
                matched_quotes.append({
                    "score": inner_hit["_score"]
                })
            
            # Sort quotes by score
            matched_quotes = sorted(matched_quotes, key=lambda x: x.get('score', 0), reverse=True)
            
            # Chuẩn hóa kết quả
            item = {
                "content": source.get("content", ""),  # Changed from body_text to content
                "title": source.get("title", ""),      # Added title field for consistency
                "es_score": hit["_score"],
                "method": "elasticsearch"
            }
            
            formatted.append(item)
        
        return formatted
    
    def display_results(self, query, results, limit=20):
        """
        Hiển thị kết quả tìm kiếm theo định dạng dễ đọc
        
        Args:
            query: Câu truy vấn gốc
            results: Danh sách kết quả tìm kiếm
            limit: Số lượng kết quả tối đa hiển thị
        """
        print(f"\n=== Kết quả tìm kiếm Elasticsearch cho: '{query}' ===\n")
        
        for i, doc in enumerate(results[:limit], 1):
            print(f"Kết quả {i}:")
            
            # Hiển thị nội dung chính nếu có
            if 'content' in doc and doc['content']:
                text = doc['content']
                # Giới hạn độ dài hiển thị
                if len(text) > 300:
                    text = text[:300] + "..."
                print(f"\nNội dung: {text}")
            
            print("-" * 80)
        
        return results

In [8]:
es_searcher = ElasticsearchBody(es, es_index="test", cross_encoder=cross_encoder)
query = "học phí năm 2024"
results = es_searcher.search(query, rerank=True)
es_searcher.display_results(query, results)

Be aware, overflowing tokens are not returned for the setting you have chosen, i.e. sequence pairs with the 'longest_first' truncation strategy. So the returned list will always be empty even if some tokens have been removed.
Be aware, overflowing tokens are not returned for the setting you have chosen, i.e. sequence pairs with the 'longest_first' truncation strategy. So the returned list will always be empty even if some tokens have been removed.
Be aware, overflowing tokens are not returned for the setting you have chosen, i.e. sequence pairs with the 'longest_first' truncation strategy. So the returned list will always be empty even if some tokens have been removed.
Be aware, overflowing tokens are not returned for the setting you have chosen, i.e. sequence pairs with the 'longest_first' truncation strategy. So the returned list will always be empty even if some tokens have been removed.
Be aware, overflowing tokens are not returned for the setting you have chosen, i.e. sequence pai


=== Kết quả tìm kiếm Elasticsearch cho: 'học phí năm 2024' ===

Kết quả 1:

Nội dung: Học phí đào tạo sau đại học năm 2024 
1. Đào tạo sau đại học
Tiến sĩ:
Học phí: 1,317,000 đồng/tín chỉ.
Niên chế: 3,950,000 đồng/tháng (tổng cộng 90 tín chỉ).
Thạc sĩ:
Khối ngành III(Kinh doanh và quản lý, pháp luật):
Học phí: 506,000 đồng/tín chỉ.
Niên chế: 2,025,000 đồng/tháng (tổng cộng 60 tín chỉ...
--------------------------------------------------------------------------------
Kết quả 2:

Nội dung: Quyền lợi của sinh viên khi tham gia bảo hiểm y tế (2024)Sinh viên sẽ được Ngân sách nhà nước hỗ trợ 30% mức đóng BHYT và đây là bảo hiểm bắt buộc, tất cả SV đều phải tham gia đóng BHYT. Khi có thẻ BHYT SV được hưởng các quyền lợi như sau:
+ Khám chữa bệnh đúng tuyến được hưởng 80% chi phí khám chữa...
--------------------------------------------------------------------------------
Kết quả 3:

Nội dung: Mã trường SKH
Đối tượng tuyển sinh: Tốt nghiệp THPT hoặc tương đương
Phạm vi tuyển sinh: Tuyển sinh

[{'content': 'Học phí đào tạo sau đại học năm 2024 \n1. Đào tạo sau đại học\nTiến sĩ:\nHọc phí: 1,317,000 đồng/tín chỉ.\nNiên chế: 3,950,000 đồng/tháng (tổng cộng 90 tín chỉ).\nThạc sĩ:\nKhối ngành III(Kinh doanh và quản lý, pháp luật):\nHọc phí: 506,000 đồng/tín chỉ.\nNiên chế: 2,025,000 đồng/tháng (tổng cộng 60 tín chỉ).\nKhối ngành V(Toán và thống kê, máy tính và công nghệ thông tin, công nghệ kỹ thuật, kỹ thuật, sản xuất và chế biến. Áp dụng với K19):\nHọc phí: 593,000 đồng/tín chỉ.\nNiên chế: 2,370,000 đồng/tháng (tổng cộng 60 tín chỉ).\n\nHọc phí đào tạo đại học chính quy năm 2024 \n2. Đào tạo đại học chính quy\nKhối ngành I( Khoa học giáo dục và đào tạo giáo viên) & III(Kinh doanh và quản lý, pháp luật):\nHọc phí: 400,000 đồng/tín chỉ.\nNiên chế: 1,350,000 đồng/tháng (tổng cộng 135 tín chỉ).\nKhối ngành V (Toán và thống kê, máy tính và công nghệ thông tin, công nghệ kỹ thuật, kỹ thuật, sản xuất và chế biến. Áp dụng với K19):\nHọc phí: 450,000 đồng/tín chỉ.\nNiên chế: 1,580,000 đ

### HybridSearch

In [9]:
class HybridSearch:
    def __init__(self, vector_search, elasticsearch_search):
        self.vector_search = vector_search
        self.es_search = elasticsearch_search
        
    def _normalize_page_number(self, page):

        if page is None:
            return None
        
        # Convert to string first
        page_str = str(page).strip()
        
        # Check if it's a Roman numeral
        roman_pattern = r'^[IVXLCDM]+$'
        if re.match(roman_pattern, page_str.upper()):
            # Keep Roman numerals as uppercase strings for comparison
            return page_str.upper()
        
        # For Arabic numerals, extract digits and return as string
        digits = ''.join(filter(str.isdigit, page_str))
        if digits:
            return digits
        
        # If no digits and not Roman numeral, return original string
        return page_str
    
    def hybrid_search(self, query_text, top_k=20, alpha=0.8, rerank=True, rerank_top_k=5):

        # Không gọi rerank ở đây vì sẽ rerank sau khi kết hợp kết quả
        vector_results = self.vector_search.search(query_text, top_k=top_k, rerank=False)
        es_results = self.es_search.search(query_text, top_k=top_k, rerank=False)
        
        # Thêm ID vào các kết quả nếu chưa có
        for i, result in enumerate(vector_results):
            if 'id' not in result:
                result['id'] = f"vector_{i}"
            result['method'] = 'vector'
            
        for i, result in enumerate(es_results):
            if 'id' not in result:
                result['id'] = f"es_{i}"
            # Method đã được thêm trong ElasticsearchSearch
            
        # Combine results with deduplication
        combined_results = {}
        seen_pages = set()
        
        # Process vector results
        for result in vector_results:
            normalized_page = self._normalize_page_number(result.get('page'))
            
            # Skip if page number has been seen before
            if normalized_page is not None and normalized_page in seen_pages:
                continue
            
            doc_id = result.get('id')
            combined_results[doc_id] = result.copy()
            combined_results[doc_id]['combined_score'] = alpha * result.get('vector_score', 0)
            
            # Mark the page as seen
            if normalized_page is not None:
                seen_pages.add(normalized_page)
        
        # Process ES results
        for result in es_results:
            normalized_page = self._normalize_page_number(result.get('page'))
            
            # Skip if page number has been seen before
            if normalized_page is not None and normalized_page in seen_pages:
                continue
            
            doc_id = result.get('id')
            
            if doc_id in combined_results:
                # Document already exists from vector search
                combined_results[doc_id]['es_score'] = result.get('es_score', 0)
                combined_results[doc_id]['combined_score'] += (1 - alpha) * result.get('es_score', 0)
                combined_results[doc_id]['method'] = 'hybrid'
                
            else:
                # New document from ES search
                combined_results[doc_id] = result.copy()
                combined_results[doc_id]['combined_score'] = (1 - alpha) * result.get('es_score', 0)
            
            # Mark the page as seen
            if normalized_page is not None:
                seen_pages.add(normalized_page)
        
        # Convert to list and sort by combined score
        results_list = list(combined_results.values())
        results_list.sort(key=lambda x: x.get('combined_score', 0), reverse=True)
        
        # Apply reranking if requested
        if rerank:
            # Ưu tiên sử dụng cross_encoder từ ElasticsearchSearch nếu có
            cross_encoder = self.es_search.cross_encoder or self.vector_search.cross_encoder
            
            if cross_encoder and results_list:
                # Create pairs for cross-encoder
                rerank_pairs = [(query_text, result.get('content', '')) for result in results_list]
                rerank_scores = cross_encoder.predict(rerank_pairs)
                
                # Add rerank scores to results
                for i, score in enumerate(rerank_scores):
                    results_list[i]['rerank_score'] = float(score)
                
                # Sort by rerank score
                results_list = sorted(results_list, key=lambda x: x.get('rerank_score', 0), reverse=True)
                
                # Return top_k results after reranking
                return results_list[:rerank_top_k]
        
        # Return top_k results without reranking
        return results_list[:top_k]
    
    def display_results(self, query, results, limit=10):
        """
        Hiển thị kết quả tìm kiếm theo định dạng dễ đọc
        """
        print(f"\n=== Kết quả tìm kiếm kết hợp cho: '{query}' ===\n")
        
        for i, doc in enumerate(results[:limit], 1):
            print(f"Kết quả {i}:")
            
            # Hiển thị phương pháp và điểm số
            print(f"Phương pháp: {doc.get('method', 'unknown')}")
            
            if 'combined_score' in doc:
                print(f"Điểm tổng hợp: {doc['combined_score']:.4f}")
            if 'vector_score' in doc:
                print(f"Điểm vector: {doc['vector_score']:.4f}")
            if 'es_score' in doc:
                print(f"Điểm ES: {doc['es_score']:.4f}")
            if 'rerank_score' in doc:
                print(f"Điểm rerank: {doc['rerank_score']:.4f}")
            
            # Hiển thị nội dung chính
            if 'content' in doc and doc['content']:
                text = doc['content']
                if len(text) > 200:
                    text = text[:200] + "..."
                print(f"\nNội dung: {text}")
            
            print("-" * 80)
        
        return results

In [10]:
# Đã có sẵn hai class tìm kiếm
vector_search = VectorSearch(
    vector_collection=collection,
    embedding_model=model_embedding,
    cross_encoder=cross_encoder
)

elasticsearch_search = ElasticsearchBody(
    es_client=es,
    # embedding_model=model_embedding,  # Để giữ API nhất quán
    es_index="utehy_v1",
    cross_encoder=cross_encoder
)

# Khởi tạo HybridSearch với cả hai class tìm kiếm
hybrid_search = HybridSearch(
    vector_search=vector_search,
    elasticsearch_search=elasticsearch_search
)

# Sử dụng hybrid search
results = hybrid_search.hybrid_search(
    query_text="học phí năm 2024",
    top_k=15,
    alpha=0.8  # Điều chỉnh tỷ lệ ưu tiên
)

# Hiển thị kết quả
hybrid_search.display_results("Câu truy vấn của bạn", results)

Be aware, overflowing tokens are not returned for the setting you have chosen, i.e. sequence pairs with the 'longest_first' truncation strategy. So the returned list will always be empty even if some tokens have been removed.
Be aware, overflowing tokens are not returned for the setting you have chosen, i.e. sequence pairs with the 'longest_first' truncation strategy. So the returned list will always be empty even if some tokens have been removed.
Be aware, overflowing tokens are not returned for the setting you have chosen, i.e. sequence pairs with the 'longest_first' truncation strategy. So the returned list will always be empty even if some tokens have been removed.
Be aware, overflowing tokens are not returned for the setting you have chosen, i.e. sequence pairs with the 'longest_first' truncation strategy. So the returned list will always be empty even if some tokens have been removed.
Be aware, overflowing tokens are not returned for the setting you have chosen, i.e. sequence pai


=== Kết quả tìm kiếm kết hợp cho: 'Câu truy vấn của bạn' ===

Kết quả 1:
Phương pháp: vector
Điểm tổng hợp: 0.2627
Điểm vector: 0.3283
Điểm rerank: 0.9641

Nội dung: Học phí đào tạo sau đại học năm 2024 
1. Đào tạo sau đại học
Tiến sĩ:
Học phí: 1,317,000 đồng/tín chỉ.
Niên chế: 3,950,000 đồng/tháng (tổng cộng 90 tín chỉ).
Thạc sĩ:
Khối ngành III(Kinh doanh và quản...
--------------------------------------------------------------------------------
Kết quả 2:
Phương pháp: vector
Điểm tổng hợp: 0.1254
Điểm vector: 0.1568
Điểm rerank: 0.0613

Nội dung: Quyền lợi của sinh viên khi tham gia bảo hiểm y tế (2024)Sinh viên sẽ được Ngân sách nhà nước hỗ trợ 30% mức đóng BHYT và đây là bảo hiểm bắt buộc, tất cả SV đều phải tham gia đóng BHYT. Khi có thẻ BH...
--------------------------------------------------------------------------------
Kết quả 3:
Phương pháp: vector
Điểm tổng hợp: 0.1752
Điểm vector: 0.2190
Điểm rerank: 0.0003

Nội dung: Học bổng đầu vào (2024)- Chỉ xét với những sinh viên đư

[{'content': 'Học phí đào tạo sau đại học năm 2024 \n1. Đào tạo sau đại học\nTiến sĩ:\nHọc phí: 1,317,000 đồng/tín chỉ.\nNiên chế: 3,950,000 đồng/tháng (tổng cộng 90 tín chỉ).\nThạc sĩ:\nKhối ngành III(Kinh doanh và quản lý, pháp luật):\nHọc phí: 506,000 đồng/tín chỉ.\nNiên chế: 2,025,000 đồng/tháng (tổng cộng 60 tín chỉ).\nKhối ngành V(Toán và thống kê, máy tính và công nghệ thông tin, công nghệ kỹ thuật, kỹ thuật, sản xuất và chế biến. Áp dụng với K19):\nHọc phí: 593,000 đồng/tín chỉ.\nNiên chế: 2,370,000 đồng/tháng (tổng cộng 60 tín chỉ).\n\nHọc phí đào tạo đại học chính quy năm 2024 \n2. Đào tạo đại học chính quy\nKhối ngành I( Khoa học giáo dục và đào tạo giáo viên) & III(Kinh doanh và quản lý, pháp luật):\nHọc phí: 400,000 đồng/tín chỉ.\nNiên chế: 1,350,000 đồng/tháng (tổng cộng 135 tín chỉ).\nKhối ngành V (Toán và thống kê, máy tính và công nghệ thông tin, công nghệ kỹ thuật, kỹ thuật, sản xuất và chế biến. Áp dụng với K19):\nHọc phí: 450,000 đồng/tín chỉ.\nNiên chế: 1,580,000 đ

## Inference

### QA system

In [23]:
def qa_system(query, search_method="hybrid", top_k=15, rerank_top_k=1, alpha=0.8):

    # Lấy tài liệu liên quan dựa trên phương thức tìm kiếm
    if search_method == "vector":
        vector_searcher = VectorSearch(collection, model_embedding, cross_encoder=cross_encoder)
        relevant_docs = vector_searcher.search(query, rerank=True)
    elif search_method == "elasticsearch":
        es_searcher = ElasticsearchSearch(es, es_index="utehy_v1", cross_encoder=cross_encoder)
        relevant_docs = es_searcher.search(query, rerank=True)
    else:  # hybrid search
        vector_searcher = VectorSearch(collection, model_embedding, cross_encoder=cross_encoder)
        es_searcher = ElasticsearchBody(es, es_index="utehy_v1", cross_encoder=cross_encoder)
        hybrid_searcher = HybridSearch(vector_search=vector_searcher, elasticsearch_search=es_searcher)
        relevant_docs = hybrid_searcher.hybrid_search(query, rerank=True)
    
    formatted_contents = []
    for doc in relevant_docs:
        content = doc.get('content', '')
        formatted_contents.append(content)
    
    context = formatted_contents
    
    # Generate answer using combined context
    answer = generate_answer(query, context)
    
    # Xây dựng kết quả trả về dưới dạng JSON
    result = {
        # "question": query,
        "answer": answer,
        "documents": [content]
    }
    
    return result

### LLM

In [24]:
GROQ_API_KEY = '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'
from groq import Groq

client = Groq(
    api_key=GROQ_API_KEY
)

In [21]:
def generate_answer(query, context):
    prompt = f"""
            Bạn là một người sử dụng tiếng Việt thành thạo.
            Bạn cũng là một tư vấn viên của trường Đại học Sư Phạm Kỹ Thuật Hưng Yên.
            Dựa vào ngữ cảnh dưới đây, hãy trả lời câu hỏi một cách chính xác nhất bằng Tiếng Việt.
            Nếu không biết câu trả lời, hãy lịch sử bảo rằng không biết và không bịa đặt nội dung.
            Luôn trả lời bằng Tiếng Việt, không sử dụng bất cứ ngôn ngữ nào khác:

        Ngữ cảnh: {context}

        Câu hỏi: {query}

        Câu trả lời (bằng Tiếng Việt):"""

    completion = client.chat.completions.create(
        messages=[
            {
                "role": "system",
                "content": "Bạn là trợ lý AI sử dụng tiếng Việt thành thạo. Trả lời đúng trọng tâm, chính xác, không thêm thông tin ngoài lề"
            },
            {
                "role": "user",
                "content": prompt,
            }
        ],
        model="llama3-8b-8192",
        temperature=0.75,
        top_p=0.9,
        # frequency_penalty=0,
        presence_penalty=0.3
        
    )

    return completion.choices[0].message.content

In [31]:
import google.generativeai as genai

# Replace with your actual API key
genai.configure(api_key="AIzaSyCsCUOeHj8bQrfL3VqWD_btn-P8Zkqb5hg") 

In [32]:
def generate_answer(query, context):
    # Initialize the Gemini model (consider doing this outside the function for efficiency)
    model = genai.GenerativeModel('gemini-2.0-flash')

    # Combine system instructions and user prompt for Gemini
    full_prompt = f"""
            Bạn là một trợ lý AI sử dụng tiếng Việt thành thạo, đồng thời là tư vấn viên của trường Đại học Sư Phạm Kỹ Thuật Hưng Yên. 
            Trả lời đúng trọng tâm, chính xác, không thêm thông tin ngoài lề.
            Dựa vào ngữ cảnh dưới đây, hãy trả lời câu hỏi một cách chính xác nhất bằng Tiếng Việt.
            Nếu không biết câu trả lời, hãy lịch sử bảo rằng không biết và không bịa đặt nội dung.
            Luôn trả lời bằng Tiếng Việt, không sử dụng bất cứ ngôn ngữ nào khác.

        Ngữ cảnh: {context}

        Câu hỏi: {query}

        Câu trả lời (bằng Tiếng Việt):"""

    # Configure generation parameters
    generation_config = genai.types.GenerationConfig(
        temperature=0.75,
        top_p=0.9
        # Note: presence_penalty and frequency_penalty don't have direct equivalents 
        # in the standard Gemini API config. You might need to adjust the prompt 
        # or explore advanced features if these are critical.
    )

    # Call the Gemini API
    response = model.generate_content(
        full_prompt,
        generation_config=generation_config
        # Add safety_settings if needed, e.g.,
        # safety_settings={'HARASSMENT': 'block_none'} 
    )

    # Extract the text response
    # Add error handling for cases where the response might be blocked
    try:
        return response.text
    except ValueError:
        # Handle cases where the response was blocked due to safety settings
        # or other issues. You might want to return a default message or log the error.
        print(f"Warning: Gemini response blocked or failed. Response parts: {response.parts}")
        return "Xin lỗi, tôi không thể tạo câu trả lời cho câu hỏi này."
    except Exception as e:
        print(f"An unexpected error occurred: {e}")
        return "Đã xảy ra lỗi khi tạo câu trả lời."

In [33]:
query = "hi"
answer = qa_system(query, search_method="hybrid", alpha=0.8)
# answer = qa_system(query, search_method="elasticsearch")
# answer = qa_system(query, search_method="vector")
print(answer)
# answer

ConnectionError: Connection error caused by: ConnectionError(Connection error caused by: NewConnectionError(<elastic_transport._node._urllib3_chain_certs.HTTPSConnection object at 0x3166e7d10>: Failed to establish a new connection: [Errno 61] Connection refused))

In [30]:
import google.generativeai as genai

# Thiết lập API Key
api_key = "AIzaSyCsCUOeHj8bQrfL3VqWD_btn-P8Zkqb5hg"  # Thay bằng API Key của bạn
genai.configure(api_key=api_key)

# Khởi tạo mô hình
model = genai.GenerativeModel('gemini-2.0-flash')

# Test truy vấn đơn giản
try:
    prompt = "Xin chào, bạn khỏe không?"
    response = model.generate_content(prompt)
    print("Phản hồi từ API:", response.text)
except Exception as e:
    print("Lỗi khi gọi API:", str(e))

Phản hồi từ API: Chào bạn! Tôi khỏe, cảm ơn bạn đã hỏi. Còn bạn thì sao? Hôm nay bạn có gì vui không?

