In [1]:
# r"C:\Users\ungdu\Downloads\Chat_Mini\mini_data.csv"

In [2]:
import os
import pandas as pd
import re
import nltk
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
from sentence_transformers import SentenceTransformer
import chromadb
import uuid
import time
import numpy as np

# Hàm xóa ký tự đặc biệt
def remove_special_characters(text):
    text = re.sub(r'<.*?>', ' ', text)  # Loại bỏ HTML tags
    text = re.sub(r'http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!\*\(\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+', ' ', text)  # Loại bỏ URL
    text = re.sub(r'[^\w\s.!?@]', ' ', text)  # Loại bỏ ký tự đặc biệt
    return text

# Hàm chuyển chữ về chữ thường
def lowercase(text):
    return text.lower()

# Hàm loại bỏ khoảng trắng thừa
def remove_extra_whitespaces(text):
    text = text.strip()  # Xóa khoảng trắng đầu và cuối
    text = re.sub(r'\s+', ' ', text)  # Xóa khoảng trắng thừa trong chuỗi
    return text

# Hàm tổng hợp để tiền xử lý văn bản
def preprocess_text(text):
    text = lowercase(text)
    text = remove_special_characters(text)
    text = remove_extra_whitespaces(text)
    return text

# Hàm xóa các dòng trùng lặp dựa trên một cột cụ thể
def remove_duplicate_rows(df, column_name):
    df.drop_duplicates(subset=column_name, keep='first', inplace=True)
    return df

# Hàm tính TF-IDF cho toàn bộ cột "Câu hỏi"
def calculate_tfidf(data, column_name):
    vectorizer = TfidfVectorizer()
    tfidf_matrix = vectorizer.fit_transform(data[column_name].dropna().tolist())

    # Lưu TF-IDF vào file CSV
    tfidf_df = pd.DataFrame(tfidf_matrix.toarray(), columns=vectorizer.get_feature_names_out(), index=data[column_name].dropna())
    tfidf_df.to_csv("tfidf_values.csv", index=True)

    return tfidf_matrix

# Hàm chunking semantic để chia đoạn văn
class SemanticChunker:
    def __init__(self, threshold=0.3):
        self.threshold = threshold
        nltk.download("punkt", quiet=True)

    def embed_function(self, sentences):
        vectorizer = TfidfVectorizer()
        vectors = vectorizer.fit_transform(sentences).toarray()
        return vectors

    def split_text(self, text):
        sentences = nltk.sent_tokenize(text)  # Tách câu
        sentences = [item for item in sentences if item and item.strip()]
        if not sentences:
            return []

        vectors = self.embed_function(sentences)
        similarities = cosine_similarity(vectors)

        # Lưu cosine similarity vào file CSV
        cosine_df = pd.DataFrame(similarities, index=sentences, columns=sentences)
        cosine_df.to_csv("cosine_similarity.csv", index=True)

        chunks = [[sentences[0]]]  # Bắt đầu chunk đầu tiên
        for i in range(1, len(sentences)):
            sim_score = similarities[i-1, i]
            if sim_score >= self.threshold:
                chunks[-1].append(sentences[i])
            else:
                chunks.append([sentences[i]])

        return [' '.join(chunk) for chunk in chunks]

# Hàm chia DataFrame thành các batch
def divide_dataframe(df, batch_size):
    return [df.iloc[i:i + batch_size] for i in range(0, len(df), batch_size)]

# Đọc file CSV đầu vào
input_file = r"C:\Users\ungdu\Downloads\Chat_Mini\mini_data.csv"
output_file = "processed_data.csv"
chunked_file = "chunked_data.csv"
embedding_file = "embedding_data.csv"

try:
    # Đọc dữ liệu từ file CSV
    df = pd.read_csv(input_file)

    # Kiểm tra nếu DataFrame không rỗng
    if not df.empty:
        # Tiền xử lý cột "Câu hỏi"
        if 'Câu hỏi' in df.columns and 'Câu trả lời' in df.columns:
            df['Câu hỏi'] = df['Câu hỏi'].apply(preprocess_text)
            df['Câu trả lời'] = df['Câu trả lời'].apply(preprocess_text)

        # Xóa các dòng trùng lặp dựa trên cột 'Câu hỏi' nếu tồn tại
        if 'Câu hỏi' in df.columns and 'Câu trả lời' in df.columns:
            df = remove_duplicate_rows(df, 'Câu hỏi')
            df = remove_duplicate_rows(df, 'Câu trả lời')

        # Lưu dữ liệu đã tiền xử lý ra file mới
        df.to_csv(output_file, index=False)
        print(f"Dữ liệu đã được xử lý và lưu vào {output_file}")

        # Tính TF-IDF cho cột "Câu hỏi"
        tfidf_matrix = calculate_tfidf(df, 'Câu hỏi')

        # Chunking dữ liệu
        chunker = SemanticChunker(threshold=0.3)
        chunk_records = []  # Danh sách chứa các bản ghi mới với từng chunk

        if 'Câu hỏi' in df.columns:
            for _, row in df.iterrows():
                selected_text = row['Câu hỏi']
                if isinstance(selected_text, str) and selected_text.strip():
                    # Gọi hàm chunking
                    chunks = chunker.split_text(selected_text)
                    # Lặp qua từng chunk và tạo bản ghi mới
                    for chunk in chunks:
                        new_record = row.to_dict()
                        new_record['chunk'] = chunk  # Thêm chunk vào bản ghi
                        chunk_records.append(new_record)

        # Tạo DataFrame mới từ các bản ghi đã mở rộng chunk
        chunked_df = pd.DataFrame(chunk_records)

        # Lưu dữ liệu đã chunking ra file mới
        chunked_df.to_csv(chunked_file, index=False)
        print(f"Dữ liệu đã được xử lý và lưu vào {chunked_file}")

        # Embedding dữ liệu
        embedding_model = SentenceTransformer('keepitreal/vietnamese-sbert')

        # Tính toán embedding từ cột chunk trong chunked_df
        chunked_df['embedding'] = chunked_df['chunk'].apply(
            lambda x: embedding_model.encode(x) if isinstance(x, str) else None
        )

        # Lưu embedding ra file CSV
        chunked_df.to_csv(embedding_file, index=False)
        print(f"Embedding đã được lưu vào {embedding_file}")

        # Kết nối với Chroma và lưu dữ liệu theo batch
        client = chromadb.PersistentClient("db")
        collection = client.get_or_create_collection("embeddings_collection")
        batch_size = 256
        batches = divide_dataframe(chunked_df, batch_size)

        for i, batch in enumerate(batches):
            ids = [str(uuid.uuid4()) for _ in range(len(batch))]
            documents = batch['chunk'].tolist()
            embeddings = batch['embedding'].tolist()
            metadatas = [
                {
                    "chunk": chunk,
                    "Question": question,
                    "Answer": answer
                }
                for chunk, question, answer in zip(batch['chunk'], batch['Câu hỏi'], batch['Câu trả lời'])
            ]

            collection.add(
                ids=ids,
                documents=documents,
                embeddings=embeddings,
                metadatas=metadatas
            )

            # Hiển thị metadata trong batch
            print(f"Batch {i + 1}/{len(batches)}")
            for metadata in metadatas:
                print(metadata)

    else:
        print("Dữ liệu đầu vào rỗng!")

except FileNotFoundError:
    print(f"Không tìm thấy file {input_file}!")
except Exception as e:
    print(f"Đã xảy ra lỗi: {str(e)}")


Dữ liệu đã được xử lý và lưu vào processed_data.csv
Dữ liệu đã được xử lý và lưu vào chunked_data.csv
Embedding đã được lưu vào embedding_data.csv
Batch 1/1
{'chunk': 'trường đại học công nghệ thông tin dhqg tp.hcm được thành lập từ khi nào?', 'Question': 'trường đại học công nghệ thông tin dhqg tp.hcm được thành lập từ khi nào?', 'Answer': 'trường đại học công nghệ thông tin dhqg tp.hcm được thành lập từ ngày 8 tháng 6 năm 2006. trường đại học công nghệ thông tin uit đại học quốc gia thành phố hồ chí minh được thành lập vào ngày 8 tháng 6 năm 2006 theo quyết định của thủ tướng chính phủ.'}
{'chunk': 'trường uit đại học công nghệ thông tin dhqg tp.hcm có những thành tựu gì nổi bật trong lĩnh vực đào tạo?', 'Question': 'trường uit đại học công nghệ thông tin dhqg tp.hcm có những thành tựu gì nổi bật trong lĩnh vực đào tạo?', 'Answer': 'trường đại học công nghệ thông tin uit đã đạt được nhiều thành tựu nổi bật trong lĩnh vực đào tạo bao gồm chất lượng đào tạo uit luôn nằm trong top các t

In [6]:
import os
import numpy as np
from sentence_transformers import SentenceTransformer
import chromadb
import google.generativeai as genai

# Configure Generative AI
os.environ['GOOGLE_API_KEY'] = "AIzaSyAgOBMLyULtQE6PBI6u6v-bawhlF3UkhNI"
genai.configure(api_key=os.environ['GOOGLE_API_KEY'])
modelai = genai.GenerativeModel("gemini-1.5-flash")

# Load SentenceTransformer model
encoder_model = SentenceTransformer('keepitreal/vietnamese-sbert')

# Connect to ChromaDB
client = chromadb.PersistentClient("db")
collection = client.get_or_create_collection("embeddings_collection")

# Verify collection embedding dimension
def verify_embedding_dimension(collection, expected_dimension=768):
    try:
        # Generate a dummy embedding to verify
        dummy_embedding = [0.0] * expected_dimension
        collection.query(query_embeddings=[dummy_embedding], n_results=1)
        print("Embedding dimension matches expected size.")
    except Exception as e:
        print(f"Error: Embedding dimension verification failed. Details: {str(e)}")

# Define vector search function
def vector_search(query, collection, columns_to_answer, number_docs_retrieval=2):
    query_embeddings = encoder_model.encode([query])  # Ensure embeddings are in the correct dimension

    if isinstance(query_embeddings, np.ndarray):
        if query_embeddings.shape[1] != 768:
            raise ValueError(f"Query embedding dimension {query_embeddings.shape[1]} does not match required dimension 768.")
        query_embeddings = query_embeddings.tolist()  # Convert numpy array to list

    search_results = collection.query(
        query_embeddings=query_embeddings,
        n_results=number_docs_retrieval
    )

    metadatas = search_results['metadatas']
    scores = search_results['distances']

    search_result = ""
    for i, (meta, score) in enumerate(zip(metadatas[0], scores[0]), start=1):
        search_result += f"\n{i}) Distance: {score:.4f}"
        for column in columns_to_answer:
            if column in meta:
                search_result += f" {column.capitalize()}: {meta.get(column)}"
        search_result += "\n"

    return metadatas, search_result

# Define HYDE-based search function
def generate_hypothetical_documents(model, query, num_samples=10):
    hypothetical_docs = []
    for _ in range(num_samples):
        enhanced_prompt = f"Write a paragraph that answers the question: {query}"
        response = model.generate_content(enhanced_prompt)
        if hasattr(response, 'content'):
            hypothetical_docs.append(response.content)
    return hypothetical_docs

def encode_hypothetical_documents(documents, encoder_model):
    if not documents:
        raise ValueError("No hypothetical documents generated. Cannot encode empty documents.")

    embeddings = [encoder_model.encode(doc) for doc in documents]  # Corrected dimension issue
    avg_embedding = np.mean(embeddings, axis=0)

    if isinstance(avg_embedding, np.ndarray):
        if avg_embedding.shape[0] != 768:
            raise ValueError(f"Aggregated embedding dimension {avg_embedding.shape[0]} does not match required dimension 768.")
        avg_embedding = avg_embedding.tolist()  # Convert numpy array to list

    return [avg_embedding]  # Return as a list of one embedding

def hyde_search(encoder_model, query, collection, columns_to_answer, number_docs_retrieval=2, num_samples=2):
    hypothetical_documents = generate_hypothetical_documents(modelai, query, num_samples)

    print("Hypothetical Documents:", hypothetical_documents)

    if not hypothetical_documents:
        print("No hypothetical documents generated. Skipping HYDE search.")
        return [], "No hypothetical documents generated."

    # Encode the hypothetical documents into embeddings
    aggregated_embedding = encode_hypothetical_documents(hypothetical_documents, encoder_model)

    # Perform the search on the collection with the generated embeddings
    search_results = collection.query(
        query_embeddings=aggregated_embedding,
        n_results=number_docs_retrieval
    )

    search_result = ""
    metadatas = search_results['metadatas']

    # Format the search results
    for i, meta in enumerate(metadatas[0], start=1):
        search_result += f"\n{i})"
        for column in columns_to_answer:
            if column in meta:
                search_result += f" {column.capitalize()}: {meta.get(column)}"
        search_result += "\n"

    return metadatas, search_result

# Verify embedding dimension
verify_embedding_dimension(collection)

# Test the search methods
prompt = "Ngành Thương mại Điện tử có điểm chuẩn năm 2024 "
columns_to_select = ["chunk", "Question", "Answer"]  # Các cột cần lấy dữ liệu
# columns_to_select = [col for col in chunked_df.columns if col != 'chunk'] 

# Search using Chroma
print("--- ChromaDB Search Results ---")
metadatas_chroma, result_chroma = vector_search(prompt, collection, columns_to_select)
print(result_chroma)

# Search using HYDE and Gemini
print("\n--- HYDE Search Results ---")
metadatas_hyde, result_hyde = hyde_search(encoder_model, prompt, collection, columns_to_select)
print(result_hyde)

# Generate enhanced prompt
retrieved_data = result_chroma + "\n" + result_hyde
enhanced_prompt = f"Câu hỏi của người dùng là: \"{prompt}\". Trả lời câu hỏi của người dùng dựa trên các dữ liệu sau: \n{retrieved_data}"

# Generate final answer
print("\n--- Final Answer Generated by Gemini ---")
response = modelai.generate_content(enhanced_prompt)
if hasattr(response, 'text'):
    print(response.text)

Embedding dimension matches expected size.
--- ChromaDB Search Results ---

1) Distance: 83.5368 Chunk: trường uit đại học công nghệ thông tin dhqg tp.hcm có những thành tựu gì nổi bật trong lĩnh vực đào tạo? Question: trường uit đại học công nghệ thông tin dhqg tp.hcm có những thành tựu gì nổi bật trong lĩnh vực đào tạo? Answer: trường đại học công nghệ thông tin uit đã đạt được nhiều thành tựu nổi bật trong lĩnh vực đào tạo bao gồm chất lượng đào tạo uit luôn nằm trong top các trường đại học hàng đầu về công nghệ thông tin tại việt nam. chương trình đào tạo của trường được thiết kế theo chuẩn quốc tế giúp sinh viên có kiến thức vững vàng và kỹ năng thực tiễn. giải thưởng và thành tích sinh viên uit thường xuyên đạt giải cao trong các cuộc thi quốc gia và quốc tế như olympic tin học acm icpc và các cuộc thi về an ninh mạng. hợp tác quốc tế uit có nhiều chương trình hợp tác với các trường đại học và tổ chức quốc tế giúp sinh viên có cơ hội học tập và nghiên cứu ở nước ngoài. cơ sở vật 