In [1]:
import os
import pandas as pd
import re
import nltk
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
from sentence_transformers import SentenceTransformer
import chromadb
import uuid
import time
import numpy as np

# Hàm xóa ký tự đặc biệt
def remove_special_characters(text):
    text = re.sub(r'<.*?>', ' ', text)  # Loại bỏ HTML tags
    text = re.sub(r'http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!\*\(\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+', ' ', text)  # Loại bỏ URL
    text = re.sub(r'[^\w\s.!?@]', ' ', text)  # Loại bỏ ký tự đặc biệt
    return text

# Hàm chuyển chữ về chữ thường
def lowercase(text):
    return text.lower()

# Hàm loại bỏ khoảng trắng thừa
def remove_extra_whitespaces(text):
    text = text.strip()  # Xóa khoảng trắng đầu và cuối
    text = re.sub(r'\s+', ' ', text)  # Xóa khoảng trắng thừa trong chuỗi
    return text

# Hàm tổng hợp để tiền xử lý văn bản
def preprocess_text(text):
    text = lowercase(text)
    text = remove_special_characters(text)
    text = remove_extra_whitespaces(text)
    return text

# Hàm xóa các dòng trùng lặp dựa trên một cột cụ thể
def remove_duplicate_rows(df, column_name):
    df.drop_duplicates(subset=column_name, keep='first', inplace=True)
    return df

In [2]:
class SemanticChunker:
    def __init__(self, threshold=0.3, output_dir="output_details"):
        self.threshold = threshold
        self.output_dir = output_dir
        nltk.download("punkt", quiet=True)

        # Create output directory if it doesn't exist
        if not os.path.exists(self.output_dir):
            os.makedirs(self.output_dir)

        # Define Vietnamese stop words
        self.stop_words = [
            "và", "hoặc", "nhưng", "là", "có", "một", "những", "đó", "đây", "kia",
            "với", "trên", "trong", "này", "nọ", "của", "cho", "từ", "để", "vì",
            "khi", "bởi", "thì", "lại", "đã", "sẽ", "rất", "cũng", "nữa", "hơn",
            "nào", "đều", "đang", "rằng", "vẫn", "chỉ", "cả", "tất", "vậy",
            "thế", "sao", "nên", "ra", "gì"
        ]

    def embed_function(self, sentences, row_index):
        vectorizer = TfidfVectorizer(stop_words=self.stop_words)
        tfidf_matrix = vectorizer.fit_transform(sentences).toarray()
        feature_names = vectorizer.get_feature_names_out()

        # Calculate TF, IDF, and TF-IDF
        tf = tfidf_matrix / np.sum(tfidf_matrix, axis=1, keepdims=True)
        idf = vectorizer.idf_
        tfidf = tf * idf

        # Save details to CSV
        tf_df = pd.DataFrame(tf, columns=feature_names)
        tf_df.to_csv(f"{self.output_dir}/row_{row_index}_TF.csv", index=False)

        idf_df = pd.DataFrame({"Term": feature_names, "IDF": idf})
        idf_df.to_csv(f"{self.output_dir}/row_{row_index}_IDF.csv", index=False)

        tfidf_df = pd.DataFrame(tfidf, columns=feature_names)
        tfidf_df.to_csv(f"{self.output_dir}/row_{row_index}_TFIDF.csv", index=False)

        print(f"Details for row {row_index} saved to {self.output_dir}")
        return tfidf_matrix

    def split_text(self, text, row_index):
        sentences = nltk.sent_tokenize(text)
        print(f"Sentence Tokenization Result for row {row_index}:", sentences)

        # Save tokenized sentences to CSV
        sentences_df = pd.DataFrame({"Sentences": sentences})
        sentences_df.to_csv(f"{self.output_dir}/row_{row_index}_Sentences.csv", index=False)

        if not sentences:
            return []

        vectors = self.embed_function(sentences, row_index)
        similarities = cosine_similarity(vectors)

        # Save cosine similarity matrix to CSV
        similarity_df = pd.DataFrame(similarities, index=sentences, columns=sentences)
        similarity_df.to_csv(f"{self.output_dir}/row_{row_index}_CosineSimilarity.csv")

        print(f"Cosine Similarity Matrix for row {row_index} saved to {self.output_dir}")
    
        chunks = [[sentences[0]]]
        for i in range(1, len(sentences)):
            sim_score = similarities[i - 1, i]
            if sim_score >= self.threshold:
                chunks[-1].append(sentences[i])
            else:
                chunks.append([sentences[i]])

        return [' '.join(chunk) for chunk in chunks]

# Hàm chia DataFrame thành các batch
def divide_dataframe(df, batch_size):
    return [df.iloc[i:i + batch_size] for i in range(0, len(df), batch_size)]
    
    

In [3]:
# Đọc file CSV đầu vào
input_file = r"C:\Users\ungdu\Downloads\Chat_Mini\mini_data.csv"
output_file = "processed_data.csv"
chunked_file = "chunked_data.csv"
embedding_file = "embedding_data.csv"
output_dir = r"C:\Users\ungdu\Downloads\Chat_Mini\Answer" 

try:
    # Đọc dữ liệu từ file CSV
    df = pd.read_csv(input_file)

    # Kiểm tra nếu DataFrame không rỗng
    if not df.empty:
        # Tiền xử lý cột "Câu hỏi"
        if 'Câu hỏi' in df.columns and 'Câu trả lời' in df.columns:
            df['Câu hỏi'] = df['Câu hỏi'].apply(preprocess_text)
            df['Câu trả lời'] = df['Câu trả lời'].apply(preprocess_text)

        # Xóa các dòng trùng lặp dựa trên cột 'Câu hỏi' nếu tồn tại
        if 'Câu hỏi' in df.columns and 'Câu trả lời' in df.columns:
            df = remove_duplicate_rows(df, 'Câu hỏi')
            df = remove_duplicate_rows(df, 'Câu trả lời')

        # Lưu dữ liệu đã tiền xử lý ra file mới
        df.to_csv(output_file, index=False)
        print(f"Dữ liệu đã được xử lý và lưu vào {output_file}")


        chunker = SemanticChunker(threshold=0.3, output_dir=output_dir)
        chunk_records = []

        if 'Câu trả lời' in df.columns:
            for index, row in df.iterrows():
                selected_text = row['Câu trả lời']
                if isinstance(selected_text, str) and selected_text.strip():
                    chunks = chunker.split_text(selected_text, row_index=index)
                    for chunk in chunks:
                        new_record = row.to_dict()
                        new_record['chunk'] = chunk
                        chunk_records.append(new_record)

        chunked_df = pd.DataFrame(chunk_records)
        chunked_df.to_csv(chunked_file, index=False)
        print(f"Chunked data saved to {chunked_file}")

        # Embedding dữ liệu
        embedding_model = SentenceTransformer('keepitreal/vietnamese-sbert')

        # Tính toán embedding từ cột chunk trong chunked_df
        chunked_df['embedding'] = chunked_df['chunk'].apply(
            lambda x: embedding_model.encode(x) if isinstance(x, str) else None
        )

        # Lưu embedding ra file CSV
        chunked_df.to_csv(embedding_file, index=False)
        print(f"Embedding đã được lưu vào {embedding_file}")

        # Kết nối với Chroma và lưu dữ liệu theo batch
        client = chromadb.PersistentClient("db")
        collection = client.get_or_create_collection("embeddings_collection")
        batch_size = 256
        batches = divide_dataframe(chunked_df, batch_size)

        for i, batch in enumerate(batches):
            ids = [str(uuid.uuid4()) for _ in range(len(batch))]
            documents = batch['chunk'].tolist()
            embeddings = batch['embedding'].tolist()
            metadatas = [
                {
                    "chunk": chunk,
                    "Question": question,
                    "Answer": answer
                }
                for chunk, question, answer in zip(batch['chunk'], batch['Câu hỏi'], batch['Câu trả lời'])
            ]

            collection.add(
                ids=ids,
                documents=documents,
                embeddings=embeddings,
                metadatas=metadatas
            )

            # Hiển thị metadata trong batch
            print(f"Batch {i + 1}/{len(batches)}")
            for metadata in metadatas:
                print(metadata)

    else:
        print("Dữ liệu đầu vào rỗng!")

except FileNotFoundError:
    print(f"Không tìm thấy file {input_file}!")
except Exception as e:
    print(f"Đã xảy ra lỗi: {str(e)}")

Dữ liệu đã được xử lý và lưu vào processed_data.csv
Sentence Tokenization Result for row 0: ['quả cam ngon.', 'quả táo dở.', 'quả chanh chua.', 'quả mít to.', 'quả mít rất thơm nữa']
Details for row 0 saved to C:\Users\ungdu\Downloads\Chat_Mini\Answer
Cosine Similarity Matrix for row 0 saved to C:\Users\ungdu\Downloads\Chat_Mini\Answer
Sentence Tokenization Result for row 1: ['quả cam có hình tròn.', 'quả táo có hình tròn hơi nhỏ.', 'quả chanh hình bầu dục.', 'quả mít to dài có vỏ xù xì.', 'quả mít có thể lấy gỗ']
Details for row 1 saved to C:\Users\ungdu\Downloads\Chat_Mini\Answer
Cosine Similarity Matrix for row 1 saved to C:\Users\ungdu\Downloads\Chat_Mini\Answer
Chunked data saved to chunked_data.csv
Embedding đã được lưu vào embedding_data.csv
Batch 1/1
{'chunk': 'quả cam ngon.', 'Question': 'các quả có mùi vị như thế nào', 'Answer': 'quả cam ngon. quả táo dở. quả chanh chua. quả mít to. quả mít rất thơm nữa'}
{'chunk': 'quả táo dở.', 'Question': 'các quả có mùi vị như thế nào', '

In [4]:
import os
import numpy as np
from sentence_transformers import SentenceTransformer
import chromadb
import google.generativeai as genai
import pandas as pd

# Configure Generative AI
os.environ['GOOGLE_API_KEY'] = "AIzaSyAgOBMLyULtQE6PBI6u6v-bawhlF3UkhNI"
genai.configure(api_key=os.environ['GOOGLE_API_KEY'])
modelai = genai.GenerativeModel("gemini-1.5-flash")

# Load SentenceTransformer model
encoder_model = SentenceTransformer('keepitreal/vietnamese-sbert')

# Connect to ChromaDB
client = chromadb.PersistentClient("db")
collection = client.get_or_create_collection("embeddings_collection")

# Verify collection embedding dimension
def verify_embedding_dimension(collection, expected_dimension=768):
    try:
        # Generate a dummy embedding to verify
        dummy_embedding = [0.0] * expected_dimension
        collection.query(query_embeddings=[dummy_embedding], n_results=1)
        print("Embedding dimension matches expected size.")
    except Exception as e:
        print(f"Error: Embedding dimension verification failed. Details: {str(e)}")

# Define vector search function
def vector_search(query, collection, columns_to_answer, number_docs_retrieval=2):
    query_embeddings = encoder_model.encode([query])

    if isinstance(query_embeddings, np.ndarray):
        query_embeddings = query_embeddings.tolist()  # Convert numpy array to list

    search_results = collection.query(
        query_embeddings=query_embeddings,
        n_results=number_docs_retrieval
    )

    metadatas = search_results['metadatas']
    scores = search_results['distances']

    search_result = ""
    for i, (meta, score) in enumerate(zip(metadatas[0], scores[0]), start=1):
        search_result += f"\n{i}) Distance: {score:.4f}"
        for column in columns_to_answer:
            if column in meta:
                search_result += f" {column.capitalize()}: {meta.get(column)}"
        search_result += "\n"

    return metadatas, search_result

# Define HYDE-based search function
def generate_hypothetical_documents(model, query, num_samples=10):
    hypothetical_docs = []
    for _ in range(num_samples):
        enhanced_prompt = f"Write a paragraph that answers the question: {query}"
        response = model.generate_content(enhanced_prompt)
        if hasattr(response, 'content'):
            hypothetical_docs.append(response.content)
    return hypothetical_docs

def encode_hypothetical_documents(documents, encoder_model):
    if not documents:
        raise ValueError("No hypothetical documents generated. Cannot encode empty documents.")

    embeddings = [encoder_model.encode(doc) for doc in documents]
    avg_embedding = np.mean(embeddings, axis=0)

    if isinstance(avg_embedding, np.ndarray):
        avg_embedding = avg_embedding.tolist()  # Convert numpy array to list

    return [avg_embedding]  # Return as a list of one embedding

def hyde_search(encoder_model, query, collection, columns_to_answer, number_docs_retrieval=2, num_samples=2):
    hypothetical_documents = generate_hypothetical_documents(modelai, query, num_samples)

    print("Hypothetical Documents:", hypothetical_documents)

    if not hypothetical_documents:
        print("No hypothetical documents generated. Skipping HYDE search.")
        return [], "No hypothetical documents generated."

    # Encode the hypothetical documents into embeddings
    aggregated_embedding = encode_hypothetical_documents(hypothetical_documents, encoder_model)

    # Perform the search on the collection with the generated embeddings
    search_results = collection.query(
        query_embeddings=aggregated_embedding,
        n_results=number_docs_retrieval
    )

    search_result = ""
    metadatas = search_results['metadatas']

    # Format the search results
    for i, meta in enumerate(metadatas[0], start=1):
        search_result += f"\n{i})"
        for column in columns_to_answer:
            if column in meta:
                search_result += f" {column.capitalize()}: {meta.get(column)}"
        search_result += "\n"

    return metadatas, search_result

In [5]:
# Test prompt with vector search and HYDE search
def test_prompt_with_search(query, collection, columns_to_answer, number_docs_retrieval=2):
    # Vector search + LLM
    metadatas_vector, retrieved_data_vector = vector_search(query, collection, columns_to_answer, number_docs_retrieval)
    enhanced_prompt_vector = f"Bạn là chuyên gia về tư vấn về trái cây, nên đưa ra câu trả lời liên quan đến trái cây: {query}. Dữ liệu được lấy: {retrieved_data_vector}"
    response_vector = modelai.generate_content(enhanced_prompt_vector)

    if hasattr(response_vector, 'text'):
        response_vector = response_vector.text

    print("\n--- Vector Search + LLM ---")
    print("Retrieved Data:", retrieved_data_vector)
    print("LLM Response:", response_vector)

    # HYDE search + LLM
    metadatas_hyde, retrieved_data_hyde = hyde_search(encoder_model, query, collection, columns_to_answer, number_docs_retrieval)
    enhanced_prompt_hyde = f"Bạn là chuyên gia về tư vấn về trái cây, nên đưa ra câu trả lời liên quan đến trái cây: {query}. Dữ liệu được lấy: {retrieved_data_hyde}"
    response_hyde = modelai.generate_content(enhanced_prompt_hyde)

    if hasattr(response_hyde, 'text'):
        response_hyde = response_hyde.text

    print("\n--- HYDE Search + LLM ---")
    print("Retrieved Data:", retrieved_data_hyde)
    print("LLM Response:", response_hyde)

# Define test parameters
test_query = "quả cam có hình gì"
columns_to_answer = ["chunk", "Câu hỏi", "Câu trả lời"]
number_docs_retrieval = 2

# Run the test
test_prompt_with_search(test_query, collection, columns_to_answer, number_docs_retrieval)



--- Vector Search + LLM ---
Retrieved Data: 
1) Distance: 36.5667 Chunk: quả cam ngon.

2) Distance: 36.5667 Chunk: quả cam ngon.

LLM Response: Dựa trên dữ liệu cung cấp, chỉ có thông tin về chất lượng của quả cam ("quả cam ngon") chứ không có thông tin về hình dạng.  Tuy nhiên, dựa trên kiến thức chung về quả cam, **quả cam thường có hình cầu hoặc hình hơi bầu dục**.  Không có dữ liệu nào trong các đoạn văn bản cho phép xác định hình dạng chính xác hơn.

Hypothetical Documents: []
No hypothetical documents generated. Skipping HYDE search.

--- HYDE Search + LLM ---
Retrieved Data: No hypothetical documents generated.
LLM Response: Quả cam thường có hình cầu, tuy nhiên, hình dạng chính xác có thể thay đổi tùy thuộc vào giống cam, điều kiện sinh trưởng và giai đoạn phát triển.  Một số quả cam có thể hơi dẹt ở hai đầu hoặc hơi bầu dục.  Nhưng nhìn chung, hình cầu là mô tả chính xác nhất về hình dạng của một quả cam.

