## Flow xử lý Chi tiết 

###  Thử Viện Cần Thiết

In [119]:
import pandas as pd
import nltk
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.feature_extraction.text import TfidfVectorizer
import chromadb
from chromadb.config import Settings
from sentence_transformers import SentenceTransformer
import numpy as np
nltk.download("punkt", quiet=True)


True

# Xử lý nhập Câu
## File data bao gồm 2 cột "Câu hỏi" và "Câu trả lời"

In [120]:
file_path = r'/home/quang-anh/Bản tải về/code/chatbot_uit/datainput.csv' #import data
data = pd.read_csv(file_path)
data

Unnamed: 0,Câu hỏi,Câu trả lời
0,Các quả có mùi vị như thế nào?,Quả cam ngon. Quả táo dở. Quả chanh chua. Quả ...
1,Các quả có hình dáng như thế nào?,"Quả cam có hình tròn. Quả táo có hình tròn, hơ..."


## Bước 1: Sử dụng natrual language toolkit để chia thành các câu 

In [121]:
for _, row in data.iterrows():
    text = row.get("Câu trả lời", "") # sử dụng câu trả lời
    if text and isinstance(text, str):
        sentences = nltk.sent_tokenize(text) # chia văn bản thành các câu theo dấu .
        display(sentences)

['Quả cam ngon.',
 'Quả táo dở.',
 'Quả chanh chua.',
 'Quả mít to.',
 'Quả mít rất thơm nữa']

['Quả cam có hình tròn.',
 'Quả táo có hình tròn, hơi nhỏ.',
 'Quả chanh hình bầu dục.',
 'Quả mít to dài có vỏ xù xì.',
 'Quả mít có thể lấy gỗ']

#### Sau khi tính toán độ tương đương với với các cặp câu liền kề thì câu 4 và câu 5 có độ tương đồng cao, nên sẽ gộp 2 câu này lại.

## Thêm cột chunk và sắp xếp các chunk theo đúng bộ câu hỏi và câu trả lời

In [122]:
def get_cosine_similarity_test(sentences):
    # Vector hóa các câu bằng TfidfVectorizer
    vectorizer = TfidfVectorizer()
    vectors = vectorizer.fit_transform(sentences) 
    # Tính toán độ tương đồng cosine giữa các câu
    cosine_sim = cosine_similarity(vectors)
    return cosine_sim

def split_into_chunks(sentences, threshold=0.3):
    chunks = []
    current_chunk = [sentences[0]]
    cosine_sim = get_cosine_similarity_test(sentences)

    for i in range(1, len(sentences)):
        if cosine_sim[i-1, i] >= threshold:
            current_chunk.append(sentences[i])
        else:
            chunks.append(' '.join(current_chunk))
            current_chunk = [sentences[i]]
    
    chunks.append(' '.join(current_chunk))  # Đảm bảo chunk cuối cùng được thêm vào
    return chunks

chunk_records = []
for _, row in data.iterrows():
    text = row.get("Câu trả lời", "")
    if text and isinstance(text, str):
        sentences = nltk.sent_tokenize(text)
        chunks = split_into_chunks(sentences, threshold=0.3)
        # Lưu các chunk vào danh sách
        for chunk in chunks:
            chunk_record = {**row.to_dict(), 'chunk': chunk} 
            chunk_records.append(chunk_record)
chunks_df = pd.DataFrame(chunk_records)
chunks_df

Unnamed: 0,Câu hỏi,Câu trả lời,chunk
0,Các quả có mùi vị như thế nào?,Quả cam ngon. Quả táo dở. Quả chanh chua. Quả ...,Quả cam ngon.
1,Các quả có mùi vị như thế nào?,Quả cam ngon. Quả táo dở. Quả chanh chua. Quả ...,Quả táo dở.
2,Các quả có mùi vị như thế nào?,Quả cam ngon. Quả táo dở. Quả chanh chua. Quả ...,Quả chanh chua.
3,Các quả có mùi vị như thế nào?,Quả cam ngon. Quả táo dở. Quả chanh chua. Quả ...,Quả mít to. Quả mít rất thơm nữa
4,Các quả có hình dáng như thế nào?,"Quả cam có hình tròn. Quả táo có hình tròn, hơ...","Quả cam có hình tròn. Quả táo có hình tròn, hơ..."
5,Các quả có hình dáng như thế nào?,"Quả cam có hình tròn. Quả táo có hình tròn, hơ...",Quả chanh hình bầu dục.
6,Các quả có hình dáng như thế nào?,"Quả cam có hình tròn. Quả táo có hình tròn, hơ...",Quả mít to dài có vỏ xù xì.
7,Các quả có hình dáng như thế nào?,"Quả cam có hình tròn. Quả táo có hình tròn, hơ...",Quả mít có thể lấy gỗ


#### Các chunk sẽ được sắp xếp đúng với các cặp câu hỏi và câu trả lời

## SAVE DATA - Lưu data vào chromaDB


In [123]:
import math

def divide_dataframe(df, batch_size):
    num_batches = math.ceil(len(df) / batch_size)  # Tính số lượng batch
    return [df.iloc[i * batch_size:(i + 1) * batch_size] for i in range(num_batches)] # Định nghĩa khoảng cho từng batch


# Hàm lưu data vào collection

### Khi lưu vào VectorDB thì chúng ta sẽ lưu các thông tin như sau:
- embedding: là phần chunk "đã được sử dụng model Sbert" để chuyển thành vector (Mã hóa dữ liệu trong cột 'chunk' thành vector cho batch này)
- metadata: Thu thập tất cả metadata vào một danh sách, bao gồm câu hỏi, Câu trả lời và chunk
- id: tạo ra id duy nhất cho mỗi batch 

In [124]:
import uuid

def process_batch(batch_df, model, collection):
    """Mã hóa và lưu dữ liệu vào Chroma vector store cho batch này."""
    try:
        # Mã hóa dữ liệu trong cột 'chunk' thành vector cho batch này
        embeddings = model.encode(batch_df['chunk'].tolist())

        # Thu thập tất cả metadata vào một danh sách
        metadatas = [row.to_dict() for _, row in batch_df.iterrows()]

        # Tạo ID duy nhất cho mỗi phần tử trong batch
        batch_ids = [str(uuid.uuid4()) for _ in range(len(batch_df))]

        # Thêm batch vào Chroma collection
        collection.add(
            ids=batch_ids,
            embeddings=embeddings,
            metadatas=metadatas
        )

    except Exception as e:
        print(f"Xảy ra lỗi khi thêm dữ liệu vào Chroma: {str(e)}")

## Tiến hành lưu data 

- model sử dụng là: keepitreal/vietnamese-sbert
- batch_size = 256
- Chia thành các batch (df_batches = divide_dataframe(chunks_df, batch_size)) -> CHuyển các dataframe thành các batch
- Tạo 1 colection mới trong DB
- Tiến hành xử lý từng batch và thêm vào collection

In [125]:
import chromadb

chroma_client = chromadb.Client()
model = SentenceTransformer('keepitreal/vietnamese-sbert')
batch_size = 256

# Chia DataFrame thành các batch nhỏ
df_batches = divide_dataframe(chunks_df, batch_size)

# Kiểm tra nếu collection đã tồn tại hoặc tạo mới
collection_name = "my_collection"
collection = chroma_client.get_or_create_collection(name=collection_name)

# In ra thông tin collection để xác nhận
print(f"Collection '{collection_name}' đã được tạo hoặc lấy thành công.")



Collection 'my_collection' đã được tạo hoặc lấy thành công.


In [126]:
# Xử lý từng batch và thêm vào collection
for i, batch_df in enumerate(df_batches):
    if batch_df.empty:
        continue  # Bỏ qua batch trống
    process_batch(batch_df, model, collection)

# Kiểm tra và in ra số lượng items đã được lưu vào collection
result = collection.get(include=["metadatas", "embeddings"])  # Lấy dữ liệu từ collection
print(f"Số lượng phần tử trong collection: {len(result['metadatas'])}")

Số lượng phần tử trong collection: 8


# các phần tử trong colection "my_collection" gồm 8 dòng với các metadata như ở dưới 

In [127]:
# Metadata 1: {'Câu hỏi': 'Các quả có mùi vị như thế nào?', 'Câu trả lời': 'Quả cam ngon. Quả táo dở. Quả chanh chua. Quả mít to. Quả mít rất thơm nữa', 'chunk': 'Quả cam ngon.'}
# Metadata 2: {'Câu hỏi': 'Các quả có mùi vị như thế nào?', 'Câu trả lời': 'Quả cam ngon. Quả táo dở. Quả chanh chua. Quả mít to. Quả mít rất thơm nữa', 'chunk': 'Quả táo dở.'}
# Metadata 3: {'Câu hỏi': 'Các quả có mùi vị như thế nào?', 'Câu trả lời': 'Quả cam ngon. Quả táo dở. Quả chanh chua. Quả mít to. Quả mít rất thơm nữa', 'chunk': 'Quả chanh chua.'}
# Metadata 4: {'Câu hỏi': 'Các quả có mùi vị như thế nào?', 'Câu trả lời': 'Quả cam ngon. Quả táo dở. Quả chanh chua. Quả mít to. Quả mít rất thơm nữa', 'chunk': 'Quả mít to. Quả mít rất thơm nữa'}
# Metadata 5: {'Câu hỏi': 'Các quả có hình dáng như thế nào?', 'Câu trả lời': 'Quả cam có hình tròn. Quả táo có hình tròn, hơi nhỏ. Quả chanh hình bầu dục. Quả mít to dài có vỏ xù xì. Quả mít có thể lấy gỗ', 'chunk': 'Quả cam có hình tròn. Quả táo có hình tròn, hơi nhỏ.'}
# Metadata 6: {'Câu hỏi': 'Các quả có hình dáng như thế nào?', 'Câu trả lời': 'Quả cam có hình tròn. Quả táo có hình tròn, hơi nhỏ. Quả chanh hình bầu dục. Quả mít to dài có vỏ xù xì. Quả mít có thể lấy gỗ', 'chunk': 'Quả chanh hình bầu dục.'}
# Metadata 7: {'Câu hỏi': 'Các quả có hình dáng như thế nào?', 'Câu trả lời': 'Quả cam có hình tròn. Quả táo có hình tròn, hơi nhỏ. Quả chanh hình bầu dục. Quả mít to dài có vỏ xù xì. Quả mít có thể lấy gỗ', 'chunk': 'Quả mít to dài có vỏ xù xì.'}
# Metadata 8: {'Câu hỏi': 'Các quả có hình dáng như thế nào?', 'Câu trả lời': 'Quả cam có hình tròn. Quả táo có hình tròn, hơi nhỏ. Quả chanh hình bầu dục. Quả mít to dài có vỏ xù xì. Quả mít có thể lấy gỗ', 'chunk': 'Quả mít có thể lấy gỗ'}

In [128]:
for i in range(min(100, len(result['metadatas']))):  # Hiển thị tối đa 5 phần tử
    print(f"Metadata {i+1}: {result['metadatas'][i]}")  # In ra thông tin metadata của phần tử thứ i

Metadata 1: {'Câu hỏi': 'Các quả có mùi vị như thế nào?', 'Câu trả lời': 'Quả cam ngon. Quả táo dở. Quả chanh chua. Quả mít to. Quả mít rất thơm nữa', 'chunk': 'Quả cam ngon.'}
Metadata 2: {'Câu hỏi': 'Các quả có mùi vị như thế nào?', 'Câu trả lời': 'Quả cam ngon. Quả táo dở. Quả chanh chua. Quả mít to. Quả mít rất thơm nữa', 'chunk': 'Quả táo dở.'}
Metadata 3: {'Câu hỏi': 'Các quả có mùi vị như thế nào?', 'Câu trả lời': 'Quả cam ngon. Quả táo dở. Quả chanh chua. Quả mít to. Quả mít rất thơm nữa', 'chunk': 'Quả chanh chua.'}
Metadata 4: {'Câu hỏi': 'Các quả có mùi vị như thế nào?', 'Câu trả lời': 'Quả cam ngon. Quả táo dở. Quả chanh chua. Quả mít to. Quả mít rất thơm nữa', 'chunk': 'Quả mít to. Quả mít rất thơm nữa'}
Metadata 5: {'Câu hỏi': 'Các quả có hình dáng như thế nào?', 'Câu trả lời': 'Quả cam có hình tròn. Quả táo có hình tròn, hơi nhỏ. Quả chanh hình bầu dục. Quả mít to dài có vỏ xù xì. Quả mít có thể lấy gỗ', 'chunk': 'Quả cam có hình tròn. Quả táo có hình tròn, hơi nhỏ.'}
Me

## Search VECTOR

### Hàm vector search sẽ nhận các giá trị như
- Cấu đầu vào của người dùng (query)
- colection nào ở trong DB(collection)
- Lấy các cột nào trong metadata ra để trả lời cho user(chỉ lấy cột Câu hỏi và Câu trả lời "columns_to_answer")
- Số lượng tài liệu khi Retrivel được lấy ra (number_docs_retrieval)

In [129]:

def vector_search(query, collection, columns_to_answer, number_docs_retrieval):
    model = SentenceTransformer('keepitreal/vietnamese-sbert') 
    query_embeddings = model.encode([query])

    # Fetch results from the collection
    search_results = collection.query(query_embeddings=query_embeddings, n_results=number_docs_retrieval)  
    
    # Ensure search_results has the expected keys
    if 'metadatas' not in search_results:
        raise ValueError("The search results do not contain the 'metadatas' key.")

    metadatas = search_results['metadatas']  # Extract metadata
    # query_embeddings = query_embeddings
    # Prepare the search result output
    search_result = ""
    for i, meta_group in enumerate(metadatas, start=1):  # Iterate over metadata groups
        for meta in meta_group:  # Each metadata item in the group
            for column in columns_to_answer:
                if column in meta:
                    search_result += f" {meta.get(column)}"
            search_result += "\n"

    return metadatas, search_result

## Sử dụng hàm vector search để lấy ra tài liệu liên quan
- câu query của người dùng là "Quả nào ngon"
- collection sẽ là "my_collection"
- trả về metadata bao gồm cột câu hỏi và câu trả lời 
- number_docs_retrieval = 2(số lượng tài liệu được lấy về là 2)

In [130]:
# Usage example
prompt = "Quả gi ngon"
number_docs_retrieval = 1 # Top retrievaed Documents
columns_to_select = [col for col in chunks_df.columns if col != 'chunk']

metadatas, retrieved_data = vector_search(prompt,collection, columns_to_select,number_docs_retrieval)

print(retrieved_data)

 Các quả có mùi vị như thế nào? Quả cam ngon. Quả táo dở. Quả chanh chua. Quả mít to. Quả mít rất thơm nữa



# Gộp Câu hỏi người dùng và các tài liệu được lấy ra thành 1 câu truy vấn nhiều thông tin hơn. Chuẩn bị tiến hành đưa vào LLM xử lý

In [131]:
# prompt = "Quả nào ngon"
# enhanced_prompt = """Câu hỏi của người dùng là: "{}". 
# Trả lời câu hỏi của người dùng dựa trên các dữ liệu sau: \n{}""".format(prompt, retrieved_data)
# print(enhanced_prompt)

prompt = "quả có mùi vị"
enhanced_prompt = """Câu hỏi của người dùng là: "{}". 
Trả lời câu hỏi của người dùng dựa trên các dữ liệu sau: \n{}""".format(prompt, retrieved_data)
print(enhanced_prompt)

Câu hỏi của người dùng là: "quả có mùi vị". 
Trả lời câu hỏi của người dùng dựa trên các dữ liệu sau: 
 Các quả có mùi vị như thế nào? Quả cam ngon. Quả táo dở. Quả chanh chua. Quả mít to. Quả mít rất thơm nữa



# Hỏi đáp với GEMINI

In [132]:
# import chromadb

# chroma_client = chromadb.Client()
# chroma_client.delete_collection(collection_name)
# print(f"Collection '{collection_name}' đã được xóa.")

In [133]:
import os
import google.generativeai as genai

os.environ['GOOGLE_API_KEY'] = "AIzaSyBwvb8_AXyn_IZwn92WnqWQpKKM9sMfszQ"

genai.configure(api_key = os.environ['GOOGLE_API_KEY'])
modelai = genai.GenerativeModel("gemini-1.5-pro")
response = modelai.generate_content(enhanced_prompt)

response.text

'Cam có vị ngon. Táo có vị dở. Chanh có vị chua. Mít có mùi rất thơm.\n'

# TEST

In [134]:
#Hàm tạo ra 1 câu trả lời giả định
def generate_hypothetical_documents(query, num_samples=1): # t
    hypothetical_docs = []
    modelai = genai.GenerativeModel("gemini-1.5-pro")
    for _ in range(num_samples):
        enhanced_prompt = f"Write a paragraph that answers the question: {query}"
        # trả lời câu hỏi
        response = modelai.generate_content(enhanced_prompt)
        if response.candidates:  
            document_text = response.candidates[0].content.parts[0].text
            hypothetical_docs.append(document_text)
    
    return hypothetical_docs

In [135]:
# Hàm vector hóa cho câu hỏi giả định
def encode_hypothetical_documents(documents, encoder_model):
    embeddings = [encoder_model.encode([doc])[0] for doc in documents]
    avg_embedding = np.mean(embeddings, axis=0)
    return avg_embedding

Hàm xử lý chính

In [136]:

def hyde_search( encoder_model, query, columns_to_answer, number_docs_retrieval=1, num_samples=1):
    collection = chroma_client.get_or_create_collection(name="my_collection")
    hypothetical_documents = generate_hypothetical_documents(query, num_samples) # tiến hành đưa ra câu trả lời giả định cho câu hỏi của người dùng

    print("hypothetical_documents:", hypothetical_documents)
    
    # Encode the hypothetical documents into embeddings
    aggregated_embedding = encode_hypothetical_documents(hypothetical_documents, encoder_model)

    # Perform the search on the collection with the generated embeddings
    search_results = collection.query(
        query_embeddings=aggregated_embedding, 
        n_results=number_docs_retrieval)  # Fetch top 1 result
    
    search_result = ""
    metadatas = search_results['metadatas']

    # Format the search results
    for i, meta in enumerate(metadatas[0], start=1):
        search_result += f"\n{i})"
        for column in columns_to_answer:
            if column in meta:
                search_result += f" {column.capitalize()}: {meta.get(column)}"
        search_result += "\n"
    
    return metadatas, search_result

In [137]:

# Example usage
query = "Quả nào ngon"
columns_to_select = [col for col in chunks_df.columns if col != 'chunk']  # Chọn cột trừ 'chunk'
modelai = genai.GenerativeModel("gemini-1.5-pro")
encoder_model = SentenceTransformer('keepitreal/vietnamese-sbert')  # Mô hình nhỏ hơn

metadatas, retrieved_data = hyde_search(encoder_model, query, columns_to_select, number_docs_retrieval=2, num_samples=1)


hypothetical_documents: ['Câu hỏi "Quả nào ngon" rất khó trả lời tuyệt đối vì khẩu vị mỗi người mỗi khác.  Có người thích vị ngọt đậm của xoài chín, kẻ lại mê mẩn vị chua thanh của cam sành.  Người thì khoái cái giòn tan của táo, người lại ưa cái mềm mại của chuối.  Thêm nữa, "ngon" còn tùy thuộc vào mùa nào thức nấy, chẳng hạn mùa hè thì dưa hấu, thanh long mát lạnh sẽ được ưa chuộng hơn là hồng, quýt.  Tóm lại, quả nào ngon là do sở thích cá nhân và còn tùy thuộc vào nhiều yếu tố khác nhau.\n']


In [138]:
print(metadatas)

[[{'Câu hỏi': 'Các quả có mùi vị như thế nào?', 'Câu trả lời': 'Quả cam ngon. Quả táo dở. Quả chanh chua. Quả mít to. Quả mít rất thơm nữa', 'chunk': 'Quả cam ngon.'}, {'Câu hỏi': 'Các quả có mùi vị như thế nào?', 'Câu trả lời': 'Quả cam ngon. Quả táo dở. Quả chanh chua. Quả mít to. Quả mít rất thơm nữa', 'chunk': 'Quả mít to. Quả mít rất thơm nữa'}]]


In [139]:
print(retrieved_data)


1) Câu hỏi: Các quả có mùi vị như thế nào? Câu trả lời: Quả cam ngon. Quả táo dở. Quả chanh chua. Quả mít to. Quả mít rất thơm nữa

2) Câu hỏi: Các quả có mùi vị như thế nào? Câu trả lời: Quả cam ngon. Quả táo dở. Quả chanh chua. Quả mít to. Quả mít rất thơm nữa



In [140]:
prompt = "Quả nào ngon"
enhanced_prompt = """Câu hỏi của người dùng là: "{}". Trả lời câu hỏi của người dùng dựa trên các dữ liệu sau: \n{}""".format(prompt, retrieved_data)
enhanced_prompt

'Câu hỏi của người dùng là: "Quả nào ngon". Trả lời câu hỏi của người dùng dựa trên các dữ liệu sau: \n\n1) Câu hỏi: Các quả có mùi vị như thế nào? Câu trả lời: Quả cam ngon. Quả táo dở. Quả chanh chua. Quả mít to. Quả mít rất thơm nữa\n\n2) Câu hỏi: Các quả có mùi vị như thế nào? Câu trả lời: Quả cam ngon. Quả táo dở. Quả chanh chua. Quả mít to. Quả mít rất thơm nữa\n'

In [141]:
import os
import google.generativeai as genai

os.environ['GOOGLE_API_KEY'] = "AIzaSyBwvb8_AXyn_IZwn92WnqWQpKKM9sMfszQ"

genai.configure(api_key = os.environ['GOOGLE_API_KEY'])
modelai = genai.GenerativeModel("gemini-1.5-pro")
response = modelai.generate_content(enhanced_prompt)

response.text

'Dựa trên dữ liệu được cung cấp, quả cam và quả mít được mô tả là ngon. Cụ thể, cam được nói là "ngon" và mít "rất thơm". Táo được mô tả là "dở", trong khi chanh "chua". \n\nVì vậy, trả lời câu hỏi "Quả nào ngon?", câu trả lời là: **Cam và mít.**\n'