In [22]:
import pandas as pd
import nltk
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.feature_extraction.text import TfidfVectorizer
import chromadb
from chromadb.config import Settings
from sentence_transformers import SentenceTransformer
import numpy as np

nltk.download("punkt", quiet=True)


True

## Xử lý Câu

In [23]:
file_path = r'D:\New folder\demo\datainput.csv' #import data
data = pd.read_csv(file_path)
data

Unnamed: 0,Câu hỏi,Câu trả lời
0,Các quả có mùi vị như thế nào,Quả cam ngon. Quả táo dở. Quả chanh chua. Quả ...
1,Các quả có hình dáng như thế nào,"Quả cam có hình tròn. Quả táo có hình tròn, hơ..."


# Sử dụng natrual language toolkit để chia thành các câu 

In [24]:
for _, row in data.iterrows():
    text = row.get("Câu trả lời", "")
    if text and isinstance(text, str):
        # Tách văn bản thành các câu
        sentences = nltk.sent_tokenize(text)
        display(sentences)

['Quả cam ngon.',
 'Quả táo dở.',
 'Quả chanh chua.',
 'Quả mít to.',
 'Quả mít rất thơm nữa']

['Quả cam có hình tròn.',
 'Quả táo có hình tròn, hơi nhỏ.',
 'Quả chanh hình bầu dục.',
 'Quả mít to dài có vỏ xù xì.',
 'Quả mít có thể lấy gỗ']

## Các hàm sử dụng để gộp các câu tương đồng
### Hàm 1 để tính đột tường đồng giữa các câu
### Hàm 2 dùng để vector hóa các câu sử dụng TFIDF
### hàm 3 sau khi tính độ tương đồng giữa các câu, nếu độ tương đồng đạt ngưỡng thì gép các câu với nhau. Ngược lại sẽ bắt đầu 1 câu mới

In [25]:
def get_cosine_similarity_test(sentences):
    # Vector hóa các câu bằng TfidfVectorizer
    vectorizer = TfidfVectorizer()
    vectors = vectorizer.fit_transform(sentences) 
    # Tính toán độ tương đồng cosine giữa các câu
    cosine_sim = cosine_similarity(vectors)
    return cosine_sim

def get_cosine_similarity(sentences):     
    vectorizer = TfidfVectorizer()
    vectors = vectorizer.fit_transform(sentences)    
    for i, vector in enumerate(vectors.toarray()):
        print(f"Vector {i+1}: {vector}")


def split_into_chunks(sentences, threshold=0.3):
    chunks = []
    current_chunk = [sentences[0]]
    cosine_sim = get_cosine_similarity_test(sentences)

    for i in range(1, len(sentences)):
        if cosine_sim[i-1, i] >= threshold:
            current_chunk.append(sentences[i])
        else:
            chunks.append(' '.join(current_chunk))
            current_chunk = [sentences[i]]
    
    chunks.append(' '.join(current_chunk))  # Đảm bảo chunk cuối cùng được thêm vào
    return chunks


## Vector các câu sử dụng TFIDF

In [26]:

for _, row in data.iterrows():
    text = row.get("Câu trả lời", "")
    if text and isinstance(text, str):
        # Tách văn bản thành các câu
        sentences = nltk.sent_tokenize(text)
        get_cosine_similarity(sentences)


Vector 1: [0.67009179 0.         0.         0.         0.         0.67009179
 0.         0.31930233 0.         0.         0.         0.        ]
Vector 2: [0.         0.         0.         0.67009179 0.         0.
 0.         0.31930233 0.         0.         0.         0.67009179]
Vector 3: [0.         0.67009179 0.67009179 0.         0.         0.
 0.         0.31930233 0.         0.         0.         0.        ]
Vector 4: [0.         0.         0.         0.         0.58873218 0.
 0.         0.34771471 0.         0.         0.72971837 0.        ]
Vector 5: [0.         0.         0.         0.         0.40969445 0.
 0.50780572 0.24197214 0.50780572 0.50780572 0.         0.        ]
Vector 1: [0.         0.61500487 0.         0.34648301 0.         0.
 0.         0.41187593 0.         0.         0.         0.
 0.29305311 0.         0.         0.49618205 0.         0.
 0.         0.        ]
Vector 2: [0.         0.         0.         0.2614343  0.         0.
 0.         0.31077569 0.46

# Tính toán hiển thị ma trận tương đồng giữa các câu với nhau

In [27]:
for _, row in data.iterrows():
    text = row.get("Câu trả lời", "")
    if text and isinstance(text, str):
        # Tách văn bản thành các câu
        sentences = nltk.sent_tokenize(text)
        print(get_cosine_similarity_test(sentences))

[[1.         0.10195398 0.10195398 0.11102612 0.07726227]
 [0.10195398 1.         0.10195398 0.11102612 0.07726227]
 [0.10195398 0.10195398 1.         0.11102612 0.07726227]
 [0.11102612 0.11102612 0.11102612 1.         0.32533759]
 [0.07726227 0.07726227 0.07726227 0.32533759 1.        ]]
[[1.         0.46914782 0.2167141  0.13452674 0.16347714]
 [0.46914782 1.         0.16351884 0.10150542 0.12334958]
 [0.2167141  0.16351884 1.         0.04758164 0.0578213 ]
 [0.13452674 0.10150542 0.04758164 1.         0.23446851]
 [0.16347714 0.12334958 0.0578213  0.23446851 1.        ]]


## Thêm cột chunk và sắp xếp các chunk theo đúng bộ câu hỏi và câu trả lời

In [28]:
chunk_records = []
for _, row in data.iterrows():
    text = row.get("Câu trả lời", "")
    if text and isinstance(text, str):
        sentences = nltk.sent_tokenize(text)
        chunks = split_into_chunks(sentences, threshold=0.3)
        # Lưu các chunk vào danh sách
        for chunk in chunks:
            chunk_record = {**row.to_dict(), 'chunk': chunk} #{A: a ,B: b} + 'chunk' : ct1 ={A: a ,B: b , chunk:ct1}
            chunk_records.append(chunk_record)
chunks_df = pd.DataFrame(chunk_records)
chunks_df

Unnamed: 0,Câu hỏi,Câu trả lời,chunk
0,Các quả có mùi vị như thế nào,Quả cam ngon. Quả táo dở. Quả chanh chua. Quả ...,Quả cam ngon.
1,Các quả có mùi vị như thế nào,Quả cam ngon. Quả táo dở. Quả chanh chua. Quả ...,Quả táo dở.
2,Các quả có mùi vị như thế nào,Quả cam ngon. Quả táo dở. Quả chanh chua. Quả ...,Quả chanh chua.
3,Các quả có mùi vị như thế nào,Quả cam ngon. Quả táo dở. Quả chanh chua. Quả ...,Quả mít to. Quả mít rất thơm nữa
4,Các quả có hình dáng như thế nào,"Quả cam có hình tròn. Quả táo có hình tròn, hơ...","Quả cam có hình tròn. Quả táo có hình tròn, hơ..."
5,Các quả có hình dáng như thế nào,"Quả cam có hình tròn. Quả táo có hình tròn, hơ...",Quả chanh hình bầu dục.
6,Các quả có hình dáng như thế nào,"Quả cam có hình tròn. Quả táo có hình tròn, hơ...",Quả mít to dài có vỏ xù xì.
7,Các quả có hình dáng như thế nào,"Quả cam có hình tròn. Quả táo có hình tròn, hơ...",Quả mít có thể lấy gỗ


## SAVE DATA - Lưu data vào chromaDB


### Tiến hành chia các câu thành các batch (lô), với mục đích xử lý theo lô

In [29]:
import math

def divide_dataframe(df, batch_size):
    """Chia DataFrame thành các phần nhỏ dựa trên kích thước batch."""
    num_batches = math.ceil(len(df) / batch_size)  # Tính số lượng batch
    return [df.iloc[i * batch_size:(i + 1) * batch_size] for i in range(num_batches)]


# Hàm lưu data vào collection

In [30]:
import uuid

def process_batch(batch_df, model, collection):
    """Mã hóa và lưu dữ liệu vào Chroma vector store cho batch này."""
    try:
        # Mã hóa dữ liệu trong cột 'chunk' thành vector cho batch này
        embeddings = model.encode(batch_df['chunk'].tolist())
        print(f"Embeddings shape: {embeddings.shape}")  # Kiểm tra kích thước embeddings

        # Thu thập tất cả metadata vào một danh sách
        metadatas = [row.to_dict() for _, row in batch_df.iterrows()]

        # Tạo ID duy nhất cho mỗi phần tử trong batch
        batch_ids = [str(uuid.uuid4()) for _ in range(len(batch_df))]

        # Thêm batch vào Chroma collection
        collection.add(
            ids=batch_ids,
            embeddings=embeddings,
            metadatas=metadatas
        )

        print(f"Đã thêm {len(batch_df)} phần tử vào collection.")
    except Exception as e:
        print(f"Xảy ra lỗi khi thêm dữ liệu vào Chroma: {str(e)}")

## Tiến hành lưu data 

In [31]:
import chromadb

# Khởi tạo Chroma client và mô hình
chroma_client = chromadb.Client()
model = SentenceTransformer('keepitreal/vietnamese-sbert')  # Mô hình nhỏ hơn
batch_size = 256

# Chia DataFrame thành các batch nhỏ
df_batches = divide_dataframe(chunks_df, batch_size)

# Kiểm tra nếu collection đã tồn tại hoặc tạo mới
collection_name = "my_collection"
collection = chroma_client.get_or_create_collection(name=collection_name)

# In ra thông tin collection để xác nhận
print(f"Collection '{collection_name}' đã được tạo hoặc lấy thành công.")



Collection 'my_collection' đã được tạo hoặc lấy thành công.


In [32]:
# Xử lý từng batch và thêm vào collection
for i, batch_df in enumerate(df_batches):
    if batch_df.empty:
        continue  # Bỏ qua batch trống
    process_batch(batch_df, model, collection)

# Kiểm tra và in ra số lượng items đã được lưu vào collection
result = collection.get(include=["metadatas", "embeddings"])  # Lấy dữ liệu từ collection
print(f"Số lượng phần tử trong collection: {len(result['metadatas'])}")

Embeddings shape: (8, 768)
Đã thêm 8 phần tử vào collection.
Số lượng phần tử trong collection: 8


In [33]:
for i in range(min(100, len(result['metadatas']))):  # Hiển thị tối đa 5 phần tử
    print(f"Metadata {i+1}: {result['metadatas'][i]}")  # In ra thông tin metadata của phần tử thứ i

Metadata 1: {'Câu hỏi ': 'Các quả có mùi vị như thế nào', 'Câu trả lời': 'Quả cam ngon. Quả táo dở. Quả chanh chua. Quả mít to. Quả mít rất thơm nữa', 'chunk': 'Quả cam ngon.'}
Metadata 2: {'Câu hỏi ': 'Các quả có mùi vị như thế nào', 'Câu trả lời': 'Quả cam ngon. Quả táo dở. Quả chanh chua. Quả mít to. Quả mít rất thơm nữa', 'chunk': 'Quả táo dở.'}
Metadata 3: {'Câu hỏi ': 'Các quả có mùi vị như thế nào', 'Câu trả lời': 'Quả cam ngon. Quả táo dở. Quả chanh chua. Quả mít to. Quả mít rất thơm nữa', 'chunk': 'Quả chanh chua.'}
Metadata 4: {'Câu hỏi ': 'Các quả có mùi vị như thế nào', 'Câu trả lời': 'Quả cam ngon. Quả táo dở. Quả chanh chua. Quả mít to. Quả mít rất thơm nữa', 'chunk': 'Quả mít to. Quả mít rất thơm nữa'}
Metadata 5: {'Câu hỏi ': 'Các quả có hình dáng như thế nào ', 'Câu trả lời': 'Quả cam có hình tròn. Quả táo có hình tròn, hơi nhỏ. Quả chanh hình bầu dục. Quả mít to dài có vỏ xù xì. Quả mít có thể lấy gỗ', 'chunk': 'Quả cam có hình tròn. Quả táo có hình tròn, hơi nhỏ.'}
M

## Search VECTOR

### Hàm vector search

In [34]:
def vector_search(model, query, collection, columns_to_answer, number_docs_retrieval):
    query_embeddings = model.encode([query])
    
    # Fetch results from the collection
    search_results = collection.query(
        query_embeddings=query_embeddings, 
        n_results=number_docs_retrieval
    )  
    metadatas = search_results['metadatas']  # Metadata for retrieved documents
    scores = search_results['distances']   # Similarity scores 

    # Prepare the search result output  
    search_result = ""
    for i, (meta, score) in enumerate(zip(metadatas[0], scores[0]), start=1):  #tao ra 1 cap(metadata, scores) 
        search_result += f"\n{i}) Distances: {score:.4f}"  # SR{D:.....,as:...., QS:.....}
        for column in columns_to_answer:
            if column in meta:
                search_result += f" {column}: {meta.get(column)}"
        search_result += "\n"

    return metadatas, search_result

## Sử dụng hàm vector search để lấy ra tài liệu liên quan

In [35]:
prompt = "Quả nào ngon"
number_docs_retrieval = 2
columns_to_select = [col for col in chunks_df.columns if col != 'chunk']  # Chọn cột trừ 'chunk'
model = SentenceTransformer('keepitreal/vietnamese-sbert')  # Mô hình nhỏ hơn

metadatas, retrieved_data = vector_search(
    model, 
    prompt, 
    collection,  
    columns_to_select,
    number_docs_retrieval
)


## các retrieved_data và metadatas được lấy ra

In [36]:
print(metadatas)


[[{'Câu hỏi ': 'Các quả có mùi vị như thế nào', 'Câu trả lời': 'Quả cam ngon. Quả táo dở. Quả chanh chua. Quả mít to. Quả mít rất thơm nữa', 'chunk': 'Quả mít to. Quả mít rất thơm nữa'}, {'Câu hỏi ': 'Các quả có mùi vị như thế nào', 'Câu trả lời': 'Quả cam ngon. Quả táo dở. Quả chanh chua. Quả mít to. Quả mít rất thơm nữa', 'chunk': 'Quả cam ngon.'}]]


In [37]:
print(retrieved_data)


1) Distances: 65.4447 Câu hỏi : Các quả có mùi vị như thế nào Câu trả lời: Quả cam ngon. Quả táo dở. Quả chanh chua. Quả mít to. Quả mít rất thơm nữa

2) Distances: 66.5960 Câu hỏi : Các quả có mùi vị như thế nào Câu trả lời: Quả cam ngon. Quả táo dở. Quả chanh chua. Quả mít to. Quả mít rất thơm nữa



In [38]:
prompt = "Quả nào ngon"
enhanced_prompt = """Câu hỏi của người dùng là: "{}". Trả lời câu hỏi của người dùng dựa trên các dữ liệu sau: \n{}""".format(prompt, retrieved_data)

In [39]:
enhanced_prompt

'Câu hỏi của người dùng là: "Quả nào ngon". Trả lời câu hỏi của người dùng dựa trên các dữ liệu sau: \n\n1) Distances: 65.4447 Câu hỏi : Các quả có mùi vị như thế nào Câu trả lời: Quả cam ngon. Quả táo dở. Quả chanh chua. Quả mít to. Quả mít rất thơm nữa\n\n2) Distances: 66.5960 Câu hỏi : Các quả có mùi vị như thế nào Câu trả lời: Quả cam ngon. Quả táo dở. Quả chanh chua. Quả mít to. Quả mít rất thơm nữa\n'

## Hỏi đáp với GEMINI

In [40]:
# import chromadb

# chroma_client = chromadb.Client()
# chroma_client.delete_collection(collection_name)
# print(f"Collection '{collection_name}' đã được xóa.")

In [41]:
import os
import google.generativeai as genai

os.environ['GOOGLE_API_KEY'] = "AIzaSyAzSRbvrs1CHI0NttkhZNPXiDD2ffyPvDc"

genai.configure(api_key = os.environ['GOOGLE_API_KEY'])
modelai = genai.GenerativeModel("gemini-1.5-pro")
response = modelai.generate_content(enhanced_prompt)

response.text

'Dựa trên dữ liệu được cung cấp, quả cam được mô tả là "ngon". Vậy câu trả lời cho câu hỏi "Quả nào ngon" là: **Quả cam**.\n'

## HYDE SEARCH

### HYDE SEARCH bao gồm xử lý như sau:
### Bước 1: Sử dụng LLM để trả lời câu hỏi của người dùng
### Bước 2: Vector hóa câu trả lời
### Bước 3: Sử dụng câu trả lời mới được vector hóa mang đi truy vấn độ tương đồng trong vector ĐB
### Bước 4: Trả về các tài liệu liên quan


# Ví dụ
## Bước 1: query = "Quả nào ngon"
## Bước 2: dùng LLM trả lời câu hỏi đó
## Bước 3: Vector hóa câu trả lời
## Bước 4: sử dụng câu trả lời đã được vector hóa để retrival

In [42]:
def generate_hypothetical_documents(query, num_samples=1): # t
    hypothetical_docs = []
    modelai = genai.GenerativeModel("gemini-1.5-pro")
    for _ in range(num_samples):
        enhanced_prompt = f"Write a paragraph that answers the question: {query}"
        # trả lời câu hỏi
        response = modelai.generate_content(enhanced_prompt)
        if response.candidates:  
            document_text = response.candidates[0].content.parts[0].text
            hypothetical_docs.append(document_text)
    
    return hypothetical_docs

In [43]:
def encode_hypothetical_documents(documents, encoder_model):
    # Encode each document into an embedding
    embeddings = [encoder_model.encode([doc])[0] for doc in documents]
    # Average the embeddings to get a single query representation
    avg_embedding = np.mean(embeddings, axis=0)
    return avg_embedding

In [44]:

def hyde_search( encoder_model, query, columns_to_answer, number_docs_retrieval=1, num_samples=1):
    collection = chroma_client.get_or_create_collection(name="my_collection")
    hypothetical_documents = generate_hypothetical_documents(query, num_samples)

    print("hypothetical_documents:", hypothetical_documents)
    
    # Encode the hypothetical documents into embeddings
    aggregated_embedding = encode_hypothetical_documents(hypothetical_documents, encoder_model)

    # Perform the search on the collection with the generated embeddings
    search_results = collection.query(
        query_embeddings=aggregated_embedding, 
        n_results=number_docs_retrieval)  # Fetch top 1 result
    
    search_result = ""
    metadatas = search_results['metadatas']

    # Format the search results
    for i, meta in enumerate(metadatas[0], start=1):
        search_result += f"\n{i})"
        for column in columns_to_answer:
            if column in meta:
                search_result += f" {column.capitalize()}: {meta.get(column)}"
        search_result += "\n"
    
    return metadatas, search_result

In [45]:

# Example usage
query = "Quả nào ngon"
columns_to_select = [col for col in chunks_df.columns if col != 'chunk']  # Chọn cột trừ 'chunk'
modelai = genai.GenerativeModel("gemini-1.5-pro")
encoder_model = SentenceTransformer('keepitreal/vietnamese-sbert')  # Mô hình nhỏ hơn

metadatas, retrieved_data = hyde_search(encoder_model, query, columns_to_select, number_docs_retrieval=2, num_samples=1)


hypothetical_documents: ['"Quả nào ngon" translates to "Which fruit is delicious?"  The answer is subjective and depends on individual preferences.  Many fruits are considered ngon (delicious), such as xoài (mango) with its sweet and tangy flesh, chuối (banana) for its creamy texture and gentle sweetness, or dứa (pineapple) with its tropical, vibrant flavor.  Others might prefer the refreshing taste of dưa hấu (watermelon) or the tartness of cam (orange). Ultimately, the "ngon nhất" (most delicious) fruit is the one that best suits your own palate.\n']


In [46]:
print(metadatas)

[[{'Câu hỏi ': 'Các quả có mùi vị như thế nào', 'Câu trả lời': 'Quả cam ngon. Quả táo dở. Quả chanh chua. Quả mít to. Quả mít rất thơm nữa', 'chunk': 'Quả mít to. Quả mít rất thơm nữa'}, {'Câu hỏi ': 'Các quả có hình dáng như thế nào ', 'Câu trả lời': 'Quả cam có hình tròn. Quả táo có hình tròn, hơi nhỏ. Quả chanh hình bầu dục. Quả mít to dài có vỏ xù xì. Quả mít có thể lấy gỗ', 'chunk': 'Quả cam có hình tròn. Quả táo có hình tròn, hơi nhỏ.'}]]


In [47]:
print(retrieved_data)


1) Câu hỏi : Các quả có mùi vị như thế nào Câu trả lời: Quả cam ngon. Quả táo dở. Quả chanh chua. Quả mít to. Quả mít rất thơm nữa

2) Câu hỏi : Các quả có hình dáng như thế nào  Câu trả lời: Quả cam có hình tròn. Quả táo có hình tròn, hơi nhỏ. Quả chanh hình bầu dục. Quả mít to dài có vỏ xù xì. Quả mít có thể lấy gỗ



In [49]:
prompt = "Quả nào ngon"
enhanced_prompt = """Câu hỏi của người dùng là: "{}". Trả lời câu hỏi của người dùng dựa trên các dữ liệu sau: \n{}""".format(prompt, retrieved_data)
enhanced_prompt

'Câu hỏi của người dùng là: "Quả nào ngon". Trả lời câu hỏi của người dùng dựa trên các dữ liệu sau: \n\n1) Câu hỏi : Các quả có mùi vị như thế nào Câu trả lời: Quả cam ngon. Quả táo dở. Quả chanh chua. Quả mít to. Quả mít rất thơm nữa\n\n2) Câu hỏi : Các quả có hình dáng như thế nào  Câu trả lời: Quả cam có hình tròn. Quả táo có hình tròn, hơi nhỏ. Quả chanh hình bầu dục. Quả mít to dài có vỏ xù xì. Quả mít có thể lấy gỗ\n'

In [50]:
import os
import google.generativeai as genai

os.environ['GOOGLE_API_KEY'] = "AIzaSyAzSRbvrs1CHI0NttkhZNPXiDD2ffyPvDc"

genai.configure(api_key = os.environ['GOOGLE_API_KEY'])
modelai = genai.GenerativeModel("gemini-1.5-pro")
response = modelai.generate_content(enhanced_prompt)

response.text

'Dựa trên thông tin được cung cấp, quả cam là quả ngon.\n'