## Flow xử lý Chi tiết 

###  Thử Viện Cần Thiết

In [8]:
import pandas as pd
import nltk
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.feature_extraction.text import TfidfVectorizer
import chromadb
from chromadb.config import Settings
from sentence_transformers import SentenceTransformer
import numpy as np
nltk.download("punkt", quiet=True)


True

# Xử lý nhập Câu
## File data bao gồm 2 cột "Câu hỏi" và "Câu trả lời"

In [9]:
file_path = r'C:\Users\ungdu\Downloads\Test_Chatgpt\test_data.csv' #import data
data = pd.read_csv(file_path)
data

Unnamed: 0,Câu hỏi,Câu trả lời
0,Các quả có mùi vị như thế nào?,Quả cam ngon. Quả táo dở. Quả chanh chua. Quả ...
1,Các quả có hình dáng như thế nào?,"Quả cam có hình tròn. Quả táo có hình tròn, hơ..."


# semantic chunking()
## Bước 1 Chia từng datarow trong cột "Câu trả lời"
## Bước 2 Để tính đột tường đồng giữa các câu
## Bước 3 Dùng để vector hóa các câu sử dụng TFIDF
## Bước 4 Sau khi tính độ tương đồng giữa các câu, nếu độ tương đồng đạt ngưỡng thì gép các câu với nhau. Ngược lại sẽ bắt đầu 1 câu mới

## Bước 1: Sử dụng natrual language toolkit để chia thành các câu 

In [10]:
for _, row in data.iterrows():
    text = row.get("Câu trả lời", "") # sử dụng câu trả lời
    if text and isinstance(text, str):
        sentences = nltk.sent_tokenize(text) # chia văn bản thành các câu theo dấu .
        display(sentences)

['Quả cam ngon.',
 'Quả táo dở.',
 'Quả chanh chua.',
 'Quả mít to.',
 'Quả mít rất thơm nữa.']

['Quả cam có hình tròn.',
 'Quả táo có hình tròn, hơi nhỏ.',
 'Quả chanh hình bầu dục.',
 'Quả mít to dài có vỏ xù xì.',
 'Quả mít có thể lấy gỗ.']

## Bước 2: Sử dụng TF-IDF để tính toán ra vector của các câu nhằm tính toán độ tường đồng để sắp xếp câu


# Công thức TF-IDF (Term Frequency-Inverse Document Frequency)

TF-IDF là một kỹ thuật được sử dụng trong xử lý ngôn ngữ tự nhiên và khai thác văn bản để đánh giá tầm quan trọng của một từ trong một văn bản (document) so với tập hợp các văn bản (corpus). Công thức TF-IDF bao gồm hai thành phần chính:

## 1. Term Frequency (TF):
TF đo lường mức độ xuất hiện của một từ trong một văn bản cụ thể. Công thức tính:
$$
TF(t, d) = \frac{f_{t,d}}{\sum_{t' \in d} f_{t',d}}
$$

- $t$: Từ (term).
- $d$: Văn bản (document).
- $f_{t,d}$: Số lần xuất hiện của từ $t$ trong văn bản $d$.
- $\sum_{t' \in d} f_{t',d}$: Tổng số lần xuất hiện của tất cả các từ trong văn bản $d$.

## 2. Inverse Document Frequency (IDF):
IDF đo lường mức độ quan trọng của một từ trong toàn bộ tập văn bản. Công thức tính:
$$
IDF(t, D) = \log\left(\frac{|D|}{1 + |\{d \in D : t \in d\}|}\right)
$$

- $t$: Từ (term).
- $D$: Tập hợp các văn bản (corpus).
- $|D|$: Tổng số văn bản trong tập $D$.
- $|\{d \in D : t \in d\}|$: Số văn bản chứa từ $t$.
- $+1$: Tránh chia cho 0.

## 3. TF-IDF:
TF-IDF là tích của TF và IDF:
$$
TF\text{-}IDF(t, d, D) = TF(t, d) \times IDF(t, D)
$$

## Ý nghĩa:
- Từ có tần suất xuất hiện cao trong một văn bản nhưng xuất hiện ít trong các văn bản khác sẽ có giá trị TF-IDF cao.
- Các từ phổ biến trong mọi văn bản (như "và", "của") sẽ có giá trị TF-IDF thấp.

## Ứng dụng:
- Trích xuất từ khóa.
- Tìm kiếm văn bản.
- Phân loại văn bản.
- Vector hóa văn bản để sử dụng trong các mô hình học máy.

# Tính toán TF-IDF và Cosine Similarity thủ công

## Bước 1: Tạo từ điển (Vocabulary)
- Từ điển: `['quả', 'cam', 'ngon', 'táo', 'dở', 'chanh', 'chua', 'mít', 'to', 'rất', 'thơm', 'nữa']`

---

## Bước 2: Tính Term Frequency (TF)
### Công thức:
$TF(t, d) = \frac{f_{t,d}}{\sum_{t' \in d} f_{t',d}}$

Trong đó:
- $f_{t,d}$: Số lần từ $t$ xuất hiện trong văn bản $d$.
- $\sum_{t' \in d} f_{t',d}$: Tổng số lần xuất hiện của tất cả các từ trong văn bản $d$.

### Bảng TF:
| Từ         | Câu 1       | Câu 2       | Câu 3       | Câu 4       | Câu 5       |
|------------|-------------|-------------|-------------|-------------|-------------|
| quả        | $\frac{1}{3}$ | $\frac{1}{3}$ | $\frac{1}{3}$ | $\frac{1}{3}$ | $\frac{1}{5}$ |
| cam        | $\frac{1}{3}$ | 0             | 0             | 0             | 0             |
| ngon       | $\frac{1}{3}$ | 0             | 0             | 0             | 0             |
| táo        | 0             | $\frac{1}{3}$ | 0             | 0             | 0             |
| dở         | 0             | $\frac{1}{3}$ | 0             | 0             | 0             |
| chanh      | 0             | 0             | $\frac{1}{3}$ | 0             | 0             |
| chua       | 0             | 0             | $\frac{1}{3}$ | 0             | 0             |
| mít        | 0             | 0             | 0             | $\frac{1}{3}$ | $\frac{1}{5}$ |
| to         | 0             | 0             | 0             | $\frac{1}{3}$ | 0             |
| rất        | 0             | 0             | 0             | 0             | $\frac{1}{5}$ |
| thơm       | 0             | 0             | 0             | 0             | $\frac{1}{5}$ |
| nữa        | 0             | 0             | 0             | 0             | $\frac{1}{5}$ |

---

## Bước 3: Tính Inverse Document Frequency (IDF)
### Công thức:
$IDF(t, D) = \log\left(\frac{N}{|\{d \in D : t \in d\}|}\right)$

Trong đó:
- $N$: Tổng số văn bản trong tập dữ liệu.
- $|\{d \in D : t \in d\}|$: Số lượng văn bản chứa từ $t$.

### Bảng IDF:
| Từ         | Số văn bản chứa từ | IDF (không cộng $+1$) |
|------------|--------------------|---------------------|
| quả        | 5                  | $\log\left(\frac{5}{5}\right) = 0.000$ |
| cam        | 1                  | $\log\left(\frac{5}{1}\right) = 1.609$ |
| ngon       | 1                  | $\log\left(\frac{5}{1}\right) = 1.609$ |
| táo        | 1                  | $\log\left(\frac{5}{1}\right) = 1.609$ |
| dở         | 1                  | $\log\left(\frac{5}{1}\right) = 1.609$ |
| chanh      | 1                  | $\log\left(\frac{5}{1}\right) = 1.609$ |
| chua       | 1                  | $\log\left(\frac{5}{1}\right) = 1.609$ |
| mít        | 2                  | $\log\left(\frac{5}{2}\right) = 0.916$ |
| to         | 1                  | $\log\left(\frac{5}{1}\right) = 1.609$ |
| rất        | 1                  | $\log\left(\frac{5}{1}\right) = 1.609$ |
| thơm       | 1                  | $\log\left(\frac{5}{1}\right) = 1.609$ |
| nữa        | 1                  | $\log\left(\frac{5}{1}\right) = 1.609$ |

---

## Bước 4: Tính TF-IDF
### Công thức:
$TF\text{-}IDF(t, d, D) = TF(t, d) \times IDF(t, D)$

### Bảng TF-IDF:
| Từ         | Câu 1         | Câu 2         | Câu 3         | Câu 4         | Câu 5         |
|------------|---------------|---------------|---------------|---------------|---------------|
| quả        | $\frac{1}{3} \times 0.000 = 0.000$ | $\frac{1}{3} \times 0.000 = 0.000$ | $\frac{1}{3} \times 0.000 = 0.000$ | $\frac{1}{3} \times 0.000 = 0.000$ | $\frac{1}{5} \times 0.000 = 0.000$ |
| cam        | $\frac{1}{3} \times 1.609 = 0.536$  | 0             | 0             | 0             | 0             |
| ngon       | $\frac{1}{3} \times 1.609 = 0.536$  | 0             | 0             | 0             | 0             |
| táo        | 0             | $\frac{1}{3} \times 1.609 = 0.536$  | 0             | 0             | 0             |
| dở         | 0             | $\frac{1}{3} \times 1.609 = 0.536$  | 0             | 0             | 0             |
| chanh      | 0             | 0             | $\frac{1}{3} \times 1.609 = 0.536$  | 0             | 0             |
| chua       | 0             | 0             | $\frac{1}{3} \times 1.609 = 0.536$  | 0             | 0             |
| mít        | 0             | 0             | 0             | $\frac{1}{3} \times 0.916 = 0.305$  | $\frac{1}{5} \times 0.916 = 0.183$  |
| to         | 0             | 0             | 0             | $\frac{1}{3} \times 1.609 = 0.536$  | 0             |
| rất        | 0             | 0             | 0             | 0             | $\frac{1}{5} \times 1.609 = 0.322$  |
| thơm       | 0             | 0             | 0             | 0             | $\frac{1}{5} \times 1.609 = 0.322$  |
| nữa        | 0             | 0             | 0             | 0             | $\frac{1}{5} \times 1.609 = 0.322$  |

---

## Bước 5: Tính Cosine Similarity
### Công thức:
$\text{Cosine Similarity}(A, B) = \frac{\sum_{i=1}^n A_i \cdot B_i}{\sqrt{\sum_{i=1}^n A_i^2} \cdot \sqrt{\sum_{i=1}^n B_i^2}}$

Trong đó:
- $A_i$: Thành phần thứ $i$ của vector $A$.
- $B_i$: Thành phần thứ $i$ của vector $B$.

### Chuẩn hóa vector TF-IDF (tính độ dài vector):
- **Câu 1**:
  $\|v_1\| = \sqrt{(0.536)^2 + (0.536)^2} = \sqrt{0.287 + 0.287} = \sqrt{0.574} \approx 0.758$
- **Câu 2**:
  $\|v_2\| = \sqrt{(0.536)^2 + (0.536)^2} = \sqrt{0.287 + 0.287} = \sqrt{0.574} \approx 0.758$
- **Câu 3**:
  $\|v_3\| = \sqrt{(0.536)^2 + (0.536)^2} = \sqrt{0.287 + 0.287} = \sqrt{0.574} \approx 0.758$
- **Câu 4**:
  $\|v_4\| = \sqrt{(0.305)^2 + (0.536)^2} = \sqrt{0.093 + 0.287} = \sqrt{0.380} \approx 0.616$
- **Câu 5**:
  $\|v_5\| = \sqrt{(0.183)^2 + (0.322)^2 + (0.322)^2 + (0.322)^2} = \sqrt{0.034 + 0.104 + 0.104 + 0.104} = \sqrt{0.346} \approx 0.588$

### Ma trận Cosine Similarity:
|       | Câu 1 | Câu 2 | Câu 3 | Câu 4 | Câu 5 |
|-------|-------|-------|-------|-------|-------|
| Câu 1 | 1.000 | 0.000 | 0.000 | 0.000 | 0.000 |
| Câu 2 | 0.000 | 1.000 | 0.000 | 0.000 | 0.000 |
| Câu 3 | 0.000 | 0.000 | 1.000 | 0.000 | 0.000 |
| Câu 4 | 0.000 | 0.000 | 0.000 | 1.000 | 0.154 |
| Câu 5 | 0.000 | 0.000 | 0.000 | 0.154 | 1.000 |


#### Sau khi tính toán độ tương đương với với các cặp câu liền kề thì câu 4 và câu 5 có độ tương đồng cao, nên sẽ gộp 2 câu này lại.

In [11]:
import math
import numpy as np
from collections import Counter

# Dữ liệu câu
all_sentences = [
    "Quả cam ngon.",
    "Quả táo dở.",
    "Quả chanh chua.",
    "Quả mít to.",
    "Quả mít rất thơm nữa.",
]

# Bước 1: Tiền xử lý - Chuyển các câu thành dạng từ
sentences_words = [sentence.lower().split() for sentence in all_sentences]

# Bước 2: Tính TF cho từng câu
tf_values = []
for words in sentences_words:
    total_words = len(words)
    word_count = Counter(words)  # Đếm số lần xuất hiện của mỗi từ
    tf = {word: count / total_words for word, count in word_count.items()}
    tf_values.append(tf)

# Bước 3: Tính IDF cho tất cả từ vựng
# Tổng số câu
N = len(all_sentences)

# Đếm số câu chứa mỗi từ (df)
df = {}
for sentence in sentences_words:
    unique_words = set(sentence)  # Dùng set để không đếm trùng lặp
    for word in unique_words:
        if word not in df:
            df[word] = 1
        else:
            df[word] += 1

# Tính IDF
idf_values = {word: math.log(N / df[word]) if df[word] > 0 else 0 for word in df}

# Bước 4: Tính TF-IDF cho từng câu
# Sắp xếp danh sách từ vựng theo thứ tự từ điển
vocabulary = sorted(df.keys())

# Tạo ma trận TF-IDF
tfidf_matrix = np.zeros((N, len(vocabulary)))

# Điền giá trị vào ma trận TF-IDF
for i, sentence in enumerate(sentences_words):
    tf = tf_values[i]
    for j, word in enumerate(vocabulary):
        tfidf_matrix[i, j] = tf.get(word, 0) * idf_values.get(word, 0)

print("Ma trận TF-IDF:")
print("Từ điển từ vựng:", vocabulary)
print(tfidf_matrix)

# Bước 5: Tính Cosine Similarity
def cosine_similarity(vec1, vec2):
    dot_product = np.dot(vec1, vec2)  # Tích vô hướng của 2 vector
    norm_vec1 = np.linalg.norm(vec1)  # Độ dài vector 1
    norm_vec2 = np.linalg.norm(vec2)  # Độ dài vector 2
    return dot_product / (norm_vec1 * norm_vec2) if norm_vec1 and norm_vec2 else 0

# Tạo ma trận Cosine Similarity
cosine_sim_matrix = np.zeros((N, N))

for i in range(N):
    for j in range(N):
        cosine_sim_matrix[i, j] = cosine_similarity(tfidf_matrix[i], tfidf_matrix[j])

print("\nMa trận Cosine Similarity:")
print(cosine_sim_matrix)


Ma trận TF-IDF:
Từ điển từ vựng: ['cam', 'chanh', 'chua.', 'dở.', 'mít', 'ngon.', 'nữa.', 'quả', 'rất', 'thơm', 'to.', 'táo']
[[0.5364793  0.         0.         0.         0.         0.5364793
  0.         0.         0.         0.         0.         0.        ]
 [0.         0.         0.         0.5364793  0.         0.
  0.         0.         0.         0.         0.         0.5364793 ]
 [0.         0.5364793  0.5364793  0.         0.         0.
  0.         0.         0.         0.         0.         0.        ]
 [0.         0.         0.         0.         0.30543024 0.
  0.         0.         0.         0.         0.5364793  0.        ]
 [0.         0.         0.         0.         0.18325815 0.
  0.32188758 0.         0.32188758 0.32188758 0.         0.        ]]

Ma trận Cosine Similarity:
[[1.         0.         0.         0.         0.        ]
 [0.         1.         0.         0.         0.        ]
 [0.         0.         1.         0.         0.        ]
 [0.         0.    

## Xử lý từ đầu đến cuối bao gồm "Chia nhỏ câu, so sánh độ tương đồng và sắp xếp câu, Thêm cột chunk và sắp xếp các chunk theo đúng bộ câu hỏi và câu trả lời"

In [12]:
from sklearn.metrics.pairwise import cosine_similarity

In [13]:
def get_cosine_similarity_test(sentences):
    # Vector hóa các câu bằng TfidfVectorizer
    vectorizer = TfidfVectorizer()
    vectors = vectorizer.fit_transform(sentences) 

    # Tính toán độ tương đồng cosine giữa các câu
    cosine_sim = cosine_similarity(vectors)
    return cosine_sim

def split_into_chunks(sentences, threshold=0.3):
    chunks = []
    current_chunk = [sentences[0]]
    cosine_sim = get_cosine_similarity_test(sentences)

    for i in range(1, len(sentences)):
        if cosine_sim[i-1, i] >= threshold:
            current_chunk.append(sentences[i])
        else:
            chunks.append(' '.join(current_chunk))
            current_chunk = [sentences[i]]
    
    chunks.append(' '.join(current_chunk))  # Đảm bảo chunk cuối cùng được thêm vào
    return chunks

chunk_records = []
for _, row in data.iterrows():
    text = row.get("Câu trả lời", "")
    if text and isinstance(text, str):
        sentences = nltk.sent_tokenize(text)
        chunks = split_into_chunks(sentences, threshold=0.3)
        # Lưu các chunk vào danh sách
        for chunk in chunks:
            chunk_record = {**row.to_dict(), 'chunk': chunk} 
            chunk_records.append(chunk_record)
chunks_df = pd.DataFrame(chunk_records)
chunks_df

Unnamed: 0,Câu hỏi,Câu trả lời,chunk
0,Các quả có mùi vị như thế nào?,Quả cam ngon. Quả táo dở. Quả chanh chua. Quả ...,Quả cam ngon.
1,Các quả có mùi vị như thế nào?,Quả cam ngon. Quả táo dở. Quả chanh chua. Quả ...,Quả táo dở.
2,Các quả có mùi vị như thế nào?,Quả cam ngon. Quả táo dở. Quả chanh chua. Quả ...,Quả chanh chua.
3,Các quả có mùi vị như thế nào?,Quả cam ngon. Quả táo dở. Quả chanh chua. Quả ...,Quả mít to. Quả mít rất thơm nữa.
4,Các quả có hình dáng như thế nào?,"Quả cam có hình tròn. Quả táo có hình tròn, hơ...","Quả cam có hình tròn. Quả táo có hình tròn, hơ..."
5,Các quả có hình dáng như thế nào?,"Quả cam có hình tròn. Quả táo có hình tròn, hơ...",Quả chanh hình bầu dục.
6,Các quả có hình dáng như thế nào?,"Quả cam có hình tròn. Quả táo có hình tròn, hơ...",Quả mít to dài có vỏ xù xì.
7,Các quả có hình dáng như thế nào?,"Quả cam có hình tròn. Quả táo có hình tròn, hơ...",Quả mít có thể lấy gỗ.


#### Các chunk sẽ được sắp xếp đúng với các cặp câu hỏi và câu trả lời

## SAVE DATA - Lưu data vào chromaDB


### Tiến hành chia các câu thành các batch (lô), với mục đích xử lý theo lô
#### Ví Dụ:
- chúng ta có 513 dòng data thì chúng ta sẽ tiến hành chia các data theo lô, và khi xử lý chúng ta sẽ xử lý theo lô
- Chúng ta định nghĩa 1 batch là 256 dòng data
- chúng ta sẽ tìm ra số lượng batch băng các lấy tổng dòng data chia 256 và lấy kết quả là 1 số được làm tròn lên | 513 / 256 = 2,004 => làm tròn lên 3 => có 3 batch

- Sau đó mỗi batch sẽ được định nghĩa trong khoảng nào trong data_df

In [14]:
import math

def divide_dataframe(df, batch_size):
    num_batches = math.ceil(len(df) / batch_size)  # Tính số lượng batch
    return [df.iloc[i * batch_size:(i + 1) * batch_size] for i in range(num_batches)] # Định nghĩa khoảng cho từng batch


# Hàm lưu data vào collection

### Khi lưu vào VectorDB thì chúng ta sẽ lưu các thông tin như sau:
- embedding: là phần chunk "đã được sử dụng model Sbert" để chuyển thành vector (Mã hóa dữ liệu trong cột 'chunk' thành vector cho batch này)
- metadata: Thu thập tất cả metadata vào một danh sách, bao gồm câu hỏi, Câu trả lời và chunk
- id: tạo ra id duy nhất cho mỗi batch 

In [15]:
import uuid

def process_batch(batch_df, model, collection):
    """Mã hóa và lưu dữ liệu vào Chroma vector store cho batch này."""
    try:
        # Mã hóa dữ liệu trong cột 'chunk' thành vector cho batch này
        embeddings = model.encode(batch_df['chunk'].tolist())

        # Thu thập tất cả metadata vào một danh sách
        metadatas = [row.to_dict() for _, row in batch_df.iterrows()]

        # Tạo ID duy nhất cho mỗi phần tử trong batch
        batch_ids = [str(uuid.uuid4()) for _ in range(len(batch_df))]

        # Thêm batch vào Chroma collection
        collection.add(
            ids=batch_ids,
            embeddings=embeddings,
            metadatas=metadatas
        )

    except Exception as e:
        print(f"Xảy ra lỗi khi thêm dữ liệu vào Chroma: {str(e)}")

## Tiến hành lưu data 

- model sử dụng là: keepitreal/vietnamese-sbert
- batch_size = 256
- Chia thành các batch (df_batches = divide_dataframe(chunks_df, batch_size)) -> CHuyển các dataframe thành các batch
- Tạo 1 colection mới trong DB
- Tiến hành xử lý từng batch và thêm vào collection

In [None]:
import chromadb

chroma_client = chromadb.Client()
model = SentenceTransformer('keepitreal/vietnamese-sbert')
batch_size = 256

# Chia DataFrame thành các batch nhỏ
df_batches = divide_dataframe(chunks_df, batch_size)

# Kiểm tra nếu collection đã tồn tại hoặc tạo mới
collection_name = "my_collection"
collection = chroma_client.get_or_create_collection(name=collection_name)

# In ra thông tin collection để xác nhận
print(f"Collection '{collection_name}' đã được tạo hoặc lấy thành công.")



Collection 'my_collection' đã được tạo hoặc lấy thành công.


: 

In [None]:
# Xử lý từng batch và thêm vào collection
for i, batch_df in enumerate(df_batches):
    if batch_df.empty:
        continue  # Bỏ qua batch trống
    process_batch(batch_df, model, collection)

# Kiểm tra và in ra số lượng items đã được lưu vào collection
result = collection.get(include=["metadatas", "embeddings"])  # Lấy dữ liệu từ collection
print(f"Số lượng phần tử trong collection: {len(result['metadatas'])}")

# các phần tử trong colection "my_collection" gồm 8 dòng với các metadata như ở dưới 

In [12]:
for i in range(min(100, len(result['metadatas']))):  # Hiển thị tối đa 5 phần tử
    print(f"Metadata {i+1}: {result['metadatas'][i]}")  # In ra thông tin metadata của phần tử thứ i

Metadata 1: {'Câu hỏi ': 'Các quả có mùi vị như thế nào', 'Câu trả lời': 'Quả cam ngon. Quả táo dở. Quả chanh chua. Quả mít to. Quả mít rất thơm nữa', 'chunk': 'Quả cam ngon.'}
Metadata 2: {'Câu hỏi ': 'Các quả có mùi vị như thế nào', 'Câu trả lời': 'Quả cam ngon. Quả táo dở. Quả chanh chua. Quả mít to. Quả mít rất thơm nữa', 'chunk': 'Quả táo dở.'}
Metadata 3: {'Câu hỏi ': 'Các quả có mùi vị như thế nào', 'Câu trả lời': 'Quả cam ngon. Quả táo dở. Quả chanh chua. Quả mít to. Quả mít rất thơm nữa', 'chunk': 'Quả chanh chua.'}
Metadata 4: {'Câu hỏi ': 'Các quả có mùi vị như thế nào', 'Câu trả lời': 'Quả cam ngon. Quả táo dở. Quả chanh chua. Quả mít to. Quả mít rất thơm nữa', 'chunk': 'Quả mít to. Quả mít rất thơm nữa'}
Metadata 5: {'Câu hỏi ': 'Các quả có hình dáng như thế nào ', 'Câu trả lời': 'Quả cam có hình tròn. Quả táo có hình tròn, hơi nhỏ. Quả chanh hình bầu dục. Quả mít to dài có vỏ xù xì. Quả mít có thể lấy gỗ', 'chunk': 'Quả cam có hình tròn. Quả táo có hình tròn, hơi nhỏ.'}
M

## Search VECTOR

### Hàm vector search sẽ nhận các giá trị như
- Cấu đầu vào của người dùng (query)
- colection nào ở trong DB(collection)
- Lấy các cột nào trong metadata ra để trả lời cho user(chỉ lấy cột Câu hỏi và Câu trả lời "columns_to_answer")
- Số lượng tài liệu khi Retrivel được lấy ra (number_docs_retrieval)

In [13]:
def vector_search( query, collection, columns_to_answer, number_docs_retrieval):
    model = SentenceTransformer('keepitreal/vietnamese-sbert') 
    query_embeddings = model.encode([query])
    
    # Fetch results from the collection
    search_results = collection.query(
        query_embeddings=query_embeddings, 
        n_results=number_docs_retrieval
    )  
    metadatas = search_results['metadatas']  
    scores = search_results['distances']   

    # Prepare the search result output  
    search_result = ""
    for i, (meta, score) in enumerate(zip(metadatas[0], scores[0]), start=1):  
        search_result += f"\n{i}) Distances: {score:.4f}"  
        for column in columns_to_answer:
            if column in meta:
                search_result += f" {column}: {meta.get(column)}"
        search_result += "\n"

    return metadatas, search_result

## Sử dụng hàm vector search để lấy ra tài liệu liên quan
- câu query của người dùng là "Quả nào ngon"
- collection sẽ là "my_collection"
- trả về metadata bao gồm cột câu hỏi và câu trả lời 
- number_docs_retrieval = 2(số lượng tài liệu được lấy về là 2)

In [14]:
prompt = "Quả nào ngon"
number_docs_retrieval = 2
columns_to_select = [col for col in chunks_df.columns if col != 'chunk']  # Chọn cột trừ 'chunk'
model = SentenceTransformer('keepitreal/vietnamese-sbert') 

metadatas, retrieved_data = vector_search( 
    prompt, 
    collection,  
    columns_to_select,
    number_docs_retrieval
)


## các retrieved_data và metadatas được lấy ra

In [15]:
print(metadatas)


[[{'Câu hỏi ': 'Các quả có mùi vị như thế nào', 'Câu trả lời': 'Quả cam ngon. Quả táo dở. Quả chanh chua. Quả mít to. Quả mít rất thơm nữa', 'chunk': 'Quả mít to. Quả mít rất thơm nữa'}, {'Câu hỏi ': 'Các quả có mùi vị như thế nào', 'Câu trả lời': 'Quả cam ngon. Quả táo dở. Quả chanh chua. Quả mít to. Quả mít rất thơm nữa', 'chunk': 'Quả cam ngon.'}]]


In [16]:
print(retrieved_data)


1) Distances: 65.4447 Câu hỏi : Các quả có mùi vị như thế nào Câu trả lời: Quả cam ngon. Quả táo dở. Quả chanh chua. Quả mít to. Quả mít rất thơm nữa

2) Distances: 66.5960 Câu hỏi : Các quả có mùi vị như thế nào Câu trả lời: Quả cam ngon. Quả táo dở. Quả chanh chua. Quả mít to. Quả mít rất thơm nữa



# Gộp Câu hỏi người dùng và các tài liệu được lấy ra thành 1 câu truy vấn nhiều thông tin hơn. Chuẩn bị tiến hành đưa vào LLM xử lý

In [17]:
prompt = "Quả nào ngon"
enhanced_prompt = """Câu hỏi của người dùng là: "{}". Trả lời câu hỏi của người dùng dựa trên các dữ liệu sau: \n{}""".format(prompt, retrieved_data)

In [18]:
enhanced_prompt

'Câu hỏi của người dùng là: "Quả nào ngon". Trả lời câu hỏi của người dùng dựa trên các dữ liệu sau: \n\n1) Distances: 65.4447 Câu hỏi : Các quả có mùi vị như thế nào Câu trả lời: Quả cam ngon. Quả táo dở. Quả chanh chua. Quả mít to. Quả mít rất thơm nữa\n\n2) Distances: 66.5960 Câu hỏi : Các quả có mùi vị như thế nào Câu trả lời: Quả cam ngon. Quả táo dở. Quả chanh chua. Quả mít to. Quả mít rất thơm nữa\n'

# Hỏi đáp với GEMINI

In [19]:
# import chromadb

# chroma_client = chromadb.Client()
# chroma_client.delete_collection(collection_name)
# print(f"Collection '{collection_name}' đã được xóa.")

## Tiến hành gởi câu query lớn vào và call API gemini xử lý và trả về câu trả lời

In [20]:
import os
import google.generativeai as genai

os.environ['GOOGLE_API_KEY'] = "AIzaSyAzSRbvrs1CHI0NttkhZNPXiDD2ffyPvDc"

genai.configure(api_key = os.environ['GOOGLE_API_KEY'])
modelai = genai.GenerativeModel("gemini-1.5-pro")
response = modelai.generate_content(enhanced_prompt)

response.text

'Dựa trên dữ liệu được cung cấp, quả cam được mô tả là "ngon". Vậy nên câu trả lời cho câu hỏi "Quả nào ngon" là: **Cam**.\n'

## HYDE SEARCH

### HYDE SEARCH bao gồm xử lý như sau:
### Bước 1: Sử dụng LLM để trả lời câu hỏi của người dùng
### Bước 2: Vector hóa câu trả lời
### Bước 3: Sử dụng câu trả lời mới được vector hóa mang đi truy vấn độ tương đồng trong vector ĐB
### Bước 4: Trả về các tài liệu liên quan


# Ví dụ
## Bước 1: query = "Quả nào ngon"
## Bước 2: dùng LLM trả lời câu hỏi đó, (đưa ra 1 câu trả lời giả định)
## Bước 3: Vector hóa câu trả lời giả định
## Bước 4: sử dụng câu trả lời đã được vector hóa để retrival

In [21]:
#Hàm tạo ra 1 câu trả lời giả định
def generate_hypothetical_documents(query, num_samples=1): # t
    hypothetical_docs = []
    modelai = genai.GenerativeModel("gemini-1.5-pro")
    for _ in range(num_samples):
        enhanced_prompt = f"Write a paragraph that answers the question: {query}"
        # trả lời câu hỏi
        response = modelai.generate_content(enhanced_prompt)
        if response.candidates:  
            document_text = response.candidates[0].content.parts[0].text
            hypothetical_docs.append(document_text)
    
    return hypothetical_docs

# Vector vẫn sử dụng Sbeart vì phù hợp cho tiếng việt

In [22]:
# Hàm vector hóa cho câu hỏi giả định
def encode_hypothetical_documents(documents, encoder_model):
    embeddings = [encoder_model.encode([doc])[0] for doc in documents]
    avg_embedding = np.mean(embeddings, axis=0)
    return avg_embedding

Hàm xử lý chính

In [23]:

def hyde_search( encoder_model, query, columns_to_answer, number_docs_retrieval=1, num_samples=1):
    collection = chroma_client.get_or_create_collection(name="my_collection")
    hypothetical_documents = generate_hypothetical_documents(query, num_samples) # tiến hành đưa ra câu trả lời giả định cho câu hỏi của người dùng

    print("hypothetical_documents:", hypothetical_documents)
    
    # Encode the hypothetical documents into embeddings
    aggregated_embedding = encode_hypothetical_documents(hypothetical_documents, encoder_model)

    # Perform the search on the collection with the generated embeddings
    search_results = collection.query(
        query_embeddings=aggregated_embedding, 
        n_results=number_docs_retrieval)  # Fetch top 1 result
    
    search_result = ""
    metadatas = search_results['metadatas']

    # Format the search results
    for i, meta in enumerate(metadatas[0], start=1):
        search_result += f"\n{i})"
        for column in columns_to_answer:
            if column in meta:
                search_result += f" {column.capitalize()}: {meta.get(column)}"
        search_result += "\n"
    
    return metadatas, search_result

# Sử dụng hàm và lấy ra các tài liệu liên quan 

In [24]:

# Example usage
query = "Quả nào ngon"
columns_to_select = [col for col in chunks_df.columns if col != 'chunk']  # Chọn cột trừ 'chunk'
modelai = genai.GenerativeModel("gemini-1.5-pro")
encoder_model = SentenceTransformer('keepitreal/vietnamese-sbert')  # Mô hình nhỏ hơn

metadatas, retrieved_data = hyde_search(encoder_model, query, columns_to_select, number_docs_retrieval=2, num_samples=1)


hypothetical_documents: ['Tùy khẩu vị mỗi người mà câu trả lời cho "Quả nào ngon" sẽ khác nhau.  Có người thích vị chua chua ngọt ngọt của xoài, cam, quýt. Người khác lại ưa chuộng vị ngọt đậm đà của sầu riêng, mít, chôm chôm.  Kẻ thì mê mẩn vị thanh mát của dưa hấu, thanh long.  Vị chát chát của ổi, hồng xiêm cũng được lòng rất nhiều người.  Nói chung, mỗi loại quả đều có hương vị đặc trưng riêng, ngon theo cách riêng của nó, khó có thể khẳng định quả nào ngon nhất.\n']


In [25]:
print(metadatas)

[[{'Câu hỏi ': 'Các quả có mùi vị như thế nào', 'Câu trả lời': 'Quả cam ngon. Quả táo dở. Quả chanh chua. Quả mít to. Quả mít rất thơm nữa', 'chunk': 'Quả mít to. Quả mít rất thơm nữa'}, {'Câu hỏi ': 'Các quả có mùi vị như thế nào', 'Câu trả lời': 'Quả cam ngon. Quả táo dở. Quả chanh chua. Quả mít to. Quả mít rất thơm nữa', 'chunk': 'Quả cam ngon.'}]]


In [26]:
print(retrieved_data)


1) Câu hỏi : Các quả có mùi vị như thế nào Câu trả lời: Quả cam ngon. Quả táo dở. Quả chanh chua. Quả mít to. Quả mít rất thơm nữa

2) Câu hỏi : Các quả có mùi vị như thế nào Câu trả lời: Quả cam ngon. Quả táo dở. Quả chanh chua. Quả mít to. Quả mít rất thơm nữa



# Tiến hành gộp câu thành 1 câu prompt lớn hơn

In [27]:
prompt = "Quả nào ngon"
enhanced_prompt = """Câu hỏi của người dùng là: "{}". Trả lời câu hỏi của người dùng dựa trên các dữ liệu sau: \n{}""".format(prompt, retrieved_data)
enhanced_prompt

'Câu hỏi của người dùng là: "Quả nào ngon". Trả lời câu hỏi của người dùng dựa trên các dữ liệu sau: \n\n1) Câu hỏi : Các quả có mùi vị như thế nào Câu trả lời: Quả cam ngon. Quả táo dở. Quả chanh chua. Quả mít to. Quả mít rất thơm nữa\n\n2) Câu hỏi : Các quả có mùi vị như thế nào Câu trả lời: Quả cam ngon. Quả táo dở. Quả chanh chua. Quả mít to. Quả mít rất thơm nữa\n'

#  API gemini để xử lý theo câu prompt lớn và đưa ra câu trả lời

In [28]:
import os
import google.generativeai as genai

os.environ['GOOGLE_API_KEY'] = "AIzaSyAzSRbvrs1CHI0NttkhZNPXiDD2ffyPvDc"

genai.configure(api_key = os.environ['GOOGLE_API_KEY'])
modelai = genai.GenerativeModel("gemini-1.5-pro")
response = modelai.generate_content(enhanced_prompt)

response.text

'Dựa trên thông tin được cung cấp, quả **cam** được miêu tả là ngon.\n'