Code này là một pipeline dùng để xây dựng và lưu trữ cơ sở dữ liệu vector (vector database) cho tìm kiếm văn bản liên quan. Dưới đây là các bước chính của đoạn code và ý nghĩa:

---

### **1. Cài đặt và tải dữ liệu**
- **`!pip install langchain qdrant-client`**: Cài đặt các thư viện cần thiết để xử lý dữ liệu và làm việc với vector database.
- **Tải dữ liệu từ Google Drive**: Sổ tay sinh viên 2023 được tải về và lưu dưới tên `sotay.txt`.

---

### **2. Xử lý dữ liệu**
- **Tải dữ liệu với TextLoader**:
  - Dữ liệu trong file `sotay.txt` được nạp thành đối tượng văn bản (`documents_sotay`).
- **Chia nhỏ văn bản**:
  - **`RecursiveCharacterTextSplitter`** chia văn bản thành các đoạn nhỏ (mỗi đoạn 800 ký tự, chồng lấn 400 ký tự) để dễ dàng tạo vector embeddings.
  - Điều này giúp tăng hiệu quả khi tìm kiếm thông tin liên quan đến các truy vấn ngắn.

---

### **3. Chuẩn bị công cụ tìm kiếm vector**
- **Embeddings**:
  - Dùng mô hình **`sentence-transformers/paraphrase-multilingual-mpnet-base-v2`** để chuyển đổi các đoạn văn thành vectors (đại diện số của đoạn văn bản).
  - Sử dụng **HuggingFace Inference API** để truy cập mô hình embedding qua API.
- **Qdrant**:
  - Qdrant là một cơ sở dữ liệu vector lưu trữ các vectors đã mã hóa từ dữ liệu.
  - Dữ liệu được lưu dưới dạng "collection" tên là `nttu_sotay_vector_db_v1`.

---

### **4. Tìm kiếm theo vector**
- **Tạo cơ sở dữ liệu vector**:
  - Đoạn văn đã được mã hóa (qua embeddings) và lưu lên server Qdrant.
  - Kết nối đến Qdrant thông qua API key và URL.
- **Similarity Search**:
  - Khi thực hiện tìm kiếm query (`"Xếp loại học bổng ở trường"`), hệ thống sử dụng vectors để tìm các đoạn văn liên quan dựa trên độ tương đồng.

---

### **Output**
- Kết quả của `similarity_search` sẽ trả về danh sách các đoạn văn bản (độ dài k=15) có nội dung liên quan nhất đến truy vấn.
- Bạn có thể kiểm tra nội dung các `found_docs` để xem kết quả.

---

### **Công dụng thực tế**
Đoạn code này có thể được dùng để:
1. Tạo một hệ thống hỏi đáp (QA) tự động cho nội dung "Sổ tay sinh viên 2023".
2. Cung cấp thông tin liên quan nhanh chóng mà không cần duyệt qua toàn bộ văn bản.
3. Tích hợp vào chatbot hoặc hệ thống tìm kiếm nội bộ cho sinh viên.

Nếu bạn cần thêm hướng dẫn hoặc giải thích chi tiết hơn, cứ hỏi nhé! 😊

## Bug

```
Request URL:
https://toad-vast-civet.ngrok-free.app/rag/nttu?q=xin%20ch%C3%A0o
Referrer Policy:
strict-origin-when-cross-origin
```
```
check 
      fetch("https://toad-vast-civet.ngrok-free.app/rag/" + sourceData + "?q=" + promptInput,

  let [sourceData, SetSourceData] = useState("nttu");

là sao nhỉ, giải thích tiêng việt
```

```
Cách sourceData được thiết kế ??? xem cả @back-end 
```
```
Cách sourceData được thiết kế ??? xem cả @back-end 
```
```
tại sao source lại nttu ??? 
```

Trong đoạn mã này, bạn có một hàm `fetch` để gửi yêu cầu GET đến một URL cụ thể. Hãy cùng phân tích từng phần:

```javascript
fetch("https://toad-vast-civet.ngrok-free.app/rag/" + sourceData + "?q=" + promptInput,
```

1. **`fetch`**: Đây là một hàm JavaScript dùng để thực hiện các yêu cầu HTTP. Trong trường hợp này, nó được sử dụng để gửi một yêu cầu GET đến một URL.

2. **URL**: 
   - `"https://toad-vast-civet.ngrok-free.app/rag/"`: Đây là phần đầu của URL, chỉ định máy chủ và đường dẫn cơ bản mà yêu cầu sẽ được gửi đến.
   - `+ sourceData`: `sourceData` là một biến trạng thái được định nghĩa bằng `useState`. Trong đoạn mã này, `sourceData` được khởi tạo với giá trị `"nttu"`. Điều này có nghĩa là URL sẽ trở thành `"https://toad-vast-civet.ngrok-free.app/rag/nttu"`.

3. **Query Parameter**:
   - `"?q=" + promptInput`: Đây là phần tham số truy vấn của URL. `promptInput` là một biến trạng thái khác, chứa giá trị mà người dùng nhập vào. Giá trị này sẽ được nối vào URL sau `"?q="`, tạo thành một tham số truy vấn. Ví dụ, nếu `promptInput` là `"xin chào"`, thì URL cuối cùng sẽ là `"https://toad-vast-civet.ngrok-free.app/rag/nttu?q=xin%20chào"`.

Tóm lại, đoạn mã này tạo ra một yêu cầu GET đến một API với đường dẫn và tham số truy vấn được xác định bởi các biến trạng thái `sourceData` và `promptInput`.




Từ code được cung cấp, tôi thấy `sourceData` được thiết kế như sau:

### Frontend (`ChatBot.jsx`):
```javascript
let [sourceData, SetSourceData] = useState("nttu"); // Mặc định là "nttu"
```

Khi gửi request đến backend:
```javascript
fetch("https://toad-vast-civet.ngrok-free.app/rag/" + sourceData + "?q=" + promptInput,
```

### Backend (`RAG_SERVER_GPU.ipynb`):
```python
# Cài đặt thông tin truy cập vector database
QDRANT_API_KEY = "<QDRANT_API_KEY>"
QDRANT_URL = "<QDRANT_URL>"
QDRANT_COLLECTION_NAME = "nttu_sotay_vector_db_v1"
```

### Giải thích:

1. **Frontend**:
   - `sourceData` được thiết lập mặc định là "nttu" 
   - Được sử dụng để xác định nguồn dữ liệu khi gửi câu hỏi đến backend
   - Ví dụ: khi `sourceData="nttu"`, request sẽ là `.../rag/nttu?q=...`

2. **Backend**:
   - Sử dụng Qdrant làm vector database để lưu trữ dữ liệu
   - Collection name được đặt là "nttu_sotay_vector_db_v1"
   - Dữ liệu được lấy từ "Sổ tay sinh viên 2023"

3. **Luồng hoạt động**:
   - Khi người dùng gửi câu hỏi, frontend sẽ gửi request với `sourceData="nttu"`
   - Backend sẽ tìm kiếm câu trả lời trong collection "nttu_sotay_vector_db_v1"
   - Kết quả sẽ được trả về cho người dùng

Tuy nhiên, để có thể thấy đầy đủ cách `sourceData` được xử lý ở backend, chúng ta cần xem thêm code của API endpoint `/rag/{source}` ở backend. Bạn có thể chia sẻ thêm code phần đó không?




Backend biết frontend đang gọi đến source nào thông qua tham số `source` trong URL của API request. Cụ thể, trong đoạn mã backend, bạn có một endpoint được định nghĩa như sau:

```python
@app_api.get("/rag/{source}")
async def read_item(source: str, q: str | None = None):
    if q:
        data = app.rag(source=source)(q)
        ...
```

### Giải thích:

1. **Endpoint `/rag/{source}`**:
   - `{source}` là một phần động của URL, cho phép bạn chỉ định nguồn dữ liệu mà bạn muốn truy vấn.
   - Khi frontend gửi yêu cầu, giá trị của `sourceData` từ frontend sẽ được gắn vào vị trí `{source}` trong URL.

2. **Frontend Request**:
   - Ví dụ, nếu `sourceData` là `"nttu"`, thì URL sẽ là `https://toad-vast-civet.ngrok-free.app/rag/nttu?q=xin%20chào`.
   - Trong trường hợp này, `source` sẽ nhận giá trị `"nttu"`.

3. **Xử lý trong Backend**:
   - Hàm `read_item` nhận `source` như một tham số.
   - `source` được sử dụng để xác định nguồn dữ liệu nào sẽ được truy vấn trong hàm `app.rag(source=source)(q)`.

Như vậy, backend sử dụng giá trị `source` từ URL để biết frontend đang yêu cầu dữ liệu từ nguồn nào.




Trong code, `"nttu"` được sử dụng như một giá trị mặc định cho `sourceData` ở frontend và được xử lý như một nguồn dữ liệu khác với `"wiki"` ở backend.

### Frontend:
```javascript
let [sourceData, SetSourceData] = useState("nttu"); // Mặc định là "nttu"
```

### Backend:
```python
def load_retriever(self,retriever_name,embeddings):
    retriever=None
    if retriever_name == "wiki":
        retriever = RerankWikiRetriever(vectorstore = WikipediaRetriever(lang="vi",
                                    doc_content_chars_max=800,top_k_results=15))
    else:  # Khi retriever_name là "nttu"
        client = QdrantClient(
            url=QDRANT_URL,
            api_key=QDRANT_API_KEY, 
            prefer_grpc=False
        )
        db = Qdrant(client=client,
                    embeddings=embeddings,
                    collection_name=QDRANT_COLLECTION_NAME)  # "nttu_sotay_vector_db_v1"

        retriever = RerankRetriever(vectorstore = db.as_retriever(search_kwargs={"k":15}))
```
