In [1]:
!pip -qq install -U xformers --index-url https://download.pytorch.org/whl/cu118
!pip -qq install langchain optimum qdrant-client wikipedia FastAPI uvicorn pyngrok
!pip -qq install https://github.com/vllm-project/vllm/releases/download/v0.2.2/vllm-0.2.2+cu118-cp310-cp310-manylinux1_x86_64.whl
!pip install --upgrade pydantic
!pip install vllm

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m29.0/29.0 MB[0m [31m45.7 MB/s[0m eta [36m0:00:00[0m
[?25h[31mERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
albumentations 1.4.20 requires pydantic>=2.7.0, but you have pydantic 1.10.13 which is incompatible.
langchain 0.3.8 requires pydantic<3.0.0,>=2.7.4, but you have pydantic 1.10.13 which is incompatible.
langchain-core 0.3.21 requires pydantic<3.0.0,>=2.5.2; python_full_version < "3.12.4", but you have pydantic 1.10.13 which is incompatible.
pydantic-settings 2.6.1 requires pydantic>=2.7.0, but you have pydantic 1.10.13 which is incompatible.[0m[31m
Collecting pydantic
  Using cached pydantic-2.10.1-py3-none-any.whl.metadata (169 kB)
Using cached pydantic-2.10.1-py3-none-any.whl (455 kB)
Installing collected packages: pydantic
  Attempting uninstall: pydantic
    Found existing insta

Lỗi bạn đang gặp liên quan đến xung đột dependency khi cài đặt các thư viện Python qua `pip`. Dù không nghiêm trọng đến mức làm hỏng toàn bộ hệ thống, nó có thể gây ra vấn đề khi chạy các ứng dụng nếu các dependencies không tương thích. Dưới đây là phân tích và cách giải quyết:

---

### 1. **Nguyên nhân**
- **Conflicts giữa các phiên bản**:
  - Một số thư viện yêu cầu các phiên bản cụ thể của `pydantic` và `protobuf`. Ví dụ:
    - `vllm` yêu cầu `pydantic==1.10.13`.
    - `langchain` yêu cầu `pydantic>=2.7.4`.
    - `tensorflow` yêu cầu `protobuf<5.0.0`, trong khi phiên bản bạn cài đặt là `protobuf 5.28.3`.
- **Dependency resolver của pip không kiểm tra toàn bộ cây dependency**: Điều này dẫn đến việc các phiên bản không tương thích cùng tồn tại.

---

### 2. **Tác động**
- **Ứng dụng có thể không chạy đúng**:
  - Nếu bạn sử dụng các thư viện như `langchain` hoặc `vllm`, ứng dụng có thể lỗi khi khởi chạy.
- **Khó bảo trì**:
  - Về lâu dài, việc sử dụng các dependencies không tương thích có thể gây ra lỗi tiềm ẩn.

---

### 3. **Cách giải quyết**
Để khắc phục vấn đề, bạn có thể thử các bước sau:

#### a. **Tạo môi trường ảo mới**
Đảm bảo bạn làm việc trong một môi trường Python sạch:
```bash
python -m venv myenv
source myenv/bin/activate  # Linux/Mac
myenv\Scripts\activate  # Windows
```

#### b. **Cài đặt dependencies tuần tự**
Cài đặt các phiên bản cụ thể, bắt đầu từ thư viện có yêu cầu nghiêm ngặt nhất:
```bash
pip install pydantic==1.10.13 protobuf<5.0.0
pip install tensorflow
pip install langchain[vllm]  # Nếu cần cả hai thư viện này
```

#### c. **Sử dụng file `requirements.txt`**
Tạo file `requirements.txt` với các dependencies chính xác:
```txt
pydantic==1.10.13
protobuf<5.0.0
tensorflow
langchain
vllm
```
Cài đặt với:
```bash
pip install -r requirements.txt
```

#### d. **Kiểm tra phiên bản Python**
Đảm bảo bạn sử dụng phiên bản Python tương thích, vì một số xung đột có thể do phiên bản Python không phù hợp.

#### e. **Sử dụng công cụ quản lý dependency**
Sử dụng `pip-tools` hoặc `poetry` để tự động giải quyết dependencies:
```bash
pip install pip-tools
pip-compile requirements.in
pip-sync
```

---

Nếu bạn vẫn gặp lỗi, hãy chia sẻ thêm chi tiết về ứng dụng bạn đang chạy để mình hỗ trợ sâu hơn.

In [2]:
!nvcc --version

nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2022 NVIDIA Corporation
Built on Wed_Sep_21_10:33:58_PDT_2022
Cuda compilation tools, release 11.8, V11.8.89
Build cuda_11.8.r11.8/compiler.31833905_0


In [8]:
!nvidia-smi

Mon Nov 25 17:48:38 2024       
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.104.05             Driver Version: 535.104.05   CUDA Version: 12.2     |
|-----------------------------------------+----------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|   0  Tesla T4                       Off | 00000000:00:04.0 Off |                    0 |
| N/A   66C    P0              31W /  70W |    797MiB / 15360MiB |      0%      Default |
|                                         |                      |                  N/A |
+-----------------------------------------+----------------------+----------------------+
                                                                    

In [3]:

GENERATE_MODEL_NAME="phatjk/vietcuna-7b-v3-AWQ"
EMBEDDINGS_MODEL_NAME="sentence-transformers/paraphrase-multilingual-mpnet-base-v2"
QDRANT_URL = "https://d3966086-8c65-4b03-895a-6926e1f83994.us-east4-0.gcp.cloud.qdrant.io"
QDRANT_COLLECTION_NAME = "Luat_vectordb"
NGROK_STATIC_DOMAIN = "briefly-knowing-treefrog.ngrok-free.app"
NGROK_TOKEN=          "2pHsZScewzWnFPxgNOvwnCtfA9R_2J42SPU3YQJhacrYbj4hM"
HUGGINGFACE_API_KEY = "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"
QDRANT_API_KEY =      "vkZ3snjz8mkKNj0weWgZxCvnz83ANbesUvYhz7HitC2X-rw_-d4hEg"

In [4]:
from transformers import AutoTokenizer, AutoModelForSequenceClassification
from optimum.bettertransformer import BetterTransformer
import torch
device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")
model_rerank = AutoModelForSequenceClassification.from_pretrained('amberoad/bert-multilingual-passage-reranking-msmarco').to(device)
#model_rerank = BetterTransformer.transform(model_rerank)
tokenizer_rerank = AutoTokenizer.from_pretrained('amberoad/bert-multilingual-passage-reranking-msmarco')

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


In [5]:
!pip install -U langchain-community

Collecting pydantic<3.0.0,>=2.7.4 (from langchain<0.4.0,>=0.3.8->langchain-community)
  Using cached pydantic-2.10.1-py3-none-any.whl.metadata (169 kB)
Using cached pydantic-2.10.1-py3-none-any.whl (455 kB)
Installing collected packages: pydantic
  Attempting uninstall: pydantic
    Found existing installation: pydantic 1.10.13
    Uninstalling pydantic-1.10.13:
      Successfully uninstalled pydantic-1.10.13
[31mERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
vllm 0.2.2+cu118 requires pydantic==1.10.13, but you have pydantic 2.10.1 which is incompatible.[0m[31m
[0mSuccessfully installed pydantic-2.10.1


In [6]:
pip show pydantic

Name: pydantic
Version: 2.10.1
Summary: Data validation using Python type hints
Home-page: https://github.com/pydantic/pydantic
Author: 
Author-email: Samuel Colvin <s@muelcolvin.com>, Eric Jolibois <em.jolibois@gmail.com>, Hasan Ramezani <hasan.r67@gmail.com>, Adrian Garcia Badaracco <1755071+adriangb@users.noreply.github.com>, Terrence Dorsey <terry@pydantic.dev>, David Montague <david@pydantic.dev>, Serge Matveenko <lig@countzero.co>, Marcelo Trylesinski <marcelotryle@gmail.com>, Sydney Runkle <sydneymarierunkle@gmail.com>, David Hewitt <mail@davidhewitt.io>, Alex Hall <alex.mojaki@gmail.com>, Victorien Plot <contact@vctrn.dev>
License: MIT
Location: /usr/local/lib/python3.10/dist-packages
Requires: annotated-types, pydantic-core, typing-extensions
Required-by: albumentations, confection, fastapi, google-cloud-aiplatform, google-generativeai, langchain, langchain-core, langsmith, openai, pydantic-settings, qdrant-client, spacy, thinc, vllm, weasel


In [7]:
from langchain.schema.document import Document
from langchain_core.vectorstores import VectorStoreRetriever
from langchain.retrievers import WikipediaRetriever
from typing import List
class RerankRetriever(VectorStoreRetriever):
    vectorstore: VectorStoreRetriever
    def get_relevant_documents(self, query: str) -> List[Document]:
        docs = self.vectorstore.get_relevant_documents(query=query)
        candidates = [doc.page_content for doc in docs]
        queries = [query]*len(candidates)
        features = tokenizer_rerank(queries, candidates,  padding=True, truncation=True, return_tensors="pt").to(device)
        with torch.no_grad():
            scores = model_rerank(**features).logits
            values, indices = torch.sum(scores, dim=1).sort()
            # relevant_docs = docs[indices[0]]
        return [docs[indices[0]],docs[indices[1]]]
class RerankWikiRetriever(VectorStoreRetriever):
    vectorstore: WikipediaRetriever
    def get_relevant_documents(self, query: str) -> List[Document]:
        docs = self.vectorstore.get_relevant_documents(query=query)
        candidates = [doc.page_content for doc in docs]
        queries = [query]*len(candidates)
        features = tokenizer_rerank(queries, candidates,  padding=True, truncation=True, return_tensors="pt").to(device)
        with torch.no_grad():
            scores = model_rerank(**features).logits
            values, indices = torch.sum(scores, dim=1).sort()
            # relevant_docs = docs[indices[0]]
        return [docs[indices[0]],docs[indices[1]]]

  class RerankRetriever(VectorStoreRetriever):
  class RerankWikiRetriever(VectorStoreRetriever):


In [9]:
from langchain.retrievers import WikipediaRetriever
from langchain.vectorstores import Qdrant
from langchain.llms import HuggingFacePipeline
from qdrant_client import QdrantClient
from langchain.prompts import PromptTemplate
from langchain.embeddings import HuggingFaceInferenceAPIEmbeddings
from langchain.chains import RetrievalQA,MultiRetrievalQAChain
from langchain.llms import VLLM
from langchain.llms import HuggingFaceHub

class LLMServe:
    def __init__(self) -> None:
      self.embeddings = self.load_embeddings()
      self.current_source = "wiki"
      self.retriever = self.load_retriever(retriever_name = self.current_source,embeddings=self.embeddings)
      self.pipe = self.load_model_pipeline(max_new_tokens=300)
      self.prompt = self.load_prompt_template()
      self.rag_pipeline = self.load_rag_pipeline(llm=self.pipe,
                                            retriever=self.retriever,
                                            prompt=self.prompt)
    def load_embeddings(self):
      embeddings = HuggingFaceInferenceAPIEmbeddings(
          model_name=EMBEDDINGS_MODEL_NAME,
          api_key = HUGGINGFACE_API_KEY,
          #model_kwargs = {'device': "auto"}
      )
      return embeddings

    def load_retriever(self,retriever_name,embeddings):
      retriever=None
      if retriever_name == "wiki":
        retriever = RerankWikiRetriever(vectorstore = WikipediaRetriever(lang="vi",
                                       doc_content_chars_max=800,top_k_results=15))
      else:
        client = QdrantClient(
            url=QDRANT_URL,api_key=QDRANT_API_KEY, prefer_grpc=False
        )
        db = Qdrant(client=client,
                    embeddings=embeddings,
                    collection_name=QDRANT_COLLECTION_NAME)

        retriever = RerankRetriever(vectorstore = db.as_retriever(search_kwargs={"k":15}))

      return retriever

    def load_model_pipeline(self,max_new_tokens=100):
      llm = VLLM(
          model=GENERATE_MODEL_NAME,
          trust_remote_code=True,  # mandatory for hf models
          max_new_tokens=max_new_tokens,
            # temperature=1.0,
            # top_k=50,
            # top_p=0.9,
          top_k=10,
          top_p=0.95,
          temperature=0.4,
          dtype="half",
          vllm_kwargs={"quantization": "awq"}
      )
      return llm

    def load_prompt_template(self):

      query_template = "Bạn là một chatbot thông minh trả lời câu hỏi dựa trên ngữ cảnh (context).\n\n### Context:{context} \n\n### Human: {question}\n\n### Assistant:"
      prompt = PromptTemplate(template=query_template,
                        input_variables= ["context","question"])
      return prompt

    def load_rag_pipeline(self,llm,retriever,prompt):
      rag_pipeline = RetrievalQA.from_chain_type(
      llm=llm, chain_type='stuff',
      retriever=retriever,
      chain_type_kwargs={
      "prompt": prompt
      },
      return_source_documents=True)
      return rag_pipeline

    def rag(self,source):
      if source == self.current_source:
        return self.rag_pipeline
      else:
        self.retriever = self.load_retriever(retriever_name=source,embeddings=self.embeddings)
        self.rag_pipeline = self.load_rag_pipeline(llm=self.pipe,
                                      retriever=self.retriever,
                                      prompt=self.prompt)
        self.current_source = source
        return self.rag_pipeline

In [10]:
!nvcc --version
!nvidia-smi
!pip show vllm

nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2022 NVIDIA Corporation
Built on Wed_Sep_21_10:33:58_PDT_2022
Cuda compilation tools, release 11.8, V11.8.89
Build cuda_11.8.r11.8/compiler.31833905_0
Mon Nov 25 17:49:33 2024       
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.104.05             Driver Version: 535.104.05   CUDA Version: 12.2     |
|-----------------------------------------+----------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|   0  Tesla T4                       Off | 00000000:00:04.0 Off |                    0 |
| N/A   69C    P0              31W /  70W |    797MiB / 15360MiB |      0%      Default |
|                                       

```bash
ImportError: Could not import vllm python package. Please install it with `pip install vllm`.

---------------------------------------------------------------------------
NOTE: If your import is failing due to a missing package, you can
manually install dependencies using either !pip or !apt.

To view examples of installing some common dependencies, click the
"Open Examples" button below.
```

Nguyên nhân lỗi
Lỗi libcudart.so.11.0 không tìm thấy xảy ra dù bạn đã cài đặt CUDA 12.2 vì phiên bản vllm (0.2.2+cu118) yêu cầu CUDA 11.8. Điều này dẫn đến không tương thích giữa phiên bản vllm và CUDA runtime hiện tại của hệ thống.

Cụ thể:

Phiên bản vllm bạn cài đặt được xây dựng dựa trên CUDA 11.8 (cu118).
CUDA 12.2 không tương thích ngược hoàn toàn với CUDA 11.8. Vì vậy, vllm không thể tìm thấy file libcudart.so.11.0.

Để cài CUDA 11.8 trên Google Colab, bạn có thể sử dụng các lệnh sau:

### 1. **Cài đặt CUDA 11.8**
```bash
!wget https://developer.download.nvidia.com/compute/cuda/11.8.0/local_installers/cuda_11.8.0_520.61.05_linux.run
!sudo sh cuda_11.8.0_520.61.05_linux.run --silent --toolkit
```

### 2. **Cập nhật biến môi trường**
```bash
import os
os.environ['PATH'] = '/usr/local/cuda-11.8/bin:' + os.environ['PATH']
os.environ['LD_LIBRARY_PATH'] = '/usr/local/cuda-11.8/lib64:' + os.environ.get('LD_LIBRARY_PATH', '')
```

### 3. **Kiểm tra phiên bản CUDA**
Sau khi cài đặt, xác minh CUDA:
```bash
!nvcc --version
```

---

### Lưu ý
- **Cấu hình Runtime**: Trên Google Colab, đảm bảo bạn chọn GPU trong Runtime Settings (Runtime > Change Runtime Type > Hardware Accelerator > GPU).
- CUDA đã được cài đặt sẵn trên Colab, nhưng phiên bản mặc định có thể không phải là 11.8. Do đó, việc cài đặt lại như trên sẽ đảm bảo phù hợp với `vllm`.

In [12]:
!ls /usr/local/cuda*/lib64 | grep libcudart.so

libcudart.so
libcudart.so.11.0
libcudart.so.11.8.89
libcudart.so
libcudart.so.12
libcudart.so.12.2.140
libcudart.so
libcudart.so.12
libcudart.so.12.2.140
libcudart.so
libcudart.so.11.0
libcudart.so.11.8.89


In [13]:
!echo $LD_LIBRARY_PATH

/usr/lib64-nvidia


In [14]:
import os
os.environ["LD_LIBRARY_PATH"] = "/usr/local/cuda-11.8/lib64:" + os.environ.get("LD_LIBRARY_PATH", "")
os.environ["PATH"] = "/usr/local/cuda-11.8/bin:" + os.environ.get("PATH", "")


In [15]:
!echo $LD_LIBRARY_PATH

/usr/local/cuda-11.8/lib64:/usr/lib64-nvidia


In [17]:
!sudo ln -sf /usr/local/cuda-11.8/lib64/libcudart.so.11.8.89 /usr/local/cuda-11.8/lib64/libcudart.so
!sudo ln -sf /usr/local/cuda-11.8/lib64/libcudart.so.11.8.89 /usr/local/cuda-11.8/lib64/libcudart.so.11.0


In [20]:
!ls /usr/local/cuda-11.8/lib64 | grep libcudart

libcudart.so
libcudart.so.11.0
libcudart.so.11.8.89
libcudart_static.a


In [21]:
!ls -l /usr/local/cuda-11.8/lib64/libcudart.so

lrwxrwxrwx 1 root root 47 Nov 25 17:52 /usr/local/cuda-11.8/lib64/libcudart.so -> /usr/local/cuda-11.8/lib64/libcudart.so.11.8.89


In [22]:
import os
print(os.environ["LD_LIBRARY_PATH"])

/usr/local/cuda-11.8/lib64:/usr/lib64-nvidia


In [None]:
!pip uninstall -y vllm
!pip install https://github.com/vllm-project/vllm/releases/download/v0.2.2/vllm-0.2.2+cu118-cp310-cp310-manylinux1_x86_64.whl


In [18]:
app = LLMServe()

ImportError: Could not import vllm python package. Please install it with `pip install vllm`.

In [None]:
from typing import Union
from fastapi.middleware.cors import CORSMiddleware
from fastapi.responses import JSONResponse
from fastapi.encoders import jsonable_encoder
from fastapi import FastAPI
origins = ["*"]
app_api = FastAPI()
app_api.add_middleware(
    CORSMiddleware,
    allow_origins=origins,
    allow_credentials=True,
    allow_methods=["*"],
    allow_headers=["*"],
)

@app_api.get("/")
def read_root():
    return "API RAG"

@app_api.get("/rag/{source}")
async def read_item(source: str, q: str | None = None):
    if q:
        data = app.rag(source=source)(q)
        sources = []
        for docs in data["source_documents"]:
            sources.append(docs.to_json()["kwargs"])
        res = {
            "result" : data["result"],
            "source_documents":sources
        }
        return JSONResponse(content=jsonable_encoder(res))
    return None


In [None]:
import nest_asyncio
from pyngrok import ngrok
import uvicorn
ngrok.set_auth_token(NGROK_TOKEN)
ngrok_tunnel = ngrok.connect(8000,domain=NGROK_STATIC_DOMAIN)
print('Public URL:', ngrok_tunnel.public_url)
nest_asyncio.apply()
uvicorn.run(app_api, port=8000)