In [1]:
!pip install streamlit transformers torch  langchain sentence-transformers faiss-cpu pyvi langchain_community accelerate bitsandbytes

Collecting streamlit
  Downloading streamlit-1.49.0-py3-none-any.whl.metadata (9.5 kB)
Collecting faiss-cpu
  Downloading faiss_cpu-1.12.0-cp312-cp312-manylinux_2_27_x86_64.manylinux_2_28_x86_64.whl.metadata (5.1 kB)
Collecting pyvi
  Downloading pyvi-0.1.1-py2.py3-none-any.whl.metadata (2.5 kB)
Collecting langchain_community
  Downloading langchain_community-0.3.29-py3-none-any.whl.metadata (2.9 kB)
Collecting bitsandbytes
  Downloading bitsandbytes-0.47.0-py3-none-manylinux_2_24_x86_64.whl.metadata (11 kB)
Collecting pydeck<1,>=0.8.0b4 (from streamlit)
  Downloading pydeck-0.9.1-py2.py3-none-any.whl.metadata (4.1 kB)
Collecting sklearn-crfsuite (from pyvi)
  Downloading sklearn_crfsuite-0.5.0-py2.py3-none-any.whl.metadata (4.9 kB)
Collecting langchain-core<1.0.0,>=0.3.72 (from langchain)
  Downloading langchain_core-0.3.75-py3-none-any.whl.metadata (5.7 kB)
Collecting requests<3,>=2.27 (from streamlit)
  Downloading requests-2.32.5-py3-none-any.whl.metadata (4.9 kB)
Collecting datacl

In [2]:
!pip install gradio



In [3]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [4]:
!ls /content/drive/MyDrive/Data\ ChatBot

faiss_tthc		postprocessed_tthc.csv	Vistral-finetuned-final
phogpt-finetuned-final	test_phogpt.jsonl
postprocessed_link.csv	train_phogpt.jsonl


In [None]:
import gradio as gr
from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline, BitsAndBytesConfig
from langchain.vectorstores import FAISS
from langchain.embeddings import HuggingFaceEmbeddings
from sentence_transformers import CrossEncoder
from langchain.prompts import PromptTemplate
from langchain.llms import HuggingFacePipeline
import torch
import os
from pyvi.ViTokenizer import tokenize

# Hugging Face Token
# HF_TOKEN = "YOUR HUGGING FACE TOKEN"
os.environ["HUGGINGFACEHUB_API_TOKEN"] = HF_TOKEN

# Config
MODEL_NAME = "Viet-Mistral/Vistral-7B-Chat"
EMBED_MODEL = "keepitreal/vietnamese-sbert"
RERANK_MODEL = "itdainb/PhoRanker"
MAX_LENGTH = 512

# Prompt Template RAG
prompt_template = """
Bạn là trợ lý ảo dịch vụ công thông minh.
Sử dụng thông tin dưới đây để trả lời câu hỏi một cách chọn lọc và chính xác.
Không được bịa đặt hoặc suy diễn thông tin ngoài nội dung đã cho.
Nếu không tìm thấy thông tin trong context, hãy trả lời: "Xin lỗi, tôi không có thông tin về điều đó."

Context: {context}
Câu hỏi: {question}
Trả lời:
"""
PROMPT = PromptTemplate(template=prompt_template, input_variables=["context", "question"])

# Load model & tokenizer
def load_model():
    quantization_config = BitsAndBytesConfig(
        load_in_4bit=True,        # hoặc load_in_8bit=True
        bnb_4bit_compute_dtype=torch.float16,  # fp16 for faster
        bnb_4bit_use_double_quant=True,
        bnb_4bit_quant_type="nf4"
    )

    tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME, token=HF_TOKEN)
    model = AutoModelForCausalLM.from_pretrained(
        MODEL_NAME,
        quantization_config=quantization_config,
        device_map="auto",
        use_auth_token=HF_TOKEN
    )
    return tokenizer, model

print("load model...")
tokenizer, model = load_model()
print("Model đã load thành công!")

# Pipeline for text generation
llm_pipeline = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    max_new_tokens=512,
    temperature=0.1,
    repetition_penalty=1.1,
    return_full_text=False
)
llm = HuggingFacePipeline(pipeline=llm_pipeline)

# Load embeddings and FAISS database
embeddings = HuggingFaceEmbeddings(model_name=EMBED_MODEL)
db = FAISS.load_local("/content/drive/MyDrive/Data ChatBot/faiss_tthc", embeddings, allow_dangerous_deserialization=True)

# Load model rerank
model_rerank = CrossEncoder(RERANK_MODEL, max_length=MAX_LENGTH)

#  RAG and rerank
def rag_rerank(user_query, history):
    docs = db.similarity_search(user_query, k=10)
    all_texts = [d.page_content for d in docs]

    tokenized_query = tokenize(user_query)
    tokenized_sentences = [tokenize(sent) for sent in all_texts]
    tokenized_pairs = [(tokenized_query, sent) for sent in tokenized_sentences]

    scores = model_rerank.predict(tokenized_pairs)
    ranked_docs = [doc for _, doc in sorted(zip(scores, all_texts), key=lambda x: x[0], reverse=True)]

    top_docs = "\n\n".join(ranked_docs[:3])
    final_prompt = PROMPT.format(context=top_docs, question=user_query)

    answer = llm_pipeline(final_prompt)[0]['generated_text']
    history.append((user_query, answer))
    return history, ""

#UI Gradio
with gr.Blocks() as demo:
    gr.Markdown("## 💬 Chatbot TTHC (Vistral-7B)")

    chatbot = gr.Chatbot(height=500)
    msg = gr.Textbox(placeholder="Nhập câu hỏi của bạn...", label="Câu hỏi")
    clear = gr.Button("Xóa hội thoại")

    msg.submit(rag_rerank, [msg, chatbot], [chatbot, msg])
    clear.click(lambda: [], None, chatbot)

demo.launch(share=True)


🔄 Đang load model...


tokenizer_config.json:   0%|          | 0.00/2.52k [00:00<?, ?B/s]

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


tokenizer.model:   0%|          | 0.00/597k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/2.15M [00:00<?, ?B/s]

added_tokens.json:   0%|          | 0.00/122 [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/169 [00:00<?, ?B/s]



config.json:   0%|          | 0.00/614 [00:00<?, ?B/s]

model.safetensors.index.json:   0%|          | 0.00/25.1k [00:00<?, ?B/s]

Fetching 2 files:   0%|          | 0/2 [00:00<?, ?it/s]

model-00001-of-00002.safetensors:   0%|          | 0.00/10.0G [00:00<?, ?B/s]

model-00002-of-00002.safetensors:   0%|          | 0.00/4.59G [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/133 [00:00<?, ?B/s]

Device set to use cuda:0


✅ Model đã load thành công!


  llm = HuggingFacePipeline(pipeline=llm_pipeline)
  embeddings = HuggingFaceEmbeddings(model_name=EMBED_MODEL)


modules.json:   0%|          | 0.00/229 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/122 [00:00<?, ?B/s]

README.md: 0.00B [00:00, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/752 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/540M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/313 [00:00<?, ?B/s]

vocab.txt: 0.00B [00:00, ?B/s]

bpe.codes: 0.00B [00:00, ?B/s]

model.safetensors:   0%|          | 0.00/540M [00:00<?, ?B/s]

added_tokens.json:   0%|          | 0.00/17.0 [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/150 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/814 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/540M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/28.0 [00:00<?, ?B/s]

vocab.txt: 0.00B [00:00, ?B/s]

bpe.codes: 0.00B [00:00, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

README.md: 0.00B [00:00, ?B/s]

  chatbot = gr.Chatbot(height=500)


Colab notebook detected. To show errors in colab notebook, set debug=True in launch()
* Running on public URL: https://a56652511e840542a1.gradio.live

This share link expires in 1 week. For free permanent hosting and GPU upgrades, run `gradio deploy` from the terminal in the working directory to deploy to Hugging Face Spaces (https://huggingface.co/spaces)




In [7]:
user_query = "Lệ phí cấp lại thẻ Căn cước công dân là bao nhiêu?"

docs = db.similarity_search(user_query, k=10)
all_texts = [d.page_content for d in docs]

tokenized_query = tokenize(user_query)
tokenized_sentences = [tokenize(sent) for sent in all_texts]
tokenized_pairs = [(tokenized_query, sent) for sent in tokenized_sentences]

scores = model_rerank.predict(tokenized_pairs)
ranked_docs = [doc for _, doc in sorted(zip(scores, all_texts), key=lambda x: x[0], reverse=True)]

top_docs = "\n\n".join(ranked_docs[:3])
final_prompt = PROMPT.format(context=top_docs, question=user_query)

answer = llm_pipeline(final_prompt)[0]['generated_text']


In [8]:
top_docs

'Tên thủ tục: Cấp thẻ Căn cước công dân khi chưa có thông tin trong Cơ sở dữ liệu quốc gia về dân cư (thực hiện tại cấp trung ương)\ncachThucThucHien: Hình thức nộp Thời hạn giải quyết Phí, lệ phí Mô tả\r\nTrực tiếp 07 Ngày làm việc Lệ phí : 30.000 Đồng Công dân chuyển từ Chứng minh nhân dân 9 số, Chứng minh nhân dân 12 số sang cấp thẻ Căn cước công dân: 30.000 đồng/ thẻ Căn cước công dân.\r\nLệ phí : 0 Đồng Công dân từ đủ 14 tuổi trở lên làm thủ tục cấp thẻ Căn cước công dân lần đầu không phải nộp lệ phí\r\n+ Trực tiếp tại trụ sở Trung tâm dữ liệu quốc gia về dân cư, Cục Cảnh sát quản lý hành chính về trật tự xã hội, Bộ Công an; + Thông qua Cổng dịch vụ công quốc gia, Cổng dịch vụ công Bộ Công an để đăng ký thời gian, địa điểm làm thủ tục đề nghị cấp thẻ Căn cước công dân; + Cấp lưu động tại các địa điểm cần thiết\n\nTên thủ tục: Cấp thẻ Căn cước công dân khi chưa có thông tin trong Cơ sở dữ liệu quốc gia về dân cư (thực hiện tại cấp huyện)\ncachThucThucHien: Hình thức nộp Thời hạn gi