In [1]:
!pip install pandas numpy sentence-transformers openai tiktoken langchain chromadb langchain-community faiss-cpu gradio langchain-openai

Collecting chromadb
  Downloading chromadb-1.0.9-cp39-abi3-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (6.9 kB)
Collecting langchain-community
  Downloading langchain_community-0.3.24-py3-none-any.whl.metadata (2.5 kB)
Collecting faiss-cpu
  Downloading faiss_cpu-1.11.0-cp311-cp311-manylinux_2_28_x86_64.whl.metadata (4.8 kB)
Collecting gradio
  Downloading gradio-5.29.1-py3-none-any.whl.metadata (16 kB)
Collecting langchain-openai
  Downloading langchain_openai-0.3.17-py3-none-any.whl.metadata (2.3 kB)
Collecting fastapi==0.115.9 (from chromadb)
  Downloading fastapi-0.115.9-py3-none-any.whl.metadata (27 kB)
Collecting uvicorn>=0.18.3 (from uvicorn[standard]>=0.18.3->chromadb)
  Downloading uvicorn-0.34.2-py3-none-any.whl.metadata (6.5 kB)
Collecting posthog>=2.4.0 (from chromadb)
  Downloading posthog-4.0.1-py2.py3-none-any.whl.metadata (3.0 kB)
Collecting onnxruntime>=1.14.1 (from chromadb)
  Downloading onnxruntime-1.22.0-cp311-cp311-manylinux_2_27_x86_64.manylinux_2_28_

In [1]:
# kết nối với gg drive
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [2]:
# Phần tiền xử lý dữ liệu tối ưu
import json
import pandas as pd
import numpy as np
import re
import pickle
import os
from sentence_transformers import SentenceTransformer
from google.colab import files  # Giữ lại cho môi trường Colab

# Hàm đọc dữ liệu từ file
def load_data(file_path):
    """Đọc dữ liệu từ file JSON"""
    try:
        with open(file_path, 'r', encoding='utf-8') as f:
            data = json.load(f)
        print(f"Đã đọc {len(data)} mục từ file {file_path}")
        return data
    except Exception as e:
        print(f"Lỗi khi đọc file: {str(e)}")
        return []

# Hàm làm sạch văn bản
def clean_text(text):
    """Làm sạch văn bản"""
    if not isinstance(text, str) or pd.isna(text):
        return ""
    # Loại bỏ ký tự đặc biệt, giữ lại dấu câu cơ bản
    text = re.sub(r'[^\w\s.,?!;:()[\]{}"\'-]', ' ', text)
    # Chuẩn hóa khoảng trắng
    text = re.sub(r'\s+', ' ', text)
    return text.strip()

# Hàm xử lý và làm sạch dữ liệu
def process_data(data):
    """Xử lý và làm sạch dữ liệu"""
    clean_data = []

    for item in data:
        new_item = {}
        if 'cau_hoi' in item and 'cau_tra_loi' in item:
            new_item['question'] = clean_text(item.get('cau_hoi', ''))
            new_item['answer'] = clean_text(item.get('cau_tra_loi', ''))
        elif 'cau_tra_loi' in item:
            # Xử lý các mục chỉ có câu trả lời
            new_item['question'] = ""
            new_item['answer'] = clean_text(item.get('cau_tra_loi', ''))

        if new_item.get('answer'):  # Thêm vào nếu có câu trả lời
            clean_data.append(new_item)

    print(f"Số dòng dữ liệu sau khi làm sạch: {len(clean_data)}/{len(data)}")
    return clean_data

# Hàm hiển thị thống kê dữ liệu
def show_data_stats(data):
    """Hiển thị thống kê về dữ liệu"""
    question_lengths = [len(item['question'].split()) for item in data if item['question']]
    answer_lengths = [len(item['answer'].split()) for item in data]

    print(f"Thống kê dữ liệu:")
    print(f"- Tổng số mục: {len(data)}")
    print(f"- Số mục có câu hỏi: {len([item for item in data if item['question']])}")
    if question_lengths:
        print(f"- Độ dài trung bình câu hỏi: {np.mean(question_lengths):.2f} từ")
        print(f"- Câu hỏi ngắn nhất: {min(question_lengths)} từ")
        print(f"- Câu hỏi dài nhất: {max(question_lengths)} từ")
    print(f"- Độ dài trung bình câu trả lời: {np.mean(answer_lengths):.2f} từ")
    print(f"- Câu trả lời ngắn nhất: {min(answer_lengths)} từ")
    print(f"- Câu trả lời dài nhất: {max(answer_lengths)} từ")

# Hàm tải mô hình embedding
def load_embedding_model(primary_model="vinai/phobert-base-v2", fallback_model="all-MiniLM-L6-v2"):
    """Tải mô hình embedding"""
    try:
        model = SentenceTransformer(primary_model)
        print(f"Đã tải mô hình {primary_model}")
        return model
    except Exception as e:
        print(f"Không thể tải mô hình {primary_model}, lỗi: {e}")
        print(f"Đang thử tải mô hình dự phòng...")
        model = SentenceTransformer(fallback_model)
        print(f"Đã tải mô hình dự phòng {fallback_model}")
        return model

# Hàm tạo embeddings
def create_embeddings(model, texts, batch_size=32):
    """Tạo embeddings từ texts"""
    print(f"Đang tạo embeddings cho {len(texts)} văn bản...")
    embeddings = model.encode(texts, batch_size=batch_size, show_progress_bar=True)
    return embeddings

# Hàm tạo documents
def create_documents(clean_data):
    """Tạo documents từ dữ liệu đã làm sạch"""
    documents = []
    for i, item in enumerate(clean_data):
        question = item['question']
        answer = item['answer']

        # Tạo nội dung kết hợp
        if question:
            content = f"Câu hỏi: {question}\nCâu trả lời: {answer}"
        else:
            content = f"Câu trả lời: {answer}"

        documents.append({
            'id': str(i),
            'question': question,
            'answer': answer,
            'content': content
        })

    return documents

# Xử lý dữ liệu chính
file_path = "/content/drive/MyDrive/datachatbot.json"  # Đường dẫn file trên Google Drive
data = load_data(file_path)

# Làm sạch dữ liệu
clean_data = process_data(data)

# Hiển thị thông tin thống kê
show_data_stats(clean_data)

# Tạo DataFrame để dễ xử lý (nếu cần)
df_clean = pd.DataFrame(clean_data)

# Tạo documents
documents = create_documents(clean_data)

# Tải mô hình embedding
model = load_embedding_model()

# Tạo embeddings cho documents
contents = [doc['content'] for doc in documents]
content_embeddings = create_embeddings(model, contents)

# Lưu documents và embeddings
with open('ptit_documents.pkl', 'wb') as f:
    pickle.dump(documents, f)

with open('ptit_embeddings.pkl', 'wb') as f:
    pickle.dump(content_embeddings, f)

print("Đã lưu documents và embeddings thành công!")

# Tải xuống các file đã tạo
files.download('ptit_documents.pkl')
files.download('ptit_embeddings.pkl')
print("Đã hoàn thành tiền xử lý dữ liệu!")

Đã đọc 928 mục từ file /content/drive/MyDrive/datachatbot.json
Số dòng dữ liệu sau khi làm sạch: 219/928
Thống kê dữ liệu:
- Tổng số mục: 219
- Số mục có câu hỏi: 219
- Độ dài trung bình câu hỏi: 17.41 từ
- Câu hỏi ngắn nhất: 6 từ
- Câu hỏi dài nhất: 37 từ
- Độ dài trung bình câu trả lời: 41.77 từ
- Câu trả lời ngắn nhất: 7 từ
- Câu trả lời dài nhất: 166 từ


The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


config.json:   0%|          | 0.00/678 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/540M [00:00<?, ?B/s]

Some weights of RobertaModel were not initialized from the model checkpoint at vinai/phobert-base-v2 and are newly initialized: ['pooler.dense.bias', 'pooler.dense.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


model.safetensors:   0%|          | 0.00/540M [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/895k [00:00<?, ?B/s]

bpe.codes:   0%|          | 0.00/1.14M [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/3.13M [00:00<?, ?B/s]

Đã tải mô hình vinai/phobert-base-v2
Đang tạo embeddings cho 219 văn bản...


Batches:   0%|          | 0/7 [00:00<?, ?it/s]

Đã lưu documents và embeddings thành công!


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

Đã hoàn thành tiền xử lý dữ liệu!


In [4]:
import os
from dotenv import load_dotenv
from langchain_openai import ChatOpenAI
import openai

# Thử tải từ file .env nếu có
try:
    load_dotenv()
    OPENROUTER_API_KEY = os.environ.get("OPENROUTER_API_KEY")
except:
    pass

# Nếu không có trong .env, sử dụng key trực tiếp (không khuyến khích trong production)
if not OPENROUTER_API_KEY:
    OPENROUTER_API_KEY = "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"  # Thay bằng API key thực

os.environ["OPENAI_API_KEY"] = OPENROUTER_API_KEY

# Thiết lập base URL cho OpenRouter
openai.api_base = "https://openrouter.ai/api/v1"
os.environ["OPENAI_API_BASE"] = "https://openrouter.ai/api/v1"

# Các biến môi trường hữu ích cho OpenRouter
os.environ["ROUTER_REFERRER_URL"] = "https://ptit.edu.vn"
os.environ["ROUTER_TITLE"] = "PTIT Chatbot"

# Khởi tạo ChatOpenAI
llm = ChatOpenAI(
    model="meta-llama/llama-3.3-8b-instruct:free",
    temperature=0.3,
)

In [5]:
# Tạo lại vector store từ file đã lưu
from langchain_community.vectorstores import FAISS
from langchain_core.embeddings import Embeddings  # Import này rất quan trọng

# Tạo một wrapper class để sử dụng embeddings đã tạo sẵn
class PrecomputedEmbeddings(Embeddings):
    def __init__(self, model, documents, embeddings):
        self.model = model
        self.documents = documents
        self.embeddings = embeddings
        self.embedding_dict = {doc['content']: emb for doc, emb in zip(documents, embeddings)}

    def embed_documents(self, texts):
        # Lấy kích thước vector từ embedding đầu tiên
        vector_size = len(self.embeddings[0]) if len(self.embeddings) > 0 else 384
        return [self.embedding_dict.get(text, [0]*vector_size) for text in texts]

    def embed_query(self, text):
        # Sử dụng mô hình để embed truy vấn mới
        return self.model.encode(text).tolist()

# Tạo wrapper cho embeddings
embeddings_wrapper = PrecomputedEmbeddings(model, documents, content_embeddings)

# Tạo FAISS vector store
texts = [doc['content'] for doc in documents]
metadatas = [{"id": doc['id'], "question": doc['question'], "answer": doc['answer']} for doc in documents]

faiss_db = FAISS.from_texts(texts=texts, embedding=embeddings_wrapper, metadatas=metadatas)

In [6]:
from langchain.prompts import PromptTemplate
from langchain_core.runnables import RunnablePassthrough
from langchain_core.output_parsers import StrOutputParser

# Tạo retriever từ vector store
retriever = faiss_db.as_retriever(search_kwargs={"k": 3})

# Tạo template cho prompt
template = """Bạn là một trợ lý AI giúp sinh viên và người quan tâm tìm hiểu về Học viện Công nghệ Bưu chính Viễn thông (PTIT).
Hãy sử dụng thông tin được cung cấp dưới đây để trả lời câu hỏi của người dùng một cách chính xác nhất.
Nếu không có đủ thông tin để trả lời, hãy thừa nhận điều đó và đề nghị liên hệ trực tiếp với nhà trường.

Thông tin tham khảo:
{context}

Câu hỏi: {question}

Trả lời bằng tiếng Việt, trình bày rõ ràng, mạch lạc và lịch sự:
"""

prompt = PromptTemplate.from_template(template)

def format_docs(docs):
    return "\n\n".join([doc.page_content for doc in docs])

# Tạo RAG chain
rag_chain = (
    {"context": retriever | format_docs, "question": RunnablePassthrough()}
    | prompt
    | llm
    | StrOutputParser()
)

In [7]:
import gradio as gr

def query_rag(query):
    if not query:
        return "Vui lòng nhập câu hỏi của bạn."

    try:
        result = rag_chain.invoke(query)
        return result
    except Exception as e:
        return f"Có lỗi xảy ra: {str(e)}"

# Tạo giao diện với Gradio
demo = gr.Interface(
    fn=query_rag,
    inputs=gr.Textbox(lines=2, placeholder="Nhập câu hỏi về PTIT..."),
    outputs="text",
    title="PTIT RAG Chatbot",
    description="Hỏi đáp về Học viện Công nghệ Bưu chính Viễn thông (PTIT)",
    examples=[
        ["PTIT có những ngành đào tạo nào?"],
        ["Học phí trung bình một năm ở PTIT là bao nhiêu?"],
        ["PTIT có ký túc xá cho sinh viên không?"],
        ["Điểm chuẩn ngành Công nghệ thông tin năm ngoái là bao nhiêu?"],
    ]
)

# Chạy demo
demo.launch(share=True)  # share=True để tạo public URL

Colab notebook detected. To show errors in colab notebook, set debug=True in launch()
* Running on public URL: https://c3b51031f2fce6c549.gradio.live

This share link expires in 1 week. For free permanent hosting and GPU upgrades, run `gradio deploy` from the terminal in the working directory to deploy to Hugging Face Spaces (https://huggingface.co/spaces)


